CN111125248A - 一种大数据存储解析查询系统 - Google Patents
一种大数据存储解析查询系统 Download PDFInfo
- Publication number
- CN111125248A CN111125248A CN201911308798.5A CN201911308798A CN111125248A CN 111125248 A CN111125248 A CN 111125248A CN 201911308798 A CN201911308798 A CN 201911308798A CN 111125248 A CN111125248 A CN 111125248A
- Authority
- CN
- China
- Prior art keywords
- data
- distributed
- data storage
- distributed data
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种大数据存储解析查询系统,包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构和数据可视化展示框架;分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据;分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算;分布式数据搜索架构用于各种场景下的分布式的海量数据搜索引擎;数据可视化展示框架采用MVC结构。本发明通过分布式存储和查询,多个节点同时存储和查询,提高了效率,节省了时间。在海量数据中的查询,相较于传统数据库是全表扫描,时间缓慢,分布式查询技术,同样的数据能达到秒级的速度。解析类型丰富,支持各种数据样本,且支持分布式解析,解析速度大大提升。
Description
技术领域
本发明涉及大数据处理技术领域,具体涉及一种大数据存储解析查询系统。
背景技术
随着互联网技术的高速发展,大数据的运用越来越广泛,也吸引了越来越多的关注。大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。这些数据在存储和解析中会花费过多时间和金钱,并且传统的数据库,在数据大量的增长的情况下,查询的速度会严重下降,从而影响效率。
发明内容
本发明提供了一种大数据存储解析查询系统,以解决在传统的数据库中,在数据大量的增长的情况下,数据库,在数据大量的增长的情况下,查询的速度会严重下降,从而影响效率的问题。
为解决上述技术问题,本发明通过以下技术方案予以实现:
一种大数据存储解析查询系统,其特征在于:包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构;
所述分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据;所述分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算;所述分布式数据搜索架构用于各种场景下的分布式的海量数据搜索引擎;
根据本发明的一实施方式,所述分布式数据存储架构包括客户端和Hadoop集群;
所述客户端将存档文件按64M分成两块,分别为block1和Block2;所述Hadoop集群包括一个NameNode节点模块和至少一个DataNode节点模块;所述客户端NameNode节点模块发送写数据请求;所述NameNode节点模块记录block信息,并返回到DataNode节点模块;所述客户端向DataNode节点模块发送block1;发送过程是以流式写入。
根据本发明的另一实施方式,所述流式写入过程包括以下步骤:
步骤1)将64M的block1按64k的package划分;
步骤2)将第一个package发送给第一个Datanode1;
步骤3)Datanode1接收完后,将第一个package发送给第二个Datanode2,同时client向Datanode1发送第二个package;
步骤4)Datanode2接收完第一个package后,发送给Datanode3,同时接收Datanode1发来的第二个package;
步骤5)以此类推,直到将block1发送完毕;
步骤6)Datanode1,Datanode2,Datanode3向NameNode,Datanode1向Client发送block1发送成功的消息。
步骤7)Client收到Datanode1发来的消息后,向Namenode发送消息;此时,block1发送完全结束,跳转到步骤S6,开始写入block2分块,直至block2发送完全结束。根据本发明的另一实施方式,所述分布式数据解析架构包括:
主节点:用于控制整个Hadoop集群,并监控从节点;
从节点:用于计算节点的控制,并控制启动执行器或驱动程序;
主控程序:用于应用程序的运行和调度;
执行器:为某个应用程序运行在worker node上的一个进程,启动线程池运行任务上,每个应用程序拥有独立的一组执行器;
弹性分布式数据集:一组弹性分布式数据集形成执行的有向无环图;
DAG Scheduler:根据Job构建基于Stage的DAG,并提交Stage给任务调度程序。
任务调度程序:将任务分发给执行器执行。
Env:线程级别的上下文,存储运行时的重要组件的引用。
根据本发明的另一实施方式,所述分布式数据搜索架构包括:
数据采集模块:用于采集各类数据;
索引管理模块:用于针对所述数据库构建索引库;
搜索模块:用于获得搜索请求,对所获得的搜索请求进行解析,得到语义;根据语义查找索引库,得到目标索引;用目标索引搜索查找所述数据库,得到搜索结果。
根据本发明的另一实施方式,所述大数据存储解析查询系统还包括数据可视化展示框架,所述数据可视化展示框架采用MVC结构。
本发明提供了一种大数据存储解析查询系统。具备以下有益效果:
可扩展性强:只需要增加一台服务器,运用少量配置,启动进程即可并入集群; 高效性:采用分布式架构,采用分而治之的方式来提升处理效率; 高可用:提供复制机制,一个分片可以设置多个复制,使得某台服务器宕机的情况下,集群仍旧可以照常运行,并会把由于服务器宕机丢失的复制恢复到其它可用节点上;这点也类似于HDFS的复制机制,而传统的数据库,数据存储只能存储一份。
解析类型多样性:不仅支持一般的sql和文本,而且支持邮件,手机数据,硬盘数据等复杂数据。
可视化:可以把大量数据的关联性清晰的展示在页面上。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对现有技术描述中所需要使用的附图作简单地介绍。
图1 本发明的一种大数据存储解析查询系统的流程示意图;
图2 本发明的一种大数据存储解析查询系统中分布式数据存储架构的分布式写入操作图;
图3 本发明的一种大数据存储解析查询系统中MVC结构的框架图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
如图1所示,一种大数据存储解析查询系统,包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构;
所述分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据;
本发明的分布式数据存储架构为适合运行在通用硬件上的分布式文件系统。其与现有的分布式文件系统有很多共同点,但同时,它和其他的分布式文件系统的区别也是很明显的。它是一个高度容错性的系统,适合部署在廉价的机器上。并且分布式文件系统放宽了POSIX的要求,实现以流的形式访问文件系统中的数据。
所述分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算,包括 SQL 查询、文本处理、机器学习等;并且支持交互式计算和复杂算法;而且运用高级 API剥离了对集群本身的关注,应用开发者可以专注于应用所要做的计算本身;大数据在通过分布式数据解析架构进行解析之后的数据存储在各种数据库中。
所述分布式数据搜索架构是一种分布式的海量数据搜索与分析的技术,用于电商网站、门户网站、企业IT系统等各种场景下的分布式的海量数据搜索引擎;通过分布式特性,让其可以支持海量的、PB级的大数据搜索。并且其是分布式执行数据分析操作而生的架构,海量数据量级下的近实时(秒级)性能支持,以及无比强大的搜索和聚合分析的语法支持,让它更加适合进行大数据场景下的数据分析应用。
在分布式数据搜索架构中将数据存储于一个或多个索引中,索引是具有类似特性的文档的集合。索引由其名称(必须为全小写字符)进行标识,并通过引用此名称完成文档的创建、搜索、更新及删除操作。一个ES集群中可以按需创建任意数目的索引。
在一些实施例中,如图2所示,所述分布式数据存储架构包括客户端和Hadoop集群;
所述客户端将存档文件按64M分成两块,分别为block1和Block2;所述Hadoop集群包括一个NameNode节点模块和至少一个DataNode节点模块;所述客户端NameNode节点模块发送写数据请求;所述NameNode节点模块记录block信息,并返回到DataNode节点模块;所述客户端向DataNode节点模块发送block1;发送过程是以流式写入。
所述流式写入过程包括以下步骤:
步骤1)将64M的block1按64k的package划分;
步骤2)将第一个package发送给第一个Datanode1;
步骤3)Datanode1接收完后,将第一个package发送给第二个Datanode2,同时client向Datanode1发送第二个package;
步骤4)Datanode2接收完第一个package后,发送给Datanode3,同时接收Datanode1发来的第二个package;
步骤5)以此类推,直到将block1发送完毕;
步骤6)Datanode1,Datanode2,Datanode3向NameNode,Datanode1向Client发送block1发送成功的消息。
步骤7)Client收到Datanode1发来的消息后,向Namenode发送消息;此时,block1发送完全结束,跳转到步骤S6,开始写入block2分块,直至block2发送完全结束。
通过写过程可以看出:
当写1T文件时,我们需要3T的存储,3T的网络流量贷款。并且在执行读或写的过程中,NameNode和DataNode通过HeartBeat进行保存通信,确定DataNode成功。而如果发现DataNode失败,就将失败的DataNode上的数据,放到其他节点去。读取时,要读其他节点去。并且宕机一个节点,还有其他节点可以备份;甚至,宕机某一个机架,其他机架上,也能够有备份。在一些实施例中,所述分布式数据解析架构包括:
主节点:用于控制整个Hadoop集群,并监控从节点;在YARN模式中为资源管理器。
从节点:用于计算节点的控制,并控制启动执行器或驱动程序。
主控程序:用于应用程序的运行和调度;运行Application的main()函数并且创建Context;而Context控制着应用的整个生命周期。
执行器:为某个应用程序运行在worker node上的一个进程,启动线程池运行任务上,每个应用程序拥有独立的一组执行器;
弹性分布式数据集:一组弹性分布式数据集形成执行的有向无环图;
DAG Scheduler:根据Job构建基于Stage的DAG,并提交Stage给任务调度程序。
任务调度程序:将任务分发给执行器执行。
Env:线程级别的上下文,存储运行时的重要组件的引用。
在一些实施例中,所述分布式数据搜索架构包括:
数据采集模块:用于采集各类数据;
索引管理模块:用于针对所述数据库构建索引库;
搜索模块:用于获得搜索请求,对所获得的搜索请求进行解析,得到语义;根据语义查找索引库,得到目标索引;用目标索引搜索查找所述数据库,得到搜索结果。
其操作步骤为:
步骤1:客户端向Node1 发送搜索文档请求;
步骤2:Node1 根据文档ID(_id字段)计算出该文档应该属于shard0,然后请求路由到Node3的P0分片上;
步骤3:Node3在P0上执行了请求。如果请求成功,则将请求并行的路由至Node1,Node2的R0上。当所有的Replicas报告成功后,Node3向请求的Node(Node1)发送成功报告,Node1再报告至客户端。
当客户端收到执行成功后,操作已经在Primary shard和所有的replica shards上执行成功了。
在一些实施例中,还包括数据可视化展示框架,所述数据可视化展示框架采用MVC结构。
如图3所示,所述MVC结构中组成及作用如下:
Stroage(M):shape数据CURD管理;
Painter(V):canvase元素生命周期管理,视图渲染,绘画,更新控制;Handler(C):事件交互处理,实现完整dom事件模拟封装; shape:图形实体,分而治之的图形策略,可定义扩展; tool:绘画扩展相关实用方法,工具及脚手架; animation:动画扩展,提供promise式的动画接口和常用缓动函数。
其操作流程为:
步骤1)处理json数据;
步骤2)根据json数据视图渲染,绘画,更新控制;
步骤3)填充到html页面。
本发明通过分布式存储和查询,多个节点同时存储和查询,提高了效率,节省了时间。在海量数据中的查询,相较于传统数据库是全表扫描,时间缓慢,分布式查询技术,同样的数据能达到秒级的速度。解析类型丰富,支持各种数据样本,且支持分布式解析,解析速度大大提升。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种大数据存储解析查询系统,其特征在于:包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构;
所述分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据;所述分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算;所述分布式数据搜索架构用于各种场景下的分布式的海量数据搜索引擎。
2.根据权利要求1所述的一种大数据存储解析查询系统,其特征在于:所述分布式数据存储架构包括客户端和Hadoop集群;
所述客户端将存档文件按64M分成两块,分别为block1和Block2;所述Hadoop集群包括一个NameNode节点模块和至少一个DataNode节点模块;所述NameNode节点模块发送写数据请求;所述NameNode节点模块记录block信息,并返回到DataNode节点模块;所述客户端向DataNode节点模块发送block1;发送过程是以流式写入。
3.根据权利要求2所述的一种大数据存储解析查询系统,其特征在于:所述流式写入过程包括以下步骤:
步骤1)将64M的block1按64k的package划分;
步骤2)将第一个package发送给第一个Datanode1;
步骤3)Datanode1接收完后,将第一个package发送给第二个Datanode2,同时client向Datanode1发送第二个package;
步骤4)Datanode2接收完第一个package后,发送给Datanode3,同时接收Datanode1发来的第二个package;
步骤5)以此类推,直到将block1发送完毕;
步骤6)Datanode1,Datanode2,Datanode3向NameNode,Datanode1向Client发送block1发送成功的消息;
步骤7)Client收到Datanode1发来的消息后,向Namenode发送消息;此时,block1 发送完全结束,跳转到步骤S6,开始写入block2分块,直至block2发送完全结束。
4.根据权利要求2所述的一种大数据存储解析查询系统,其特征在于,所述分布式数据解析架构包括:
主节点:用于控制整个Hadoop集群,并监控从节点;
从节点:用于计算节点的控制,并控制启动执行器或驱动程序;
主控程序:用于应用程序的运行和调度;
执行器:为某个应用程序运行在worker node上的一个进程,启动线程池运行任务上,每个应用程序拥有独立的一组执行器;
弹性分布式数据集:一组弹性分布式数据集形成执行的有向无环图;
DAG Scheduler:根据Job构建基于Stage的DAG,并提交Stage给任务调度程序;
任务调度程序:将任务分发给执行器执行;
Env:线程级别的上下文,存储运行时的重要组件的引用。
5.根据权利要求1所述的一种大数据存储解析查询系统,其特征在于:所述分布式数据搜索架构包括:
数据采集模块:用于采集各类数据;
索引管理模块:用于针对所述数据库构建索引库;
搜索模块:用于获得搜索请求,对所获得的搜索请求进行解析,得到语义;根据语义查找索引库,得到目标索引;用目标索引搜索查找所述数据库,得到搜索结果。
6.根据权利要求1所述的一种大数据存储解析查询系统,其特征在于:还包括数据可视化展示框架,所述数据可视化展示框架采用MVC结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911308798.5A CN111125248A (zh) | 2019-12-18 | 2019-12-18 | 一种大数据存储解析查询系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911308798.5A CN111125248A (zh) | 2019-12-18 | 2019-12-18 | 一种大数据存储解析查询系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111125248A true CN111125248A (zh) | 2020-05-08 |
Family
ID=70499571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911308798.5A Pending CN111125248A (zh) | 2019-12-18 | 2019-12-18 | 一种大数据存储解析查询系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111125248A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626207A (zh) * | 2021-10-12 | 2021-11-09 | 苍穹数码技术股份有限公司 | 地图数据处理方法、装置、设备及存储介质 |
CN114143182A (zh) * | 2021-11-18 | 2022-03-04 | 新华三大数据技术有限公司 | 一种配置分布式搜索引擎集群的节点的方法和装置 |
CN114327900A (zh) * | 2021-12-30 | 2022-04-12 | 四川启睿克科技有限公司 | 一种管理双缓冲技术中线程调用防止内存泄漏的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106686146A (zh) * | 2017-03-16 | 2017-05-17 | 国网山东省电力公司经济技术研究院 | 一种基于tcp‑ip协议的电网规划gis图形信息采集及拼接系统 |
CN107566341A (zh) * | 2017-07-31 | 2018-01-09 | 南京邮电大学 | 一种基于联邦分布式文件存储系统的数据持久化存储方法及系统 |
WO2018054035A1 (zh) * | 2016-09-20 | 2018-03-29 | 深圳大学 | 一种基于 Spark 语义的数据重用方法及其系统 |
CN110162522A (zh) * | 2019-05-22 | 2019-08-23 | 武汉市公安局 | 一种分布式数据搜索系统及方法 |
-
2019
- 2019-12-18 CN CN201911308798.5A patent/CN111125248A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018054035A1 (zh) * | 2016-09-20 | 2018-03-29 | 深圳大学 | 一种基于 Spark 语义的数据重用方法及其系统 |
CN106686146A (zh) * | 2017-03-16 | 2017-05-17 | 国网山东省电力公司经济技术研究院 | 一种基于tcp‑ip协议的电网规划gis图形信息采集及拼接系统 |
CN107566341A (zh) * | 2017-07-31 | 2018-01-09 | 南京邮电大学 | 一种基于联邦分布式文件存储系统的数据持久化存储方法及系统 |
CN110162522A (zh) * | 2019-05-22 | 2019-08-23 | 武汉市公安局 | 一种分布式数据搜索系统及方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113626207A (zh) * | 2021-10-12 | 2021-11-09 | 苍穹数码技术股份有限公司 | 地图数据处理方法、装置、设备及存储介质 |
CN113626207B (zh) * | 2021-10-12 | 2022-03-08 | 苍穹数码技术股份有限公司 | 地图数据处理方法、装置、设备及存储介质 |
CN114143182A (zh) * | 2021-11-18 | 2022-03-04 | 新华三大数据技术有限公司 | 一种配置分布式搜索引擎集群的节点的方法和装置 |
CN114143182B (zh) * | 2021-11-18 | 2024-02-23 | 新华三大数据技术有限公司 | 一种配置分布式搜索引擎集群的节点的方法和装置 |
CN114327900A (zh) * | 2021-12-30 | 2022-04-12 | 四川启睿克科技有限公司 | 一种管理双缓冲技术中线程调用防止内存泄漏的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190230000A1 (en) | Intelligent analytic cloud provisioning | |
Konstantinou et al. | On the elasticity of NoSQL databases over cloud management platforms | |
Padhy | Big data processing with Hadoop-MapReduce in cloud systems | |
US8356050B1 (en) | Method or system for spilling in query environments | |
US20150149409A1 (en) | Dml replication with logical log shipping | |
JP2019515377A (ja) | 分散型データストアのバージョン化された階層型データ構造 | |
CN111338766A (zh) | 事务处理方法、装置、计算机设备及存储介质 | |
CN111125248A (zh) | 一种大数据存储解析查询系统 | |
CN106294695A (zh) | 一种面向实时大数据搜索引擎的实现方法 | |
Tang et al. | Deferred lightweight indexing for log-structured key-value stores | |
Wu et al. | An Indexing Framework for Efficient Retrieval on the Cloud. | |
CN115827907B (zh) | 基于分布式内存的跨云多源数据立方体发现与集成方法 | |
US6470331B1 (en) | Very large table reduction in parallel processing database systems | |
CN115587118A (zh) | 任务数据的维表关联处理方法及装置、电子设备 | |
Fang et al. | Integrating workload balancing and fault tolerance in distributed stream processing system | |
Fetzer et al. | Unicrawl: A practical geographically distributed web crawler | |
WO2017156855A1 (en) | Database systems with re-ordered replicas and methods of accessing and backing up databases | |
CN107566341B (zh) | 一种基于联邦分布式文件存储系统的数据持久化存储方法及系统 | |
KR101828522B1 (ko) | 이종 데이터 처리를 위한 분산 병렬 처리 시스템 | |
CN113590651B (zh) | 一种基于hql的跨集群数据处理系统及方法 | |
Sarr et al. | Transpeer: Adaptive distributed transaction monitoring for web2. 0 applications | |
US11789971B1 (en) | Adding replicas to a multi-leader replica group for a data set | |
Dai et al. | GraphTrek: asynchronous graph traversal for property graph-based metadata management | |
Koschel et al. | Evaluating time series database management systems for insurance company | |
Al Hinai | A Performance Comparison of SQL and NoSQL Databases for Large Scale Analysis of Persistent Logs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |