CN111125248A

CN111125248A - 一种大数据存储解析查询系统

Info

Publication number: CN111125248A
Application number: CN201911308798.5A
Authority: CN
Inventors: 李文飞; 程俊
Original assignee: Write Easy Network Technology Shanghai Co Ltd
Current assignee: Write Easy Network Technology Shanghai Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-05-08

Abstract

一种大数据存储解析查询系统，包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构和数据可视化展示框架；分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据；分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算；分布式数据搜索架构用于各种场景下的分布式的海量数据搜索引擎；数据可视化展示框架采用MVC结构。本发明通过分布式存储和查询，多个节点同时存储和查询，提高了效率，节省了时间。在海量数据中的查询，相较于传统数据库是全表扫描，时间缓慢，分布式查询技术，同样的数据能达到秒级的速度。解析类型丰富，支持各种数据样本，且支持分布式解析，解析速度大大提升。

Description

一种大数据存储解析查询系统

技术领域

本发明涉及大数据处理技术领域，具体涉及一种大数据存储解析查询系统。

背景技术

随着互联网技术的高速发展，大数据的运用越来越广泛，也吸引了越来越多的关注。大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。这些数据在存储和解析中会花费过多时间和金钱，并且传统的数据库，在数据大量的增长的情况下，查询的速度会严重下降，从而影响效率。

发明内容

本发明提供了一种大数据存储解析查询系统，以解决在传统的数据库中，在数据大量的增长的情况下，数据库，在数据大量的增长的情况下，查询的速度会严重下降，从而影响效率的问题。

为解决上述技术问题，本发明通过以下技术方案予以实现：

一种大数据存储解析查询系统，其特征在于：包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构；

所述分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据；所述分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算；所述分布式数据搜索架构用于各种场景下的分布式的海量数据搜索引擎；

根据本发明的一实施方式，所述分布式数据存储架构包括客户端和Hadoop集群；

所述客户端将存档文件按64M分成两块，分别为block1和Block2；所述Hadoop集群包括一个NameNode节点模块和至少一个DataNode节点模块；所述客户端NameNode节点模块发送写数据请求；所述NameNode节点模块记录block信息，并返回到DataNode节点模块；所述客户端向DataNode节点模块发送block1；发送过程是以流式写入。

根据本发明的另一实施方式，所述流式写入过程包括以下步骤：

步骤1）将64M的block1按64k的package划分；

步骤2）将第一个package发送给第一个Datanode1；

步骤3）Datanode1接收完后，将第一个package发送给第二个Datanode2，同时client向Datanode1发送第二个package；

步骤4）Datanode2接收完第一个package后，发送给Datanode3，同时接收Datanode1发来的第二个package；

步骤5）以此类推，直到将block1发送完毕；

步骤6）Datanode1,Datanode2,Datanode3向NameNode，Datanode1向Client发送block1发送成功的消息。

步骤7）Client收到Datanode1发来的消息后，向Namenode发送消息；此时，block1发送完全结束，跳转到步骤S6，开始写入block2分块，直至block2发送完全结束。根据本发明的另一实施方式，所述分布式数据解析架构包括：

主节点：用于控制整个Hadoop集群，并监控从节点；

从节点：用于计算节点的控制，并控制启动执行器或驱动程序；

主控程序：用于应用程序的运行和调度；

执行器：为某个应用程序运行在worker node上的一个进程，启动线程池运行任务上，每个应用程序拥有独立的一组执行器；

弹性分布式数据集：一组弹性分布式数据集形成执行的有向无环图；

DAG Scheduler：根据Job构建基于Stage的DAG，并提交Stage给任务调度程序。

任务调度程序：将任务分发给执行器执行。

Env：线程级别的上下文，存储运行时的重要组件的引用。

根据本发明的另一实施方式，所述分布式数据搜索架构包括：

数据采集模块：用于采集各类数据；

索引管理模块：用于针对所述数据库构建索引库；

搜索模块：用于获得搜索请求，对所获得的搜索请求进行解析，得到语义；根据语义查找索引库，得到目标索引；用目标索引搜索查找所述数据库，得到搜索结果。

根据本发明的另一实施方式，所述大数据存储解析查询系统还包括数据可视化展示框架，所述数据可视化展示框架采用MVC结构。

本发明提供了一种大数据存储解析查询系统。具备以下有益效果：

可扩展性强：只需要增加一台服务器，运用少量配置，启动进程即可并入集群；高效性：采用分布式架构，采用分而治之的方式来提升处理效率；高可用：提供复制机制，一个分片可以设置多个复制，使得某台服务器宕机的情况下，集群仍旧可以照常运行，并会把由于服务器宕机丢失的复制恢复到其它可用节点上；这点也类似于HDFS的复制机制，而传统的数据库，数据存储只能存储一份。

解析类型多样性：不仅支持一般的sql和文本，而且支持邮件，手机数据，硬盘数据等复杂数据。

可视化：可以把大量数据的关联性清晰的展示在页面上。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对现有技术描述中所需要使用的附图作简单地介绍。

图1 本发明的一种大数据存储解析查询系统的流程示意图；

图2 本发明的一种大数据存储解析查询系统中分布式数据存储架构的分布式写入操作图；

图3 本发明的一种大数据存储解析查询系统中MVC结构的框架图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述。

如图1所示，一种大数据存储解析查询系统，包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构；

所述分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据；

本发明的分布式数据存储架构为适合运行在通用硬件上的分布式文件系统。其与现有的分布式文件系统有很多共同点，但同时，它和其他的分布式文件系统的区别也是很明显的。它是一个高度容错性的系统，适合部署在廉价的机器上。并且分布式文件系统放宽了POSIX的要求，实现以流的形式访问文件系统中的数据。

所述分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算，包括 SQL 查询、文本处理、机器学习等；并且支持交互式计算和复杂算法；而且运用高级 API剥离了对集群本身的关注，应用开发者可以专注于应用所要做的计算本身；大数据在通过分布式数据解析架构进行解析之后的数据存储在各种数据库中。

所述分布式数据搜索架构是一种分布式的海量数据搜索与分析的技术，用于电商网站、门户网站、企业IT系统等各种场景下的分布式的海量数据搜索引擎；通过分布式特性，让其可以支持海量的、PB级的大数据搜索。并且其是分布式执行数据分析操作而生的架构，海量数据量级下的近实时（秒级）性能支持，以及无比强大的搜索和聚合分析的语法支持，让它更加适合进行大数据场景下的数据分析应用。

在分布式数据搜索架构中将数据存储于一个或多个索引中，索引是具有类似特性的文档的集合。索引由其名称(必须为全小写字符)进行标识，并通过引用此名称完成文档的创建、搜索、更新及删除操作。一个ES集群中可以按需创建任意数目的索引。

在一些实施例中，如图2所示，所述分布式数据存储架构包括客户端和Hadoop集群；

所述流式写入过程包括以下步骤：

步骤1）将64M的block1按64k的package划分；

步骤2）将第一个package发送给第一个Datanode1；

步骤5）以此类推，直到将block1发送完毕；

步骤7）Client收到Datanode1发来的消息后，向Namenode发送消息；此时，block1发送完全结束，跳转到步骤S6，开始写入block2分块，直至block2发送完全结束。

通过写过程可以看出：

当写1T文件时，我们需要3T的存储，3T的网络流量贷款。并且在执行读或写的过程中，NameNode和DataNode通过HeartBeat进行保存通信，确定DataNode成功。而如果发现DataNode失败，就将失败的DataNode上的数据，放到其他节点去。读取时，要读其他节点去。并且宕机一个节点，还有其他节点可以备份；甚至，宕机某一个机架，其他机架上，也能够有备份。在一些实施例中，所述分布式数据解析架构包括：

主节点：用于控制整个Hadoop集群，并监控从节点；在YARN模式中为资源管理器。

从节点：用于计算节点的控制，并控制启动执行器或驱动程序。

主控程序：用于应用程序的运行和调度；运行Application的main()函数并且创建Context；而Context控制着应用的整个生命周期。

任务调度程序：将任务分发给执行器执行。

Env：线程级别的上下文，存储运行时的重要组件的引用。

在一些实施例中，所述分布式数据搜索架构包括：

数据采集模块：用于采集各类数据；

索引管理模块：用于针对所述数据库构建索引库；

其操作步骤为：

步骤1：客户端向Node1 发送搜索文档请求；

步骤2：Node1 根据文档ID(_id字段)计算出该文档应该属于shard0，然后请求路由到Node3的P0分片上；

步骤3：Node3在P0上执行了请求。如果请求成功，则将请求并行的路由至Node1，Node2的R0上。当所有的Replicas报告成功后，Node3向请求的Node(Node1)发送成功报告，Node1再报告至客户端。

当客户端收到执行成功后，操作已经在Primary shard和所有的replica shards上执行成功了。

在一些实施例中，还包括数据可视化展示框架，所述数据可视化展示框架采用MVC结构。

如图3所示，所述MVC结构中组成及作用如下：

Stroage(M)：shape数据CURD管理；

Painter(V)：canvase元素生命周期管理，视图渲染，绘画，更新控制；Handler(C)：事件交互处理，实现完整dom事件模拟封装； shape：图形实体，分而治之的图形策略，可定义扩展； tool：绘画扩展相关实用方法，工具及脚手架； animation：动画扩展，提供promise式的动画接口和常用缓动函数。

其操作流程为：

步骤1）处理json数据；

步骤2）根据json数据视图渲染，绘画，更新控制；

步骤3）填充到html页面。

本发明通过分布式存储和查询，多个节点同时存储和查询，提高了效率，节省了时间。在海量数据中的查询，相较于传统数据库是全表扫描，时间缓慢，分布式查询技术，同样的数据能达到秒级的速度。解析类型丰富，支持各种数据样本，且支持分布式解析，解析速度大大提升。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种大数据存储解析查询系统，其特征在于：包括分布式数据存储架构、分布式数据解析架构、分布式数据搜索架构；

所述分布式数据存储架构用于提供高吞吐量来访问有着超大数据集的应用程序的数据；所述分布式数据解析架构为一个通用引擎,用于完成大规模数据的处理运算；所述分布式数据搜索架构用于各种场景下的分布式的海量数据搜索引擎。

2.根据权利要求1所述的一种大数据存储解析查询系统，其特征在于：所述分布式数据存储架构包括客户端和Hadoop集群；

所述客户端将存档文件按64M分成两块，分别为block1和Block2；所述Hadoop集群包括一个NameNode节点模块和至少一个DataNode节点模块；所述NameNode节点模块发送写数据请求；所述NameNode节点模块记录block信息，并返回到DataNode节点模块；所述客户端向DataNode节点模块发送block1；发送过程是以流式写入。

3.根据权利要求2所述的一种大数据存储解析查询系统，其特征在于：所述流式写入过程包括以下步骤：

步骤1）将64M的block1按64k的package划分；

步骤2）将第一个package发送给第一个Datanode1；

步骤5）以此类推，直到将block1发送完毕；

步骤6）Datanode1,Datanode2,Datanode3向NameNode，Datanode1向Client发送block1发送成功的消息；

步骤7）Client收到Datanode1发来的消息后，向Namenode发送消息；此时，block1 发送完全结束，跳转到步骤S6，开始写入block2分块，直至block2发送完全结束。

4.根据权利要求2所述的一种大数据存储解析查询系统，其特征在于，所述分布式数据解析架构包括：

主节点：用于控制整个Hadoop集群，并监控从节点；

主控程序：用于应用程序的运行和调度；

DAG Scheduler：根据Job构建基于Stage的DAG，并提交Stage给任务调度程序；

任务调度程序：将任务分发给执行器执行；

Env：线程级别的上下文，存储运行时的重要组件的引用。

5.根据权利要求1所述的一种大数据存储解析查询系统，其特征在于：所述分布式数据搜索架构包括：

数据采集模块：用于采集各类数据；

索引管理模块：用于针对所述数据库构建索引库；

6.根据权利要求1所述的一种大数据存储解析查询系统，其特征在于：还包括数据可视化展示框架，所述数据可视化展示框架采用MVC结构。