CN111611222A

CN111611222A - 一种基于分布式存储的数据动态处理方法

Info

Publication number: CN111611222A
Application number: CN202010341795.8A
Authority: CN
Inventors: 沈慧
Original assignee: Shanghai Dingmao Information Technology Co ltd
Current assignee: Shanghai Dingmao Information Technology Co ltd
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2020-09-01

Abstract

本发明公开了一种基于分布式存储的数据动态处理方法，系统架构包括边缘数据采集层，数据分析层、交互层。包括步骤：1、响应搜索请求；2、拆分搜索请求；3、搜索请求处理；4、生成数据请求；5、数据初级搜索；6、数据转发；7、解析索引；8、搜索分析引擎处理数据；9、分片搜索分析结果汇总；10、交互层可视化展现。本发明在数据处理过程中引入了根据分片规则生成数据请求、创建数据转发实例实现数据从边缘收集节点到分析节点的动态转发、动态装载解析索引引擎的方法，解决了即可支持动态搜索又可以消除由于中央存储带来的数据容量的壁垒的难点，为大数据分析提供了一种可靠的数据处理里方法。

Description

一种基于分布式存储的数据动态处理方法

技术领域

本发明涉及存储数据技术领域，尤其涉及一种基于分布式存储的数据动态处理方法。

背景技术

随着大数据时代和5G的时代到来，基于时序数据的分析平台越来越多地被利用在社会生产的各个领域。随着5G的数据传输技术带来的变革，越来越多的信息数据被纳入到数据处理范畴中，从而使得大数据数据分析领域所涵盖的数据体量、数据种类都变得越来越大。由于需要去分析多种类大体量数据之间的潜在关系，数据的针对性壁垒被一再地降低。现有的数据平台在数据种类的支持上已经上升到了一个新的高度。

目前市面上的多种数据处理平台都具有多种类数据接入功能，支持的数据源种类多样，几乎涵盖了各个领域，各个设备所产生的的数据。这些数据不乏来自于传感器设备通过特有的网络协议进行传输的机器数据，也有存在于数据库中已经格式规范好的应用数据，更有类似于视频音频等流数据。而这些种类繁复，传输渠道多样的数据都被现有市面上的数据平台悉数囊括。但新的问题也随之而出，随着数据种类增多，数据体量也出现了激增。就以流数据为例，如果我们将视频，音频等数据都加以统计，一个中小型企业的日增数据量就会达到TB级，而对于一个大型集团企业，日增数据有可能将会接近PB级。而这几点往往也是现有市面上的数据处理平台的最大痛点。

目前市面上的数据处理平台大致可以分为两类，一类针对多种类数据并且提供动态搜索分析的数据处理平台。此类数据平台以ELK，SPLUNK，日志易等作为典型代表，其特点基本如下：1.支持数据种类广泛；2.都提供了强大的搜索引擎支持特定搜索语言的数据搜素。3.具有数据索引功能，数据搜索速度快；但是其劣势也很显而易见，尽管该类数据处理平台均支持分布式架构部署，但数据分析节点由于索引器的关系，使得数据都需要存放在中央数据存储中。尽管用户可以通过扩容存储设备来达到一个相对较高的存储容量，但面对日增数据在TB级的增量而言，存储需求基本都是无法满足的。因此现有的此类数据分析平台往往选择地即是在数据源接入时进行有针对性的数据筛选，从而降低数据分析所需要的存储需求。但数据筛选却一定程度上制约了数据分析的价值。而另一类数据分析平台或者称之为数据分析架构往往是基于分布式文件系统进行搭建的，其中较有代表性的例如基于HDFS的Hadoop平台。这类数据平台其利用了分布式存储的特点，将数据存放在了各个分布式分析节点中，并不设有中央存储。但是此类平台由于缺乏索引机制，因此在应对用户提出的动态搜索需求时就变得不太容易满足。此类平台的特点是支持的数据体量大，但无法支持数据的动态处理。所有数据检索和数据分析需要基于特定的程序开发进行满足，并且对于分析过程中的中间态数据进行二次利用的可能性也较低。但是对于临时性的数据分析该类平台无法在短时间内满足客户使用的需要。

发明内容

本发明的目的就在于为了解决上述问题而提供一种基于分布式存储的数据动态处理方法。

本发明通过以下技术方案来实现上述目的：

本发明由边缘采集层、数据分析层、交互层构成；

所述边缘采集层是由边缘采集节点组成的分布式数据采集集群，每一个边缘采集节点承担两个功能角色：数据采集、数据管理，主要进行原始数据的收集、存储、与转发的工作；

所述数据分析层由若干数据分析节点组成的数据分析集群，每一个数据分析节点拥有：响应数据搜索请求、执行数据分析搜索、生成数据转发请求、数据解析索引等功能，分析层拥有一部分的缓存存储，缓存存储主要用于存储平台短时间内经解析索引器生成的加工数据，供后续分析搜索快速使用；

交互层主要为用户提拱UI操作界面，并传达用户搜索请求，交互层主要由Portal和可供用户交互的各类APP组成。

所述数据采集：每一个边缘采集节点支持多种类的数据采集，支持各类数据源经特定的数据传输渠道接入数据采集节点。数据采集节点提供与数据渠道适配的数据采集方法对各类数据进行采集。

所述数据管理：每一个边缘采集节点对采集而得的数据进行存储管理与转发管理，当数据经采集渠道采集后由边缘采集节点对数据进行存储管理，即使用分布式架构对采集而来的数据进行存储，供后续分析使用，存储过程中，根据数据采集的时间序列进行切片存储，为后续数据初步检索提供服务，区别于传统的分布式数据管理体系，数据采集节点不承担数据分析功能，仅承担数据初步检索与数据向分析节点转发的功能。数据初步检索是一种基于存储规范的初级检索，其检索维度仅限于数据存储切片规则，即数据类别、数据来源、数据采集时间组成的维度。初级检索的对象数据的范围而不是数据的内容，初级检索的目的仅仅是缩小数据转发的体量，数据转发是指边缘采集节点响应分析节点的数据请求，对一定时间段内特定的数据类别、数据来源的数据从已被管理的数据中通过初级检索筛选出来并向分析节点转发的功能，

边缘采集节点往往部署在数据宿主设备或与数据宿主设备同网段的采集服务器上，一个边缘采集节点可以支持一个或者多个数据采集管理工作，通过平行扩展边缘采集节点的数量从而形成数据采集层，通过每个边缘采集节点对数据的管理功能来实现数据处理平台的数据存储池。

响应数据搜索请求：分析层响应前端UI界面发送来的数据搜索请求，并且将数据搜索根据数据管理的切片规则进行细化拆分，将搜索分析请求拆分成若干份相互不影响的并行分析搜索请求。

执行数据分析搜索：在搜索拆分完后分析节点优先对缓存存储中的索引结构体执行搜索；对于不命中缓存的数据，数据节点将会把搜索请求做进一步的转化。当请求的数据经边缘采集节点转发并解析索引完成后进行搜索分析。

生成数据转发请求：对于不命中的搜索请求转化成向边缘采集节点索取数据的数据请求，并转发至边缘采集节点等待数据反馈。

数据解析索引：边缘采集节点在收集到数据请求后会针对每一个数据请求，建立数据转发实例，分析节点会根据数据转发实例动态加载独立的数据解析索引引擎，从而实现分片数据的并发解析和索引，索引的结果会进一步同步到二级索引器中将解析索引的输出进行整合，最终将索引后的数据以数据分片单元以最近使用频次原则的方式存放至缓存存储中，与此同时解析索引完成后的数据也会直接由分析搜索进行处理，防止缓存存储中的数据由于容量问题导致发起二次数据请求的可能。

本发明的有益效果在于：

本发明是一种基于分布式存储的数据动态处理方法，与现有技术相比，本发明在数据处理过程中引入了根据分片规则生成数据请求、创建数据转发实例实现数据从边缘收集节点到分析节点的动态转发、动态装载解析索引引擎的方法，解决了即可支持动态搜索又可以消除由于中央存储带来的数据容量的壁垒的难点，为大数据分析提供了一种可靠的数据处理里方法

附图说明

图1是本发明的平台部署架构图；

图2是本发明的数据搜索请求数据流程图；

图3是本发明的数据分析搜索流程图。

具体实施方式

下面结合附图对本发明作进一步说明：

如图1-3所示：一种拥有基于分布式存储，能够支持TB乃至PB级的数据容量，但又拥有灵活的快速搜索能力，并且对于数据处理中间态的数据可以重复利用的数据处理方法，有以下三部分服务架构组成。

这三部分包括：边缘采集层、数据分析层、交互层。

边缘采集层，是由边缘采集节点组成的分布式数据采集集群。每一个边缘采集节点承担两个功能角色：1.数据采集；2.数据管理。主要进行原始数据的收集、存储、与转发的工作。

数据采集：每一个边缘采集节点支持多种类的数据采集，支持各类数据源经特定的数据传输渠道接入数据采集节点。数据采集节点提供与数据渠道适配的数据采集方法对各类数据进行采集。

数据管理：每一个边缘采集节点对采集而得的数据进行存储管理与转发管理。当数据经采集渠道采集后由边缘采集节点对数据进行存储管理，即使用分布式架构对采集而来的数据进行存储，供后续分析使用。存储过程中，根据数据采集的时间序列进行切片存储，为后续数据初步检索提供服务。区别于传统的分布式数据管理体系，数据采集节点不承担数据分析功能，仅承担数据初步检索与数据向分析节点转发的功能。数据初步检索是一种基于存储规范的初级检索，其检索维度仅限于数据存储切片规则，即数据类别、数据来源、数据采集时间组成的维度。初级检索的对象数据的范围而不是数据的内容。初级检索的目的仅仅是缩小数据转发的体量。数据转发是指边缘采集节点响应分析节点的数据请求，对一定时间段内特定的数据类别、数据来源的数据从已被管理的数据中通过初级检索筛选出来并向分析节点转发的功能。

边缘采集节点往往部署在数据宿主设备或与数据宿主设备同网段的采集服务器上。一个边缘采集节点可以支持一个或者多个数据采集管理工作。通过平行扩展边缘采集节点的数量从而形成数据采集层。通过每个边缘采集节点对数据的管理功能来实现数据处理平台的数据存储池。

数据分析层：由若干数据分析节点组成的数据分析集群。每一个数据分析节点拥有：响应数据搜索请求、执行数据分析搜索、生成数据转发请求、数据解析索引等功能。分析层拥有一部分的缓存存储，缓存存储主要用于存储平台短时间内经解析索引器生成的加工数据，供后续分析搜索快速使用。

响应数据搜索请求：是指分析层响应前端UI界面发送来的数据搜索请求，并且将数据搜索根据数据管理的切片规则进行细化拆分，将搜索分析请求拆分成若干份相互不影响的并行分析搜索请求。

数据解析索引：边缘采集节点在收集到数据请求后会针对每一个数据请求，建立数据转发实例。分析节点会根据数据转发实例动态加载独立的数据解析索引引擎，从而实现分片数据的并发解析和索引。索引的结果会进一步同步到二级索引器中将解析索引的输出进行整合。最终将索引后的数据以数据分片单元以LRU(最近使用频次原则)的方式存放至缓存存储中。与此同时解析索引完成后的数据也会直接由分析搜索进行处理，防止缓存存储中的数据由于容量问题导致发起二次数据请求的可能。

交互层：交互层主要为用户提拱UI操作界面，并传达用户搜索请求。交互层主要由Portal和可供用户交互的各类APP组成。

数据搜索步骤：

当用户从交互层发起数据分析搜索请求后，该数据分析搜索请求经交互层传至数据分析层。

数据分析层接收到数据分析搜索请求后，由分析搜索请求管理模块将请求发送至数据分析搜索拆分/整合模块对数据搜索按数据分片原则进行拆分。

拆分后的数据分析搜索请求交至数据搜索分析引擎进行并发处理。

对于命中数据缓存的索引数据，数据搜索分析引擎将直接从缓存池中读取索引过后的数据。

对于不命中的数据分析搜索请求将转换成数据请求，并发送至数据转发请求管理模块。

数据转发请求模块在响应数据请求后，将数据请求根据链接的边缘采集层的节点数复制相同的数据请求，并转发至各个采集节点。

每一个采集节点对按数据存储规则相对应的分片数据请求进行响应，并发地处理每一个数据请求。对数据采集节点管理的数据进行初级检索

数据采集节点将自身管理中符合数据请求的数据建立转发实例转发至分析层。

分析层由数据接受管理模块接受来自于各个采集节点数据转发实例转发而来的数据，并动态装载调用数据解析索引。数据解析索引对数据进行解析和索引操作。并将解锁索引过后的数据直接交由数据搜索分析引擎进行搜索分析，从而满足拆分后的分析搜索请求的需要。同时以LRU的存储原则将索引后的数据保存在缓存存储池中。

数据搜索分析引擎将分片分析搜索请求的结果传递至数据分析搜索拆分/整合模块对分片数据分析搜索进行整合。

数据分析搜索拆分/整合模块根据搜索请求拆分规则对分片分析搜索结果进行整合；

整合后的分析搜索结果经过分析搜索请求管理模块发送至交互层进行可视化展现。

以上显示和描述了本发明的基本原理和主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于分布式存储的数据动态处理方法，其特征在于：由边缘采集层、数据分析层、交互层构成；

2.根据权利要求1所述的基于分布式存储的数据动态处理方法，其特征在于：所述数据采集：每一个边缘采集节点支持多种类的数据采集，支持各类数据源经特定的数据传输渠道接入数据采集节点。数据采集节点提供与数据渠道适配的数据采集方法对各类数据进行采集。

3.根据权利要求1所述的基于分布式存储的数据动态处理方法，其特征在于：所述数据管理：每一个边缘采集节点对采集而得的数据进行存储管理与转发管理，当数据经采集渠道采集后由边缘采集节点对数据进行存储管理，即使用分布式架构对采集而来的数据进行存储，供后续分析使用，存储过程中，根据数据采集的时间序列进行切片存储，为后续数据初步检索提供服务，区别于传统的分布式数据管理体系，数据采集节点不承担数据分析功能，仅承担数据初步检索与数据向分析节点转发的功能。数据初步检索是一种基于存储规范的初级检索，其检索维度仅限于数据存储切片规则，即数据类别、数据来源、数据采集时间组成的维度。初级检索的对象数据的范围而不是数据的内容，初级检索的目的仅仅是缩小数据转发的体量，数据转发是指边缘采集节点响应分析节点的数据请求，对一定时间段内特定的数据类别、数据来源的数据从已被管理的数据中通过初级检索筛选出来并向分析节点转发的功能，

4.根据权利要求1所述的基于分布式存储的数据动态处理方法，其特征在于：响应数据搜索请求：分析层响应前端UI界面发送来的数据搜索请求，并且将数据搜索根据数据管理的切片规则进行细化拆分，将搜索分析请求拆分成若干份相互不影响的并行分析搜索请求。

5.根据权利要求1所述的基于分布式存储的数据动态处理方法，其特征在于：执行数据分析搜索：在搜索拆分完后分析节点优先对缓存存储中的索引结构体执行搜索；对于不命中缓存的数据，数据节点将会把搜索请求做进一步的转化。当请求的数据经边缘采集节点转发并解析索引完成后进行搜索分析。

6.根据权利要求1所述的基于分布式存储的数据动态处理方法，其特征在于：生成数据转发请求：对于不命中的搜索请求转化成向边缘采集节点索取数据的数据请求，并转发至边缘采集节点等待数据反馈。

7.根据权利要求1所述的基于分布式存储的数据动态处理方法，其特征在于：数据解析索引：边缘采集节点在收集到数据请求后会针对每一个数据请求，建立数据转发实例，分析节点会根据数据转发实例动态加载独立的数据解析索引引擎，从而实现分片数据的并发解析和索引，索引的结果会进一步同步到二级索引器中将解析索引的输出进行整合，最终将索引后的数据以数据分片单元以最近使用频次原则的方式存放至缓存存储中，与此同时解析索引完成后的数据也会直接由分析搜索进行处理，防止缓存存储中的数据由于容量问题导致发起二次数据请求的可能。