CN111104558A

CN111104558A - 一种分布式的多源数据处理方法及系统

Info

Publication number: CN111104558A
Application number: CN201811264520.8A
Authority: CN
Inventors: 刘鹏; 邓春宇; 杨国生; 王文焕; 马建杰
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Jiangsu Electric Power Co Ltd
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2020-05-05

Abstract

本发明提供了一种分布式的多源数据处理方法及系统，创建数据处理任务，配置数据处理信息；创建数据采集任务，配置数据采集信息；生成相应的数据采集接口规则；对数据流进行监听，判断数据的类型，执行数据采集；对采集得到的数据进行处理，对处理数据进行统一分布式存储。实时监控海量数据流程，并实时反映给用户，提高管理效率。

Description

一种分布式的多源数据处理方法及系统

技术领域

本发明属于多源数据库领域，具体涉及一种分布式的多源数据处理方法及系统。

背景技术

随着计算机和网络技术的飞速发展，信息量的增长远远超出了人们对信息获取能力的增长。海量信息资源的有序存储和利用越来越受到世界各国的关注。现实社会里，由其在移动电子商务领域经常存在着对分布式多源海量数据进行查询显示和浏览交易的需求。然而，面对海量级别的数据，我们首先要考虑的问题是如何提高海量数据的操作性能和处理效率。海量数据的数据量庞大，存在数据管理、更新和监控等操作不方便性和高出错率的问题，但是面对如此巨大的数据靠人工检测是不可能的，如果数据处理流程中出现错误，不易查找。

不同的系统可以采用不同协议进行数据的采集、交互以及存储等。现有技术中，对于不同系统或应用采用各自共享接口对外提供数据，若协议方式不统一，不利于应用对数据的获取。接口协议有很多种，不同的系统或应用会采用不同的接口协议，在进行数据的交互时，不同接口协议对应的系统不能直接进行数据的交互。这给数据的交互带来极大的不便，尤其在新的接口协议出现时，需要开发人员对数据进行相应的处理，实现数据的交互，降低了数据交互的效率增加了数据，增加了软件开发的工作量。

传统的集中采集和存储数据的处理方法，已经不能适应大数据的需求。目前，已经出现了一些工业生产的实时数据库系统，如Wonderware公司的工业SQL，OS1soft公司的PL等。但是，这些实时数据库系统对于一些中小型企业来说太昂贵了。

因此，需求一种数据采集和存储的方法，以适应大数据时代的需求，提高不同系统间数据交互的效率。

发明内容

为了克服传统数据采集和处理技术在面对分布式海量多源异构数据时的技术瓶颈，本发明提出了一种分布式的多源数据处理方法，包括如下步骤：

步骤1：根据用户需求，创建数据处理任务，配置数据处理信息；

步骤2：根据数据处理信息，创建数据采集任务，配置数据采集信息；

步骤3：生成相应的数据采集接口规则，其中每一个采集任务对应一个数据采集接口，用户通过修改数据采集信息，添加不同类型的数据采集接口信息；

步骤4：加载数据采集接口规则，对数据流进行监听，判断数据的类型，执行数据采集；

步骤5：根据数据处理任务，对采集得到的数据进行处理，其中，用户可通过修改数据处理信息，对数据处理任务的需求进行调整；

步骤6：将处理后的数据按照统一格式进行封装，并进行数据存储，实现对处理数据的统一分布式存储；

步骤7：根据需求向用户展示对应的数据处理结果。

以及一种分布式的多源数据处理系统，包括：

处理创建模块：用于根据用户需求，创建数据处理任务，配置数据处理信息；

采集创建模块：用于根据数据处理信息，创建数据采集任务，配置数据采集信息；

接口规则模块：用于生成相应的数据采集接口规则，其中每一个采集任务对应一个数据采集接口，用户通过修改数据采集信息，添加不同类型的数据采集接口信息；

采集执行模块：用于加载数据采集接口规则，对数据流进行监听，判断数据的类型，执行数据采集；

处理执行模块：根据数据处理任务，对采集得到的数据进行处理，其中，用户可通过修改数据处理信息，对数据处理任务的需求进行调整；

封装存储模块：将处理后的数据按照统一格式进行封装，并进行数据存储，实现对处理数据的统一分布式存储；

展示模块：根据需求向用户展示对应的数据处理结果。

本发明的有益效果包括：首先，提高了分布式多源数据的管理和使用水平，将分散的数据资源进行整合优化，降低各部门管理成本和各类应用开发运营复杂度，加快业务应用系统落地速度和随需而变的速度，提高了业务应用系统的可靠性和性能；其次，采集任务模板化，构建了标准化体系，打通了关系数据库、非关系数据库、分布式存储、并行数据库、文本文件存储等不同存储类型的数据采集边界，实现统一的采集任务配置、调度和管控流程；采用多种数据采集安全机制，保证数据采集的完整性和正确性；并且，由于包括驱动模块，数据共享模块，数据寻址模块，数据调度模块，业务处理模块和呈现模块，且数据使用非关系数据库和关系数据库以混合方式来组织，所以本发明的方法或系统可以实现实时存储，共享，数据挖掘，大数据量搜索等处理，提高数据查询效率；最后，本发明的方法或系统处于分布式即时处理环境，由于在存储不同种类的数据时，非关系数据库和关系数据库都有各自的优势，将数据以混合方式来组织可以最优化数据存储，尤其是在采集数据前又实时处理从非关系数据库发送的数据流并写入到关系数据库中，极大地提高了数据采集效率，以应对大量数据的处理，从而大幅降低建设成本。

附图说明

图1本发明的方法流程图；

图2本发明的系统框架图。

具体实施方式

为了更好地理解本发明，下面结合附图参考实施例的描述，对本发明的方法和系统进行进一步的说明。

为了全面理解本发明，在以下详细描述中提到了众多具体细节。但是本领域技术人员应该理解，本发明可以无需这些具体细节而实现。在实施例中，不详细描述公知的方法、过程、组件，以免不必要地使实施例繁琐。

参见图1所示，本发明提供了一种分布式的多源数据处理方法，包括如下步骤：

步骤7：根据需求向用户展示对应的数据处理结果。

优选地，其中，所述多源数据使用非关系数据库和关系数据库以混合方式进行组织。

优选地，其中，所述步骤5：用户可通过修改数据处理信息，具体包括添加、更改、激活、锁定和删除数据处理任务。

优选地，其中，方法还包括：多个所述数据处理任务同时进行。

优选地，其中，所述步骤6，在存储数据之前，对所述数据进行重复数据删除处理。

优选地，其中，所述步骤4：对数据流进行监听，判断数据的类型，执行数据采集，具体包括：

监听步骤，监听数据流，

判断步骤，判断所述数据流的当前数据类型，

选取步骤，根据所述数据类型的不同选取不同的数据采集策略，

数据采集步骤，根据选取的数据采集策略，进行数据采集。

优选地，其中，所述数据采集步骤进行数据采集具体包括：

数据共享步骤，确定数据的路由地址，

数据寻址步骤，根据用户需求对应的指令提取路由地址对应的数据，

数据调度步骤，根据数据提取请求，指示数据寻址步骤提取相应的数据。

优选地，其中，所述数据采集策略包括：

数据库采集策略，用于采集关系型数据，将数据备份至备份库后，生成数据文件，从备份库采集关系型数据文件；

文件采集策略，用于采集文件型数据，监听服务器的文件目录，定时从所述文件目录采集文件型数据文件；

系统数据采集策略，用于采集实时数据，监听数据流，从所述数据流中直接采集数据文件。

优选地，其中，所述步骤4：对数据流进行监听，判断数据的类型，执行数据采集，进一步包括所述数据采集步骤之前的数据转换步骤，实时处理从非关系数据库发送的多个连续生成的数据流，并将从实时处理得到的输出写入到关系数据库，

所述数据转换步骤具体包括：

识别步骤，基于所述非关系数据库连接到的端口来识别从所述非关系数据库传输的数据的类别，

模式设置步骤，根据所述端口设置传输所述数据为同步或异步的通信模式，

检索步骤，基于主索引顺序地检索每个增量数据记录，

模式转换步骤，检查并确定非关系数据库的数据模式是否与关系数据库的数据模式一致，如果一致，则非关系数据库的数据模式不需要转换；否则，非关系数据库的数据模式将被转换为关系数据库的数据模式，

写入步骤，通过与通信模式相对应的方式将数据写入数据，根据所述模式转换模块检查的结果，将模式转换或不转换到关系数据库中，

其中，如果通信模式是异步的，则当存储器中的数据满足预定状态时，无论模式是否转换，都将数据缓存到存储器中并且随后基于批处理将数据写入到关系数据库中。

如图2所示，一种分布式的多源数据处理系统，包括：

展示模块：根据需求向用户展示对应的数据处理结果。

优选地，其中，所述用户可通过修改数据处理信息，具体包括添加、更改、激活、锁定和删除数据处理任务。

优选地，其中，系统允许多个所述数据处理任务同时进行。

优选地，其中，在存储数据之前，对所述数据进行重复数据删除处理。

优选地，其中，所述采集执行模块，进一步包括：

监听模块，用于监听数据流，

判断模块，用于判断所述数据流的当前数据类型，

选取模块，用于根据所述数据类型的不同选取不同的数据采集策略，

数据采集模块，用于根据选取的数据采集策略，进行数据采集。

优选地，其中，数据采集模块具体包括：

数据共享模块，确定数据的路由地址，

数据寻址模块，用于根据用户需求对应的指令提取路由地址对应的数据，

数据调度模块，用于根据数据提取请求，指示数据寻址步骤提取相应的数据。

优选地，其中，所述数据采集策略包括：数据库采集策略，用于采集关系型数据，将数据备份至备份库后，生成数据文件，从备份库采集关系型数据文件；

优选地，其中，所述采集执行模块进一步包括数据转换模块，用于在数据采集模块执行之前，实时处理从非关系数据库发送的多个连续生成的数据流，并将从实时处理得到的输出写入到关系数据库，

所述数据转换模块具体包括：

识别模块，用于基于所述非关系数据库连接到的端口来识别从所述非关系数据库传输的数据的类别，

模式设置模块，用于根据所述端口设置传输所述数据为同步或异步的通信模式，

检索模块，用于基于主索引顺序地检索每个增量数据记录，

模式转换模块，用于检查并确定非关系数据库的数据模式是否与关系数据库的数据模式一致，如果一致，则非关系数据库的数据模式不需要转换；否则，非关系数据库的数据模式将被转换为关系数据库的数据模式，

写入模块，用于通过与通信模式相对应的方式将数据写入数据，根据所述模式转换模块检查的结果，将模式转换或不转换到关系数据库中，

本发明与现有技术相比，其显著优点为：首先，提高了分布式多源数据的管理和使用水平，将分散的数据资源进行整合优化，降低各部门管理成本和各类应用开发运营复杂度，加快业务应用系统落地速度和随需而变的速度，提高了业务应用系统的可靠性和性能；其次，采集任务模板化，构建了标准化体系，打通了关系数据库、非关系数据库、分布式存储、并行数据库、文本文件存储等不同存储类型的数据采集边界，实现统一的采集任务配置、调度和管控流程；采用多种数据采集安全机制，保证数据采集的完整性和正确性；并且，由于包括驱动模块，数据共享模块，数据寻址模块，数据调度模块，业务处理模块和呈现模块，且数据使用非关系数据库和关系数据库以混合方式来组织，所以本发明的方法或系统可以实现实时存储，共享，数据挖掘，大数据量搜索等处理，提高数据查询效率；最后，本发明的方法或系统处于分布式即时处理环境，由于在存储不同种类的数据时，非关系数据库和关系数据库都有各自的优势，将数据以混合方式来组织可以最优化数据存储，尤其是在采集数据前又实时处理从非关系数据库发送的数据流并写入到关系数据库中，极大地提高了数据采集效率，以应对大量数据的处理，从而大幅降低建设成本。

这里只说明了本发明的优选实施例，但其意并非限制本发明的范围、适用性和配置。相反，对实施例的详细说明可使本领域技术人员得以实施。应能理解，在不偏离所附权利要求书确定的本发明精神和范围情况下，可对一些细节做适当变更和修改。

Claims

1.一种分布式的多源数据处理方法，其特征在于，包括如下步骤：

步骤7：根据需求向用户展示对应的数据处理结果。

2.根据权利要求1所述的一种分布式的多源数据处理方法，其中，所述多源数据使用非关系数据库和关系数据库以混合方式进行组织。

3.根据权利要求1所述的一种分布式的多源数据处理方法，其中，所述步骤5：用户可通过修改数据处理信息，具体包括添加、更改、激活、锁定和删除数据处理任务。

4.根据权利要求1所述的一种分布式的多源数据处理方法，其中，方法还包括：多个所述数据处理任务同时进行。

5.根据权利要求1所述的一种分布式的多源数据处理方法，其中，所述步骤6，在存储数据之前，对所述数据进行重复数据删除处理。

6.一种分布式的多源数据处理系统，其特征在于，包括：

展示模块：根据需求向用户展示对应的数据处理结果。

7.根据权利要求1所述的一种分布式的多源数据处理系统，其中，所述多源数据使用非关系数据库和关系数据库以混合方式进行组织。

8.根据权利要求1所述的一种分布式的多源数据处理系统，其中，所述用户可通过修改数据处理信息，具体包括添加、更改、激活、锁定和删除数据处理任务。

9.根据权利要求1所述的一种分布式的多源数据处理系统，其中，系统允许多个所述数据处理任务同时进行。

10.根据权利要求1所述的一种分布式的多源数据处理系统，其中，在存储数据之前，对所述数据进行重复数据删除处理。