CN112395281B

CN112395281B - 一种异构多源数据融合系统

Info

Publication number: CN112395281B
Application number: CN202110078550.5A
Authority: CN
Inventors: 吕翊; 黄海峰; 韩国权; 李佳忆
Original assignee: Taiji Computer Corp Ltd
Current assignee: Taiji Computer Corp Ltd
Priority date: 2020-12-10
Filing date: 2021-01-21
Publication date: 2021-05-11
Anticipated expiration: 2041-01-21
Also published as: CN112395281A

Abstract

本发明公开了一种异构多源数据融合系统，包括：数据源装置，数据集成装置，数据存储与处理装置及统一资源服务装置；其中通过数据集成装置对于多源数据的清理和转换，数据存储处理模块中对于查询和索引模块中对索引数据的保存，对副本的备份和访问时间的设置等，有效地提高了异构多源数据系统的可靠性，同时通过负载迁移的设置和自动恢复模块等在保障异构多源数据融合系统被可靠访问的同时，满足了用户快速访问的需求。

Description

一种异构多源数据融合系统

技术领域

本发明涉及数据处理领域，具体适用于异构多源数据的融合方法和系统。

背景技术

在大数据时代，对数据的要求越来越高、越来越严格，对数据采集工作也提出了新的、更高的要求。大数据是以文本、图片、音频、视频等非结构化数据为主，其信息密度相对较低、应用价值潜力较大。大数据的来源更为多样化并且在不断拓展，来自公众、传感设备、移动设备、计算设备的数据通过互联网、物联网、移动互联网实时传输。数据的产生具有开放、并发、实时、在线的特点。

目前数据采集仍以部门各自采集为主，纵向采集但缺乏横向比对，大数据采集平台除了政府部门依法采集的业务数据之外，还将采集社会机构、企业、尤其是互联网上的非结构化数据。平台通过社交网络交互数据及移动互联网数据等方式获得业务数据和互联网数据，并用存储器将采集到的数据存储起来，建立相应的数据库后进行重新组织和管理。

用户通常面临的是大量的、以不同形式存储的、依赖于不同的数据库管理系统的数据，系统需要解决的一个难点就是将多种数据源中的相关数据进行提取、融合、梳理整合成一个分析数据集。同时如何将上述的数据进行有效的存储和融合，并提供可靠的数据存储和快速访问也是目前的难点之一。

发明内容

为解决上述技术问题至少之一，本申请提出一种基于异构多源数据的融合系统。所述系统包括：数据源装置，数据集成装置，数据存储与处理装置及统一资源服务装置，所述装置，通过通信线路相互连接；

所述数据源装置，用于对数据进行采集，通过系统日志和网络数据采集获取结构化和非结构化的多源数据；所述数据源装置包括数据校验模块，所述数据校验模块，对接收数据和发送数据做一致性的校验；

所述数据集成装置，用于对数据源装置的多源数据进行预处理，从中抽取具有价值的数据，并对采集数据进行清洗转换，以适应数据的存储要求；

所述数据存储与处理装置，用于大数据存储与管理，并进行数据调用；对数据类型按照数据热度分为在线，近线，离线数据三种类型，对于近线数据响应时间设置在100ms以内，对于在线数据的响应时间设置在30ms以内，对于离线数据响应时间设置在1s以内；

所述数据存储与处理装置，包括分布索引和查询单元，所述分布式索引和查询单元，用于将索引数据切分后，采用hash函数的映射的方式，将数据分布到不同的存储节点；所述数据存储与处理装置，将同一存储节点的数据以2个副本的形式保存到不同的节点上，一个副本在同机架的其他节点上，另外一个副本在其他机架的节点上，其中一个副本仅起数据备份作用，不接受查询请求；

所述统一资源服务装置，用于为用户使用数据提供不同的应用接口，以与各种应用的需求对接。

所述数据存储与处理装置，还包括一个自动恢复模块，所述自动恢复模块用于恢复存储数据中的元数据副本，具体功能是：1）检查待恢复元数据副本是否足够，若是则无须恢复；2）判断任务状态，如果任务状态为任务初始化Task_inited，则转步骤４）；3）选择恢复源，恢复源选择为元数据任意可用副本；选择恢复目的，恢复目的选择为元数据服务器集群内设定时间内I/O压力最小的元数据服务器；更新任务状态为Task_inited，更新元数据副本位置分布信息；4）计算恢复限速，如果恢复限速＜＝０，则意味着当前无法执行恢复，转步骤８）；5）向恢复源发送数据恢复任务；6）修改任务状态为Task_processing；7）等待任务汇报状态；8)从任务队列中删除任务; 其中所述等待任务汇报状态，包括任务处理结束；

进一步，所述数据源装置中通过系统日志和网络数据采集获取结构化和非结构化的多源数据，具体是通过网络爬虫的方式进行采集；

进一步，所述数据集成装置，包括数据抽取单元，用于对数据执行全量抽取，增量抽取，静态数据捕获和/或动态数据捕获。

进一步，所述数据集成装置，包括数据清洗单元，所述数据清洗单元用于按照目标数据的要求，改进已抽取的数据指令，消除错误和不一致，执行完整性检查，并核对数据的有效性。

进一步，所述数据集成装置包括，数据转换单元，所述数据转换单元用于对所有数据的格式、长度、类型、单位及空值属性进行检查，对不同属性的将其转换为统一的属性或描述。

进一步，所述数据源装置包括的数据校验模块，还用于多源数据验证，将来自不同数据源的同一数据进行比对，并根据其相似度、误差值，做置信度验证。

进一步，所述数据源装置包括的数据校验模块，还用于数据可信度评估，对于评分高于一定数值（设定阈值）的，判断该数据可用于决策信息服务；对于评分低于一定数值（设定阈值）的，则做错误数据处理。

进一步，数据校验模块中的做错误数据处理具体是，反馈错误信息并进行标识，将错误数据自动转入数据回收站；

进一步，所述数据存储与处理装置，包括一个负载迁移单元，所述负载迁移单元用于判断存储节点是否超载，并进行迁移。

进一步，所述数据存储与处理装置中对于数据的存储是采用分布式存储的方式，将数据存储在存储节点上。

进一步，所述数据包括城市大数据，所述城市大数据包括：社交互联网数据和社会调查数据。

本发明的一种异构多源数据融合系统，包括：数据源装置，数据集成装置，数据存储与处理装置及统一资源服务装置；其中通过数据集成装置对于多源数据的清理和转换，数据存储处理模块中对于查询和索引模块中对索引数据的保存，对副本的备份和访问时间的设置等，有效地提高了异构多源数据系统的可靠性，同时通过负载迁移的设置和自动恢复模块等在保障多源异构数据系统在被可靠访问的同时满足了用户快速访问的需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本系统的功能架构示意图；

图2 是数据集成装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本系统包括数据源装置，数据集成装置，数据存储与处理装置及统一资源服务装置。所述统一资源服务装置，用于为用户使用数据提供不同的应用接口，以与各种APP的需求对接。

所述数据源装置对数据进行采集，大数据采集的功能层分为大数据智能感知层和基础支撑层。其中，智能感知层主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。基础支撑层提供大数据采集与存储平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及网络资源等基础支撑环境。

按照城市数据来源和种类，城市大数据可以分为三类：第一类政府业务数据，是业务办理过程中采集和产生的数据；第二类来自社会机构及公共事业单位的数据；第三类民意社情数据，社交互联网数据、社会调查数据等。其中，针对政府数据和社会机构数据，将采取购买或交换的方式获取，通过以平台服务换取数据的形式达成数据交换的协议。

针对社交互联网数据，数据源装置包括数据采集单元采用主动采集的方式进行获取数据。主要采集方法包括以下三种：

1、系统日志采集方法

海量数据采集工具多用于系统日志采集，如Hadoop的Chukwa，Cloudera的Flume，Facebook的Scribe等，这些工具均采用分布式架构，能满足每秒数百MB的日志数据采集和传输需求。

2、网络数据采集方法

通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来，将其存储为统一的本地数据文件，并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集，附件与正文可以自动关联。除了网络中包含的内容之外，对于网络流量的采集可以使用DPI或DFI等带宽管理技术进行处理。

所述数据采集单元进一步包括数据校验模块，所述数据校验模块，用于数据校验工作主要解决从数据采集、数据传输、数据处理三个阶段中可能产生的数据安全威胁问题。在来自网络的信息中，有些属于一般性数据，用于某些应用过程的输入，而有些可能是操作指令。而这些操作指令中，又有一些可能是多种原因造成的错误指令，或者是攻击者的恶意指令。如何甄别出真正有用的信息，如何识别并有效防范恶意信息和指令带来的威胁是数据校验的一个重大安全挑战。数据校验模块可主要包括数据传输校验、多源数据验证、数据可信度评估评分、错误数据处理和系统管理等功能。

1、数据传输校验

指对接收数据和发送数据一致性的校验，确保数据的准确、可靠。校验通过校验码来进行。通过建立校验算法，计算校验码的正确与否来判断发送数据和接收数据的一致性。

2、多源数据验证

系统可自动将来自不同数据源的同一数据进行比对，并根据其相似度、误差值，结合相关算法进（置信度）行验证，如果完全一致或误差值在一定范围内，则表示数据验证通过；对于误差值较大的数据，则需进行可信度评估。

3、数据可信度评估评分

系统对来自多源的数据进行评估，并根据一定的算法和公式计算出其评分。对于评分高于一定数值的，判断该数据可用于决策信息服务；对于评分低于一定数值的，则需进行相应的错误数据处理。

4、错误数据处理

对于未通过验证和数据可信度评估的结果低于一定数值的数据，系统将自动反馈错误信息，并进行标识，错误数据自动转入数据回收站等待处理。

如图2所示，所述数据集成装置，用于对多源数据进行预处理，从中抽取具有价值的数据，并对采集数据进行清洗转换，以适应数据的存储要求。

1、数据抽取单元

数据抽取包括静态数据捕获、追加数据捕获、全量抽取和增量抽取四种方式。分别用于定时数据获取、数据动态获取、数据全量获取和数据增量获取四种情况。在实际操作中有可能需要采用2种或以上的抽取方式，方可满足数据获取的需求。例如，对于数据更新情况比较了解的数据源，即可采取增量抽取的方式即可。但对于数据更新情况不太了解的数据源，即可采取追加数据捕获和全量抽取相结合的方式抽取数据。

2、数据清洗单元

数据清洗功能的作用是按照目标数据的要求（如数据完整性、规范性改进已抽取的数据质量。通常将数据清洗问题叫做“脏数据”的处理。数据清洗是在数据中消除错误和不一致，并解决系统后续对数据识别问题的过程。由于从不同数据源抽取的数据在描述同一个对象时，相同数据可能有不同的数据描述，在对它们进行统一的过程中，应消除这些差异，对其进行完整性检查，并核对数据的有效性，以防止将数据源的错误数据或差异性数据加载至数据库中。

3、数据转换单元

与数据清洗功能类似，数据转换功能亦是将抽取过来的数据，按照目标数据的要求（如格式、长度、字段类型、单位等）转换来自于各数据源的数据。数据转换主要负责对所有数据的格式、长度、类型、单位及空值等属性进行检查，对不同属性的将其转换为统一的属性或描述。例如，对数据空值的按规则看改变为NULL或零值。

4、数据加载单元

数据加载是将经过抽取、清洗、转换后的数据移动或复制到指定的目标数据库中的过程。

所述数据存储与处理装置，用于大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，并进行管理和调用。在大数据的采集过程中考虑到并发数高的情况（同时可能有成千上万的用户来进行访问和操作），需要在采集端部署大量数据库支撑。虽然数据采集端会有很多数据库，但是如果要对这些海量数据进行有效的分析，应该将这些来自前端的数据导入到一个集中的大型分布式

数据库或者分布式存储集群，并且根据数据来源，对数据进行重新分类组织。

本实施例，为提高访问效率，采用分布式存储方式，本系统采用在分布式存储的异构数据融合系统中，数据类型按照数据的使用“热度”，可以分为在线、近线、离线数据，对不同热度的数据采取不同的技术策略。

实验仿真表明，在线数据如虚拟化的响应时间可能在30ms以内，近线数据的响应时间可以放宽到100ms以内，而云盘、归档、备份等相对较“冷”的离线数据，响应时间即使超过1s也仍然处在用户可接受的范围之内。

可选的数据存储与处理装置进一步包括分布式索引和查询单元，所述分布式索引查询单元，将索引数据切分后，存储到多个节点，采用hash函数方式将数据分布到不同的服务器节点。其中，索引数据用于数据的查询和获取。索引数据及存储的数据都可以设置成元数据。

可选的哈希函数将元数据映射到环上的某个点。以文件的目录的路径全名为参数，这样同一个目录下的所有文件将会得到相同的值，利用局部性原理可以提高存储系统的性能。

哈希函数f_１：dir_i→［0，1］（1）

哈希函数f_２将元数据服务器m_i映射到［0，1］哈希环上的某个点。f_２以元数据服务器的IP地址和元数据服务对外端口串addr_i为参数。f_２：addr_i→［0，1］（2），哈希函数f_１和f_２可以取为SHA１函数。

具体的流程是：1）得到将要存放的元数据的目录地址路径名dir_i，根据式（1）计算f_１（dir_i），将结果映射到元数据［0，1］哈希环上的某个点。２）得到每一个元数据服务器m_i的IP地址和端口号，组合成串addr_i，根据式（2）计算f_２（addr_i），将结果映射到元数据服务器［0，1］环上的某个点。３）从所有元数据服务器上收集当前元数据服务器的CPU处理能力、剩余内存大小、IO带宽剩余大小、磁盘剩余容量，和读写能力等，计算元数据服务器当前的处理能力。

可选的，４）将元数据［0，1］环和元数据服务器［0，1］环重叠在一起，根据式计算出元数据和所有元数据服务器之间的相对距离集合Ｄ。

５）在集合Ｄ中选择最小的值，相对应的元数据服务器就是元数据要存放的地点。将元数据与存储位置的映射添加到全局映射表中。

优选的，为提高查询索引数据的效果，进一步包括元数据管理缓存单元，所述缓存单元存有一个全局的元数据存储映射表DLT和每一个元数据服务器自己的SDLT。为SDLT设置一个版本号version SDLT，每当SDLT更新以后，Version SDLT便递增一次。同一个目录下的所有文件的元数据都保存在同一个元数据服务器上。根据局部性原理，如果访问了同一个目录下的一个文件，那么该目录下的其他文件有很大的可能被访问到。可以在客户端中设置一个环形缓冲区来存储SDLT，每次访问元数据服务器获得元数据信息时，同时也得到Version SDLT。将得到的版本号与缓存中的SDLT的版本号进行对比，若前者的版本号比较小，就更新到最新版本的SDLT。将所有的SDLT按照访问的先后，顺序存储在环形缓冲区中，若存储区满则覆盖环开始的地方。

同时，对于分布式存储系统，当一个存储节点（服务器存储器）故障时，将无法访问该节点上的数据。为了提高可用性，防止单点故障，数据存储与处理装置还用于，保存多个副本到不同的节点上，副本可以使用不同的分布策略，可选的采用 2 个副本，一个副本在同机架上的其他节点，另一个副本在其他机架的节点上。这样一方面可以有效利用数据局部性原理改进性能，另一方面可以最大化的保证数据的可用性。可选的，设置一些副本仅仅起数据备份的作用，这种类型的副本不能接受查询请求，以提高系统的可靠性。上述功能，也可以由分布式索引和查询单元执行。

同时优选的，对数据存储与处理装置中增加一个自动恢复模块，所述自动恢复模块用于元数据副本的恢复，其具体功能是：1.检查待恢复元数据副本是否足够，若是则无须恢复；2.判断任务状态，如果任务状态为Task_inited，则转步骤４；3.选择恢复源，恢复源选择为该元数据任意可用副本。选择恢复目的，恢复目的选择为元数据服务器集群内最近一段时间内I/O压力较小的元数据服务器。更新任务状态为Task_inited，更新元数据副本位置分布信息；4.计算恢复限速，如果恢复限速＜＝０，则意味着当前无法执行恢复，转步骤８；5.向恢复源发送数据恢复任务；6.修改任务状态为Task_processing；7.等待任务汇报状态；8.从任务队列中删除任务。

优先级任务队列用于按照数据恢复的优先级存储当前系统所有待处理的恢复任务。将元数据的存活副本数作为恢复任务的权重，权重越小任务的优先级越高。

对于存储节点的是否需要迁移，可选的可以存在负载迁移单元，用于，单节点存储负载判定，当判断负载均衡不平衡时，计算出哪些存储节点是超负载，哪些存储节点是空负载，并按照其存储负载程度构建超载节点有序队列和空载节点有序队列。单节点存储负载判定的过程包括：计算每个节点的存储负载率Li；计算系统平均负载Lavg。创建超载节点有序队列和空载节点有序队列。如果Li>Lavg，说明该存储节点超载，就将该存储节点按大根堆序插入到超载节点队列中；如果Li<Lavg，说明该存储节点空载，就将该存储节点可以堆栈的方式插入到空载节点队列中。存储负载迁移的具体过程包括：计算每一个超载存储节点需要迁移出的数据量：计算每一个空载节点需要迁移进的数据量：根据存储节点需要迁移的数据量，按序循环迁移数据；

1）判断超载队列不为空，则取超载队列根元素i，计算需要迁移出的数据量ΔDouti，取空载队列根元素j，其中i, j代表节点序号。

计算需要迁移进的数据量ΔDinj；2）判断ΔNouti是否大于ΔDinj：如是，则将节点i上的ΔDinj数据量迁移到节点j上，并令ΔNouti＝ΔDouti-ΔDinj，再将节点i重新插入到超载节点队列，对超载节点队列进行更新；如否，则将节点i上的ΔDouti数据量迁移到节点j上，并令ΔNinj＝ΔNinj-ΔNouti，再将节点j重新插入到空载节点队列，对空载节点队列进行更新。

基于如上所述的示例，在一个实施例中涉及方法步骤的特征，可以被本发明提供的一种计算机设备/或系统实现，该计算机设备/系统包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如上述各实施例中的任意一种方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各视频播放方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

据此，还提供一种存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意涉及的方法步骤。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种异构多源数据融合系统，其特征在于，所述系统包括：数据源装置，数据集成装置，数据存储与处理装置及统一资源服务装置，所述装置，通过通信线路相互连接；

所述数据存储与处理装置，包括分布式索引和查询单元，所述分布式索引和查询单元，用于将索引数据切分后，采用hash函数的映射的方式，将数据分布到不同的存储节点；所述数据存储与处理装置，将同一存储节点的数据以2个副本的形式保存到不同的节点上，一个副本在同机架的其他节点上，另外一个副本在其他机架的节点上，其中一个副本仅起数据备份作用，不接受查询请求；

其中，所述数据存储与处理装置，还包括一个自动恢复模块，所述自动恢复模块用于恢复存储数据中的元数据副本，具体功能是：1）检查待恢复元数据副本是否足够，若是则无须恢复；2）判断任务状态，如果任务状态为任务初始化Task_inited，则转步骤４）；3）选择恢复源，恢复源选择为元数据任意可用副本；选择恢复目的，恢复目的选择为元数据服务器集群内设定时间内I/O压力最小的元数据服务器；更新任务状态为Task_inited，更新元数据副本位置分布信息；4）计算恢复限速，如果恢复限速＜＝０，则意味着当前无法执行恢复，转步骤８）；5）向恢复源发送数据恢复任务；6）修改任务状态为Task_processing；7）等待任务汇报状态；8)从任务队列中删除任务；其中所述等待任务汇报状态，包括任务处理结束；

所述数据存储与处理装置，进一步包括负载迁移单元，所述负载迁移单元用于单节点存储负载判定和存储负载迁移，当判断负载均衡不平衡时，计算出哪些存储节点是超负载，哪些存储节点是空负载，并按照存储负载程度构建超载节点有序队列和空载节点有序队列；

所述单节点存储负载判定的过程包括：计算每个节点的存储负载率Li；计算系统平均负载Lavg；创建超载节点有序队列和空载节点有序队列；如果Li>Lavg，说明该存储节点超载，就将该存储节点按大根堆序插入到超载节点队列中；如果Li<Lavg，说明该存储节点空载，就将该存储节点以堆栈的方式插入到空载节点队列中；存储负载迁移的过程包括：计算每一个超载存储节点需要迁移出的数据量：计算每一个空载节点需要迁移进的数据量：根据存储节点需要迁移的数据量，按序循环迁移数据；

2.如权利要求1所述的系统，其特征在于：所述数据源装置中通过系统日志和网络数据采集获取结构化和非结构化的多源数据，具体是通过网络爬虫的方式进行采集。

3.如权利要求1所述的系统，其特征在于：所述数据集成装置，包括数据抽取单元，用于对数据执行全量抽取，增量抽取，静态数据捕获和/或动态数据捕获。

4.如权利要求1所述的系统，其特征在于：所述数据集成装置，包括数据清洗单元，所述数据清洗单元用于按照目标数据的要求，改进已抽取的数据指令，消除错误和不一致，执行完整性检查，并核对数据的有效性。

5.如权利要求1所述的系统，其特征在于：所述数据集成装置包括，数据转换单元，所述数据转换单元用于对所有数据的格式、长度、类型、单位及空值属性进行检查，对不同属性的将其转换为统一的属性或描述。

6.如权利要求1所述的系统，其特征在于：所述数据源装置包括的数据校验模块，还用于多源数据验证，将来自不同数据源的同一数据进行比对，并根据其相似度、误差值，做置信度验证。

7.如权利要求6所述的系统，其特征在于：所述数据源装置包括的数据校验模块，还用于数据可信度评估，对于评分高于设定数值的，判断该数据可用于决策信息服务；对于评分低于设定数值的，则做错误数据处理。

8.如权利要求1-7任一所述的系统，其特征在于：所述数据存储与处理装置，包括负载迁移单元，所述负载迁移单元用于判断存储节点是否超载，并进行迁移。

9.如权利要求1-7任一所述的系统，其特征在于：所述数据存储与处理装置中对于数据的存储是采用分布式存储的方式，将数据存储在存储节点上。

10.如权利要求9所述的系统，其特征在于：所述数据包括城市大数据，所述城市大数据包括：社交互联网数据和社会调查数据。