CN113987131A

CN113987131A - 异构多源数据关联分析系统和方法

Info

Publication number: CN113987131A
Application number: CN202111330974.2A
Authority: CN
Inventors: 张业红; 顾行发; 刘向东; 黄祥志; 石宇航; 陈佳玮; 朱玉婷
Original assignee: Jiangsu Tianhui Spatial Information Research Institute Co ltd
Current assignee: Jiangsu Tianhui Spatial Information Research Institute Co ltd
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2022-01-28
Anticipated expiration: 2041-11-11
Also published as: CN113987131B

Abstract

本发明公开了异构多源数据关联分析系统和方法，包括异构多源数据采集模块、异构多源数据混合关联模块、异构多源数据语义映射模块、异构多源数据融合模块和异构多源数据清洗模块；异构多源数据采集模块对不同来源的数据信息进行采集并对获取的数据进行传输；异构多源数据混合关联模块为基础设施的知识提供途径且描述了基础设施现象发生过程中的时空演变过程；异构多源数据语义映射模块建立低层数据与其对应标签的关系，从而实现底层特征与高层语义的转换；异构多源数据融合模块用于判断数据之间语义距离从而进行融合；异构多源数据清洗模块用于对数据进行清洗保证数据的有效真实性。

Description

异构多源数据关联分析系统和方法

技术领域

本发明涉及数据分析技术领域，具体为异构多源数据关联分析系统和方法。

背景技术

目前，在信息化及大数据应用越来越深入的情况下，产生了越来越多的数据集。在海量超多数据集的场景下，对异构多源数据的分析显得尤为重要，且在数据信息查询的过程中，数据的关联性和有效性是判断该数据体系的重要标准，且在数据的提取中，经常会出现数据链不完整，数据链上的数据信息与整体的属性趋势并不相同等错误现象，给数据信息的提取和查询带来了不便之处；

同时，对异构信息关联分析技术支撑能力不够，目前信息关联主要局限于利用关系数据库的实体关系模型进行数据组织，缺乏针对异构多源数据的深度挖掘和模糊信息要素关联方法的研究，难以解决不同类型源信息之间的复杂交叉关系和信息要素内在本质联系的关联问题。

发明内容

本发明的目的在于提供异构多源数据关联分析系统和方法，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：异构多源数据关联分析方法，包括以下步骤：

步骤S100：对异构多源数据进行关键词的提取，关键词的提取包含上层关键词、下层关键词和本体关键词的提取，并将上层关键词、下层关键词和本体关键词进行整合成关键词集；

步骤S200：基于步骤S100中的关键词集，进行关系网络的构建，关系网络的构建包括空间关系网络、时间序列链和语义关系网络；

步骤S300：基于步骤S200的空间关系网络、时间序列链和予以关系网络进行综合相关度的评估并制定相关的动态更新策略；

步骤S400：基于步骤S300的动态更新策略对其中的异构多源数据进行语义映射和数据融合操作；

步骤S500：对步骤S400中的异构多源数据或者随机抽取的数据进行清洗。

进一步的，步骤S200的具体过程如下：

步骤S210：将关键词集中的上层关键词、下层关键词和本体关键词根据空间属性进行关系网络的构建，空间属性包括位置空间属性和几何空间属性，由位置空间属性构建的关系网络为第一空间关系网，由几何空间属性构建的关系网络为第二空间关系网；

步骤S220：将关键词集中的上层关键词、下层关键词和本体关键词根据时间序列进行关系网络的构建得到第三时间关系网；时间序列为时间发展的自然顺序；

步骤S230：将关键词集中的上层关键词、下层关键词和本体关键词根据语义关系中的逻辑关系进行关系网络的构建得到第四语义关系网。

进一步的，步骤S300的具体过程如下：

步骤S310：记关系网络中的第一空间关系网、第二空间关系网、第三时间关系网和第四语义关系网构成一个关系网络集合A，记第一空间关系网为集合a、第二空间关系网为集合b、第三时间关系网为集合c、第四语义关系网为集合d；

步骤S320：分别计算四个关系网之间的两两之间是否相关，得到相关度集合γ，记两者相关有交集时特征值为1，不相关无交集时特征值为0；则有γ＝{a∩b,a∩c,a∩d,b∩c,b∩d,c∩d,}，当有γ＝{1,1,1,1,1,1}时，关系网络综合相关度为峰值相关；当有γ＝{1,0,0,0,0,0}且特征值为1时对应的集合为任意组合，有且只有一种，关系网络综合相关度为谷底相关；其余所有情况均为半腰相关；

步骤S330：基于步骤S320中的综合相关度制定动态更新策略，当综合相关度为峰值相关时，对异构多源数据的更新进行同步覆盖式更新，即从关键词集的更新到关系网络的更新；当综合相关度为谷底相关时，对异构多源数据的更新采取融合减值式更新，将相关的两种关系网络进行融合得到新的关系网络为第五维度关系网；当综合相关度为半腰相关时，对异构多源数据采取逐步式更新；彼此相关联的网络依次传递更新。

将关系网络进行相关度的计算是为了关系网络进行动态更新的区分，已达到有效划分不同程度关系网络的更新状态；当峰值相关时，说明该关系网络强相关，所以在动态更新的时候需要进行第一时间的更新和同步，以防止在对关键词进行检索时出现的因更新不及时的偏差问题；当谷底相关时，说明只有两种关系网络相关，两种关系网络可以进行减少关键词节点进行融合，以增加数据关键词存放的空间；当半腰相关时，逐步式更新有助于更新的连续性，且使关系网络之间更加流畅。

进一步的，步骤S400具体过程如下：

步骤S410：将异构多源数据中的关键词集中的关键词作为节点，对关键词集进行语义分析，语义分析包括形近词的语义分析、形音词的语义分析和近义词的语义分析，将三种语义构成关联子图，将关联子图与关系网络中的关系节点实现映射；

步骤S420：基于关系网络查找连接两节点之间的最短距离，记关键词节点为O₁、O₂，假设关键词节点O₁、O₂、......O_n为节点O₁和O₂之间的最短路径，则节点之间的最短语义距离为：

其中P(O_i)表示节点O_i引出的边具有相同的权重，用节点O_i的权重表示，即连接O₁、O₂最短路径上第i边的权值，对于权重的计算，利用公式：

其中Pid(S)为节点O的直接孩子节点数目；

步骤S430：基于步骤S420中的最短语义距离，将两节点的最短语义距离中包含的所有节点进行融合构成新的语义网络关系。

将最短语义距离中的节点进行融合是因为语义距离越短则表示该关键词节点的语义越相近，利用权重值表示关键词节点与节点之间的语义相似程度，且同一关系网中的节点之间的权重是相同的，可以将复杂的网络关系有效的化简成不同节点之间权重值的求和计算，从而得出最相近的语义关系，因此融合成新的语义关系网络，新的语义关系网络占据一个节点且可包含更多的关键词，有效的为数据的提取提供了高效率的查询结果。

进一步的，步骤S500具体过程如下：

步骤S510：对异构多源数据关键词集中的词意进行分析，得到关键词集的数据特点和数据规律；若关键词集的数据特点和规律趋于属性特征；则依据此属性特征定义清洗规则；

步骤S520：对步骤S510中的属性特征定义规则，规则包含关键词集中出现节点空值、关键词属性特征不一致、具有重复的属性特征的关键词三种情形；

步骤S530：对步骤S520中的定义规则进行执行，将关键词集中出现的节点空值进行相同属性特征的关键词的补充；对关键词集中出现的关键词属性特征不一致时，进行不一致属性特征关键词的清除或者调度到其他关系网络中；对关键词集中出现的关键词属性特征相同并重复记录的关键词，进行对该关键词的删除且只保留一个关键词本身；最后查询任意关键词生成数据链，检验数据链上是否出现上述存在问题，若没有，则生成数据清洗报告；若有，则转步骤S510重新分析关键词集的数据特点和规律；循环分析直至得出数据清洗报告。

对异构多源数据的清洗是为了将得到的数据关系网中和数据链中的所有信息都具有完整性、共同性、精确性和及时性，且所需检索的关键词在所属的数据关系网和数据链中能够实现转换后数据质量的全面检查，保障数据资源应用和数据挖掘的准确性。

异构多源数据关联分析方法中的异构多源数据关联分析系统，包括异构多源数据采集模块、异构多源数据混合关联模块、异构多源数据语义映射模块、异构多源数据融合模块和异构多源数据清洗模块；异构多源数据采集模块用于对不同来源领域的数据信息进行获取采集，并对获取的数据进行传输；异构多源数据混合关联模块用于为基础设施的知识提供了途径，且描述了基础设施现象发生过程中的时空演变过程；异构多源数据语义映射模块用于建立复杂的低层数据与其对应标签的对应关系，从而实现底层特征与高层语义之间的转换；异构多源数据融合模块用于对复杂基础设施资料的数据集特征，结合重复检测方法实现基础设施资料数据集的融合；异构多源数据清洗模块用于对数据进行重新审查和校验，从而删除重复信息、纠正存在的错误并提供数据的一致性。

进一步的，异构多源数据混合关联模块包括信息抽取单元、关系网络构建单元、综合评估单元和策略更新单元；

信息抽取单元对异构多源数据采集模块中的不同来源领域的信息进行关键词的提取；对关键词进行引申至上层关键词、下层关键词和本体关键词；信息抽取单元对上层关键词、下层关键词以及本体关键词进行整合得到关键词集，并统一将关键词集传输到关系网络构建单元中；

关系网络构建单元对关键词集进行空间关系网络、时间序列链和语义关系网络的构建；综合评估单元基于关系网络构建单元中的三种关系进行综合相关度的评估；

策略更新单元基于综合评估单元得到的综合相关度，制定相关度更新策略，构建基础设施数据多视角混合关联模型。

策略更新单元实现基础设施数据综合关联模式网的动态更新，从而为基础设施成果的数据挖掘及领域知识发现提供关联信息基础和技术支撑。

进一步的，异构多源语义映射模块用于实现基础信息的语义查询和语义理解的目标，为查询者提供能够相互关联的查询结果；异构多源语义映射模块基于语义关系网络进行低层关键词特征到高层语义之间的映射；

异构多源数据融合模块基于异构多源语义映射模块的映射结果，将不同映射结果进行概念属性特征层次的融合。

异构多源数据的融合节省了对多源异构数据检索的时间，且增大了多源异构数据的数据库，一个词可以包含多个数据库节点。

进一步的，异构多源数据清洗模块针对上层汇聚的数据或者抽取的数据进行清洗，异构多源数据清洗模块包括数据分析、清洗规则的定义、清洗规则的执行以及数据评估；

数据分析模块对异构多源数据采集模块中的数据信息进行分析数据的规律和特点；清洗规则的定义包括空值的检查和处理、不一致数据的监测和处理、相似重复记录的监测和处理；清洗规则的执行包括去掉重复的记录、补上不完全的记录、解决不一致的记录、用测试查询来验证数据和生成数据清洗报告；数据评估是对清洗后的数据进行全面的考察和评价，包括数据质量评估和数据有效性评估。

与现有技术相比，本发明所达到的有益效果是：该发明在海量超多数据集的场景下，对异构多源数据的分析基于关系网络的分析，且在数据信息查询的过程中，进行动态的数据关联性和有效性的更新，且数据在预处理时，进行放大式处理关系网络，在用户检索时增加检索效率，使得用户针对性的关键词可以检索出多种不同关系网络的相关信息，使得包容度增加，对异构多源数据的提取变得方便，最后在提取数据的准确性方面，采用循环模式分析，使得关系网络中的所有数据都是有效数据且是不多余的。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明异构多源数据关联分析系统的整体结构示意图；

图2是本发明异构多源数据关联分析方法的整体流程图；

图3是本发明异构多源数据关联分析方法的关系网络构建的流程图；

图4是本发明异构多源数据关联分析系统和方法的动态更新策略的流程图；

图5是本发明异构多源数据关联分析方法的数据映射和融合的流程图；

图6是本发明异构多源数据关联分析方法的数据清洗流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-6，本发明提供技术方案：异构多源数据关联分析方法，包括以下步骤：

例如：提取关键词“风”，引申上层关键词为“气流”，下层关键词为“海浪”，关键词集为{气流,风,海浪}；

例如：空间关系网络中：

时间序列链中：

语义关系网络：

步骤S200的具体过程如下：

步骤S300的具体过程如下：

例如：当集合

集合

集合

集合d＝{河流≠土壤≠绿草}；计算γ＝{a∩b,a∩c,a∩d,b∩c,b∩d,c∩d,}可知，γ＝{1,0,0,0,0,0}，该关系网络为谷底相关，故将集合a与集合c进行融合减值式更新，即去除“土壤”与“绿草”在集合c中的节点，增加集合a中“土壤”与“绿草”的节点关系，即集合

且得到的集合a'为第五维度关系网；

步骤S400具体过程如下：

例如：关键词集中的“河流”“土壤”“绿草”，河流→湖泊→水质→污染；土壤→土质→害虫→天气；绿草→青草→季节→温度；从关键词本身开始基于语义进行映射，可以将关系网络中的关键词进行关联，从而形成庞大的关系网络；

其中Pid(S)为节点O的直接孩子节点数目；

例如：关键词节点O₁、O₂之间存在的路径有：O₁→O₅→O₆→O₇→O₂，O₁→O₃→O₄→O₂；则最短路径为O₁→O₃→O₄→O₂，关键词节点O的直接孩子节点数目为4，孩子节点数目即为四种关系网络中的本体关键词，则

则该最短语义距离为

例如：关键词节点O₁、O₂分别为海堤和水库堤，而O₃、O₄为防波堤和渠堤，由步骤S420知道O₁→O₃→O₄→O₂路径最短，即海堤→防波堤→渠堤→水库堤的相似度最高，故将该语义网络进行融合成“堤坝”；当用户提取关键词“堤坝”时，可以抽取相关“防波堤、海堤、渠堤和水库堤”的所有数据信息。

步骤S500具体过程如下：

步骤S530：对步骤S520中的定义规则进行执行，将关键词集中出现的节点空值进行相同属性特征的关键词的补充；对关键词集中出现的关键词属性特征不一致时，进行不一致属性特征关键词的清除或者调度到其他关系网络中；对关键词集中出现的关键词属性特征相同并重复记录的关键词，进行对该关键词的删除且只保留一个关键词本身；最后查询任意关键词生成数据链，检验数据链上是否出现上述存在问题，若没有，生成数据清洗报告；若有，则转步骤S510重新分析关键词集的数据特点和规律；循环分析直至得出数据清洗报告。

异构多源数据混合关联模块包括信息抽取单元、关系网络构建单元、综合评估单元和策略更新单元；

异构多源语义映射模块用于实现基础信息的语义查询和语义理解的目标，为查询者提供能够相互关联的查询结果；异构多源语义映射模块基于语义关系网络进行低层关键词特征到高层语义之间的映射；

异构多源数据清洗模块针对上层汇聚的数据或者抽取的数据进行清洗，异构多源数据清洗模块包括数据分析、清洗规则的定义、清洗规则的执行以及数据评估；

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.异构多源数据关联分析方法，其特征在于，包括以下步骤：

步骤S100：对异构多源数据进行关键词的提取，关键词的提取包含上层关键词、下层关键词和本体关键词的提取，并将所述上层关键词、下层关键词和本体关键词进行整合成关键词集；

步骤S200：基于所述步骤S100中的关键词集，进行关系网络的构建，所述关系网络的构建包括空间关系网络、时间序列链和语义关系网络；

步骤S300：基于所述步骤S200的空间关系网络、时间序列链和予以关系网络进行综合相关度的评估并制定相关的动态更新策略；

步骤S400：基于所述步骤S300的动态更新策略对其中的异构多源数据进行语义映射和数据融合操作；

2.根据权利要求1所述的异构多源数据关联分析方法，其特征在于：所述步骤S200的具体过程如下：

步骤S210：将关键词集中的上层关键词、下层关键词和本体关键词根据空间属性进行关系网络的构建，所述空间属性包括位置空间属性和几何空间属性，由位置空间属性构建的关系网络为第一空间关系网，由几何空间属性构建的关系网络为第二空间关系网；

步骤S220：将关键词集中的上层关键词、下层关键词和本体关键词根据时间序列进行关系网络的构建得到第三时间关系网；所述时间序列为时间发展的自然顺序；

3.根据权利要求2所述的异构多源数据关联分析方法，其特征在于：所述步骤S300的具体过程如下：

步骤S320：分别计算四个关系网之间的两两之间是否相关，得到相关度集合γ，记两者相关有交集时特征值为1，不相关无交集时特征值为0；则有γ＝{a∩b,a∩c,a∩d,b∩c,b∩d,c∩d,}，当有γ＝{1,1,1,1,1,1}时，所述关系网络综合相关度为峰值相关；当有γ＝{1,0,0,0,0,0}且特征值为1时对应的集合为任意组合，有且只有一种，所述关系网络综合相关度为谷底相关；其余所有情况均为半腰相关；

步骤S330：基于所述步骤S320中的综合相关度制定动态更新策略，当综合相关度为峰值相关时，对异构多源数据的更新进行同步覆盖式更新，即从所述关键词集的更新到关系网络的更新；当综合相关度为谷底相关时，对异构多源数据的更新采取融合减值式更新，将相关的两种关系网络进行融合得到新的关系网络为第五维度关系网；当综合相关度为半腰相关时，对异构多源数据采取逐步式更新；彼此相关联的网络依次传递更新。

4.根据权利要求3所述的异构多源数据关联分析方法，其特征在于：所述步骤S400具体过程如下：

步骤S410：将异构多源数据中的关键词集中的关键词作为节点，对关键词集进行语义分析，所述语义分析包括形近词的语义分析、形音词的语义分析和近义词的语义分析，将三种语义构成关联子图，将所述关联子图与关系网络中的关系节点实现映射；

其中Pid(S)为节点O的直接孩子节点数目；

5.根据权利要求4所述的异构多源数据关联分析方法，其特征在于：所述步骤S500具体过程如下：

步骤S520：对所述步骤S510中的属性特征定义规则，所述规则包含关键词集中出现节点空值、关键词属性特征不一致、具有重复的属性特征的关键词三种情形；

步骤S530：对所述步骤S520中的定义规则进行执行，将关键词集中出现的节点空值进行相同属性特征的关键词的补充；对关键词集中出现的关键词属性特征不一致时，进行不一致属性特征关键词的清除或者调度到其他关系网络中；对关键词集中出现的关键词属性特征相同并重复记录的关键词，进行对该关键词的删除且只保留一个关键词本身；最后查询任意关键词生成数据链，检验数据链上是否出现上述存在问题，若没有，生成数据清洗报告；若有，则转步骤S510重新分析关键词集的数据特点和规律；循环分析直至得出数据清洗报告。

6.一种应用权利要求1-5中任一项所述异构多源数据关联分析方法的异构多源数据关联分析系统，其特征在于：包括异构多源数据采集模块、异构多源数据混合关联模块、异构多源数据语义映射模块、异构多源数据融合模块和异构多源数据清洗模块；所述异构多源数据采集模块用于对不同来源领域的数据信息进行获取采集，并对获取的数据进行传输；所述异构多源数据混合关联模块用于为基础设施的知识提供了途径，且描述了基础设施现象发生过程中的时空演变过程；所述异构多源数据语义映射模块用于建立复杂的低层数据与其对应标签的对应关系，从而实现底层特征与高层语义之间的转换；所述异构多源数据融合模块用于对复杂基础设施资料的数据集特征，结合重复检测方法实现基础设施资料数据集的融合；所述异构多源数据清洗模块用于对数据进行重新审查和校验，从而删除重复信息、纠正存在的错误并提供数据的一致性。

7.根据权利要求6所述的异构多源数据关联分析系统，其特征在于：所述异构多源数据混合关联模块包括信息抽取单元、关系网络构建单元、综合评估单元和策略更新单元；

所述信息抽取单元对异构多源数据采集模块中的不同来源领域的信息进行关键词的提取；对所述关键词进行引申至上层关键词、下层关键词和本体关键词；所述信息抽取单元对上层关键词、下层关键词以及本体关键词进行整合得到关键词集，并统一将关键词集传输到所述关系网络构建单元中；

所述关系网络构建单元对关键词集进行空间关系网络、时间序列链和语义关系网络的构建；所述综合评估单元基于所述关系网络构建单元中的三种关系进行综合相关度的评估；

所述策略更新单元基于所述综合评估单元得到的综合相关度，制定相关度更新策略，构建基础设施数据多视角混合关联模型。

8.根据权利要求6所述的异构多源数据关联分析系统，其特征在于：所述异构多源语义映射模块用于实现基础信息的语义查询和语义理解的目标，为查询者提供能够相互关联的查询结果；所述异构多源语义映射模块基于语义关系网络进行低层关键词特征到高层语义之间的映射；所述异构多源数据融合模块基于所述异构多源语义映射模块的映射结果，将所述不同映射结果进行概念属性特征层次的融合。

9.根据权利要求6所述的异构多源数据关联分析系统，其特征在于：所述异构多源数据清洗模块针对上层汇聚的数据或者抽取的数据进行清洗，所述异构多源数据清洗模块包括数据分析、清洗规则的定义、清洗规则的执行以及数据评估；

所述数据分析模块对所述异构多源数据采集模块中的数据信息进行分析数据的规律和特点；所述清洗规则的定义包括空值的检查和处理、不一致数据的监测和处理、相似重复记录的监测和处理；所述清洗规则的执行包括去掉重复的记录、补上不完全的记录、解决不一致的记录、用测试查询来验证数据和生成数据清洗报告；所述数据评估是对清洗后的数据进行全面的考察和评价，包括数据质量评估和数据有效性评估。