CN113987131A - 异构多源数据关联分析系统和方法 - Google Patents

异构多源数据关联分析系统和方法 Download PDF

Info

Publication number
CN113987131A
CN113987131A CN202111330974.2A CN202111330974A CN113987131A CN 113987131 A CN113987131 A CN 113987131A CN 202111330974 A CN202111330974 A CN 202111330974A CN 113987131 A CN113987131 A CN 113987131A
Authority
CN
China
Prior art keywords
data
heterogeneous multi
source data
keywords
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111330974.2A
Other languages
English (en)
Other versions
CN113987131B (zh
Inventor
张业红
顾行发
刘向东
黄祥志
石宇航
陈佳玮
朱玉婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Tianhui Spatial Information Research Institute Co ltd
Original Assignee
Jiangsu Tianhui Spatial Information Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Tianhui Spatial Information Research Institute Co ltd filed Critical Jiangsu Tianhui Spatial Information Research Institute Co ltd
Priority to CN202111330974.2A priority Critical patent/CN113987131B/zh
Publication of CN113987131A publication Critical patent/CN113987131A/zh
Application granted granted Critical
Publication of CN113987131B publication Critical patent/CN113987131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了异构多源数据关联分析系统和方法,包括异构多源数据采集模块、异构多源数据混合关联模块、异构多源数据语义映射模块、异构多源数据融合模块和异构多源数据清洗模块;异构多源数据采集模块对不同来源的数据信息进行采集并对获取的数据进行传输;异构多源数据混合关联模块为基础设施的知识提供途径且描述了基础设施现象发生过程中的时空演变过程;异构多源数据语义映射模块建立低层数据与其对应标签的关系,从而实现底层特征与高层语义的转换;异构多源数据融合模块用于判断数据之间语义距离从而进行融合;异构多源数据清洗模块用于对数据进行清洗保证数据的有效真实性。

Description

异构多源数据关联分析系统和方法
技术领域
本发明涉及数据分析技术领域,具体为异构多源数据关联分析系统和方法。
背景技术
目前,在信息化及大数据应用越来越深入的情况下,产生了越来越多的数据集。在海量超多数据集的场景下,对异构多源数据的分析显得尤为重要,且在数据信息查询的过程中,数据的关联性和有效性是判断该数据体系的重要标准,且在数据的提取中,经常会出现数据链不完整,数据链上的数据信息与整体的属性趋势并不相同等错误现象,给数据信息的提取和查询带来了不便之处;
同时,对异构信息关联分析技术支撑能力不够,目前信息关联主要局限于利用关系数据库的实体关系模型进行数据组织,缺乏针对异构多源数据的深度挖掘和模糊信息要素关联方法的研究,难以解决不同类型源信息之间的复杂交叉关系和信息要素内在本质联系的关联问题。
发明内容
本发明的目的在于提供异构多源数据关联分析系统和方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:异构多源数据关联分析方法,包括以下步骤:
步骤S100:对异构多源数据进行关键词的提取,关键词的提取包含上层关键词、下层关键词和本体关键词的提取,并将上层关键词、下层关键词和本体关键词进行整合成关键词集;
步骤S200:基于步骤S100中的关键词集,进行关系网络的构建,关系网络的构建包括空间关系网络、时间序列链和语义关系网络;
步骤S300:基于步骤S200的空间关系网络、时间序列链和予以关系网络进行综合相关度的评估并制定相关的动态更新策略;
步骤S400:基于步骤S300的动态更新策略对其中的异构多源数据进行语义映射和数据融合操作;
步骤S500:对步骤S400中的异构多源数据或者随机抽取的数据进行清洗。
进一步的,步骤S200的具体过程如下:
步骤S210:将关键词集中的上层关键词、下层关键词和本体关键词根据空间属性进行关系网络的构建,空间属性包括位置空间属性和几何空间属性,由位置空间属性构建的关系网络为第一空间关系网,由几何空间属性构建的关系网络为第二空间关系网;
步骤S220:将关键词集中的上层关键词、下层关键词和本体关键词根据时间序列进行关系网络的构建得到第三时间关系网;时间序列为时间发展的自然顺序;
步骤S230:将关键词集中的上层关键词、下层关键词和本体关键词根据语义关系中的逻辑关系进行关系网络的构建得到第四语义关系网。
进一步的,步骤S300的具体过程如下:
步骤S310:记关系网络中的第一空间关系网、第二空间关系网、第三时间关系网和第四语义关系网构成一个关系网络集合A,记第一空间关系网为集合a、第二空间关系网为集合b、第三时间关系网为集合c、第四语义关系网为集合d;
步骤S320:分别计算四个关系网之间的两两之间是否相关,得到相关度集合γ,记两者相关有交集时特征值为1,不相关无交集时特征值为0;则有γ={a∩b,a∩c,a∩d,b∩c,b∩d,c∩d,},当有γ={1,1,1,1,1,1}时,关系网络综合相关度为峰值相关;当有γ={1,0,0,0,0,0}且特征值为1时对应的集合为任意组合,有且只有一种,关系网络综合相关度为谷底相关;其余所有情况均为半腰相关;
步骤S330:基于步骤S320中的综合相关度制定动态更新策略,当综合相关度为峰值相关时,对异构多源数据的更新进行同步覆盖式更新,即从关键词集的更新到关系网络的更新;当综合相关度为谷底相关时,对异构多源数据的更新采取融合减值式更新,将相关的两种关系网络进行融合得到新的关系网络为第五维度关系网;当综合相关度为半腰相关时,对异构多源数据采取逐步式更新;彼此相关联的网络依次传递更新。
将关系网络进行相关度的计算是为了关系网络进行动态更新的区分,已达到有效划分不同程度关系网络的更新状态;当峰值相关时,说明该关系网络强相关,所以在动态更新的时候需要进行第一时间的更新和同步,以防止在对关键词进行检索时出现的因更新不及时的偏差问题;当谷底相关时,说明只有两种关系网络相关,两种关系网络可以进行减少关键词节点进行融合,以增加数据关键词存放的空间;当半腰相关时,逐步式更新有助于更新的连续性,且使关系网络之间更加流畅。
进一步的,步骤S400具体过程如下:
步骤S410:将异构多源数据中的关键词集中的关键词作为节点,对关键词集进行语义分析,语义分析包括形近词的语义分析、形音词的语义分析和近义词的语义分析,将三种语义构成关联子图,将关联子图与关系网络中的关系节点实现映射;
步骤S420:基于关系网络查找连接两节点之间的最短距离,记关键词节点为O1、O2,假设关键词节点O1、O2、......On为节点O1和O2之间的最短路径,则节点之间的最短语义距离为:
Figure BDA0003348831760000031
其中P(Oi)表示节点Oi引出的边具有相同的权重,用节点Oi的权重表示,即连接O1、O2最短路径上第i边的权值,对于权重的计算,利用公式:
Figure BDA0003348831760000032
Figure BDA0003348831760000033
其中Pid(S)为节点O的直接孩子节点数目;
步骤S430:基于步骤S420中的最短语义距离,将两节点的最短语义距离中包含的所有节点进行融合构成新的语义网络关系。
将最短语义距离中的节点进行融合是因为语义距离越短则表示该关键词节点的语义越相近,利用权重值表示关键词节点与节点之间的语义相似程度,且同一关系网中的节点之间的权重是相同的,可以将复杂的网络关系有效的化简成不同节点之间权重值的求和计算,从而得出最相近的语义关系,因此融合成新的语义关系网络,新的语义关系网络占据一个节点且可包含更多的关键词,有效的为数据的提取提供了高效率的查询结果。
进一步的,步骤S500具体过程如下:
步骤S510:对异构多源数据关键词集中的词意进行分析,得到关键词集的数据特点和数据规律;若关键词集的数据特点和规律趋于属性特征;则依据此属性特征定义清洗规则;
步骤S520:对步骤S510中的属性特征定义规则,规则包含关键词集中出现节点空值、关键词属性特征不一致、具有重复的属性特征的关键词三种情形;
步骤S530:对步骤S520中的定义规则进行执行,将关键词集中出现的节点空值进行相同属性特征的关键词的补充;对关键词集中出现的关键词属性特征不一致时,进行不一致属性特征关键词的清除或者调度到其他关系网络中;对关键词集中出现的关键词属性特征相同并重复记录的关键词,进行对该关键词的删除且只保留一个关键词本身;最后查询任意关键词生成数据链,检验数据链上是否出现上述存在问题,若没有,则生成数据清洗报告;若有,则转步骤S510重新分析关键词集的数据特点和规律;循环分析直至得出数据清洗报告。
对异构多源数据的清洗是为了将得到的数据关系网中和数据链中的所有信息都具有完整性、共同性、精确性和及时性,且所需检索的关键词在所属的数据关系网和数据链中能够实现转换后数据质量的全面检查,保障数据资源应用和数据挖掘的准确性。
异构多源数据关联分析方法中的异构多源数据关联分析系统,包括异构多源数据采集模块、异构多源数据混合关联模块、异构多源数据语义映射模块、异构多源数据融合模块和异构多源数据清洗模块;异构多源数据采集模块用于对不同来源领域的数据信息进行获取采集,并对获取的数据进行传输;异构多源数据混合关联模块用于为基础设施的知识提供了途径,且描述了基础设施现象发生过程中的时空演变过程;异构多源数据语义映射模块用于建立复杂的低层数据与其对应标签的对应关系,从而实现底层特征与高层语义之间的转换;异构多源数据融合模块用于对复杂基础设施资料的数据集特征,结合重复检测方法实现基础设施资料数据集的融合;异构多源数据清洗模块用于对数据进行重新审查和校验,从而删除重复信息、纠正存在的错误并提供数据的一致性。
进一步的,异构多源数据混合关联模块包括信息抽取单元、关系网络构建单元、综合评估单元和策略更新单元;
信息抽取单元对异构多源数据采集模块中的不同来源领域的信息进行关键词的提取;对关键词进行引申至上层关键词、下层关键词和本体关键词;信息抽取单元对上层关键词、下层关键词以及本体关键词进行整合得到关键词集,并统一将关键词集传输到关系网络构建单元中;
关系网络构建单元对关键词集进行空间关系网络、时间序列链和语义关系网络的构建;综合评估单元基于关系网络构建单元中的三种关系进行综合相关度的评估;
策略更新单元基于综合评估单元得到的综合相关度,制定相关度更新策略,构建基础设施数据多视角混合关联模型。
策略更新单元实现基础设施数据综合关联模式网的动态更新,从而为基础设施成果的数据挖掘及领域知识发现提供关联信息基础和技术支撑。
进一步的,异构多源语义映射模块用于实现基础信息的语义查询和语义理解的目标,为查询者提供能够相互关联的查询结果;异构多源语义映射模块基于语义关系网络进行低层关键词特征到高层语义之间的映射;
异构多源数据融合模块基于异构多源语义映射模块的映射结果,将不同映射结果进行概念属性特征层次的融合。
异构多源数据的融合节省了对多源异构数据检索的时间,且增大了多源异构数据的数据库,一个词可以包含多个数据库节点。
进一步的,异构多源数据清洗模块针对上层汇聚的数据或者抽取的数据进行清洗,异构多源数据清洗模块包括数据分析、清洗规则的定义、清洗规则的执行以及数据评估;
数据分析模块对异构多源数据采集模块中的数据信息进行分析数据的规律和特点;清洗规则的定义包括空值的检查和处理、不一致数据的监测和处理、相似重复记录的监测和处理;清洗规则的执行包括去掉重复的记录、补上不完全的记录、解决不一致的记录、用测试查询来验证数据和生成数据清洗报告;数据评估是对清洗后的数据进行全面的考察和评价,包括数据质量评估和数据有效性评估。
与现有技术相比,本发明所达到的有益效果是:该发明在海量超多数据集的场景下,对异构多源数据的分析基于关系网络的分析,且在数据信息查询的过程中,进行动态的数据关联性和有效性的更新,且数据在预处理时,进行放大式处理关系网络,在用户检索时增加检索效率,使得用户针对性的关键词可以检索出多种不同关系网络的相关信息,使得包容度增加,对异构多源数据的提取变得方便,最后在提取数据的准确性方面,采用循环模式分析,使得关系网络中的所有数据都是有效数据且是不多余的。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明异构多源数据关联分析系统的整体结构示意图;
图2是本发明异构多源数据关联分析方法的整体流程图;
图3是本发明异构多源数据关联分析方法的关系网络构建的流程图;
图4是本发明异构多源数据关联分析系统和方法的动态更新策略的流程图;
图5是本发明异构多源数据关联分析方法的数据映射和融合的流程图;
图6是本发明异构多源数据关联分析方法的数据清洗流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-6,本发明提供技术方案:异构多源数据关联分析方法,包括以下步骤:
步骤S100:对异构多源数据进行关键词的提取,关键词的提取包含上层关键词、下层关键词和本体关键词的提取,并将上层关键词、下层关键词和本体关键词进行整合成关键词集;
例如:提取关键词“风”,引申上层关键词为“气流”,下层关键词为“海浪”,关键词集为{气流,风,海浪};
步骤S200:基于步骤S100中的关键词集,进行关系网络的构建,关系网络的构建包括空间关系网络、时间序列链和语义关系网络;
例如:空间关系网络中:
Figure BDA0003348831760000061
时间序列链中:
Figure BDA0003348831760000062
语义关系网络:
Figure BDA0003348831760000063
步骤S200的具体过程如下:
步骤S210:将关键词集中的上层关键词、下层关键词和本体关键词根据空间属性进行关系网络的构建,空间属性包括位置空间属性和几何空间属性,由位置空间属性构建的关系网络为第一空间关系网,由几何空间属性构建的关系网络为第二空间关系网;
步骤S220:将关键词集中的上层关键词、下层关键词和本体关键词根据时间序列进行关系网络的构建得到第三时间关系网;时间序列为时间发展的自然顺序;
步骤S230:将关键词集中的上层关键词、下层关键词和本体关键词根据语义关系中的逻辑关系进行关系网络的构建得到第四语义关系网。
步骤S300:基于步骤S200的空间关系网络、时间序列链和予以关系网络进行综合相关度的评估并制定相关的动态更新策略;
步骤S300的具体过程如下:
步骤S310:记关系网络中的第一空间关系网、第二空间关系网、第三时间关系网和第四语义关系网构成一个关系网络集合A,记第一空间关系网为集合a、第二空间关系网为集合b、第三时间关系网为集合c、第四语义关系网为集合d;
步骤S320:分别计算四个关系网之间的两两之间是否相关,得到相关度集合γ,记两者相关有交集时特征值为1,不相关无交集时特征值为0;则有γ={a∩b,a∩c,a∩d,b∩c,b∩d,c∩d,},当有γ={1,1,1,1,1,1}时,关系网络综合相关度为峰值相关;当有γ={1,0,0,0,0,0}且特征值为1时对应的集合为任意组合,有且只有一种,关系网络综合相关度为谷底相关;其余所有情况均为半腰相关;
步骤S330:基于步骤S320中的综合相关度制定动态更新策略,当综合相关度为峰值相关时,对异构多源数据的更新进行同步覆盖式更新,即从关键词集的更新到关系网络的更新;当综合相关度为谷底相关时,对异构多源数据的更新采取融合减值式更新,将相关的两种关系网络进行融合得到新的关系网络为第五维度关系网;当综合相关度为半腰相关时,对异构多源数据采取逐步式更新;彼此相关联的网络依次传递更新。
例如:当集合
Figure BDA0003348831760000071
集合
Figure BDA0003348831760000072
集合
Figure BDA0003348831760000073
Figure BDA0003348831760000074
集合d={河流≠土壤≠绿草};计算γ={a∩b,a∩c,a∩d,b∩c,b∩d,c∩d,}可知,γ={1,0,0,0,0,0},该关系网络为谷底相关,故将集合a与集合c进行融合减值式更新,即去除“土壤”与“绿草”在集合c中的节点,增加集合a中“土壤”与“绿草”的节点关系,即集合
Figure BDA0003348831760000075
且得到的集合a'为第五维度关系网;
将关系网络进行相关度的计算是为了关系网络进行动态更新的区分,已达到有效划分不同程度关系网络的更新状态;当峰值相关时,说明该关系网络强相关,所以在动态更新的时候需要进行第一时间的更新和同步,以防止在对关键词进行检索时出现的因更新不及时的偏差问题;当谷底相关时,说明只有两种关系网络相关,两种关系网络可以进行减少关键词节点进行融合,以增加数据关键词存放的空间;当半腰相关时,逐步式更新有助于更新的连续性,且使关系网络之间更加流畅。
步骤S400:基于步骤S300的动态更新策略对其中的异构多源数据进行语义映射和数据融合操作;
步骤S400具体过程如下:
步骤S410:将异构多源数据中的关键词集中的关键词作为节点,对关键词集进行语义分析,语义分析包括形近词的语义分析、形音词的语义分析和近义词的语义分析,将三种语义构成关联子图,将关联子图与关系网络中的关系节点实现映射;
例如:关键词集中的“河流”“土壤”“绿草”,河流→湖泊→水质→污染;土壤→土质→害虫→天气;绿草→青草→季节→温度;从关键词本身开始基于语义进行映射,可以将关系网络中的关键词进行关联,从而形成庞大的关系网络;
步骤S420:基于关系网络查找连接两节点之间的最短距离,记关键词节点为O1、O2,假设关键词节点O1、O2、......On为节点O1和O2之间的最短路径,则节点之间的最短语义距离为:
Figure BDA0003348831760000081
其中P(Oi)表示节点Oi引出的边具有相同的权重,用节点Oi的权重表示,即连接O1、O2最短路径上第i边的权值,对于权重的计算,利用公式:
Figure BDA0003348831760000082
Figure BDA0003348831760000083
其中Pid(S)为节点O的直接孩子节点数目;
例如:关键词节点O1、O2之间存在的路径有:O1→O5→O6→O7→O2,O1→O3→O4→O2;则最短路径为O1→O3→O4→O2,关键词节点O的直接孩子节点数目为4,孩子节点数目即为四种关系网络中的本体关键词,则
Figure BDA0003348831760000084
则该最短语义距离为
Figure BDA0003348831760000085
步骤S430:基于步骤S420中的最短语义距离,将两节点的最短语义距离中包含的所有节点进行融合构成新的语义网络关系。
例如:关键词节点O1、O2分别为海堤和水库堤,而O3、O4为防波堤和渠堤,由步骤S420知道O1→O3→O4→O2路径最短,即海堤→防波堤→渠堤→水库堤的相似度最高,故将该语义网络进行融合成“堤坝”;当用户提取关键词“堤坝”时,可以抽取相关“防波堤、海堤、渠堤和水库堤”的所有数据信息。
将最短语义距离中的节点进行融合是因为语义距离越短则表示该关键词节点的语义越相近,利用权重值表示关键词节点与节点之间的语义相似程度,且同一关系网中的节点之间的权重是相同的,可以将复杂的网络关系有效的化简成不同节点之间权重值的求和计算,从而得出最相近的语义关系,因此融合成新的语义关系网络,新的语义关系网络占据一个节点且可包含更多的关键词,有效的为数据的提取提供了高效率的查询结果。
步骤S500:对步骤S400中的异构多源数据或者随机抽取的数据进行清洗。
步骤S500具体过程如下:
步骤S510:对异构多源数据关键词集中的词意进行分析,得到关键词集的数据特点和数据规律;若关键词集的数据特点和规律趋于属性特征;则依据此属性特征定义清洗规则;
步骤S520:对步骤S510中的属性特征定义规则,规则包含关键词集中出现节点空值、关键词属性特征不一致、具有重复的属性特征的关键词三种情形;
步骤S530:对步骤S520中的定义规则进行执行,将关键词集中出现的节点空值进行相同属性特征的关键词的补充;对关键词集中出现的关键词属性特征不一致时,进行不一致属性特征关键词的清除或者调度到其他关系网络中;对关键词集中出现的关键词属性特征相同并重复记录的关键词,进行对该关键词的删除且只保留一个关键词本身;最后查询任意关键词生成数据链,检验数据链上是否出现上述存在问题,若没有,生成数据清洗报告;若有,则转步骤S510重新分析关键词集的数据特点和规律;循环分析直至得出数据清洗报告。
对异构多源数据的清洗是为了将得到的数据关系网中和数据链中的所有信息都具有完整性、共同性、精确性和及时性,且所需检索的关键词在所属的数据关系网和数据链中能够实现转换后数据质量的全面检查,保障数据资源应用和数据挖掘的准确性。
异构多源数据关联分析方法中的异构多源数据关联分析系统,包括异构多源数据采集模块、异构多源数据混合关联模块、异构多源数据语义映射模块、异构多源数据融合模块和异构多源数据清洗模块;异构多源数据采集模块用于对不同来源领域的数据信息进行获取采集,并对获取的数据进行传输;异构多源数据混合关联模块用于为基础设施的知识提供了途径,且描述了基础设施现象发生过程中的时空演变过程;异构多源数据语义映射模块用于建立复杂的低层数据与其对应标签的对应关系,从而实现底层特征与高层语义之间的转换;异构多源数据融合模块用于对复杂基础设施资料的数据集特征,结合重复检测方法实现基础设施资料数据集的融合;异构多源数据清洗模块用于对数据进行重新审查和校验,从而删除重复信息、纠正存在的错误并提供数据的一致性。
异构多源数据混合关联模块包括信息抽取单元、关系网络构建单元、综合评估单元和策略更新单元;
信息抽取单元对异构多源数据采集模块中的不同来源领域的信息进行关键词的提取;对关键词进行引申至上层关键词、下层关键词和本体关键词;信息抽取单元对上层关键词、下层关键词以及本体关键词进行整合得到关键词集,并统一将关键词集传输到关系网络构建单元中;
关系网络构建单元对关键词集进行空间关系网络、时间序列链和语义关系网络的构建;综合评估单元基于关系网络构建单元中的三种关系进行综合相关度的评估;
策略更新单元基于综合评估单元得到的综合相关度,制定相关度更新策略,构建基础设施数据多视角混合关联模型。
策略更新单元实现基础设施数据综合关联模式网的动态更新,从而为基础设施成果的数据挖掘及领域知识发现提供关联信息基础和技术支撑。
异构多源语义映射模块用于实现基础信息的语义查询和语义理解的目标,为查询者提供能够相互关联的查询结果;异构多源语义映射模块基于语义关系网络进行低层关键词特征到高层语义之间的映射;
异构多源数据融合模块基于异构多源语义映射模块的映射结果,将不同映射结果进行概念属性特征层次的融合。
异构多源数据的融合节省了对多源异构数据检索的时间,且增大了多源异构数据的数据库,一个词可以包含多个数据库节点。
异构多源数据清洗模块针对上层汇聚的数据或者抽取的数据进行清洗,异构多源数据清洗模块包括数据分析、清洗规则的定义、清洗规则的执行以及数据评估;
数据分析模块对异构多源数据采集模块中的数据信息进行分析数据的规律和特点;清洗规则的定义包括空值的检查和处理、不一致数据的监测和处理、相似重复记录的监测和处理;清洗规则的执行包括去掉重复的记录、补上不完全的记录、解决不一致的记录、用测试查询来验证数据和生成数据清洗报告;数据评估是对清洗后的数据进行全面的考察和评价,包括数据质量评估和数据有效性评估。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.异构多源数据关联分析方法,其特征在于,包括以下步骤:
步骤S100:对异构多源数据进行关键词的提取,关键词的提取包含上层关键词、下层关键词和本体关键词的提取,并将所述上层关键词、下层关键词和本体关键词进行整合成关键词集;
步骤S200:基于所述步骤S100中的关键词集,进行关系网络的构建,所述关系网络的构建包括空间关系网络、时间序列链和语义关系网络;
步骤S300:基于所述步骤S200的空间关系网络、时间序列链和予以关系网络进行综合相关度的评估并制定相关的动态更新策略;
步骤S400:基于所述步骤S300的动态更新策略对其中的异构多源数据进行语义映射和数据融合操作;
步骤S500:对步骤S400中的异构多源数据或者随机抽取的数据进行清洗。
2.根据权利要求1所述的异构多源数据关联分析方法,其特征在于:所述步骤S200的具体过程如下:
步骤S210:将关键词集中的上层关键词、下层关键词和本体关键词根据空间属性进行关系网络的构建,所述空间属性包括位置空间属性和几何空间属性,由位置空间属性构建的关系网络为第一空间关系网,由几何空间属性构建的关系网络为第二空间关系网;
步骤S220:将关键词集中的上层关键词、下层关键词和本体关键词根据时间序列进行关系网络的构建得到第三时间关系网;所述时间序列为时间发展的自然顺序;
步骤S230:将关键词集中的上层关键词、下层关键词和本体关键词根据语义关系中的逻辑关系进行关系网络的构建得到第四语义关系网。
3.根据权利要求2所述的异构多源数据关联分析方法,其特征在于:所述步骤S300的具体过程如下:
步骤S310:记关系网络中的第一空间关系网、第二空间关系网、第三时间关系网和第四语义关系网构成一个关系网络集合A,记第一空间关系网为集合a、第二空间关系网为集合b、第三时间关系网为集合c、第四语义关系网为集合d;
步骤S320:分别计算四个关系网之间的两两之间是否相关,得到相关度集合γ,记两者相关有交集时特征值为1,不相关无交集时特征值为0;则有γ={a∩b,a∩c,a∩d,b∩c,b∩d,c∩d,},当有γ={1,1,1,1,1,1}时,所述关系网络综合相关度为峰值相关;当有γ={1,0,0,0,0,0}且特征值为1时对应的集合为任意组合,有且只有一种,所述关系网络综合相关度为谷底相关;其余所有情况均为半腰相关;
步骤S330:基于所述步骤S320中的综合相关度制定动态更新策略,当综合相关度为峰值相关时,对异构多源数据的更新进行同步覆盖式更新,即从所述关键词集的更新到关系网络的更新;当综合相关度为谷底相关时,对异构多源数据的更新采取融合减值式更新,将相关的两种关系网络进行融合得到新的关系网络为第五维度关系网;当综合相关度为半腰相关时,对异构多源数据采取逐步式更新;彼此相关联的网络依次传递更新。
4.根据权利要求3所述的异构多源数据关联分析方法,其特征在于:所述步骤S400具体过程如下:
步骤S410:将异构多源数据中的关键词集中的关键词作为节点,对关键词集进行语义分析,所述语义分析包括形近词的语义分析、形音词的语义分析和近义词的语义分析,将三种语义构成关联子图,将所述关联子图与关系网络中的关系节点实现映射;
步骤S420:基于关系网络查找连接两节点之间的最短距离,记关键词节点为O1、O2,假设关键词节点O1、O2、......On为节点O1和O2之间的最短路径,则节点之间的最短语义距离为:
Figure FDA0003348831750000021
其中P(Oi)表示节点Oi引出的边具有相同的权重,用节点Oi的权重表示,即连接O1、O2最短路径上第i边的权值,对于权重的计算,利用公式:
Figure FDA0003348831750000022
其中Pid(S)为节点O的直接孩子节点数目;
步骤S430:基于步骤S420中的最短语义距离,将两节点的最短语义距离中包含的所有节点进行融合构成新的语义网络关系。
5.根据权利要求4所述的异构多源数据关联分析方法,其特征在于:所述步骤S500具体过程如下:
步骤S510:对异构多源数据关键词集中的词意进行分析,得到关键词集的数据特点和数据规律;若关键词集的数据特点和规律趋于属性特征;则依据此属性特征定义清洗规则;
步骤S520:对所述步骤S510中的属性特征定义规则,所述规则包含关键词集中出现节点空值、关键词属性特征不一致、具有重复的属性特征的关键词三种情形;
步骤S530:对所述步骤S520中的定义规则进行执行,将关键词集中出现的节点空值进行相同属性特征的关键词的补充;对关键词集中出现的关键词属性特征不一致时,进行不一致属性特征关键词的清除或者调度到其他关系网络中;对关键词集中出现的关键词属性特征相同并重复记录的关键词,进行对该关键词的删除且只保留一个关键词本身;最后查询任意关键词生成数据链,检验数据链上是否出现上述存在问题,若没有,生成数据清洗报告;若有,则转步骤S510重新分析关键词集的数据特点和规律;循环分析直至得出数据清洗报告。
6.一种应用权利要求1-5中任一项所述异构多源数据关联分析方法的异构多源数据关联分析系统,其特征在于:包括异构多源数据采集模块、异构多源数据混合关联模块、异构多源数据语义映射模块、异构多源数据融合模块和异构多源数据清洗模块;所述异构多源数据采集模块用于对不同来源领域的数据信息进行获取采集,并对获取的数据进行传输;所述异构多源数据混合关联模块用于为基础设施的知识提供了途径,且描述了基础设施现象发生过程中的时空演变过程;所述异构多源数据语义映射模块用于建立复杂的低层数据与其对应标签的对应关系,从而实现底层特征与高层语义之间的转换;所述异构多源数据融合模块用于对复杂基础设施资料的数据集特征,结合重复检测方法实现基础设施资料数据集的融合;所述异构多源数据清洗模块用于对数据进行重新审查和校验,从而删除重复信息、纠正存在的错误并提供数据的一致性。
7.根据权利要求6所述的异构多源数据关联分析系统,其特征在于:所述异构多源数据混合关联模块包括信息抽取单元、关系网络构建单元、综合评估单元和策略更新单元;
所述信息抽取单元对异构多源数据采集模块中的不同来源领域的信息进行关键词的提取;对所述关键词进行引申至上层关键词、下层关键词和本体关键词;所述信息抽取单元对上层关键词、下层关键词以及本体关键词进行整合得到关键词集,并统一将关键词集传输到所述关系网络构建单元中;
所述关系网络构建单元对关键词集进行空间关系网络、时间序列链和语义关系网络的构建;所述综合评估单元基于所述关系网络构建单元中的三种关系进行综合相关度的评估;
所述策略更新单元基于所述综合评估单元得到的综合相关度,制定相关度更新策略,构建基础设施数据多视角混合关联模型。
8.根据权利要求6所述的异构多源数据关联分析系统,其特征在于:所述异构多源语义映射模块用于实现基础信息的语义查询和语义理解的目标,为查询者提供能够相互关联的查询结果;所述异构多源语义映射模块基于语义关系网络进行低层关键词特征到高层语义之间的映射;所述异构多源数据融合模块基于所述异构多源语义映射模块的映射结果,将所述不同映射结果进行概念属性特征层次的融合。
9.根据权利要求6所述的异构多源数据关联分析系统,其特征在于:所述异构多源数据清洗模块针对上层汇聚的数据或者抽取的数据进行清洗,所述异构多源数据清洗模块包括数据分析、清洗规则的定义、清洗规则的执行以及数据评估;
所述数据分析模块对所述异构多源数据采集模块中的数据信息进行分析数据的规律和特点;所述清洗规则的定义包括空值的检查和处理、不一致数据的监测和处理、相似重复记录的监测和处理;所述清洗规则的执行包括去掉重复的记录、补上不完全的记录、解决不一致的记录、用测试查询来验证数据和生成数据清洗报告;所述数据评估是对清洗后的数据进行全面的考察和评价,包括数据质量评估和数据有效性评估。
CN202111330974.2A 2021-11-11 2021-11-11 异构多源数据关联分析系统和方法 Active CN113987131B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111330974.2A CN113987131B (zh) 2021-11-11 2021-11-11 异构多源数据关联分析系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111330974.2A CN113987131B (zh) 2021-11-11 2021-11-11 异构多源数据关联分析系统和方法

Publications (2)

Publication Number Publication Date
CN113987131A true CN113987131A (zh) 2022-01-28
CN113987131B CN113987131B (zh) 2022-08-23

Family

ID=79747883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111330974.2A Active CN113987131B (zh) 2021-11-11 2021-11-11 异构多源数据关联分析系统和方法

Country Status (1)

Country Link
CN (1) CN113987131B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115633090A (zh) * 2022-10-21 2023-01-20 北京中电飞华通信有限公司 一种基于eSIM卡和5G网络的多源数据链接方法
CN116089907A (zh) * 2023-04-13 2023-05-09 民航成都信息技术有限公司 航空多源数据的融合方法、装置、电子设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6847980B1 (en) * 1999-07-03 2005-01-25 Ana B. Benitez Fundamental entity-relationship models for the generic audio visual data signal description
US20080301545A1 (en) * 2007-06-01 2008-12-04 Jia Zhang Method and system for the intelligent adaption of web content for mobile and handheld access
WO2010055968A1 (en) * 2008-11-14 2010-05-20 Korea Institute Of Science & Technology Information Method and apparatus of semantic technological approach based on semantic relation in context and storage media having program source thereof
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN104182454A (zh) * 2014-07-04 2014-12-03 重庆科技学院 基于领域本体构建的多源异构数据语义集成的模型及方法
CN107193858A (zh) * 2017-03-28 2017-09-22 福州金瑞迪软件技术有限公司 面向多源异构数据融合的智能服务应用平台和方法
EP3343400A1 (en) * 2016-12-29 2018-07-04 Wipro Limited System and method for dynamically creating a domain ontology
CN110716952A (zh) * 2019-09-24 2020-01-21 中国电子科技集团公司电子科学研究院 一种多源异构数据处理方法、装置和存储介质
EP3690759A1 (en) * 2019-02-01 2020-08-05 Beijing Baidu Netcom Science and Technology Co., Ltd. Method and apparatus for constructing data model, and medium
CN111666313A (zh) * 2020-05-25 2020-09-15 中科星图股份有限公司 基于多源异构遥感数据关联构建及多用户数据匹配方法
CN111723215A (zh) * 2020-06-19 2020-09-29 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN112100256A (zh) * 2020-08-06 2020-12-18 北京航空航天大学 一种数据驱动的城市精准深度画像系统及方法
CN113065000A (zh) * 2021-03-29 2021-07-02 泰瑞数创科技(北京)有限公司 一种基于地理实体的多源异构数据融合方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6847980B1 (en) * 1999-07-03 2005-01-25 Ana B. Benitez Fundamental entity-relationship models for the generic audio visual data signal description
US20080301545A1 (en) * 2007-06-01 2008-12-04 Jia Zhang Method and system for the intelligent adaption of web content for mobile and handheld access
WO2010055968A1 (en) * 2008-11-14 2010-05-20 Korea Institute Of Science & Technology Information Method and apparatus of semantic technological approach based on semantic relation in context and storage media having program source thereof
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN104182454A (zh) * 2014-07-04 2014-12-03 重庆科技学院 基于领域本体构建的多源异构数据语义集成的模型及方法
EP3343400A1 (en) * 2016-12-29 2018-07-04 Wipro Limited System and method for dynamically creating a domain ontology
CN107193858A (zh) * 2017-03-28 2017-09-22 福州金瑞迪软件技术有限公司 面向多源异构数据融合的智能服务应用平台和方法
EP3690759A1 (en) * 2019-02-01 2020-08-05 Beijing Baidu Netcom Science and Technology Co., Ltd. Method and apparatus for constructing data model, and medium
CN110716952A (zh) * 2019-09-24 2020-01-21 中国电子科技集团公司电子科学研究院 一种多源异构数据处理方法、装置和存储介质
CN111666313A (zh) * 2020-05-25 2020-09-15 中科星图股份有限公司 基于多源异构遥感数据关联构建及多用户数据匹配方法
CN111723215A (zh) * 2020-06-19 2020-09-29 国家计算机网络与信息安全管理中心 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN112100256A (zh) * 2020-08-06 2020-12-18 北京航空航天大学 一种数据驱动的城市精准深度画像系统及方法
CN113065000A (zh) * 2021-03-29 2021-07-02 泰瑞数创科技(北京)有限公司 一种基于地理实体的多源异构数据融合方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JUNHO CHOI: "Semantic Relation Extraction for Automatically Building", 《RACS"11》 *
侯东阳等: "时空数据Web搜索的研究进展", 《地理信息世界》 *
刘春辰: "基于本体的企业搜索优化技术研究", 《中国优秀硕士论文全文数据库》 *
杨宇: "面向网页文本的地理信息检索关键技术研究", 《中国优秀硕士论文全文数据库》 *
黄祥志: "基于智方体的地理时空栅格数据模型化研究", 《中国优秀博士论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115633090A (zh) * 2022-10-21 2023-01-20 北京中电飞华通信有限公司 一种基于eSIM卡和5G网络的多源数据链接方法
CN116089907A (zh) * 2023-04-13 2023-05-09 民航成都信息技术有限公司 航空多源数据的融合方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113987131B (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
CN112434169B (zh) 一种知识图谱的构建方法及其系统和计算机设备
Bao et al. A clique-based approach for co-location pattern mining
Abraham et al. Survey of spatio-temporal databases
CN113987131B (zh) 异构多源数据关联分析系统和方法
Wang et al. Effective lossless condensed representation and discovery of spatial co-location patterns
Adam et al. Neighborhood based detection of anomalies in high dimensional spatio-temporal sensor datasets
CN114896472B (zh) 一种基于多源时空数据的知识图谱机器推理系统和方法
US20050131929A1 (en) Computer-implemented multidimensional database processing method and system
CN113779264B (zh) 基于专利供需知识图谱的交易推荐方法
CN105550189A (zh) 基于本体的信息安全事件智能检索系统
Yoo et al. A framework for generating condensed co-location sets from spatial databases
CN113761971A (zh) 一种遥感影像目标知识图谱构建方法及装置
CN113569057A (zh) 一种面向本体标签知识图谱的样例查询方法
Isaj et al. Multi-source spatial entity linkage
CN114219089B (zh) 一种新一代信息技术产业知识图谱的构建方法及设备
Bao et al. Mining non-redundant co-location patterns
Yang et al. K-truss community most favorites query based on top-t
Shbita et al. Building spatio-temporal knowledge graphs from vectorized topographic historical maps
CN116011564A (zh) 一种面向电力设备的实体关系补全方法、系统及应用
CN105912637A (zh) 一种基于知识的用户兴趣挖崛方法
Wu et al. STKST-I: An Efficient Semantic Trajectory Search by Temporal and Semantic Keywords
CN113343565B (zh) 顾及空间异质性的邻域效应模式构建与ca模拟方法及系统
CN115618007A (zh) 基于知识图谱的监察数据分析系统
CN115082010A (zh) 一种电力领域元数据智能管理方法、存储介质及系统
CN107862073A (zh) 一种基于节点重要度和分离度的Web社区划分方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant