CN113792160A

CN113792160A - 一种多源数据的知识图谱扩展融合方法

Info

Publication number: CN113792160A
Application number: CN202111090668.6A
Authority: CN
Inventors: 吴修文
Original assignee: Nanjing Dachongshi Intelligent Technology Co ltd
Current assignee: Nanjing Dachongshi Intelligent Technology Co ltd
Priority date: 2021-09-17
Filing date: 2021-09-17
Publication date: 2021-12-14

Abstract

本发明适用于数据处理技术领域，提供了一种多源数据的知识图谱扩展融合方法，包括如下步骤：步骤一、多源数据的采集；步骤二、多源数据的解析抽取；将爬取来每个数据源的数据按照RDF模型进行反向解析，并抽取其中的实体、关系以及属性，随后按照相同的格式进行暂存；步骤三、多源数据的比对整合；将按照相同格式的暂存的多源数据进行实体、关系以及属性的比对，梳理其相关性，并按照相关性进行分组整合；步骤四、与自身数据库的进行对比。本发明在现有的基础上增加了与自身数据库比对的部分，从而可以将外界多源获取的数据，比对整合后，再次与自身数据库中的数据进行比对整合，使得整个数据库中的数据更加的优化，精简。

Description

一种多源数据的知识图谱扩展融合方法

技术领域

本发明属于数据处理技术领域，尤其涉及一种多源数据的知识图谱扩展融合方法。

背景技术

知识图谱：KnowledgeGraph以结构化的形式描述客观世界中的概念实体及其关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织，管理和理解互联网海量信息的能力。知识图谱与大数据和深度学习一起，成为互联网和人工智能发展的核心驱动力之一。

知识图谱技术是指知识图谱建立和应用的技术，是融合认知计算，知识表示与推理，信息检索与抽取，自然语言处理与语义Web，数据挖掘与机器学习等方向的交叉研究。

2012年google提出知识图谱概念之前其一直以知识工程，语义网等概念存在。在大数据时代，知识工程是从大数据中自动或半自动的获取知识，建立基于知识的系统，我们需要利用知识工程为大数据添加语义知识，使数据产生智慧，完成数据->信息->知识->智慧的转变过程。

知识图谱关注概念，实体及其关系，其中实体是客观世界中的事物，概念是对具有相同属性的事物的概括和抽象。本体是知识图谱的知识表示基础，可以形式化表示为O＝{C，H，P，A，I}，C为概念集合，如事务性概念和事件类概念，Hshi概念的上下位关系集合，P是属性集合，描述概念所具有的特征，A是规则集合，描述领域规则，I是实例集合，描述实例-属性-值。

现有的中文知识图谱方面尚缺乏一个覆盖全面，规模大，质量权威的开放知识图谱，知识分散在多个不同的来源知识库中，如果在实际应用场景下需要一个能满足需求的完整知识库，就不可避免涉及到从多个不同领域不同规模的知识库中提取需要的数据经过融合构成支撑应用所需的完整数据源。另外，但若仅仅采用单一来源的知识作为数据源，知识结构会略显单一，多源数据的融合就可以对多来源知识的不确定性进行修正。

发明内容

本发明提供一种多源数据的知识图谱扩展融合方法，旨在解决若仅仅采用单一来源的知识作为数据源，知识结构会略显单一，多源数据的融合就可以对多来源知识的不确定性进行修正的问题。

本发明是这样实现的，一种多源数据的知识图谱扩展融合方法，包括如下步骤：

步骤一、多源数据的采集；

采用网页爬虫对多个公开或者半公开的数据源中的数据进行采集；

步骤二、多源数据的解析抽取；

将爬取来每个数据源的数据按照RDF模型进行反向解析，并抽取其中的实体、关系以及属性，随后按照相同的格式进行暂存；

步骤三、多源数据的比对整合；

将按照相同格式的暂存的多源数据进行实体、关系以及属性的比对，梳理其相关性，并按照相关性进行分组整合；

步骤四、与自身数据库的进行对比；

当相关性高的分为一组时，直接利用该组相关性的特征与自家数据库中的数据进行遍历比对，再次判断相关性，若相关性高，则与自家数据库中该数据放置在同一组，若相关性不高，则在自家数据库中以该数据的组为中心按照相关度由高到低放置；与自家数据库中该数据放置在同一组，若相关性不高，则在自家数据库中以该数据的组为中心按照相关度由高到低单独成一组放置；

当相关性不高时单独分为一组，直接利用自身的特征与自家数据库中的数据进行遍历比对，再次判断相关性，若相关性高，则与自家数据库中该数据放置在同一组，若相关性不高，则在自家数据库中以该数据的组为中心按照相关度由高到低单独成一组放置。

优选的，其中步骤一中：数据来源即可以为通过构建网页爬虫抽取百度百科、互动百科中相关的信息数据集，数据采用JSON格式存储，针对百科类网页数据的抽取，构建一套基于WebMagic框架的数据爬虫系统，通过编写正则表达式来获取网页中的信息数据，还可以为来自政府或者相关联企业的数据库。

优选的，其中步骤二中：对多源数据中的结构化数据，通常是关系型数据库的数据，数据结构清晰，采用D2R技术把关系型数据库中的数据转换为RDF数据(linked data)即可。

优选的，其中步骤二中：对多源数据中半结构化数据，主要是指那些具有一定的数据结构，但需要进一步提取整理的数据，比如百科的数据，网页中的数据，对于这类数据，主要采用包装器的方式进行处理。

优选的，其中步骤二中：对多源数据中非结构化的文本数据，我们可以采用机器深度学习模型以及其他的方式进行知识的实体、关系、属性的抽取。

优选的，其中步骤三中：相同的格式为各行各业对应的标准的记录格式，如日期的记录格式、长宽高的记录格式。

优选的，其中步骤三和步骤四中：关于相关性比对的方式：发明的实体相似度是由实体的文本相似性和属性相似度综合计算出的，计算公式如下：

其中，ea和eb是两个实体，Context_Sim(ea，eb)为实体间的文本相似度，Property_Sim(ea，eb)为实体间的属性相似度，取平均得到二者的实体相似度Sim(ea，eb)。

与现有技术相比，本发明的有益效果是：本发明的一种多源数据的知识图谱扩展融合方法，本发明在现有的基础上增加了与自身数据库比对的部分，从而可以将外界多源获取的数据，比对整合后，再次与自身数据库中的数据进行比对整合，使得整个数据库中的数据更加的优化，精简。

附图说明

图1为本发明的流程示意图；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，本发明提供一种技术方案：一种多源数据的知识图谱扩展融合方法，包括如下步骤：

步骤一、多源数据的采集；

其中：数据来源即可以为通过构建网页爬虫抽取百度百科、互动百科中相关的信息数据集，数据采用JSON格式存储，针对百科类网页数据的抽取，构建一套基于WebMagic框架的数据爬虫系统，通过编写正则表达式来获取网页中的信息数据，还可以为来自政府或者相关联企业的数据库。

步骤二、多源数据的解析抽取；

针对结构化数据，通常是关系型数据库的数据，数据结构清晰，把关系型数据库中的数据转换为RDF数据(linkeddata)，普遍采用的技术是D2R技术。D2R主要包括D2RServer，D2RQEngine和D2RRQMapping语言。D2RServer是一个HTTPServer，它的主要功能提供对RDF数据的查询访问接口，以供上层的RDF浏览器、SPARQL查询客户端以及传统的HTML浏览器调用。D2RQEngine的主要功能是使用一个可定制的D2RQMapping文件将关系型数据库中的数据换成RDF格式。D2RQengine并没有将关系型数据库发布成真实的RDF数据，而是使用D2RQMapping文件将其映射成虚拟的RDF格式。该文件的作用是在访问关系型数据时将RDF数据的查询语言SPARQL转换为RDB数据的查询语言SQL，并将SQL查询结果转换为RDF三元组或者SPARQL查询结果。D2RQEngine是建立在Jena(Jena是一个创建SemanticWeb应用的Java平台，它提供了基于RDF，SPARQL等的编程环境)的接口之上。D2RQMapping语言的主要功能是定义将关系型数据转换成RDF格式的Mapping规则。

半结构化数据，主要是指那些具有一定的数据结构，但需要进一步提取整理的数据。比如百科的数据，网页中的数据等。对于这类数据，主要采用包装器的方式进行处理。包装器是一个能够将数据从HTML网页中抽取出来，并且将它们还原为结构化的数据的软件程序。网页数据输入到包装器中，通过包装器的处理，输出为我们需要的信息。对于一般的有规律的页面，我们可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素。但这样的通用性很差，因此也可以通过包装器归纳这种基于有监督学习的方法，自动的从标注好的训练样例集合中学习数据抽取规则，用于从其他相同标记或相同网页模板抽取目标数据。

对于非结构化的文本数据，我们抽取的知识包括实体、关系、属性。对应的研究问题就有三个，一是实体抽取，也称为命名实体识别，此处的实体包括概念，人物，组织，地名，时间等等。二是关系抽取，也就是实体和实体之间的关系，也是文本中的重要知识，需要采用一定的技术手段将关系信息提取出来。三是属性抽取，也就是实体的属性信息，和关系比较类似，关系反映实体的外部联系，属性体现实体的内部特征。非结构化数据的抽取问题，研究的人比较多，对于具体的语料环境，采取的技术也不尽相同。举个例子，比如关系抽取，有的人采用深度学习的方法，将两个实体，他们的关系，以及出处的句子作为训练数据，训练出一个模型，然后对于测试数据进行关系抽取，测试数据需要提供两个实体和出处的句子，模型在训练得到的已知关系中查找，得出测试数据中两个实体之间的关系。这是一种关系抽取的方法。还有人用句法依存特征，来获取关系，这种方法认为，实体和实体之间的关系可以组成主谓宾结构，在一个句子中，找出主谓关系和动宾关系，其中的谓词和动词如果是一个词，那么这个词就是一个关系。比如说“小明吃了一个苹果”，主谓关系是“小明吃”，动宾关系是“吃苹果”，那么就认为“吃”是一个关系。当然，还有其它很多方法，可以在一定程度上实现实体抽取，关系抽取和属性抽取，效果可能会有差异，这需要在实践中测试和完善。

将抽取的数据的按照实体、关系、属性三个方面，以及每个对应方面的行业规定记录方式进行相同的格式进行暂存处理。

步骤三、多源数据的比对整合；

首先，分别对每个数据源的属性进行规范化表示，其中包括了同义属性映射和对属性值的数值单位的统一转换，这样对属性的规范化处理可以减少对后续实体比较造成的影响；然后，基于实体名和实体属性对实体进行分块聚合，这样仅将同一分块内不同来源的实体作为候选匹配实体对，避免了将两个数据源中所有的实体两两间比较，减少计算复杂度；最后，将同一分块内不同来源的实体作为候选实体对，采用实体对齐算法计算实体间的相似度，将匹配得到不同来源中描述同一客观世界的实体对，建立不同数据源之间同一实体的等价链接，并进行实体属性的合并成同一组，而对于一个数据源中独有的实体，可以直接单独成一组。

在知识融合的过程中，首先是将数据映射到统一的表达体系上，对每个数据源的属性进行规范化表示。由于不同数据源表述的多样性，在百科中原始的属性和属性值是通过字符串存储的，实质意义相同的属性表达各异，属性值的数值单位都不统一；再加上百科网站的内容都是由用户自由创建和编辑等，在属性命名和属性值的格式上并没有限制，语义相同的属性具有不同的表达。这样的属性和属性值的不规范表示会对后续比较实体造成影响，因此，需要对属性名和属性值进行规范，减少对后续实体比较造成的影响，提高数据融合的准确率和召回率。对于属性表达不一致的问题，需要将属性名称都统一知识表达体系定义的属性上，将同义属性映射到一起，规范属性的表示。而对于属性值规范化问题，本发明通过对各个行业的书写规范以及格式规范进行读取后，按照各行业规范的表达形式，说明每一类属规范化方式。对于每一类的属性值，本发明利用正则表达式抽取出属性值中的数值信息，再根据定义好的单位间换算公式将数值映射到统一的单位下，统一规范实体的属性值的表示。

步骤四、与自身数据库的进行对比；

其中关于相关性比对的方式：发明的实体相似度是由实体的文本相似性和属性相似度综合计算出的，计算公式如下：

其中，ea和eb是两个实体，Context_Sim(ea，eb)为实体间的文本相似度，Property_Sim(ea，eb)为实体间的属性相似度，取平均得到二者的实体相似度Sim(ea，eb)。文本相似度是衡量描述两个实体文本信息的相似性。对文本进行分词后，采用word2vec获取的词向量对文本进行建模，对文本中所有词向量取其平均得到文本的语义向量；然后用余弦相似度来计算两个文本向量夹角的余弦值来度量相似性。

所述属性相似度是衡量两个实体间相同属性对应属性值的相似性。本发明将属性分为不同的类型，文本型、数值型、日期型和对象型，并对不同的属性类型设置不同的相似度度量机制。其中，文本型属性(TextProperty，TP)是指属性值为短文本的，比如“主要成就”和“描述信息”等属性，这类属性相似度是基于属性值文本的最长公共子序列(LongestCommonSequence,LCS)来衡量的；数值型属性(NumericProperty，NP)是指可度量的数值属性，如“身高”和“体重”等属性，这种属性是基于两者的绝对差值来衡量相似度；日期类属性(DateProperty，DP)是指描述时间日期类，比如“出生日期”和“成立时间”等属性，这种属性也是基于两者相差的天数来度量相似度，并将分母中每年的天数简化为360；最后一类是对象型属性(ObjectProperty，OP)，指属性值指向某一实体的一类属性，如“主演”和“毕业院校”等属性，所以应先经过上一节的关系扩充模型来补全缺失的链接，这种属性是基于Jaccard系数来衡量的。对应的相似度计算公式分别如下：在匹配到不同数据源中指向真实世界中同一对象的实体后，需要将这些实体数据归并为一个具有全局唯一标识的实体对象单独成一组，并对同一实体的对应属性进行融合形成相同的一组。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多源数据的知识图谱扩展融合方法，其特征在于：包括如下步骤：

步骤一、多源数据的采集；

步骤二、多源数据的解析抽取；

步骤三、多源数据的比对整合；

步骤四、与自身数据库的进行对比；

2.如权利要求1所述的一种多源数据的知识图谱扩展融合方法，其特征在于：其中步骤一中：数据来源即可以为通过构建网页爬虫抽取百度百科、互动百科中相关的信息数据集，数据采用JSON格式存储，针对百科类网页数据的抽取，构建一套基于WebMagic框架的数据爬虫系统，通过编写正则表达式来获取网页中的信息数据，还可以为来自政府或者相关联企业的数据库。

3.如权利要求1所述的一种多源数据的知识图谱扩展融合方法，其特征在于：其中步骤二中：对多源数据中的结构化数据，通常是关系型数据库的数据，数据结构清晰，采用D2R技术把关系型数据库中的数据转换为RDF数据(linked data)即可。

4.如权利要求1所述的一种多源数据的知识图谱扩展融合方法，其特征在于：其中步骤二中：对多源数据中半结构化数据，主要是指那些具有一定的数据结构，但需要进一步提取整理的数据，比如百科的数据，网页中的数据，对于这类数据，主要采用包装器的方式进行处理。

5.如权利要求1所述的一种多源数据的知识图谱扩展融合方法，其特征在于：其中步骤二中：对多源数据中非结构化的文本数据，我们可以采用机器深度学习模型以及其他的方式进行知识的实体、关系、属性的抽取。

6.如权利要求1所述的一种多源数据的知识图谱扩展融合方法，其特征在于：其中步骤三中：相同的格式为各行各业对应的标准的记录格式，如日期的记录格式、长宽高的记录格式。

7.如权利要求1所述的一种多源数据的知识图谱扩展融合方法，其特征在于：其中步骤三和步骤四中：关于相关性比对的方式：发明的实体相似度是由实体的文本相似性和属性相似度综合计算出的，计算公式如下：