CN106897403A

CN106897403A - 面向知识图谱构建的细粒度中文属性对齐方法

Info

Publication number: CN106897403A
Application number: CN201710077245.8A
Authority: CN
Inventors: 付琨; 许光銮; 梁霄; 孙显; 李峰; 孙鸿志; 王楠
Original assignee: Institute of Electronics of CAS
Current assignee: Jigang Defense Technology Co ltd; Aerospace Information Research Institute of CAS
Priority date: 2017-02-14
Filing date: 2017-02-14
Publication date: 2017-06-27
Anticipated expiration: 2037-02-14
Also published as: CN106897403B

Abstract

一种面向知识图谱构建的细粒度中文属性对齐方法，包括：步骤A，针对每一数据集的各个属性分别生成属性的扩展；步骤B，针对每个属性的扩展，考虑该属性的所有属性值类型的统计特性，从而确定该属性的数据类型；步骤C，基于属性的数据类型，定义属性值的相似度，实现属性间的相似度计算；步骤D，根据细粒度属性对齐的需要，针对任意两不同数据集要判别的属性对关系，基于属性间的相似度生成特征；步骤E，将所述特征输入训练好的分类器，输出分类结果。

Description

面向知识图谱构建的细粒度中文属性对齐方法

技术领域

本发明涉及数据处理领域，特别涉及一种面向知识图谱构建的细粒度中文属性对齐方法。

背景技术

关联开放数据LOD(Linking Open Data)项目的出现，促进了大规模语义数据的发布与互联。属性对齐是语义数据集成的一个基础任务，旨在识别来自单一或多个数据源的属性之间存在的对应关系，例如，识别“生日”和“出生日期”之间的同义关系。属性对齐的结果可作为实体对齐及本体构建的基础，因此，在跨数据源的高质量知识图谱的构建中起到重要作用。此外，完善的属性对应关系也有利于提高语义检索、问答系统的召回率。

属性对齐工作主要使用数据驱动的方法，其一般思路是，基于属性的扩展(extension)计算属性相似度，并设定相似度阈值来划分属性间的关系。例如，利用LOD数据集间的owl:sameAs信息确定扩展中的相同实体，通过计算匹配数与共现数的比例确定同义属性，但该方法仅能处理对象属性(object property)。一些改进方法利用属性值的相似度代替完全匹配，因此可识别同义的值属性(datatype property)。例如，通过无监督的方式确定阈值，并使用聚类法获取单一LOD数据集内部的同义属性簇。此外，也有工作对属性间的包含关系进行分析。例如，PARIS方法则在统一的对齐框架内实现了子属性(subproperty)的识别。

上述方法主要面向LOD数据集，例如DBpedia，YAGO，Freebase等。相比较而言，包括中文百科、垂直网站等在内的中文开源数据集大多未经整理，语义信息不完整，已有方法可能因缺乏必要信息而难以发挥优势；且中文表意的灵活性使得属性间的关系更复杂，而已有属性对齐工作通常着眼于发现某种特定关系。

发明内容

鉴于现有方案存在的问题，为了克服上述现有技术方案的不足，本发明提出了一种面向知识图谱构建的细粒度中文属性对齐方法。

根据本发明的一个方面，提供了一种面向知识图谱构建的细粒度中文属性对齐方法，包括：步骤A，针对每一数据集的各个属性分别生成属性的扩展；步骤B，针对每个属性的扩展，考虑该属性的所有属性值类型的统计特性，从而确定该属性的数据类型；步骤C，基于属性的数据类型，定义属性值的相似度，实现属性间的相似度计算；步骤D，根据细粒度属性对齐的需要，针对任意两不同数据集要判别的属性对关系，基于属性间的相似度生成特征；步骤E，将所述特征输入训练好的分类器，输出分类结果。

从上述技术方案可以看出，本发明具有以下有益效果：

提出基于监督学习的细粒度属性对齐方法，将属性关系的识别建模为多分类问题；

在确定属性类型方面，利用统计理论降低了小概率噪声干扰，因而鲁棒性强，在现有不规范数据集上可达到90％以上的准确率，克服了中文数据集规范性差，语义信息不完整的难题。

与传统对齐方法相比，不仅提高了同义属性识别的准确性，而且可有效发现包含、相关等关系，因而更适用于数据表达灵活、属性关系复杂的开源中文数据集。

附图说明

图1是本发明实施例中实现基于监督学习的细粒度中文属性对齐方法的操作示意图；

图2本发明实施例中基于监督学习的细粒度中文属性对齐方法的流程示意图；

图3为最佳匹配集确定示例图；

具体实施方式

本发明某些实施例于后方将参照所附附图做更全面性地描述，其中一些但并非全部的实施例将被示出。实际上，本发明的各种实施例可以许多不同形式实现，而不应被解释为限于此处所阐述的实施例；相对地，提供这些实施例使得本发明满足适用的法律要求。

在本说明书中，下述用于描述本发明原理的各种实施例只是说明，不应该以任何方式解释为限制发明的范围。参照附图的下述描述用于帮助全面理解由权利要求及其等同物限定的本发明的示例性实施例。下述描述包括多种具体细节来帮助理解，但这些细节应认为仅仅是示例性的。因此，本领域普通技术人员应认识到，在不悖离本发明的范围和精神的情况下，可以对本文中描述的实施例进行多种改变和修改。此外，为了清楚和简洁起见，省略了公知功能和结构的描述。此外，贯穿附图，相同附图标记用于相似功能和操作。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明实施例提供了一种基于监督学习的细粒度中文属性对齐方法，该方法首先确定属性的数据类型，在此基础上使用监督学习方法对属性间的同义、包含、相关关系进行统一识别，即实现细粒度的属性对齐。

根据RDF(Resource Description Framework)及OWL(Web Ontology Language)的规范，Web中的资源(或实体)可用一系列形如<主语，谓语，宾语>的三元组描述，三元组的三要素依次对应实体、属性和属性值。其中实体可被划分到不同的类别(概念)，如人、动物等；属性可分为值属性(datatype property)或对象属性(object property)两类，前者的属性值为文本，而后者的属性值是实体。考虑到开源中文数据集中的属性值多以自由文本表示，本方法将所有属性简化为值属性。一个属性可能出现在多个三元组中，这些三元组中的实体-属性值元组构成的集合即为该属性的扩展(extension)，而扩展中所有实体类别的集合称为属性的定义域(domain)。

图1为本发明实施例中实现基于监督学习的细粒度中文属性对齐方法的操作示意图，如图1所示，本发明实施例对两个数据集D1，D2进行属性对齐操作，数据集可看作一系列<实体，属性，属性值>三元组构成的集合，其中，数据集D1的实体“李红”具有属性集1包括生日、居住地、丈夫，相应的属性值2为1982.2.26、武汉、王明，数据集D2的同一实体“李红”的属性集1包括出生日、出生地、居住地、配偶、身高，相应的属性值2为1982-2-26、湖北武汉、湖北武汉、王明、172cm。

首先，基于统计的方法判别各个属性的数据类型，例如：经过判别后，数据集D1的属性集1的数据类型分别为时间值、字符串和字符串；数据集D2的属性集1的数据类型分别为时间值、字符串、字符串、字符串和数值。

然后，基于定义的属性相似度，实现不同数据集间的属性细粒度对齐(识别属性间同义、相关、包含等关系)。例如，数据集D1和D2的属性对齐结果为：D1中的属性“生日”与D2中的属性“出生日”为同义关系，D1中的属性“居住地”与D2中的属性“出生地”为相关关系，D1中的属性“丈夫”与D2中的属性“配偶”为包含关系。

通过对数据集D1和D2中的属性进行细粒度对齐，能够消除数据冗余，实现不同数据集间同一实体的数据合并，最终，完成数据集D1和D2的数据融合。

图2示出了本发明实施例中基于监督学习的细粒度中文属性对齐方法的流程示意图，如图2所示，该属性对齐方法包括以下步骤：

步骤A：针对每一数据集的各个属性分别生成属性的扩展。

具体地，一个属性可能出现在多个三元组中，这些三元组中的实体-属性值元组构成的集合即为该属性的扩展(extension)。

步骤B：针对每个属性的扩展，考虑该属性的所有属性值类型的统计特性，从而确定该属性的数据类型，即，基于统计对每一数据集中各个属性数据类型进行判别。

一个属性所有属性值的数据类型构成的集合，称为该属性的数据类型。也即给定属性p，其数据类型可表示为

其中，E_p表示属性p的扩展中所有实体构成的集合，l_e,p表示给定实体e和属性p时对应的属性值，代表属性值l_e,p的数据类型。

本发明实施例考虑五种数据类型，即数值型、数值范围型、时间值型、时间范围型以及字符串型，记这五种类型构成的集合为U。属性的数据类型是全集U的子集，因为对某些多义属性而言，其不同义项可能对应不同类型。例如属性“出生”可能代表“出生日期”或“出生地点”，其中第一个义项的属性值通常是时间值类型，第二个则是字符串型。

步骤B具体包括：

子步骤B1：确定属性值的数据类型；

考虑到中文开源数据集中属性值表达的灵活性，首先定义原子文本：

若某个文本仅包含一种数据类型的值，则称其为原子文本(atom literal)，记为a。例如，“2016年8月”是一个时间值型的原子文本，而“2016年8月为该校投资800万元”同时包含数值、时间值和字符串型的值，因而不是原子文本。

任意属性值l可看作由n(n≥1)个原子文本a_i(1≤i≤n)拼接而成，其数据类型通常与其中一个或几个关键的原子文本的类型保持一致。考虑到关键部分在整个文本中的长度比例通常较大，因此使用如下启发式准则判断属性值l的数据类型。

其中I是指示函数，时为1，否则为0；g_L为求文本长度的函数。

子步骤B2：确定属性的数据类型。

对于给定属性p，其数据类型可由式(1)确定。但由于开源数据在表达上的多样性和不规范性会带来噪声，导致步骤A1的结果中可能存在一些错误，因此将式(1)修改为

即对属性p的属性值的数据类型进行统计，计算每个类型出现次数占其属性值总数的比例，假定比例低于阈值θ的类型为噪声导致的错误，对其进行舍弃以提高最终判别结果的准确性。

步骤C：基于属性的数据类型，定义属性值的相似度，实现属性间的相似度计算。

子步骤C1：属性值相似度的计算；

下面具体说明属性值相似度的计算，即函数s_l的确定。关键的原子文本a对属性值表意起到决定性作用，因此也可用于计算属性值的相似度。对于关键原子文本的确定，此处不再使用基于文本长度的规则，而是利用已有的属性数据类型信息，选取数据类型与属性数据类型一致的原子文本，构成关键原子文本集合。表1给出了简单示例。

表1关键原子文本集合的确定示例

两个关键原子文本集合的相似度计算可通过寻找最佳匹配集(Best MatchingCollection)来实现，图3举例说明了最佳匹配集的确定，如图3所示，若给定两个属性值l₁和l₂的关键原子文本集合A₁和A₂及其最佳匹配集则属性值的相似度可由下式计算

其中s_a函数用于求两个原子文本值的相似度，其具体计算方法随文本的数据类型而变化：

●若两个值都是数值或都是时间值，计算基于相对误差的相似度；

●若两个值都是字符串型的，则综合使用Jaro-Winkler、TF-IDF等方法计算相似度；

●若两个值都是数值范围，则计算其对应边界数值的相似度的均值；若一个为数值，一个为数值范围，则计算前者与后者边界数值相似度的最大值；时间范围同理；

●其余情况下，相似度为0。

子步骤C2：基于属性值相似度计算属性的相似度。

属性的相似度是属性对齐中的常用特征，属性相似度计算基于如下启发式原则：若两个属性常被用于描述相同的实体，且在描述相同实体时其属性值有较高的语义相似度，则它们是相似的。据此，给出计算两个属性p₁和p₂相似度的方法如下：

其中，s_l为计算属性值相似度的函数(如公式4)，l_e,p表示给定实体e和属性p时对应的属性值。计算中利用sigmoid曲线模拟知识置信度，当两个属性出现在相同实体中的次数不小于n(可取经验值10)时置信度达到1，从而降低偶然匹配的影响。

综上，将式(4)带入式(5)中，可求得两个属性的相似度，用于后续的特征生成。

步骤D：根据细粒度属性对齐的需要，针对不同数据集要判别的属性对关系，基于属性间的相似度生成特征。

假设属性p₁和p₂分别来自任意两个数据集D₁和D₂，下面以属性间不同关系的特点为出发点，给出分类模型用到的所有特征。

(1)针对所有关系的特征：

属性的相似度是关系识别的基础，故有特征

f₁＝s_p(p₁,p₂)

(2)针对相关关系的特征：

相关属性可以从关联但不同的角度描述一个实体。假设不同数据集中，具有相同名称的属性是同义的，而单一数据集内部，描述同一实体的各属性互不相同。基于此假设，若数据集D₂中存在与p₁同名的属性p′₁，而p′₁与p₂频繁出现在同一实体中且相似度较高，则相应的p₁与p₂可能相关。图1中的相关属性“居住地”和“出生地”反应了此特点。相应的特征如下

f₂＝s_p(p₁',p₂),f₃＝s_p(p₁,p'₂)

其中p′₂是D₁中与p₂有同名的属性。

(3)针对包含关系的特征：

在包含关系中，存在父属性与子属性，一个启发式原则是，父属性被使用的场景或上下文通常比子属性广泛。基于此，PARIS方法以两个扩展的交集大小与每个扩展大小的比例作为度量标准，认为比例越小越可能是父属性。该标准定义在实体与属性值层面，对于规范性较低、属性分布差异大的开源数据集来说其表现可能不稳定。比较而言概念定义于更抽象的层面，因而在属性分布不平衡的数据集上较稳定。将PARIS方法中的标准迁移到概念层，给出基于属性定义域的特征。

其中，M_p表示属性p的定义域(即属性p的扩展中所有实体类别的集合)，c_e表示实体e的概念(即类别)。特征f₅是f₄的加权表示，每个概念的权重正比于当前属性在该概念下的实体数目。

此外，具有多个义项的属性可能是父属性，例如“出生”是“出生时间”和“出生地点”的父属性。若从数据类型的角度考虑该特点，即子属性的数据类型可能是父属性数据类型的子集，则有如下特征

其中I是指示函数，满足条件时为1否则为0。

步骤E将所述特征输入训练好的分类器，输出分类结果。

具体地，基于上述抽取的特征，本方法预先在训练数据集上人工标注了1000多对属性对齐的结果(涵盖同义、相关、包含、无关等关系)，选用随机森林分类器进行模型的训练，并保存模型参数。

针对要判断的不同数据集的任意两个属性间关系，抽取上述特征，输入分类器，从而判别出两个属性的关系(同义、相关、包含或无关)，实现监督学习的细粒度中文属性对齐。

至此，本发明实施例中基于监督学习的细粒度中文属性对齐方法介绍完毕，本领域的普通技术人员可对其进行简单地熟知地替换。

前面的附图中所描绘的进程或方法可通过包括硬件(例如，电路、专用逻辑等)、固件、软件(例如，被承载在非瞬态计算机可读介质上的软件)，或两者的组合的处理逻辑来执行。虽然上文按照某些顺序操作描述了进程或方法，但是，应该理解，所描述的某些操作能以不同顺序来执行。此外，可并行地而非顺序地执行一些操作。

需要说明的是，在附图或说明书正文中，未绘示或描述的实现方式，均为所属技术领域中普通技术人员所知的形式，并未进行详细说明。此外，上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式，本领域普通技术人员可对其进行简单地更改或替换：

(1)使用的分类方法除使用随机森林分类器外，还可以采用其他的有监督分类方法。

(2)属性的数据类型定义还可以按照实际应用需求，增加或减少某些数据类型。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向知识图谱构建的细粒度中文属性对齐方法，其特征在于，包括：

步骤A，针对每一数据集的各个属性分别生成属性的扩展；

步骤B，针对每个属性的扩展，考虑该属性的所有属性值类型的统计特性，从而确定该属性的数据类型；

步骤C，基于属性的数据类型，定义属性值的相似度，实现属性间的相似度计算；

步骤D，根据细粒度属性对齐的需要，针对任意两不同数据集要判别的属性对关系，基于属性间的相似度生成特征；

步骤E，将所述特征输入训练好的分类器，输出分类结果。

2.根据权利要求1所述的细粒度中文属性对齐方法，其特征在于，步骤A中属性的扩展是指在该属性所在的语义数据集中，所有该属性相关的实体和属性值对所构成的二元组集合。

3.根据权利要求1所述的细粒度中文属性对齐方法，其特征在于，所述的步骤B包括：

步骤B1：确定属性值的数据类型，任意属性值l可看作由n个原子文本a_i拼接而成，其中n≥1，1≤i≤n，i，n均为正整数，任意属性值l的数据类型通常与其中一个或几个关键的原子文本的类型保持一致，使用如下启发式准则判断属性值l的数据类型：

t_{l} = \underset{t &Element; U}{\arg m a x} \frac{Σ_{i = 1}^{n} I (t_{a_{i}} = t) \times g_{L} (a_{i})}{g_{L} (l)},

其中I是指示函数，时为1，否则为0；g_L为求文本长度的函数，U数据类型的集合；

步骤B2：确定属性的数据类型，采用下式，对属性p的所有属性值的数据类型进行统计，即计算每个类型出现次数占其属性值总数的比例，假定比例低于阈值θ的类型为噪声导致的错误，

T_{P} = {t | \frac{\underset{e &Element; E_{p}}{Σ} I (t_{l_{e, p}} = t)}{| E_{p} |} > θ, t &Element; U},

4.根据权利要求1所述的细粒度中文属性对齐方法，其特征在于，所述的步骤C包括：

步骤C1：属性值相似度的计算，若给定两个属性值l₁和l₂的关键原子文本集合A₁和A₂及其最佳匹配集则属性值的相似度可由下式计算，

s_{1} (l_{1}, l_{2}) = \frac{\underset{(a_{1}, a_{2}) &Element; B_{A_{1}, A_{2}}}{Σ} s_{a} (a_{1}, a_{2})}{| A_{1} | + | A_{2} | - | B_{A_{1}, A_{2}} |},

其中s_a函数用于求两个原子文本值的相似度；

步骤C2：基于属性值相似度计算属性的相似度，计算两个属性p₁和p₂相似度的公式如下：

s_{p} (p_{1}, p_{2}) = \frac{\underset{e &Element; E_{p_{1}} \cap E_{p_{2}}}{Σ} s_{1} (l_{e, p_{1}}, l_{e, p_{2}})}{| E_{p_{1}} \cap E_{p_{2}} |} \times \frac{1}{1 + e^{\frac{n}{2} - | E_{p_{1}} \cap E_{p_{2}} |}}

其中，s_l为计算属性值相似度的函数，l_e,p表示给定实体e和属性p时对应的属性值。

5.根据权利要求1所述的细粒度中文属性对齐方法，其特征在于，所述的步骤D中，属性p₁和p₂分别来自任意两个数据集D₁和D₂，所述的步骤D生成特征包括：

针对所有关系的特征f₁＝s_p(p₁,p₂)；

针对相关关系的特征f₂＝s_p(p′₁,p₂),f₃＝s_p(p₁,p'₂)其中，p′₁是D₂中p₁同名的属性，与p'₂是D₁中与p₂有同名的属性；

针对包含关系的特征

f_{4} = \frac{| M_{p_{1}} \cap M_{p_{2}} |}{| M_{p_{1}} |} / \frac{| M_{p_{1}} \cap M_{p_{2}} |}{| M_{p_{2}} |} = \frac{| M_{p_{2}} |}{| M_{p_{1}} |}

其中，M_p为属性p的扩展中所有实体类别的集合，c_e表示实体e的概念，

f_{6} = I (T_{p_{1}} &Subset; T_{p_{2}}), f_{7} = I (T_{p_{1}} &Superset; T_{p_{2}})

其中I是指示函数，满足条件时为1否则为0。