CN111061923B

CN111061923B - 一种基于图依赖规则和监督学习的图数据实体识别系统

Info

Publication number: CN111061923B
Application number: CN201911280249.1A
Authority: CN
Inventors: 邓婷; 侯蕾; 韩紫燕
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2022-08-02
Anticipated expiration: 2039-12-13
Also published as: CN111061923A

Abstract

本发明通过特征提取和特征选择的方法，设计了一种基于图依赖规则和监督学习的图数据实体识别系统，其方法主要是将图匹配键作为实体识别依赖的规则，提出的一种监督学习的实体识别方法，其包含四个步骤：给出定义、图匹配键特征提取、图匹配键特征选择、分类器训练和测试。上述步骤构成的方法，可以将图数据与已知数据标签对应，获得高质量的匹配规则，对给定测试数据获得高准确率的分类结果，并使得模型和得到的结果具备可解释性，并在模型方法的基础上实现一个可以对图数据库依据实体内容和拓扑结构进行去除冗余、分类的系统。

Description

一种基于图依赖规则和监督学习的图数据实体识别系统

技术领域

本发明涉及图数据质量领域，尤其涉及一种基于图依赖规则和监督学习的图数据实体识别系统。

背景技术

图数据是一种具备直观表达形式的数据结构，在研究和商业领域均有着广泛的应用。随着社交网络数据量的急剧增长，图数据的规模也越来越大，使得高效处理图数据变得异常困难。此外，图数据规模的增大，也随之带来了图数据的一系列质量问题，例如数据冗余、数据不一致、错误数据、缺失数据等。实体识别(又叫实体解析、实体匹配、冗余检测、记录链接)作为一种提升数据质量的重要方法，被用来查找给定数据集中表示同一实体的记录并消除数据冗余，同时在数据清洗、数据整合、信息检索等领域有着很重要的应用。

其中，数据冗余体现在，数据集中若干不同的数据记录描述的是现实世界中的同一个实体对象，而这些数据记录对应的某些属性或者拓扑结构存在细微差别，因此它们是近似的重复的记录。当数据库中存储的数据出现冗余时，会存在以下一些问题：(1)数据不一致性。数据库中存储多个不同的数据记录来表示现实世界同一实体，也就是说表示同一实体的记录包含的属性或拓扑结果不尽相同，这使得数据出现不一致性，也导致数据库查询、更新等操作出现异常。(2)内存消耗。表示同一实体的记录在数据库中存储了多次，会导致内存占用增加，浪费存储空间。并且数据量越大，占据的存储空间越大。尤其在大数据时代，图数据规模很大的情况下，数据冗余带来的额外内存消耗是不可忽视的。因此，为了保证数据的质量，通常需要对冗余的数据记录进行检测并消除。

实体识别(又叫实体解析、实体匹配、冗余检测、记录链接)是一种检测数据冗余的有效手段，用于判断数据集中的数据记录是否描述的是现实世界中的同一实体对象。其作为一种提升数据质量的重要方法，在数据清洗、数据整合、信息检索等领域有着很重要的应用。

图数据上的实体识别不同于关系数据上的实体识别，虽然已经有了一定程度的研究，但是由于识别过程中需要考虑到图结构中包含的实体依赖等信息，仍存在很多问题有待解决和改进。

当前在图数据上做实体识别的方法主要包括两类：基于规则的和基于机器学习的方法。

现有技术主要存在以下问题：

(1)基于规则的方法：GKeys对节点的属性值进行比较时使用的是相等性，也就是说对于两个节点，只有需要比较的属性值完全相等，才认为它们表示同一实体。GDD_Ls仅仅考虑比较节点的属性，没有涉及到图模式的匹配，因此不能用来解决集体实体识别，此外，由于没有考虑使用节点的拓扑结构信息，得到的结果准确度也有待提升。值得注意的是，基于规则的方法最大的一个障碍是规则的发现问题，一般情况下需要领域专家根据经验给出规则，或者采用自动发现的方法。依靠领域专家给出规则是不现实的，因为图数据种类繁多且规模很大；然而采用自动发现的方法也比较困难，尤其对于键keys的发现更困难，因为既需要发现有意义的图模式，又要发现值的依赖规则。

(2)基于机器学习的方法：绝大部分的机器学习模型都是不可解释的。在实践中使用这些基于机器学习的方法的主要障碍是，终端用户仅仅是得到了输出结果，却没有获得为什么某些节点表示同一实体的合理解释，因此很难信任模型和其输出结果。

发明内容

为了提高图数据的实体识别的准确性，本发明提供了一种基于图依赖规则和监督学习的图数据实体识别算法。通过结合图依赖规则和监督学习，既解决了基于规则的实体识别方法准确率低的问题，又解决了基于机器学习的实体识别方法的不可解释性。

为达到上述目的，本发明采用了下列技术方案：

一种基于图依赖规则和监督学习的图数据实体识别系统，包括：

信息输入模块，用于将外部数据库所获取的图数据和带标签的数据集进行标准化后导入；

基于图依赖规则和监督学习的图数据实体识别模块，应用一种基于图依赖规则和监督学习的图数据实体识别方法，对输入的图数据进行实体识别；

信息输出模块，依据所述基于图依赖规则和监督学习的图数据实体识别模块中所识别的图数据与标签是否为同一实体的结果，将识别为同一实体的图数据分别打包输出为新的图数据库，并生成一个对同一标签仅保留一个图数据的去除冗余后的图数据库。

具体地，一种基于图依赖规则和监督学习的图数据实体识别方法，包括：

通过图匹配键(Graph Matching Keys，GMKs)作为实体识别依赖的规则，并提出一种监督学习的实体识别方法(Graph Matching Keys and Supervised Learning basedEntity Matching，GMKSLEM)，所述使用图匹配键作为特征，以此来达到高的准确率和可解释性；

所述监督学习的实体识别方法对给定的一组节点对，将其表示成向量的形式，输入到分类器中，输出的结果为1或0，分别表示为同一实体或不同实体，具体包括：

步骤一：给出图匹配键的定义、支持度的定义、可信度的定义；

步骤二：图匹配键特征提取：根据步骤一定义的内容，生成候选图匹配键集合，将数据集中的节点对集合表示成向量；

步骤三：图匹配键特征选择：计算第2步得到的候选图匹配键的重要性，并进行排序和筛选，过滤掉对分类贡献不大的特征，得到最终高质量的图匹配键集合，并将数据集中的节点对集合重新计算表示成向量，训练得到最终性能高的分类器；

步骤四：分类器训练和测试：将测试集中的节点对根据步骤三得到的图匹配键集合表示成一组向量，输入步骤三得到的所述分类器中进行测试，并计算准确率precision、召回率recall、以及F₁值

进行评测。

所述图匹配键中，一个图匹配键ψ的定义为：

所述支持度的定义为：

所述可信度的定义为：

(1)当(v，v’)∈Q(x₀，y₀，G)时，即(v，v’)可以通过Q(G)匹配到(x₀，y₀)时：

conf(l_i，v，v′)＝max{conf(l_iv，v′，h)|h∈Q(x₀，y₀，G)，h(x₀)＝v，h(y₀)＝v′}，其中Q为图模式。

conf(X_ψ，v，v′，h)＝(conf(l₁，v，v′，h)，conf(l₂，v，v′，h)，...，conf(l_k，v，v′，h))

conf(X_ψ，v，v′)＝(conf(l₁，v，v′)，conf(l₂，v，v′)，...，conf(l_k，v，v′))

(2)否则，conf(X_ψ,v,v',h)和conf(X_ψ,v,v')均为k维的零向量

步骤二包括：

在带标签的所述数据集上查找频繁的所述图模式，并通过添加属性依赖来生成图匹配键；

通过在所述图模式和属性依赖两个层次来降低枚举的复杂性，具体地：在枚举生成所述图模式的同时，丢弃支持度低于一定阈值的所述图模式；设定所述图模式的大小边界值，当生成的所述图模式到达一定大小时则终止；对于得到的每个频繁的所述图模式，将其潜在的属性依赖全部加到所述图模式上，得到一个候选的图匹配键；

将所述图匹配键的集合作为特征，引入可信度的定义，然后将带标签的数据集中的每个节点对表示为向量输入到分类器中进行训练和测试。

步骤三包括：

特征排序：对得到的候选所述图匹配键进行排序，得到一个重要性从高到低排列的特征序列；

特征过滤：对经过特征排序得到的特征序列，初始化一个集合F，每次依次加入序列中的一个特征，分别使用所述集合和所述集合并所述特征的新集合作为特征去训练并测试分类器，若后者训练的分类器在测试时的性能比前者的强，则保留所述特征在所述集合中；否则剔除所述特征，同时将所属特征对应的属性依赖从该图匹配键中删掉，当某个图匹配键的所有属性依赖都被删掉之后，这个图匹配键也将从图匹配键集合中删除；重复这个过程，直到每个特征都被遍历过之后，则终止。

步骤四包括：

根据得到的所述图匹配键集合和所述分类器，将测试集中的节点对表示成一组向量，输入到所述分类器中进行测试，并计算准确率、召回率、F₁值进行评测，表征模型的性能好坏。

本发明通过上述技术方案，在图数据的实体匹配的方法中实现了如下技术效果：

(1)获得高质量的匹配规则；

(2)获得高准确率的结果；

(3)使得模型和得到的结果具备可解释性。

并基于上述方法，实现了一种基于图依赖规则和监督学习的图数据实体识别系统，通过这一系统，实现对输入图数据的高准确高质量实体匹配，进而减少图数据的冗余问题。

附图说明

图1：GMKSLEM方法的总体流程

具体实施方式

以下是本发明的优选实施例，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本实施例中一种基于图依赖规则和监督学习的图数据实体识别方法提出了图匹配键(Graph Matching Keys，简称GMKs)作为实体识别依赖的规则，同时提出了一种监督学习的实体识别方法GMKSLEM(Graph Matching Keys and Supervised Learning basedEntity Matching)，该方法使用GMKs作为特征，以此来达到高的准确率和可解释性。给定一个数据图G，一个带标签的数据集D＝{(v,v’,r)}，其中v和v’表示需要识别的两个节点，r＝0表示v和v’不属于同一实体，r＝1表示属于同一实体。数据集D表示已知标签的代表同一实体或不同实体的节点对集合。GMKSLEM方法的总体流程如图1所示。

该方法将实体识别问题看作是二分类问题，给定一组节点对，将其表示成向量的形式，输入到分类器中，输出的结果为1或0，分别表示为同一实体或不同实体。其主要包括四个步骤：

步骤一：给出图匹配键GMKs的定义、支持度support的定义、可信度confidence的定义；

步骤二：GMKs特征提取：生成候选GMKs集合Σ_c，将数据集D中的节点对集合表示成向量Vector_D；

步骤三：GMKs特征选择：计算第2步得到的候选GMKs的重要性，并进行排序和筛选，过滤掉对分类贡献不大的特征，得到最终高质量的GMKs集合Σ，并将数据集D中的节点对集合重新计算表示成向量Vector'_D，训练得到最终性能高的分类器

步骤四：分类器训练和测试：将测试集中的节点对根据第3步得到的GMKs集合Σ表示成一组向量，输入第3步得到的分类器

中进行测试，并计算准确率precision、召回率recall、F₁值进行评测

步骤一：定义

图匹配键GMKs的定义

一个GMKψ被定义为

其中，

(1)

具备对称的结构，即：

可拆分成

和

并且

相当于通过一个双射函数对

使得

和

不相交，且从Q₁到Q₂存在同构f。直观的讲，

相当于将

进行复制后，更改了变量的名称而得到的；

(2)

由

和

组成，其中x₀和y₀是指定的节点，即需要判断是否为同一实体的节点；

(3)X_ψ是一组关于

的属性依赖集合，这些属性依赖具备以下两种形式：(a)变量属性依赖：x.A≈y.B,其中y＝f(x)，A和B是x和y的非id属性；(b)id属性依赖：x.id≈y.id，其中y＝f(x)。

GMKψ使用图模式Q，属性的相似性和节点标识来指定拓扑结构约束。当id属性依赖出现在X_ψ中的时候，可以递归的定义GMK，因此，GMK可应用在集体实体识别。

支持度support的定义

给定一个数据图G，一个带标签的数据集D＝{(v,v’,r)}，和一个由

和

组成的

指定的节点为x₀和y₀，则定义支持度support为：

其中，Q(x₀,y₀,G)表示Q在属性图G上匹配到(x₀,y₀)的节点对的集合，D_pair表示D中的所有节点对(v,v’)。因此，support的定义表示的是数据集D中能匹配到Q(G)的节点对占数据集的比例。support描述的是图模式Q提供的拓扑结构约束被D中的节点对满足的频率。此处，support的定义是为了在生成候选GMKs时，过滤掉低质量的GMKs，从而减少计算复杂度。

可信度confidence的定义

给定D_pair中的一个节点对(v,v’)和一个GMK

其中X_ψ包含k个属性依赖l₁,l₂,…,l_k，每个属性依赖l_i的形式为x_i.A_i≈_iy_i.B_i或x_i.id＝y_i.id，i∈[1,k]，则

(1)当(v,v’)∈Q(x₀,y₀,G)，也就是说(v,v’)可以通过Q(G)匹配到(x₀,y₀)时，记h为任意满足h(x₀)＝v且h(y₀)＝v'的匹配，则定义

其中，s≈(h(x_i).A_i,h(y_i).B_i)表示用相似性度量函数≈计算相似性s(h(x_i).A_i,h(y_i).B_i)；

进一步定义

conf(l_i，v，v')＝max{conf(l_i，v，v'，h)|h∈Q(x₀，y₀，G)，h(x₀)＝v，h(y₀)＝v′}

则

conf(X_ψ,v,v′,h)＝(conf(l₁,v,v′,h),conf(l₂,v,v′,h),…,conf(l_k,v,v′,h))

conf(X_ψ,v,v′)＝(conf(l₁,v,v′),conf(l₂,v,v′),…,conf(l_k,v,v′))

可看出，conf(X_ψ,v,v',h)描述的是当(v,v’)通过h满足Q的拓扑结构约束时，(v,v’)满足X_ψ中的所有属性依赖的可能性；conf(X_ψ,v,v')描述的是对于所有满足h(x₀)＝v和h(y₀)＝v'的匹配h，(v,v’)满足X_ψ中的所有属性依赖的最大可能性。

(2)当

时，也就是说(v,v’)不可以通过Q(G)匹配到(x₀,y₀)时，conf(X_ψ,v,v',h)和conf(X_ψ,v,v')均为k维的零向量。

此处，可信度confidence的定义，旨在后续将节点对表示成向量。

步骤二：GMKs特征提取

生成候选GMKs

我们在带标签的数据集D上查找频繁图模式Q，并通过添加属性依赖来生成GMKs。但是，枚举所有的GMKs的成本很高，因为一组候选GMKs的集合在Q的大小和潜在属性依赖的数量上呈指数增长。因此，本发明通过在图模式和属性依赖两个层次来降低枚举的复杂性，具体做法如下：

(1)在枚举生成图模式Q的同时，丢弃支持度低于一定阈值的Q；设定Q的大小边界值，当生成的Q到达一定大小时则终止，这样做可以丢弃尺寸过大的Q，因为尺寸过大的Q通常是不频繁的(支持度较低)，并且很难向用户进行解释；这两个策略都可以使得Q在枚举生成时的扩张可以提前结束，降低枚举的复杂度。

(2)对于第(1)步得到的每个频繁图模式Q，将其潜在的属性依赖全部加到Q上，得到一个候选的GMK。将最终得到的所有候选GMKs的集合记为CGKMs(Candidate GMKs)，记为Σ_c。而现有的枚举方法，在这一步会将所有潜在的属性依赖进行排列组合，得到的候选结果数量很多，导致计算量很大。

向量表示

我们将GMKs作为特征，引入可信度confidence的定义，然后将带标签的数据集D中的每个节点对(v,v’)表示为向量vector_(v,v’)输入到分类器中进行训练和测试，以此将GMKs和监督学习的方法进行结合。

具体做法如下：若CGKMs包含n个候选GMKψ₁,ψ₂,…ψ_n,每个ψ_i包含m_i个属性依赖

那么对于D中的每个节点对(v,v’)和任意一个ψ_i，计算一个m_i维的向量，即可信度

其中第j个元素为

最后，将某个节点对和每个ψ_i，i∈[1,n]，计算得到的结果进行串接，就得到了该节点对的向量表示。即，

因此，对于整个数据集D，通过对其中每个节点对进行向量表示，最终可将该数据集表示成向量的集合Vector_D。

步骤三：GMKs特征选择

特征排序

我们对得到的候选GMKs进行特征选择，过滤掉对分类贡献不大的特征，得到一组高质量的GMKs用到分类中去，从而提高实体识别的准确率，并增加了模型和分类结果的可解释性。这里将CGMKs中每个GMK的图模式和一个属性依赖的组合作为一个特征，若某个GMKψ有k个属性依赖l₁,l₂,…,l_k，则此处对应k个特征，分别为Q&l₁,Q&l₂,…,Q&l_k，记为θ₁,θ₂,…,θ_k,。首先，对每个特征计算对应的基尼系数，然后从高到低进行排序，就得到了一个重要性从高到低的特征序列。

特征过滤

根据上一步特征排序得到的特征序列，来进行特征过滤。初始化一个集合F，每次依次加入序列中的一个特征θ_i，分别使用F和F∪{θ_i,}作为特征去训练并测试分类器。若后者训练的分类器在测试时的性能比前者的强，则保留θ_i在F中；否则剔除θ_i，同时将θ_i对应的属性依赖从该GMK中删掉，当某个GMK的所有属性依赖都被删掉之后，这个GMK也将从CGMKs中删除。重复这个过程，直到每个特征都被遍历过之后，则终止。最终，将得到一组高质量、有意义的GMKs，将其构成的集合记为Σ，与此同时，也将获得数据集D被重新计算表示成的向量Vector'_D以及训练得到的最终性能高的分类器

步骤四：分类器训练和测试

根据上一步得到的GMKs集合Σ和分类器

将测试集中的节点对表示成一组向量，输入到

中进行测试，并计算准确率、召回率、F₁值进行评测，表征模型的性能好坏。

Claims

1.一种基于图依赖规则和监督学习的图数据实体识别系统，其特征在于：包括：

基于图依赖规则和监督学习的图数据实体识别模块，应用一种基于图依赖规则和监督学习的图数据实体识别方法，对输入输图数据进行实体识别；

信息输出模块，依据所述基于图依赖规则和监督学习的图数据实体识别模块中所识别的图数据与标签是否为同一实体的结果，将识别为同一实体的图数据分别打包输出为新的图数据库，并生成一个同一标签仅保留一个图数据的去除冗余后的图数据库；

所述一种基于图依赖规则和监督学习的图数据实体识别方法，其特征在于：包括：

通过图匹配键(Graph Matching Keys，GMKs)作为实体识别依赖的规则，并提出一种监督学习的实体识别方法(Graph Matching Keys and Supervised Learning based EntityMatching，GMKSLEM)，- 使用所述图匹配键作为特征，以此来达到高的准确率和可解释性；

步骤四：分类器训练和测试：将测试集中的节点对根据步骤三得到的图匹配键集合表示成一组向量，输入步骤三得到的所述分类器中进行测试，并计算准确率precision、召回率recall、以及F₁值进行评测；

所述图匹配键中，一个图匹配键ψ的定义为：

所述支持度的定义为：

所述可信度的定义为：

(1)当(v，v’)∈Q(x₀，y₀，G)时，即(v，v’)可以通过Q(G)匹配到x₀，y₀)时：

conf(l_i，v，v′)＝max{conf(l_i，v，v′，h)|h∈Q(x₀，y₀，G)，h(x₀)＝v，h(y₀)＝v′}，其中Q为图模式，

conf(X_ψ，v，v′)＝(conf(l₁，v，v′)，conf(l₂，v，v′)，...，conf(l_k，v，v′))；

(2)否则，conf(X_ψ，v，v′，h)和conf(X_ψ，v，v′)均为k维的零向量。

2.根据权利要求1所述的一种基于图依赖规则和监督学习的图数据实体识别系统，其特征在于：所述图匹配键特征提取步骤包括：

3.根据权利要求2所述的一种基于图依赖规则和监督学习的图数据实体识别系统，其特征在于：所述图匹配键特征选择步骤包括：

4.根据权利要求3所述的一种基于图依赖规则和监督学习的图数据实体识别系统，其特征在于：所述分类器训练和测试步骤为：根据得到的所述图匹配键集合和所述分类器，将测试集中的节点对表示成一组向量，输入到所述分类器中进行测试，并计算准确率、召回率、F₁值进行评测，表征模型的性能好坏。