CN103902649B

CN103902649B - 一种基于在线百科链接实体的知识抽取方法

Info

Publication number: CN103902649B
Application number: CN201410052292.3A
Authority: CN
Inventors: 张可尊; 肖仰华; 汪卫
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2014-02-17
Filing date: 2014-02-17
Publication date: 2017-01-18
Anticipated expiration: 2034-02-17
Also published as: CN103902649A

Abstract

本发明属于开放知识抽取技术领域，具体为一种基于在线百科链接实体的知识抽取方法。其通过有效的证据融合方法移除链接实体中的不相关实体，得到高质量的相关链接实体；然后利用Gmeans聚类方法对相关的链接实体做聚类，用基于LCA的类标签生成方法为每个类产生一个描述性的类标签，这样每个类对应的实体集合和类标签构成一组知识；最后，为了提高大数据量实体的聚类效率，使用基于最大生成树的类复用机制，从而极大节约聚类时间。本发明不同于传统的知识抽取方法，其抽取基于在线百科的链接实体，而不是正文内容，极大的避免了自然语言处理方法的计算代价高、错误率高等缺点，可以高效地处理大规模数据。

Description

一种基于在线百科链接实体的知识抽取方法

技术领域

本发明属于开放知识抽取技术领域，具体涉及一种基于在线百科链接实体的知识抽取方法。

背景技术

在线百科如维基百科，是互联网上最重要的开放数据资源，为知识获取提供最权威，最全面的知识源。在线百科是数据信息时代最有价值的信息，因为在线百科中部分数据是结构化的，且是可以被机器理解的。结构化的数据能够让用户直接理解知识，并且广泛应用于搜索引擎、问题回答等。

在线百科结构化数据的代表是Infobox（或称属性信息表）。但是当前Infobox表存在一些问题：首先，Infobox表不完整。在维基百科中接近55%的词条没有Infobox；对于存在Infobox的词条也存在属性或者属性值缺失的现象。其次，Infobox表中存在大量不一致。其中实体的属性存在不一致，实体的属性值也会存在不一致。出现这些问题的原因是在线百科允许用户进行自由编辑，不同用户有不同的理解和表达方式，从而导致信息描述不一致。另外，人工编辑不仅会出现错误而且耗时耗力。

当前存在一些从文本中抽取知识的方法，但是这些方法一般都需要处理自然语言，这样就不可避免的使用命名实体识别、句子解析、关系抽取等技术。但是这些方法一般开销较大，需要大量的训练样本来进行监督学习，而且错误率也比较高。

发明内容

本发明针对传统知识抽取效率低，错误率高的缺点，考虑到链接实体被用户区别于其他实体被标记出来，是基于链接实体和词条存在潜在的语义关系，提出一种准确、高效的针对基于链接实体的结构化知识抽取方法。

本发明利用链接实体与词条间潜在的语义关系进行知识抽取。但是利用链接实体进行知识发现仍然存在三个重要问题：第一，如何识别不相关的链接实体。第二，如何从相关的链接实体发现知识。第三，针对海量百科数据，如何提高知识抽取的效率。

针对以上问题，本发明提供的一种基于在线百科链接实体的知识抽取方法，其具体步骤包括：

（1）不相关链接实体的识别与去除

结合WJC和PMI这两种简单的语义相关性度量方法，提出基于位置的证据融合的排序方法，得到证据融合的综合指标，设定噪音阈值，识别相关链接实体和不相关链接实体，将低于阈值的链接实体看作不相关链接实体并移除；

（2）相关链接实体的聚类与类标签生成

使用Gmeans聚类方法通过设定的置信度选择聚类截止条件对相关链接实体进行聚类的同时，使用Kmeans++方法选择初始聚类点，然后通过基于LCA的类标签产生方法得到类的标签，以此产生的每个类，类标签组合构成一组知识，类标签描述知识的属性，类中的实体对应该属性下的属性值；

（3）基于类复用的高效聚类

使用基于最大生成树的类复用方法对步骤（2）中得到的不同类通过类的复用进行优化，实现高效聚类，再循环进行步骤（2）中操作。

本发明技术方案具体描述如下：

一、基于位置的证据融合的排序方法

为了发现链接实体中的语义相关实体，本发明使用证据融合的方法来提高相关性排序的准确度。

两种简单的语义相关性度量方法。

为了识别不相关的实体，需要度量实体相关性。针对x（定义：百科页面中的一个实体x）和y（定义：百科页面中的一个实体y），首先使用两种简单的相关性度量公式PMI(x, y)（定义：PMI全称为Pointwise Mutual Information，表示点互信息，即描述两个实体共同出现的概率）和WJC(x, y)（定义：全称为Weighted Jaccard Coefficient，表示为加权Jaccard系数，描述两个实体链接实体的相似性）。其中PMI(x,y)中p(x, y)（定义：两个实体共同出现在百科页面的概率）表示两个实体作为链接实体一起出现在同一个实体页面的概率，p(x)或p(y)（定义：实体x或y出现在百科页面的概率）分别表示实体作为链接实体出现在一个实体页面的概率。在WJC(x, y)中(或)（定义：实体x或y的链接实体集合）表示实体x(或y)百科页面链接实体集合，w(e)(或)（定义：实体e或的权重）表示为实体作为链接实体出现在全部百科页面的IDF(定义：全称为Inverse Document Frequency，表示反转文档频率)权重。

但是PMI和WJC都存在缺点，PMI准确率随着排序的位置增加而增加，WJC准确率随着排序位置增加而减小。即位于PMI排序尾部的实体大都是不相关的实体，但在PMI排序头部也会出现不相关实体；而在WJC排序首部的实体大都是强相关的实体，但在WJC尾部可能出现相关实体。为了得到更好的排序，本发明使用证据融合的方法。

基于证据融合相关性度量方法

为提高知识抽取的准确性，本发明使用一种基于位置的证据融合方法，首先针对实体e在PMI中的排序位置，实体e在WJC中的排序位置，计算用于表示实体e在两种排序中的位置差异性的，公式如下：

其中表示实体e的链接实体总数；

然后计算实体e在两种指标的权重分配参数，

其中为幅度调节参数，用以调节变化幅度;

最后得到证据融合的综合指标，公式如下所示：

此时=。

设定阈值，从排序中识别相关实体和不相关实体

通过证据融合得到综合评价指标，设定噪音阈值，将低于阈值的链接实体看作不相关链接实体并移除。

二、基于聚类-类标签产生的知识生成方法

为了从链接实体中发现知识，我们对链接实体进行聚类，然后为每个类产生一个类标签，这样一类实体和一个标签就构成了一组知识。我们使用聚类是基于链接实体之间存在一定的主题相似性，这个主题就是类的标签。

相关链接实体聚类

首先，对得到的相关链接实体进行聚类，其中实体特征定义为在线百科页面实体的分类标签（或称category）。特征c被定义为实体e的一个上层分类标签，特征c的权重idf(c)定义为分类c在整个百科页面里面的反转文档频率，其计算公式如下:

其中N为全部实体数量，为属于分类c的实体的数量；

可以看出分类标签的权重是单调的，即对于任何分类标签，其权值不小于其父类分类标签。

实体之间的距离定义为cosine距离，其是一种通用的距离度量，其距离计算公式如下。

其中、分别表示实体a、b的特征值组成的向量，向量的每一维是该特征的权值；、分别表示向量或的模长。

聚类方法选择Gmeans方法，Gmeans方法能够通过设定的置信度选择聚类截止条件，从而解决聚类数量选择的问题。同时使用Kmeans++方法选择初始聚类点以优化初始点的选择。

类标签生成方法

为了描述产生的每个类，为每个类产生一个类标签。一个合理的类标签应该以下两个要求：第一，完整性。即该标签能够覆盖该类内的所有实体，覆盖率（定义：也称COVERAGE，定义为类内实体在该分类下的比率）。第二，有效性。即该标签不能太过一般，过于一般的标签没有信息量（也称INFORMATIVE，定义为该标签是否足够的特殊），用分类标签c的权值idf(c)刻画，即权值越大，信息量越大。

常用类标签产生方法

常用的两种方法是最频繁特征方法和加权频繁特征方法。最频繁特征方法选择一个最频繁的分类标签作为类的标签；加权频繁特征方法考虑特征频率的同时也考虑特征的权重，以此将分类标签的信息量考虑进去，权重应该满足一般的分类权重较小，特殊的分类标签权重较大。以上两种方法都存在缺点，最频繁的标签可能太过一般，而没有信息量；加权频繁标签可能过于特殊，而只能描述类内的少部分实体。

基于LCA的类标签产生方法

LCA（定义：也称Least Common Ancestor，最小公共祖先。表示为树上几个节点可达的最近节点）标签方法：为了解决上述两种基本方法的缺点，我们使用基于LCA的方法来选择类标签。首先，对一个分类下的所有实体，构造一个分类图G（定义：G表示以百科实体作为节点，以实体之间的链接作为边构造的有向图）。G是有向无环图，类中的实体在图中只有出边没有入边，实体的分类标签既可以有出边也可以有入边。然后，在构造的分类图上找到所有实体节点的最小公共分类标签（最小公共祖先节点）。

但是，对于一个类内的实体可能不存在描述所有实体的分类标签，而且找到的LCA可能太过一般而缺少信息量。因此，我们放松LCA的条件，提出，（定义：表示描述标签覆盖率的约束条件），只要求标签覆盖类内比率的实体。这样找出来的标签就具有一定的信息量而不会过于一般。但是假如约束后，一个类可能产生多个标签，我们需要从中选择信息量最大的标签，即问题定义为寻找一个类的（定义：表示一个既满足是一个类中比率实体的公共祖先，又满足是这些公共祖先中信息量最大的一个）。

如何寻找。给定一个类标签图G，为了高效的找到信息量最大且满足约束的LCA，使用逐层扫描的方法来实现。即先考虑实体的第一层分类，判断每个分类的覆盖率，如果存在某些分类覆盖率大于，则从中选择一个信息量最大的分类标签。如果没有找到满足要求的标签，则遍历第二层分类，判断每个分类的覆盖率，如果某些分类覆盖率大于，则从中选择最大信息量的标签作为类标签，否则迭代查询上层分类。逐层扫描方法的有效性是由分类标签权重单调性决定的，如果在本层找到满足条件的LCA，就不需要继续查找其上一层分类，因为上层分类的信息量不大于本层。

在逐层判断标签的同时，设定查找的层次L（定义：表示为有向图G上的最大搜索层次），如果层次过高，找到的标签可能过于一般而缺少信息量。因此，我们可以给定层次限制L=10，即找到10层如果不存在满足条件的，则降低，从而可以保证一定可以找到满足条件的类标签。

三、基于类复用的高效聚类算法

为了提高知识抽取效率，我们使用类复用方法，即已经产生的类可以被其相关的实体进行复用，这样就减少了直接聚类实体的规模，从而提高效率。类复用的依据是实体之间存在一些相同的链接实体。

一种简单的类复用算法是存储所有的聚类结果，然后每当有新的聚类实体时，先遍历已经处理的聚类实体，从中选择一个与之相同链接实体最大的类进行复用。但是这种聚类方法需要花费O(E)（定义：E表示G中边的数量，O（E）表示E级别的空间复杂度）的空间存储代价和O(N*N)（定义：N表示G中节点数量，O（N*N）表示N*N级别的空间复杂度）的时间查找代价。

这种简单的类复用方法时间花费较大，而且往往一个实体只和很少一些实体存在相同链接实体，没有必要存储全部的类。

基于最大生成树的类复用策略

我们使用一种基于最大生成树模型的方法进行类复用。首先我们将所有实体按照链接关系构造有向图G(V, E, w)（定义：表示有向带权图G）。V表示图上的节点，表示所有实体；E表示图上的边，表示实体之间的链接关系。w表示边的权重，具体表示为下式。其中u和v表示两个实体，：表示在百科页面中u存在一个链接到v，N(u)(或(N(v))表示：实体u(或v)的链接实体集合：

通过观察统计百科实体的链接实体发现，实体和其直接链接实体具有的相同链接实体比率较大。因此，考虑从链接实体出发构造一个最大的类复用序列。这是经典的哈密顿问题，即从一个图上得到一个序列能够遍历所有的节点并且使的经过路径的权值之和最大，是NP难问题。我们通过构造最大生成树代替复用序列实现类的复用，而且得到的最大生成树权重之和大于哈密顿路径的权值之和。

按照最大生成树进行高效聚类

本发明使用Prim方法从图中得到最大生成树，示意图见图3。类复用顺序按照生成树上的路径进行，即在最大生成树中父亲节点的聚类结果可以被孩子节点复用。如上图中a、b、c、d表示实体，有向边表示实体之间的链接关系，边上的数字表示边的权重。实体b的聚类结果可以被实体a，c，d复用，d的聚类结果可以被实体e，f复用。

本发明的有益效果在于：其不同于传统的知识抽取方法，其知识抽取基于在线百科的链接实体，而不是正文内容，这样极大的避免了自然语言处理方法的计算代价高、错误率高等缺点，从而可以高效地处理大规模数据。

附图说明

图1. 表示本发明的方法流程图。

图2. 表示证据融合中，（排序的权重）在不同的（链接实体在两个排序中的位置比）和下的分布图。

图3. 表示Prim方法生成最大生成树的模型。

图4. 表示针对“Steve Jobs”和“Apple Inc.”的链接实体，不同语义相似性度量方法的性能比较结果。

图5. 表示对实体“Steve Jobs”和“Apple Inc.”的链接实体使用类复用方法与直接聚类方法节省的时间。

具体实施方式

下面结合附图和实施例对本发明进一步阐述。

图1为本发明的方法流程图。

图2为证据融合中，排序的权在不同的链接实体在两个排序中的位置比和下的分布图，显然在图中，如果实体在两个排序中间位置，那么这两个排序权重相当接近于0.5。

本发明对比了PMI，WJC和证据融合方法的效果，如图4。图4表示针对“Steve Jobs”和“Apple Inc.”的链接实体使用不同语义相似性度量方法的性能比较。不同语义相关性排序方法，越接近人工标注结果就越好。图中证据融合方法相比PMI和WJC更接近人工标注结果。

本发明对不同标签生成方法比较。表1所示为实体“Apple Inc.”的聚类结果和不同标签生成方法比较。第一列表示编号，第二列表示一个类里面的实体，第三、四、五列表示三种已有的类标签生成方法，第六列表示本发明使用基于LCA的标签生成方法。明显，基于LCA的标签生成方法具有较好的信息量和覆盖性。

表1为实体“Apple Inc.”的聚类结果和不同标签生成方法比较

本发明中，将聚类结果复用与直接聚类方法进行了对比，如图5所示为对实体“Steve Jobs”和“Apple Inc.”的链接实体使用类复用方法与直接聚类方法节省的时间。横坐标表示链接实体的Overlap（即两个实体共有的链接实体）比率，纵坐标表示使用类复用方法节省的时间率。柱状图上红线表示该Overlap区间内最大和最小的时间节省率。显然，Overlap比率越大使用类复用方法节省的时间越多。

下面以维基百科中实体“Shanghai”为例，进一步描述本发明。

不相关链接实体的识别与去除

首先，针对维基百科中“Shanghai”的百科页面，收集所有的链接实体，比如“ Fudan University”、“Shanghai University”、“The Bund”、“ Lujiazui”、“ Taxis”、“ Chinese Economy Reform”、“ Century Park”、“Jing’an Park” 等。其中“ Taxis”、“ Chinese Economy Reform” 和“Shanghai” 的相关度很弱，应该作为噪音实体被去除。因此，先使用PMI和WJC方法对所有链接实体进行排序，然后使用证据融合方法得到综合指标。可以知道“ Taxis ” 和“ Chinese Economy Reform” 将被当做噪声实体去除。

相关链接实体的聚类与类标签生成

通过步骤1可以去除语义不相关的实体，对于剩下语义相关性的实体，使用聚类-类标签生成方法得到知识。

（1）相关链接实体聚类

使用Gmeans方法对剩下的链接实体进行聚类，“ Fudan University ”、“ Shanghai University” 可以被聚类到一起；“ The Bund” 和“ Lujiazui” 可以聚到一起，“ Century Park” 和“ Jing’an Park” 可以聚到一起。因此，对相关的链接实体可以得到三个类。

（2）类标签生成

为每个类产生一个描述性标签，使用基于LCA的类标签生成方法进行分类标签生成。那么对于三个类分别得到:“ University and Colleges in Shanghai” 对于类[“ Fudan University”、“Shanghai University”]；“ Attractions in Shanghai”对于类[“ The Bund”、“Lujiazui”]；“ Parks and Gardens in Shanghai”对于[“ Century Park”、 “Jing’an Park”]。

因此，每个类中的对应的类标签组成一组知识，如第二个类可以得到如下知识：“ Shanghai”-“Attractions in Shanghai”-[“The Bund”、“Lujiazui”]。

基于类复用的高效聚类算法

为了提高聚类效率，复用聚类结果。按照前述方法得到的最小生成树中进行类复用。如果在生成树中实体“ Shanghai” “ Pudong”，表示实体“上海”存在到“浦东新区”的一条链接。那么“Shanghai”的聚类结果就可以被“ Pudong”复用。那么对于“ The Bund”、“ Lujiazui”就可以直接复用而不需要重新聚类。以此减少实际聚类的时间花费。

Claims

1.一种基于在线百科链接实体的知识抽取方法，其特征在于，具体步骤如下：

（1）不相关链接实体的识别与去除

结合加权Jaccard系数WJC和点互信息PMI这两种简单的语义相关性度量方法，提出基于位置的证据融合的排序方法，得到证据融合的综合指标，设定噪音阈值，识别相关链接实体和不相关链接实体，将低于阈值的链接实体看作不相关链接实体并移除；

（2）相关链接实体的聚类与类标签生成

使用Gmeans聚类方法通过设定的置信度选择聚类截止条件对相关链接实体进行聚类的同时，使用Kmeans++方法选择初始聚类点，然后通过基于最小公共祖先LCA的类标签产生方法得到类的标签，以此产生的每个类的类标签组合构成一组知识，类标签描述知识的属性，类中的实体对应该属性下的属性值；

（3）基于类复用的聚类

使用基于最大生成树的类复用方法对步骤（2）中得到的不同类通过类的复用进行优化，实现高效聚类，再循环进行步骤（2）的操作；

其中：

步骤（1）中，基于位置的证据融合的排序方法，具体如下：

首先针对实体e在PMI中的排序位置，实体e在WJC中的排序位置，计算用于表示实体e在两种排序中的位置差异性，公式如下：

其中表示实体e的链接实体总数；

然后计算实体e在两种指标的权重分配参数，

其中为幅度调节参数；

最后计算证据融合的综合指标，公式如下：

其中=；

步骤（2）中聚类时，使用在线百科页面实体的分类标签作为特征，特征c的权重idf(c)表示为下式：

其中N表示全部实体数量，表示属于分类c的实体的数量；

实体之间的距离用下式表示：

其中、分别表示实体a或b的特征值组成的向量，向量的每一维是该特征的权值；、分别表示向量或的模；

步骤（2）中，所述基于LCA的类标签产生方法如下：

首先，对一个分类下的所有实体，构造一个以百科实体作为节点，以实体之间的链接作为边的有向分类图；然后，在构造的分类图上使用逐层扫描的方法找到满足分类覆盖率大于比率实体数量、且信息量最大的最小公共祖先LCA；在逐层扫描的同时，设定最大查找的层次L，如果查找层次大于L，就停止向更高层次查找，改为减小然后查找；其中：表示描述标签覆盖率的约束条件，所述逐层扫描的方法具体如下：先考虑实体的第一层分类，判断每个分类的覆盖率，如果存在某些分类覆盖率大于，则从中选择一个信息量最大的分类标签；如果没有找到满足要求的标签，则遍历第二层分类，判断每个分类的覆盖率，如果某些分类覆盖率大于，则从中选择最大信息量的标签作为类标签，否则迭代查询上层分类；

步骤（3）中所述的基于最大生成树的类复用方法如下：

首先将所有实体按照链接关系构造有向图G(V, E, w)，V表示图上的节点，表示所有实体；E表示图上的边，表示实体之间的链接关系，w表示边的权重；对G中的两个实体u和v，表示在百科页面中u存在一个链接到v；这条链接在G上表示为一条边，、分别表示实体u、v的链接实体集合；则边的权重w表示为：

再使用Prim方法得到最大生成树；即在最大生成树中父亲节点的聚类结果被孩子节点复用；使用广度优先搜索遍历方法进行类复用。