CN108021682A

CN108021682A - 开放式信息抽取背景下一种基于维基百科的实体语义化方法

Info

Publication number: CN108021682A
Application number: CN201711309920.1A
Authority: CN
Inventors: 杜友田; 卢秋颢; 王雪; 李雪莲
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2018-05-11

Abstract

针对开放式信息抽取结果缺乏清晰语义的特性，本发明提出了一种基于维基百科的实体语义化方法。该方法将知识三元组中的字符串参数映射到外部知识库维基百科中的真实世界实体上，从而实现实体语义化。该研究思路优点有二：开放式信息抽取中具备相似谓语的知识三元组往往具备相似的域约束概率分布，以此特征融合多信息源特征，使方法具备很好的鲁棒性；以基于语义传播的相似性度量代替直接计算相似度，挖掘了维基百科实体之间深层次的关联。

Description

开放式信息抽取背景下一种基于维基百科的实体语义化方法

技术领域

本发明属于计算机应用技术领域，涉及数据挖掘、自然语言处理、机器学习，特别涉及开放式信息抽取背景下一种基于维基百科的实体语义化方法。

背景技术

近几年来，信息抽取(Information Extraction,IE)的研究取得了很大进展。典型的信息抽取系统需要预先指定抽取目标，并为每个目标学习相应的抽取器。当目标数量非常巨大或者目标不能提前规定时，典型的方法将失效。因此，典型的信息抽取系统很难从大规模非结构化的网页中发现事实。与之相反，开放式信息抽取(Open IE)系统如Reverb和OLLIE学习词汇无关抽取器来提取事实。这些系统利用语言固有的特征，自然地避免了特定的名词和动词。因此，开放式信息抽取方法通常与领域无关，其系统也不像典型的信息抽取系统那样受到固定模式的约束。

开放式信息抽取系统抽取的数据对于了解文档，发现网络上的新事实和帮助搜索引擎开发问答功能十分重要。这些提取的事实可以被视为被处理文本中最重要的信息或知识。然而，由于开放式信息抽取缺乏一个预定义的本体或抽取目标，其提取的事实不可避免地是模糊的，因此机器难以解释和直接利用。开放式信息抽取系统提取知识三元组的原则是它认为该事实有一些具体的含义，但它并不真正明白这个含义究竟是什么。例如，三元组(Michael Jordan,is an,American scientist)的主语可能是指多个名为“MichaelJordan”的实体，我们需要做的就是将字符串参数映射到正确的维基百科实体“Michael I.Jordan(scientist)”而不是其他实体。

该映射任务有时也被称为实体链接或命名实体消歧。基本上，任务是将文档中的实体名称映射到知识库(例如维基百科)的相应实体。在过去十年里，实体链接任务已有相当丰富的研究进展。Bunescu和Pasca训练了一个消歧SVM内核，并以有监督的方式完成了映射任务。Cucerzan则选择语境上下文极大相似，同时实体类别标签极大相似的实体。

不同于典型的实体链接，本发明尝试将开放式信息抽取得到的三元组中的字符串参数映射到知识库中的实体，实现语义化。开放式信息抽取系统从网页提取(arg1，predicate，arg2)三元组。arg1和arg2是文本字符串，分别指主语和宾语。谓语是指定arg1和arg2之间的具体关系的短语。典型实体链接和面向开放式信息抽取的实体链接的主要区别在于，开放式信息抽取系统从网页中提取数以百万计的知识三元组，从而提供了可在映射任务中利用的大量有用的统计信息。相关研究例如，Meilicke等人使用链接到维基百科实体的页面数来衡量其显著程度，并在所有候选中选择显著性最高的实体。这种方法比较简单，但却得到了鲁棒性很强的结果。Lin等人分别计算每个候选的字符串匹配级别，显著程度得分和上下文匹配程度得分，并将三者的乘积作为每个候选实体的最终得分。他们还引入两个统计特征以提高精度。最近，Dutta等人不仅将开放式知识三元组的主语和宾语映射到相应的实体，而且尝试将关系短语映射到知识库中定义的实体属性上。他们希望通过这样的做法完全语义化知识三元组，从而扩展了目标知识库。

开放式信息抽取能够从大规模非结构化文本中快速准确地抽取知识三元组，但因其缺乏清晰的语义，使得机器难以解释和直接利用。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供开放式信息抽取背景下一种基于维基百科的实体语义化方法，将开放式信息抽取得到的三元组中的字符串参数映射到相应的维基百科实体，从而赋予其相应的语义。

为了实现上述目的，本发明采用的技术方案是：

开放式信息抽取背景下一种基于维基百科的实体语义化方法，将开放式信息抽取得到的三元组中的字符串参数映射到相应的维基百科实体，从而赋予其相应的语义，其特征在于：

设E＝{(s₁,p₁,o₁),…,(s_n,p_n,o_n)}为开放式信息抽取系统抽取的知识三元组集，S＝{s₁,…,s_n}为待语义化的字符串参数集，n表示三元组个数，集合中的元素s_i为待语义化的字符串参数，在不涉及下标时简写为s，表示知识三元组的主语，p_i,o_i为谓语和宾语，在不涉及下标时简写为p,o，T＝{t₁,…,t_m}为维基百科实体集，其中元素t_i为维基百科实体，在不涉及下标时简写为t，则该映射的问题从数学上转化成以下最优化问题：

其中，T^*(s)表示字符串参数s最可能映射的维基百科实体，得分函数φ(s,t)表示三元组e∈E中字符串参数s∈S被正确映射到维基百科实体t∈T的可能性，求解该问题，即得映射结果。

本发明通过如下步骤求解所述最优化问题：

步骤1)，生成候选实体集并计算先验映射概率：引入基于内容的相关性(ROC)和基于主题的相关性(ROT)两类特征，分别根据两类相关性，计算获得基于内容相关的候选实体集C_C(s)和基于主题相关的候选实体集C_T(s)，求其并集C(s)＝C_C(s)∪C_T(s)作为候选实体集合，对每一个候选实体，综合考虑三种信息源的特征，计算先验映射概率P_pri(s,t)，包括显著程度、标题相似度以及语义类别标签的一致性程度；

步骤2)，基于图的语境相似度证据计算：以待语义化的字符串参数s，以及其所有的候选实体t∈C(s)作为节点，构造带权重的无向近邻图，通过计算两种类型节点的语境文本之间的余弦距离作为节点之间的距离，分别用dist_w(t_i,t_j)和dist(s,t_i)表示，利用高斯核函数将距离转变为相似性度量作为边权重，分别用w_w(t_i,t_j)和w(s,t_i)表示，同时得到相似矩阵W_p，在该无向近邻图上进行语义传播至收敛状态，得到最终的基于图的相似性度量GraphSim(s,t)；

步骤3)，候选实体排序：通过贝叶斯理论将所述先验映射概率和基于图的语境相似度证据结合在一起，计算出每个候选实体的后验映射概率，以此排序得到最终映射实体。

所述步骤1)中，采用基于内容的维基搜索引擎获取相关实体，其集合为C_C(s)；通过遍历实体网页，获取引用和被引用实体作为主题相关实体，记作C_T(s)；利用维基百科实体的被引用实体数量表征显著程度，记作inlinks(t)；利用字符串参数和候选实体标题的编辑距离表征标题相似度，记作dist_e；利用谓语相似的三元组的域约束概率分布来表征语义类别的一致性程度，记作P_tsub(e.pred,t.type)，其中，nr(s_i.type)表示字符串参数s_i的语义类别数量，E(e.pred)表示谓语为e.pred的三元组集合；所述先验映射概率P_pri(s,t)的计算公式如下：

其中，inlinks(t)表示引用链接的数量，即利用维基百科实体的被引用次数表征显著程度，dist_e(s,t.title)表示字符串参数和实体标题的编辑距离，α和β是平衡参数。

所述步骤2)中，字符串参数s和候选实体t_i之间的距离为候选实体之间的距离为s.D表示字符串参数的语境文本内容，t.D_wt_i.D_w表示维基百科实体t_i的对面页面文本内容。

本发明利用高斯核函数将距离dist_w(t_i,t_j)转变为相似性度量作为边权重，用w_w(t_i,t_j)表示，且w_w(t_i,t_i)＝0；将距离dist(s,t_i)转变为相似性度量作为边权重，用w(s,t_i)表示，将待语义化的字符串参数视作唯一的信息源，在构建出的近邻图上进行语义信息传播，传播的公式如下：

F(k+1)＝α_pS_pF(k)+(1-α_p)Y

其中，α_p是(0,1)之间的参数，Y表示初始标签，即Y＝[100…]^T，代表字符串参数是唯一的语义信息源，S_p根据计算，其中D_p是对角矩阵，值分别为W_p矩阵中每行元素之和，W_p的元素值是w_w(t_i,t_j)和dist(s,t_i)的计算结果，传播达到收敛时的结果即GraphSim(s,t)。

所述步骤3)通过改写T^*(s)呈现，即：

其中，GraphSim(s,t)表示基于图的语境相似性度量，P_pri(s,t)表示先验映射概率，同时，对每个映射结果，计算相应的置信度，用conf(s,T^*(s))表示，公式如下：

其中，T^2nd(s)是具有第二大后验映射概率的候选实体。

不同于以往的研究，本发明提出了一种新的方法将开放式信息抽取得到的三元组中的字符串参数映射到相应的维基百科实体，从而实现语义化。该研究思路优点有二：开放式信息抽取中具备相似谓语的知识三元组往往具备相似的域约束概率分布，以此特征融合多信息源特征，使该方法具备很好的鲁棒性；以基于语义传播的相似性度量代替独立计算相似度，更真实地刻画了实体之间深层次的关联。

具体实施方式

下面结合实施例详细说明本发明的实施方式。

开放式信息抽取背景下一种基于维基百科的实体语义化方法，设E＝{(s₁,p₁,o₁),…,(s_n,p_n,o_n)}为开放式信息抽取系统抽取的知识三元组集，S＝{s₁,…,s_n}为待语义化的字符串参数集，n表示三元组个数，集合中的元素s_i为待语义化的字符串参数，在不涉及下标时也可简写为s，表示知识三元组的主语，p_i,o_i为谓语和宾语，在不涉及下标时也可简写为p,o，T＝{t₁,…,t_m}为维基百科实体集，其中元素t_i为维基百科实体，在不涉及下标时也可简写为t，则该映射的问题从数学上转化成以下最优化问题：

其求解过程如下：

步骤1：生成候选实体集并计算先验映射概率

为了生成候选实体集，则需快速准确地找到和字符串参数最相关的维基百科实体。本发明认为维基百科至少提供了两类相关性，即基于内容的相关性(ROC)以及基于主题的相关性(ROT)。基于内容的相关性主要体现在文本内容上，即文本内容相似的实体往往具备较高的相关性。对此本发明采用基于内容的维基搜索引擎获取相关实体，其集合为C_C(s)。基于主题的相关性主要体现在维基百科实体的相关引用上，即有引用链接的实体往往具备相关的主题。对此本发明通过遍历实体网页，获取引用和被引用实体作为主题相关实体，记作C_T(s)。两类相关实体集的并集就是最终的候选实体集，即C(s)＝C_C(s)∪C_T(s)。

对每一个候选实体，综合考虑三种信息源的特征计算先验映射概率P_pri(s,t)，包括显著程度、标题相似度以及语义类别标签的一致性程度。本发明利用维基百科实体的被引用实体数量表征显著程度，记作inlinks(t)；利用字符串参数和候选实体标题的编辑距离表征标题相似度，记作dist_e。特别地，本发明认为在开放式信息抽取中，谓语相似的三元组往往具有类似的域约束概率分布，因此利用此概率分布来表征语义类别的一致性程度，公式如下：

其中，nr(s_i.type)表示字符串参数s_i的语义类别数量。E(e.pred)表示谓语为e.pred的三元组集合。最后，结合以上三种特征，计算先验映射概率：

其中，inlinks(t)表示进入链接的数量，dist_e(s,t.title)表示字符串参数和实体标题的编辑距离。α和β是平衡前两项的参数。

步骤2：基于图的语境相似度证据计算

以待语义化字符串参数s，以及其所有的候选实体t∈C(s)作为节点，构造带权重的无向近邻图。设s.D表示字符串参数的语境文本内容，t.D_w表示维基百科实体的文本内容。节点之间距离的计算如下：

其中，因为字符串参数s和候选实体t_i∈T是不同类型的节点，所以采用不同的公式计算距离。得到距离后，利用高斯核函数将其转换成相似性度量，作为权重。计算公式如下：

特别地，w_w(t_i,t_i)＝0。

本发明将待语义化的字符串参数视作唯一的信息源，在构建出的近邻图上进行语义信息传播。传播的公式如下：

F(k+1)＝α_pS_pF(k)+(1-α_p)Y (9)

其中，α_p是(0,1)之间的参数，Y表示初始标签，即Y＝[100…]^T，代表字符串参数是唯一的语义信息源。S_p根据计算，其中D_p是对角矩阵，值分别为W_p矩阵中每行元素之和。W_p是相关矩阵，其元素值是(7)(8)的计算结果。在每次的迭代过程中，每个节点在接受邻接节点的语义信息的同时，也保持了自身初始的语义信息。通过这种方式，字符串参数的语义信息被合理地传播到其他节点上。传播达到收敛时的结果可以被视作一种基于图的语境相似性度量，该相似度既包含了基于内容的相似性(ROC)，又包含了基于主题的相似性(ROT)，因此能更准确地刻画节点之间深层次的相似性。

步骤3：候选实体排序

在步骤1计算出的先验映射概率和步骤2计算出的基于图的语境相似度证据的基础上，本发明采用贝叶斯理论将两者结合，将先验映射概率转换为后验映射概率，将优化问题转换成最大后验概率(MAP)的计算问题，如式(2)：

其中，GraphSim(s,t)表示基于图的语境相似性度量，P_pri(s,t)表示先验映射概率。同时，对每个映射结果，计算相应的置信度，用conf(s,T^*(s))表示，公式如下：

其中，T^2nd(s)是具有第二大后验映射概率的候选实体。

Claims

1.开放式信息抽取背景下一种基于维基百科的实体语义化方法，将开放式信息抽取得到的三元组中的字符串参数映射到相应的维基百科实体，从而赋予其相应的语义，其特征在于：

<mrow> <msup> <mi>T</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>argmax</mi> <mi>&phi;</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>T</mi> </mrow> </munder> <mo>;</mo> <mi>s</mi> <mo>&Element;</mo> <mi>S</mi> </mrow>

2.根据权利要求1所述开放式信息抽取背景下基于维基百科的实体语义化方法，其特征在于，通过如下步骤求解所述最优化问题：

3.根据权利要求2所述开放式信息抽取背景下基于维基百科的实体语义化方法，其特征在于，所述步骤1)中，采用基于内容的维基搜索引擎获取相关实体，其集合为C_C(s)；通过遍历实体网页，获取引用和被引用实体作为主题相关实体，记作C_T(s)；利用维基百科实体的被引用实体数量表征显著程度，记作inlinks(t)；利用字符串参数和候选实体标题的编辑距离表征标题相似度，记作dist_e；利用谓语相似的三元组的域约束概率分布来表征语义类别的一致性程度，记作P_tsub(e.pred,t.type)，其中，nr(s_i.type)表示字符串参数s_i的语义类别数量，E(e.pred)表示谓语为e.pred的三元组集合；所述先验映射概率P_pri(s,t)的计算公式如下：

<mrow> <msub> <mi>P</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>&alpha;</mi> <mi>l</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>i</mi> <mi>n</mi> <mi>l</mi> <mi>i</mi> <mi>n</mi> <mi>k</mi> <mi>s</mi> <mo>(</mo> <mi>t</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mi>&beta;e</mi> <mrow> <msub> <mi>dist</mi> <mi>e</mi> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>.</mo> <mi>t</mi> <mi>i</mi> <mi>t</mi> <mi>l</mi> <mi>e</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>+</mo> <mrow> <mo>(</mo> <mi>I</mi> <mo>-</mo> <mi>&alpha;</mi> <mo>-</mo> <mi>&beta;</mi> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mi>I</mi> <mo>+</mo> <msub> <mi>P</mi> <mrow> <mi>t</mi> <mi>s</mi> <mi>u</mi> <mi>b</mi> </mrow> </msub> <mo>(</mo> <mrow> <mi>e</mi> <mo>.</mo> <mi>p</mi> <mi>r</mi> <mi>e</mi> <mi>d</mi> <mo>,</mo> <mi>t</mi> <mo>.</mo> <mi>t</mi> <mi>y</mi> <mi>p</mi> <mi>e</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow>

4.根据权利要求2或3所述开放式信息抽取背景下基于维基百科的实体语义化方法，其特征在于，所述步骤2)中，字符串参数s和候选实体t_i之间的距离为候选实体之间的距离为s.D表示字符串参数的语境文本内容，t.D_wt_i.D_w表示维基百科实体t_i的对面页面文本内容。

5.根据权利要求4所述开放式信息抽取背景下基于维基百科的实体语义化方法，其特征在于，利用高斯核函数将距离dist_w(t_i,t_j)转变为相似性度量作为边权重，用w_w(t_i,t_j)表示，且w_w(t_i,t_i)＝0；将距离dist(s,t_i)转变为相似性度量作为边权重，用w(s,t_i)表示，将待语义化的字符串参数视作唯一的信息源，在构建出的近邻图上进行语义信息传播，传播的公式如下：

F(k+1)＝α_pS_pF(k)+(1-α_p)Y

其中，α_p是(0,1)之间的参数，Y表示初始标签，即Y＝[1 0 0 …]^T，代表字符串参数是唯一的语义信息源，S_p根据计算，其中D_p是对角矩阵，值分别为W_p矩阵中每行元素之和，W_p的元素值是w_w(t_i,t_j)和dist(s,t_i)的计算结果，传播达到收敛时的结果即GraphSim(s,t)。

6.根据权利要求2所述开放式信息抽取背景下基于维基百科的实体语义化方法，其特征在于，所述步骤3)通过改写T^*(s)呈现，即：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <mi>T</mi> <mo>*</mo> </msup> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mrow> <mi>argmax</mi> <mi>&phi;</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>T</mi> </mrow> </munder> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munder> <mi>argmax</mi> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>T</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>|</mo> <mi>s</mi> <mo>.</mo> <mi>e</mi> <mi>v</mi> <mi>i</mi> <mi>d</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munder> <mi>argmax</mi> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>T</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>e</mi> <mi>v</mi> <mi>i</mi> <mi>d</mi> <mo>|</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <munder> <mi>argmax</mi> <mrow> <mi>t</mi> <mo>&Element;</mo> <mi>T</mi> </mrow> </munder> <mi>G</mi> <mi>r</mi> <mi>a</mi> <mi>p</mi> <mi>h</mi> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <msub> <mi>P</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中，T^2nd(s)是具有第二大后验映射概率的候选实体。