CN113157861B

CN113157861B - 一种融合Wikipedia的实体对齐方法

Info

Publication number: CN113157861B
Application number: CN202110386571.3A
Authority: CN
Inventors: 陈其宾; 朱翔宇; 李锐; 王建华
Original assignee: Shandong Inspur Scientific Research Institute Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-05-24
Anticipated expiration: 2041-04-12
Also published as: CN113157861A

Abstract

本发明提供一种融合Wikipedia的实体对齐方法，属于实体对齐、Wikipedia、自然语言处理技术领域，本发明包括：1)首先构建Wikipedia每个实体的统计量，并使用ElasticSearch存储；2)针对用户聊天内容，利用分词和Ngram构建问句的候选实体集；3)检索出候选Wikipedia实体集；4)计算评价候选实体s和Wikipedia实体E匹配指标；5)最后，利用规则和阈值确认最终对齐结果。为闲聊机器人提供丰富的知识，进而改善用户体验效果。

Description

一种融合Wikipedia的实体对齐方法

技术领域

本发明涉及实体对齐、Wikipedia、自然语言处理技术领域，尤其涉及一种融合Wikipedia数据的实体对齐方法。

背景技术

如今，基于智能问答的闲聊机器人应用越来越普遍，具备较好的应用前景。但是，目前的闲聊机器人往往仅支持部分领域的知识问答，知识覆盖率较低，降低了用户的体验度。

Wikipedia作为大型百科知识库，可以为闲聊机器人提供丰富的知识，但一个难点就是如何检测用户的问句中提到实体(本文中，实体指Wikipedia中实体)，并和Wikipedia中实体进行对齐。目前常用的方法是利用ElasticSearch进行检索，找到Wikipedia中最相关的片段，并直接以答案的方式返回给用户，实质上是一种检索方法。如果用这种方式获取相关百科页面对应的实体，实体对齐的精准率较低，因为与问句相关的是百科页面的部分内容，而该部分内容不能指代该百科页面对应的实体。另外一种方法是直接和Wikidata的实体进行对齐，这种方式不能有效利用Wikipedia页面内容，存在召回率不高的问题。

发明内容

基于以上问题，本发明提供了一种融合Wikipedia数据的实体对齐方法，可以有效解决Wikipedia数据对齐的问题。

本发明的技术方案是：

一种融合Wikipedia数据的实体对齐方法，步骤如下：

首先构建Wikipedia每个实体的统计量，并使用ElasticSearch存储。

针对用户聊天内容，利用分词和Ngram构建问句的候选实体集。

使用ElasticSearch检索出维基页面中包含至少一个候选实体的 Wikipedia实体，作为候选Wikipedia实体集。

计算评价候选实体s和Wikipedia实体E匹配指标，包括基于统计量的匹配得分、Wikipedia实体E所在的Wikidata类别和用户意图的匹配度，以及候选实体s是否是其他候选实体的一部分。

最后，利用规则和阈值确认最终对齐结果。

进一步的，

实体的统计量包括页面每月点击量以及链接分布P(a|E)。

再进一步的，

P(a|E)指所有链接到实体E的链接页面的概率分布，

其中A(E)是链接到实体E的链接页面的集合，将每个实体以及它对应的维基页面、每月点击量、链接分布、Wikidata类别存放到ElasticSearch。

进一步的，

构建问句的候选实体集，对问句进行分词，并采用Ngram(n<＝3)的方式构建所有候选实体，并采取规则去除部分实体，如停用词等。

再进一步的，

检索候选实体可能对应的Wikipedia实体，使用ElasticSearch检索出维基页面中包含至少一个候选实体的Wikipedia实体。

再进一步的，

计算候选实体s和Wikipedia实体E匹配得分score(s,E)，首先计算候选实体s指代Wikipedia实体E的概率P(E|s)，利用贝叶斯规则，可知

P(E|s)＝P(E)*P(S|E)

设P(E)与实体E月点击量成正比，用V(E)表示实体E月点击量，而P(s|E) 指候选实体s链接到实体E的概率，得到：

score(s，E)＝V(E)*P(s|E)

作为评判候选实体s指代Wikipedia实体E的重要指标；计算其他评判指标，包括Wikipedia实体E所在的Wikidata类别和用户意图的匹配度，以及候选实体s是否是其他候选实体的一部分，优先选择长的候选实体。

本发明的有益效果是

目前的闲聊机器人知识覆盖率较低，降低了用户的体验度，通过和Wikipedia 数据融合，可以为闲聊机器人提供丰富的知识，进而改善用户体验效果。

附图说明

图1是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种融合Wikipedia数据的实体对齐方法，

实施步骤包括：

构建Wikipedia每个实体的统计量，包括页面每月点击量以及链接分布 P(a|E)；

构建问句的候选实体集；

检索候选实体可能对应的Wikipedia实体；

计算候选实体s和Wikipedia实体E匹配得分score(s,E)；计算其他评判指标，包括Wikipedia实体E所在的Wikidata类别和用户意图的匹配度，以及候选实体s是否是其他候选实体的一部分；

利用规则和阈值确认最终对齐结果。

具体步骤如下：

1、构建Wikipedia每个实体的统计量，包括页面每月点击量以及链接分布 P(a|E)。

2、构建问句的候选实体集，对问句进行分词，并采用n-gram(n<＝3)的方式构建所有候选实体，并采取规则去除部分实体，如停用词等。

3、检索候选实体可能对应的Wikipedia实体，使用ElasticSearch检索出维基页面中包含至少一个候选实体的Wikipedia实体。

4、计算候选实体s和Wikipedia实体E匹配得分score(s,E)，根据候选实体s链接到实体E的概率P(s|E)以及实体E月点击量V(E)计算，P(s|E)和V(E) 由步骤1获得。

5、计算其他评判指标，包括Wikipedia实体E所在的Wikidata类别和用户意图的匹配度，以及候选实体s是否是其他候选实体的一部分。

6、利用规则和阈值确认最终对齐结果，通过规则整合步骤4和5的指标，并根据经验确定候选实体s确实指向Wikipedia实体E的阈值，基于规则和阈值去推理最终对齐结果。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种融合Wikipedia的实体对齐方法，其特征在于，

包括：

1）首先构建Wikipedia每个实体的统计量，并使用ElasticSearch存储；

2）针对用户聊天内容，利用分词和Ngram构建问句的候选实体集；

3）使用ElasticSearch检索出维基页面中包含至少一个候选实体的Wikipedia实体，作为候选Wikipedia实体集；

4）计算评价候选实体s和候选Wikipedia实体E匹配指标；

5）最后，利用规则和阈值确认最终对齐结果；

实体的统计量包括页面每月点击量以及链接分布P(a|E)；

P(a|E)指所有链接到实体E的链接页面的概率分布，

其中A(E)是链接到实体E的链接页面的集合，将每个实体以及它对应的维基页面、每月点击量、链接分布、Wikidata类别存放到ElasticSearch；

构建问句的候选实体集，对问句进行分词，并采用Ngram(n<=3)的方式构建所有候选实体，并采取规则去除部分实体；

候选实体s和Wikipedia实体E匹配指标包括基于统计量的匹配得分；

还包括Wikipedia实体E所在的Wikidata类别和用户意图的匹配度，以及候选实体s是否是其他候选实体的一部分；

计算候选实体s和Wikipedia实体E匹配得分score(s, E)，利用贝叶斯规则，可知

设P(E)与实体E月点击量成正比，用V(E)表示实体E月点击量，而P(s|E)指候选实体s链接到实体E的概率，得到：

作为评判候选实体s指向Wikipedia实体E的重要指标。

2.根据权利要求1所述的方法，其特征在于，

通过整合的指标，确定候选实体s确实指向Wikipedia实体E的阈值，基于规则和阈值去推理最终对齐结果。