CN108959258B

CN108959258B - 一种基于表示学习的特定领域集成实体链接方法

Info

Publication number: CN108959258B
Application number: CN201810717561.1A
Authority: CN
Inventors: 余正涛; 蒋胜臣; 郭剑毅; 线岩团; 王红斌
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2021-06-18
Anticipated expiration: 2038-07-02
Also published as: CN108959258A

Abstract

本发明涉及一种基于表示学习的特定领域集成实体链接方法，属于自然语言处理和深度学习技术领域。本发明包括步骤：首先利用旅游领域的百科语料对词向量模型进行训练；利用旅游领域的百科语料构建领域知识库；利用TransE模型得到候选实体向量；对实体指称项进行词扩展和语义排序；对语义排序后的实体指称项分别计算候选实体与其本身和扩展的指称项的相似度，根据此相似度得到目标实体链接；对实体指称项进行动态实体链接。本发明提高了实体链接的正确率，本发明取得了较好的效果。

Description

一种基于表示学习的特定领域集成实体链接方法

技术领域

本发明涉及一种基于表示学习的特定领域集成实体链接方法，属于自然语言处理和深度学习技术领域。

背景技术

实体链接是自然语言处理领域的重要任务之一，该任务通过对文本中多义词的义项加以明确，旨在让实体指称项正确链接到知识库中无歧义的候选实体，为人类和计算机更好理解自然语言信息提供帮助，实体链接的任务针对通用文本，如新闻、网页等，使用的语料库由多个领域的文本构成，然而在实际的应用中，经常需要对某一特定领域的文本进行实体链接，这不仅对领域知识的挖掘具有重要的意义，而且有助于领域知识库的构建、专业文献自动翻译等任务。

发明内容

本发明提供了一种基于表示学习的特定领域集成实体链接方法，以用于解决现有集成实体链接方法实体链接准确率不高，不能将文本信息和现有知识库信息很好结合的问题。

本发明的技术方案是：一种基于表示学习的特定领域集成实体链接方法，所述方法的具体步骤如下：

Step1、首先利用旅游领域的百科语料对词向量模型进行训练；

所述步骤Step1的具体步骤为：

Step1.1、从维基百科的中文离线数据库，提取旅游分类下的页面信息，并提取页面的摘要信息，保存在文本中；

Step1.2、人工编写爬虫程序，从旅游网站和百科词条上爬取旅游领域文本信息，与维基的文本进行结合；

本发明考虑到由于不同的网页结构，爬虫程序中爬取的位置和标签也不同，且没有现成的程序，因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同旅游网页题材的语料。如百度百科词条，旅游网页信息等。

Step1.3、对Step1.1、Step1.2步骤获得的语料进行预处理，采用开源的工具包汉语词法分析系统ICTCLAS完成，包括分词、词性标注、去停用词和命名实体识别过程；

本发明考虑到爬取到的旅游文本中存在一些重复网页、网页标签、无效字符等噪音，这些噪音是无效的。因此，要通过过滤、去噪音等操作去除，得到只含有旅游领域的高质量的文本级语料；

Step1.4、选择开源工具包word2vec，采用Skip-gram模型对预处理后的语料进行词向量模型训练；

本发明中词向量模型的训练过程，是领域实体消歧的前提与基础，是不可缺少的一步，同时由于中文主要由字符组成，相比英文而言，字符间的语义关系表达比较复杂，因此中文文本表示成词向量时，必须先进行分词处理。使用分词工具进行分词之后，需要人工校对；

所述步骤Step1.3的具体步骤为：

Step1.3.1、对爬取的网页文本信息进行有效的过滤，去无效字符和网页；

Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作；

Step1.3.3、使用汉语词法分析系统ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。

Step2、利用旅游领域的百科语料构建领域知识库。

所述步骤Step2的具体步骤为：

Step2.1、人工编写爬虫程序，从维基百科爬取旅游领域资源，保存在文本中；

Step2.2、对Step2.1爬取的文本识别其中的领域实体和实体上下位关系，然后采用批量导入的方式导入到图数据库Neo4j，构建领域知识库；

领域知识库是实体链接任务的支撑，通用领域有现成的知识库，对于特定领域，没有现成可用的知识库，通过半手工构建特定领域知识库，包括领域实体或概念、领域实体层级关系，去除掉重复、无效的信息后，最终以(实体，关系，实体)三元组的形式批量导入图数据库Neo4j中进行管理。

所述步骤Step2.1的具体步骤为：

Step2.1.1、深入分析领域属性及行业属性，人工定义领域知识体系，收集领域相关概念种子集合；

Step2.1.2、利用网络百科的资源获取领域实体或概念、领域实体层级关系。

Step3、利用TransE模型得到候选实体向量；

Step3.1、利用TransE模型对领域知识库中的三元组进行训练，得到所有实体的向量形式；

Step3.2、对待链接的目标文本进行命名实体识别，得到实体指称项；

Step3.3、通过实体指称项在构建的领域知识库中搜索，得到相应的候选实体集合；

在构建特定领域知识库时，对知识库中同名实体采用加后缀标签的方式进行区分，且后缀标签用小括号与实体隔离。例如：香格里拉。在本地知识库中有三个相应实体，分别加上后缀标签地名、酒店、电影，并用小括号进行隔离。如：香格里拉(酒店)；

Step3.4、根据得到的候选实体集合，利用训练好的实体向量形式，从中选出候选实体的向量形式，最终得到候选实体的向量表达形式；

Step4、对实体指称项进行词扩展和语义排序；

Step4.1、利用Step1训练好的词向量模型得到实体指称项的向量形式；

Step4.2、通过计算实体指称项向量间的距离对实体指称项进行语义排序，距离之和最小的，语义重要性越高；

语义排序是根据实体指称项在目标文本中的重要程度进行排序，是为了实体链接任务从语义最重要的实体指称项开始进行链接；词扩展是为了最大程度的利用共现实体，体现集成实体链接的优点。

Step4.3、通过计算实体指称项与其它实体指称项的距离对实体指称项进行词扩展；

Step5、对语义排序后的实体指称项分别计算候选实体与其本身和扩展的指称项的相似度，根据此相似度得到目标实体链接；

Step5.1、对Step4得到实体指称项的语义排序，按照语义从高到低分别计算指称项与候选实体的相似度；

Step5.2、对Step4得到的扩展词，分别计算指称项的扩展词与候选实体的相似度；

Step5.3、将Step5.1和Step5.2得到的相似度相加，得到最后的相似度，将相似度最高的候选实体作为目标实体链接；

Step6、对实体指称项进行动态实体链接。

所述步骤Step3.3的具体步骤为：

Step3.3.1、针对每个实体指称项m_i，在构建的领域知识库中寻找与之同名实体作为它的候选实体集合N_i＝{n_i1,n_i2,,,}；

Step3.3.2、如果领域知识库中没有同名实体，则把相应的实体指称项归为空实体。

所述步骤Step4.2的具体步骤为：

Step4.2.1、通过Step4.1得到的实体指称项的向量表示形式，利用实体指称项的向量表示，计算实体指称项m_i与m_j的距离，公式表示为：

其中n为向量维度；_xik为实体指称项m_i向量表示的第k维；x_jk为实体指称项m_j向量表示的第k维；

Step4.2.2、通过Step4.2.1得到的实体指称项之间的距离，计算每个实体与其它实体的距离之和，公式表示为：

其中m为指称项个数；d_ij为实体指称项m_i与m_j的距离；

Step4.2.3、根据计算得到的d_i从大到小排序，拥有最小的距离和的指称项就处于共现实体的中心，则认为它具有最重要的语义相关性，从而得到文本实体指称项的语义相关性。

本发明的语义排序是为了实体链接可以从文本中语义最重要的指称项开始，一方面语义重要的指称项更容易消歧，另一方面有助于我们构建动态实体链接系统，语义重要的指称项实体链接后利用它的无歧义实体进行后续的实体链接。

所述步骤Step4.3的具体步骤为：

Step4.3.1、通过Step4.1得到的实体指称项的向量表示形式，利用实体指称项的向量表示，计算实体指称项与其它实体指称项的距离；

Step4.3.2、选取距离实体指称项m_i最近的K个实体指称项作为它的扩展，通过实验，K＝2效果最好。

本发明的词扩展是为了更好地利用共现实体间的语义相关关系，发挥集成实体链接的最大优势。例如：乔丹，候选实体有：乔丹(篮球运动员)、乔丹(大学教授)，当我们计算指称项与候选实体的相似度时，也许差别不大，乔丹的扩展词为实体指称项“公牛”，我们再计算“公牛”与候选实体“乔丹(篮球运动员)”、“乔丹(大学教授)”的相似度，结合词扩展计算相似度可以最大程度区分与各个候选实体的差别。

所述步骤Step5.1的具体步骤为：

Step5.1.1、对于某待消歧的实体指称项G，其背景文本经过预处理后，用Step1 训练好的词向量模型进行向量的表示，其向量表示为

Step5.1.2、对于候选实体，通过Step3.3在领域知识库中获取，经过TransE模型向量表示后为

Step5.1.3、实体指称项G和候选实体G_候选之间的相似度通过计算

和

之间的相似度来计算，相似度计算公式：

其中

为实体指称项的向量表示；

为候选实体的向量表示。

所述步骤Step5.2的具体步骤为：

Step5.2.1、通过Step4.3得到实体指称项G的扩展词G_扩展，用Step1训练好的词向量模型进行向量的表示，其向量表示为

Step5.2.2、对于候选实体，通过在领域知识库中获取，经过TransE模型向量表示后为

Step5.2.3、实体指称项的扩展词G_扩展和候选实体G_候选之间的相似度通过计算

和

之间的相似度来计算；相似度计算公式：

其中

为候选实体G_候选的向量表示；

为实体指称项扩展词G_扩展的向量表示。

所述步骤Step6的具体步骤为：

Step6.1、对实体指称项按照Step5计算相似度对候选实体进行链接，使实体指称项与其词扩展链接后的无歧义实体代替待链接的实体指称项和其词扩展参与相似度计算；

Step6.2、利用实体指称项与其词扩展链接后的无歧义实体之间的相似度和关系检测链接是否正确，然后再动态调整实体链接；

所述步骤Step6.2的具体步骤为：

Step6.2.1、根据Step5链接后的实体指称项和其扩展词的无歧义实体，计算实体指称项与其词扩展链接后的无歧义实体的相似度：

其中

为实体指称项链接后的无歧义实体的向量表示；

为实体指称项的扩展词链接后的无歧义实体的向量表示；

Step6.2.2、根据Step5链接后的实体指称项和其扩展词的无歧义实体，计算实体指称项与其词扩展链接后的无歧义实体的关系指数；如果链接后的实体指称项和其扩展词的无歧义实体之间根据构建的领域知识库有直接关系则它们之间的关系指数加1；如果没有直接关系，则它们之间的关系指数为0；

Step6.2.3、将链接后的实体指称项和其扩展词的无歧义实体的相似度和关系指数相加，两者之和如果小于阈值，则判断链接错误，重新让相似度第二高的候选实体作为无歧义目标实体，继续判断其与扩展词的无歧义实体的相似度和关系指数之和是否小于阈值，依次迭代，最终选择符合相似度和关系指数之和大于阈值的候选实体作为链接目标；其中设定阈值为0.54。

本发明对实体指称项进行动态实体链接，目前的实体链接都是无重复计算每个实体指称项与其候选实体的相似度，选择一个相似度最高的候选实体进行连接，并没有进一步考虑这个已经连接的目标候实体是对还是错，本文中对实体指称项进行动态实体链接，这样不仅可以利用前面链接过的信息，也可以对前面的链接进行纠错。

本发明的有益效果是：

1、本发明与现有的实体链接方法相比较，提高了实体链接的正确率，本发明取得了较好的效果；

2、本发明的一种基于表示学习的特定领域集成实体链接方法，与现有的实体链接方法相比较，本文在基于表示学习的基础上融合了语义排序和词扩展，能更好的对领域实体进行链接。

3、本发明的一种基于表示学习的特定领域集成实体链接方法，对领域实体进行了链接，为后续工作的实体融合和知识图谱构建等工作提供强有力的支撑。

附图说明

图1为本发明中的总的流程图。

具体实施方式

实施例1：如图1所示，一种基于表示学习的特定领域集成实体链接方法，所述方法的具体步骤如下：

所述步骤Step1的具体步骤为：

所述步骤Step1.3的具体步骤为：

Step2、利用旅游领域的百科语料构建领域知识库。

所述步骤Step2的具体步骤为：

所述步骤Step2.1的具体步骤为：

Step3、利用TransE模型得到候选实体向量；

Step4、对实体指称项进行词扩展和语义排序；

Step6、对实体指称项进行动态实体链接。

进一步的，所述步骤Step3.3的具体步骤为：

进一步的，所述步骤Step4.2的具体步骤为：

其中m为指称项个数；d_ij为实体指称项m_i与m_j的距离；

进一步的，所述步骤Step4.3的具体步骤为：

进一步的，所述步骤Step5.1的具体步骤为：

和

之间的相似度来计算，相似度计算公式：

其中

为实体指称项的向量表示；

为候选实体的向量表示。

进一步的，所述步骤Step5.2的具体步骤为：

和

之间的相似度来计算；相似度计算公式：

其中

为候选实体G_候选的向量表示；

为实体指称项扩展词G_扩展的向量表示。

进一步的，所述步骤Step6的具体步骤为：

所述步骤Step6.2的具体步骤为：

其中

为实体指称项链接后的无歧义实体的向量表示；

为实体指称项的扩展词链接后的无歧义实体的向量表示；

为了验证本发明实体链接的效果，将采用统一的评价标准：正确率(Precision)衡量本发明的性能。

本发明为了验证该发明的有效性、可行性设计以下几组实验进行验证：

实验一：不同相似度特征组合的实验对比。以验证在实际实体链接任务中，词向量表示、语义排序、词扩展、动态实体链接系统对实体相似度计算的贡献程度不同，对实体链接的结果也有不同影响。本实验通过依次加入不同特征进行对比实验，结果如表1所示：

表1

实验结果分析：通过以上实验数据，词扩展对实体链接的作用比语义排序更大，增加的动态连接系统相比于传统的实体链接有明显效果。

实验二：对于词扩展，选取了n个词作为实体指称项的词扩展，以验证词的数量n对结果的影响。本实验就扩展词个数n的确定做了5组实验，分布测试n在取 1,2,3,4时对实体链接准确率的影响，结果如表2所示；

表2

词扩展个数	准确率
		1	0.52
2	0.74
		3	0.61
4	0.65

实验结果分析：通过选取不同的词扩展个数确定了最佳的词扩展个数，实验结果表明，词扩展个数为2时效果最好。

实验三：为了验证本文提出方法的可行性，将本文的方法与其他几种主流实体链接方法进行比较；

表3本文方法与其他方法的比较

方法名	准确率(％)
		Wikify	70.2
Cucerzan	75.3
		SVM[15]	82.5
本文的方法	82.6

实验结果分析：通过与主流方法的比较，本文提出的方法在准确率上达到了较高水平，证明了本方法在对特定领域实体链接任务的可行性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于表示学习的特定领域集成实体链接方法，其特征在于：所述方法的具体步骤如下：

Step2、利用旅游领域的百科语料构建领域知识库；

Step3、利用TransE模型得到候选实体向量；

Step3.4、根据得到的候选实体集合，利用训练好的实体的向量形式，从中选出候选实体的向量形式，最终得到候选实体的向量表达形式；

Step4、对实体指称项进行词扩展和语义排序；

Step4.2、通过计算实体指称项向量间的距离对实体指称项进行语义排序，距离之和越小，语义重要性越高；

Step5、对语义排序后的实体指称项分别计算候选实体与其本身的相似度以及候选实体与扩展的指称项的相似度，根据此相似度得到目标实体链接；

Step5.2、分别计算扩展的指称项与候选实体的相似度；

Step6、对实体指称项进行动态实体链接。

2.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.3、对Step1.1、Step1.2步骤获得的语料进行预处理，采用开源的工具包汉语词法分析系统ICTCLAS完成，包括分词、词性标注、去停用词和命名实体识别的过程；

所述步骤Step1.3的具体步骤为：

3.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法，其特征在于：所述步骤Step2的具体步骤为：

所述步骤Step2.1的具体步骤为：

4.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法，其特征在于：所述步骤Step3.3的具体步骤为：

Step3.3.1、针对每个实体指称项m_i，在构建的领域知识库中寻找与之同名实体作为它的候选实体集合N_i＝{n_i1,n_i2...}；

5.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法，其特征在于：所述步骤Step4.2的具体步骤为：

其中n为向量维度；x_ik为实体指称项m_i向量表示的第k维；x_jk为实体指称项m_j向量表示的第k维；

其中m为指称项个数；d_ij为实体指称项m_i与m_j的距离；

Step4.2.3、根据计算得到的d_i从大到小排序，拥有最小的距离之和的指称项就处于共现实体的中心，则认为它具有最重要的语义相关性，从而得到文本实体指称项的语义相关性。

6.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法，其特征在于：所述步骤Step4.3的具体步骤为：

7.根据权利要求1所述的基于表示学习的特定领域集成实体链接方法，其特征在于：所述步骤Step5.1的具体步骤为：

Step5.1.1、对于某待消歧的实体指称项G，其背景文本经过预处理后，用Step1训练好的词向量模型进行向量的表示，其向量表示为

和

之间的相似度来计算，相似度计算公式：

其中

为实体指称项的向量表示；

为候选实体的向量表示。

8.根据权利要求1所述的一种基于表示学习的特定领域集成实体链接方法，其特征在于：所述步骤Step5.2的具体步骤为：

和

之间的相似度来计算；相似度计算公式：

其中

为候选实体G_候选的向量表示；

为实体指称项扩展词G_扩展的向量表示。

9.根据权利要求1所述的一种基于表示学习的特定领域集成实体链接方法，其特征在于：所述步骤Step6的具体步骤为：

所述步骤Step6.2的具体步骤为：

其中

为实体指称项链接后的无歧义实体的向量表示；

为实体指称项的扩展词链接后的无歧义实体的向量表示；