CN107861939A

CN107861939A - 一种融合词向量和主题模型的领域实体消歧方法

Info

Publication number: CN107861939A
Application number: CN201710913216.0A
Authority: CN
Inventors: 郭剑毅; 马晓军; 余正涛; 陈玮; 张志坤
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2018-03-30
Anticipated expiration: 2037-09-30
Also published as: CN107861939B

Abstract

本发明涉及一种融合词向量和主题模型的领域实体消歧方法，属于自然语言处理和深度学习技术领域。本发明获取待消歧实体的候选实体集合，再获取待消歧实体和候选实体的向量形式，结合上下位关系领域知识库获取待消歧实体的类别指称，进行上下文相似度和类别指称相似度计算，再利用LDA主题模型和Skip‑gram词向量模型对不同主题分类下的文档进行词向量训练，获取多义词不同含义的词向量表示，用K‑Means算法抽取文本的主题领域关键词，进行领域主题关键词相似度计算，最后对三类特征相似度进行融合，把相似度最高的候选实体作为最终的目标实体。本发明优于传统消歧方法，可以很好的满足实际应用的需求。

Description

一种融合词向量和主题模型的领域实体消歧方法

技术领域

本发明涉及一种融合词向量和主题模型的领域实体消歧方法，属于自然语言处理和深度学习技术领域。

背景技术

实体消歧是自然语言处理领域的重要任务之一，该任务通过对文本中多义词的义项加以明确，旨在消除语义歧义，为人类和计算机更好理解自然语言信息提供帮助，实体消歧的任务万网针对通用文本，如新闻、网页等，使用的语料库由多个领域的文本构成，然而在实际的应用中，经常需要对某一特定领域的文本进行消歧，这不仅对领域知识的挖掘具有重要的意义，而且有助于领域知识库的构专业文献自动翻译等任务。

发明内容

本发明提供了一种融合词向量和主题模型的领域实体消歧方法，以用于解决现有的实体消歧方法使用Skip-gram词向量计算模型在处理多义词时只能计算出一个混合了多种语义的词向量，没能对多义词不同含义进行区分的问题。

本发明的技术方案是：一种融合词向量和主题模型的领域实体消歧方法，所述方法的具体步骤如下：

Step1、首先利用Word2vec对旅游领域的百科语料进行词向量模型训练；

所述步骤Step1的具体步骤为：

Step1.1、从维基百科的中文离线数据库，提取旅游分类下的页面信息，并提取页面的摘要信息，保存在文本中；

Step1.2、人工编写爬虫程序，从旅游网站和百科词条上爬取旅游领域文本信息，与维基的文本进行结合；

本发明考虑到由于不同的网页结构，爬虫程序中爬取的位置和标签也不同，且没有现成的程序，因此针对爬取不同任务要进行编写程序。要尽可能全面地选取不同旅游网页题材的语料。如百度百科词条，旅游网页信息等。

Step1.3、对Step1.2步骤获得的语料进行预处理，采用开源的工具包中科院汉语词法分析系统ICTCLAS完成，包括分词、词性标注、去停用词和命名实体识别过程；

本发明考虑到爬取到的旅游文本中存在一些重复网页、网页标签、无效字符等噪音，这些噪音是无效的。因此，要通过过滤、去噪音等操作去除，得到只含有旅游领域的高质量的文本级语料。

Step1.4、选择Google的开源工具包word2vec，采用Skip-gram模型对预处理后的语料进行词向量模型训练。

本发明中词向量模型的训练过程，是领域实体消歧的前提与基础，是不可缺少的一步，同时由于中文主要由字符组成，相比英文而言，字符间的语义关系表达比较复杂，因此中文文本表示成词向量时，必须先进行分词处理。使用分词工具进行分词之后，需要人工校对。

Step2、从维基百科知识库中获取待消歧实体的候选实体集合；

所述步骤Step2的具体步骤为：

Step2.1、下载维基百科2014年12月的中文离线数据库，并提取其中旅游分类下的页面信息；

Step2.2、从实体页面、重定向页面、消歧页面、超链接中获取待消歧实体的候选实体。

本发明过程中候选实体的获取，主要目的是获取高质量的候选实体集合。

Step3、结合词向量模型和LDA主题模型，充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行领域实体消歧；

所述步骤Step3的具体步骤如下：

Step3.1、获取待消歧实体所在文本和候选实体所在文本的上下文环境，利用词向量模型训练上下文环境得到上下文特征，然后进行上下文特征相似度的计算；

Step3.2、利用K-means聚类算法获取待消歧实体所在文本的高频词，利用上下位关系领域知识库获取高频词在知识库中所属的类别指称特征，即上位词，与候选实体所属的类别名称进行上下位关系类别指称特征相似度的计算。

Step3.3、利用LDA主题模型对训练语料进行上下文主题建模，再进行分类，在不同主题下对多义词进行语义标注，利用词向量模型进行训练获取多义词的不同词向量，利用K-means聚类算法获取不同主题下的关键词特征，然后与候选实体进行主题关键词特征相似度的计算；

Step3.4、充分利用上下文特征相似度、上下位关系类别指称特征相似度和领域主题关键词特征相似度进行特征相似度的融合，然后进行领域实体消歧。

所述步骤Step1.3的具体步骤为：

Step1.3.1、对爬取的网页文本信息进行有效的过滤，去无效字符和网页；

Step1.3.2、对得到的有效网页进行去重、去垃圾信息预处理操作；

Step1.3.3、使用中科院汉语词法分析系统ICTCLAS对旅游文本进行分词、词性标注、去停用词和命名实体识别的过程。

所述步骤Step3.1的具体步骤为：

Step3.1.1、对于某待消歧的实体G，其背景文本经过预处理后，用训练好的词向量模型进行向量的表示，其向量表示为

Step3.1.2、对于候选实体，通过在知识库中获取实体的摘要，经过向量表示后为

Step3.1.3、待消歧实体G和候选实体G_候选之间的相似度通过计算和之间的相似度来计算，相似度计算公式：

本发明中上下文相似度的计算，是实体消歧任务的基础，目的是从全局文档出发，考虑两个不同文本之间的相似度，从而获取待消歧实体与候选实体之间的相似度。

所述步骤Step3.2的具体步骤为：

Step3.2.1、对于待消歧实体所在的背景文档，对其预处理后，包括分词、去停用词，获取所有预处理后的名词类的词语将其转化为单独的词向量；

Step3.2.2、使用K-Means算法对名词类词语的词向量进行聚类操作，使用余弦相似度计算公式计算两个词之间的距离，分别计算每个词到距离中心之间的距离，选择离聚类中心最近的4个词作为该类的高频词；

从上下位关系领域知识库中分别查找这些高频词所属的上位词，将上位词作为该类的类别指称。

Step3.2.3、从上下位关系领域知识库中分别查找这些高频词所属的上位词，将上位词作为该类的类别指称；

Step3.2.4、从百科的词条标签中获取每个候选实体的类别指称，然后计算x个候选实体与背景文档的y个类的相似度R_i(x)，并且每个候选实体只保留一个最大相似度-与各类相似度值比较后最大的相似度值，相似度计算公式sim₂(G,G_候选)＝max{R_i(x)}。

本发明中上下位关系类别相似度的计算，是实体消歧任务的基础，目的也是从全局文档出发，考虑两个不同文本之间所属类别指称的相似度，从而获取待消歧实体与候选实体之间的相似度。

所述步骤Step3.3的具体步骤为：

Step3.3.1、预处理：通过中科院汉语词法分析系统ICTCLAS对旅游领域背景文档内容进行分词，去除停用词、对上下文按句分割；

Step3.3.2、主题建模：使用LDA主题模型对每个文档的上下文集合进行主题建模；参数推理采用MCMC方法中的Gibbs抽样算法，看成是文本生成的逆过程，即在已知文本集的情况下，通过参数估计得到参数值，根据概率图模型，得到一段上下文的概率；

Step3.3.3、上下文分类与主题分析：获取待消歧实体所在主题下前4个文本主题词，利用TextRank抽取待消歧实体所在文本的关键词，然后利用词向量模型将关键词表示为向量的形式，计算主题词与关键词的相似度大小，从而对待测上下文进行分类，确定上下文对应的主题词；

Step3.3.4、词义标注：根据多义词所处的上下文主题及其分类，对多义词进行语义标注，将该词语与主题词对看做为一个新词放回词袋，用w′＝＜w,t＞表示多义词与主题对，将w′最为新词取代w放入原词袋模型；

Step3.3.5、多义词词向量训练：把＜w_i，t_i＞看做新词进行训练就得到多义词的多个含义的词向量；

Step3.3.6、然后对词向量进行K-Means聚类操作，在聚类过程中使用余弦相似度计算公式计算两个词之间的距离，分别计算每个词到距离中心之间的距离，选择离聚类中心最近的m个词作为关键词；

Step3.3.7、获取了不同主题下的关键词集合，每个不同聚类簇下的关键词都是以词向量的形式表示的，聚类簇的个数为主题的个数，设同一主题下的抽取的关键词集合为S,m表示抽取的关键词的数量，对于关键词集合S中的关键词k，其向量的形式为w_k(k＝1,2,...,m)，候选实体G_候选的摘要文本向量形式为n_i,则下述公式表示候选实体含义向量与主题关键词之间的相似性，相似度计算公式为：

本发明中基于主题关键词相似度的计算，是实体消歧任务的关键，目的是从局部文档出发，获取多义词的不同向量表示，从而提高消歧的准确率。

所述步骤Step3.4的具体步骤为：

Step3.4.1、对步骤Step3.1、Step3.2、Step3.1获得的特征进行相似度融合，融合公式为

sim(G,G候选)＝αsim1(G,G候选)+βsim2(G,G候选)+χsim3(G,G候选)

Step3.4.2、对于三种相似度权重的选择，采用基于经验和权值归一的方法，获得权重比值，且满足α+β+χ＝1，α，β，χ表示三项相似度权重值。

所述步骤Step3.4.2中，最终使用的三项相似度权重值α，β，χ分别为0.23,0.25,0.52。

本发明中相似度的融合，是实体消歧的关键，是不可缺少的一步，只有获取合适的权值，才能获取获取高准确率的待消歧实体。

本发明的有益效果是：

1、本发明的一种融合词向量和主题模型的领域实体消歧方法，与现有的实体消歧方法相比较，提高了实体消歧的正确率，本发明取得了较好的效果；

2、本发明的一种融合词向量和主题模型的领域实体消歧方法，与现有的实体消歧方法相比较，本文将多义词表示成多个词向量的形式，通过三种相似度特征的融合，更好的对领域实体进行消歧。

3、本发明的一种融合词向量和主题模型的领域实体消歧方法，对领域实体进行了有效的消歧，为后续工作的实体链接、实体融合和知识图谱构建等工作提供强有力的支撑。

附图说明

图1为本发明中的总的流程图；

图2为本发明中的部分领域知识库语义层次结构图；

图3为本发明上位词个数对消歧结果的影响的示意图；

图4为本发明关键词个数对消歧结果的影响的示意图。

具体实施方式

实施例1：如图1-4所示，一种融合词向量和主题模型的领域实体消歧方法，所述方法的具体步骤如下：

所述步骤Step1的具体步骤为：

所述步骤Step2的具体步骤为：

所述步骤Step3的具体步骤如下：

Step3.2、利用K-means聚类算法获取待消歧实体所在文本的高频词，图2为本发明中的部分领域知识库语义层次结构图，包含10000个领域实体的旅游领域知识库，利用上下位关系领域知识库获取高频词在知识库中所属的类别指称特征，即上位词，与候选实体所属的类别名称进行上下位关系类别指称特征相似度的计算。

所述步骤Step1.3的具体步骤为：

所述步骤Step3.1的具体步骤为：

所述步骤Step3.2的具体步骤为：

Step3.2.3、从上下位关系领域知识库中分别查找这些高频词所属的上位词，将上位词作为该类的类别指称；，如表1所示，待消歧实体“香格里拉”经过步骤Step3.2.2、Step3.2.3可以得到实体“香格里拉”的上位词类别信息。

表1实体指称K-Means聚类及上位词类别

所述步骤Step3.3的具体步骤为：

所述步骤Step3.4的具体步骤为：

sim(G,G候选)＝αsim1(G,G候选)+βsim2(G,G候选)+χsim3(G,G候选)

为了验证本发明识别出来的命名实体的效果，将采用统一的评价标准：正确率(Precision)衡量本发明的性能。

本发明为了验证该发明的的有效性、可行性设计以下几组实验进行验证：

实验一、在实际的环境中，上下文相似度特征(A)、上下位实体类别指称相似度特征(B)、基于领域主题关键词相似度(C)特征对于实体消歧结果的影响可能不同，对实体相似度贡献也不同，本实验通过选取不同的特征组合进行对比实验，表2所示为不同特征组合对实验结果的影响。

表2不同特征组合实验结果统计

特征组合	P(％)
		A	80.2
A+B	83.6
		A+B+C	89.7

根据实验结果发现，仅仅利用上下文相似度特征和上下位实体类别相似度特征进行消歧，其准确率明显低于结合基于领域关键词相似度特征，原因是上下文相似度特征和上下位实体类别相似度特征是基于文档的全局上下文信息出发，对于相似度的计算考虑的是背景文档的上下文与候选义项的上下文是否具有整体相似性，而基于主题关键词的相似度特征从文档的局部上下文信息考虑，其充分考虑了多义词的不同含义在同一文档出现的可能性，因此准确率有了很大的提高。

实验二、本实验就上位词个数m的确定做了4组实验，分布测试m在取1,2,3,4,5时对消歧准确率的影响，实验结果如图3所示。

根据图3的实验结果发现，针对本文提出的基于上下位关系的类别指称相似度计算，其在选择指称项所在文档各个类的类别名称的情况下，选取每个类下高频词的上位词作为文档各个类的类别名称，为了验证类别名称的数量对于消歧结果的影响，实验分别选取类别名称数量为1、2、3、4、5组数据进行实验，从结果发现，当上位词个数选择3个的时候，其实体消歧准确率最高达到87.3％，而随着数量的增加，其准确率不断下降，这是因为上下位关系是一种层级的关系，越往上其上位词代表的类别信息覆盖范围更广，区分度将会越小，有时还会引入了噪音，降低了消歧的准确率。

实验三、本实验就主题关键词个数n的确定做了6组实验，分布测试n在取3、5、7、9、11、13时对消歧准确率的影响，实验结果如图4所示。

根据图4的实验结果发现，针对本文中基于主题关键词相似度计算的关键词选取个数n定为9时准确率达到最大值88.9％。考虑到领域知识库其实并不完备，并非所有的实体指称项在知识库中都有相应的目标实体，同时，关键词并不是越多越好，越多的关键词将会使一些领域关联性很小、没有区分度的词引入到相似度计算中，势必会影响消歧的准确率。

实验四、为了验证本文提出方法的可行性将本文的方法与其他几种实体消歧方法进行比较，实验结果如表3所示。

表3本文方法与其他方法的比较

方法名	准确率(％)
		Wikify	70.2
Cucerzan	75.3
		SVM[15]	82.5
Score[20]	88.4
		本文的方法	89.6

从表中可知，本文提出的方法在准确率上与其他方法相比有了很大的提高，证明了本方法在对特定领域实体消歧任务的可行性。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种融合词向量和主题模型的领域实体消歧方法，其特征在于：

所述方法的具体步骤为：

Step1、首先利用旅游领域的百科语料进行词向量模型训练；

所述步骤Step3的具体步骤如下：

2.根据权利要求1所述的融合词向量和主题模型的领域实体消歧方法，其特征在于：所述步骤Step1的具体步骤为：

3.根据权利要求1所述的融合词向量和主题模型的领域实体消歧方法，其特征在于：所述步骤Step2的具体步骤为：

Step2.1、下载维基百科的中文离线数据库，并提取其中旅游分类下的页面信息；

4.根据权利要求2所述的融合词向量和主题模型的领域实体消歧方法，其特征在于：所述步骤Step1.3的具体步骤为：

5.根据权利要求1所述的融合词向量和主题模型的领域实体消歧方法，其特征在于：所述步骤Step3.1的具体步骤为：

6.根据权利要求5所述的融合词向量和主题模型的领域实体消歧方法，其特征在于：所述步骤Step3.2的具体步骤为：

7.根据权利要求6所述的融合词向量和主题模型的领域实体消歧方法，其特征在于：所述步骤Step3.3的具体步骤为：

8.根据权利要求7所述的融合词向量和主题模型的领域实体消歧方法，其特征在于：所述步骤Step3.4的具体步骤为：

sim(G,G_候选)＝αsim₁(G,G_候选)+βsim₂(G,G_候选)+χsim₃(G,G_候选)

9.根据权利要求8所述的融合词向量和主题模型的领域实体消歧方法，其特征在于：所述步骤Step3.4.2中，最终使用的三项相似度权重值α，β，χ分别为0.23,0.25,0.52。