CN112069826A

CN112069826A - 融合主题模型和卷积神经网络的垂直域实体消歧方法

Info

Publication number: CN112069826A
Application number: CN202010680196.9A
Authority: CN
Inventors: 王万良; 胡明志; 赵燕伟; 陈嘉诚; 尹晶; 王铁军
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2020-12-11
Anticipated expiration: 2040-07-15
Also published as: CN112069826B

Abstract

融合主题模型和卷积神经网络的垂直域实体消歧方法，包括：1、构建领域知识库；2、将预处理后的数据集进行词向量模型训练，并构建相应的词典；3、提取出待消歧实体名称，并从领域知识库中确定该实体对应的候选实体集，将实体上下文信息进行词向量化表示；4、将经人工标注的训练集语料利用词库构造代表实体主题的关键词字典作为输入，训练并保存主题模型；5、将经人工标注的数据集作为训练集和验证集进行训练，优化模型参数并保存CNN模型；6、根据步骤4和5中得到的主题特征相似度Sim1和语义特征相似度Sim2，利用权值归一化操作以最优方式融合两种特征相似度；7、取值最大的融合相似度对应的候选实体为最终消歧实体。

Description

融合主题模型和卷积神经网络的垂直域实体消歧方法

技术领域

本发明属于计算机数据处理技术领域，具体涉及一种垂直域实体消歧方法。

背景技术

互联网时代下，信息爆炸。面对海量资讯，前沿AI技术能将文本和海量实体信息关联起来，提升用户阅读流畅度、实现精准提升用户体验等。智能资讯处理，不仅给特定领域提供智能化服务，还能为其提供更多创新空间。

实体消歧是自然语言处理的核心，其本质在于句中单词可能有多个意思，需通过上下文和知识库相关知识确定它所表达的确切含义。特定领域下公司全称是确定性的，但在资讯、研报、问答等文本中，该公司实体一般以简称的形式出现，且同一个公司简称可能指向多个实体，如果能有效提取文本特征以消岐该实体含义，将会对公司未来产生极大利益。

国内外对于垂直域下实体消歧的方法大多是将通用领域实体消歧办法直接应用于垂直领域，未充分考虑垂直域的特殊性。首先，主流方法使用实体表面特征，流行度特征等，这些特征仅从文档的全局上下文信息对指称项和候选项进行相似度计算，忽略了文本局部明显的主题向信息，对于指称项的主题把握必然存在较大误差；其次，主流消岐模型底层多是基于词袋模型，无法考虑词法与语序的问题，难以体现上下文语义对于实体的影响和约束，导致这些模型都无法充分利用上下文有效提取语义特征。

发明内容

本发明要克服现有技术的上述缺点，提供一种融合主题模型和文本卷积神经网络的垂直域实体消岐实现方法。

为有效利用垂直域消岐实体上下文具有的主题向特征，以及有效理解句子语义信息对实体约束和影响，本发明通过将词向量建模，输入LDA主题模型和卷积神经网络模型中，分别提取主题特征和语义特征来进行实体消岐，以消除资讯中的实体多义问题，提纯文本信息。

本发明提供一种融合主题模型和文本卷积神经网络的垂直域实体消岐实现方法，包括以下具体步骤：

S1、根据特定领域收集经人工标注的数据集，对该数据集进行关键信息预处理，构建领域知识库，确定知识库中每一条数据对应的实体信息和实体序号，具体包括：

S1.1、利用Pandas库从人工标注数据集文件读取每条数据的关键信息；

S1.2、将提取的关键信息数据集进行预处理，利用jieba中文分词工具对每一句上下文进行词性标注分词，去停用词操作，保留对理解句子语义有用的关键词；

S1.3、将处理后上下文数据集与其他属性进行保存，构建该领域知识库，用作无歧义实体集。

S2、将预处理后的数据集进行词向量模型训练，以及相应的词典构建，具体包括：

S2.1、利用word2vec库提供的CBOW模型对步骤S1中预处理的数据集进行词向量模型训练；

S2.2、提取预处理后的数据集关键词，获得对应词向量，并建立词典以及实体类别词典。

S3、根据包含待消歧实体的上下文信息，提取出待消歧实体名称，并从领域知识库中确定该实体对应的候选实体集，将实体上下文信息进行词向量化表示，具体包括：

S3.1、利用jieba分词系统进行待消歧语句分词，提取出待消岐指称项；

S3.2、根据该指称项获得知识库中的候选实体序号以及上下文信息；

S3.3、将代表该候选实体的上下文数据集都利用词向量模型进行词向量表示，作为候选实体的词向量矩阵。

S4、将经人工标注的训练集语料利用词库构造代表实体主题的关键词字典作为输入，输入LDA主题模型进行训练，并保存模型，待有新的待消岐语句经处理后输入进模型则能方便得到主题特征相似度，具体包括：

S4.1、根据有标注的训练集，获取上下文中实体周围局部信息的关键词，形成待输入的数据集；

S4.2、根据已构造的词典，将待输入的数据集进行关键词字典构造，输入进LDA主题模型，进行主题模型建模，并将训练好的LDA主题模型进行保存；

S4.3、根据已保存的词向量模型和LDA主题模型，将预处理后的待消岐语句进行词向量化，和候选实体词向量一同输入进LDA主题模型，最终得到待消岐实体和候选实体的主题分布情况V_topic和V_topic＇；

S4.4、根据步骤S4.3得到的主题分布情况计算上下文主题相似度。

S5、为充分理解上下文语义对于实体的影响和约束，本发明将经人工标注的数据集作为训练集和验证集输入TextCNN模型进行训练，优化模型参数并保存模型，待有新的待消岐语句经处理后输入进模型则能方便得到语义特征相似度，具体包括：

S5.1、将经人工标注的数据集作为训练样本，经过预处理提取关键词后，利用word2vec模型向量化，输入神经网络模型中；

S5.2、对待消岐的上下文向量矩阵进行卷积操作；

S5.3、在得到卷积结果后，利用1-max-pooling进行池化操作，得到变性后的卷积核特征；

S5.4、将变性后的卷积核特征输入到全连接层，进行dropout，并对最终结果进行softmax函数处理，得到文本语义特征向量；

S5.5、该模型中训练样本损失函数采用reduce_mean函数；

S5.6、该模型激活函数采用ReLU函数；

S5.7、该模型中的参数采用了梯度裁剪进行更新；

S5.8、将训练好的CNN模型进行保存；

S5.9、将待消岐上下文经预处理后通过词向量模型向量化，与候选实体向量一同输入进已训练好的CNN模型中进行语义特征提取，并最终得到代表上下文的语义特征向量；

S5.10、得到的待消岐语句和知识库候选实体语句的语义特征向量后，利用余弦相似度计算待消岐实体和候选实体的语义特征相似度。

S6、根据步骤S4和S5中得到的主题特征相似度Sim₁和语义特征相似度Sim₂，利用权值归一化操作以最优方式融合两种特征相似度，具体包括：

S6.1、将处理得到的主题特征相似度和语义特征相似度利用权值归一化操作以最优比例融合两种相似度为一种。

S7、取值最大的融合相似度对应的候选实体为最终消岐实体，即得到该实体在句中所代表的意思。

本发明分别针对传统消歧方法应用于垂直域下所显现的特征难提取以及语义难理解的缺点进行改善。首先，利用短文本库训练词向量模型，将实体信息映射到高纬度空间，以包含更为巨大的文本信息量；其次，有效利用垂直域下实体局部信息具有鲜明主题特点，通过训练LDA主题模型，准确提取实体主题指向；再次，通过神经网络卷积运算，获得文本语义特征向量，高度理解上下文语义信息和实体的关系；最后，相较于主题特征与语义特征所包含的信息种类差别，通过经验和权值归一的方法调参以最优比例融合两种特征，以保证实体消歧准确率，并定义最终消岐结果。

与现有技术相比，本发明具有如下优点：

1、本发明提出的垂直域下融合模型的实体消歧方法，从全局和局部两个角度来进行实体消歧，有效结合了垂直域概念，进而提升了整个消歧方法的准确度。

2、本发明在提取实体上下文特征时，细分了多种特征进行提取，提高了对实体含义的挖掘效率，进一步丰富了实体特征，达到提升消歧准确率的效果。

3、本发明在知识库构造阶段，通过构造易读取、有关联的文本形式，以及文本词性筛选，有效提取文本关键词进行构造，优化了文本处理复杂度。

附图说明

图1为本发明的实施流程图；

图2为本发明的预处理过程实施流程图；

图3为本发明的卷积神经网络模型结构图；

图4为本发明组合不同的特征权重实验结果统计图。

具体实施方式

下面结合附图对本发明进一步详细说明。

为有效克服传统消歧方法的弊端，本发明采用多模型融合的方法，以期能有效提取文本特征并提升消歧结果准确率。目前，自然语言处理中词向量模型通过语料库的训练，将每个词映射到高纬度向量中，其所能包含的信息量较词袋模型更多。LDA主题模型通过对上下文局部信息的特征提取，获得的主题特征较全局有更为明确的主题指向，能有效进行领域消岐。近年应用日渐广泛的卷积神经网络模型在自然语言处理领域获得巨大成功，通过多层卷积运算能有效捕捉到上下文多个连续词之间的特征，配合词向量模型能有有效针对实体的上下文进行语义特征提取，以提高对文本的语义理解。

如附图1所示，本发明的融合LDA主题模型和CNN模型的面向垂直域实体消岐方法的具体步骤如下：

S1.1、利用Pandas库从人工标注数据集文件以字典形式读取每条数据的关键信息，根据每个实体ID，实体名称，以及实体上下文信息抽取数据；

S1.2、将提取的关键信息数据集进行预处理，利用jieba中文分词工具对每一句上下文进行词性标注分词，去停用词操作，删除无关句子理解的词性单词，保留对理解句子语义有用的关键词；

S1.3、将处理后上下文数据集与其他属性进行保存，以易操作格式(序号-名称-上下文)写入文本，并建立CSV格式文件来保存数据，构建该领域知识库，用作无歧义实体集，后续需要调用的候选实体从该保存文件中进行读取以用来和待消岐实体进行比较。

S2.1、将知识库中代表实体的上下文关键词作为输入数据，利用深度学习技术word2vec提供的CBOW模型进行词向量模型的训练，构造更高维度的词向量信息，训练词向量模型，并保存作为待消岐上下文的向量化处理依据；

S2.2、将训练集中根据词性筛选后的词作为最能代表该实体指向的关键词，，获得对应词向量，建立关键词词典，以及利用已标注的实体具体含义指向建立类别词典，并用TXT格式保存词典，为后续LDA主题模型的训练做准备。

S3.1、将待消岐语句利用jieba中文分词系统进行分词，去停用词，以及去标点符号操作，提取出待消岐指称项和代表句子意思的关键词词组；

S3.2、根据该指称项获得知识库中的候选实体序号以及上下文数据；

S4.1、根据有标注的训练集，获取上下文中实体周围局部信息的关键词，构造关键词字典{key:weight,key2:weight2...}；

S4.2、根据已构造的词典，将待输入的数据集进行关键词字典构造，输入进Gensim库中的LDA主题模型方法，进行主题建模，并将训练好的LDA主题模型进行保存；

S4.3、根据已保存的词向量模型和LDA主题模型，将预处理后的待消岐语句进行词向量化，和候选实体词向量一同输入进LDA主题模型，最终得到待消岐实体和候选实体的主题分布情况V_topic＝[(0，P1)，(1，P2)]和V_topic＇＝[(0，P1＇)，(1，P2＇)]；

S4.4、根据步骤S4.3得到的主题分布情况计算上下文主题相似度，计算公式如(1)所示：

其中V_i为待消歧实体的主题分布向量，V＇_i为候选实体的主题分布向量，V_m为待消歧实体主题分布向量的二范数结果，V＇_k为候选实体的主题分布向量的二范数结果。

S5.1、将经人工标注的数据集作为训练样本，经过预处理提取全局关键词context_e＝{word1，word2，word3，...}和contexts_e＝{word1＇，word2＇，word3＇，...}，利用word2vec模型向量化，分别得到该指称项的全局词向量矩阵[v1，v2，v3，...],[v1＇，v2＇，v3＇，...]输入神经网络模型中；

S5.2、对待消岐的上下文向量矩阵进行卷积操作，本发明采用网络设定卷积核数量为128，filter高度为[2,3,4],每种filter卷积后得到[2,599,1,128]、[3,598,1,128]、[3,597,1,128]；

S5.3、在得到卷积结果后，利用1-max-pooling进行池化操作，输出得到变性后的卷积核特征[-1,384]；

S5.4、将变性后的卷积核特征输入到全连接层，进行dropout，并对最终结果进行softmax函数处理，得到一个327纬文本语义特征向量；

S5.5、该模型中每个训练样本中损失函数定义为公式(2)，(3)所示：

其中，X_i代表了输出属于该候选实体的概率。

S5.6、该模型激活函数采用ReLU函数；

S5.7、该模型中的参数采用了梯度裁剪进行更新，首先计算梯度，这个计算类似L2正则化计算w的值，也就是求平方再平方根，然后与clip裁剪值进行比较，如果小于等于clip，梯度不变；如果大于clip，则计算公式如(4)所示：

g_new＝g_old*(clip/g_l2) (4)

其中，g_new，g_old代表新旧梯度值，g_l2代表经L2正则化的梯度值，clip代表预先设定的裁剪值。

S5.8、将训练好的CNN模型进行保存；

S5.10、得到的待消岐语句和知识库候选实体语句的语义特征向量后，利用余弦相似度计算待消岐实体和候选实体的语义特征相似度。计算公式为(5)：

其中a_i和b_i分别为待消岐语句和候选实体语句词向量。

S6、根据步骤S4和S5中得到的主题特征相似度Sim1和语义特征相似度Sim2，利用权值归一化操作以最优方式融合两种特征相似度，具体包括：

S6.1、根据步骤S4和S5得到的主题特征相似度和语义特征相似度利用权值归一化操作以最优比例融合两种相似度为一种特征相似度，且当α＝0.3，β＝0.7时，最终消岐结果较优。

融合公式如(6)所示：

sim(E,E')＝Max(αsim₁(E,E')+βsim₂(E,E')) (6)

其中α代表主体特征相似度所占比例，β代表语义特征相似度所占比例，Sim1，Sim2代表两种相似度函数，E代表待消歧实体，E＇代表候选实体。

S7、取值最大的融合相似度对应的候选实体为最终消岐实体，即得到该实体在句中所代表的意思，并将消岐结果存储于文本文件中。

图2是步骤S1.2所述的将提取的关键信息数据集进行预处理过程的一个实例流程演示，具体流程如下：

T1、输入包含实体信息的上下文语句；

T2、利用分词系统将语句进行分词，和词性标注，提取出对理解句子语义有重要的作用的词，根据停词词库去除停用词；

T3、根据分词后得到的实体名称，在垂直实体文档中找到该实体对应的人工标注语句，获得实体序号，实体全称等信息；

T4、结合步骤T2和T4所得到的重要字典信息，将对于消岐有帮助的重要信息进行保存，作为方便以后使用的知识库，保存格式：实体名称-实体序号-实体全称-实体语句。

图3是对该方法中卷积神经网络模型的结构图，包括下面几个部分：

词向量矩阵：待消岐实体上下文的关键词词向量矩阵和知识库候选实体上下文关键词词向量矩阵作为CNN模型的输入；

卷积层：将输入的上下文关键词词向量矩阵利用卷积核进行卷积操作，分别根据三个filter得到其卷积后特征集；

池化层：本方法采用1-max-pooling进行池化，得到变性后的卷积核特征；

全连接层：增加dropout，将结果进行softmax函数处理，得到一个327纬文本语义特征向量；

参数更新：采用了梯度裁剪进行更新，计算过程类似L2正则化计算w的值，也就是求平方再平方根，然后与clip裁剪值进行比较。

为了验证本方法的有效性和优化参数，设计了以下几组对比实验进行验证，同时实验采用统一标准：准确率衡量本方法性能，其计算公式如下(7)所示：

其中参数文本Q中N个实体mentions、位置及其链接到是知识库的实体id人工标注结果为:ME_Q＝{(m₁，l₁，e₁)...(m_k，l_k，e_k)}。相应地，对于模型输出结果为:ME＇_Q＝{(m＇₁，l＇₁，e＇₁)...(m＇_k，l＇_k，e＇_k)}。

实验一、在实体消歧过程中，主题特征相似度(A1)、语义特征相似度(A2)对于实体消歧结果影响力度不尽相同，本实验通过特征组合进行对比，表1为特征组合对比结果。

表1相似度特征组合准确率结果统计

由实验结果发现，单一特征准确率比使用特征组合方法低。原因在于单一的特征存在自身局限性，比如主题词特征相似度，针对全局特征来说，LDA主题模型在对主题词提取存在更大误差，反而更适合局部特征来进行提取；语义特征相似度对于全局特征把握更有利，词向量窗口较LDA主题模型更大，对于词义的全局特征把握更加充分。综合两种相似度特征，主题特征是从实体和实体局部特征所属主题建模，充分考虑一词多义性在局部和全局上主题类型的差异；语义特征是从更加精准捕捉上下文语义信息的角度，来对词向量进一步特征提取。因此，综合两种特征的相似度准确率最高。

实验二、在本方法最后一步中，基于主题模型的主题特征相似度权重(α)、基于CNN模型的语义特征相似度权重(β)对于最终实体相似度计算的作用不同。通过组合不同的特征权重进行对比实验，选取最优一组的权重组合，实验结果如图4。

根据图4结果表明，当α＝0.3，β＝0.7时，实体消歧准确率最高。主要原因在于CNN模型提取的语义特征信息，在进行实体消歧的过程中，起了更为重要的作用。而LDA主题模型提取的主题特征信息包含语义关键信息较少，所以若是α值较β值很高，则易于丢失一部分语义信息，造成消岐准确率较低。

实验三、为验证本发明的可行性，对比另外四种实体消歧办法的召回率、准确率，以及F1值，四种方法分别是：基于LSA模型实体消歧方法，基于词袋模型实体消歧方法，基于LDA主题模型实体消歧方法，基于卷积神经网络实体消歧方法，实验结果如表2。

表2较其他模型比较实验结果统计

综合实验结果发现，LSA、LDA、词袋模型都未充分考虑文本的语义特征，这解释了其三个准确率较CNN和本文方法差别较大；LSA较LDA模型对于文本的潜在语义分析更加优秀，准确率较高；CNN与本发明比较，对于文本的局部特征考虑不够，准确率和F1值有一定差距。由实验结果得，本发明的召回率，准确率和F1值都比其他方法要高。

以上结合附图与实验结果对本发明的具体实施方式做了详细说明，本发明采用的验证垂直域为金融领域，但本发明并不受限于该实施方式，在该领域技术人员所具备指示范围内，不脱离本发明宗旨的前提下依然能做出其他各种变化。

Claims

1.融合主题模型和卷积神经网络的垂直域实体消歧方法，包括如下步骤：

S1、根据特定领域收集经人工标注的数据集，对该数据集进行关键信息预处理，构建领域知识库，确定知识库中每一条数据对应的实体信息和实体序号；具体包括：

S1.3、将处理后上下文数据集与其他属性进行保存，以易操作格式写入文本，并建立CSV格式文件来保存数据，构建该领域知识库，用作无歧义实体集，后续需要调用的候选实体从该保存文件中进行读取以用来和待消歧实体进行比较；

S2、将预处理后的数据集进行词向量模型训练，以及相应的词典构建；具体包括：

S2.1、将知识库中代表实体的上下文关键词作为输入数据，利用深度学习技术word2vec提供的CBOW模型进行词向量模型的训练，构造更高维度的词向量信息，训练词向量模型，并保存作为待消歧上下文的向量化处理依据；

S2.2、将训练集中根据词性筛选后的词作为最能代表该实体指向的关键词，，获得对应词向量，建立关键词词典，以及利用已标注的实体具体含义指向建立类别词典，并用TXT格式保存词典，为后续LDA主题模型的训练做准备；

S3、根据包含待消歧实体的上下文信息，提取出待消歧实体名称，并从领域知识库中确定该实体对应的候选实体集，将实体上下文信息进行词向量化表示；具体包括：

S3.1、将待消歧语句利用jieba中文分词系统进行分词，去停用词，以及去标点符号操作，提取出待消歧指称项和代表句子意思的关键词词组；

S3.3、将代表该候选实体的上下文数据集都利用词向量模型进行词向量表示，作为候选实体的词向量矩阵；

S4、将经人工标注的训练集语料利用词库构造代表实体主题的关键词字典作为输入，输入LDA主题模型进行训练，并保存模型，待有新的待消歧语句经处理后输入进模型则能方便得到主题特征相似度；具体包括：

S4.3、根据已保存的词向量模型和LDA主题模型，将预处理后的待消歧语句进行词向量化，和候选实体词向量一同输入进LDA主题模型，最终得到待消歧实体和候选实体的主题分布情况V_topic＝[(0，P1)，(1，P2)]和V_topic＇＝[(0，P1＇)，(1，P2＇)]；

S4.4、根据步骤S4.3得到的主题分布情况计算上下文主题相似度，计算公式如下所示：

其中V_i为待消歧实体的主题分布向量，V＇_i为候选实体的主题分布向量，V_m为待消歧实体主题分布向量的二范数结果，V＇_k为候选实体的主题分布向量的二范数结果；

S5、为充分理解上下文语义对于实体的影响和约束，将经人工标注的数据集作为训练集和验证集输入TextCNN模型进行训练，优化模型参数并保存模型，待有新的待消歧语句经处理后输入进模型则能方便得到语义特征相似度；具体包括：

S5.2、对待消歧的上下文向量矩阵进行卷积操作，采用网络设定卷积核数量为128，filter高度为[2,3,4],每种filter卷积后得到[2,599,1,128]、[3,598,1,128]、[3,597,1,128]；

S5.5、该模型中每个训练样本中损失函数定义如下所示：

其中，X_i代表了输出属于该候选实体的概率；

S5.6、该模型激活函数采用ReLU函数；

S5.7、该模型中的参数采用了梯度裁剪进行更新，首先计算梯度，这个计算类似L2正则化计算w的值，也就是求平方再平方根，然后与clip裁剪值进行比较，如果小于等于clip，梯度不变；如果大于clip，则计算公式如下：

g_new＝g_old*(clip/g_l2) (4)

其中，g_new，g_old代表新旧梯度值，g_l2代表经L2正则化的梯度值，clip代表预先设定的裁剪值；

S5.8、将训练好的CNN模型进行保存；

S5.9、将待消歧上下文经预处理后通过词向量模型向量化，与候选实体向量一同输入进已训练好的CNN模型中进行语义特征提取，并最终得到代表上下文的语义特征向量；

S5.10、得到的待消歧语句和知识库候选实体语句的语义特征向量后，利用余弦相似度计算待消歧实体和候选实体的语义特征相似度；计算公式为：

其中a_i和b_i分别为待消歧语句和候选实体语句词向量；

S6、根据步骤S4和S5中得到的主题特征相似度Sim₁和语义特征相似度Sim₂，利用权值归一化操作以最优方式融合两种特征相似度；具体包括：

根据步骤S4和S5得到的主题特征相似度和语义特征相似度利用权值归一化操作以最优比例融合两种相似度为一种特征相似度，且当α＝0.3，β＝0.7时，最终消歧结果较优；融合公式下所示：

sim(E,E')＝Max(αsim₁(E,E')+βsim₂(E,E')) (6)

其中α代表主体特征相似度所占比例，β代表语义特征相似度所占比例，Sim₁，Sim₂代表两种相似度函数，E代表待消歧实体，E＇代表候选实体；

S7、取值最大的融合相似度对应的候选实体为最终消歧实体，即得到该实体在句中所代表的意思，并将消歧结果存储于文本文件中。

2.如权利要求1所述的融合主题模型和卷积神经网络的垂直域实体消歧方法，其特征在于：步骤S1.2所述的将提取的关键信息数据集进行预处理过程具体包括：

T1、输入包含实体信息的上下文语句；

T4、结合T2和T4所得到的重要字典信息，将对于消歧有帮助的重要信息进行保存，作为方便以后使用的知识库，保存格式：实体名称-实体序号-实体全称-实体语句。

3.如权利要求1所述的融合主题模型和卷积神经网络的垂直域实体消歧方法，其特征在于：步骤S1.3所述的易操作格式是序号-名称-上下文。