CN112069826A - 融合主题模型和卷积神经网络的垂直域实体消歧方法 - Google Patents

融合主题模型和卷积神经网络的垂直域实体消歧方法 Download PDF

Info

Publication number
CN112069826A
CN112069826A CN202010680196.9A CN202010680196A CN112069826A CN 112069826 A CN112069826 A CN 112069826A CN 202010680196 A CN202010680196 A CN 202010680196A CN 112069826 A CN112069826 A CN 112069826A
Authority
CN
China
Prior art keywords
entity
model
context
disambiguated
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010680196.9A
Other languages
English (en)
Other versions
CN112069826B (zh
Inventor
王万良
胡明志
赵燕伟
陈嘉诚
尹晶
王铁军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010680196.9A priority Critical patent/CN112069826B/zh
Publication of CN112069826A publication Critical patent/CN112069826A/zh
Application granted granted Critical
Publication of CN112069826B publication Critical patent/CN112069826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

融合主题模型和卷积神经网络的垂直域实体消歧方法,包括:1、构建领域知识库;2、将预处理后的数据集进行词向量模型训练,并构建相应的词典;3、提取出待消歧实体名称,并从领域知识库中确定该实体对应的候选实体集,将实体上下文信息进行词向量化表示;4、将经人工标注的训练集语料利用词库构造代表实体主题的关键词字典作为输入,训练并保存主题模型;5、将经人工标注的数据集作为训练集和验证集进行训练,优化模型参数并保存CNN模型;6、根据步骤4和5中得到的主题特征相似度Sim1和语义特征相似度Sim2,利用权值归一化操作以最优方式融合两种特征相似度;7、取值最大的融合相似度对应的候选实体为最终消歧实体。

Description

融合主题模型和卷积神经网络的垂直域实体消歧方法
技术领域
本发明属于计算机数据处理技术领域,具体涉及一种垂直域实体消歧方法。
背景技术
互联网时代下,信息爆炸。面对海量资讯,前沿AI技术能将文本和海量实体信息关联起来,提升用户阅读流畅度、实现精准提升用户体验等。智能资讯处理,不仅给特定领域提供智能化服务,还能为其提供更多创新空间。
实体消歧是自然语言处理的核心,其本质在于句中单词可能有多个意思,需通过上下文和知识库相关知识确定它所表达的确切含义。特定领域下公司全称是确定性的,但在资讯、研报、问答等文本中,该公司实体一般以简称的形式出现,且同一个公司简称可能指向多个实体,如果能有效提取文本特征以消岐该实体含义,将会对公司未来产生极大利益。
国内外对于垂直域下实体消歧的方法大多是将通用领域实体消歧办法直接应用于垂直领域,未充分考虑垂直域的特殊性。首先,主流方法使用实体表面特征,流行度特征等,这些特征仅从文档的全局上下文信息对指称项和候选项进行相似度计算,忽略了文本局部明显的主题向信息,对于指称项的主题把握必然存在较大误差;其次,主流消岐模型底层多是基于词袋模型,无法考虑词法与语序的问题,难以体现上下文语义对于实体的影响和约束,导致这些模型都无法充分利用上下文有效提取语义特征。
发明内容
本发明要克服现有技术的上述缺点,提供一种融合主题模型和文本卷积神经网络的垂直域实体消岐实现方法。
为有效利用垂直域消岐实体上下文具有的主题向特征,以及有效理解句子语义信息对实体约束和影响,本发明通过将词向量建模,输入LDA主题模型和卷积神经网络模型中,分别提取主题特征和语义特征来进行实体消岐,以消除资讯中的实体多义问题,提纯文本信息。
本发明提供一种融合主题模型和文本卷积神经网络的垂直域实体消岐实现方法,包括以下具体步骤:
S1、根据特定领域收集经人工标注的数据集,对该数据集进行关键信息预处理,构建领域知识库,确定知识库中每一条数据对应的实体信息和实体序号,具体包括:
S1.1、利用Pandas库从人工标注数据集文件读取每条数据的关键信息;
S1.2、将提取的关键信息数据集进行预处理,利用jieba中文分词工具对每一句上下文进行词性标注分词,去停用词操作,保留对理解句子语义有用的关键词;
S1.3、将处理后上下文数据集与其他属性进行保存,构建该领域知识库,用作无歧义实体集。
S2、将预处理后的数据集进行词向量模型训练,以及相应的词典构建,具体包括:
S2.1、利用word2vec库提供的CBOW模型对步骤S1中预处理的数据集进行词向量模型训练;
S2.2、提取预处理后的数据集关键词,获得对应词向量,并建立词典以及实体类别词典。
S3、根据包含待消歧实体的上下文信息,提取出待消歧实体名称,并从领域知识库中确定该实体对应的候选实体集,将实体上下文信息进行词向量化表示,具体包括:
S3.1、利用jieba分词系统进行待消歧语句分词,提取出待消岐指称项;
S3.2、根据该指称项获得知识库中的候选实体序号以及上下文信息;
S3.3、将代表该候选实体的上下文数据集都利用词向量模型进行词向量表示,作为候选实体的词向量矩阵。
S4、将经人工标注的训练集语料利用词库构造代表实体主题的关键词字典作为输入,输入LDA主题模型进行训练,并保存模型,待有新的待消岐语句经处理后输入进模型则能方便得到主题特征相似度,具体包括:
S4.1、根据有标注的训练集,获取上下文中实体周围局部信息的关键词,形成待输入的数据集;
S4.2、根据已构造的词典,将待输入的数据集进行关键词字典构造,输入进LDA主题模型,进行主题模型建模,并将训练好的LDA主题模型进行保存;
S4.3、根据已保存的词向量模型和LDA主题模型,将预处理后的待消岐语句进行词向量化,和候选实体词向量一同输入进LDA主题模型,最终得到待消岐实体和候选实体的主题分布情况Vtopic和Vtopic';
S4.4、根据步骤S4.3得到的主题分布情况计算上下文主题相似度。
S5、为充分理解上下文语义对于实体的影响和约束,本发明将经人工标注的数据集作为训练集和验证集输入TextCNN模型进行训练,优化模型参数并保存模型,待有新的待消岐语句经处理后输入进模型则能方便得到语义特征相似度,具体包括:
S5.1、将经人工标注的数据集作为训练样本,经过预处理提取关键词后,利用word2vec模型向量化,输入神经网络模型中;
S5.2、对待消岐的上下文向量矩阵进行卷积操作;
S5.3、在得到卷积结果后,利用1-max-pooling进行池化操作,得到变性后的卷积核特征;
S5.4、将变性后的卷积核特征输入到全连接层,进行dropout,并对最终结果进行softmax函数处理,得到文本语义特征向量;
S5.5、该模型中训练样本损失函数采用reduce_mean函数;
S5.6、该模型激活函数采用ReLU函数;
S5.7、该模型中的参数采用了梯度裁剪进行更新;
S5.8、将训练好的CNN模型进行保存;
S5.9、将待消岐上下文经预处理后通过词向量模型向量化,与候选实体向量一同输入进已训练好的CNN模型中进行语义特征提取,并最终得到代表上下文的语义特征向量;
S5.10、得到的待消岐语句和知识库候选实体语句的语义特征向量后,利用余弦相似度计算待消岐实体和候选实体的语义特征相似度。
S6、根据步骤S4和S5中得到的主题特征相似度Sim1和语义特征相似度Sim2,利用权值归一化操作以最优方式融合两种特征相似度,具体包括:
S6.1、将处理得到的主题特征相似度和语义特征相似度利用权值归一化操作以最优比例融合两种相似度为一种。
S7、取值最大的融合相似度对应的候选实体为最终消岐实体,即得到该实体在句中所代表的意思。
本发明分别针对传统消歧方法应用于垂直域下所显现的特征难提取以及语义难理解的缺点进行改善。首先,利用短文本库训练词向量模型,将实体信息映射到高纬度空间,以包含更为巨大的文本信息量;其次,有效利用垂直域下实体局部信息具有鲜明主题特点,通过训练LDA主题模型,准确提取实体主题指向;再次,通过神经网络卷积运算,获得文本语义特征向量,高度理解上下文语义信息和实体的关系;最后,相较于主题特征与语义特征所包含的信息种类差别,通过经验和权值归一的方法调参以最优比例融合两种特征,以保证实体消歧准确率,并定义最终消岐结果。
与现有技术相比,本发明具有如下优点:
1、本发明提出的垂直域下融合模型的实体消歧方法,从全局和局部两个角度来进行实体消歧,有效结合了垂直域概念,进而提升了整个消歧方法的准确度。
2、本发明在提取实体上下文特征时,细分了多种特征进行提取,提高了对实体含义的挖掘效率,进一步丰富了实体特征,达到提升消歧准确率的效果。
3、本发明在知识库构造阶段,通过构造易读取、有关联的文本形式,以及文本词性筛选,有效提取文本关键词进行构造,优化了文本处理复杂度。
附图说明
图1为本发明的实施流程图;
图2为本发明的预处理过程实施流程图;
图3为本发明的卷积神经网络模型结构图;
图4为本发明组合不同的特征权重实验结果统计图。
具体实施方式
下面结合附图对本发明进一步详细说明。
为有效克服传统消歧方法的弊端,本发明采用多模型融合的方法,以期能有效提取文本特征并提升消歧结果准确率。目前,自然语言处理中词向量模型通过语料库的训练,将每个词映射到高纬度向量中,其所能包含的信息量较词袋模型更多。LDA主题模型通过对上下文局部信息的特征提取,获得的主题特征较全局有更为明确的主题指向,能有效进行领域消岐。近年应用日渐广泛的卷积神经网络模型在自然语言处理领域获得巨大成功,通过多层卷积运算能有效捕捉到上下文多个连续词之间的特征,配合词向量模型能有有效针对实体的上下文进行语义特征提取,以提高对文本的语义理解。
如附图1所示,本发明的融合LDA主题模型和CNN模型的面向垂直域实体消岐方法的具体步骤如下:
S1、根据特定领域收集经人工标注的数据集,对该数据集进行关键信息预处理,构建领域知识库,确定知识库中每一条数据对应的实体信息和实体序号,具体包括:
S1.1、利用Pandas库从人工标注数据集文件以字典形式读取每条数据的关键信息,根据每个实体ID,实体名称,以及实体上下文信息抽取数据;
S1.2、将提取的关键信息数据集进行预处理,利用jieba中文分词工具对每一句上下文进行词性标注分词,去停用词操作,删除无关句子理解的词性单词,保留对理解句子语义有用的关键词;
S1.3、将处理后上下文数据集与其他属性进行保存,以易操作格式(序号-名称-上下文)写入文本,并建立CSV格式文件来保存数据,构建该领域知识库,用作无歧义实体集,后续需要调用的候选实体从该保存文件中进行读取以用来和待消岐实体进行比较。
S2、将预处理后的数据集进行词向量模型训练,以及相应的词典构建,具体包括:
S2.1、将知识库中代表实体的上下文关键词作为输入数据,利用深度学习技术word2vec提供的CBOW模型进行词向量模型的训练,构造更高维度的词向量信息,训练词向量模型,并保存作为待消岐上下文的向量化处理依据;
S2.2、将训练集中根据词性筛选后的词作为最能代表该实体指向的关键词,,获得对应词向量,建立关键词词典,以及利用已标注的实体具体含义指向建立类别词典,并用TXT格式保存词典,为后续LDA主题模型的训练做准备。
S3、根据包含待消歧实体的上下文信息,提取出待消歧实体名称,并从领域知识库中确定该实体对应的候选实体集,将实体上下文信息进行词向量化表示,具体包括:
S3.1、将待消岐语句利用jieba中文分词系统进行分词,去停用词,以及去标点符号操作,提取出待消岐指称项和代表句子意思的关键词词组;
S3.2、根据该指称项获得知识库中的候选实体序号以及上下文数据;
S3.3、将代表该候选实体的上下文数据集都利用词向量模型进行词向量表示,作为候选实体的词向量矩阵。
S4、将经人工标注的训练集语料利用词库构造代表实体主题的关键词字典作为输入,输入LDA主题模型进行训练,并保存模型,待有新的待消岐语句经处理后输入进模型则能方便得到主题特征相似度,具体包括:
S4.1、根据有标注的训练集,获取上下文中实体周围局部信息的关键词,构造关键词字典{key:weight,key2:weight2...};
S4.2、根据已构造的词典,将待输入的数据集进行关键词字典构造,输入进Gensim库中的LDA主题模型方法,进行主题建模,并将训练好的LDA主题模型进行保存;
S4.3、根据已保存的词向量模型和LDA主题模型,将预处理后的待消岐语句进行词向量化,和候选实体词向量一同输入进LDA主题模型,最终得到待消岐实体和候选实体的主题分布情况Vtopic=[(0,P1),(1,P2)]和Vtopic'=[(0,P1'),(1,P2')];
S4.4、根据步骤S4.3得到的主题分布情况计算上下文主题相似度,计算公式如(1)所示:
Figure BDA0002585533680000061
其中Vi为待消歧实体的主题分布向量,V'i为候选实体的主题分布向量,Vm为待消歧实体主题分布向量的二范数结果,V'k为候选实体的主题分布向量的二范数结果。
S5、为充分理解上下文语义对于实体的影响和约束,本发明将经人工标注的数据集作为训练集和验证集输入TextCNN模型进行训练,优化模型参数并保存模型,待有新的待消岐语句经处理后输入进模型则能方便得到语义特征相似度,具体包括:
S5.1、将经人工标注的数据集作为训练样本,经过预处理提取全局关键词contexte={word1,word2,word3,...}和contextse={word1',word2',word3',...},利用word2vec模型向量化,分别得到该指称项的全局词向量矩阵[v1,v2,v3,...],[v1',v2',v3',...]输入神经网络模型中;
S5.2、对待消岐的上下文向量矩阵进行卷积操作,本发明采用网络设定卷积核数量为128,filter高度为[2,3,4],每种filter卷积后得到[2,599,1,128]、[3,598,1,128]、[3,597,1,128];
S5.3、在得到卷积结果后,利用1-max-pooling进行池化操作,输出得到变性后的卷积核特征[-1,384];
S5.4、将变性后的卷积核特征输入到全连接层,进行dropout,并对最终结果进行softmax函数处理,得到一个327纬文本语义特征向量;
S5.5、该模型中每个训练样本中损失函数定义为公式(2),(3)所示:
Figure BDA0002585533680000062
Figure BDA0002585533680000063
其中,Xi代表了输出属于该候选实体的概率。
S5.6、该模型激活函数采用ReLU函数;
S5.7、该模型中的参数采用了梯度裁剪进行更新,首先计算梯度,这个计算类似L2正则化计算w的值,也就是求平方再平方根,然后与clip裁剪值进行比较,如果小于等于clip,梯度不变;如果大于clip,则计算公式如(4)所示:
gnew=gold*(clip/gl2) (4)
其中,gnew,gold代表新旧梯度值,gl2代表经L2正则化的梯度值,clip代表预先设定的裁剪值。
S5.8、将训练好的CNN模型进行保存;
S5.9、将待消岐上下文经预处理后通过词向量模型向量化,与候选实体向量一同输入进已训练好的CNN模型中进行语义特征提取,并最终得到代表上下文的语义特征向量;
S5.10、得到的待消岐语句和知识库候选实体语句的语义特征向量后,利用余弦相似度计算待消岐实体和候选实体的语义特征相似度。计算公式为(5):
Figure BDA0002585533680000071
其中ai和bi分别为待消岐语句和候选实体语句词向量。
S6、根据步骤S4和S5中得到的主题特征相似度Sim1和语义特征相似度Sim2,利用权值归一化操作以最优方式融合两种特征相似度,具体包括:
S6.1、根据步骤S4和S5得到的主题特征相似度和语义特征相似度利用权值归一化操作以最优比例融合两种相似度为一种特征相似度,且当α=0.3,β=0.7时,最终消岐结果较优。
融合公式如(6)所示:
sim(E,E')=Max(αsim1(E,E')+βsim2(E,E')) (6)
其中α代表主体特征相似度所占比例,β代表语义特征相似度所占比例,Sim1,Sim2代表两种相似度函数,E代表待消歧实体,E'代表候选实体。
S7、取值最大的融合相似度对应的候选实体为最终消岐实体,即得到该实体在句中所代表的意思,并将消岐结果存储于文本文件中。
图2是步骤S1.2所述的将提取的关键信息数据集进行预处理过程的一个实例流程演示,具体流程如下:
T1、输入包含实体信息的上下文语句;
T2、利用分词系统将语句进行分词,和词性标注,提取出对理解句子语义有重要的作用的词,根据停词词库去除停用词;
T3、根据分词后得到的实体名称,在垂直实体文档中找到该实体对应的人工标注语句,获得实体序号,实体全称等信息;
T4、结合步骤T2和T4所得到的重要字典信息,将对于消岐有帮助的重要信息进行保存,作为方便以后使用的知识库,保存格式:实体名称-实体序号-实体全称-实体语句。
图3是对该方法中卷积神经网络模型的结构图,包括下面几个部分:
词向量矩阵:待消岐实体上下文的关键词词向量矩阵和知识库候选实体上下文关键词词向量矩阵作为CNN模型的输入;
卷积层:将输入的上下文关键词词向量矩阵利用卷积核进行卷积操作,分别根据三个filter得到其卷积后特征集;
池化层:本方法采用1-max-pooling进行池化,得到变性后的卷积核特征;
全连接层:增加dropout,将结果进行softmax函数处理,得到一个327纬文本语义特征向量;
参数更新:采用了梯度裁剪进行更新,计算过程类似L2正则化计算w的值,也就是求平方再平方根,然后与clip裁剪值进行比较。
为了验证本方法的有效性和优化参数,设计了以下几组对比实验进行验证,同时实验采用统一标准:准确率衡量本方法性能,其计算公式如下(7)所示:
Figure BDA0002585533680000081
其中参数文本Q中N个实体mentions、位置及其链接到是知识库的实体id人工标注结果为:MEQ={(m1,l1,e1)...(mk,lk,ek)}。相应地,对于模型输出结果为:ME'Q={(m'1,l'1,e'1)...(m'k,l'k,e'k)}。
实验一、在实体消歧过程中,主题特征相似度(A1)、语义特征相似度(A2)对于实体消歧结果影响力度不尽相同,本实验通过特征组合进行对比,表1为特征组合对比结果。
表1相似度特征组合准确率结果统计
Figure BDA0002585533680000082
由实验结果发现,单一特征准确率比使用特征组合方法低。原因在于单一的特征存在自身局限性,比如主题词特征相似度,针对全局特征来说,LDA主题模型在对主题词提取存在更大误差,反而更适合局部特征来进行提取;语义特征相似度对于全局特征把握更有利,词向量窗口较LDA主题模型更大,对于词义的全局特征把握更加充分。综合两种相似度特征,主题特征是从实体和实体局部特征所属主题建模,充分考虑一词多义性在局部和全局上主题类型的差异;语义特征是从更加精准捕捉上下文语义信息的角度,来对词向量进一步特征提取。因此,综合两种特征的相似度准确率最高。
实验二、在本方法最后一步中,基于主题模型的主题特征相似度权重(α)、基于CNN模型的语义特征相似度权重(β)对于最终实体相似度计算的作用不同。通过组合不同的特征权重进行对比实验,选取最优一组的权重组合,实验结果如图4。
根据图4结果表明,当α=0.3,β=0.7时,实体消歧准确率最高。主要原因在于CNN模型提取的语义特征信息,在进行实体消歧的过程中,起了更为重要的作用。而LDA主题模型提取的主题特征信息包含语义关键信息较少,所以若是α值较β值很高,则易于丢失一部分语义信息,造成消岐准确率较低。
实验三、为验证本发明的可行性,对比另外四种实体消歧办法的召回率、准确率,以及F1值,四种方法分别是:基于LSA模型实体消歧方法,基于词袋模型实体消歧方法,基于LDA主题模型实体消歧方法,基于卷积神经网络实体消歧方法,实验结果如表2。
表2较其他模型比较实验结果统计
Figure BDA0002585533680000091
综合实验结果发现,LSA、LDA、词袋模型都未充分考虑文本的语义特征,这解释了其三个准确率较CNN和本文方法差别较大;LSA较LDA模型对于文本的潜在语义分析更加优秀,准确率较高;CNN与本发明比较,对于文本的局部特征考虑不够,准确率和F1值有一定差距。由实验结果得,本发明的召回率,准确率和F1值都比其他方法要高。
以上结合附图与实验结果对本发明的具体实施方式做了详细说明,本发明采用的验证垂直域为金融领域,但本发明并不受限于该实施方式,在该领域技术人员所具备指示范围内,不脱离本发明宗旨的前提下依然能做出其他各种变化。

Claims (3)

1.融合主题模型和卷积神经网络的垂直域实体消歧方法,包括如下步骤:
S1、根据特定领域收集经人工标注的数据集,对该数据集进行关键信息预处理,构建领域知识库,确定知识库中每一条数据对应的实体信息和实体序号;具体包括:
S1.1、利用Pandas库从人工标注数据集文件以字典形式读取每条数据的关键信息,根据每个实体ID,实体名称,以及实体上下文信息抽取数据;
S1.2、将提取的关键信息数据集进行预处理,利用jieba中文分词工具对每一句上下文进行词性标注分词,去停用词操作,删除无关句子理解的词性单词,保留对理解句子语义有用的关键词;
S1.3、将处理后上下文数据集与其他属性进行保存,以易操作格式写入文本,并建立CSV格式文件来保存数据,构建该领域知识库,用作无歧义实体集,后续需要调用的候选实体从该保存文件中进行读取以用来和待消歧实体进行比较;
S2、将预处理后的数据集进行词向量模型训练,以及相应的词典构建;具体包括:
S2.1、将知识库中代表实体的上下文关键词作为输入数据,利用深度学习技术word2vec提供的CBOW模型进行词向量模型的训练,构造更高维度的词向量信息,训练词向量模型,并保存作为待消歧上下文的向量化处理依据;
S2.2、将训练集中根据词性筛选后的词作为最能代表该实体指向的关键词,,获得对应词向量,建立关键词词典,以及利用已标注的实体具体含义指向建立类别词典,并用TXT格式保存词典,为后续LDA主题模型的训练做准备;
S3、根据包含待消歧实体的上下文信息,提取出待消歧实体名称,并从领域知识库中确定该实体对应的候选实体集,将实体上下文信息进行词向量化表示;具体包括:
S3.1、将待消歧语句利用jieba中文分词系统进行分词,去停用词,以及去标点符号操作,提取出待消歧指称项和代表句子意思的关键词词组;
S3.2、根据该指称项获得知识库中的候选实体序号以及上下文数据;
S3.3、将代表该候选实体的上下文数据集都利用词向量模型进行词向量表示,作为候选实体的词向量矩阵;
S4、将经人工标注的训练集语料利用词库构造代表实体主题的关键词字典作为输入,输入LDA主题模型进行训练,并保存模型,待有新的待消歧语句经处理后输入进模型则能方便得到主题特征相似度;具体包括:
S4.1、根据有标注的训练集,获取上下文中实体周围局部信息的关键词,构造关键词字典{key:weight,key2:weight2...};
S4.2、根据已构造的词典,将待输入的数据集进行关键词字典构造,输入进Gensim库中的LDA主题模型方法,进行主题建模,并将训练好的LDA主题模型进行保存;
S4.3、根据已保存的词向量模型和LDA主题模型,将预处理后的待消歧语句进行词向量化,和候选实体词向量一同输入进LDA主题模型,最终得到待消歧实体和候选实体的主题分布情况Vtopic=[(0,P1),(1,P2)]和Vtopic'=[(0,P1'),(1,P2')];
S4.4、根据步骤S4.3得到的主题分布情况计算上下文主题相似度,计算公式如下所示:
Figure RE-FDA0002747774850000021
其中Vi为待消歧实体的主题分布向量,V'i为候选实体的主题分布向量,Vm为待消歧实体主题分布向量的二范数结果,V'k为候选实体的主题分布向量的二范数结果;
S5、为充分理解上下文语义对于实体的影响和约束,将经人工标注的数据集作为训练集和验证集输入TextCNN模型进行训练,优化模型参数并保存模型,待有新的待消歧语句经处理后输入进模型则能方便得到语义特征相似度;具体包括:
S5.1、将经人工标注的数据集作为训练样本,经过预处理提取全局关键词contexte={word1,word2,word3,...}和contextse={word1',word2',word3',...},利用word2vec模型向量化,分别得到该指称项的全局词向量矩阵[v1,v2,v3,...],[v1',v2',v3',...]输入神经网络模型中;
S5.2、对待消歧的上下文向量矩阵进行卷积操作,采用网络设定卷积核数量为128,filter高度为[2,3,4],每种filter卷积后得到[2,599,1,128]、[3,598,1,128]、[3,597,1,128];
S5.3、在得到卷积结果后,利用1-max-pooling进行池化操作,输出得到变性后的卷积核特征[-1,384];
S5.4、将变性后的卷积核特征输入到全连接层,进行dropout,并对最终结果进行softmax函数处理,得到一个327纬文本语义特征向量;
S5.5、该模型中每个训练样本中损失函数定义如下所示:
Figure RE-FDA0002747774850000031
Figure RE-FDA0002747774850000032
其中,Xi代表了输出属于该候选实体的概率;
S5.6、该模型激活函数采用ReLU函数;
S5.7、该模型中的参数采用了梯度裁剪进行更新,首先计算梯度,这个计算类似L2正则化计算w的值,也就是求平方再平方根,然后与clip裁剪值进行比较,如果小于等于clip,梯度不变;如果大于clip,则计算公式如下:
gnew=gold*(clip/gl2) (4)
其中,gnew,gold代表新旧梯度值,gl2代表经L2正则化的梯度值,clip代表预先设定的裁剪值;
S5.8、将训练好的CNN模型进行保存;
S5.9、将待消歧上下文经预处理后通过词向量模型向量化,与候选实体向量一同输入进已训练好的CNN模型中进行语义特征提取,并最终得到代表上下文的语义特征向量;
S5.10、得到的待消歧语句和知识库候选实体语句的语义特征向量后,利用余弦相似度计算待消歧实体和候选实体的语义特征相似度;计算公式为:
Figure RE-FDA0002747774850000033
其中ai和bi分别为待消歧语句和候选实体语句词向量;
S6、根据步骤S4和S5中得到的主题特征相似度Sim1和语义特征相似度Sim2,利用权值归一化操作以最优方式融合两种特征相似度;具体包括:
根据步骤S4和S5得到的主题特征相似度和语义特征相似度利用权值归一化操作以最优比例融合两种相似度为一种特征相似度,且当α=0.3,β=0.7时,最终消歧结果较优;融合公式下所示:
sim(E,E')=Max(αsim1(E,E')+βsim2(E,E')) (6)
其中α代表主体特征相似度所占比例,β代表语义特征相似度所占比例,Sim1,Sim2代表两种相似度函数,E代表待消歧实体,E'代表候选实体;
S7、取值最大的融合相似度对应的候选实体为最终消歧实体,即得到该实体在句中所代表的意思,并将消歧结果存储于文本文件中。
2.如权利要求1所述的融合主题模型和卷积神经网络的垂直域实体消歧方法,其特征在于:步骤S1.2所述的将提取的关键信息数据集进行预处理过程具体包括:
T1、输入包含实体信息的上下文语句;
T2、利用分词系统将语句进行分词,和词性标注,提取出对理解句子语义有重要的作用的词,根据停词词库去除停用词;
T3、根据分词后得到的实体名称,在垂直实体文档中找到该实体对应的人工标注语句,获得实体序号,实体全称等信息;
T4、结合T2和T4所得到的重要字典信息,将对于消歧有帮助的重要信息进行保存,作为方便以后使用的知识库,保存格式:实体名称-实体序号-实体全称-实体语句。
3.如权利要求1所述的融合主题模型和卷积神经网络的垂直域实体消歧方法,其特征在于:步骤S1.3所述的易操作格式是序号-名称-上下文。
CN202010680196.9A 2020-07-15 2020-07-15 融合主题模型和卷积神经网络的垂直域实体消歧方法 Active CN112069826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010680196.9A CN112069826B (zh) 2020-07-15 2020-07-15 融合主题模型和卷积神经网络的垂直域实体消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010680196.9A CN112069826B (zh) 2020-07-15 2020-07-15 融合主题模型和卷积神经网络的垂直域实体消歧方法

Publications (2)

Publication Number Publication Date
CN112069826A true CN112069826A (zh) 2020-12-11
CN112069826B CN112069826B (zh) 2021-12-07

Family

ID=73657116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010680196.9A Active CN112069826B (zh) 2020-07-15 2020-07-15 融合主题模型和卷积神经网络的垂直域实体消歧方法

Country Status (1)

Country Link
CN (1) CN112069826B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597305A (zh) * 2020-12-22 2021-04-02 上海师范大学 基于深度学习的科技文献作者名消歧方法及web端消歧装置
CN112765983A (zh) * 2020-12-14 2021-05-07 四川长虹电器股份有限公司 一种基于结合知识描述的神经网络的实体消歧的方法
CN112906397A (zh) * 2021-04-06 2021-06-04 南通大学 一种短文本实体消歧方法
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型
CN113139134A (zh) * 2021-04-26 2021-07-20 中国人民解放军国防科技大学 一种社交网络中用户生成内容的流行度预测方法、装置
CN113158687A (zh) * 2021-04-29 2021-07-23 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置
CN113761218A (zh) * 2021-04-27 2021-12-07 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN115796280A (zh) * 2023-01-31 2023-03-14 南京万得资讯科技有限公司 一种适用于金融领域高效可控的实体识别实体链接系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
US20180189265A1 (en) * 2015-06-26 2018-07-05 Microsoft Technology Licensing, Llc Learning entity and word embeddings for entity disambiguation
CN109214000A (zh) * 2018-08-23 2019-01-15 昆明理工大学 一种基于主题模型词向量的神经网络柬语实体识别方法
CN110020438A (zh) * 2019-04-15 2019-07-16 上海冰鉴信息科技有限公司 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN111027323A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于主题模型和语义分析的实体指称项识别方法
CN111368532A (zh) * 2020-03-18 2020-07-03 昆明理工大学 一种基于lda的主题词嵌入消歧方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180189265A1 (en) * 2015-06-26 2018-07-05 Microsoft Technology Licensing, Llc Learning entity and word embeddings for entity disambiguation
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN109214000A (zh) * 2018-08-23 2019-01-15 昆明理工大学 一种基于主题模型词向量的神经网络柬语实体识别方法
CN110020438A (zh) * 2019-04-15 2019-07-16 上海冰鉴信息科技有限公司 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN111027323A (zh) * 2019-12-05 2020-04-17 电子科技大学广东电子信息工程研究院 一种基于主题模型和语义分析的实体指称项识别方法
CN111368532A (zh) * 2020-03-18 2020-07-03 昆明理工大学 一种基于lda的主题词嵌入消歧方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王万良 等: "基于多特征的视频关联文本关键词提取方法", 《浙江工业大学学报》 *
马晓军 等: "融合词向量和主题模型的领域实体消歧", 《模式识别与人工智能》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765983A (zh) * 2020-12-14 2021-05-07 四川长虹电器股份有限公司 一种基于结合知识描述的神经网络的实体消歧的方法
CN112597305A (zh) * 2020-12-22 2021-04-02 上海师范大学 基于深度学习的科技文献作者名消歧方法及web端消歧装置
CN112597305B (zh) * 2020-12-22 2023-09-01 上海师范大学 基于深度学习的科技文献作者名消歧方法及web端消歧装置
CN112989803A (zh) * 2021-02-25 2021-06-18 成都增强视图科技有限公司 一种基于主题向量学习的实体链接模型
CN112906397B (zh) * 2021-04-06 2021-11-19 南通大学 一种短文本实体消歧方法
CN112906397A (zh) * 2021-04-06 2021-06-04 南通大学 一种短文本实体消歧方法
CN113139134A (zh) * 2021-04-26 2021-07-20 中国人民解放军国防科技大学 一种社交网络中用户生成内容的流行度预测方法、装置
CN113139134B (zh) * 2021-04-26 2022-04-19 中国人民解放军国防科技大学 一种社交网络中用户生成内容的流行度预测方法、装置
CN113761218A (zh) * 2021-04-27 2021-12-07 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN113761218B (zh) * 2021-04-27 2024-05-10 腾讯科技(深圳)有限公司 一种实体链接的方法、装置、设备及存储介质
CN113158687A (zh) * 2021-04-29 2021-07-23 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置
CN113158687B (zh) * 2021-04-29 2021-12-28 新声科技(深圳)有限公司 语义的消歧方法及装置、存储介质、电子装置
CN115796280A (zh) * 2023-01-31 2023-03-14 南京万得资讯科技有限公司 一种适用于金融领域高效可控的实体识别实体链接系统
CN115796280B (zh) * 2023-01-31 2023-06-09 南京万得资讯科技有限公司 一种适用于金融领域高效可控的实体识别实体链接系统

Also Published As

Publication number Publication date
CN112069826B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN112069826B (zh) 融合主题模型和卷积神经网络的垂直域实体消歧方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111914558A (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112131872A (zh) 一种文献作者重名消歧方法和构建系统
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN113377897B (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN110457690A (zh) 一种专利创造性的判断方法
CN106980620A (zh) 一种对中文字串进行匹配的方法及装置
CN111008530A (zh) 一种基于文档分词的复杂语义识别方法
CN116245107A (zh) 电力审计文本实体识别方法、装置、设备及存储介质
CN112307048A (zh) 语义匹配模型训练方法、匹配方法、装置、设备及存储介质
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN107622047B (zh) 一种设计决策知识的提取和表达方法
CN112905750B (zh) 一种优化模型的生成方法和设备
CN111881685A (zh) 基于小粒度策略混合模型的汉语命名实体识别方法及系统
CN113111136B (zh) 一种基于ucl知识空间的实体消歧方法及装置
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN115757815A (zh) 知识图谱的构建方法、装置及存储介质
CN108763487A (zh) 一种基于Mean Shift的融合词性和句子信息的词表示方法
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
CN113688233A (zh) 一种用于知识图谱语义搜索的文本理解的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant