CN112765983A - 一种基于结合知识描述的神经网络的实体消歧的方法 - Google Patents
一种基于结合知识描述的神经网络的实体消歧的方法 Download PDFInfo
- Publication number
- CN112765983A CN112765983A CN202011467935.2A CN202011467935A CN112765983A CN 112765983 A CN112765983 A CN 112765983A CN 202011467935 A CN202011467935 A CN 202011467935A CN 112765983 A CN112765983 A CN 112765983A
- Authority
- CN
- China
- Prior art keywords
- entity
- context
- candidate
- knowledge
- candidate entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于结合知识描述的神经网络的实体消歧的方法,涉及自然语言处理技术领域。包括以下步骤:步骤1:使用指称上下文文本和候选实体进行建模,计算指称上下文文本与候选实体的相似度;步骤2:使用候选实体知识描述的文本信息与指称的上下文文本进行建模;步骤3:对候选实体知识描述关键词提取;步骤4:建立实体消歧的局部模型;步骤5:建立实体消歧的全局模型;步骤6:引入损失函数,训练找到步骤4中的目标式。本发明从候选实体以及本文上下文的向量中同时进行实体操作,将全局模型用于短文本的实体消歧中,结合优化后的局部模型,弥补了全局模型语料库缺乏以及局部模型缺少文本其他实体信息的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,更具体的说是涉及一种基于结合知识描述的神经网络的实体消歧的方法。
背景技术
实体消歧是NLP中实体链接的子任务,例如“十面埋伏”一词,可以是歌手陈奕迅演唱的一首歌曲,也可以是张艺谋导演执导拍摄的电影,还可能是汉语成语或者是琵琶曲。
目前主要的实体消歧方法主要分为机器学习和深度学习的方法:传统的机器学习方法按照模型分类主要包含基于检索的方法、基于排序模型的方法、基于空间向量的方法、基于主题模型的方法等;基于深度学习的实体消歧是目前主流的研究方法,根据模型利用的信息又可以分为局部模型和全局模型。基于上下文的局部模型与基于全局的模型可以从不同的方面进行实体消歧。结合两种方法一起使用是目前长文本实体消歧的主流思路。但是这些方法通过离线训练实体向量来表示实体,使得消歧模型存在天然的信息表示损失问题。
局部模型利用实体指称周围的局部文本上下文信息独立的解决每个实体指称的歧义问题,忽视了位于同一文档的不同实体间存在的语义联系;全局模型通常将文档中的实体指称及其候选实体构建为图结构,其中节点为实体,边表示其关系,利用实体指称间、候选实体间、实体指称与候选实体间的关系协同推理,同样存在数据缺乏的问题,同时,由于联合推理机制导致计算量庞大,在文档较长的情况下实体图包含节点过多导致计算量很大。
发明内容
本发明的目的在于提供一种基于结合知识描述的神经网络的实体消歧的方法,以期解决背景技术中的问题。本发明主要针对上述问题,在模型的基础上,融合实体知识的描述,在输入时不单输入文本的词向量或者字向量,而是指称上下文文本和候选实体的向量表示结合,构建融合了实体知识描述的消歧模型。
为了实现上述目的,本发明采用以下技术方案:
一种基于结合知识描述的神经网络的实体消歧的方法,包括以下步骤:
步骤1:使用指称上下文文本和候选实体进行建模,计算指称上下文文本与候选实体的相似度;
步骤2:使用候选实体知识描述的文本信息与指称的上下文文本进行建模;
步骤3:对候选实体知识描述关键词提取;
步骤4:建立实体消歧的局部模型;
步骤5:建立实体消歧的全局模型;
步骤6:引入损失函数,训练找到步骤4中的目标式。
所述步骤1,包括:对于指称m,选取大小为K的窗口作为其上下文c={ω1,ω2,ω3…ωk},T(m)作为候选实体生成,元素e∈T(m),利用得到候选实体的权重信息,其中A为参数,之后根据式c={ω∈c|u(ω)∈topR(u)}除去上下文中不重要的词语,对上下文信息进行枝剪到R≤K,后将筛减后的上下文权重信息重新归一化:
式中:ω为上下文向量,u(ω)为候选实体权重信息,exp[u(ω)]为上下文权重信息数学期望值,β(ω)为归一化枝剪后的下上文权重信息;
得到上下文向量xc以及其和各个候选实体向量之间的相似度,表示上下文与候选实体之间的相似度:
式中:xc为计算到的上下文向量,β(ω)为上文中计算的归一化枝剪后的下上文权重,xe为候选实体向量,B为参数矩阵,ψ(e,c)表示上下文与候选实体之间的相似度。
所述步骤2,包括:将上下文以及候选实体知识描述信息进行编码,每个候选实体的实体知识描述信息同指称上下文进行结合,得到未规范化的注意力权重
r代表第r个候选实体,i代表指称上下文的第i个编码向量,j代表候选实体知识描述的第j个编码向量;通过对增强后的局部推理信息进行池化,从而提取特征vr表示第r个候选实体知识描述与指称上下文结合得到的特征向量;S表示候选实体数量;预测模块对所有候选实体的相关度进行归一化,可以得到各个候选实体同指称的相关度概率:
。
所述步骤3,包括:对实体知识描述页面的长度进行惩罚,以使得抽取时更关注实体知识描述页面信息少的实体;由实体知识描述页面长度K,知识库所有实体描述的平均页面长的S,平均从实体页面提取出的关键词个数lm以及长度惩罚参数λ得出惩罚后的长度:
式中:len(K)表示实体知识描述页面惩罚后的长度,K为当前实体知识描述页面长度,S为知识库所有实体的知识描述页面的平均长度,lm为平均要从实体知识描述页面提取出的关键词个数,λ为长度惩罚参数;抽取完的关键词属于词袋模型,故而通用匹配模型采用的输入编码方式是直接映射这些词语到词向量空间。
用于计算指称的上下文同指称的候选实体的分数。
所述步骤5,包括:
针对文本所有指称集合M,m∈M,以及各自上下文C,c∈C,和各自候选实体T(m1),T(m2)…,建立全局模型,e为每个指称候选实体中选择一个实体:
式中:Φ(e,e′)是二元因子式,xe为实体e的向量表示;xe′为实体e′的向量表示,;C是上下文文本集合,g(e,c,m)表示全局模型;ψi(ei)=F(ei,ci,mi)为局部模型全连接网络的局部分数。
所述步骤6中的损失函数为最大边际损失函数(max-margin loss)。最大边际损失函数(max-margin loss)使得正确实体的排序高于其他候选实体。联合局部模型和全局模型从不同方面进行消歧。
本发明与现有技术相比具有的有益效果是:
本发明从候选实体以及本文上下文的向量中同时进行实体操作,将全局模型用于短文本的实体消歧中,结合优化后的局部模型,弥补了全局模型语料库缺乏以及局部模型缺少文本其他实体信息的问题。
附图说明
图1为模型整体识别流程图;
图2为局部模型示意图;
具体实施方式
下面结合实施例对本发明作进一步的描述,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域的普通技术人员在没有做出创造性劳动前提下所获得的其他所用实施例,都属于本发明的保护范围。
实施例1:
下面将结合附图1和2,对本发明的技术方案进行完整的描述。
一种基于结合知识描述的神经网络的实体消歧的方法,包括以下步骤:
步骤1:使用指称上下文文本和候选实体进行建模,计算指称上下文文本与候选实体的相似度;
步骤2:使用候选实体知识描述的文本信息与指称的上下文文本进行建模;
步骤3:对候选实体知识描述关键词提取;
步骤4:建立实体消歧的局部模型;
步骤5:建立实体消歧的全局模型;
步骤6:引入损失函数,训练找到步骤4中的目标式。
所述步骤1,包括:对于指称m,选取大小为K的窗口作为其上下文c={ω1,ω2,ω3…ωk},T(m)作为候选实体生成,元素e∈T(m),利用得到候选实体的权重信息,其中A为参数,之后根据式c={ω∈c|u(ω)∈topR(u)}除去上下文中不重要的词语,对上下文信息进行枝剪到R≤K,后将筛减后的上下文权重信息重新归一化:
式中:ω为上下文向量,u(ω)为候选实体权重信息,exp[u(ω)]为上下文权重信息数学期望值,β(ω)为归一化枝剪后的下上文权重信息;
得到上下文向量xc以及其和各个候选实体向量之间的相似度,表示上下文与候选实体之间的相似度:
式中:xc为计算到的上下文向量,β(ω)为上文中计算的归一化枝剪后的下上文权重,xe为候选实体向量,B为参数矩阵,ψ(e,c)表示上下文与候选实体之间的相似度。
所述步骤2,包括:将上下文以及候选实体知识描述信息进行编码,每个候选实体的实体知识描述信息同指称上下文进行结合,得到未规范化的注意力权重
r代表第r个候选实体,i代表指称上下文的第i个编码向量,j代表候选实体知识描述的第j个编码向量;通过对增强后的局部推理信息进行池化,从而提取特征vr表示第r个候选实体知识描述与指称上下文结合得到的特征向量;S表示候选实体数量;预测模块对所有候选实体的相关度进行归一化,可以得到各个候选实体同指称的相关度概率:
所述步骤3,包括:对实体知识描述页面的长度进行惩罚,以使得抽取时更关注实体知识描述页面信息少的实体;由实体知识描述页面长度K,知识库所有实体描述的平均页面长的S,平均从实体页面提取出的关键词个数lm以及长度惩罚参数λ得出惩罚后的长度:
式中:len(K)表示实体知识描述页面惩罚后的长度,K为当前实体知识描述页面长度,S为知识库所有实体的知识描述页面的平均长度,lm为平均要从实体知识描述页面提取出的关键词个数,λ为长度惩罚参数;抽取完的关键词属于词袋模型,故而通用匹配模型采用的输入编码方式是直接映射这些词语到词向量空间。
用于计算指称的上下文同指称的候选实体的分数。
所述步骤5,包括:
针对文本所有指称集合M,m∈M,以及各自上下文C,c∈C,和各自候选实体T(m1),T(m2)…,建立全局模型,e为每个指称候选实体中选择一个实体:
式中:Φ(e,e′)是二元因子式,xe为实体e的向量表示;xe′为实体e′的向量表示,;C是上下文文本集合,g(e,c,m)表示全局模型;ψi(ei)=F(ei,ci,mi)为局部模型全连接网络的局部分数。
所述步骤6中的损失函数为最大边际损失函数(max-margin loss)。最大边际损失函数(max-margin loss)使得正确实体的排序高于其他候选实体。联合局部模型和全局模型从不同方面进行消歧。
下面将结合具体一个实例在模型中训练的过程更详细地描述本发明的示例性实施例。
上下文与候选实体向量
在含有“十面埋伏”的文本中,抽取实体上下文信息,比如“演唱会”“陈奕迅”“演唱”等的向量表示,以及知识库中备选实体“十面埋伏(电影)”、“十面埋伏(歌曲)”、“十面埋伏(成语)”、“十面埋伏(乐曲)”的向量表示,由上述步骤(1)中提到的公式获取之间的相似度。
融合实体知识描述
将文本上下文的描述以及候选实体的描述,比如候选实体“十面埋伏(电影)”的知识描述“张艺谋执导电影”等信息,进行编码输入,得到其于上下文的注意力关系,通过联合模块的局部信息推理进行池化,提取特征,得到各个候选实体同指称的相关度概率。
实体知识关键词抽取
对候选实体的知识描述文本段落,进行关键词抽取,获得更简短的关键词信息如“电影”“张艺谋导演”等信息,之后利用上述步骤(3)中的长度惩罚机制,对热门实体进行惩罚以使得实体消歧时更多地关注非热门实体。
模型训练
在上述完成之后,输入模型训练,更具上述步骤(4)(5)(6)提到的公式,以及已知的训练数据“十面埋伏(歌曲)”,计算出模型的参数,可以用于后续实体识别时的预测。如利用训练好的模型,在识别包含“烟火人间这一首古风歌曲唱出了极致的磅礴和渺远感,让人感受到别样的新意和意义”这样一段的文本时,能够从候选实体“烟火人间(歌曲)”“烟火人间(散文集)”“烟火人间(老舍作品精选集)”中识别出“烟火人间(歌曲)”这一实体。
以上所述仅为本发明较佳实例而已,本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
Claims (7)
1.一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,包括以下步骤:
步骤1:使用指称上下文文本和候选实体进行建模,计算指称上下文文本与候选实体的相似度;
步骤2:使用候选实体知识描述的文本信息与指称的上下文文本进行建模;
步骤3:对候选实体知识描述关键词提取;
步骤4:建立实体消歧的局部模型;
步骤5:建立实体消歧的全局模型;
步骤6:引入损失函数,训练找到步骤4中的目标式。
2.根据权利要求1所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤1,包括:对于指称m,选取大小为K的窗口作为其上下文c={ω1,ω2,ω3…ωk},T(m)作为候选实体生成,元素e∈T(m),利用得到候选实体的权重信息,其中A为参数,之后根据式c={ω∈c|u(ω)∈topR(u)}除去上下文中不重要的词语,对上下文信息进行枝剪到R≤K,后将筛减后的上下文权重信息重新归一化:
式中:ω为上下文向量,u(ω)为候选实体权重信息,exp[u(ω)]为上下文权重信息数学期望值,β(ω)为归一化枝剪后的下上文权重信息;
得到上下文向量xc以及其和各个候选实体向量之间的相似度,表示上下文与候选实体之间的相似度:
式中:xc为计算到的上下文向量,β(ω)为上文中计算的归一化枝剪后的下上文权重,xe为候选实体向量,B为参数矩阵,ψ(e,c)表示上下文与候选实体之间的相似度。
4.根据权利要求3所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤3,包括:对实体知识描述页面的长度进行惩罚,以使得抽取时更关注实体知识描述页面信息少的实体;由实体知识描述页面长度K,知识库所有实体描述的平均页面长的S,平均从实体页面提取出的关键词个数lm以及长度惩罚参数λ得出惩罚后的长度:
式中:len(K)表示实体知识描述页面惩罚后的长度,K为当前实体知识描述页面长度,S为知识库所有实体的知识描述页面的平均长度,lm为平均要从实体知识描述页面提取出的关键词个数,λ为长度惩罚参数;抽取完的关键词属于词袋模型,故而通用匹配模型采用的输入编码方式是直接映射这些词语到词向量空间。
7.根据权利要求5所述的一种基于结合知识描述的神经网络的实体消歧的方法,其特征在于,所述步骤6中的损失函数为最大边际损失函数(max-marginloss)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011467935.2A CN112765983A (zh) | 2020-12-14 | 2020-12-14 | 一种基于结合知识描述的神经网络的实体消歧的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011467935.2A CN112765983A (zh) | 2020-12-14 | 2020-12-14 | 一种基于结合知识描述的神经网络的实体消歧的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112765983A true CN112765983A (zh) | 2021-05-07 |
Family
ID=75693665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011467935.2A Pending CN112765983A (zh) | 2020-12-14 | 2020-12-14 | 一种基于结合知识描述的神经网络的实体消歧的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112765983A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360605A (zh) * | 2021-06-23 | 2021-09-07 | 中国科学技术大学 | 基于主题实体语境迭代优化的全局实体链接方法 |
CN114003735A (zh) * | 2021-12-24 | 2022-02-01 | 北京道达天际科技有限公司 | 基于情报文档面向知识图谱问答的实体消歧方法 |
CN115422934A (zh) * | 2022-07-08 | 2022-12-02 | 中国科学院空间应用工程与技术中心 | 一种航天文本数据的实体识别与链接方法、系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203511A (zh) * | 2017-05-27 | 2017-09-26 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN112069826A (zh) * | 2020-07-15 | 2020-12-11 | 浙江工业大学 | 融合主题模型和卷积神经网络的垂直域实体消歧方法 |
-
2020
- 2020-12-14 CN CN202011467935.2A patent/CN112765983A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203511A (zh) * | 2017-05-27 | 2017-09-26 | 中国矿业大学 | 一种基于神经网络概率消歧的网络文本命名实体识别方法 |
CN112069826A (zh) * | 2020-07-15 | 2020-12-11 | 浙江工业大学 | 融合主题模型和卷积神经网络的垂直域实体消歧方法 |
Non-Patent Citations (1)
Title |
---|
范鹏程 等: "融合实体知识描述的实体联合消歧方法", 《中文信息学报》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360605A (zh) * | 2021-06-23 | 2021-09-07 | 中国科学技术大学 | 基于主题实体语境迭代优化的全局实体链接方法 |
CN113360605B (zh) * | 2021-06-23 | 2024-02-23 | 中国科学技术大学 | 基于主题实体语境迭代优化的全局实体链接方法 |
CN114003735A (zh) * | 2021-12-24 | 2022-02-01 | 北京道达天际科技有限公司 | 基于情报文档面向知识图谱问答的实体消歧方法 |
CN115422934A (zh) * | 2022-07-08 | 2022-12-02 | 中国科学院空间应用工程与技术中心 | 一种航天文本数据的实体识别与链接方法、系统 |
CN115422934B (zh) * | 2022-07-08 | 2023-06-16 | 中国科学院空间应用工程与技术中心 | 一种航天文本数据的实体识别与链接方法、系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008469B (zh) | 一种多层次命名实体识别方法 | |
CN111859935B (zh) | 基于文献的癌症相关生物医学事件数据库构建方法 | |
Yang et al. | Generating thematic chinese poetry using conditional variational autoencoders with hybrid decoders | |
CN112765983A (zh) | 一种基于结合知识描述的神经网络的实体消歧的方法 | |
CN111475629A (zh) | 一种面向数学辅导问答系统的知识图谱构建方法及其系统 | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN110110061A (zh) | 基于双语词向量的低资源语种实体抽取方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN111444298B (zh) | 一种基于兴趣点知识图谱预训练的地址匹配算法 | |
CN108268449A (zh) | 一种基于词项聚类的文本语义标签抽取方法 | |
CN112069408A (zh) | 一种融合关系抽取的推荐系统及方法 | |
CN111222318B (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN110263325A (zh) | 中文分词系统 | |
CN113312452A (zh) | 基于多任务学习的篇章级文本连贯性分类方法 | |
CN110765755A (zh) | 一种基于双重选择门的语义相似度特征提取方法 | |
CN115062140A (zh) | 一种bert sum和pgn融合的供应链生态区长文档摘要生成方法 | |
CN114428850B (zh) | 一种文本检索匹配方法和系统 | |
Xafopoulos et al. | Language identification in web documents using discrete HMMs | |
CN114880461A (zh) | 一种结合对比学习和预训练技术的中文新闻文本摘要方法 | |
CN113821635A (zh) | 一种用于金融领域的文本摘要的生成方法及系统 | |
CN111666752A (zh) | 一种基于关键词注意力机制的电路教材实体关系抽取方法 | |
CN117763363A (zh) | 基于知识图谱与提示学习的跨网络学术社区资源推荐方法 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN115422939A (zh) | 一种基于大数据的细粒度商品命名实体识别方法 | |
CN114444515A (zh) | 一种基于实体语义融合的关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210507 |
|
RJ01 | Rejection of invention patent application after publication |