CN112784604A - 一种基于实体边界网络的实体链接方法 - Google Patents

一种基于实体边界网络的实体链接方法 Download PDF

Info

Publication number
CN112784604A
CN112784604A CN202110172278.7A CN202110172278A CN112784604A CN 112784604 A CN112784604 A CN 112784604A CN 202110172278 A CN202110172278 A CN 202110172278A CN 112784604 A CN112784604 A CN 112784604A
Authority
CN
China
Prior art keywords
entity
model
sentence
candidate entity
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110172278.7A
Other languages
English (en)
Inventor
张海军
伍映吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110172278.7A priority Critical patent/CN112784604A/zh
Publication of CN112784604A publication Critical patent/CN112784604A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提出了一种基于实体边界网络的实体链接方法,首先候选实体生成,通过候选实体提取和候选实体匹配来保证候选实体列表具有较高的召回率;再进行候选实体消歧,构建基于关键词的神经网络模型,利用实体描述信息,语义信息和上下文信息,使用一个损失函数来处理多个加权类型,然后使用全连接网络进行训练,最后通过二分类方法得到实体链接的预测结果,输出实体链接关系;和现有方案相比,本发明具有更高的实体召回率。

Description

一种基于实体边界网络的实体链接方法
技术领域
本发明涉及人工智能自然语言处理领域,具体地,涉及一种基于实体边界网络的实体链接方法。
背景技术
近年来,随着人工智能技术的迅猛发展,如何通过自然语言处理技术(NLP)让机器实现人类语言理解受到众多学者的关注。而如何训练计算机识别文本中的实体,并将实体正确无误的链接到数据库中,这是让计算机理解人类语言的关键步骤。实体链接(EntityLinking,EL)是指挖掘人类语言文本出现的潜在实体关系,并链接到所在的知识图谱实体上,解决实体间存在歧义性(即一词多义)和多样性(即多词一义)的任务。常用于知识图谱的构建、信息事件抽取和智能问答等应用中。目前传统的实体链接模型往往依赖于海量的文本标注,存在着需要消耗大量人工、大量时间、大量金钱的问题、且存在受限于语言和无法快速规模化的困难。如何利用自然语言处理技术、机器学习技术(ML)和深度学习技术(DL)等前沿方法,自动或者高效进行实体关系的链接,成为了当前亟需攻克的问题。因此,实体链接的方法研究得到了世界范围内研究人员的广泛关注。
发明内容
本发明为了解决现有技术中的不足,将命名实体识别任务的数据和方法引入,获得更好的候选实体召回结果,提出了一种基于实体边界网络的实体链接方法。
一种基于实体边界网络的实体链接方法,所述方法包括以下步骤:
A、候选实体生成:所述候选实体生成通过候选实体提取和候选实体匹配两个步骤,来保证候选实体列表具有较的召回率;
B、候选实体消歧:构建一个基于关键词的神经网络模型,所述模型给定一个的起始<i,j>,通过模型来预测p(l|<i,j>),从而得到实体的得分;所述模型利用实体描述信息、语义信息和上下文信息,并使用一个损失函数来处理多个加权类型,再使用全连接网络进行训练,最后通过二分类方法得到实体链接的结果。
进一步地,所述步骤A包括以下步骤:
A1、候选实体提取:通过命名实体识别步骤,先使用Bert算法模型进行词向量的扩展,再基于BiLSTM和CRF的候选实体生成针对命名实体识别任务,完成候选实体提取:
A2、候选实体匹配:通过子字符串扩展解决多词一义的问题,完成候选实体匹配。
进一步地,所述步骤A1包括以下步骤:
A11、将Bert算法模型改进:基于Bert算法模型的词向量扩展任务分为预训练阶段和微调阶段,同时预训练阶段的模型参数可以复用,因此利用完成预训练的Bert模型参数作为微调阶段的输入;
(1)预训练阶段:
在预训练阶段,分别使用两个无监督任务对模型进行预训练;
所述第一无监督任务为基于语言模型的词预测任务;在训练过程中,模型随机遮盖[MASK]了一定比例的字符,之后利用模型对这些被遮盖的词进行预测;同时,为了解决在微调阶段模型从未看到[MASK]字符的问题,对于选中的字符,方法为
1)80%的概率利用[MASK]字符代替;
2)10%的概率利用随机单词代替;
3)10%的概率保证单词不被遮盖;
采用随机遮蔽方法,能够强制Bert模型记住更多的上下文语义信息;
所述第二无监督任务为句子预测任务:对模型同时输入两个句子A和B,其中,句子B有一定概率是句子A的下一句,通过模型获取的上下文信息判断句子B是否为A的下一句,利用针对多个句子的建模,来强迫Bert模型编码更多的篇章信息;
(2)微调阶段:
针对实体链接任务,Bert模型的输入包含了代表短文本中的句子数据,位置信息和字典的语义信息;再将Bert模型的输入合并为一个序列,所述序列包含为[CLS]和[SEP]标识符;
其中[CLS]标识符标识了序列中的第一个元素,表示该序列的分类模型,并作为模型的最终隐藏状态输出;[SEP]标识符用于分割一对句子;
在微调阶段,将[CLS]的输出接一个全连接层进行分类,能够得到针对文本相关性的分类结果输出;
A12、基于BiLSTM和CRF的候选实体生成针对命名实体识别任务:
针对实体识别任务,综合两者的上下文信息和语义信息,对文本进行联合建模;
作为语义特征的表示层,RNN通过利用多层结构深入挖掘语义特征标识,在建模过程中,通过内部隐藏层单元提取文本词语间的依赖关系,同时建模当前时刻的输入及上一时刻的输出;
通过BiLSTM特征提取,对数据中语句进行特征建模,解决文本中的长距离依赖问题,同时从正向和反向两个词语方向分别提取上下文语义特征;再通过CRF模型进一步做句子级约束,解决梯度消失问题。
进一步地,所述步骤A2包括以下步骤:
在A2中,对CRF层输出的结果采用子字符串扩展的方法,构建候选实体集,对于候选实体集中每一个命名实体,将文档中所有包含相同实体的命名实体都标注出来。
进一步地,所述步骤B包括以下步骤:
(1)构建候选实体词向量:
神经网络模型应用Bert算法模型进行上下文语义的词汇表征来提取候选实体词信息;然后将预先训练好的单词嵌入,形成单词表示[h1,h2,…,hn];
(2)构建句子上下文信息词向量:
给定一个范围c=<i,j>,将句子分为三个部分,从BiLSTM层得到三个部分对应的隐藏信息表示,同时加入包含候选实体语句信息的句子边界信息;
将候选实体词向量和句子上下文信息词向量进行拼接,得到拼接向量m,将拼接向量m输入进全连接网络中进行特征学习;
基于二分类方法进行实体消歧:将候选实体输入到Bert模型,选择构建候选实体词向量和句子上下文信息词向量,以及候选实体对应开始和结束为止对应的特征向量,三个向量拼接到一起,经过全连接网络,sigmoid激活得到候选实体的概率得分,针对候选实体消歧中所有候选实体的结果得分进行排序,将排序首位作为实体链接模型的最终输出。
附图说明
图1为本发明的基于实体边界网络的实体链接方法的流程图;
图2为本发明的候选实体生成任务示意图;
图3为本发明的候选实体生成示意图;
图4为本发明的候选实体消歧任务示意图;
图5为本发明的候选实体消歧任务结构图;
图6为本发明的Bert改进示意图;
图7为本发明的基于BiLSTM+CRF的框架图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于实体边界网络的实体链接方法,所述方法包括以下步骤:
A、候选实体生成:所述候选实体生成通过候选实体提取和候选实体匹配两个步骤,来保证候选实体列表具有较高的召回率;
B、候选实体消歧:构建一个基于关键词的神经网络模型,所述模型给定一个的起始<i,j>,通过模型来预测p(l|=<i,j>),从而得到实体的得分;所述模型利用实体描述信息、语义信息和上下文信息,并使用一个损失函数来处理多个加权类型,再使用全连接网络进行训练,最后通过二分类方法得到实体链接的结果。
所述步骤A包括以下步骤:
A1、候选实体提取:通过命名实体识别步骤,先使用Bert算法模型进行词向量的扩展,再基于BiLSTM和CRF的候选实体生成针对命名实体识别任务,通过命名实体识别,增加候选实体的数量,提升候选实体集的召回率,完成候选实体提取:
A2、候选实体匹配:通过子字符串扩展解决多词一义的问题,完成候选实体匹配。
所述步骤A1包括以下步骤:
A11、将Bert算法模型改进:基于Bert算法模型的词向量扩展任务分为预训练阶段和微调阶段,同时预训练阶段的模型参数可以复用,因此利用完成预训练的Bert模型参数作为微调阶段的输入;
(1)预训练阶段:
在预训练阶段,分别使用两个无监督任务对模型进行预训练;
所述第一无监督任务为基于语言模型的词预测任务;在训练过程中,类似于完形填空,模型随机遮盖[MASK]了一定比例的字符,之后利用模型对这些被遮盖的词进行预测;同时,为了解决在微调阶段模型从未看到[MASK]字符的问题,对于选中的字符,方法为
1)80%的概率利用[MASK]字符代替;
2)10%的概率利用随机单词代替;
3)10%的概率保证单词不被遮盖;
采用随机遮蔽方法,能够强制Bert模型记住更多的上下文语义信息;
所述第二无监督任务为句子预测任务:对模型同时输入两个句子A和B,其中,句子B有一定概率是句子A的下一句,通过模型获取的上下文信息判断句子B是否为A的下一句,利用针对多个句子的建模,来强迫Bert模型编码更多的篇章信息;
(2)微调阶段:
Bert模型的输入包括三个向量的求和,所述三个向量分别为:表示当前字符的向量、表示当前句子的向量,和表示当前词所在位置的向量;
针对实体链接任务,Bert模型的输入包含了代表短文本中的句子数据,位置信息和字典的语义信息;再将Bert模型的输入合并为一个序列,所述序列包含为[CLS]和[SEP]标识符;
其中[CLS]标识符标识了序列中的第一个元素,表示该序列的分类模型,并作为模型的最终隐藏状态输出;[SEP]标识符用于分割一对句子;
在微调阶段,将[CLS]的输出接一个全连接层进行分类,能够得到针对文本相关性的分类结果输出;
与传统的Bert预训练算法不同的是,本步骤通过实验验证了Bert每一层对文本的理解都有所不同。
以十二层Transformer为例:
1.Transformer低层网络结构学习到的是短语句法的特征信息;
2.Transformer中层网络结构学习到的是语言学特征信息;
3.Transformer.高层网络结构学习到的是语义信息特征信息,
由此提出一个Bert的改进方法,针对Bert的十二层Transformer构建一个动态权重,与Bert不同的具体实验步骤如下。
1)将Bert的十二层Transformer生成的表示赋予一个权重,通过训练来确定权重值,αi越大说明这一层对结果贡献越大;权重公式为:
αi=Denseunit=1(representi)
2)将每一层生成的表示加权平均;
3)再通过一层全连接层降维至512维;
其中represent i为Bert每一层输出的表示,为权重Bert每一层表示的权重值。
Figure BDA0002939291980000051
在得到权重矩阵值后,得到句子的概率向量logit,进而得到每一个字或英文单词的标注概率:
Logit=[C]L×H[W]K×H T
A12、基于BiLSTM和CRF的候选实体生成针对命名实体识别任务:
针对实体识别任务,综合两者的上下文信息和语义信息,对文本进行联合建模;
作为语义特征的表示层,RNN通过利用多层结构深入挖掘语义特征标识,在建模过程中,通过内部隐藏层单元提取文本词语间的依赖关系,同时建模当前时刻的输入及上一时刻的输出;
通过BiLSTM特征提取,对数据中语句进行特征建模,解决文本中的长距离依赖问题,同时从正向和反向两个词语方向分别提取上下文语义特征;再通过CRF模型进一步做句子级约束,解决梯度消失问题。
给定输出文本x=(x1,...,xn),BiLSTM层首先将x转换为对应的隐状态向量(h1,...,hn),其中,每个隐状态向量hi通过连接单词xi对应的正反向两个隐状态向量
Figure BDA0002939291980000061
Figure BDA0002939291980000062
得到完整的隐状态序列,通过双向LSTM层能高效的表示出这个单词在上下文中的含义。然后,基于hi通过softmax函数可以获得单词xi在全部可能NER标记上的分布Pi,Pi表示该单词对应各个类别的分数,由此得到隐状态序列学习到隐含的句子信息。其中,
Figure BDA0002939291980000063
表示xi单词对应NER标记是tagj的概率,这些分数将是CRF层的输入。
NER是一类特殊的任务,因为表征标签的可解释为基于序列“语法”的基础上加了特定的约束特征,比如:命名实体的开始部位应该不是“I-”而是“B-”。句子的前后的语义特征可通过CRF层学习到,最终实验结果的有效性利用约束条件来保障。CRF层定义输入文本x的某个标注结果y对应的得分为s(x,y):
Figure BDA0002939291980000064
其中A表示状态转移参数矩阵,通过模型训练得到矩阵
Figure BDA0002939291980000065
从状态yi-1转移到状态yi的概率,目的是学习标签之间的约束关系。每种NER标注结果y的概率通过公式进行归一化计算:
Figure BDA0002939291980000066
该模型设计的参数通过在训练数据上最大化Log[P(y|x)]进行优化,采用维特比解码,维特比解码具有复杂度较低的优点。每个节点将会记录之前所有节点到当前节点的路径总和,并计算得到所有路径的总和,最后选择得分最高的作为预测结果,输出公式为:
previous=[max(score[00],score[10],max(score[01],score[11])]
所述步骤A2包括以下步骤:
A21、步骤A1中,对CRF层输出的结果采用子字符串扩展的方法,构建候选实体集,对于数据集中每一个命名实体,将文档中所有包含相同实体的命名实体都标注出来,有效解决多词一义的问题。
所述步骤B包括以下步骤:
(1)构建候选实体词向量:
神经网络模型应用Bert算法模型进行上下文语义的词汇表征来提取候选实体词信息;然后将预先训练好的单词嵌入,形成单词表示[h1,h2,…,hn];
(2)构建句子上下文信息词向量:
给定一个范围c=<i,j>,将句子分为三个部分,从BiLSTM层得到三个部分对应的隐藏信息表示,同时加入包含候选实体语句信息的句子边界信息;
将候选实体词向量和句子上下文信息词向量进行拼接得到m。将m输入进全连接网络中进行特征学习;
Figure BDA0002939291980000071
基于二分类方法进行实体消歧:将候选实体输入到Bert模型,选择构建候选实体词向量和句子上下文信息词向量,以及候选实体对应开始和结束为止对应的特征向量,三个向量拼接到一起,经过全连接网络,sigmoid激活得到候选实体的概率得分,针对候选实体消歧中所有候选实体的结果得分进行排序,将排序首位作为实体链接模型的最终输出。
以上对本发明所提出的一种基于实体边界网络的实体链接方法,进行了详细介绍,本文中应用了数值模拟算例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (5)

1.一种基于实体边界网络的实体链接方法,其特征在于,所述方法包括以下步骤:
A、候选实体生成:所述候选实体生成通过候选实体提取和候选实体匹配两个步骤,来保证候选实体列表具有高的召回率;
B、候选实体消歧:构建一个基于关键词的神经网络模型,所述模型给定一个的起始<i,j>,通过模型来预测p(l|<i,j>),从而得到实体的得分;所述模型利用实体描述信息、语义信息和上下文信息,并使用一个损失函数来处理多个加权类型,再使用全链接网络进行训练,最后通过二分类方法得到实体链接的结果。
2.根据权利要求1所述方法,其特征在于:所述步骤A包括以下步骤:
A1、候选实体提取:通过命名实体识别步骤,先使用Bert算法模型进行词向量的扩展,再基于BiLSTM和CRF的候选实体生成针对命名实体识别任务,完成候选实体提取:
A2、候选实体匹配:通过子字符串扩展解决多词一义的问题,完成候选实体匹配。
3.根据权利要求2所述方法,其特征在于:所述步骤A1包括以下步骤:
A11、将Bert算法模型改进:基于Bert算法模型的词向量扩展任务分为预训练阶段和微调阶段,同时预训练阶段的模型参数可以复用,因此利用完成预训练的Bert模型参数作为微调阶段的输入;
(1)预训练阶段:
在预训练阶段,分别使用两个无监督任务对模型进行预训练;
所述第一无监督任务为基于语言模型的词预测任务;在训练过程中,模型随机遮盖[MASK]了一定比例的字符,之后利用模型对这些被遮盖的词进行预测;同时,为了解决在微调阶段模型从未看到[MASK]字符的问题,对于选中的字符,方法为
1)80%的概率利用[MASK]字符代替;
2)10%的概率利用随机单词代替;
3)10%的概率保证单词不被遮盖;
采用随机遮蔽方法,能够强制Bert模型记住更多的上下文语义信息;
所述第二无监督任务为句子预测任务:对模型同时输入两个句子A和B,其中,句子B有一定概率是句子A的下一句,通过模型获取的上下文信息判断句子B是否为A的下一句,利用针对多个句子的建模,来强迫Bert模型编码更多的篇章信息;
(2)微调阶段:
针对实体链接任务,Bert模型的输入包含了代表短文本中的句子数据,位置信息和字典的语义信息;再将Bert模型的输入合并为一个序列,所述序列包含为[CLS]和[SEP]标识符;
其中[CLS]标识符标识了序列中的第一个元素,表示该序列的分类模型,并作为模型的最终隐藏状态输出;[SEP]标识符用于分割一对句子;
在微调阶段,将[CLS]的输出接一个全连接层进行分类,能够得到针对文本相关性的分类结果输出;
A12、基于BiLSTM和CRF的候选实体生成针对命名实体识别任务:
针对实体识别任务,综合两者的上下文信息和语义信息,对文本进行联合建模;
作为语义特征的表示层,RNN通过利用多层结构深入挖掘语义特征标识,在建模过程中,通过内部隐藏层单元提取文本词语间的依赖关系,同时建模当前时刻的输入及上一时刻的输出;
通过BiLSTM特征提取,对数据中语句进行特征建模,解决文本中的长距离依赖问题,同时从正向和反向两个词语方向分别提取上下文语义特征;再通过CRF模型进一步做句子级约束,解决梯度消失问题。
4.根据权利要求3所述方法,其特征在于:所述步骤A2包括以下步骤:
在步骤A2中,对CRF层输出的结果采用子字符串扩展的方法,构建候选实体集,对于候选实体集中每一个命名实体,将文档中所有包含相同实体的命名实体都标注出来。
5.根据权利要求4所述方法,其特征在于:所述步骤B包括以下步骤:
(1)构建候选实体词向量:
神经网络模型应用Bert算法模型进行上下文语义的词汇表征来提取候选实体词信息;然后将预先训练好的单词嵌入,形成单词表示[h1,h2,…,hn];
(2)构建句子上下文信息词向量:
给定一个范围c=<i,j>,将句子分为三个部分,从BiLSTM层得到三个部分对应的隐藏信息表示,同时加入包含候选实体语句信息的句子边界信息;
将候选实体词向量和句子上下文信息词向量进行拼接,得到拼接向量m;将拼接向量m输入进全链接网络中进行特征学习;
基于二分类方法进行实体消歧:将候选实体输入到Bert模型,选择构建候选实体词向量和句子上下文信息词向量,以及候选实体对应开始和结束为止对应的特征向量,三个向量拼接到一起,经过全链接网络,sigmoid激活得到候选实体的概率得分,针对候选实体消歧中所有候选实体的结果得分进行排序,将排序首位作为实体链接模型的最终输出。
CN202110172278.7A 2021-02-08 2021-02-08 一种基于实体边界网络的实体链接方法 Pending CN112784604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110172278.7A CN112784604A (zh) 2021-02-08 2021-02-08 一种基于实体边界网络的实体链接方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110172278.7A CN112784604A (zh) 2021-02-08 2021-02-08 一种基于实体边界网络的实体链接方法

Publications (1)

Publication Number Publication Date
CN112784604A true CN112784604A (zh) 2021-05-11

Family

ID=75761279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110172278.7A Pending CN112784604A (zh) 2021-02-08 2021-02-08 一种基于实体边界网络的实体链接方法

Country Status (1)

Country Link
CN (1) CN112784604A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626613A (zh) * 2021-08-18 2021-11-09 中山大学附属第一医院 基于融入知识图谱子图信息及实体信息的实体链接方法
CN113704416A (zh) * 2021-10-26 2021-11-26 深圳市北科瑞声科技股份有限公司 词义消歧方法、装置、电子设备及计算机可读存储介质
CN113869049A (zh) * 2021-12-03 2021-12-31 北京大学 基于法律咨询问题的具有法律属性的事实抽取方法及装置
CN115438674A (zh) * 2022-11-08 2022-12-06 腾讯科技(深圳)有限公司 实体数据处理、实体链接方法、装置和计算机设备
WO2023035526A1 (zh) * 2021-09-10 2023-03-16 平安科技(深圳)有限公司 对象排序方法、相关设备及介质
CN117521659A (zh) * 2024-01-04 2024-02-06 西安电子科技大学 基于语义增强预训练孪生网络的中文实体链接方法和系统

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626613A (zh) * 2021-08-18 2021-11-09 中山大学附属第一医院 基于融入知识图谱子图信息及实体信息的实体链接方法
CN113626613B (zh) * 2021-08-18 2022-07-05 中山大学附属第一医院 基于融入知识图谱子图信息及实体信息的实体链接方法
WO2023035526A1 (zh) * 2021-09-10 2023-03-16 平安科技(深圳)有限公司 对象排序方法、相关设备及介质
CN113704416A (zh) * 2021-10-26 2021-11-26 深圳市北科瑞声科技股份有限公司 词义消歧方法、装置、电子设备及计算机可读存储介质
CN113704416B (zh) * 2021-10-26 2022-03-04 深圳市北科瑞声科技股份有限公司 词义消歧方法、装置、电子设备及计算机可读存储介质
CN113869049A (zh) * 2021-12-03 2021-12-31 北京大学 基于法律咨询问题的具有法律属性的事实抽取方法及装置
CN115438674A (zh) * 2022-11-08 2022-12-06 腾讯科技(深圳)有限公司 实体数据处理、实体链接方法、装置和计算机设备
CN117521659A (zh) * 2024-01-04 2024-02-06 西安电子科技大学 基于语义增强预训练孪生网络的中文实体链接方法和系统
CN117521659B (zh) * 2024-01-04 2024-03-26 西安电子科技大学 基于语义增强预训练孪生网络的中文实体链接方法和系统

Similar Documents

Publication Publication Date Title
CN112784604A (zh) 一种基于实体边界网络的实体链接方法
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN110609891A (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110008469B (zh) 一种多层次命名实体识别方法
CN112733541A (zh) 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN110083831A (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN109086269B (zh) 一种基于语义资源词表示和搭配关系的语义双关语识别方法
CN111695341A (zh) 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统
KR20190065665A (ko) 딥 러닝을 이용한 한국어 개체명 인식 장치 및 방법
CN111428104A (zh) 基于观点型阅读理解的癫痫病辅助医疗智能问答方法
CN115292463A (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN112309528A (zh) 一种基于视觉问答方法的医疗影像报告生成方法
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN114428850A (zh) 一种文本检索匹配方法和系统
CN110222344B (zh) 一种针对小学生作文辅导的作文要素分析算法
CN113360667B (zh) 基于多任务学习的生物医学触发词检测和命名实体识别方法
CN114841167A (zh) 一种基于图神经网络多嵌入联合的临床命名实体识别方法
CN111553157A (zh) 一种基于实体替换的对话意图识别方法
CN113076718B (zh) 一种商品属性抽取方法及其系统
CN114298010A (zh) 一种融合双语言模型和句子检测的文本生成方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN113779992A (zh) 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination