CN114841164A - 一种实体链接方法、装置、设备及存储介质 - Google Patents

一种实体链接方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114841164A
CN114841164A CN202210466937.2A CN202210466937A CN114841164A CN 114841164 A CN114841164 A CN 114841164A CN 202210466937 A CN202210466937 A CN 202210466937A CN 114841164 A CN114841164 A CN 114841164A
Authority
CN
China
Prior art keywords
entity
training
model
sequence
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210466937.2A
Other languages
English (en)
Inventor
赵雅倩
徐聪
郭振华
范宝余
金良
刘璐
闫瑞栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202210466937.2A priority Critical patent/CN114841164A/zh
Publication of CN114841164A publication Critical patent/CN114841164A/zh
Priority to PCT/CN2022/135991 priority patent/WO2023207096A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及自然语言处理技术领域,公开了一种实体链接方法、装置、设备及存储介质,包括:获取与输入文本对应的实体提及、候选实体以及实体描述;构建包含实体提及与实体描述的第一融合序列和包含候选实体与输入文本的第二融合序列;利用第一模型计算实体提及的第一融合序列与第二融合序列的相似度,并根据相似度从候选实体中确定出实体提及的链接实体;第三模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到。本申请在实体链接中融入实体描述信息,同时通过正负样本对比学习的方式训练模型来实现实体消歧,提高实体链接准确度以及在开放知识图谱上进行实体链接的性能。

Description

一种实体链接方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种实体链接方法、装置、设备及存储介质。
背景技术
实体链接是将文本中所提及的实体链接到知识库中的相应实体,是让机器理解自然语言的第一步,也是至关重要的一步。实体链接的输入通常包含实体的指代(Mention)和上下文以及待链接的知识库,实体链接的输出是指代所对应的知识库的实体。当指代与实体之间是一一对应的关系,也就是没有歧义时,实体链接问题十分简单,但实际应用中其往往会存在歧义。一方面,一个实体可以有多种表达方式;另一方面,同一名称可以指代不同实体。
现有技术中,实体链接的方法大致包括命名实体识别(MD,mention detection)、候选实体的生成和实体的消歧三个步骤。然而这种做法的缺点是如果第一步的mentiondetection发生错误,后面候选实体的生成和消歧操作将会产生错误的叠加,导致结果不佳。
因此,如何提高实体链接的准确度是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种实体链接方法、装置、设备及存储介质,能够提高实体链接准确度以及在开放知识图谱上进行实体链接的性能。其具体方案如下:
本申请的第一方面提供了一种实体链接方法,包括:
获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;
构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列;
利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。
可选的,所述获取与输入文本对应的实体提及,包括:
利用第二模型确定所述输入文本的实体提及位置,并根据实体提及位置确定出与所述输入文本对应的所述实体提及。
可选的,所述第二模型包括BERT神经网络和CRF神经网络;
相应的,所述利用第二模型确定所述输入文本的实体提及位置,包括:
将所述输入文本的词向量依次通过所述BERT神经网络和所述CRF神经网络进行处理,得到表征实体提及位置的BIO标签。
可选的,获取所述实体提及的候选实体以及所述候选实体的实体描述,包括:
利用第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度,并将大于第一阈值的所述匹配度对应的别名种类的实体确定为所述候选实体;
从所述实体列表中读取出所述候选实体的所述实体描述。
可选的,所述实体链接方法,还包括:
获取所述训练文本;
利用第二模型对所述训练文本进行实体提取得到与所述训练文本对应的所述实体提及训练样本,并通过第三模型确定出与所述实体提及训练样本对应的候选实体训练样本;
从所述候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本;
将由所述实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与所述训练文本组成的序列确定为第二正样本序列,以及将由所述实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与所述训练文本组成的序列确定为第二负样本序列;
利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到所述第一模型。
可选的,所述利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到所述第一模型,包括:
利用预训练模型分别计算所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列的表征向量,并根据由各表征向量之间的所述相似度计算NCE_LOSS函数的损失值后对相关网络参数进行调整以使所述损失值小于第二阈值。
可选的,所述实体链接方法,还包括:
将获取所述实体提及的第二模型、获取所述候选实体的所述第三模型、和所述第三模型集成至一个模型,以得到对应的端到端整合模型;
在进行模型训练时,通过对采用交叉熵损失函数的所述第二模型进行训练并以训练后的所述第二模型的输出作为所述第一模型的输入对所述第一模型进行训练;
在进行实体链接时,将所述输入文本输入至所述端到端整合模型以依次经过所述第二模型、所述第三模型和所述第一模型处理后输出相应的所述相似度。
本申请的第二方面提供了一种实体链接装置,包括:
获取模块,用于获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;
构建模块,用于构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列;
计算确定模块,用于利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。
本申请的第三方面提供了一种电子设备,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述实体链接方法。
本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述实体链接方法。
本申请中,先获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;然后构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列;最后利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。可见,本申请适用于任何开放知识图谱的实体链接任务,在对输入文本进行实体链接处理时,在初步提取到该输入文本的实体提及并确定出候选实体的基础上,进一步获取候选实体对应的实体描述,在实体链接中融入实体描述信息得到对应的融合序列,同时通过正负样本对比学习的方式训练模型来实现实体消歧,利用训练后的模型对融合序列进行相似度计算以此筛选出候选实体中的正确实体也即链接实体,提高了实体链接准确度以及在开放知识图谱上进行实体链接的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种实体链接方法流程图;
图2为本申请提供的一种具体的第一模型训练方法流程图;
图3为本申请提供的一种具体的实体链接方法流程图;
图4为本申请提供的一种具体的实体链接方法流程图;
图5为本申请提供的一种具体的第二模型结构图;
图6为本申请提供的一种具体的实体链接逻辑图;
图7为本申请提供的一种实体链接装置结构示意图;
图8为本申请提供的一种实体链接电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,采用依次进行命名实体识别(MD,mention detection)、候选实体的生成和实体的消歧的步骤进行实体链接的方法会使得最终实体链接结果不佳,也即如果第一步的mention detection发生错误,后面候选实体的生成和消歧操作将会产生错误的叠加。针对上述技术缺陷,本申请提供一种实体链接方案,在实体链接中融入实体描述信息,同时通过正负样本对比学习的方式训练模型来实现实体消歧,提高实体链接准确度以及在开放知识图谱上进行实体链接的性能。
图1为本申请实施例提供的一种实体链接方法流程图。参见图1所示,该实体链接方法包括:
S11:获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述。
本实施例中,对于待进行实体链接的输入文本,首先获取与所述输入文本对应的实体提及,所述实体提及为初步确定的所述输入文本中可能为实体的人名、地名等。然后获取所述实体提及的候选实体,所述候选实体为知识库中存在的所述实体提及的别名或同义词等。在此基础上,获取所述候选实体的实体描述,以将实体描述信息融入实体链接的处理进程当中。所述实体描述包含了实体是什么、有什么样的特性等信息。
可以理解,所述候选实体中包含正确的实体和不正确的实体,实体链接的最终目标是从所述候选实体中筛选出正确的实体。例如,当输入“李娜在哪一年拿到澳网冠军?”这个文本时,先识别出“李娜”这一实体的指代,在知识库中初步得到的候选实体包括网球运动员李娜、歌手李娜或体操运动员李娜等实体,最终目的是利用上下文“…澳网冠军”将“李娜”这个名称链接到知识库中的网球运动员李娜这一正确实体。
S12:构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列。
本实施例中,在得到所述输入文本的所述实体提及、所述候选实体以及所述实体描述后,需要将实体描述信息融入实体链接的处理进程当中。具体的,需要构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列。可以理解,所述第一融合序列和所述第二融合序列一般以向量的方式存表示,也即所述第一融合序列是由所述实体提及的向量与所述实体描述的向量拼接得到的,所述第二融合序列是由所述候选实体的向量与所述输入文本的向量拼接得到的。
S13:利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。
本实施例中,首先利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,然后根据所述相似度从所述候选实体中确定出所述实体提及的链接实体。所述第一模型也即实体消歧模型,所述第一模型主要是用于计算所述第一融合序列与所述第二融合序列的相似度。所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到,训练流程如图2所示,具体方法如下:
S131:获取训练文本。
S132:利用第二模型对所述训练文本进行实体提取得到与所述训练文本对应的实体提及训练样本,并通过第三模型确定出与所述实体提及训练样本对应的候选实体训练样本。
S133:从所述候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本。
S134:将由所述实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与所述训练文本组成的序列确定为第二正样本序列,以及将由所述实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与所述训练文本组成的序列确定为第二负样本序列。
本实施例中,需要构建训练样本,包括用于对比学习训练的正样本和负样本。首先获取训练文本,然后利用第二模型对所述训练文本进行实体提取得到与所述训练文本对应的实体提及训练样本,并通过第三模型确定出与所述实体提及训练样本对应的候选实体训练样本。接着从所述候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本。所述第二模型和所述第三模型与前述步骤中的模型相同。假设训练文本为S,其向量表示为sent={x1,x2…xn},实体提及训练样本表示为EM={em1,em2…emi},i表示训练样本中存在i个实体提及;候选实体训练样本表示为
Figure BDA0003624725550000071
Figure BDA0003624725550000081
30表示为对于每个实体提及存在30个候选实体);实体描述训练样本表示为
Figure BDA0003624725550000082
在此基础上,将由所述实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与所述训练文本组成的序列确定为第二正样本序列,以及将由所述实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与所述训练文本组成的序列确定为第二负样本序列。假设对于实体提及emi,候选实体训练样本中正确实体表示为
Figure BDA0003624725550000083
正确实体的实体描述训练样本表示为
Figure BDA0003624725550000084
将emi
Figure BDA0003624725550000085
进行拼接后得到第一正样本序列表示为
Figure BDA0003624725550000086
Figure BDA0003624725550000087
Figure BDA0003624725550000088
与sent进行拼接后得到第二正样本序列表示为
Figure BDA0003624725550000089
Figure BDA00036247255500000810
同理,对于实体提及emi,候选实体训练样本中非正确实体表示为
Figure BDA00036247255500000811
非正确实体的实体描述训练样本表示为
Figure BDA00036247255500000812
将emi
Figure BDA00036247255500000813
进行拼接后得到第一负样本序列表示为
Figure BDA00036247255500000814
Figure BDA00036247255500000815
与sent进行拼接后得到第二负样本序列表示为
Figure BDA00036247255500000816
其中,p≠r。
S135:利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到第一模型。
本实施例中,利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到第一模型。具体的,利用预训练模型分别计算所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列的表征向量,并根据由各表征向量之间的所述相似度计算NCE_LOSS函数的损失值后对相关网络参数进行调整以使所述损失值小于第二阈值。也即将得到的MD序列和CS序列两两进行组合,输入同一个预训练模型,将模型第一个位置的输出作为序列的表征向量,表征向量表示为
Figure BDA00036247255500000817
接着通过计算两个向量之间的内积来计算相似度score,公式表示为:
score(f(MD),f(CS))=exp(f(MD)Tf(CS))
利用上述公式计算得到两两向量之间的相似度后,进一步计算对比损失函数L,公式如下:
Figure BDA0003624725550000091
Figure BDA0003624725550000092
L=L1+L2
通过上述公式计算的损失值调整预训练网络的网络参数,直到L小于第二阈值或者三个训练轮次结束。本实施例中,第二阈值可以设置为0.01。
本实施例中,在训练好所述第一模型后,在实际的实体链接操作中,直接计算输出相似度score,取得最高分的候选实体作为该实体提及的链接实体。
可见,本申请实施例先获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;然后构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列;最后利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。本申请实施例适用于任何开放知识图谱的实体链接任务,在对输入文本进行实体链接处理时,在初步提取到该输入文本的实体提及并确定出候选实体的基础上,进一步获取候选实体对应的实体描述,在实体链接中融入实体描述信息得到对应的融合序列,同时通过正负样本对比学习的方式训练模型来实现实体消歧,利用训练后的模型对融合序列进行相似度计算以此筛选出候选实体中的正确实体也即链接实体,提高了实体链接准确度以及在开放知识图谱上进行实体链接的性能。
图3为本申请实施例提供的一种具体的实体链接方法流程图。参见图3所示,该实体链接方法包括:
S21:将获取实体提及的第二模型、获取候选实体的第三模型和第三模型集成至一个模型,以得到对应的端到端整合模型。
本实施例中,将实体提取、候选实体获取及实体消歧处理集成至一个模型当中,进行端对端的实体链接。也即将获取实体提及的第二模型、获取候选实体的第三模型和第三模型集成至一个模型,以得到对应的端到端整合模型。
S22:在进行实体链接时,将输入文本输入至所述端到端整合模型,以依次经过所述第二模型、所述第三模型和所述第一模型处理后输出相应的所述相似度,并根据所述相似度从候选实体中确定出实体提及的链接实体。
本实施例中,在得到所述端到端整合模型之后,实体链接时,直接将输入文本输入至所述端到端整合模型,以依次经过所述第二模型、所述第三模型和所述第一模型处理后输出相应的所述相似度,并根据所述相似度从候选实体中确定出实体提及的链接实体。具体方法如图4所示,包括如下步骤:
S221:利用第二模型确定输入文本的实体提及位置,并根据实体提及位置确定出与所述输入文本对应的实体提及。
本实施例中,实体提及的过程为利用第二模型确定输入文本的实体提及位置,并根据实体提及位置确定出与所述输入文本对应的实体提及。具体的,所述第二模型包括BERT神经网络和CRF神经网络。在此基础上,将所述输入文本的词向量依次通过所述BERT神经网络和所述CRF神经网络进行处理,得到表征实体提及位置的BIO标签,模型示意如图5所示。将需要进行实体识别的输入文本转换为词向量后,输入到经过预训练的BERT神经网络中,再将BERT神经网络的输出通过CRF神经网络,最后输出BIO的标签概率,通过每个位置的BIO标签得到实体提及位置。当然,其他能进行实体提取的模型也可用于本申请的实体链接方法,本申请实施例对此不进行限定。
S222:利用第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度,并将大于第一阈值的所述匹配度对应的别名种类的实体确定为候选实体。
S223:从所述实体列表中读取出所述候选实体的实体描述。
本实施例中,候选实体主要通过文本相似度匹配方法,利用第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度,并将大于第一阈值的所述匹配度对应的别名种类的实体确定为候选实体。所述第三模型可以为BM25算法模型,除此之外,文本相似度计算的其他算法也能达到相同的技术效果。知识库实体列表为维基实体列表,也即Falcon Candidates的词表,该词表将维基百科中的每个实体标签扩展出许多别名。将每个实体提及和维基实体列表中的每类别名计算匹配度,每个实体提及作为query,实体列表中每个实体的别名组成文档,通过BM25算法计算query和文档之间的匹配度。最后按计算得到的匹配度大小进行排序,得到与每个实体提及匹配程度前30的实体构成候选实体集合。同时将每个实体提及的Top30候选实体对应维基百科解释的第一段文本作为补充信息也即实体描述。
S224:构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列。
本实施例中,关于上述步骤S224的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。
S225:利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度。
本实施例中,关于上述步骤S224和步骤S225的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。需要说明的是,本实施例中的所述第一模型可以为对预训练好的RoBerta模型进行对比学习训练后得到,可以视为RoBerta模型的高阶模型。上述步骤的逻辑示意图如图6所示。
S23:在进行模型训练时,通过对采用交叉熵损失函数的所述第二模型进行训练并以训练后的所述第二模型的输出作为所述第一模型的输入对所述第一模型进行训练。
本实施例中,为了最大程度上提升实体简介操作结果的准确度,在得到所述端到端整合模型之后,进行模型训练时,通过对采用交叉熵损失函数的所述第二模型进行训练并以训练后的所述第二模型的输出作为所述第一模型的输入对所述第一模型进行训练。相较于联合训练上述两个或者单个子任务,本实施例联合上述三个任务得到一个整合的实体链接模型,在融合实体描述信息的基础上采用对比学习方法,提升实体链接的性能。
参见图7所示,本申请实施例还相应公开了一种实体链接装置,包括:
获取模块11,用于获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;
构建模块12,用于构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列;
计算确定模块13,用于利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。
可见,本申请实施例先获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;然后构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列;最后利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。本申请实施例适用于任何开放知识图谱的实体链接任务,在对输入文本进行实体链接处理时,在初步提取到该输入文本的实体提及并确定出候选实体的基础上,进一步获取候选实体对应的实体描述,在实体链接中融入实体描述信息得到对应的融合序列,同时通过正负样本对比学习的方式训练模型来实现实体消歧,利用训练后的模型对融合序列进行相似度计算以此筛选出候选实体中的正确实体也即链接实体,提高了实体链接准确度以及在开放知识图谱上进行实体链接的性能。
在一些具体实施例中,所述获取模块11,具体包括:
提取单元,用于利用第二模型确定所述输入文本的实体提及位置,并根据实体提及位置确定出与所述输入文本对应的所述实体提及;
匹配单元,用于利用第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度,并将大于第一阈值的所述匹配度对应的别名种类的实体确定为所述候选实体;
读取单元,用于从所述实体列表中读取出所述候选实体的所述实体描述。
在一些具体实施例中,所述实体链接装置还包括:
样本获取模块,用于获取所述训练文本;利用第二模型对所述训练文本进行实体提取得到与所述训练文本对应的所述实体提及训练样本,并通过第三模型确定出与所述实体提及训练样本对应的候选实体训练样本;
确定模块,用于从所述候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本;
正负样本序列构建模块,用于将由所述实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与所述训练文本组成的序列确定为第二正样本序列,以及将由所述实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与所述训练文本组成的序列确定为第二负样本序列;
模型训练模块,用于利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到所述第一模型。
在一些具体实施例中,所述模型训练模块,具体用于利用预训练模型分别计算所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列的表征向量,并根据由各表征向量之间的所述相似度计算NCE_LOSS函数的损失值后对相关网络参数进行调整以使所述损失值小于第二阈值。
在一些具体实施例中,所述实体链接装置还包括:
模型整合模块,用于将获取所述实体提及的第二模型、获取所述候选实体的所述第三模型、和所述第三模型集成至一个模型,以得到对应的端到端整合模型;
整合训练模块,用于在进行模型训练时,通过对采用交叉熵损失函数的所述第二模型进行训练并以训练后的所述第二模型的输出作为所述第一模型的输入对所述第一模型进行训练;
整合计算模块,用于在进行实体链接时,将所述输入文本输入至所述端到端整合模型以依次经过所述第二模型、所述第三模型和所述第一模型处理后输出相应的所述相似度。
进一步的,本申请实施例还提供了一种电子设备。图8是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图8为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的实体链接方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的实体链接方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的文本信息等数据。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的实体链接方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的实体链接方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种实体链接方法,其特征在于,包括:
获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;
构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列;
利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。
2.根据权利要求1所述的实体链接方法,其特征在于,所述获取与输入文本对应的实体提及,包括:
利用第二模型确定所述输入文本的实体提及位置,并根据实体提及位置确定出与所述输入文本对应的所述实体提及。
3.根据权利要求2所述的实体链接方法,其特征在于,所述第二模型包括BERT神经网络和CRF神经网络;
相应的,所述利用第二模型确定所述输入文本的实体提及位置,包括:
将所述输入文本的词向量依次通过所述BERT神经网络和所述CRF神经网络进行处理,得到表征实体提及位置的BIO标签。
4.根据权利要求1所述的实体链接方法,其特征在于,获取所述实体提及的候选实体以及所述候选实体的实体描述,包括:
利用第三模型分别计算所述实体提及与知识库实体列表中每类别名组成的组合文本之间的匹配度,并将大于第一阈值的所述匹配度对应的别名种类的实体确定为所述候选实体;
从所述实体列表中读取出所述候选实体的所述实体描述。
5.根据权利要求1所述的实体链接方法,其特征在于,还包括:
获取所述训练文本;
利用第二模型对所述训练文本进行实体提取得到与所述训练文本对应的所述实体提及训练样本,并通过第三模型确定出与所述实体提及训练样本对应的候选实体训练样本;
从所述候选实体训练样本中确定出正确实体和非正确实体以及相应的实体描述训练样本;
将由所述实体提及训练样本与正确实体的实体描述训练样本组成的序列确定为第一正样本序列并将由正确实体与所述训练文本组成的序列确定为第二正样本序列,以及将由所述实体提及训练样本与非正确实体的实体描述训练样本组成的序列确定为第一负样本序列并将由非正确实体与所述训练文本组成的序列确定为第二负样本序列;
利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到所述第一模型。
6.根据权利要求5所述的实体链接方法,其特征在于,所述利用所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到所述第一模型,包括:
利用预训练模型分别计算所述第一正样本序列、所述第二正样本序列、所述第一负样本序列和所述第二负样本序列的表征向量,并根据由各表征向量之间的所述相似度计算NCE_LOSS函数的损失值后对相关网络参数进行调整以使所述损失值小于第二阈值。
7.根据权利要求1至6任一项所述的实体链接方法,其特征在于,还包括:
将获取所述实体提及的第二模型、获取所述候选实体的所述第三模型和所述第三模型集成至一个模型,以得到对应的端到端整合模型;
在进行模型训练时,通过对采用交叉熵损失函数的所述第二模型进行训练并以训练后的所述第二模型的输出作为所述第一模型的输入对所述第一模型进行训练;
在进行实体链接时,将所述输入文本输入至所述端到端整合模型以依次经过所述第二模型、所述第三模型和所述第一模型处理后输出相应的所述相似度。
8.一种实体链接装置,其特征在于,包括:
获取模块,用于获取与输入文本对应的实体提及、所述实体提及的候选实体以及所述候选实体的实体描述;
构建模块,用于构建包含所述实体提及与所述实体描述的第一融合序列和包含所述候选实体与所述输入文本的第二融合序列;
计算确定模块,用于利用第一模型计算所述实体提及的所述第一融合序列与所述第二融合序列的相似度,并根据所述相似度从所述候选实体中确定出所述实体提及的链接实体;其中,所述第一模型为利用训练文本的实体提及训练样本的正样本和负样本通过对比学习的方式对采用对比损失函数的预训练模型进行训练得到;正样本为分别由所述实体提及训练样本与正确实体的实体描述训练样本、正确实体与所述训练文本组成的序列,负样本为分别由所述实体提及训练样本与非正确实体的实体描述训练样本、非正确实体与所述训练文本组成的序列。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的实体链接方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述的实体链接方法。
CN202210466937.2A 2022-04-29 2022-04-29 一种实体链接方法、装置、设备及存储介质 Pending CN114841164A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210466937.2A CN114841164A (zh) 2022-04-29 2022-04-29 一种实体链接方法、装置、设备及存储介质
PCT/CN2022/135991 WO2023207096A1 (zh) 2022-04-29 2022-12-01 一种实体链接方法、装置、设备及非易失性可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210466937.2A CN114841164A (zh) 2022-04-29 2022-04-29 一种实体链接方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114841164A true CN114841164A (zh) 2022-08-02

Family

ID=82568611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210466937.2A Pending CN114841164A (zh) 2022-04-29 2022-04-29 一种实体链接方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN114841164A (zh)
WO (1) WO2023207096A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115203438A (zh) * 2022-09-09 2022-10-18 北京澜舟科技有限公司 一种实体链接方法及存储介质
CN115859987A (zh) * 2023-01-19 2023-03-28 阿里健康科技(中国)有限公司 实体提及识别模块和的链接方法、装置、设备和介质
WO2023207096A1 (zh) * 2022-04-29 2023-11-02 浪潮电子信息产业股份有限公司 一种实体链接方法、装置、设备及非易失性可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117314909B (zh) * 2023-11-29 2024-02-09 无棣源通电子科技有限公司 基于人工智能的电路板缺陷检测方法、装置、设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10643120B2 (en) * 2016-11-15 2020-05-05 International Business Machines Corporation Joint learning of local and global features for entity linking via neural networks
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN114003732A (zh) * 2021-07-13 2022-02-01 北京金山数字娱乐科技有限公司 候选实体生成模型训练方法及装置
CN113626613B (zh) * 2021-08-18 2022-07-05 中山大学附属第一医院 基于融入知识图谱子图信息及实体信息的实体链接方法
CN113779225A (zh) * 2021-09-17 2021-12-10 工银科技有限公司 实体链接模型的训练方法、实体链接方法及装置
CN114239583B (zh) * 2021-12-15 2023-04-07 北京百度网讯科技有限公司 实体链指模型的训练及实体链指方法、装置、设备及介质
CN114841164A (zh) * 2022-04-29 2022-08-02 浪潮电子信息产业股份有限公司 一种实体链接方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207096A1 (zh) * 2022-04-29 2023-11-02 浪潮电子信息产业股份有限公司 一种实体链接方法、装置、设备及非易失性可读存储介质
CN115203438A (zh) * 2022-09-09 2022-10-18 北京澜舟科技有限公司 一种实体链接方法及存储介质
CN115859987A (zh) * 2023-01-19 2023-03-28 阿里健康科技(中国)有限公司 实体提及识别模块和的链接方法、装置、设备和介质

Also Published As

Publication number Publication date
WO2023207096A1 (zh) 2023-11-02

Similar Documents

Publication Publication Date Title
CN108334891B (zh) 一种任务型意图分类方法及装置
CN107291783B (zh) 一种语义匹配方法及智能设备
CN114841164A (zh) 一种实体链接方法、装置、设备及存储介质
KR20210038449A (ko) 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN108287858A (zh) 自然语言的语义提取方法及装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN109189894B (zh) 一种答案抽取方法及装置
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN109063147A (zh) 基于文本相似度的在线课程论坛内容推荐方法及系统
CN110162675B (zh) 应答语句的生成方法、装置、计算机可读介质及电子设备
CN107301164B (zh) 数学公式的语义解析方法及装置
CN114860913B (zh) 智能问答系统构建方法、问答处理方法及装置
CN115204156A (zh) 关键词提取方法及装置
CN113051368A (zh) 双塔模型训练方法、检索方法、装置及电子设备
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN113806489A (zh) 用于数据集创建的方法、电子设备和计算机程序产品
CN113705207A (zh) 语法错误识别方法及装置
CN112100509A (zh) 信息推荐方法、装置、服务器和存储介质
CN114141236B (zh) 语言模型更新方法、装置、电子设备及存储介质
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN112966095B (zh) 一种基于jean的软件代码推荐方法
CN114416941A (zh) 融合知识图谱的对话知识点确定模型的生成方法及装置
Wang et al. Factuality of Large Language Models in the Year 2024
CN112560431A (zh) 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination