CN115238080A - 实体链接方法及相关设备 - Google Patents
实体链接方法及相关设备 Download PDFInfo
- Publication number
- CN115238080A CN115238080A CN202210567234.9A CN202210567234A CN115238080A CN 115238080 A CN115238080 A CN 115238080A CN 202210567234 A CN202210567234 A CN 202210567234A CN 115238080 A CN115238080 A CN 115238080A
- Authority
- CN
- China
- Prior art keywords
- entity
- disambiguation
- candidate
- score
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种实体链接方法及相关设备,该方法包括:获取包括实体指称项的文本;通过预先训练的实体识别模型对所述文本进行编码识别获取所述实体指称项;利用所述实体识别模型对所述实体指称项进行词典匹配,得到与所述实体指称项有匹配关系的候选实体,候选实体集为所述实体指称项映射所得的候选实体子集;根据所述实体指称项和所述候选实体之间的关联度采用预先训练的消歧模型对所述候选实体集打分,得到打分结果;选择所述打分结果中分数最高的候选实体作为实体链接结果。
Description
技术领域
本申请涉及知识图谱技术领域,尤其涉及一种实体链接方法及相关设备。
背景技术
在大数据时代,互联网上每天产生大量的数据,其中很大一部分以自然语言形式的文本存储,如新闻标题、微博等内容,造成了信息爆炸的现象。而且大量文本缺乏标注和解释,自然语言本身存在着高度的复杂性和歧义性,给计算机精确定位和理解文本造成了极大的困难。随着信息抽取技术的不断发展,结构化的知识图谱不断被丰富和构建。研究学者试图将文本和知识图谱链接起来,实体链接则实现该过程的必要步骤之一。实体链接首先识别出文本中提及的实体指称项,然后将其链接到给定知识图谱的相应实体上。利用知识图谱隐含的知识,可以辅助挖掘蕴含海量信息的自然语言文本,同时,获取出来的知识可以作为知识图谱的补充,进一步扩充知识库。
通常,实体链接方法首先利用外部数据源进行离线的实体指称项挖掘,对于给定文本,基于实体识别方法生成候选实体集,最后,将候选实体消歧建模成一个二分类问题,对候选实体打分排序,取分数最高的候选实体为消歧结果。然而,实体识别模型先识别出文本中的实体指称项,然后采用消歧模型进行独立的消歧,将导致实体识别模型的错误累积到消歧过程中,进而造成实体链接整体性能显著下降。此外,在现有消歧模型中,缺乏对实体指称项上下文和候选实体上下文之间词语、语法上面的细粒度交互,导致模型的消歧能力不佳。再者,在面向知识图谱的实体链接场景下,缺乏对候选实体有效的关系语义的提取,这样,当待消歧候选实体歧义度高且数量较多时,使得消歧模型的消歧效果下降。
发明内容
有鉴于此,本申请的目的在于提出一种实体链接方法及相关设备,用以解决或部分解决上述技术问题。
基于上述目的,本申请的第一方面提供了一种实体链接方法,包括:
获取包括实体指称项的文本;
通过预先训练的实体识别模型对所述文本进行编码识别获取所述实体指称项;
利用所述实体识别模型对所述实体指称项进行词典匹配,得到与所述实体指称项有匹配关系的候选实体,候选实体集为所述实体指称项映射所得的候选实体子集;
根据所述实体指称项和所述候选实体对应的实体上下文之间的关联度和所述关联度对应的历史实体信息,采用预先训练的消歧模型对所述候选实体集打分,得到打分结果;
选择所述打分结果中分数最高的候选实体作为实体链接结果。
本申请的第二方面提供一种实体链接装置,包括:
获取模块,被配置为获取包括实体指称项的文本;
识别模块,被配置为通过预先训练的实体识别模型对所述文本进行编码识别获取所述实体指称项;
匹配模块,被配置为利用所述实体识别模型对所述实体指称项进行词典匹配,得到与所述实体指称项有匹配关系的候选实体,候选实体集包括所述实体指称项和所述候选实体;
打分模块,被配置为根据所述实体指称项和所述候选实体对应的实体上下文之间的关联度和所述关联度对应的历史实体信息,采用预先训练的消歧模型对所述候选实体集打分,得到打分结果;
选择模块,被配置为选择所述打分结果中分数最高的候选实体作为实体链接结果。
本申请的第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。
从上面所述可以看出,本申请提供的实体链接方法及相关设备,通过实体识别模型中字符级别的编码能力和神经网络的数据驱动能力,实现了实体指称项边界的调整,并且使得候选实体能够自适应后续的消歧过程;采用消歧模型基于实体指称项和候选实体对应的实体上下文之间的语义关联度生成候选实体分数,提高了消歧模型对候选实体语义关键信息的提取能力,并且将消歧模型中的历史实体信息关联到候选实体分数中,有效提升了实体链接结果的准确率。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的实体链接方法的流程示意图;
图2为步骤104的步骤展开示意图;
图3为本申请实施例的实体链接装置的结构示意图;
图4为本申请实施例的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术所述,实体识别模型指的是:输入为由标识符集合构成的文本,标记为D,一个实体指称项可以包括多个标识符w,即D={w1,w2,…,wN}。输出一个M个三元组<Is,Ie,t>构成的列表,列表中的每一个三元组表明s中的一个实体指称项。Is∈[1,N]为实体指称项的起始索引;Ie∈[1,N]为实体指称项的结束索引;t指代从预定义类别中选择的实体指称项的类型。消歧模型指的是:输入为N个字符的序列W={w1,…,wN}和序列W中M个不重叠的实体指称项对应的范围序列集合,其中,实体指称项可以表示为待消歧目标M={m1,…,mM}。输出为每一个提及最可能的候选实体{e1,…,eM}∈E,其中E为知识图谱中的实体集合。
如图1所示,本实施例的方法包括:
步骤101,获取包括实体指称项的文本。
在该步骤中,实体指称项指的是具有特定意义的实体,例如,人名、地名、机构名、专有名词等。这样,获取的文本为后续利用实体识别模型对文本中的实体指称项进行提取提供数据基础。
步骤102,通过预先训练的实体识别模型对所述文本进行编码识别获取所述实体指称项。
在该步骤中,实体识别模型指的是能够提取文本中的实体指称项并获取该实体指称项对应的候选实体的模型。本实施例优选的实体识别模型不仅可以提取文本中的实体指称项并获取该实体指称项对应的候选实体的模型,而且可以计算实体识别准确率。
具体的,首先进行词典构建。基于大规模语料,通过百科网站,如标题、重定向页、消歧页描述的独立实体或者从已有的知识图谱,如DBpedia(一个语义网应用范例)中抽取别名,构建别名词典。然后进行实体指称项识别,识别文本中提及的边界,判断文本中的第i到第j个位置的连续字段是否作为实体指称项。其中,可以采用BERT-CRF模型(一种无监督模型)对文本中的实体指称项进行识别,可以对文本采用BIO(begin-inside-outside,开头-结尾-不属于)标注方式,BERT-CRF模型中的BERT(一种无监督模型)负责学习文本中每个字和符号对应到实体指称项标签的规律,BERT-CRF模型中的CRF(conditional randomfield,条件随机域)学习相邻实体指称项标签之间的转移规则。将文本输入BERT编码层中,每个字符的嵌入向量经过CRF层以及全连接层,映射到标签集合,然后用Softmax(一种归一化指数函数)激活函数预测每个字符的标签,其中CRF层的引入可有效减少错误预测序列。
另外,本实施例引入知识库实体名称的嵌入向量统计方法,计算实体指称项概率用于后续模型优化。
具体的,对于CRF输出层中实体指称项的起始和结束对应位置的嵌入向量,有为可学习参数,对于中间位置的字符向量有对于每一个可能的实体指称项,得到识别准确率该实体指称项概率将应用于后续实体识别模型和消歧模型的训练优化过程。
这样,为后续实体识别模型和消歧模型的训练优化提供优化参数,使得候选实体能够自适应后续的消歧过程。
步骤103,利用所述实体识别模型对所述实体指称项进行词典匹配,得到与所述实体指称项有匹配关系的候选实体,候选实体集为所述实体指称项映射所得的候选实体子集。
在该步骤中,词典匹配指的是将文本中的实体指称项在词典中匹配到对应的候选实体。对于每个实体指称项,通过词典匹配的方式,将实体指称项映射得到的候选实体子集作为候选实体集,。这样,为后续消歧模型提供消歧数据基础。
步骤104,根据所述实体指称项和所述候选实体对应的实体上下文之间的关联度和所述关联度对应的历史实体信息,采用预先训练的消歧模型对所述候选实体集打分,得到打分结果。
在该步骤中,消歧模型指的是从候选实体集中寻找特征最匹配的候选实体的模型。本实施例优选的消歧模型可以是对候选实体集中的匹配特征进行打分的模型。
在一些实施例中,所述消歧模型包括局部消歧模型和全局消歧模型,如图2所示,步骤104具体包括:
步骤1041,采用预定格式将所述实体指称项对应的文本输入所述局部消歧模型;
在一些实施例中,所述预定格式为式(1):
其中,为所述实体指称项对应的文本,为预定文本与第i个所述实体指称项对应的第j个候选实体的字符串拼接,为第i个所述实体指称项对应的的第j个候选实体的上一阶关系序列对的字符串拼接,[CLS]为表示所述字符串拼接的首位字符的标志,[SEP]为表示两个所述字符串拼接的分割的标志。
在上述方案中,局部消歧模型可以基于预训练语言模型提取实体指称项和实体上下文之间的语义和关系关联度。局部消歧模型中的预训练语言模型的基本思想是设计与语言特征学习相关的任务,对模型进行预训练,进而生成深度的双向语言表征。预训练后的局部消歧模型只需要添加一个额外的输出层进行微调,便可适应各种各样的自然语言相关的下游任务。由于预训练语言模型的特性以及消歧过程的特点,预训练语言模型用于实体链接问题求解时,需要对模型的输入输出进行合理设计,并且添加额外的神经网络层以适应消歧任务的特殊需求。
具体的,在局部消歧模型的预训练语言模型中,输入可以是一类句子,与局部消歧模型存在任务形式差异。局部消歧模型的消歧任务涉及到文本中实体指称项和候选实体两者之间的语义信息处理。因此,本实施例优选的预定格式可以是式(1):
其中,为所述实体指称项对应的文本,为预定文本与第i个所述实体指称项对应的第j个候选实体的字符串拼接,为第i个所述实体指称项对应的的第j个候选实体的上一阶关系序列对的字符串拼接,[CLS]为表示所述字符串拼接的首位字符的标志,[SEP]为表示两个所述字符串拼接的分割的标志。
并且,本实施例可以采用BERT双向编码模型建模候选实体上下文和候选实体间的语义和关系特征,利用BERT双向编码模型预测下一句的能力,捕获候选实体和上下文之间词法、语法和语义之间的深层联系。
这样,局部消歧模型中的预定格式包括候选实体的上下文,通过知识库中候选实体所有属性组成的集合丰富了候选实体的信息,提高了消歧模型对候选实体语义关键信息的提取能力。
步骤1042,根据所述实体指称项和所述候选实体对应的实体上下文之间的关联度通过所述局部消歧模型中的多层感知机计算得到所述候选实体对应的局部消歧分数。
在上述方案中,局部消歧模型具体结构可以包括BERT双向编码层、多层感知机层和sigmoid(一种S型函数)激活函数。局部消歧模型的输入可以包括:词嵌入、位置嵌入和段嵌入三个部分,文本对应的每个单词ID,位置嵌入为输入文本中句子的时序信息,文本的段嵌入为0,其余为1。BERT双向编码层对输入进行处理后,取最后一个Transformer(基于自注意力机制的一个深度学习模型)的输出向量分类token(口令)作为实体指称项前后两个句子的对应的候选实体的语义表达。将该语义表达输入到多层感知机中,并以sigmoid函数作为激活函数,得到候选实体的局部消歧策略分数
这样,为后续实体指称项的排序提供分数基础。
步骤1043,根据所述局部消歧分数将所述实体指称项进行降序排序,得到排序结果。
在一些实施例中,根据式(2)对所述实体指称项进行降序排序:
其中,为第n个所述实体指称项,n为所述候选实体集中所述实体指称项的个数,Rank为降序排序函数,为第j个候选实体对应的局部消歧分数,1≤j≤K,为第i个所述实体指称项对应的所有候选实体的局部消歧分数平均值,1≤i≤n,K为所述实体指称项对应的候选实体个数。
这样,从最容易消歧的实体指称项开始消歧,有利于减少在后续消歧过程中的噪声信息的引入,降低错误的消歧结果给实体链接结果带来的错误影响。
步骤1044,将所述排序结果输入所述全局消歧模型中的门控循环神经网络,得到历史实体信息。
在一些实施例中,根据式(3)-(6)计算所述排序结果与所述历史实体信息的关系:
其中,t为所述门控循环网络中第t个时间点,为排序结果中的实体表示的第J个状态,Wz、Wr、W分别为第一权重矩阵、第二权重矩阵、第三权重矩阵,是隐藏层的第J个状态,σ为激活函数,tanh为双曲正切函数,⊙为同或逻辑运算,是第j个所述候选实体的重置门,是第j个所述候选实体的更新门,为所述历史实体信息,ht-1为第t-1个时间点对应的所述历史实体信息。
在上述方案中,全局消歧模型的基本目标是从完成消歧的实体链接中积累知识作为动态上下文,以增强以后的消歧决策。这些知识不仅来自先前实体链接的固有属性(例如,属性、关系),还来自实体链接密切相关的实体,这些实体赋予全局消歧模型重要的关联能力。考虑到在实际场景中,一些先前实体链接的实体可能与当前候选实体无关,或者一些错误实体链接甚至可能会在未来的链接步骤中引入嘈杂的上下文。本实施例可以利用门控循环神经网络将全局消歧过程建模成一个序列问题。通过动态地、有选择性地引入之前完成消歧的历史实体信息,计算候选实体与候选指称项上下文中其他实体指称项的共现关系,加强下一步消歧决策。
这样,门控循环神经网络中的门控机制控制历史实体信息的结合与过滤,实现了实体指称项之间的相互依赖性的捕获。
步骤1045,根据所述历史实体信息通过所述全局消歧模型中的多层感知机计算得到所述候选实体对应的全局消歧分数;
在一些实施例中,根据式(7)计算所述全局消歧分数:
在上述方案中,将历史实体信息输入到全局消歧模型基于多层感知机层的分类器中,得到待消歧的候选指称项映射到当前候选实体的概率作为候选实体的全局消歧分数,其公式如下:并选取得分最高的候选实体对应的信息作为下一次消歧时的历史实体信息ht,即
这样,将消歧模型中的历史实体信息关联到候选实体分数中,有效提升了实体链接结果的准确率。
步骤1046,根据所述局部消歧分数和所述全局消歧分数确定所述打分结果。
在一些实施例中,根据式(8)计算所述打分结果:
在上述方案中,打分结果指的是基于局部消歧分数和全局消歧分数得到的综合分数。
通过上述方案,为后续实体链接结果的选择提供分数基础。
步骤105,选择所述打分结果中分数最高的候选实体作为实体链接结果。
在该步骤中,实体链接指的是将自然语言文本中出现的实体指称项关联到对应知识图谱实体上去的任务。本实施例优选的实体链接可以是从多个与实体指称项关联的候选实体中选择与实体指称项最为相似、与实体指称项上下文语境最为贴近的候选实体作为实体指称项的对应实体。
在一些实施例中,S1.根据式(9)获取所述实体指称项的识别准确率:
S2.根据式(10)获取所述实体识别模型训练过程中的第一损失函数:
其中,为所述第一损失函数,y[s,e]为所述候选实体,p([s,e])为所述识别准确率,s为所述实体指称项对应字符向量的开始编号,e为所述实体指称项对应字符向量的结束编号,i为所述实体指称项的编号,1≤i≤n,n为所述候选实体集中所述实体指称项的个数。
S3.根据式(11)获取所述消歧模型训练过程中的第二损失函数:
其中,LMD为所述第二损失函数,为期望函数,τ为时间常数,为第i个所述实体指称项对应的所述候选实体的所述全局消歧分数对应的正样本,为第i个所述实体指称项对应的第j所述候选实体的所述全局消歧分数对应的负样本,为第i个所述实体指称项对应的第j个所述候选实体的所述局部消歧分数对应的正样本,为第i个所述实体指称项对应的第j个所述候选实体的所述局部消歧分数对应的负样本。
S4.根据所述第一损失函数和所述第二损失函数联合训练所述实体识别模型和所述消歧模型。
在上述方案中,为了联合训练实体识别模型和消歧模型,通过优化两者的损失函数之和完成实体识别模型和消歧模型的训练,并且在训练需要的损失函数中加入了反映实体识别模型和消歧模型之间影响的识别准确率。这样,有利于提高实体链接的整体效果。
通过上述方案,通过实体识别模型中字符级别的编码能力和神经网络的数据驱动能力,实现了实体指称项边界的调整,并且使得候选实体能够自适应后续的消歧过程;采用消歧模型基于实体指称项和候选实体对应的实体上下文之间的关联度生成候选实体分数,提高了消歧模型对候选实体语义关键信息的提取能力,并且将关联度对应的历史实体信息加入到候选实体分数中,有效提升了实体链接结果的准确率。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,在上述各个实施例方法对应实施方案的基础上,可以有如下具体实现情况。
在一些实施例中,本申请实施例具体还可以包括:
步骤201,首先进行词典构建。基于大规模语料,通过百科网站,如标题、重定向页、消歧页描述的独立实体或者从已有的知识图谱中抽取别名(对应本申请实施例中的实体),构建别名词典;
步骤202,如例子“作者A的代表作品为《某小说》”作为原始短文本,输入到实体识别模块(对应本申请实施例中的实体识别模型),在训练集中,该文本有两个实体,作者A和某小说,以及实体在文本中的序列范围。
步骤203,将短文本输入到BERT(一种无监督模型)双向编码层,再分别经过CRF(conditional random field,条件随机域)层和全连接层,由Softmax激活函数将实体映射到对应标签类型,并且根据标注提取出识别出来的实体。
步骤204,候选实体生成,将识别出来的指称项(对应本申请实施例中的实体指称项)通过词典匹配得到实体与对应的候选实体集合的映射关系;具体地,给定一个指称项,会把其在词典中可能的候选实体检索出来,以键值对(指称项,候选实体列表)的形式呈现。为了减少计算量,把最大候选集数量设置为64。如果候选实体列表过大,先通过实体标签类型进行初筛得到新的候选实体列表。
步骤205,实体消歧模型(对应本申请实施例中的消歧模型)整体上采用的是二分类思想,得出指称项与候选实体之间的语义相似度以及语境匹配度,对候选指称项的每个候选实体逐一打分。首先,将待消歧实体在知识图谱上的一阶关系对拼接成关系序列串,将候选实体和关系序列串拼接起来,作为候选实体的各种属性组成的集合,包括实体的多种关联实体信息。例如“吴承恩是在什么时候写的《西游记》?”中,指称项“《西游记》”在知识图谱中的某个候选实体的某个三元组信息:(西游记,导演,杨洁),拼接在一起作为模型的输入。
步骤206,局部消歧策略中,首先将原始文本和候选实体拼接字符串作为BERT模型的输入,取编码层第一个CLS(表示所述字符串拼接的首位字符的标志)位置输出向量作为输出,再与候选实体在BERT模型输出向量中对应的起始和结束位置的向量拼接,然后通过多层感知机和sigmoid(一种S型函数)激活函数来得到每个候选实体的局部消歧概率得分。
步骤207,全局消歧策略中,首先计算每个指称项的候选实体局部消歧概率得分的方差,对指称项进行排名,构成消歧顺序,方差小的指称项消歧结果确定性更大,应该先进行消歧。将候选实体与步骤6相同的方式输入到BERT模型中,编码层第一个CLS位置输出向量与候选实体在BERT模型输出向量中对应的起始和结束位置的向量拼接,作为GRU(GatedRecurrent,门控循环)单元的输入,取隐藏层的输出作为融合了历史实体知识的候选实体表示,输入到基于多层感知机层的sigmoid(一种S型函数)分类器,得到待消歧的候选指称项映射到当前候选实体的概率,作为候选实体的全局消歧概率得分。并且将链接正确的候选实体的隐藏层输出传递到下一个GRU单元。
步骤208,对于每个指称项的所有候选实体,依据局部消歧概率得分(对应本申请实施例中的局部消歧分数)与全局消歧概率得分(对应本申请实施例中的全局消歧分数)之和进行排序,并选取其中得分最高的候选实体作为当前指称项的链接结果,即链接正确的实体。
上述实施例用于实现前述任一实施例中相应的实体链接方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种实体链接装置。
参考图3,所述实体链接装置,包括:
获取模块201,被配置为获取包括实体指称项的文本;
识别模块202,被配置为通过预先训练的实体识别模型对所述文本进行编码识别获取所述实体指称项;
匹配模块203,被配置为利用所述实体识别模型对所述实体指称项进行词典匹配,得到与所述实体指称项有匹配关系的候选实体,候选实体集为所述实体指称项映射所得的候选实体子集;
打分模块204,被配置为根据所述实体指称项和所述候选实体对应的实体上下文之间的关联度和所述关联度对应的历史实体信息,采用预先训练的消歧模型对所述候选实体集打分,得到打分结果;
选择模块205,被配置为选择所述打分结果中分数最高的候选实体作为实体链接结果。
在一些实施例中,所述消歧模型包括局部消歧模型和全局消歧模型;所述打分模块204具体包括:
格式单元,被配置为采用预定格式将所述实体指称项对应的文本输入所述局部消歧模型;
局部消歧单元,被配置为根据所述实体指称项和所述候选实体对应的实体上下文之间的关联度通过所述局部消歧模型中的多层感知机计算得到所述候选实体对应的局部消歧分数;
排序单元,被配置为根据所述局部消歧分数将所述实体指称项进行降序排序,得到排序结果;
历史单元,被配置为将所述排序结果输入所述全局消歧模型中的门控循环神经网络,得到历史实体信息;
全局消歧单元,被配置为根据所述历史实体信息通过所述全局消歧模型中的多层感知机计算得到所述候选实体对应的全局消歧分数;
确定分数单元,被配置为根据所述局部消歧分数和所述全局消歧分数确定所述打分结果。
在一些实施例中,格式单元中的所述预定格式为式(1):
其中,为所述实体指称项对应的文本,为预定文本与第i个所述实体指称项对应的第j个候选实体的字符串拼接,为第i个所述实体指称项对应的的第j个候选实体的上一阶关系序列对的字符串拼接,[CLS]为表示所述字符串拼接的首位字符的标志,[SEP]为表示两个所述字符串拼接的分割的标志。
在一些实施例中,排序单元具体被配置为根据式(2)对所述实体指称项进行降序排序:
其中,为第n个所述实体指称项,n为所述候选实体集中所述实体指称项的个数,Rank为降序排序函数,为第j个候选实体对应的局部消歧分数,1≤j≤K,为第i个所述实体指称项对应的所有候选实体的局部消歧分数平均值,1≤i≤n,K为所述实体指称项对应的候选实体个数。
在一些实施例中,历史单元具体被配置为根据式(3)-(6)计算所述排序结果与所述历史实体信息的关系:
其中,t为所述门控循环网络中第t个时间点,为排序结果中的实体表示的第J个状态,Wz、Wr、W分别为第一权重矩阵、第二权重矩阵、第三权重矩阵,是隐藏层的第J个状态,σ为激活函数,tanh为双曲正切函数,⊙为同或逻辑运算,是第j个所述候选实体的重置门,是第j个所述候选实体的更新门,为所述历史实体信息,ht-1为第t-1个时间点对应的所述历史实体信息。
在一些实施例中,全局消歧单元被配置为根据式(7)计算所述全局消歧分数:
在一些实施例中,确定分数单元被配置为根据式(8)计算所述打分结果:
在一些实施例中,识别模块202中的实体识别模型和打分模块204中的消歧模型的训练过程包括:
S1.根据式(9)获取所述实体指称项的识别准确率:
S2.根据式(10)获取所述实体识别模型训练过程中的第一损失函数:
其中,为所述第一损失函数,y[s,e]为所述候选实体,p([s,e])为所述识别准确率,s为所述实体指称项对应字符向量的开始编号,e为所述实体指称项对应字符向量的结束编号,i为所述实体指称项的编号,1≤i≤n,n为所述候选实体集中所述实体指称项的个数。
S3.根据式(11)获取所述消歧模型训练过程中的第二损失函数:
其中,LMD为所述第二损失函数,为期望函数,τ为时间常数,为第i个所述实体指称项对应的所述候选实体的所述全局消歧分数对应的正样本,为第i个所述实体指称项对应的第j所述候选实体的所述全局消歧分数对应的负样本,为第i个所述实体指称项对应的第j个所述候选实体的所述局部消歧分数对应的正样本,为第i个所述实体指称项对应的第j个所述候选实体的所述局部消歧分数对应的负样本。
S4.根据所述第一损失函数和所述第二损失函数联合训练所述实体识别模型和所述消歧模型。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的实体链接方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的实体链接方法。
图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的实体链接方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的实体链接方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的实体链接方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种实体链接方法,其特征在于,包括:
获取包括实体指称项的文本;
通过预先训练的实体识别模型对所述文本进行编码识别获取所述实体指称项;
利用所述实体识别模型对所述实体指称项进行词典匹配,得到与所述实体指称项有匹配关系的候选实体,候选实体集为所述实体指称项映射所得的候选实体子集;
根据所述实体指称项和所述候选实体对应的实体上下文之间的关联度和所述关联度对应的历史实体信息,采用预先训练的消歧模型对所述候选实体集打分,得到打分结果;
选择所述打分结果中分数最高的候选实体作为实体链接结果。
2.根据权利要求1所述的方法,其特征在于,所述消歧模型包括局部消歧模型和全局消歧模型;
根据所述实体指称项和所述候选实体对应的实体上下文之间的关联度所述和所述关联度对应的历史实体信息,采用预先训练的消歧模型对所述候选实体集进行打分,得到打分结果,包括:
采用预定格式将所述实体指称项对应的文本输入所述局部消歧模型;
根据所述实体指称项和所述候选实体对应的实体上下文之间的关联度通过所述局部消歧模型中的多层感知机计算得到所述候选实体对应的局部消歧分数;
根据所述局部消歧分数将所述实体指称项进行降序排序,得到排序结果;
将所述排序结果输入所述全局消歧模型中的门控循环神经网络,得到所述历史实体信息;
根据所述历史实体信息通过所述全局消歧模型中的多层感知机计算得到所述候选实体对应的全局消歧分数;
根据所述局部消歧分数和所述全局消歧分数确定所述打分结果。
8.根据权利要求2所述的方法,其特征在于,所述实体识别模型的训练过程和所述消歧模型的训练过程包括:
S1.根据式(9)获取所述实体指称项的识别准确率:
S2.根据式(10)获取所述实体识别模型训练过程中的第一损失函数:
其中,为所述第一损失函数,y[s,e]为所述候选实体,p([s,e])为所述识别准确率,s为所述实体指称项对应字符向量的开始编号,e为所述实体指称项对应字符向量的结束编号,i为所述实体指称项的编号,1≤i≤n,n为所述候选实体集中所述实体指称项的个数。
S3.根据式(11)获取所述消歧模型训练过程中的第二损失函数:
其中,LMD为所述第二损失函数,为期望函数,τ为时间常数,为第i个所述实体指称项对应的所述候选实体的所述全局消歧分数对应的正样本,为第i个所述实体指称项对应的第j所述候选实体的所述全局消歧分数对应的负样本,为第i个所述实体指称项对应的第j个所述候选实体的所述局部消歧分数对应的正样本,为第i个所述实体指称项对应的第j个所述候选实体的所述局部消歧分数对应的负样本。
S4.根据所述第一损失函数和所述第二损失函数联合训练所述实体识别模型和所述消歧模型。
9.一种实体链接装置,其特征在于,包括:
获取模块,被配置为获取包括实体指称项的文本;
识别模块,被配置为通过预先训练的实体识别模型对所述文本进行编码识别获取所述实体指称项;
匹配模块,被配置为利用所述实体识别模型对所述实体指称项进行词典匹配,得到与所述实体指称项有匹配关系的候选实体,候选实体集为所述实体指称项映射所得的候选实体子集;
打分模块,被配置为根据所述实体指称项和所述候选实体对应的实体上下文之间的关联度和所述关联度对应的历史实体信息,采用预先训练的消歧模型对所述候选实体集打分,得到打分结果;
选择模块,被配置为选择所述打分结果中分数最高的候选实体作为实体链接结果。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210567234.9A CN115238080A (zh) | 2022-05-23 | 2022-05-23 | 实体链接方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210567234.9A CN115238080A (zh) | 2022-05-23 | 2022-05-23 | 实体链接方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115238080A true CN115238080A (zh) | 2022-10-25 |
Family
ID=83667766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210567234.9A Pending CN115238080A (zh) | 2022-05-23 | 2022-05-23 | 实体链接方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238080A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306504A (zh) * | 2023-05-23 | 2023-06-23 | 匀熵智能科技(无锡)有限公司 | 候选实体生成方法、装置、存储介质及电子设备 |
-
2022
- 2022-05-23 CN CN202210567234.9A patent/CN115238080A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116306504A (zh) * | 2023-05-23 | 2023-06-23 | 匀熵智能科技(无锡)有限公司 | 候选实体生成方法、装置、存储介质及电子设备 |
CN116306504B (zh) * | 2023-05-23 | 2023-08-08 | 匀熵智能科技(无锡)有限公司 | 候选实体生成方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Young et al. | Recent trends in deep learning based natural language processing | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
WO2021147726A1 (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN111488426B (zh) | 一种查询意图确定方法、装置及处理设备 | |
US20210141863A1 (en) | Multi-perspective, multi-task neural network model for matching text to program code | |
CN109344404B (zh) | 情境感知的双重注意力自然语言推理方法 | |
CN112100356A (zh) | 一种基于相似性的知识库问答实体链接方法及系统 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
KR102155768B1 (ko) | 학습을 통하여 진화하는 질의응답 데이터 셋을 이용한 쇼핑몰 질의응답 추천 서비스 제공 방법 | |
CN112632224B (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
Arumugam et al. | Hands-On Natural Language Processing with Python: A practical guide to applying deep learning architectures to your NLP applications | |
KR102379660B1 (ko) | 딥러닝 기반 의미역 분석을 활용하는 방법 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN111832290A (zh) | 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质 | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
Wang et al. | DM_NLP at semeval-2018 task 12: A pipeline system for toponym resolution | |
US20240004677A1 (en) | Machine-Learned Models for User Interface Prediction, Generation, and Interaction Understanding | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN114358201A (zh) | 基于文本的情感分类方法和装置、计算机设备、存储介质 | |
Başarslan et al. | Sentiment analysis on social media reviews datasets with deep learning approach | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN115983271A (zh) | 命名实体的识别方法和命名实体识别模型的训练方法 | |
CN114691864A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |