CN112560485B - 一种实体链接方法、装置、电子设备及存储介质 - Google Patents
一种实体链接方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112560485B CN112560485B CN202011331935.XA CN202011331935A CN112560485B CN 112560485 B CN112560485 B CN 112560485B CN 202011331935 A CN202011331935 A CN 202011331935A CN 112560485 B CN112560485 B CN 112560485B
- Authority
- CN
- China
- Prior art keywords
- candidate
- entity
- candidate entity
- relationship pair
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims description 60
- 238000004364 calculation method Methods 0.000 claims description 33
- 238000009826 distribution Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 230000007704 transition Effects 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000010380 label transfer Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- YSGQGNQWBLYHPE-CFUSNLFHSA-N (7r,8r,9s,10r,13s,14s,17s)-17-hydroxy-7,13-dimethyl-2,6,7,8,9,10,11,12,14,15,16,17-dodecahydro-1h-cyclopenta[a]phenanthren-3-one Chemical compound C1C[C@]2(C)[C@@H](O)CC[C@H]2[C@@H]2[C@H](C)CC3=CC(=O)CC[C@@H]3[C@H]21 YSGQGNQWBLYHPE-CFUSNLFHSA-N 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种实体链接方法、装置、电子设备及存储介质,该方法包括:获取待识别语句;提取待识别语句的候选实体指称集合;计算候选实体指称集合中每一候选实体指称的实体指称分数;确定每个候选实体指称在知识库中对应的候选实体关系对;对于每一候选实体关系对,基于该候选实体关系对与待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数;对于每一候选实体指称,将该候选实体指称的实体指称分数分别与该候选实体指称对应的候选实体关系对的实体关系对分数进行加权求和,得到多个目标分数;将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接。从而实体链接更加准确。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种实体链接方法、装置、电子设备及存储介质。
背景技术
知识库问答是信息检索系统的一种高级形式。知识库问答系统可以接受自然语言问句,并通过理解自然语言问句的意图,进而查询知识库,输出与自然语言问句相匹配的答案。
在知识库问答的过程中,需要识别自然语言问句中的实体指称,并将所识别出的实体指称链接到知识库中特定的实体上,即需要进行实体链接。例如,当自然语言问句为:中国的首都在哪里时,需要识别出“中国”这一实体指称,并将实体指称“中国”链接到知识库中对应的实体“中华人民共和国”上。
相关技术中,通常基于规则和词典来抽取自然语言问句中的实体指称,然而,这种依赖于规则的制定和词典的规模,从而可能导致识别所得到的实体指称的准确度较低,进而实体链接的准确度较低。
发明内容
为解决上述技术问题,本申请提供了一种实体链接方法、装置、电子设备及存储介质。
第一方面,本申请提高了一种实体链接方法,所述方法包括:
获取待识别语句;
提取所述待识别语句的候选实体指称集合,所述候选实体指称集合中包括多个候选实体指称;
计算所述候选实体指称集合中每一候选实体指称的实体指称分数;
确定每个候选实体指称在知识库中对应的候选实体关系对;
对于每一候选实体关系对,基于该候选实体关系对与所述待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数;
对于每一候选实体指称,将该候选实体指称的实体指称分数分别与该候选实体指称对应的候选实体关系对的实体关系对分数进行加权求和,得到多个目标分数;
将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接。
可选的,所述提取所述待识别语句的候选实体指称集合,包括:
将所述待识别语句中当前待识别字输入预先训练好的标签预测模型,得到所述当前待识别字对应的候选标签、每个所述候选标签对应的标签分布概率和标签转移概率;
获取预测所述当前待识别字之前所得的所述待识别语句的历史候选标签子序列与所述历史候选标签子序列的历史子序列概率,其中,所述历史子序列概率大于第一概率阈值;
基于所述历史候选标签子序列和所述历史子序列概率,以及所述当前待识别字对应的候选标签,每个所述候选标签对应的标签分布概率和标签转移概率,确定所述待识别语句的当前候选标签子序列以及所述当前候选标签子序列的当前子序列概率,直至确定出所述待识别语句的候选标签序列以及所述候选标签序列的序列概率,其中,所述当前子序列概率大于第二概率阈值;
通过所述候选标签序列中的目标候选标签序列,确定所述待识别语句的候选实体指称集合,其中,所述目标候选标签序列的目标序列概率大于第三概率阈值。
可选的,所述计算所述候选实体指称集合中每一候选实体指称对应的实体指称分数,包括:
对于每一候选实体指称,利用预设字符替换所述待识别语句中的该候选实体指称,得到目标待识别语句,其中,预设字符为在所述待识别语句中出现的概率小于预设概率阈值的字符;
将所述目标待识别语句输入预先训练好的回归模型中,得到所述目标待识别语句对应的概率;
将所述目标待识别语句对应的概率确定为所述目标待识别语句中被替换的候选实体指称对应的实体指称分数;
其中,在训练回归模型的过程中,将符合语法结构的实体指称被所述预设字符替换所得的训练语句确定为正样本数据,将不符合语法结构的实体指称被所述预设字符替换时所得的训练语句确定为负样本数据。
可选的,所述对于每一候选实体关系对,基于该候选实体关系对与所述待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数,包括:
对于每一候选实体关系对,将该候选实体关系对与所述待识别语句输入预先训练好的语义相似度计算模型中,得到该候选实体关系对与所述待识别语句的语义相似度,并基于所述语义相似度确定该候选实体关系对的实体关系对分数;
其中,在训练所述语义相似度计算模型之前,对训练语句中的实体指称对应的候选实体关系对进行聚类,得到不同类别的候选实体关系对集合;每次训练所述语义相似度计算模型时,从每一类别的候选实体关系对集合中随机选取一个候选实体关系对作为负样本训练数据,并将训练语句中实体指称正确的候选实体关系对作为正样本数据。
可选的,所述对于每一候选实体关系对,将该候选实体关系对与所述待识别语句输入预先训练好的语义相似度计算模型中,该候选实体关系对与所述待识别语句的语义相似度,包括:
对于每一候选实体关系对,将该候选实体关系对输入预先训练好的结合注意力机制的语义相似度计算模型,得到该候选实体关系对的关系对向量;
对于每一候选实体关系对,计算该候选实体关系对的关系对向量与待识别问句的问句向量的相似度,作为该候选实体关系对与所述待识别语句的语义相似度。
第二方面,本申请示出了一种实体链接装置,所述装置包括:
待识别语句获取模块,用于获取待识别语句;
实体指称集合提取模块,用于提取所述待识别语句的候选实体指称集合,所述候选实体指称集合中包括多个候选实体指称;
实体指称分数计算模块,用于计算所述候选实体指称集合中每一候选实体指称的实体指称分数;
候选实体关系对确定模块,用于确定每个候选实体指称在知识库中对应的候选实体关系对;
实体关系对分数确定模块,用于对于每一候选实体关系对,基于该候选实体关系对与所述待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数;
目标分数计算模块,用于对于每一候选实体指称,将该候选实体指称的实体指称分数分别与该候选实体指称对应的候选实体关系对的实体关系对分数进行加权求和,得到多个目标分数;
实体链接模块,用于将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接。
可选的,所述实体指称集合提取模块,具体用于:
将所述待识别语句中当前待识别字输入预先训练好的标签预测模型,得到所述当前待识别字对应的候选标签、每个所述候选标签对应的标签分布概率和标签转移概率;
获取预测所述当前待识别字之前所得的所述待识别语句的历史候选标签子序列与所述历史候选标签子序列的历史子序列概率,其中,所述历史子序列概率大于第一概率阈值;
基于所述历史候选标签子序列和所述历史子序列概率,以及所述当前待识别字对应的候选标签,每个所述候选标签对应的标签分布概率和标签转移概率,确定所述待识别语句的当前候选标签子序列以及所述当前候选标签子序列的当前子序列概率,直至确定出所述待识别语句的候选标签序列以及所述候选标签序列的序列概率,其中,所述当前子序列概率大于第二概率阈值;
通过所述候选标签序列中的目标候选标签序列,确定所述待识别语句的候选实体指称集合,其中,所述目标候选标签序列的目标序列概率大于第三概率阈值。
可选的,所述实体指称分数计算模块,具体用于:
对于每一候选实体指称,利用预设字符替换所述待识别语句中的该候选实体指称,得到目标待识别语句,其中,预设字符为在所述待识别语句中出现的概率小于预设概率阈值的字符;
将所述目标待识别语句输入预先训练好的回归模型中,得到所述目标待识别语句对应的概率;
将所述目标待识别语句对应的概率确定为所述目标待识别语句中被替换的候选实体指称对应的实体指称分数;
其中,在训练回归模型的过程中,将符合语法结构的实体指称被所述预设字符替换所得的训练语句确定为正样本数据,将不符合语法结构的实体指称被所述预设字符替换时所得的训练语句确定为负样本数据。
可选的,所述候选实体关系对确定模块,包括:
候选实体关系对确定单元,用于对于每一候选实体关系对,将该候选实体关系对与所述待识别语句输入预先训练好的语义相似度计算模型中,得到该候选实体关系对与所述待识别语句的语义相似度,并基于所述语义相似度确定该候选实体关系对的实体关系对分数;
其中,在训练所述语义相似度计算模型之前,对训练语句中的实体指称对应的候选实体关系对进行聚类,得到不同类别的候选实体关系对集合;每次训练所述语义相似度计算模型时,从每一类别的候选实体关系对集合中随机选取一个候选实体关系对作为负样本训练数据,并将训练语句中实体指称正确的候选实体关系对作为正样本数据。
可选的,所述候选实体关系对确定单元,具体用于:
对于每一候选实体关系对,将该候选实体关系对输入预先训练好的结合注意力机制的语义相似度计算模型,得到该候选实体关系对的关系对向量;
对于每一候选实体关系对,计算该候选实体关系对的关系对向量与待识别问句的问句向量的相似度,作为该候选实体关系对与所述待识别语句的语义相似度。
第三方面,本申请示出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的实体链接方法的步骤。
第四方面,本申请示出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的实体链接方法的步骤。
通过本申请实施例的技术方案,在实体指称识别阶段,所提取的候选实体指称集合包括多个候选实体指称,为后续实体消歧阶段保留了更多可能,同时引入了候选实体指称的实体指称分数对多个候选实体指称进行重排序。并且,在实体消歧阶段,引入了候选实体关系对,以结合待识别问句的上下文信息来进行消歧,并计算了候选实体关系对与待识别语句的语义相似度,从而得到候选实体关系对的实体关系对分数,最终将实体指称分数与实体关系对分数进行加权求和,得到多个目标分数,并将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接,从而实体链接更加准确。
附图说明
图1是本申请实施例提供的一种实体链接方法的步骤流程图;
图2是图1中S120的一种实施方式的步骤流程图;
图3是图1中S130的一种实施方式的步骤流程图;
图4是本申请实施例提供的一种实体链接装置的结构框图;
图5是本申请实施例提供的一种电子设备的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
知识库问答系统接受自然语言问句,通过理解自然语言问句的意图,进而查询知识库,输出与自然语言问句匹配的答案。而在这其中,识别自然语言问句中的实体指称,并将它们链接到知识库中特定的实体上,是知识库问答的第一步,这一步称为实体链接。
例如,在自然语言问句“中国的首都在哪里”中,首先需要识别出“中国”这一实体指称,在此基础上将实体指称“中国”链接到知识库中对应的实体“中华人民共和国”上。
相关技术中,实体链接的研究方法通常为先进行指称识别后进行实体消歧的管道方式。管道方式可以分为两个阶段,第一阶段是指称识别,第二阶段是实体消歧:指称识别用于找出自然语言问句中的实体指称;实体消歧用于将实体指称链接到知识库中相应的实体上,解决实体指称的一词多义和多词一义的问题。
其中,指称识别基于规则和词典抽取自然语言问句中的字符串序列形成候选指称集合,这种方法依赖于规则的制定和词典的规模,无法识别规则或者词典外的指称,从而可能导致识别所得到的实体指称的准确度较低。
实体消歧是指给定实体指称、所在上下文信息和候选实体集合,判断实体指称在当前上下文中所指向实体的过程。
由于在管道方式中实体指称识别和实体消歧是分开建模和训练的,一方面,实体指称识别模型的错误将在后续的实体消歧阶段放大,即存在错误扩散的问题;另一方面,实体消歧模型的误差只能用于修订实体消歧模型的参数,不能反传用于提升实体指称识别的性能,实体指称识别需要单独的监督信息,即监督信息局部化的问题。从而导致实体链接的准确度较低。
为此,本申请实施例提供了一种实体链接方法、装置、电子设备及存储介质。
第一方面,首先对本申请实施例提供的一种实体链接方法进行详细阐述。
参照图1,示出了本申请的一种实体链接方法的步骤流程图,具体可以包括如下步骤:
S110,获取待识别语句。
其中,待识别语句可以是任意自然语言问句,例如,可以为中国的首都在哪里。本申请实施例对待识别语句不做具体限定。
S120,提取待识别语句的候选实体指称集合。
其中,候选实体指称集合中包括多个候选实体指称。
具体的,由于在管道方式中,指称识别阶段采用的是序列标注模型BiLSTM-CRF。尽管使用了CRF层,利用标签之间的转移概率来获取最优的标注序列,但最终只能得到模序列标注型认为的最优的标注序列,也就是说,只能得到待识别语句唯一的实体指称。如果所得的这个实体指称错误,则会导致后续消歧阶段是建立在一个错误的实体指称上进行的,在这种情况下进行实体消歧毫无意义。这也是管道方式固有的缺陷:错误传递。
因此,在本申请中,在指称实体的预测阶段引入集束搜索Beam Search来代替CRF,获得待识别语句的候选实体指称集合,该候选实体指称集合中包括多个候选候选指称,以延迟决策待识别语句的实体指称,并结合实体消歧阶段的结果再进行最终确定。
为了方案完整和描述清楚,将在下面实施例中对提取待识别语句的候选实体指称集合的具体实现方式进行详细阐述。
S130,计算候选实体指称集合中每一候选实体指称的实体指称分数。
具体的,在通过Beam Search得到候选实体指称集合后,为了后续步骤中,能够准确地得到待识别语句的候选实体指称,可以计算候选实体指称集合中每一候选实体指称的实体指称分数,并记录每个候选实体指称的实体指称分数,以对候选实体指称集合中的候选实体指称进行重排序。
为了方案完整和描述清楚,将在下面实施例中对计算候选实体指称集合中每一候选实体指称的实体指称分数的具体实施方式进行详细阐述。
S140,确定每个候选实体指称在知识库中对应的候选实体关系对。
具体的,由于本申请研究的实体链接是面向知识库问答的,在确定了多个候选实体指称后,可以在知识库中查询到每个候选实体指称对应的候选实体时,这些候选实体对应到的关系也可以在知识库中查询得到。因此,在实体消歧阶段,还可以加入候选实体对应的关系信息,即针对每一个候选实体指称组成相应的候选实体关系对,以结合待识别问句的上下文信息来进行消歧。
S150,对于每一候选实体关系对,基于该候选实体关系对与待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数。
具体的,当得到待识别问句中每一个候选实体指称对应的候选实体关系对集合后,根据待识别问句的上下文信息进行实体消歧,也就是说,需要计算每一候选实体关系对与待识别问句的语义相似度,并基于该候选实体关系对与待识别语句的语义相似度,来确定该候选实体关系对的实体关系对分数。
可以理解的是,一个候选实体关系对与待识别语句的语义相似度越高,该候选实体关系对的实体关系对分数也越高;一个候选实体关系对与待识别语句的语义相似度越低,该候选实体关系对的实体关系对分数也越低。
为了方案描述完整和清楚,将在下面实施例中对对于每一候选实体关系对,基于该候选实体关系对与待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数的具体实施方式进行详细阐述。
S160,对于每一候选实体指称,将该候选实体指称的实体指称分数分别与该候选实体指称对应的候选实体关系对的实体关系对分数进行加权求和,得到多个目标分数。
具体的,在得到每一候选实体指称的实体指称分数与该实体指称对应的候选实体关系对的实体关系对分数后,可以将该候选实体指称的实体指称分数分别与该候选实体指称对应的候选实体关系对的实体关系对分数进行加权求和,得到多个目标分数。
在实际应用中可以按照如下函数来计算目标分数:
e=argmax(β·Ms+(1-β)·EPS)
其中,e为目标分数,β为超参数,Ms为实体指称分数,EPS为实体关系对分数。
S170,将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接。
具体的,在计算得到多个目标分数后,可以选择最高目标分数对应的目标候选实体指称作为待识别语句的实体,并将最高目标分数对应的目标候选实体关系对作为待识别实体的实体关系对,并将目标候选实体指称与目标候选实体关系对中的目标候选实体相链接,从而实现了实体链接。
通过本申请实施例的技术方案,在实体指称识别阶段,所提取的候选实体指称集合包括多个候选实体指称,为后续实体消歧阶段保留了更多可能,同时引入了候选实体指称的实体指称分数对多个候选实体指称进行重排序。并且,在实体消歧阶段,进入了候选实体关系对,以结合待识别问句的上下文信息来进行消歧,并计算了候选实体关系对与待识别语句的语义相似度,从而得到候选实体关系对的实体关系对分数,最终将实体指称分数与实体关系对分数进行加权求和,得到多个目标分数,并将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接,从而实体链接更加准确。
为了方案完整和描述清楚,将在下面实施例中对提取待识别语句的候选实体指称集合的具体实现方式进行详细阐述。
如图2所示,S120,提取待识别语句的候选实体指称集合,可以包括如下步骤:
S121,将待识别语句中当前待识别字输入预先训练好的标签预测模型,得到当前待识别字对应的候选标签、每个候选标签对应的标签分布概率和标签转移概率。
具体的,待识别语句通常包括多个待识别字,每一个待识别字均可以称为当前待识别字,可以将当前待识别字输入预先训练好的标签预测模型如BiLSTM后接Softmax层来得到当前待识别字对应的候选标签、每个候选标签对应的标签分布概率和标签转移概率。
当前待识别字对应的候选标签可以是BIOSE标签,其中,B代表实体指称开始标签,I代表实体指称中间标签,E表示实体指称结束标签,O和S表示不属于实体指称。并且,每个候选标签具有对应的标签分布概率和标签转移概率,一个候选标签对应的标签分布概率越大,说明当前识别字是该候选标签的可能性越大,否则说明当前识别字是该候选标签的可能性越小。标签转移概率用于表征下一个待识别字为转移到各个候选标签的概率。
S122,获取预测当前待识别字之前所得的待识别语句的历史候选标签子序列与历史候选标签子序列的历史子序列概率。
其中,历史子序列概率大于第一概率阈值。
具体的,在对当前待识别字的标签进行预测之前,可以获取到待识别语句中当前待识别字之前的字的候选标签,即获取到待识别语句的历史候选标签子序列与历史候选标签子序列的历史子序列概率。
在实际应用中,历史候选标签子序列通常有多个,可以选择历史子序列概率大于第一概率阈值的历史候选标签子序列,其中,第一概率阈值的大小可以根据实际情况进行确定,例如,可以选择多个历史候选标签子序列中,历史子序列概率排序前三的历史候选标签子序列。
S123,基于历史候选标签子序列和历史子序列概率,以及当前待识别字对应的候选标签,每个候选标签对应的标签分布概率和标签转移概率,确定待识别语句的当前候选标签子序列以及当前候选标签子序列的当前子序列概率,直至确定出待识别语句的候选标签序列以及候选标签序列的序列概率。
其中,当前子序列概率大于第二概率阈值。
具体的,在获取到历史候选标签子序列和历史子序列概率,以及当前待识别字对应的候选标签,每个候选标签对应的标签分布概率和标签转移概率之后,可以基于历史候选标签子序列和历史子序列概率,以及当前待识别字对应的候选标签,每个候选标签对应的标签分布概率和标签转移概率来确定当前候选标签子序列以及当前候选标签子序列的当前子序列概率。
可以理解的是,在实际应用中,当前候选标签子序列通常也有多个,可以选择当前子序列概率大于第二概率阈值的当前候选标签子序列,其中,第二概率阈值的大小可以根据实际情况进行确定,例如,可以选择多个当前候选标签子序列中,当前子序列概率排序前三的当前候选标签子序列。以此类推,直到确定出待识别语句的候选标签序列以及候选标签序列的序列概率。
S124,通过候选标签序列中的目标候选标签序列,确定待识别语句的候选实体指称集合。
其中,目标候选标签序列的目标序列概率大于第三概率阈值。
具体的,待识别语句的候选标签序列通常有多个,可以选择候选标签序列中目标序列概率大于第三概率阈值的候选标签序列,其中,第三概率阈值的大小可以根据实际情况进行确定,例如,可以选择候选标签序列中,序列概率排序前三的候选标签序列作为目标候选标签序列。
在得到各个目标候选标签序列后,即可以确定出各个目标候选标签序列中对应的候选实体指称,并将所确定的候选实体指称组成候选实体指称集合。
下面结合具体实例来对如何提取待识别语句的候选实体指称集合进行详细描述。
设待识别问句q={q1,…,qt,…,qn}t=1,2,…,n,n是问句的长度,q1表示q的第一个字,qt表示q的中间任意一个字,qn表示问句中的最后一个字。
对于每一个qt,可以使用BiLSTM后接Softmax层可以得到将其标记为每一个候选标签的概率分布;每次结合上一时刻得到的历史候选标签子序列、当前输出的标签概率分布和标签转移概率,得到截止到当前时刻k的当前候选标签子序列及其概率值;并且,可以选择概率值最高的前三个候选标签子序列传到下一时刻k+1,下一时刻再根据这三个候选标签子序列和下一时刻k+1的标签概率分布、标签转移概率进行计算、排序、选择直到最后时刻。
在实际应用中,Beam Search预测概率值排序前三的候选标签序列时,在采用BIOSE标签的同时,可以加入开始标签“START”和结束标签“STOP”,因此,候选标签词典大小可以为7。在得到概率值排序前三的候选标签序列后,可以根据这三个候选标签序列确定出候选实体指称,分别为m1,m2,m3,进而所得的候选指称集合m={m1,m2,m3}。
例如,待识别问句q为:请告诉我《哈姆雷特》是哪个电影公司拍摄的,那么,所得的候选实体指称可以为:请,哈姆雷特以及电影,候选实体指称集合可以为{请,哈姆雷特,电影}。
可见,通过本实施方式提供的技术方案,可以确定出待识别问句的候选实体指称集合,且该候选实体指称集合中包括多个候选实体指称,而不像相关技术那样,只能得到待识别语句唯一的、且可能存在错误实体指称。这样,有利于后续步骤中结合实体消歧准确地确定出待识别语句的实体指称。
为了方案完整和描述清楚,将在下面实施例中对计算候选实体指称集合中每一候选实体指称的实体指称分数的具体实施方式进行详细阐述。
在一种实施方式中,计算候选实体指称集合中每一候选实体指称对应的实体指称分数,如图3所示,可以包括如下步骤:
S131,对于每一候选实体指称,利用预设字符替换待识别语句中的该候选实体指称,得到目标待识别语句。
其中,预设字符为在待识别语句中出现的概率小于预设概率阈值的字符。
具体的,在计算每一候选实体指称的实体指称分数时,可以利用在待识别语句中出现概率很小的预设字符来替换该候选实体指称,例如,该预设字符可以为__MENTION__。当然,这只是一个举例,在实际应用中,预设字符还可以是其他字符,本申请实施例对预设字符不做具体限定。
举例而言,当待识别语句为请告诉我《哈姆雷特》是哪个电影公司拍摄的,候选实体指称为:请,哈姆雷特,以及电影。
在计算候选实体指称“请”的实体指称分数时,可以用“__MENTION__”替换“请”,所得的目标待识别语句为:_MENTION__告诉我《哈姆雷特》是哪个电影公司拍摄的。
在计算候选实体指称“哈姆雷特”的实体指称分数时,可以用“__MENTION__”替换“哈姆雷特”,所得的目标待识别语句为:请告诉我《__MENTION__》是哪个电影公司拍摄的。
在计算候选实体指称“电影”的实体指称分数时,可以用“__MENTION__”替换“电影”,所得的目标待识别语句为:请告诉我《哈姆雷特》是哪个__MENTION__公司拍摄的。
S132,将目标待识别语句输入预先训练好的回归模型中,得到目标待识别语句对应的概率。
S133,将目标待识别语句对应的概率确定为目标待识别语句中被替换的候选实体指称对应的实体指称分数。
其中,在训练回归模型的过程中,将符合语法结构的实体指称被预设字符替换所得的训练语句确定为正样本数据,将不符合语法结构的实体指称被预设字符替换时所得的训练语句确定为负样本数据。
具体的,在利用预设字符替换待识别语句中的候选实体指称,得到目标待识别语句后,可以分别将目标待识别语句输入到预先训练好的回归模型如BiLSTM的回归模型中,回归模型会计算各个目标待识别语句对应的概率,并输出各个目标待识别语句对应的概率。并将目标待识别语句对应的概率确定为目标待识别语句中被替换的候选实体指称对应的实体指称分数。
并且,在训练回归模型时,需要采集大量的训练数据。在构造训练数据时,为正确实体指称被预设字符替换后对应的训练问句赋予概率1,为错误实体指称被预设字符替换后对应的训练问句赋予概率0。
通过用预设字符替换实体指称的做法,基于BiLSTM的回归模型可以建模的是自然语言问句的语法结构信息,计算输入一个自然语言语句的概率。当输入的自然语言问句符合正常语法结构信息,从回归模型输出的概率会趋近于1;当输入的自然语言问句不符合正常语法结构信息,从回归模型输出的概率会趋近于0。
例如,目标待识别问句为:“请告诉我《__MENTION__》是哪个电影公司拍摄的?”里实体指称出现的位置是符合语法结构的。而在目标待识别语句“__MENTION__告诉我《哈姆雷特》是哪个电影公司拍摄的?”中,根据句法结构,在这种句式中,实体指称出现在句子开头明显不符合语法结构。引入BiLSTM的回归模型就是为了引入句法结构信息来帮助实体指称识别。通过实体指称重排序,得到了候选指称集合m={m1,m2,m3}对应的候选实体指称分数集合ms={ms1,ms2,ms3}。假如候选指称集合为{请,哈姆雷特,电影},对应的候选实体指称分数集合为{0,1,0}。
可见,通过本申请实施例提供的技术方案,可以结合自然语言问句的语法结构信息,准确地计算出每一候选实体指称的实体指称分数,以实现对候选实体指称集合中包括的多个候选实体指称进行重排序。
为了方案描述完整和清楚,将在下面实施例中对对于每一候选实体关系对,基于该候选实体关系对与待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数的具体实施方式进行详细阐述。
在一种实施方式中,对于每一候选实体关系对,基于该候选实体关系对与待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数,可以包括如下步骤A:
步骤A,对于每一候选实体关系对,将该候选实体关系对与待识别语句输入预先训练好的语义相似度计算模型中,得到该候选实体关系对与待识别语句的语义相似度,并基于语义相似度确定该候选实体关系对的实体关系对分数。
其中,在训练语义相似度计算模型之前,对训练语句中的实体指称对应的候选实体关系对进行聚类,得到不同类别的候选实体关系对集合;每次训练语义相似度计算模型时,从每一类别的候选实体关系对集合中随机选取一个候选实体关系对作为负样本训练数据,并将训练语句中实体指称正确的候选实体关系对作为正样本数据。
在该实施方式中,可以通过语义相似度计算模型BiLSTM-DSSM模型来计算各个候选实体关系对的实体关系对分数。在训练BiLSTM-DSSM模型时,由于在知识库中每个实体对应的关系众多,这会导致最终的候选实体关系对数量过多,在训练BiLSTM-DSSM模型时,正样本训练数据和负样本训练数据的数量比例严重失衡。
每个待识别问句对应的正样本训练数据只有一个,但对应的负样本训练数据可能是几个,十几个甚至几十个或是上百个,这给BiLSTM-DSSM模型训练带来了很大的困难。介于此,引入聚类算法对正样本训练数据和负样本训练数据进行分类,以将相似的负样本训练数据分为一类。
这样,在训练BiLSTM-DSSM模型的时候每次都按类别随机抽选,有多少类别就抽取多少个负样本数据进行训练。在本申请中,可以使用k-means聚类算法,这样可以根据BiLSTM-DSSM模型需要事先预设好k值,并且由于本申请使用BiLSTM-DSSM模型进行相似度计算,k值的设定需与BiLSTM-DSSM模型的负样本训练数据的个数保持一致。对于每个待识别问句所聚类成的类别数都是一样的,方便按批进行模型训练。
通过本实施方式的技术方案,使用聚类算法对负样本训练数据进行分类,不仅可以解决正负样本训练数据数量不均衡问题,同时也可以加快BiLSTM-DSSM模型的训练速度。
在实际应用中,候选实体关系对中每一部分所需要用到的上下文信息是不一样的,而且,并不是待识别问句中所有的信息都对实体消歧有帮助。在实体这一字段更关注与待识别问句中实体相关的信息,而关系这一字段更关注与问句所问的关系信息。
例如,问句“请告诉我《哈姆雷特》是哪个电影公司拍摄的?”,实体字段需要利用到“哈姆雷特”、“电影”这两个部分的信息来进行实体消歧,关系字段关注的是“拍摄”这一部分信息,而问句剩余的其他部分对于实体消歧是没有任何的帮助。基于此,在实体消歧阶段引入注意力机制,使得在实体消歧的过程中,候选实体关系对的不同字段可以专注于问句中不同的上下文信息,使得实体消歧更具针对性。
因此,在一种实施方式中,对于每一候选实体关系对,将该候选实体关系对与待识别语句输入预先训练好的语义相似度计算模型中,该候选实体关系对与待识别语句的语义相似度,可以包括如下两个步骤,分别为步骤A1和步骤A2。
步骤A1,对于每一候选实体关系对,将该候选实体关系对输入预先训练好的结合注意力机制的语义相似度计算模型,得到该候选实体关系对的关系对向量。
具体的,对于每一候选实体关系对,可以将该候选实体关系对输入到结合了注意力机制的BiLSTM模型,在t时刻结合了注意力机制的BiLSTM模型的输出是其中,是前向上下LSTM在t时刻的隐层向量,是后向LSTM在t时刻的隐层向量,将两者拼接起来作为BiLSTM-DSSM模型在t时刻的输出。
然后,结合注意力机制的BiLSTM-DSSM模型,基于公式αt=ht·vq和来计算该候选实体关系对的关系对向量,其中,vq是待识别问句通过另一BiLSTM模型得到的向量表示,为该候选实体关系对的关系对向量。
步骤A2,对于每一候选实体关系对,计算该候选实体关系对的关系对向量与待识别问句的问句向量的相似度,作为该候选实体关系对与待识别语句的语义相似度。
在得到了每一候选实体关系对的关系对向量之后,可以计算该候选实体关系对的关系对向量与待识别问句的问句向量的相似度,从而得到该候选实体关系对与待识别语句的语义相似度。
可见,通过本实施方式,在实体消歧阶段引入注意力机制,使得在实体消歧的过程中,候选实体关系对的不同字段可以专注于问句中不同的上下文信息,使得实体消歧更具针对性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本申请所必须的。
第二方面,本申请示出了一种实体链接装置,如图4所示,所述装置包括:
待识别语句获取模块410,用于获取待识别语句;
实体指称集合提取模块420,用于提取所述待识别语句的候选实体指称集合,所述候选实体指称集合中包括多个候选实体指称;
实体指称分数计算模块430,用于计算所述候选实体指称集合中每一候选实体指称的实体指称分数;
候选实体关系对确定模块440,用于确定每个候选实体指称在知识库中对应的候选实体关系对;
实体关系对分数确定模块450,用于对于每一候选实体关系对,基于该候选实体关系对与所述待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数;
目标分数计算模块460,用于对于每一候选实体指称,将该候选实体指称的实体指称分数分别与该候选实体指称对应的候选实体关系对的实体关系对分数进行加权求和,得到多个目标分数;
实体链接模块470,用于将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接。
通过本申请实施例的技术方案,在实体指称识别阶段,所提取的候选实体指称集合包括多个候选实体指称,为后续实体消歧阶段保留了更多可能,同时引入了候选实体指称的实体指称分数对多个候选实体指称进行重排序。并且,在实体消歧阶段,进入了候选实体关系对,以结合待识别问句的上下文信息来进行消歧,并计算了候选实体关系对与待识别语句的语义相似度,从而得到候选实体关系对的实体关系对分数,最终将实体指称分数与实体关系对分数进行加权求和,得到多个目标分数,并将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接,从而实体链接更加准确。
可选的,所述实体指称集合提取模块,具体用于:
将所述待识别语句中当前待识别字输入预先训练好的标签预测模型,得到所述当前待识别字对应的候选标签、每个所述候选标签对应的标签分布概率和标签转移概率;
获取预测所述当前待识别字之前所得的所述待识别语句的历史候选标签子序列与所述历史候选标签子序列的历史子序列概率,其中,所述历史子序列概率大于第一概率阈值;
基于所述历史候选标签子序列和所述历史子序列概率,以及所述当前待识别字对应的候选标签,每个所述候选标签对应的标签分布概率和标签转移概率,确定所述待识别语句的当前候选标签子序列以及所述当前候选标签子序列的当前子序列概率,直至确定出所述待识别语句的候选标签序列以及所述候选标签序列的序列概率,其中,所述当前子序列概率大于第二概率阈值;
通过所述候选标签序列中的目标候选标签序列,确定所述待识别语句的候选实体指称集合,其中,所述目标候选标签序列的目标序列概率大于第三概率阈值。
可选的,所述实体指称分数计算模块,具体用于:
对于每一候选实体指称,利用预设字符替换所述待识别语句中的该候选实体指称,得到目标待识别语句,其中,预设字符为在所述待识别语句中出现的概率小于预设概率阈值的字符;
将所述目标待识别语句输入预先训练好的回归模型中,得到所述目标待识别语句对应的概率;
将所述目标待识别语句对应的概率确定为所述目标待识别语句中被替换的候选实体指称对应的实体指称分数;
其中,在训练回归模型的过程中,将符合语法结构的实体指称被所述预设字符替换所得的训练语句确定为正样本数据,将不符合语法结构的实体指称被所述预设字符替换时所得的训练语句确定为负样本数据。
可选的,所述候选实体关系对确定模块,包括:
候选实体关系对确定单元,用于对于每一候选实体关系对,将该候选实体关系对与所述待识别语句输入预先训练好的语义相似度计算模型中,得到该候选实体关系对与所述待识别语句的语义相似度,并基于所述语义相似度确定该候选实体关系对的实体关系对分数;
其中,在训练所述语义相似度计算模型之前,对训练语句中的实体指称对应的候选实体关系对进行聚类,得到不同类别的候选实体关系对集合;每次训练所述语义相似度计算模型时,从每一类别的候选实体关系对集合中随机选取一个候选实体关系对作为负样本训练数据,并将训练语句中实体指称正确的候选实体关系对作为正样本数据。
可选的,所述候选实体关系对确定单元,具体用于:
对于每一候选实体关系对,将该候选实体关系对输入预先训练好的结合注意力机制的语义相似度计算模型,得到该候选实体关系对的关系对向量;
对于每一候选实体关系对,计算该候选实体关系对的关系对向量与待识别问句的问句向量的相似度,作为该候选实体关系对与所述待识别语句的语义相似度。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
第三方面,本申请示出了一种电子设备,如图5所示,包括存储器510、处理器520及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的实体链接方法的步骤。
通过本申请实施例的技术方案,在实体指称识别阶段,所提取的候选实体指称集合包括多个候选实体指称,为后续实体消歧阶段保留了更多可能,同时引入了候选实体指称的实体指称分数对多个候选实体指称进行重排序。并且,在实体消歧阶段,进入了候选实体关系对,以结合待识别问句的上下文信息来进行消歧,并计算了候选实体关系对与待识别语句的语义相似度,从而得到候选实体关系对的实体关系对分数,最终将实体指称分数与实体关系对分数进行加权求和,得到多个目标分数,并将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接,从而实体链接更加准确。
第四方面,本申请示出了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的实体链接方法的步骤。
通过本申请实施例的技术方案,在实体指称识别阶段,所提取的候选实体指称集合包括多个候选实体指称,为后续实体消歧阶段保留了更多可能,同时引入了候选实体指称的实体指称分数对多个候选实体指称进行重排序。并且,在实体消歧阶段,进入了候选实体关系对,以结合待识别问句的上下文信息来进行消歧,并计算了候选实体关系对与待识别语句的语义相似度,从而得到候选实体关系对的实体关系对分数,最终将实体指称分数与实体关系对分数进行加权求和,得到多个目标分数,并将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接,从而实体链接更加准确。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种实体链接方法、装置、电子设备及存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种实体链接方法,其特征在于,所述方法包括:
获取待识别语句;
提取所述待识别语句的候选实体指称集合,所述候选实体指称集合中包括多个候选实体指称;
计算所述候选实体指称集合中每一候选实体指称的实体指称分数;
确定每个候选实体指称在知识库中对应的候选实体关系对;
对于每一候选实体关系对,基于该候选实体关系对与所述待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数;
对于每一候选实体指称,将该候选实体指称的实体指称分数分别与该候选实体指称对应的候选实体关系对的实体关系对分数进行加权求和,得到多个目标分数;
将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接;
其中,所述计算所述候选实体指称集合中每一候选实体指称对应的实体指称分数,包括:
对于每一候选实体指称,利用预设字符替换所述待识别语句中的该候选实体指称,得到目标待识别语句,其中,预设字符为在所述待识别语句中出现的概率小于预设概率阈值的字符;
将所述目标待识别语句输入预先训练好的回归模型中,得到所述目标待识别语句对应的概率;
将所述目标待识别语句对应的概率确定为所述目标待识别语句中被替换的候选实体指称对应的实体指称分数。
2.根据权利要求1所述的方法,其特征在于,所述提取所述待识别语句的候选实体指称集合,包括:
将所述待识别语句中当前待识别字输入预先训练好的标签预测模型,得到所述当前待识别字对应的候选标签、每个所述候选标签对应的标签分布概率和标签转移概率;
获取预测所述当前待识别字之前所得的所述待识别语句的历史候选标签子序列与所述历史候选标签子序列的历史子序列概率,其中,所述历史子序列概率大于第一概率阈值;
基于所述历史候选标签子序列和所述历史子序列概率,以及所述当前待识别字对应的候选标签,每个所述候选标签对应的标签分布概率和标签转移概率,确定所述待识别语句的当前候选标签子序列以及所述当前候选标签子序列的当前子序列概率,直至确定出所述待识别语句的候选标签序列以及所述候选标签序列的序列概率,其中,所述当前子序列概率大于第二概率阈值;
通过所述候选标签序列中的目标候选标签序列,确定所述待识别语句的候选实体指称集合,其中,所述目标候选标签序列的目标序列概率大于第三概率阈值。
3.根据权利要求1所述的方法,其特征在于,在训练回归模型的过程中,将符合语法结构的实体指称被所述预设字符替换所得的训练语句确定为正样本数据,将不符合语法结构的实体指称被所述预设字符替换时所得的训练语句确定为负样本数据。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述对于每一候选实体关系对,基于该候选实体关系对与所述待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数,包括:
对于每一候选实体关系对,将该候选实体关系对与所述待识别语句输入预先训练好的语义相似度计算模型中,得到该候选实体关系对与所述待识别语句的语义相似度,并基于所述语义相似度确定该候选实体关系对的实体关系对分数;
其中,在训练所述语义相似度计算模型之前,对训练语句中的实体指称对应的候选实体关系对进行聚类,得到不同类别的候选实体关系对集合;每次训练所述语义相似度计算模型时,从每一类别的候选实体关系对集合中随机选取一个候选实体关系对作为负样本训练数据,并将训练语句中实体指称正确的候选实体关系对作为正样本数据。
5.根据权利要求4所述的方法,其特征在于,所述对于每一候选实体关系对,将该候选实体关系对与所述待识别语句输入预先训练好的语义相似度计算模型中,该候选实体关系对与所述待识别语句的语义相似度,包括:
对于每一候选实体关系对,将该候选实体关系对输入预先训练好的结合注意力机制的语义相似度计算模型,得到该候选实体关系对的关系对向量;
对于每一候选实体关系对,计算该候选实体关系对的关系对向量与待识别问句的问句向量的相似度,作为该候选实体关系对与所述待识别语句的语义相似度。
6.一种实体链接装置,其特征在于,所述装置包括:
待识别语句获取模块,用于获取待识别语句;
实体指称集合提取模块,用于提取所述待识别语句的候选实体指称集合,所述候选实体指称集合中包括多个候选实体指称;
实体指称分数计算模块,用于计算所述候选实体指称集合中每一候选实体指称的实体指称分数;其中,所述计算所述候选实体指称集合中每一候选实体指称对应的实体指称分数,包括:
对于每一候选实体指称,利用预设字符替换所述待识别语句中的该候选实体指称,得到目标待识别语句,其中,预设字符为在所述待识别语句中出现的概率小于预设概率阈值的字符;
将所述目标待识别语句输入预先训练好的回归模型中,得到所述目标待识别语句对应的概率;
将所述目标待识别语句对应的概率确定为所述目标待识别语句中被替换的候选实体指称对应的实体指称分数;
候选实体关系对确定模块,用于确定每个候选实体指称在知识库中对应的候选实体关系对;
实体关系对分数确定模块,用于对于每一候选实体关系对,基于该候选实体关系对与所述待识别语句的语义相似度,确定该候选实体关系对的实体关系对分数;
目标分数计算模块,用于对于每一候选实体指称,将该候选实体指称的实体指称分数分别与该候选实体指称对应的候选实体关系对的实体关系对分数进行加权求和,得到多个目标分数;
实体链接模块,用于将目标分数大于预设分数对应的目标候选实体指称与目标候选实体关系对中的目标候选实体相链接。
7.根据权利要求6所述的装置,其特征在于,所述实体指称集合提取模块,具体用于:
将所述待识别语句中当前待识别字输入预先训练好的标签预测模型,得到所述当前待识别字对应的候选标签、每个所述候选标签对应的标签分布概率和标签转移概率;
获取预测所述当前待识别字之前所得的所述待识别语句的历史候选标签子序列与所述历史候选标签子序列的历史子序列概率,其中,所述历史子序列概率大于第一概率阈值;
基于所述历史候选标签子序列和所述历史子序列概率,以及所述当前待识别字对应的候选标签,每个所述候选标签对应的标签分布概率和标签转移概率,确定所述待识别语句的当前候选标签子序列以及所述当前候选标签子序列的当前子序列概率,直至确定出所述待识别语句的候选标签序列以及所述候选标签序列的序列概率,其中,所述当前子序列概率大于第二概率阈值;
通过所述候选标签序列中的目标候选标签序列,确定所述待识别语句的候选实体指称集合,其中,所述目标候选标签序列的目标序列概率大于第三概率阈值。
8.根据权利要求7所述的装置,其特征在于,所述实体指称分数计算模块,具体用于:
其中,在训练回归模型的过程中,将符合语法结构的实体指称被所述预设字符替换所得的训练语句确定为正样本数据,将不符合语法结构的实体指称被所述预设字符替换时所得的训练语句确定为负样本数据。
9.根据权利要求6至7任一项所述的装置,其特征在于,所述候选实体关系对确定模块,包括:
候选实体关系对确定单元,用于对于每一候选实体关系对,将该候选实体关系对与所述待识别语句输入预先训练好的语义相似度计算模型中,得到该候选实体关系对与所述待识别语句的语义相似度,并基于所述语义相似度确定该候选实体关系对的实体关系对分数;
其中,在训练所述语义相似度计算模型之前,对训练语句中的实体指称对应的候选实体关系对进行聚类,得到不同类别的候选实体关系对集合;每次训练所述语义相似度计算模型时,从每一类别的候选实体关系对集合中随机选取一个候选实体关系对作为负样本训练数据,并将训练语句中实体指称正确的候选实体关系对作为正样本数据。
10.根据权利要求9所述的装置,其特征在于,所述候选实体关系对确定单元,具体用于:
对于每一候选实体关系对,将该候选实体关系对输入预先训练好的结合注意力机制的语义相似度计算模型,得到该候选实体关系对的关系对向量;
对于每一候选实体关系对,计算该候选实体关系对的关系对向量与待识别问句的问句向量的相似度,作为该候选实体关系对与所述待识别语句的语义相似度。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5中任一项所述的实体链接方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的实体链接方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011331935.XA CN112560485B (zh) | 2020-11-24 | 2020-11-24 | 一种实体链接方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011331935.XA CN112560485B (zh) | 2020-11-24 | 2020-11-24 | 一种实体链接方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112560485A CN112560485A (zh) | 2021-03-26 |
CN112560485B true CN112560485B (zh) | 2023-04-14 |
Family
ID=75043337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011331935.XA Active CN112560485B (zh) | 2020-11-24 | 2020-11-24 | 一种实体链接方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112560485B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113947087B (zh) * | 2021-12-20 | 2022-04-15 | 太极计算机股份有限公司 | 一种基于标签的关系构建方法、装置、电子设备及存储介质 |
CN115033528B (zh) * | 2022-06-29 | 2023-04-07 | 广东国讯信息科技有限公司 | 一种档案数据管理方法及系统 |
CN115795051B (zh) * | 2022-12-02 | 2023-05-23 | 中科雨辰科技有限公司 | 一种基于实体关系获取链接实体的数据处理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN108959270A (zh) * | 2018-08-10 | 2018-12-07 | 新华智云科技有限公司 | 一种基于深度学习的实体链接方法 |
CN111309926A (zh) * | 2020-02-11 | 2020-06-19 | 北京声智科技有限公司 | 一种实体链接方法、装置及电子设备 |
CN111581973A (zh) * | 2020-04-24 | 2020-08-25 | 中国科学院空天信息创新研究院 | 一种实体消歧方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10643120B2 (en) * | 2016-11-15 | 2020-05-05 | International Business Machines Corporation | Joint learning of local and global features for entity linking via neural networks |
-
2020
- 2020-11-24 CN CN202011331935.XA patent/CN112560485B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN108959270A (zh) * | 2018-08-10 | 2018-12-07 | 新华智云科技有限公司 | 一种基于深度学习的实体链接方法 |
CN111309926A (zh) * | 2020-02-11 | 2020-06-19 | 北京声智科技有限公司 | 一种实体链接方法、装置及电子设备 |
CN111581973A (zh) * | 2020-04-24 | 2020-08-25 | 中国科学院空天信息创新研究院 | 一种实体消歧方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112560485A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560485B (zh) | 一种实体链接方法、装置、电子设备及存储介质 | |
CN107329949B (zh) | 一种语义匹配方法和系统 | |
CN110059160B (zh) | 一种端到端的基于上下文的知识库问答方法及装置 | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
US9977778B1 (en) | Probabilistic matching for dialog state tracking with limited training data | |
CN107729468B (zh) | 基于深度学习的答案抽取方法及系统 | |
WO2021139229A1 (zh) | 文本修辞句的生成方法、装置、设备及可读存储介质 | |
US20150095017A1 (en) | System and method for learning word embeddings using neural language models | |
CN108304373B (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
JP2019133084A (ja) | 学習装置、学習方法及び学習プログラム | |
CN117149984B (zh) | 一种基于大模型思维链的定制化培训方法及装置 | |
CN116992007B (zh) | 基于问题意图理解的限定问答系统 | |
CN109977203B (zh) | 语句相似度确定方法、装置、电子设备及可读存储介质 | |
CN110472062A (zh) | 识别命名实体的方法及装置 | |
JP2019133085A (ja) | 判定装置、判定方法及び判定プログラム | |
CN116662518A (zh) | 问答方法、装置、电子设备及可读存储介质 | |
CN112417119A (zh) | 一种基于深度学习的开放域问答预测方法 | |
EP2492826A1 (en) | High-accuracy similarity search system | |
Jiang et al. | A CRD-WEL system for chemical-disease relations extraction | |
CN111062209A (zh) | 自然语言处理模型训练方法和自然语言处理模型 | |
CN110837730A (zh) | 一种未知实体词汇的确定方法及装置 | |
US20240202495A1 (en) | Learning apparatus, information processing apparatus, learning method, information processing method and program | |
CN113849603A (zh) | 负样本确定方法、相关设备及可读存储介质 | |
CN111460808B (zh) | 同义文本识别及内容推荐方法、装置及电子设备 | |
CN116226443B (zh) | 基于大规模视频语料库的弱监督视频片段定位方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |