CN114021570A - 实体消歧方法、装置、设备及存储介质 - Google Patents

实体消歧方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114021570A
CN114021570A CN202111308337.5A CN202111308337A CN114021570A CN 114021570 A CN114021570 A CN 114021570A CN 202111308337 A CN202111308337 A CN 202111308337A CN 114021570 A CN114021570 A CN 114021570A
Authority
CN
China
Prior art keywords
entity
disambiguated
candidate
word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111308337.5A
Other languages
English (en)
Inventor
门玉玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202111308337.5A priority Critical patent/CN114021570A/zh
Publication of CN114021570A publication Critical patent/CN114021570A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种实体消歧方法、装置、设备及存储介质,通过获取待消歧实体,基于待消歧实体的词边界确定待消歧实体的实体边界信息;根据待消歧实体的实体边界信息,将待消歧实体划分为至少一个词实体,将至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到待消歧实体的候选实体,确定候选实体的子项信息;根据候选实体和子项信息,构成候选样本集,将候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;最后根据文本相似度预测模型预测候选样本集中各样本与待消歧实体中各实体之间的相似度,基于相似度得到各实体的链接实体。能够更精准的得到待消歧实体的链接实体。

Description

实体消歧方法、装置、设备及存储介质
技术领域
本申请涉及AI技术领域,尤其涉及一种实体消歧方法、装置、设备及存储介质。
背景技术
随着互联网的发展,在人工智能领域中,为了满足人们对信息获取的需求,越来越多的用户开始通过互联网的搜索功能获取自己所需要的信息。
实体链接技术就是将一段文本中的某些字符串映射到知识库中对应的实体上,但是由于常存在同名异实体或者同实体异名的现象,导致现有的实体消歧技术存在实体边界不清楚且存在歧义的问题。
发明内容
本申请提供了一种实体消歧方法、装置、设备及存储介质,通过将待消歧实体的实体边界信息和候选实体的子项信息结合起来,对预训练的语言模型进行训练,得到具有准确确定文本相似度的模型,进而可以更精准的得到待消歧实体的链接实体。
第一方面,本申请提供了一种实体消歧方法,包括:
获取待消歧实体,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息;
根据所述待消歧实体的实体边界信息,将所述待消歧实体划分为至少一个词实体,将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息,其中,所述候选实体的子项信息为所述候选实体在预先确定的实体知识图谱中的关联信息;
根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;
根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各实体之间的相似度,基于所述相似度得到所述各实体的链接实体。
第二方面,本申请还提供了一种实体消歧装置,包括:
第一确定模块,用于获取待消歧实体,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息;
第二确定模块,用于根据所述待消歧实体的实体边界信息,将所述待消歧实体划分为至少一个词实体,将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息,其中,所述候选实体的子项信息为所述候选实体在预先确定的实体知识图谱中的关联信息;
第一得到模块,用于根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;
第二得到模块,用于根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各实体之间的相似度,基于所述相似度得到所述各实体的链接实体。
第三方面,本申请还提供了一种实体消歧设备,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上第一方面所述的实体消歧方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上第一方面所述的实体消歧方法的步骤。
本申请公开了一种实体消歧方法、装置、设备及存储介质,首先通过获取待消歧实体,基于待消歧实体的词边界确定待消歧实体的实体边界信息;然后将所述待消歧实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息;再根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;最后根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各实体之间的相似度,基于所述相似度得到所述各实体的链接实体。通过将待消歧实体的候选实体和候选实体的子项信息结合起来,对预训练的语言模型进行训练,得到具有准确确定文本相似度的模型,进而基于文本相似度模型确定待消歧实体中各实体与候选实体以及候选实体子项信息之间相似度,根据相似度可以更精准的得到待消歧实体的链接实体。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的实体消歧方法的示意流程图;
图2是图1中S102的具体实现流程图;
图3是确定各所述主题矩阵与对应所述文本序列之间的相似度的示意图;
图4是本申请实施例提供的实体消歧装置的结构示意图;
图5是本申请实施例提供的实体消歧设备的结构示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请的实施例提供了一种实体消歧方法、装置、设备及存储介质。本申请实施例提供的实体消歧方法,首先通过获取待消歧实体,基于待消歧实体的词边界确定待消歧实体的实体边界信息;然后将所述待消歧实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息;再根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;最后根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各实体之间的相似度,基于所述相似度得到所述各实体的链接实体。通过将待消歧实体的候选实体和候选实体的子项信息结合起来,对预训练的语言模型进行训练,得到具有准确确定文本相似度的模型,进而基于文本相似度模型确定待消歧实体中各实体与候选实体以及候选实体子项信息之间相似度,根据相似度可以更精准的得到待消歧实体的链接实体。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请一实施例提供的实体消歧方法的示意流程图。该实体消歧方法可以由实体消歧设备实现,所述实体消歧设备可以部署在单个服务器或者服务器集群上。也可以部署在手持终端、笔记本电脑、可穿戴设备或者机器人等。
具体地,如图1所示,本实施例提供的实体消歧方法包括步骤S101至步骤S104。详述如下:
S101,获取待消歧实体,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息。
在本申请的实施例中,基于命名实体识别算法,从包含有待消歧实体的目标文本中标记出待消歧实体。其中,命名实体识别算法可以是序列标注法,如四位序列标注法BMES、三位序列标记法BIO、五位序列标注法BIOES中的任意一种。
在一些可选的实施方式中,所述序列标注法需要确定包含有待消歧实体的文本中的提及词,分别与预设符号标记所述提及词,根据标记的所述提及词之间的位置关系,确定所述待消歧实体。示例性地,在本实施例中,以四位序列标注法BMES为例,进行示例性地说明获取待消歧实体的过程。具体地,基于四位序列标注法,从包含有待消歧实体的文本中标记出待消歧实体的过程,包括:确定包含有待消歧实体文本中的提及词,分别以首位值(纪为B)、中间位置(纪为M)、末尾位置(纪为E)、单独字词(纪为S)来标记每个提及词;以单独词或者位于相邻中间位置之间的单独词和相邻中间位置词构成所述待消歧实体。例如,待消歧实体文本中的提及词是“我是深圳人”,其中,进行标记之后得到我/S是/S深/B圳/M人/E(符号标注,‘圳’是‘深’和‘人’的中间部分,凑成‘深圳人’这个待消歧实体)。
此外,本申请实施例还可以以三位序列标记算法,从包含有待消歧实体的文本中标记出待消歧实体。具体地,三位序列标记算法中,以B代表文本中实体的开头,I代表实体的结尾,O代表不属于任何类型。例如:包含有待消歧实体的文本为“2021年12月静安区的新增保单是多少?”其中,基于三位序列标记算法进行标记后,句子为“2021(O)年(O)12(O)月(O)上(B)海(I)市(I)的(O)新(O)增(O)保(O)单(O)是(O)多(O)少(O)?”。其中,“静安区”为命名实体,在本实施例中也称为待消歧实体。
其中,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息,包括:根据获取的待消歧实体,生成消歧序列,所述消歧序列中包括多个依次排列的字符,每个字符分别代表待消歧实体中的特征词;提取消歧序列中每个字符对应的特征词,得到特征向量组;将特征向量组中每个特征向量映射为二维向量,其中,二维向量包括第一维值和第二维值;通过第一维值和第二维值确定各个待消歧实体的词边界;将确定的词边界以预设字符插入待消歧实体中,形成所述待消歧实体的实体边界信息。
也就是说,在本实施例中,通过在待消歧实体的词边界处插入预设字符的当时,解决待消歧实体的边界不清晰的问题。具体地,预设字符可以是预设的特殊符号,如:#、$/或者<>等。例如以待消歧实体“静安区”为例,确定该待消歧实体的词边界处为“静”字之前和“区”字之后,则在该待消歧实体““静安区”的词边界处插入预设的特殊符号#,得到#静安区#,其中,#静安区#中“静安区”代表待消歧实体,#代表待消歧实体的实体边界信息。
S102,根据所述待消歧实体的实体边界信息,将所述待消歧实体划分为至少一个词实体,将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,将匹配的词实体作为所述待消歧实体的候选实体,确定所述候选实体的子项信息,其中,所述候选实体的子项信息为所述候选实体在预先确定的实体知识图谱中的关联信息。
其中,根据预先确定的实体知识图谱、以及所述待消歧实体和所述实体边界信息确定所述待消歧实体的候选实体和所有候选实体的子项信息,包括:将所述待消歧实体与预先确定的实体知识图谱中所有词实体进行相似性匹配,得到匹配度大于预设匹配度的词实体,以匹配度大于预设匹配值的词实体作为候选实体;获取各候选实体在预先确定的实体知识图谱中的关联信息,以与各候选实体对应的关联信息作为各候选实体的子项信息。例如所述关联信息包括与候选实体具有地理位置关联关系、身份关联关系、职位关联关系或者购物关联关系的词等,如候选实体为:静安区,对应在实体知识图谱中与静安区具有关联关系的词包括:隶属上海市、邮编为200040等,该候选实体:静安区对应的子项信息包括:隶属上海市、邮编为200040。
示例性地,如图2所示,图2是图1中S102的具体实现流程图。由图2可知,在本实施例中,S102包括S1021与S1022。详述如下:
S1021,将所述待消歧实体与预先确定的实体知识图谱中所有词实体进行相似性匹配,将相似性匹配度大于预设匹配度的词实体作为所述待消歧实体的候选实体。
S1022,获取各所述候选实体在预先确定的实体知识图谱中的关联信息,分别以各所述候选实体的所述关联信息为各所述候选实体的子项信息。
S103,根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型。
具体地,所述预训练的语言模型为基于BERT构建的消歧模型,所述将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型,包括:将所述候选样本集输入所述基于BERT构建的消歧模型,在所述消歧模型中生成所述候选样本集中各所述候选实体的子项信息的文本序列,预测所述候选样本集中各所述候选实体与对应的所述文本序列之间的相似度,直至所有所述候选实体与对应的所述文本序列之间的相似度大于预设相似度阈值,得到所述文本相似度预测模型。
可选地,所述消歧模型中融入语义匹配模型,所述预测所述候选样本集中各所述候选实体与对应的所述文本序列之间的相似度,包括:基于所述语义匹配模型得到所述候选样本集中各所述候选实体的主题矩阵,分别确定各所述主题矩阵与对应所述文本序列之间的相似度。
示例性地,基于BERT构建的预训练模型将文本数据按训练数据集与测试数据集切分,例如,将文本数据的80%作为训练数据来训练模型BERT模型,另外20%作为测试数据来测试BERT模型的准确性。具体地,BERT(Bidirectional Encoder Representations fromTransformers)模型,BERT的输入是具有固定预设长度的文本序列,比如128个词的文本序列。如果不够就在后面增加词语,否则就截取掉多余的词语,从而保证输入是一个固定长度的文本序列,BERT模型的输出是对固定长度文本序列代表含义的预测。具体地,预测过程中可以先随机mask掉固定长度文本序列中的部分词语,然后通过BERT模型预测mask掉的词语含义,直至预测结果与元文本序列代表含义相似度大于预设相似度值。此外,BERT模型在对输入文本序列进行预测的过程中,其对应的参数不断调整变化,使得预测结果进行可能正确,该过程类似于交叉熵损失函数的预测过程。具体地,BERT模型的结构为Transformer网络模型结构,具体为Transformer的encoder部分,具体地,在本实施例中,encoder结果包括输入层(Embedding)、多头注意力机制(Multi-Head Attention)、第一自然语言处理层(Add&Norm)、前馈网络层(Feed Forward)、第二自然语言处理层(Add&Norm)和输出层。具体地,将固定长度的文本数据通过输入层输入,再通过多头注意力机制进行学习,输出第一预测语言文本,进一步通过前馈网络层对第一预测语言文本进行拆词处理分析,输出对输入语言文本的预测值,将所述预测值通过输出层输出。
在本申请的实施例中,将所述候选样本集输入预训练的语言模型进行训练的过程,是为了找到与输入文本最相关的候选文本,具体地,可以采用BERT模型基于字面匹配,比较与输入文本中每个字符串中每一个字符是否相等,或者将每一个字符串通过哈希函数映射为一个哈希值,然后进行比较。此外,也可以在BERT模型中融入语义匹配的LSA类模型通过LSA模型得到输入文本的主题矩阵,进而基于主题矩阵进行文本相似度计算,具体地,基于主题矩阵进行文本相似度计算的方法可以是余弦相似度计算法,也可以融入基于深度学习的文本匹配模型进行相似度匹配。其中,融入基于深度学习的文本匹配模型采用全连接层对CNN类或RNN类的神经网络模型进行训练得到。
示例性地,以在BERT模型中融入语义匹配的LSA类模型为例,LSA类模型的输入为BERT模型输出的语义预测文本信息。具体地,LSA类模型通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。技术上通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。具体地,LSA类模型对输入文本进行分析,建立词汇-文本矩阵;再对词汇-文本矩阵进行奇异值分解;然后对SVD分解后的矩阵进行降维,使用降维后的矩阵构建潜在语义空间向量。
示例性地,如图3所示,图3是确定各所述主题矩阵与对应所述文本序列之间的相似度的示意图。由图3可知,第一矩阵X301是对词A301进行分类的一个结果,它的每一行表示一个词,每一列表示一个语义相近的词类,这一行中每个非零元素表示每个词在每个语义类中的重要性(或者说相关性);第二矩阵B303表示词的类和文章的类之间的相关性;第三矩阵Y304是对文本进行分类的一个结果,它的每一行表示一个主题,每一列表示一个文本,这一列每个元素表示这篇文本在不同主题中的相关性。
S104,根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各提及词之间的相似度,基于所述相似度得到所述待消歧实体的链接实体。
其中,对所述待消歧实体中各实体与候选样本集中各样本进行相似度预测,分别选取与各实体相似度最高的样本对应作为各实体的链接实体,其中候选样本集中各样本包括候选实体和对应的子项信息。
通过上述分析可知,本申请实施例提供的实体消歧方法,首先通过获取待消歧实体,基于待消歧实体的词边界确定待消歧实体的实体边界信息;然后根据所述待消歧实体的实体边界信息,将所述待消歧实体划分为至少一个词实体,将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息;再根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;最后根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各实体之间的相似度,基于所述相似度得到所述各实体的链接实体。通过将待消歧实体的候选实体和候选实体的子项信息结合起来,对预训练的语言模型进行训练,得到具有准确确定文本相似度的模型,进而基于文本相似度模型确定待消歧实体中各实体与候选实体以及候选实体子项信息之间相似度,根据相似度可以更精准的得到待消歧实体的链接实体。
请参阅图4所示,图4是本申请实施例提供的实体消歧装置的结构示意图。该实体消歧装置400用于执行上述各实施例所示的实体消歧方法的步骤。该实体消歧装置400可以是单个服务器或服务器集群,或者该实体消歧装置400可以是终端,该终端可以是手持终端、笔记本电脑、可穿戴设备或者机器人等。
如图4所示,实体消歧装置400包括:
第一确定模块401,用于获取待消歧实体,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息;
第二确定模块402,用于根据所述待消歧实体的实体边界信息,将所述待消歧实体划分为至少一个词实体,将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息;其中,所述候选实体的子项信息为所述候选实体在预先确定的实体知识图谱中的关联信息;
第一得到模块403,用于根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;
第二得到模块404,用于根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各实体之间的相似度,基于所述相似度得到所述各实体的链接实体。
在一实施例中,所述第一确模块401,具体用于:
基于命名实体识别算法,从包含有待消歧实体的文本中标记出所述待消歧实体,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息。
在一实施例中,所述命名实体识别算法包括序列标注法,所述第一确模块401,包括:
第一确定单元,用于基于所述序列标注法,确定目标文本中的提及词;
第二确定单元,用于分别以预设符号标记所述提及词,根据标记的所述提及词之间的位置关系,确定所述待消歧实体;
第三确定单元,用于基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息。
在一实施例中,所述第三确定单元,包括:
生成子单元,用于根据所述待消歧实体,生成消歧序列,所述消歧序列中包括多个依次排列的字符,每个字符分别代表所述待消歧实体中的特征词;
得到子单元,用于提取所述消歧序列中每个字符对应的特征词,得到特征向量组;
映射子单元,用于将所述特征向量组中的每个特征向量映射为二维向量,其中,二维向量包括第一维值和第二维值;
确定子单元,用于根据所述第一维值和所述第二维值确定各个所述待消歧实体的词边界;
形成子单元,用于将所述词边界以预设字符插入所述待消歧实体中,形成所述待消歧实体的实体边界信息,得到所述待消歧实体和所述实体边界信息。
在一实施例中,所述确定模块402,包括:
匹配单元,用于将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行相似性匹配,得到匹配度大于预设匹配度的词实体,以匹配度大于预设匹配值的词实体作为候选实体;
获取单元,用于获取各候选实体在预先确定的实体知识图谱中的关联信息,分别以各所述候选实体的所述关联信息作为各所述候选实体的子项信息。
在一实施例中,所述预训练的语言模型为基于BERT构建的消歧模型,所述第一得到模块403,包括:
生成单元,用于将所述候选样本集输入所述基于BERT构建的消歧模型,在所述消歧模型中生成所述候选样本集中各所述候选实体的子项信息的文本序列;
预测单元,用于预测所述候选样本集中各所述候选实体与对应的所述文本序列之间的相似度,直至所有所述候选实体与对应的所述文本序列之间的相似度大于预设相似度阈值,则停止对所述语言模型的训练,得到所述文本相似度预测模型。
在一实施例中,所述预测单元,具体用于:
基于所述语义匹配模型得到所述候选样本集中各所述候选实体的主题矩阵,分别确定各所述主题矩阵与对应所述文本序列之间的相似度,直至所有所述候选实体与对应的所述文本序列之间的相似度大于预设相似度阈值,则停止对所述语言模型的训练,得到所述文本相似度预测模型。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的实体消歧装置和各模块的具体工作过程,可以参考上述各实施例所述的实体消歧方法实施例中的对应过程,在此不再赘述。
上述的实体消歧方法可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的装置上运行。
请参阅图5,图5是本申请实施例提供的实体消歧设备的结构示意性框图。该实体消歧设备500包括通过设备总线连接的处理器、存储器和网络接口,其中,存储器可以包括存储介质和内存储器。
存储介质可存储操作设备和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种实体消歧方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种实体消歧方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的实体消歧设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待消歧实体,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息;
根据所述待消歧实体的实体边界信息,将所述待消歧实体划分为至少一个词实体,将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息;其中,所述候选实体的子项信息为所述候选实体在预先确定的实体知识图谱中的关联信息;
根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;
根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各实体之间的相似度,基于所述相似度得到所述各实体的链接实体。
在一实施例中,所述获取待消歧实体,包括:
基于命名实体识别算法,从包含有待消歧实体的目标文本中标记出所述待消歧实体。
在一实施例中,所述命名实体识别算法包括序列标注法,所述基于命名实体识别算法,从包含有待消歧实体的文本中标记出所述待消歧实体,包括:
基于所述序列标注法,确定所述目标文本中的提及词;
分别以预设符号标记所述提及词,根据标记的所述提及词之间的位置关系,确定所述待消歧实体。
在一实施例中,所述基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息,包括:
根据所述待消歧实体,生成消歧序列,所述消歧序列中包括多个依次排列的字符,每个字符分别代表所述待消歧实体中的特征词;
提取所述消歧序列中每个字符对应的特征词,得到特征向量组;
将所述特征向量组中的每个特征向量映射为二维向量,其中,二维向量包括第一维值和第二维值;
根据所述第一维值和所述第二维值确定各个所述待消歧实体的词边界;
将所述词边界以预设字符插入所述待消歧实体中,形成所述待消歧实体的实体边界信息。
在一实施例中,所述将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息,包括:
将所述至少一个词实体与预先确定的实体知识图谱中所有词实体进行相似性匹配,得到匹配度大于预设匹配度的词实体,以匹配度大于预设匹配值的词实体作为候选实体;
获取各候选实体在预先确定的实体知识图谱中的关联信息,分别以各所述候选实体的所述关联信息作为各所述候选实体的子项信息。
在一实施例中,所述预训练的语言模型为基于BERT构建的消歧模型,所述将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型,包括:
将所述候选样本集输入所述基于BERT构建的消歧模型,在所述消歧模型中生成所述候选样本集中各所述候选实体的子项信息的文本序列;
预测所述候选样本集中各所述候选实体与对应的所述文本序列之间的相似度,直至所有所述候选实体与对应的所述文本序列之间的相似度大于预设相似度阈值,则停止对所述语言模型的训练,得到所述文本相似度预测模型。
在一实施例中,所述消歧模型中融入语义匹配模型,所述预测所述候选样本集中各所述候选实体与对应的所述文本序列之间的相似度,包括:
基于所述语义匹配模型得到所述候选样本集中各所述候选实体的主题矩阵,分别确定各所述主题矩阵与对应所述文本序列之间的相似度。
本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请上述各实施例提供的实体消歧方法的步骤。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种实体消歧方法,其特征在于,所述方法包括:
获取待消歧实体,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息;
根据所述待消歧实体的实体边界信息,将所述待消歧实体划分为至少一个词实体,将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,将匹配的词实体作为所述待消歧实体的候选实体,确定所述候选实体的子项信息;其中,所述候选实体的子项信息为所述候选实体在预先确定的实体知识图谱中的关联信息;
根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;
根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各实体之间的相似度,基于所述相似度得到所述待消歧实体中各实体的链接实体。
2.根据权利要求1所述的实体消歧方法,其特征在于,所述获取待消歧实体,包括:
基于命名实体识别算法,从包含有待消歧实体的目标文本中标记出所述待消歧实体。
3.根据权利要求2所述的实体消歧方法,其特征在于,所述命名实体识别算法包括序列标注法,所述基于命名实体识别算法,从包含有待消歧实体的文本中标记出所述待消歧实体,包括:
基于所述序列标注法,确定所述目标文本中的提及词;
分别以预设符号标记所述提及词,根据标记的所述提及词之间的位置关系,确定所述待消歧实体。
4.根据权利要求1至3任一项所述的实体消歧方法,其特征在于,所述基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息,包括:
根据所述待消歧实体,生成消歧序列,所述消歧序列中包括多个依次排列的字符,每个字符分别代表所述待消歧实体中的特征词;
提取所述消歧序列中每个字符对应的特征词,得到特征向量组;
将所述特征向量组中的每个特征向量映射为二维向量,其中,二维向量包括第一维值和第二维值;
根据所述第一维值和所述第二维值确定各个所述待消歧实体的词边界;
将所述词边界以预设字符插入所述待消歧实体中,形成所述待消歧实体的实体边界信息。
5.根据权利要求1所述的实体消歧方法,其特征在于,所述将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息,包括:
将所述至少一个词实体与预先确定的实体知识图谱中所有词实体进行相似性匹配,得到匹配度大于预设匹配度的词实体,以匹配度大于预设匹配值的词实体作为候选实体;
获取各候选实体在预先确定的实体知识图谱中的关联信息,分别以各所述候选实体的所述关联信息作为各所述候选实体的子项信息。
6.根据权利要求1或5所述的实体消歧方法,其特征在于,所述预训练的语言模型为基于BERT构建的消歧模型,所述将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型,包括:
将所述候选样本集输入所述基于BERT构建的消歧模型,在所述消歧模型中生成所述候选样本集中各所述候选实体的子项信息的文本序列;
预测所述候选样本集中各所述候选实体与对应的所述文本序列之间的相似度,直至所有所述候选实体与对应的所述文本序列之间的相似度大于预设相似度阈值,则停止对所述语言模型的训练,得到所述文本相似度预测模型。
7.根据权利要求6所述的实体消歧方法,其特征在于,所述消歧模型中融入语义匹配模型,所述预测所述候选样本集中各所述候选实体与对应的所述文本序列之间的相似度,包括:
基于所述语义匹配模型得到所述候选样本集中各所述候选实体的主题矩阵,分别确定各所述主题矩阵与对应所述文本序列之间的相似度。
8.一种实体消歧装置,其特征在于,包括:
第一确定模块,用于获取待消歧实体,基于所述待消歧实体的词边界确定所述待消歧实体的实体边界信息;
第二确定模块,用于根据所述待消歧实体的实体边界信息,将所述待消歧实体划分为至少一个词实体,将所述至少一个词实体与预先确定的实体知识图谱中的所有词实体进行匹配,得到所述待消歧实体的候选实体,确定所述候选实体的子项信息,其中,所述候选实体的子项信息为所述候选实体在预先确定的实体知识图谱中的关联信息;
第一得到模块,用于根据所述候选实体和所述子项信息,构成候选样本集,将所述候选样本集输入预训练的语言模型进行训练,得到文本相似度预测模型;
第二得到模块,用于根据所述文本相似度预测模型预测所述候选样本集中各样本与所述待消歧实体中各实体之间的相似度,基于所述相似度得到所述各实体的链接实体。
9.一种实体消歧设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机程序;
所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7中任一项所述的实体消歧方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7中任一项所述的实体消歧方法的步骤。
CN202111308337.5A 2021-11-05 2021-11-05 实体消歧方法、装置、设备及存储介质 Pending CN114021570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111308337.5A CN114021570A (zh) 2021-11-05 2021-11-05 实体消歧方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111308337.5A CN114021570A (zh) 2021-11-05 2021-11-05 实体消歧方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114021570A true CN114021570A (zh) 2022-02-08

Family

ID=80061927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111308337.5A Pending CN114021570A (zh) 2021-11-05 2021-11-05 实体消歧方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114021570A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724010A (zh) * 2022-05-16 2022-07-08 中译语通科技股份有限公司 一种待训练样本的确定方法、装置、设备及可读存储介质
CN114969386A (zh) * 2022-08-03 2022-08-30 神州医疗科技股份有限公司 应用于医学领域的消歧方法、装置、电子设备和介质
CN115828915A (zh) * 2022-09-07 2023-03-21 北京百度网讯科技有限公司 实体消歧方法、装置、电子设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724010A (zh) * 2022-05-16 2022-07-08 中译语通科技股份有限公司 一种待训练样本的确定方法、装置、设备及可读存储介质
CN114969386A (zh) * 2022-08-03 2022-08-30 神州医疗科技股份有限公司 应用于医学领域的消歧方法、装置、电子设备和介质
CN115828915A (zh) * 2022-09-07 2023-03-21 北京百度网讯科技有限公司 实体消歧方法、装置、电子设备和存储介质
CN115828915B (zh) * 2022-09-07 2023-08-22 北京百度网讯科技有限公司 实体消歧方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN114021570A (zh) 实体消歧方法、装置、设备及存储介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111475617B (zh) 事件主体抽取方法、装置及存储介质
CN111985229B (zh) 一种序列标注方法、装置及计算机设备
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
US11610060B2 (en) Automatic lexical sememe prediction system using lexical dictionaries
US11520993B2 (en) Word-overlap-based clustering cross-modal retrieval
CN110162771B (zh) 事件触发词的识别方法、装置、电子设备
CN111062215A (zh) 基于半监督学习训练的命名实体识别方法和装置
CN113688631B (zh) 一种嵌套命名实体识别方法、系统、计算机和存储介质
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
RU2712101C2 (ru) Предсказание вероятности появления строки с использованием последовательности векторов
CN112580329B (zh) 文本噪声数据识别方法、装置、计算机设备和存储介质
CN114416995A (zh) 信息推荐方法、装置及设备
CN114417785A (zh) 知识点标注方法、模型的训练方法、计算机设备及存储介质
CN112395880B (zh) 结构化三元组的纠错方法、装置、计算机设备及存储介质
CN114090769A (zh) 实体挖掘方法、装置、计算机设备和存储介质
CN111400340B (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN110837730B (zh) 一种未知实体词汇的确定方法及装置
CN113761923A (zh) 命名实体识别方法、装置、电子设备及存储介质
Celikyilmaz et al. An empirical investigation of word class-based features for natural language understanding
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN113868424A (zh) 文本主题的确定方法、装置、计算机设备及存储介质
CN114492437A (zh) 关键词识别方法、装置、电子设备及存储介质
CN112270189B (zh) 一种提问式的分析节点生成方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination