CN115203438A - 一种实体链接方法及存储介质 - Google Patents

一种实体链接方法及存储介质 Download PDF

Info

Publication number
CN115203438A
CN115203438A CN202211098761.6A CN202211098761A CN115203438A CN 115203438 A CN115203438 A CN 115203438A CN 202211098761 A CN202211098761 A CN 202211098761A CN 115203438 A CN115203438 A CN 115203438A
Authority
CN
China
Prior art keywords
entity
retriever
searcher
similarity
linking method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211098761.6A
Other languages
English (en)
Other versions
CN115203438B (zh
Inventor
孟祥傲
马永亮
周明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lanzhou Technology Co ltd
Original Assignee
Beijing Lanzhou Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lanzhou Technology Co ltd filed Critical Beijing Lanzhou Technology Co ltd
Priority to CN202211098761.6A priority Critical patent/CN115203438B/zh
Publication of CN115203438A publication Critical patent/CN115203438A/zh
Application granted granted Critical
Publication of CN115203438B publication Critical patent/CN115203438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及实体链接技术领域,特别涉及一种实体链接方法及存储介质,实体链接方法包括以下步骤:获取第一检索器,第一检索器为稠密检索器;获取第二检索器;对第一检索器与第二检索器进行训练获取链指模型;通过链指模型计算需要链指的实体指称与实体描述之间的相似度,取相似度最高的实体作为链指结果;或者,取相似度最高的预设个数实体作为召回结果。本发明的实体链接方法既可以保留稠密检索器对于语义的编码特性,又能结合稀疏检索器对于重点词汇、短语的匹配能力,对于实体链接任务的精度有很大的提升,极大地提高了实体链接的准确性。本发明还提供一种存储介质,用于执行上述方法,与上述方法的有益效果相同的。

Description

一种实体链接方法及存储介质
技术领域
本发明涉及实体链接技术领域,特别涉及一种实体链接方法及存储介质。
背景技术
实体链接指根据上下文,将实体指称连接到知识库中无歧义的实体,是各种知识密集型自然语言处理系统的重要组成部分。传统实体链接方法首先从知识库中抽取实体别名表,之后实体指称表生成候选实体,最后设计候选实体消歧模型完成对实体指称的链接。该类方法较非常依赖于候选实体生成模块,容易遗漏语义相近但字符串匹配差异较大的候选实体;随着近年来预训练语言模型的发展,又出现了很多基于稠密检索的实体链接方法。该类方法通常采用预训练语言模型分别对查询句(query)和段落信息(passage)进行编码,之后根据二者之间的语义相似度来进行排序。这种方法虽然擅长捕捉语义,但容易根据实体中的部分语义信息进行检索,从而忽略整体信息,或根据查询句的其他部分的语义信息进行检索,带来了极大的误差。
发明内容
为提高实体链接的准确性,本发明提供了一种实体链接方法及存储介质。
本发明解决技术问题的方案是提供一种实体链接方法,包括以下步骤:
获取第一检索器,所述第一检索器为稠密检索器;
获取第二检索器;
对所述第一检索器与所述第二检索器进行训练获取链指模型;
通过链指模型计算需要链指的实体指称与实体描述之间的相似度,取相似度最高的实体作为链指结果;或者,取相似度最高的预设个数实体作为召回结果。
优选地,取相似度最高的预设个数实体作为召回结果之后还包括以下步骤:
对召回结果进行重排。
优选地,所述预设个数实体为5-10个实体。
优选地,对召回结果进行重排包括以下步骤:
检查相似度最高的预设个数实体和查询句中实体指称的相关性,取相关性最高的实体作为链指结果。
优选地,获取第二检索器包括以下步骤:
获取稀疏检索器;
用bi-encoder模型作为学生去学习所述稀疏检索器的检索结果,学习之后的检索器为第二检索器。
优选地,所述稀疏检索器为基于词法的稀疏检索器。
优选地,所述bi-encoder模型为不共享参数的bi-encoder模型。
优选地,对所述第一检索器与所述第二检索器进行训练获取链指模型的步骤包括:
第一检索器分别对查询句和段落信息进行编码得到QA与PA;QA为编码后的查询句,PA为编码后的段落信息;
第二检索器分别对查询句和段落信息进行编码得到QB与PB;QB为编码后的查询句,PB为编码后的段落信息;
将QA与QB拼接得到Q,Q为实体指称的向量表示;将PA与PB拼接得到P,P为实体描述的向量表示;
计算Q和P的相似度,优化参数使正确的实体指称和实体描述之间相似度高,不匹配的实体指称和实体描述之间相似度小,训练后获得所述链指模型。
优选地,链指模型计算需要链指的实体指称与实体描述之间的相似度包括以下步骤:
对需要链指的实体及其描述向量化并创建索引;
将需要链指的实体指称及其上下文向量化;
通过余弦相似度计算实体指称与实体描述之间的相似度。
本发明为解决上述技术问题还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实体链接方法。
与现有技术相比,本发明的一种实体链接方法及存储介质具有以下优点:
1、本发明的实体链接方法包括以下步骤:获取第一检索器,第一检索器为稠密检索器;获取第二检索器;对第一检索器与第二检索器进行训练获取链指模型;通过链指模型计算需要链指的实体指称与实体描述之间的相似度,取相似度最高的实体作为链指结果;或者,取相似度最高的预设个数实体作为召回结果。可以理解,本发明的第二检索器可代替稀疏检索器,因此在本发明的实体链接方法中既可以保留稠密检索器对于语义的编码特性,又能结合稀疏检索器对于重点词汇、短语的匹配能力,对于实体链接任务的精度有很大的提升,极大地提高了实体链接的准确性。
2、本发明的实体链接方法中取相似度最高的预设个数实体作为召回结果之后还包括以下步骤:对召回结果进行重排,通过重排可以进一步提高实体链接的准确性。
3、本发明的实体链接方法中的预设个数实体为5-10个实体,有利于保证实体链接的推理速度。
4、本发明的实体链接方法中获取第二检索器包括以下步骤:获取稀疏检索器;用bi-encoder(双编码器)模型作为学生去学习稀疏检索器的检索结果,学习之后的检索器为第二检索器,有利于提高第二检索器的性能。
5、本发明的实体链接方法中对第一检索器与第二检索器进行训练获取链指模型的步骤包括:第一检索器分别对查询句和段落信息进行编码得到QA与PA;QA为编码后的查询句,PA为编码后的段落信息;第二检索器分别对查询句和段落信息进行编码得到QB与PB;QB为编码后的查询句,PB为编码后的段落信息;将QA与QB拼接得到Q,Q为实体指称的向量表示;将PA与PB拼接得到P,P为实体描述的向量表示;计算Q和P的相似度,优化参数使正确的实体指称和实体描述之间相似度较高,不匹配的实体指称和实体描述之间相似度较小,训练后获得所述链指模型。可以理解,本发明中第一检索器与第二检索器可以同时进行编码,推理速度没有额外损失,有利于提高实体链接的速度。
6、本发明的实体链接方法中第一检索器分别对查询句和段落信息进行编码以及第二检索器分别对查询句和段落信息进行编码目的是让正确的实体指称和实体描述之间的相似度较高即距离较小,而不匹配的实体指称和实体描述之间距离较大,便于后续计算。
7、本发明还提供一种存储介质,包括计算机程序,该计算机程序被处理器执行时实现上述实体链接方法的步骤。具有与上述实体链接方法相同的有益效果,此处不再赘述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的一种实体链接方法的步骤流程图。
图2是本发明第一实施例提供的一种实体链接方法之步骤S2的流程图。
图3是本发明第一实施例提供的一种实体链接方法之获取第二检索器的示例图。
图4是本发明第一实施例提供的一种实体链接方法之第一检索器与第二检索器共同训练的训练流程示例图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明第一实施例提供一种实体链接方法,包括以下步骤:
S1、获取第一检索器,第一检索器为稠密检索器;
S2、获取第二检索器;
S3、对第一检索器与第二检索器进行训练获取链指模型;
S4、通过链指模型计算需要链指的实体指称与实体描述之间的相似度,取相似度最高的实体作为链指结果;或者,取相似度最高的预设个数实体作为召回结果。
可以理解,对第一检索器与第二检索器的训练可以同时进行,有利于提高推理速度。
进一步地,步骤S4中若取相似度最高的预设个数实体作为召回结果,则还包括以下步骤:
S5、对召回结果进行重排。
具体地,对召回结果进行重排的步骤为:检查相似度最高的几个实体和query(查询句)中mention(实体指称)的相关性,取相关性最高的实体作为链指结果。
可以理解,重排指对召回结果按照相关性重新排列,取相关性最高的实体为链指结果。通常来说,重排模型一般需要将实体信息和query一同输入模型,最终预测相关或不相关。例如,将query和实体(名称及描述)拼接,中间用[SEP]分隔,[SEP]是一个token,可以看成是一个字符串。然后输入进精排模型,模型推理出相关或不相关,并且对召回的每个实体都进行推理,最终取得分最高的那个作为匹配的实体结果。这种方式一般来说精度更高,但如果备选实体过多,速度会明显下降,因此往往仅用于召回后的精排。
进一步地,为了提高重排速度,确保链指结果的准确性,召回结果预设为5-10个实体,具体地,在本发明的实施例中召回结果为5个。
进一步地,本发明实施例中的第一检索器为一般的稠密检索器,如基于预训练的bi-encoder编码器,它是在预训练模型基础上,分别对query和passage进行编码,并输出最终二者的向量相似度,可以采用余弦相似度的方法来计算二者的向量相似度。并且,对第一检索器进行优化的优化目标是让正确的实体指称和实体描述之间的相似度较高(距离较小),而不匹配的实体指称和实体描述之间相似度较小(距离较大)。
进一步地,请参阅图2,步骤S2具体包括以下步骤:
S21、获取稀疏检索器;
S22、用bi-encoder模型作为学生去学习稀疏检索器的检索结果,学习之后的检索器为第二检索器。
具体地,步骤S21中的稀疏检索器为基于词法的稀疏检索器,如BM25。步骤S22中的bi-encoder模型为不共享参数的bi-encoder模型。
可以理解,第二检索器也是一个稠密检索器,但是第二检索器学习了稀疏检索器的搜索特点,因此,第二检索器既具有稠密检索器的特性也具有稀疏检索器的特性,因此第二检索器可以代替稀疏检索器。
进一步地,请参阅图3,第二检索器的获取过程,实质上是在学词法检索器(如BM25)的搜索表现。对于每个query,将其指称和上下文输入query encoder,例如:“我今天买了一个[START_ENT]苹果[END_ENT]手机”,其中[START_ENT]和[END_ENT]为两个specialtoken,中间的部分(苹果)即为实体指称(mention)。经过query encoder后,得到了query的embedding即图中的embedding Q;另一条线为将对应的query直接进行词法检索,获取到很多实体及其描述,将实体名称与描述作为一个passage,召回的第一个实体标为正样本,其他作为负样本,每个实体获得一个embedding P,然后embedding Q和每个embedding P计算相似度即图中的Sim(Q,P)。可以理解,第二检索器的优化的方向为正样本和query距离尽量小,负样本和query距离尽量大,训练完成后认为此时第二检索器的表现已经接近词法检索器了。
具体地,embedding Q与embedding P可以看成两个向量,可以采用余弦相似度的方法计算embedding Q与embedding P之间的相似度,计算方式如下:
Figure 496395DEST_PATH_IMAGE001
其中,x1与x2分别表示两个向量。
进一步地,步骤S3具体包括以下步骤:
S31、第一检索器分别对query和passage进行编码得到QA与PA;QA为编码后的query,PA为编码后的passage;
S32、第二检索器分别对query和passage进行编码得到QB与PB;QB为编码后的query,PB为编码后的passage;
S33、将QA与QB拼接得到Q,Q为实体指称的向量表示;将PA与PB拼接得到P,P为实体描述的向量表示;
S34、计算Q和P的相似度,优化参数使正确的实体指称和实体描述之间相似度较高,不匹配的实体指称和实体描述之间相似度较小,训练后获得所述链指模型。
可以理解,步骤S31与步骤S32可以同时进行编码,以保证推理速度。
进一步地,步骤S4中链指模型计算需要链指的实体指称与实体描述之间的相似度包括以下步骤:
S41、对需要链指的实体及其描述向量化并创建索引;
S42、将需要链指的实体指称及其上下文向量化;
S43、通过余弦相似度计算实体指称与实体描述之间的相似度。
可以理解,步骤S41、S42的先后顺序不做限制,也可以同时进行。本发明第一实施例的实体链接方法中待检索的实体及其上下文和对应的实体描述可以分别进入第一检索器以及第二检索器进行编码,并将两个检索器得到的向量拼接,作为实体指称和实体描述的向量表示,最后通过计算向量相似度来返回搜索结果。并且通过第一检索器与第二检索器同时进行编码既可以保留稠密检索器对于语义的编码特性,又能结合稀疏检索器对于重点词汇、短语的匹配能力,对于实体链接任务的精度有很大的提升作用。
请参阅图4,图4展示的是整体的链指流程(即第一检索器与第二检索器共同训练的训练流程)。第一检索器的结构就是一般的bi-encoder结构,可以参考第二检索器的结构,去掉词法检索器部分,训练数据中的passage信息直接进入passage encoder(段落信息编码器)。训练过程即联合训练第一检索器与第二检索器,这时第一检索器与第二检索器的输入是基本一致的,即都输入query和passage,分别编码为QA,PA,QB和PB,然后将query拼接在一起即QA与QB拼接(如图4所示的Concat(QA,QB))得到Q,passage拼接在一起即PA与PB拼接(如图4所示的Concat(PA,PB))得到P,再计算Q与P的相似度(如图4所示的Sim(Q,P)),Q与P可以看成两个向量,可以采用余弦相似度的方法计算Q与P之间的相似度。同样的,匹配的实体希望相似度更高,不匹配的实体希望相似度更小。实际使用中,一般先将实体全部编码,即PA和PB往往提前计算好,并保存好concat后的向量作为实体表示,当新来一个query时,两个检索器同时计算各自的embedding,concat后进行最近邻检索,速度和仅使用一个检索器差别不大。
示例性地,需要链指的实体指称及其上下文为:苹果将于2023年推出一款新手机,其中,苹果为需要链指的实体指称;若采用现有的实体链接方法将其与知识库中的实体进行连接可能会得到以下结果中的一种:第一种是苹果为水果,苹果树的果实,一般呈红色,富含矿物质和维生素,是人们最常食用的水果;第二种是苹果为公司,总部位于美国加州库比蒂诺的跨国科技公司。可以理解,根据“苹果将于2023年推出一款新手机”的语义可知第二种结果才是正确的,现有的实体链接方法有可能得到的是第一种结果,导致实体链接的准确性受到影响。而采用本发明提供的实体链接方法,由于结合了稠密检索器对于语义的编码特性以及稀疏检索器对于重点词汇、短语的匹配能力,最后会直接得到正确的第二种结果,极大地提高了实体链接的准确性。
综上,本发明第一实施例提供的实体链接方法能够对含有实体指称的文本与实体库中的实体进行链指,确定唯一对应的实体。并且本发明的实体链接方法既可以作为单独的链指方法,直接给出实体指称的对应实体,也可作为基于检索与重排的二阶段召回系统的第一阶段。在单独使用时,本方法能够提高匹配的准确度,在作为第一阶段使用时,对召回率也有显著提升。
可以理解,本发明第一实施例提供的实体链接方法在搜索中,可以确定文本所描述的实体,返回期望查找的结果;在知识图谱等知识库的构建中,也可帮助确定文本所描述的实体,防止混淆。一般来讲,基于语义的稠密向量检索会忽略实体指称中的部分词,从而无法召回正确的实体,本发明使用一个稠密向量检索器表示了基于词法的稀疏检索器,从而弥补了对实体指称中部分词的忽略问题,一方面提高了匹配的准确率,另一方面基于两种特征的融合,在两阶段的链指任务中也可以提高一阶段的召回能力。同时,由于第一检索器与第二检索器互不干涉,两部分的推理可以同时进行,也没有推理时间的损失。
进一步地,本发明第二实施例提供一种存储介质,其上存储有计算机程序,该计算机程序被执行时实现本发明第一实施例提供的实体链接方法。可以理解,本发明第二实施例的存储介质与本发明第一实施例的实体链方法有益效果相同,在此不做赘述。
可以理解地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明的附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方案中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
与现有技术相比,本发明的一种实体链接方法及存储介质具有以下优点:
1、本发明的实体链接方法包括以下步骤:获取第一检索器,第一检索器为稠密检索器;获取第二检索器;对第一检索器与第二检索器进行训练获取链指模型;通过链指模型计算需要链指的实体指称与实体描述之间的相似度,取相似度最高的实体作为链指结果;或者,取相似度最高的预设个数实体作为召回结果。可以理解,本发明的第二检索器可代替稀疏检索器,因此在本发明的实体链接方法中既可以保留稠密检索器对于语义的编码特性,又能结合稀疏检索器对于重点词汇、短语的匹配能力,对于实体链接任务的精度有很大的提升,极大地提高了实体链接的准确性。
2、本发明的实体链接方法中取相似度最高的预设个数实体作为召回结果之后还包括以下步骤:对召回结果进行重排,通过重排可以进一步提高实体链接的准确性。
3、本发明的实体链接方法中的预设个数实体为5-10个实体,有利于保证实体链接的推理速度。
4、本发明的实体链接方法中获取第二检索器包括以下步骤:获取稀疏检索器;用bi-encoder(双编码器)模型作为学生去学习稀疏检索器的检索结果,学习之后的检索器为第二检索器,有利于提高第二检索器的性能。
5、本发明的实体链接方法中对第一检索器与第二检索器进行训练获取链指模型的步骤包括:第一检索器分别对查询句和段落信息进行编码得到QA与PA;QA为编码后的查询句,PA为编码后的段落信息;第二检索器分别对查询句和段落信息进行编码得到QB与PB;QB为编码后的查询句,PB为编码后的段落信息;将QA与QB拼接得到Q,Q为实体指称的向量表示;将PA与PB拼接得到P,P为实体描述的向量表示;计算Q和P的相似度,优化参数使正确的实体指称和实体描述之间相似度较高,不匹配的实体指称和实体描述之间相似度较小,训练后获得所述链指模型。可以理解,本发明中第一检索器与第二检索器可以同时进行编码,推理速度没有额外损失,有利于提高实体链接的速度。
6、本发明的实体链接方法中第一检索器分别对查询句和段落信息进行编码以及第二检索器分别对查询句和段落信息进行编码目的是让正确的实体指称和实体描述之间的相似度较高即距离较小,而不匹配的实体指称和实体描述之间距离较大,便于后续计算。
7、本发明还提供一种存储介质,包括计算机程序,该计算机程序被处理器执行时实现上述实体链接方法的步骤。具有与上述实体链接方法相同的有益效果,此处不再赘述。
以上对本发明实施例公开的一种实体链接方法及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。

Claims (10)

1.一种实体链接方法,其特征在于:包括以下步骤:
获取第一检索器,所述第一检索器为稠密检索器;
获取第二检索器;
对所述第一检索器与所述第二检索器进行训练获取链指模型;
通过链指模型计算需要链指的实体指称与实体描述之间的相似度,取相似度最高的实体作为链指结果;或者,取相似度最高的预设个数实体作为召回结果。
2.如权利要求1所述的实体链接方法,其特征在于:取相似度最高的预设个数实体作为召回结果之后还包括以下步骤:
对召回结果进行重排。
3.如权利要求1所述的实体链接方法,其特征在于:所述预设个数实体为5-10个实体。
4.如权利要求2所述的实体链接方法,其特征在于:对召回结果进行重排包括以下步骤:
检查相似度最高的预设个数实体和查询句中实体指称的相关性,取相关性最高的实体作为链指结果。
5.如权利要求1所述的实体链接方法,其特征在于:获取第二检索器包括以下步骤:
获取稀疏检索器;
用bi-encoder模型作为学生去学习所述稀疏检索器的检索结果,学习之后的检索器为第二检索器。
6.如权利要求5所述的实体链接方法,其特征在于:所述稀疏检索器为基于词法的稀疏检索器。
7.如权利要求5所述的实体链接方法,其特征在于:所述bi-encoder模型为不共享参数的bi-encoder模型。
8.如权利要求1所述的实体链接方法,其特征在于:对所述第一检索器与所述第二检索器进行训练获取链指模型的步骤包括:
第一检索器分别对查询句和段落信息进行编码得到QA与PA;QA为编码后的查询句,PA为编码后的段落信息;
第二检索器分别对查询句和段落信息进行编码得到QB与PB;QB为编码后的查询句,PB为编码后的段落信息;
将QA与QB拼接得到Q,Q为实体指称的向量表示;将PA与PB拼接得到P,P为实体描述的向量表示;
计算Q和P的相似度,优化参数使正确的实体指称和实体描述之间相似度高,不匹配的实体指称和实体描述之间相似度小,训练后获得所述链指模型。
9.如权利要求1所述的实体链接方法,其特征在于:链指模型计算需要链指的实体指称与实体描述之间的相似度包括以下步骤:
对需要链指的实体及其描述向量化并创建索引;
将需要链指的实体指称及其上下文向量化;
通过余弦相似度计算实体指称与实体描述之间的相似度。
10.一种存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-9任一项所述的实体链接方法。
CN202211098761.6A 2022-09-09 2022-09-09 一种实体链接方法及存储介质 Active CN115203438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211098761.6A CN115203438B (zh) 2022-09-09 2022-09-09 一种实体链接方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211098761.6A CN115203438B (zh) 2022-09-09 2022-09-09 一种实体链接方法及存储介质

Publications (2)

Publication Number Publication Date
CN115203438A true CN115203438A (zh) 2022-10-18
CN115203438B CN115203438B (zh) 2023-02-03

Family

ID=83573442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211098761.6A Active CN115203438B (zh) 2022-09-09 2022-09-09 一种实体链接方法及存储介质

Country Status (1)

Country Link
CN (1) CN115203438B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306504A (zh) * 2023-05-23 2023-06-23 匀熵智能科技(无锡)有限公司 候选实体生成方法、装置、存储介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014014473A1 (en) * 2012-07-20 2014-01-23 Ipar, Llc Method and system for predicting association item affinities using second order user item associations
US20190354596A1 (en) * 2018-05-15 2019-11-21 International Business Machines Corporation Similarity matching systems and methods for record linkage
CN110502613A (zh) * 2019-08-12 2019-11-26 腾讯科技(深圳)有限公司 一种模型训练方法、智能检索方法、装置和存储介质
CN113220974A (zh) * 2021-05-31 2021-08-06 北京爱奇艺科技有限公司 点击率预测模型训练、搜索召回方法、装置、设备及介质
CN114036322A (zh) * 2021-11-05 2022-02-11 北京百度网讯科技有限公司 用于搜索系统的训练方法、电子设备和存储介质
CN114841164A (zh) * 2022-04-29 2022-08-02 浪潮电子信息产业股份有限公司 一种实体链接方法、装置、设备及存储介质
CN114860868A (zh) * 2022-03-08 2022-08-05 中国海洋大学 一种语义相似度向量再稀疏编码索引与检索方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014014473A1 (en) * 2012-07-20 2014-01-23 Ipar, Llc Method and system for predicting association item affinities using second order user item associations
US20190354596A1 (en) * 2018-05-15 2019-11-21 International Business Machines Corporation Similarity matching systems and methods for record linkage
CN110502613A (zh) * 2019-08-12 2019-11-26 腾讯科技(深圳)有限公司 一种模型训练方法、智能检索方法、装置和存储介质
CN113220974A (zh) * 2021-05-31 2021-08-06 北京爱奇艺科技有限公司 点击率预测模型训练、搜索召回方法、装置、设备及介质
CN114036322A (zh) * 2021-11-05 2022-02-11 北京百度网讯科技有限公司 用于搜索系统的训练方法、电子设备和存储介质
CN114860868A (zh) * 2022-03-08 2022-08-05 中国海洋大学 一种语义相似度向量再稀疏编码索引与检索方法
CN114841164A (zh) * 2022-04-29 2022-08-02 浪潮电子信息产业股份有限公司 一种实体链接方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王晨旭: "面向新闻文本的实体抽取和链接技术研究", 《CNKI优秀硕士论文全文库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306504A (zh) * 2023-05-23 2023-06-23 匀熵智能科技(无锡)有限公司 候选实体生成方法、装置、存储介质及电子设备
CN116306504B (zh) * 2023-05-23 2023-08-08 匀熵智能科技(无锡)有限公司 候选实体生成方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN115203438B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
Zhang et al. Deep Neural Networks in Machine Translation: An Overview.
CN109661664B (zh) 一种信息处理的方法及相关装置
CN111274815A (zh) 用于挖掘文本中的实体关注点的方法和装置
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN115203438B (zh) 一种实体链接方法及存储介质
CN114510946B (zh) 基于深度神经网络的中文命名实体识别方法及系统
CN116225526A (zh) 一种基于图表示学习的代码克隆检测方法
CN114707494A (zh) 一种端到端的实体链接模型训练方法、实体链接方法及装置
CN112685538A (zh) 一种结合外部知识的文本向量检索方法
CN114462045B (zh) 一种智能合约漏洞检测方法
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN114741487A (zh) 基于图文语义嵌入的图文检索方法及系统
CN112925889B (zh) 自然语言处理方法、装置、电子设备和存储介质
CN115081445A (zh) 一种基于多任务学习的短文本实体消歧方法
CN114490946A (zh) 基于Xlnet模型的类案检索方法、系统及设备
CN113987121A (zh) 多语种推理模型的问答处理方法、装置、设备和可读介质
CN113886593A (zh) 一种利用指代依赖提升关系抽取性能的方法
CN114220505A (zh) 病历数据的信息抽取方法、终端设备及可读存储介质
CN112749554A (zh) 确定文本匹配度的方法、装置、设备及存储介质
CN113128201A (zh) 句子相似度确定方法、答案搜索方法、装置、设备、系统及介质
CN118051602B (zh) 面向信息安全领域的智能问答方法及系统、介质、设备
CN113836940B (zh) 电力计量领域的知识融合方法、装置和计算机设备
CN114969291B (zh) 一种自动问答方法及装置
CN113836937B (zh) 基于比较模型的文本处理方法、装置、设备与存储介质
CN113515598B (zh) 一种网络威胁情报文档实体关系提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant