CN117235277A - 实体链接方法、装置、电子设备及计算机可读存储介质 - Google Patents
实体链接方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117235277A CN117235277A CN202311088028.0A CN202311088028A CN117235277A CN 117235277 A CN117235277 A CN 117235277A CN 202311088028 A CN202311088028 A CN 202311088028A CN 117235277 A CN117235277 A CN 117235277A
- Authority
- CN
- China
- Prior art keywords
- entity
- candidate
- entities
- similarity
- candidate entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012545 processing Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 40
- 238000000926 separation method Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000004220 aggregation Methods 0.000 claims description 5
- 235000019633 pungent taste Nutrition 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 45
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种实体链接方法、装置、电子设备及计算机可读存储介质,该方法包括以下步骤:接收输入文本;生成对应于输入文本的实体候选集,实体候选集中包括多个候选实体及其对应的热度信息;获取多个候选实体的相似度分数;根据多个候选实体的相似度分数及多个候选实体对应的热度信息对实体候选集进行消歧处理,得到目标候选实体;根据目标候选实体进行实体链接。本发明通过生成实体候选集,获取多个候选实体及其对应的热度信息和多个候选实体的相似度分数,可以更好的为下游模块进行服务;进一步地,根据多个候选实体相似度分数及上述热度信息进行消歧处理,可以保证消歧过程更加充分,使消歧结果更加准确,从而提高实体链接结果的准确率。
Description
技术领域
本发明涉及实体链接技术领域,尤其是涉及一种实体链接方法、装置、电子设备及计算机可读存储介质。
背景技术
随着网络数据以指数级别增长,大量的数据在网络上以自然语言的形式呈现,对于一些人工智能系统,例如智能问答系统,用户与机器交互主要是通过自然语言的形式进行,因此机器需要能够准确识别和理解文本及其含义。但是,自然语言本身具有高度的歧义性,尤其是对于一些出现频率较高的字符串或词汇,它们对应多个含义,而每个含义又对应多个同名实体,不利于机器识别、理解和区分。因此,需要利用实体链接技术将一段文本中的某些字符串或词汇映射到实体库中对应的实体上,以对自然语言进行标注。
在相关现有技术中,实体链接一般包括实体候选生成及实体消歧。实体候选生成主要通过词典匹配或统计学方式来实现,实体消歧的方式主要包括:通过基于空间向量模型的方法,分别计算文本提及以及实体提及对应的实体候选的向量表示,再计算两者的相似度;或者通过人工设计一些特征包括实体提及和候选集的上下文无关和上下文相关的特征,训练一个二分类模型来实现消歧。
然而,在上述相关现有技术中,候选集生成过程复杂,效率较低;且在实体消歧时,对上下文信息利用的不够充分,不能有效捕捉到重要特征信息,且未考虑到候选实体的热度信息等,导致消歧结果准确性不高,进而影响实体链接的准确性。因此,如何能够提升实体链接结果的准确性成为了本领域技术人员亟待解决的技术问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,本发明的一个目的在于提出一种实体链接方法,该方法在进行实体链接的过程中,通过应用灵活的检索策略生成实体候选集,可以使实体候选集生成更快捷,更方便,更高效。同时,通过获取多个候选实体的相似度分数及其对应的热度信息,可以更好的为下游模块进行服务;进一步地,根据多个候选实体相似度分数及上述热度信息进行消歧处理,可以保证消歧过程更加充分,使消歧结果更加准确,从而提高实体链接结果的准确率。
为此,本发明的第二个目的在于提出一种实体链接装置。
为此,本发明的第三个目的在于提出一种电子设备。
为此,本发明的第四个目的在于提出一种计算机可读存储介质。
为实现上述目的,本发明第一方面的实施例公开了一种实体链接方法,包括以下步骤:接收输入文本;生成对应于所述输入文本的实体候选集,所述实体候选集中包括多个候选实体及其对应的热度信息;获取多个所述候选实体的相似度分数;根据多个所述候选实体的相似度分数及多个所述候选实体对应的热度信息对所述实体候选集进行消歧处理,得到目标候选实体;根据所述目标候选实体进行实体链接。
根据本发明实施例的实体链接方法,在进行实体链接的过程中,生成多个候选实体,并获取其对应的热度信息及相似度分数,通过获取多个候选实体的相似度分数及其对应的热度信息,可以更好的为下游模块进行服务;进一步地,引入了各候选实体的热度信息,根据多个候选实体相似度分数及上述热度信息进行消歧处理,可以保证消歧过程更加充分,使消歧结果更加准确,从而提高实体链接结果的准确率。
另外,根据本发明上述实施例的实体链接方法还可以具有如下附加的技术特征:
在一些示例中,生成对应于所述输入文本的实体候选集,包括:基于预设检索工具构建实体库;将所述实体库的实体与输入的热度信息关联,得到所述实体候选集。由此,通过应用灵活的检索策略生成实体候选集,可以使实体候选集生成更快捷,更方便,更高效。
在一些示例中,获取多个所述候选实体的相似度分数,包括:基于打分模型对分别对多个所述候选实体进行相似度打分,得到多个所述候选实体的相似度分数。
在一些示例中,基于打分模型对分别对多个所述候选实体进行相似度打分,包括:对所述输入文本进行编码;将编码后的输入文本分别与各候选实体进行拼接,得到拼接文本;基于所述打分模型对各拼接文本进行相似度打分,得到多个所述候选实体的相似度分数。
在一些示例中,对所述输入文本进行编码,包括:确定所述输入文本中的实体提及;在所述实体提及的前端和后端插入预设分隔标记,以对所述输入文本进行编码。
在一些示例中,所述热度信息包括热度值,所述根据多个所述候选实体的相似度分数及多个所述候选实体对应的热度信息对所述实体候选集进行消歧处理,得到目标候选实体,包括:根据各所述候选实体的相似度分数及各所述候选实体对应的热度值对应计算各所述候选实体的最终相似度分数;将得到的各所述候选实体的最终相似度分数中的最大值作对应的候选实体作为所述目标候选实体。
在一些示例中,根据各所述候选实体的相似度分数及各所述候选实体对应的热度值对应计算各所述候选实体的最终相似度分数,包括:
final_score=log(max(hot,2))*score;
其中,final_score为各所述候选实体的最终相似度分数,score为各所述候选实体的相似度分数,hot为各所述候选实体对应的热度值。
在一些示例中,在基于打分模型对分别对多个所述候选实体进行相似度打分之前,还包括:训练所述打分模型。
在一些示例中,训练所述打分模型,包括:获取训练数据;解析所述训练数据;将解析的训练数据进行聚合分析,查找超级链接所指的具体实体;根据各具体实体对应的热度信息对所述具体实体进行过滤,得到实体提及及其对应的链指对;根据多组实体提及及其对应的链指对进行训练,得到所述打分模型。
为实现上述目的,本发明第二方面的实施例公开了一种实体链接装置,包括:接收模块,用于接收输入文本;生成模块,用于生成对应于所述输入文本的实体候选集,所述实体候选集中包括多个候选实体及其对应的热度信息;获取模块,用于获取多个所述候选实体的相似度分数;处理模块,用于根据多个所述候选实体的相似度分数及多个所述候选实体对应的热度信息对所述实体候选集进行消歧处理,得到目标候选实体;链接模块,用于根据所述目标候选实体进行实体链接。
根据本发明实施例的实体链接装置,在进行实体链接的过程中,生成多个候选实体,并获取其对应的热度信息及相似度分数,通过获取多个候选实体的相似度分数及其对应的热度信息,可以更好的为下游模块进行服务;进一步地,引入了各候选实体的热度信息,根据多个候选实体相似度分数及上述热度信息进行消歧处理,可以保证消歧过程更加充分,使消歧结果更加准确,从而提高实体链接结果的准确率。
为实现上述目的,本发明第三方面实施例公开了一种电子设备,该电子设备包括:处理器、存储器,以及存储在存储器上并可在处理器上运行的实体链接程序,所述实体链接程序被处理器执行时实现如本发明第一方面实施例所述的实体链接方法。
根据本发明实施例的电子设备,在进行实体链接的过程中,生成多个候选实体,并获取其对应的热度信息及相似度分数,通过获取多个候选实体的相似度分数及其对应的热度信息,可以更好的为下游模块进行服务;进一步的地,引入了各候选实体的热度信息,根据多个候选实体相似度分数及上述热度信息,结合上下文的特征进行消歧处理,可以保证消歧过程更加充分,使消歧结果更加准确,从而提高实体链接结果的准确率。
为实现上述目的,本发明第四方面实施例公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有实体链接程序,所述实体链接程序被处理器执行时实现如本发明第一方面实施例所述的实体链接方法。
根据本发明实施例的计算机可读存储介质,其上存储的实体链接程序被处理器执行时,若在进行实体链接的过程中,则生成多个候选实体,并获取其对应的热度信息及相似度分数,通过获取多个候选实体的相似度分数及其对应的热度信息,可以更好的为下游模块进行服务;进一步地,引入了各候选实体的热度信息,根据多个候选实体相似度分数及上述热度信息消歧处理,可以保证消歧过程更加充分,使消歧结果更加准确,从而提高实体链接结果的准确率。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的实体链接方法的流程示意图;
图2是根据本发明一个实施例的实体链接装置的结构示意图。
附图标记:
实体链接装置-10;接收模块-20;生成模块-30;获取模块-40;处理模块-50;链接模块-60。
具体实施方式
下面详细描述本发明的实施例,参考附图描述的实施例是示例性的,下面详细描述本发明的实施例。
下面参考图1-图2描述根据本发明实施例的实体链接方法、装置、电子设备及计算机可读存储介质。
图1是根据本发明一个实施例的实体链接方法的流程示意图。如图1所示,该实体链接方法,包括以下步骤:
步骤S1:接收输入文本。
具体而言,在进行实体链接的过程中,首先要接收输入的文本信息,文本信息一般为自然语言文本,包括但不限于为一段话、一篇文章、一个问题或者一个句子等。具体地,文本可以包含实体提及mention,即文本中提到的与现实世界中具体事物、场景或者抽象概念相对应的词或短语。实体链接可以将文本中的实体提及与构建的实体库中的实体进行链接,使得实体提及所对应的实体可以被准确地标识出来。可以理解的是,接收的输入文本可以是问答对话中的问题或回答或者数据集或者文档中的句子或段落。即在实体链接中接收的输入文本可以是各种形式的自然语言文本,可以通过实体链接技术将文本中的实体提及链接到实体库中的相应实体,进而为自然语言处理、文本分析等任务提供更加准确、丰富的语义信息。
步骤S2:生成对应于输入文本的实体候选集,实体候选集中包括多个候选实体及其对应的热度信息。
具体而言,在进行实体链接的过程中,根据接收的输入文本可以生成对应的实体候选集,实体候选集中包括多个候选实体及其对应的热度信息。候选实体集生成的方法包括但不限于为词典匹配方法、表层形式扩展法以及统计模型法。具体地,在实体候选集生成的过程中,可以通过采用适合的检索工具使检索过程更加方便快捷,在具体实施例中,例如可以选择采用BM25的相关度计算方法的检索工具,以保证可以灵活配置相关度计算的字段。同时,实体候选集中多个候选实体对应的热度信息可以在此阶段被获取,以便于可以随时指定返回,以保证可以为后续消歧模型提供消歧数据基础。可以理解的是,实体候选集中一般会包括多个候选实体及其对应的热度信息,而多个候选实体所对应的热度信息可以用于衡量每个候选实体的重要程度和匹配程度,其包括但不限于包括实体的访问量、文本中的词频、知识库中实体的类型、搜索频率、出现次数、知名度等。在具体实施例中,实体候选集中包括的候选实体的数量可以预先在检索工具中进行配置,如包括但不限于30~50个候选实体。
步骤S3:获取多个候选实体的相似度分数。
具体而言,在进行实体链接的过程中,生成对应于输入文本的实体候选集之后,可以获取多个候选实体的相似度分数。具体地,可以采用将实体提及和上下文统一编码的方式,根据预置的模型算法得到多个候选实体的相似度分数。可以理解的是,多个候选实体的相似度分数可以体现候选实体与输入文本中的实体提及在语义上的相似程度,通过此分数,可以得到每个候选实体与输入文本中的实体提及的匹配程度,从而有利于实现实体链接,提高实体链接结果的准确性。
步骤S4:根据多个候选实体的相似度分数及多个候选实体对应的热度信息对实体候选集进行消歧处理,得到目标候选实体。
具体而言,在进行实体链接的过程中,在得到多个候选实体的相似度分数及多个候选实体对应的热度信息后,可以基于其相似度分数及热度信息对其进行消歧处理,进而得到目标候选实体,也即最终需链接的实体。具体地,可以根据多个候选实体的相似度分数及多个候选实体对应的热度信息进行排序,排名越靠前,则候选实体更可能是准确度更高的目标候选实体。可以理解的是,通过消歧处理可以判断每个候选实体是否是当前实体提及的目标候选实体,消歧处理的方法包括但不限于为通过支持向量机、神经网络、卷积神经网络等算法来建立相似度分数模型,然后结合多个候选实体对应的热度信息,计算最后的分数排名,可以选择得分最高的实体,作为消歧的结果,即目标候选实体,由此,该目标候选实体相较于其他候选实体,更匹配于输入文本中的实体提及,其准确性更高,利于提高实体链接结果的准确率。
步骤S5:根据目标候选实体进行实体链接。
具体而言,在将输入文本中的实体提及与实体库中的实体进行匹配和链接的过程中,可以得到实体提及对应的多个候选实体。在基于相似度分数和热度信息对多个候选实体消歧之后,得到目标候选实体,进而可以根据目标候选实体进行实体链接,由此,根据多个候选实体相似度分数及上述热度信息进行消歧处理,可以保证消歧过程更加充分,使消歧结果更加准确,从而提高实体链接结果的准确率。可以理解的是,对于每个实体提及的目标候选实体,可以进行实体链接匹配,即将其与实体库中的实体进行匹配,以确定最终的实体链接结果。匹配的方法包括但不限于为字符串匹配、语义匹配、图网络匹配等。
在具体实施例中,输入文本中可能包括多个实体提及,则针对输入文本中的每个实体提及,均可以采用如步骤S1-S5所述的方法进行实体链接。
从而,上述的实体链接方法,在进行实体链接的过程中,生成多个候选实体,并获取其对应的热度信息及相似度分数,通过获取多个候选实体的相似度分数及其对应的热度信息,可以更好的为下游模块进行服务;进一步地,引入了各候选实体的热度信息,根据多个候选实体相似度分数及上述热度信息进行消歧处理,可以保证消歧过程更加充分,使消歧结果更加准确,从而提高实体链接结果的准确率。
在本发明的一个实施例中,生成对应于输入文本的实体候选集,包括:基于预设检索工具构建实体库;将实体库的实体与输入的热度信息关联,得到实体候选集。
具体而言,在进行实体链接的过程中,生成对应于输入文本的实体候选集的方式包括:基于预设检索工具构建实体库,即通过预设检索工具对相关字段信息进行处理来构建适合的实体库,数据处理的过程包括但不限于为数据清洗、数据处理、数据格式转换等。具体地,根据实体库数据的规模和实体链接任务需求,可以选择灵活的策略来构建实体库,例如可以选择名称title的归一化,利用别名召回,预先配置并输入热度信息等。并且,可以将实体库的实体与输入的热度信息关联,得到实体候选集,即在实体库构建完成后,可以根据输入文本抽取实体提及,将其与实体库中的实体进行匹配,得到实体候选集。由此,本发明实施例基于合适检索工具,采用灵活的检索策略建立实体库,可以使候选集的生成更快捷、更方便、更高效。
在本发明的一个实施例中,获取多个候选实体的相似度分数,包括:基于打分模型对分别对多个候选实体进行相似度打分,得到多个候选实体的相似度分数。
具体而言,在进行实体链接的过程中,获取多个候选实体的相似度分数的过程包括:基于打分模型对分别对多个候选实体进行相似度打分,得到多个候选实体的相似度分数,以便于为后续消歧模型提供消歧数据基础。具体地,可以选取候选实体的部分特征,包括但不限于为实体名称、实体别名、实体类型等信息,将其应用于预置的打分模型,即可根据候选实体的特征和打分模型计算出每个候选实体的相似度分数。
在本发明的一个实施例中,基于打分模型对分别对多个候选实体进行相似度打分,包括:对输入文本进行编码;将编码后的输入文本分别与各候选实体进行拼接,得到拼接文本;基于打分模型对各拼接文本进行相似度打分,得到多个候选实体的相似度分数。
具体而言,在进行实体链接的过程中,基于打分模型对分别对多个候选实体进行相似度打分,包括:对输入文本进行编码,即将输入文本进行预处理,将其转换为可以被模型识别和处理的形式;将编码后的输入文本分别与各候选实体进行拼接,得到拼接文本,即对于各候选实体,将其与编码后的输入文本按照一定的方式进行拼接。拼接方式包括但不限于为将实体名称与输入文本进行拼接,或者将实体名称、实体别名、实体类型等信息与输入文本进行拼接;基于打分模型对各拼接文本进行相似度打分,得到多个候选实体的相似度分数,即可以选取各拼接文本的部分特征,包括但不限于为拼接文本名称、拼接文本别名、拼接文本类型等信息,将其应用于预置的打分模型,即可根据拼接文本的特征和打分模型计算出多个选实体的相似度分数。
在本发明的一个实施例中,对输入文本进行编码,包括:确定输入文本中的实体提及;在实体提及的前端和后端插入预设分隔标记,以对输入文本进行编码。
具体而言,在进行实体链接的过程中,对输入文本进行编码,包括确定输入文本中的实体提及,即对输入文本进行识别和标注,识别方法包括但不限于为命名实体识别;在实体提及的前端和后端插入预设分隔标记,以对输入文本进行编码,即在确定实体提及后,可以在实体提及的前端和后端插入预设的分隔标记,对实体提及进行标记和划分。例如:query=苹果的首席执行官是谁?会被编码为query=[B]苹果[E]的首席执行官是谁?即在实体提及的前后加上[B]和[E]这样的分隔标记,来表示消歧的前后位置。其中,[B]和[E]即为预设分隔标记,[B]表示begin,即需要消歧的起始位置,[E]表示end,表示需要消歧的终点位置,由此,通过预设分隔标记可以确定需要消歧的实体提及的位置。需要说明的是,在具体实施例中,预设分隔标记可以为预先设定的标识符号,并不限于上述示例性列举的[B]和[E]。
在本发明的一个实施例中,热度信息包括热度值,根据多个候选实体的相似度分数及多个候选实体对应的热度信息对实体候选集进行消歧处理,得到目标候选实体,包括:根据各候选实体的相似度分数及各候选实体对应的热度值对应计算各候选实体的最终相似度分数;将得到的各候选实体的最终相似度分数中的最大值作对应的候选实体作为目标候选实体。
具体而言,热度信息包括热度值,即可根据热度信息,例如实体的访问量、文本中的词频、知识库中实体的类型、搜索频率、出现次数、知名度等,将其应用于相应计算模型,可以得到各候选实体对应的热度值。在进行实体链接的过程中,根据多个候选实体的相似度分数及多个候选实体对应的热度信息对实体候选集进行消歧处理,得到目标候选实体,包括:根据各候选实体的相似度分数及各候选实体对应的热度值对应计算各候选实体的最终相似度分数,即经过模型打分后,可以得到一个相似度分数,根据各候选实体的相似度分数和对应的热度值,可以根据预置的公式算法计算得出各候选实体的最终相似度分数,然后将得到的各候选实体的最终相似度分数进行排序处理,选择各候选实体的最终相似度分数中的最大值作对应的候选实体作为目标候选实体。
在本发明的一个实施例中,根据各候选实体的相似度分数及各候选实体对应的热度值对应计算各候选实体的最终相似度分数,包括:
final_score=log(max(hot,2))*score;
其中,final_score为各候选实体的最终相似度分数,score为各候选实体的相似度分数,hot为各候选实体对应的热度值。
具体而言,针对各候选实体,将其对应的相似度分数和热度值输入至上述打分模型(即上述计算式)中,即可得到各候选实体对应的最终相似度分数。
其中,final_score表示各候选实体的最终相似度分数,score表示各候选实体的相似度分数,即表示实体提及与候选实体之间的匹配程度,hot表示各候选实体对应的热度值,可以对热度值取对数,以便于可以得到合适的、非负的值。
在本发明的一个实施例中,在基于打分模型对分别对多个候选实体进行相似度打分之前,还包括:训练打分模型。
具体而言,在进行实体链接的过程中,在基于打分模型对分别对多个候选实体进行相似度打分之前,还包括:训练打分模型。具体的,在训练打分模型之前,可以收集训练数据以生成大量的实体提及和实体提及真实所指的实体,并选择部分具有代表性的特征,以便于进行打分模型进行相似度打分。可以理解的是,训练打分模型一般使用机器学习算法,包括但不限于支持向量机、逻辑回归等。通过训练打分模型,可以使实体链接得到更为精确的结果。
在本发明的一个实施例中,训练打分模型,包括:获取训练数据;解析训练数据;将解析的训练数据进行聚合分析,查找超级链接所指的具体实体;根据各具体实体对应的热度信息对具体实体进行过滤,得到实体提及及其对应的链指对;根据多组实体提及及其对应的链指对进行训练,得到打分模型。
具体而言,在进行实体链接的过程中,训练打分模型包括:获取训练数据,例如可以利用互联网上百科网页(如百度百科、维基百科等)的超级链接可以获取原始的网页数据用于训练模型;解析训练数据,即将获得的训练数据进行解析,将训练数据都映射到该领域中的具体实体;将解析的训练数据进行聚合分析,查找超级链接所指的具体实体,即根据训练数据的出现频率对每个具体实体进行计数,以便于查找超级链接所指的具体实体;根据各具体实体对应的热度信息对具体实体进行过滤,得到实体提及及其对应的链指对,即可以将各具体实体对应的热度信息用作过滤阈值,根据每个具体实体的出现频率排除低频实体,得到实体提及及其对应的链指对;根据多组实体提及及其对应的链指对进行训练,得到打分模型,即将过滤后的实体提及及其对应的链指对作为训练数据,根据数据训练得出实体链接的打分模型。
综上,上述的实体链接方法,在进行实体连接的过程中,生成多个候选实体,并获取其对应的热度信息及相似度分数,通过获取多个候选实体的相似度分数及其对应的热度信息,可以更好的为下游模块进行服务;进一步地,引入了各候选实体的热度信息,根据多个候选实体相似度分数及上述热度信息,结合上下文的特征进行消歧处理,可以保证消歧过程更加充分,使消歧结果更加准确,从而提高实体链接结果的准确率。
本发明的进一步实施例还提出了一种实体链接装置。
图2是根据本发明一个实施例的实体链接装置10的结构示意图。如图2所示,该实体链接装置10,包括:接收模块20、生成模块30、获取模块40、处理模块50和链接模块60。
具体的,接收模块20用于接收输入文本。
生成模块30用于生成对应于输入文本的实体候选集,实体候选集中包括多个候选实体及其对应的热度信息。
获取模块40用于获取多个候选实体的相似度分数。
处理模块50用于根据多个候选实体的相似度分数及多个候选实体对应的热度信息对实体候选集进行消歧处理,得到目标候选实体。
链接模块60用于根据目标候选实体进行实体链接。
在本发明的一个实施例中,生成模块30生成对应于输入文本的实体候选集的过程,包括:基于预设检索工具构建实体库;将实体库的实体与输入的热度信息关联,得到实体候选集。
在本发明的一个实施例中,获取模块40获取多个候选实体的相似度分数的过程,包括:基于打分模型对分别对多个候选实体进行相似度打分,得到多个候选实体的相似度分数。
在本发明的一个实施例中,处理模块50基于打分模型对分别对多个候选实体进行相似度打分的过程,包括:对输入文本进行编码;将编码后的输入文本分别与各候选实体进行拼接,得到拼接文本;基于打分模型对各拼接文本进行相似度打分,得到多个候选实体的相似度分数。
在本发明的一个实施例中,处理模块50对输入文本进行编码的过程,包括:确定输入文本中的实体提及;在实体提及的前端和后端插入预设分隔标记,以对输入文本进行编码。
在本发明的一个实施例中,热度信息包括热度值,处理模块50根据多个候选实体的相似度分数及多个候选实体对应的热度信息对实体候选集进行消歧处理,得到目标候选实体的过程,包括:根据各候选实体的相似度分数及各候选实体对应的热度值对应计算各候选实体的最终相似度分数;将得到的各候选实体的最终相似度分数中的最大值作对应的候选实体作为目标候选实体。
在本发明的一个实施例中,处理模块50根据各候选实体的相似度分数及各候选实体对应的热度值对应计算各候选实体的最终相似度分数的方式,包括:
final_score=log(max(hot,2))*score;
其中,final_score为各候选实体的最终相似度分数,score为各候选实体的相似度分数,hot为各候选实体对应的热度值。
在本发明的一个实施例中,处理模块50在基于打分模型对分别对多个候选实体进行相似度打分之前,还用于训练打分模型。
在本发明的一个实施例中,处理模块50训练打分模型的过程,包括:获取训练数据;解析训练数据;将解析的训练数据进行聚合分析,查找超级链接所指的具体实体;根据各具体实体对应的热度信息对具体实体进行过滤,得到实体提及及其对应的链指对;根据多组实体提及及其对应的链指对进行训练,得到打分模型。
根据本发明实施例的实体链接装置10,在进行实体链接的过程中,生成多个候选实体,并获取其对应的热度信息及相似度分数,通过获取多个候选实体的相似度分数及其对应的热度信息,可以更好的为下游模块进行服务;进一步地,引入了各候选实体的热度信息,根据多个候选实体相似度分数及上述热度信息,结合上下文的特征进行消歧处理,可以保证消歧过程更加充分,使消歧结果更加准确,从而提高实体链接结果的准确率。
本发明的进一步实施例提出了一种电子设备。
在一些实施例中,该电子设备包括:处理器、存储器,以及存储在存储器上并可在处理器上运行的实体链接程序,所述实体链接程序被处理器执行时实现如上述第一方面实施例所述的实体链接方法。
根据本发明实施例的电子设备,在进行实体链接的过程中,生成多个候选实体,并获取其对应的热度信息及相似度分数,通过获取多个候选实体的相似度分数及其对应的热度信息,可以更好的为下游模块进行服务;进一步地,引入了各候选实体的热度信息,根据多个候选实体相似度分数及上述热度信息,结合上下文的特征进行消歧处理,可以保证消歧过程更加充分,使消歧结果更加准确,从而提高实体链接结果的准确率。
本发明的进一步实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有实体链接程序,所述实体链接程序被处理器执行时实现如上述第一方面实施例的所述的实体链接方法。
根据本发明实施例的计算机可读存储介质,其上存储的实体链接程序被处理器执行时,若在进行实体链接的过程中,则可生成多个候选实体,并获取其对应的热度信息及相似度分数,通过获取多个候选实体的相似度分数及其对应的热度信息,可以更好的为下游模块进行服务;进一步地,引入了各候选实体的热度信息,根据多个候选实体相似度分数及上述热度信息,结合上下文的特征进行消歧处理,可以保证消歧过程更加充分,使消歧结果更加准确,从而提高实体链接结果的准确率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (12)
1.一种实体链接方法,其特征在于,包括以下步骤:
接收输入文本;
生成对应于所述输入文本的实体候选集,所述实体候选集中包括多个候选实体及其对应的热度信息;
获取多个所述候选实体的相似度分数;
根据多个所述候选实体的相似度分数及多个所述候选实体对应的热度信息对所述实体候选集进行消歧处理,得到目标候选实体;
根据所述目标候选实体进行实体链接。
2.根据权利要求1所述的实体链接方法,其特征在于,生成对应于所述输入文本的实体候选集,包括:
基于预设检索工具构建实体库;
将所述实体库的实体与输入的热度信息关联,得到所述实体候选集。
3.根据权利要求1所述的实体链接方法,其特征在于,获取多个所述候选实体的相似度分数,包括:
基于打分模型对分别对多个所述候选实体进行相似度打分,得到多个所述候选实体的相似度分数。
4.根据权利要求1所述的实体链接方法,其特征在于,基于打分模型对分别对多个所述候选实体进行相似度打分,包括:
对所述输入文本进行编码;
将编码后的输入文本分别与各候选实体进行拼接,得到拼接文本;
基于所述打分模型对各拼接文本进行相似度打分,得到多个所述候选实体的相似度分数。
5.根据权利要求4所述的实体链接方法,其特征在于,对所述输入文本进行编码,包括:
确定所述输入文本中的实体提及;
在所述实体提及的前端和后端插入预设分隔标记,以对所述输入文本进行编码。
6.根据权利要求1所述的实体链接方法,其特征在于,所述热度信息包括热度值,所述根据多个所述候选实体的相似度分数及多个所述候选实体对应的热度信息对所述实体候选集进行消歧处理,得到目标候选实体,包括:
根据各所述候选实体的相似度分数及各所述候选实体对应的热度值对应计算各所述候选实体的最终相似度分数;
将得到的各所述候选实体的最终相似度分数中的最大值作对应的候选实体作为所述目标候选实体。
7.根据权利要求6所述的实体链接方法,其特征在于,根据各所述候选实体的相似度分数及各所述候选实体对应的热度值对应计算各所述候选实体的最终相似度分数,包括:
final_score=log(max(hot,2))*score;
其中,final_score为各所述候选实体的最终相似度分数,score为各所述候选实体的相似度分数,hot为各所述候选实体对应的热度值。
8.根据权利要求3所述的实体链接方法,其特征在于,在基于打分模型对分别对多个所述候选实体进行相似度打分之前,还包括:
训练所述打分模型。
9.权利要求8所述的实体链接方法,其特征在于,训练所述打分模型,包括:
获取训练数据;
解析所述训练数据;
将解析的训练数据进行聚合分析,查找超级链接所指的具体实体;
根据各具体实体对应的热度信息对所述具体实体进行过滤,得到实体提及及其对应的链指对;
根据多组实体提及及其对应的链指对进行训练,得到所述打分模型。
10.一种实体链接装置,其特征在于,包括:
接收模块,用于接收输入文本;
生成模块,用于生成对应于所述输入文本的实体候选集,所述实体候选集中包括多个候选实体及其对应的热度信息;
获取模块,用于获取多个所述候选实体的相似度分数;
处理模块,用于根据多个所述候选实体的相似度分数及多个所述候选实体对应的热度信息对所述实体候选集进行消歧处理,得到目标候选实体;
链接模块,用于根据所述目标候选实体进行实体链接。
11.一种电子设备,其特征在于,包括:处理器、存储器,以及存储在存储器上并可在处理器上运行的实体链接程序,所述实体链接程序被处理器执行时实现如权利要求1-9任一项所述的实体链接方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实体链接程序,所述实体链接程序被处理器执行时实现如权利要求1-9任一项的所述的实体链接方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311088028.0A CN117235277A (zh) | 2023-08-25 | 2023-08-25 | 实体链接方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311088028.0A CN117235277A (zh) | 2023-08-25 | 2023-08-25 | 实体链接方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117235277A true CN117235277A (zh) | 2023-12-15 |
Family
ID=89095776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311088028.0A Pending CN117235277A (zh) | 2023-08-25 | 2023-08-25 | 实体链接方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235277A (zh) |
-
2023
- 2023-08-25 CN CN202311088028.0A patent/CN117235277A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
CN109101479B (zh) | 一种用于中文语句的聚类方法及装置 | |
CN107329949B (zh) | 一种语义匹配方法和系统 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN113806482A (zh) | 视频文本跨模态检索方法、装置、存储介质和设备 | |
CN116992007B (zh) | 基于问题意图理解的限定问答系统 | |
CN113157885A (zh) | 一种面向人工智能领域知识的高效智能问答系统 | |
Liu et al. | Open intent discovery through unsupervised semantic clustering and dependency parsing | |
CN112579752A (zh) | 实体关系的抽取方法及装置、存储介质、电子设备 | |
CN113742446A (zh) | 一种基于路径排序的知识图谱问答方法及系统 | |
CN113157867A (zh) | 一种问答方法、装置、电子设备及存储介质 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
CN110795544B (zh) | 内容搜索方法、装置、设备和存储介质 | |
Hassani et al. | LVTIA: A new method for keyphrase extraction from scientific video lectures | |
CN116304020A (zh) | 一种基于义原分析和跨度特征的工业文本实体抽取方法 | |
CN113392191B (zh) | 一种基于多维度语义联合学习的文本匹配方法和装置 | |
Mustafa et al. | Optimizing document classification: Unleashing the power of genetic algorithms | |
CN110334204B (zh) | 一种基于用户记录的习题相似度计算推荐方法 | |
CN116662518A (zh) | 问答方法、装置、电子设备及可读存储介质 | |
Kádár et al. | Learning word meanings from images of natural scenes | |
EP3965024A1 (en) | Automatically labeling functional blocks in pipelines of existing machine learning projects in a corpus adaptable for use in new machine learning projects | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 | |
Wibawa et al. | Classification Analysis of MotoGP Comments on Media Social Twitter Using Algorithm Support Vector Machine and Naive Bayes | |
CN112115362B (zh) | 一种基于相似代码识别的编程信息推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |