CN116992883B - 实体对齐的处理方法和装置 - Google Patents
实体对齐的处理方法和装置 Download PDFInfo
- Publication number
- CN116992883B CN116992883B CN202311263034.5A CN202311263034A CN116992883B CN 116992883 B CN116992883 B CN 116992883B CN 202311263034 A CN202311263034 A CN 202311263034A CN 116992883 B CN116992883 B CN 116992883B
- Authority
- CN
- China
- Prior art keywords
- entity
- target entity
- mention
- target
- entities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title description 7
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 51
- 238000012937 correction Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 6
- 235000013399 edible fruits Nutrition 0.000 description 5
- 238000004590 computer program Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241001342895 Chorus Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种实体对齐的处理方法和装置,包括:获取目标实体提及,目标实体提及用于描述目标实体对应的提及;基于目标实体提及和预设数据库,确定目标实体提及所对齐的目标实体,目标实体提及与目标实体之间的对应关系为一对多;其中,预设数据库中包括:实体表和别名表,实体表中包括多个实体的名称,别名表中包括多个实体的别名,实体表与别名表相对应。从而,通过目标实体提及与预设数据库中的实体表和别名表进行比对,有效确定出与目标实体提及对齐的目标实体,提升实体对齐准确度。
Description
技术领域
本公开的实施例涉及数据处理技术领域,具体地,涉及适用于一种实体对齐的处理方法和装置。
背景技术
提及(mention)为实体在文本中的描述,一个提及有可能在不同应用场景中对应有多个实体,如,提及为“苹果”时,其对应的实体可为“苹果(水果)”、“苹果(电影)”或者“苹果(小说)”等。
相关技术中,在判定提及与实体的对应关系(如提及对应的实体/实体对应的提及)时,主要是通过提及与实体在不同应用场景中的相似性/匹配程度来判定,以此实现提及与实体之间的对齐。
然而,上述实现方式,实体对齐准确度不高。
发明内容
本文中描述的实施例提供了一种实体对齐的处理方法和装置,克服了上述问题。
第一方面,根据本公开的内容,提供了一种实体对齐的处理方法,包括:
获取目标实体提及,所述目标实体提及用于描述目标实体对应的提及;
基于所述目标实体提及和预设数据库,确定所述目标实体提及所对齐的所述目标实体,所述目标实体提及与所述目标实体之间的对应关系为一对多;
其中,所述预设数据库中包括:实体表和别名表,所述实体表中包括多个实体的名称,所述别名表中包括多个实体的别名,所述实体表与所述别名表相对应。
第二方面,根据本公开的内容,提供了一种实体对齐的处理装置,包括:
获取模块,用于获取目标实体提及,所述目标实体提及用于描述目标实体对应的提及;
确定模块,用于基于所述目标实体提及和预设数据库,确定所述目标实体提及所对齐的所述目标实体,所述目标实体提及与所述目标实体之间的对应关系为一对多;
其中,所述预设数据库中包括:实体表和别名表,所述实体表中包括多个实体的名称,所述别名表中包括多个实体的别名,所述实体表与所述别名表相对应。
第三方面,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,处理器执行计算机程序时实现如以上任意一个实施例中实体对齐的处理方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如以上任意一个实施例中实体对齐的处理方法的步骤。
本申请实施例提供的实体对齐的处理方法,获取目标实体提及,目标实体提及用于描述目标实体对应的提及;基于目标实体提及和预设数据库,确定目标实体提及所对齐的目标实体,目标实体提及与目标实体之间的对应关系为一对多;其中,预设数据库中包括:实体表和别名表,实体表中包括多个实体的名称,别名表中包括多个实体的别名,实体表与别名表相对应。如此,通过目标实体提及与预设数据库中的实体表和别名表进行比对,有效确定出与目标实体提及对齐的目标实体,提升实体对齐准确度。
上述说明仅是本申请实施例技术方案的概述,为了能够更清楚了解本申请实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本申请实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为了更清楚地说明本公开的实施例的技术方案,下面将对实施例的附图进行简要说明,应当知道,以下描述的附图仅仅涉及本公开的一些实施例,而非对本公开的限制,其中:
图1是本公开提供的一种实体对齐的处理方法的流程示意图。
图2是本公开提供的一种实体消歧的结构示意图。
图3是本公开提供的一种实体对齐的处理装置的结构示意图。
图4是本公开提供的一种计算机设备的结构示意图。
需要注意的是,附图中的元素是示意性的,没有按比例绘制。
具体实施方式
为了使本公开的实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本公开的实施例的技术方案进行清楚、完整的描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域技术人员在无需创造性劳动的前提下所获得的所有其它实施例,也都属于本公开保护的范围。
除非另外定义,否则在此使用的所有术语(包括技术和科学术语)具有与本公开主题所属领域的技术人员所通常理解的相同含义。进一步将理解的是,诸如在通常使用的词典中定义的那些的术语应解释为具有与说明书上下文和相关技术中它们的含义一致的含义,并且将不以理想化或过于正式的形式来解释,除非在此另外明确定义。如在此所使用的,将两个或更多部分“连接”或“耦接”到一起的陈述应指这些部分直接结合到一起或通过一个或多个中间部件结合。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语“实施例”并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:存在A,同时存在A和B,存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。诸如“第一”和“第二”的术语仅用于将一个部件(或部件的一部分)与另一个部件(或部件的另一部分)区分开。
在本申请的描述中,除非另有说明,“多个”的含义是指两个以上(包括两个),同理,“多组”指的是两组以上(包括两组)。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
图1是本公开实施例提供的一种实体对齐的处理方法的流程示意图。如图1所示,实体对齐的处理方法的具体过程包括:
S110、获取目标实体提及。
其中,目标实体提及可用于描述目标实体对应的提及。目标实体提及可作为目标实体在不同应用场景下文本中的标识描述。如目标实体提及为“苹果”时,在音乐场景中,目标实体提及对应的目标实体为“苹果(歌曲)”,在餐饮场景中,目标实体提及对应的目标实体为“苹果(水果)”,在写作场景中,目标实体提及对应的目标实体为“苹果(小说)”。
一些实施例中,获取目标实体提及,包括:
获取初始实体提及;对初始实体提及进行格式统一操作,得到目标实体提及,格式统一操作包括:错别字纠错、符号纠错以及大小写统一。
其中,初始实体提及用于描述目标实体对应的原始提及。
对初始实体提及进行格式统一操作可包括:对目标实体对应的原始提及进行错别字纠错,对进行错别字纠错的原始提及进行符号纠错,对进行符号纠错的原始提及进行大小写统一,进而得到格式化统一的目标实体提及。
S120、基于目标实体提及和预设数据库,确定目标实体提及所对齐的目标实体。
其中,目标实体提及与目标实体之间的对应关系为一对多。也即是,一个目标实体提及可同时对应多个应用场景下的目标实体。
预设数据库中包括:实体表和别名表。实体表可用于描述名称-实体对应的映射字典,别名表可用于描述别名-实体对应的映射字典。
实体表中包括多个实体的名称,别名表中包括多个实体的别名,实体表与别名表相对应。可以理解的是,实体表中包括了一个实体的名称,在别名表中,也可同样存在此一个实体对应的别名,也就是,实体表中包括的实体与别名表中包括的实体可相同,一个实体在实体表中具有名称,则其在别名表中也可以具有相应的别名。
基于目标实体提及和预设数据库,确定目标实体提及所对齐的目标实体,可包括:基于目标实体提及和实体表确定出目标实体提及所对齐的目标实体,或者,基于标实体提及、实体表和别名表确定出目标实体提及所对齐的目标实体。
本实施例中,通过获取目标实体提及,目标实体提及用于描述目标实体对应的提及;基于目标实体提及和预设数据库,确定目标实体提及所对齐的目标实体,目标实体提及与目标实体之间的对应关系为一对多;其中,预设数据库中包括:实体表和别名表,实体表中包括多个实体的名称,别名表中包括多个实体的别名,实体表与别名表相对应。如此,通过目标实体提及与预设数据库中的实体表和别名表进行比对,有效确定出与目标实体提及对齐的目标实体,提升实体对齐准确度。
一些实施例中,基于目标实体提及和预设数据库,确定目标实体提及所对齐的目标实体,包括:
将目标实体与实体表中包括的所有实体的名称进行匹配;在目标实体提及与实体表中包括的所有实体的名称均不匹配时,将目标实体与别名表中包括的所有实体的别名进行匹配;在目标实体提及与别名表中包括的所有实体的别名均不匹配时,对目标实体提及进行多路召回,得到目标实体提及对应的候选实体列表;基于目标实体提及和目标实体提及对应的候选实体列表,确定目标实体提及所对齐的目标实体。
其中,在目标实体提及与实体表中包括的所有实体的名称进行匹配时,若目标实体提及与实体表中任一实体的名称之间的匹配度超过匹配阈值时,则确定目标实体提及与实体表中包括的任一实体的名称匹配;若目标实体提及与实体表中所有实体的名称之间的匹配度均未超过匹配阈值时,则确定目标实体提及与实体表中包括的所有实体的名称均不匹配。
在目标实体提及与别名表中包括的所有实体的别名进行匹配时,若目标实体提及与别名表中任一实体的别名之间的匹配度超过匹配阈值时,则确定目标实体提及与别名表中包括的任一实体的别名匹配;若目标实体提及与别名表中所有实体的别名之间的匹配度均未超过匹配阈值时,则确定目标实体提及与别名表中包括的所有实体的别名均不匹配。
多路召回可用于确定出与目标实体提及相似度最高的实体。将与目标实体提及相似度最高的实体作为目标实体提及对应的候选实体,进而能够基于目标实体提及和目标实体提及对应的候选实体所组成的候选实体列表,精准确定出目标实体提及所对齐的目标实体。
在对目标实体提及进行多路召回时,可采用向量相似召回以及前缀树召回方式实现。
一些实施例中,对目标实体提及进行多路召回,得到目标实体提及对应的候选实体列表,包括:
对目标实体提及进行向量转换,得到目标提及向量,并基于目标提及向量与预设实体向量的相似度比对,确定目标实体提及对应的第一实体列表;基于预设实体向量中以目标提及向量为标识前缀的实体向量,确定第二实体列表;对第一实体列表和第二实体列表进行去重,得到目标实体提及对应的候选实体列表。
其中,向量相似召回可如对目标实体提及进行向量转换,得到目标提及向量,并基于目标提及向量与预设实体向量的相似度比对,确定目标实体提及对应的第一实体列表。前缀树召回可如基于预设实体向量中以目标提及向量为标识前缀的实体向量,确定第二实体列表。
在对目标实体提及进行向量转换,得到目标提及向量时,可通过文本转换向量模型对目标实体提及进行向量转换,得到目标提及向量。文本转换向量模型可如text2vec模型或基于BERT(Bidirectional Encoder Representation from Transformers,预训练的语言表征模型)的文本向量提取模型等。
预设实体向量为本地向量库中存储的实体对应的向量。第一实体列表中包括多个候选实体对应的向量,第二实体列表中包括多个候选实体对应的向量,候选实体列表可用于描述多个候选实体对应的向量。
可通过对第一实体列表和第二实体列表进行去重,删除第一实体列表和第二实体列表中重复的候选实体的向量,得到目标实体提及对应的候选实体列表,有效提升确定出的候选实体列表的数据有效性,降低候选实体列表中的数据冗余。
一些实施例中,基于目标实体提及和目标实体提及对应的候选实体列表,确定目标实体提及所对齐的目标实体,包括:
基于目标实体提及和目标实体提及对应的候选实体列表,构建第一请求文本;将第一请求文本输入大语言模型中,根据大语言模型的输出确定目标实体提及对应的第一实体排序表;确定至少两个候选实体中最高相似值对应的候选实体,为目标实体提及所对齐的目标实体。
其中,可采用模版(Prompt)技术,基于目标实体提及和目标实体提及对应的候选实体列表设计合理的第一请求文本,请求文本中包括目标实体提及以及目标实体提及对应的候选实体列表,第一请求文本可作为大语言模型的输入,目标实体提及对应的候选实体列表中的候选实体对应有第一上下文信息,以使得大语言模型通过第一请求文本确定出目标实体提及对应的第一实体排序表。
第一上下文信息可通过其对应的候选实体的实体简介获取得出,若目标实体提及为知识图谱中的任一节点,则目标实体提及对应的候选实体列表中的候选实体的第一上下文信息,可为任一节点对应的相关/有用属性信息/边关系拼接而成的文本,边关系可为任一节点相邻/相关的实体间关系。
第一实体排序表中包括至少两个候选实体,每个候选实体对应有相似值,相似值用于描述候选实体与目标实体提及之间的相似程度。
从而,从确定出的第一实体排序表中,将至少两个候选实体中最高相似值对应的候选实体,确定为目标实体提及所对齐的目标实体,以此来有效表示出与目标实体提及对应的最佳对齐实体。
一些实施例中,目标实体提及对应有第二上下文信息。第二上下文信息可依据目标实体提及的获取源中得到,如获取源为一段文字时,第二上下文信息为这一段文字种目标实体提及对应的前述相关部分以及后述相关部分/前述和后述的总结内容。
将目标实体与实体表中包括的所有实体的名称进行匹配之后,还包括:
在目标实体提及与实体表中包括的至少两个实体的名称匹配时,基于目标实体提及和至少两个实体构建第二请求文本;基于第二上下文信息和第三上下文信息的对应关系、第二请求文本以及大语言模型,确定目标实体提及所对齐的目标实体。
其中,至少两个实体分别对应有第三上下文信息,第二请求文本作为大语言模型的输入。第三上下文信息可为其对应的实体的属性信息,如,在一个实体为A公司时,其对应的第三上下文信息可为A公司的创始人/法人/负责人/代表人;在一个实体为B歌曲时,其对应的第三上下文信息可为B歌曲的主唱姓名/艺名。
从而,能够通过第二上下文信息和第三上下文信息的对应关系、第二请求文本以及大语言模型,有效确定出目标实体提及所对齐的目标实体。
一些实施例中,基于第二上下文信息和第三上下文信息的对应关系、第二请求文本以及大语言模型,确定目标实体提及所对齐的目标实体,包括:
在目标实体提及对应的第二上下文信息与至少两个实体中任一实体对应的第三上下文信息不匹配时,从第二请求文本中删除任一实体,得到更新后的第二请求文本;将更新后的第二请求文本输入大语言模型中,根据大语言模型的输出确定目标实体提及对应的第二实体排序表;确定至少两个候选实体中最高相似值对应的候选实体,为目标实体提及所对齐的目标实体。
其中,第二实体排序表中包括至少两个候选实体,每个候选实体对应有相似值,相似值用于描述候选实体与目标实体提及之间的相似程度。
在对第二请求文本进行更新时,可通过目标实体提及对应的第二上下文信息与任一实体对应的唯一标识的第三上下文信息进行匹配,若两者不匹配时,则确定目标实体提及与任一实体所属应用场景不同,两者不对齐,以此对不对齐的提及与实体进行预先消歧,进一步提升实体对齐准确度。
如图2所示,目标实体提及为“苹果”,至少两个实体包括:“苹果(水果)”、“苹果(电影)”和“苹果(歌曲)”,目标实体提及对应的第二上下文信息为“主唱姓名”,“苹果(水果)”对应的第三上下文信息为“店负责人”,“苹果(电影)”对应的第三上下文信息为“导演”,“苹果(歌曲)”对应的第三上下文信息为“主唱/伴奏人员”,则可对上述“苹果(水果)”和“苹果(电影)”对应的实体进行消歧,得到目标实体提及所对齐的目标实体为“苹果(歌曲)”。
一些实施例中,目标实体提及对应有第二上下文信息。第二上下文信息可依据目标实体提及的获取源中得到,如获取源为一段文字时,第二上下文信息为这一段文字种目标实体提及对应的前述相关部分以及后述相关部分/前述和后述的总结内容。
将目标实体与别名表中包括的所有实体的别名进行匹配之后,还包括:
在目标实体提及与别名表中包括的至少两个实体的别名匹配时,基于目标实体提及和至少两个实体,构建第三请求文本;基于大语言模型、第三请求文本以及第二上下文信息和第三上下文信息的对应关系,确定目标实体提及所对齐的目标实体。
其中,至少两个实体分别对应有第三上下文信息,第三请求文本作为大语言模型的输入。
基于大语言模型、第三请求文本以及第二上下文信息和第三上下文信息的对应关系,确定目标实体提及所对齐的目标实体,可包括:
在目标实体提及对应的第二上下文信息与至少两个实体中任一实体对应的第三上下文信息不匹配时,从第二请求文本中删除任一实体,得到更新后的第二请求文本;将更新后的第二请求文本输入大语言模型中,根据大语言模型的输出确定目标实体提及对应的第三实体排序表,第三实体排序表中包括至少两个候选实体,每个候选实体对应有相似值,相似值用于描述候选实体与目标实体提及之间的相似程度;确定至少两个候选实体中最高相似值对应的候选实体,为目标实体提及所对齐的目标实体。从而,有效实现目标实体提与目标实体的对齐。
一些实施例中,将目标实体与实体表中包括的所有实体的名称进行匹配之后,还包括:在目标实体提及与实体表中包括的一个实体的名称唯一匹配时,确定实体表中包括的一个实体为目标实体提及所对齐的目标实体。
将目标实体与别名表中包括的所有实体的别名进行匹配之后,还包括:
在目标实体提及与别名表中包括的一个实体的别名唯一匹配时,确定别名表中包括的一个实体为目标实体提及所对齐的目标实体。
其中,在目标实体提及与实体表中包括的一个实体的名称唯一匹配时,能够表明目标实体提及为实体表中这一个实体所对齐的提及。在目标实体提及与别名表中包括的一个实体的别名唯一匹配时,能够表明目标实体提及为别名表中这一个实体所对齐的提及。
从而,通过目标实体提及与实体表中包括的一个实体的名称的唯一匹配,目标实体提及与别名表中包括的一个实体的别名唯一匹配,准确识别出目标实体提及所对齐的最佳目标实体。
图3为本实施例提供的一种实体对齐的处理装置的结构示意图。实体对齐的处理装置可以包括:获取模块310和确定模块320。其中:
获取模块310,用于获取目标实体提及,所述目标实体提及用于描述目标实体对应的提及。
确定模块320,用于基于所述目标实体提及和预设数据库,确定所述目标实体提及所对齐的所述目标实体,所述目标实体提及与所述目标实体之间的对应关系为一对多。
其中,所述预设数据库中包括:实体表和别名表,所述实体表中包括多个实体的名称,所述别名表中包括多个实体的别名,所述实体表与所述别名表相对应。
在一些实施例中,可选的,确定模块320,包括:匹配单元、第一确定单元和第二确定单元。
匹配单元,用于将所述目标实体与所述实体表中包括的所有实体的名称进行匹配;在所述目标实体提及与所述实体表中包括的所有实体的名称均不匹配时,将所述目标实体与所述别名表中包括的所有实体的别名进行匹配。
第一确定单元,用于在所述目标实体提及与所述别名表中包括的所有实体的别名均不匹配时,对所述目标实体提及进行多路召回,得到所述目标实体提及对应的候选实体列表,所述多路召回用于确定出与所述目标实体提及相似度最高的实体。
第二确定单元,用于基于所述目标实体提及和所述目标实体提及对应的所述候选实体列表,确定所述目标实体提及所对齐的所述目标实体。
在一些实施例中,可选的,第二确定单元,具体用于:
基于所述目标实体提及和所述目标实体提及对应的所述候选实体列表,构建第一请求文本,所述第一请求文本作为大语言模型的输入,所述目标实体提及对应的所述候选实体列表中的候选实体对应有第一上下文信息,以使得所述大语言模型通过所述第一请求文本确定出所述目标实体提及对应的第一实体排序表;将所述第一请求文本输入所述大语言模型中,根据所述大语言模型的输出确定所述目标实体提及对应的所述第一实体排序表,所述第一实体排序表中包括至少两个候选实体,每个所述候选实体对应有相似值,所述相似值用于描述所述候选实体与所述目标实体提及之间的相似程度;确定至少两个所述候选实体中最高相似值对应的候选实体,为所述目标实体提及所对齐的所述目标实体。
在一些实施例中,可选的,所述目标实体提及对应有第二上下文信息。
还包括:构建模块。
构建模块,用于在所述目标实体提及与所述实体表中包括的至少两个实体的名称匹配时,基于所述目标实体提及和至少两个所述实体构建第二请求文本,至少两个所述实体分别对应有第三上下文信息,所述第二请求文本作为大语言模型的输入。
确定模块320,还用于基于所述第二上下文信息和所述第三上下文信息的对应关系、所述第二请求文本以及所述大语言模型,确定所述目标实体提及所对齐的所述目标实体。
在一些实施例中,可选的,确定模块320,具体用于:
在所述目标实体提及对应的所述第二上下文信息与至少两个所述实体中任一实体对应的所述第三上下文信息不匹配时,从所述第二请求文本中删除所述任一实体,得到更新后的第二请求文本;将所述更新后的第二请求文本输入所述大语言模型中,根据所述大语言模型的输出确定所述目标实体提及对应的第二实体排序表,所述第二实体排序表中包括至少两个候选实体,每个所述候选实体对应有相似值,所述相似值用于描述所述候选实体与所述目标实体提及之间的相似程度;确定至少两个所述候选实体中最高相似值对应的候选实体,为所述目标实体提及所对齐的所述目标实体。
在一些实施例中,可选的,所述目标实体提及对应有第二上下文信息。
构建模块,还用于在所述目标实体提及与所述别名表中包括的至少两个实体的别名匹配时,基于所述目标实体提及和至少两个所述实体,构建第三请求文本,至少两个所述实体分别对应有第三上下文信息,所述第三请求文本作为大语言模型的输入。
确定模块320,还用于基于所述大语言模型、所述第三请求文本以及所述第二上下文信息和所述第三上下文信息的对应关系,确定所述目标实体提及所对齐的所述目标实体。
在一些实施例中,可选的,确定模块320,还用于在所述目标实体提及与所述实体表中包括的一个实体的名称唯一匹配时,确定所述实体表中包括的一个实体为所述目标实体提及所对齐的所述目标实体;在所述目标实体提及与所述别名表中包括的一个实体的别名唯一匹配时,确定所述别名表中包括的一个实体为所述目标实体提及所对齐的所述目标实体。
在一些实施例中,可选的,第一确定单元,具体用于:
对所述目标实体提及进行向量转换,得到目标提及向量,并基于所述目标提及向量与预设实体向量的相似度比对,确定所述目标实体提及对应的第一实体列表;基于所述预设实体向量中以所述目标提及向量为标识前缀的实体向量,确定第二实体列表;对所述第一实体列表和所述第二实体列表进行去重,得到所述目标实体提及对应的所述候选实体列表。
在一些实施例中,可选的,获取模块310,具体用于:
获取初始实体提及,所述初始实体提及用于描述所述目标实体对应的原始提及;对所述初始实体提及进行格式统一操作,得到所述目标实体提及,所述格式统一操作包括:错别字纠错、符号纠错以及大小写统一。
本公开提供的实体对齐的处理装置,可执行上述方法实施例,其具体实现原理和技术效果,可参见上述方法实施例,本公开此处不再赘述。
本申请实施例还提供了一种计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
计算机设备包括通过系统总线相互通信连接存储器410和处理器420。需要指出的是,图中仅示出了具有组件410-420的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程门阵列(Field-ProgrammableGate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
存储器410至少包括一种类型的可读存储介质,可读存储介质包括非易失性存储器(non-volatile memory)或易失性存储器,例如,闪存(flash memory)、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(random accessmemory,RAM)、只读存储器(read-only memory,ROM)、可擦写可编程只读存储器(erasableprogrammableread-only memory,EPROM)、电可擦写可编程只读存储器(electrically erasableprogrammable read-only memory,EEPROM)、可编程只读存储器(programmable read-onlymemory,PROM)、磁性存储器、磁盘、光盘等,RAM可以包括静态RAM或动态RAM。在一些实施例中,存储器410可以是计算机设备的内部存储单元,例如,该计算机设备的硬盘或内存。在另一些实施例中,存储器410也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡或闪存卡(Flash Card)等。当然,存储器410还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器410通常用于存储安装于计算机设备的操作系统和各类应用软件,例如上述方法的程序代码等。此外,存储器410还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器420通常用于执行计算机设备的总体操作。本实施例中,存储器410用于存储程序代码或指令,程序代码包括计算机操作指令,处理器420用于执行存储器410存储的程序代码或指令或者处理数据,例如运行上述方法的程序代码。
本文中,总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,EISA)总线等。该总线系统可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本申请的另一实施例还提供一种计算机可读介质,计算机可读介质可以是计算机可读信号介质或者计算机可读介质。计算机中的处理器读取存储在计算机可读介质中的计算机可读程序代码,使得处理器能够执行在上述方法中每个步骤、或各步骤的组合中规定的功能动作;生成实施在框图的每一块、或各块的组合中规定的功能动作的装置。
计算机可读介质包含但不限于电子、磁性、光学、电磁、红外的存储器或半导体系统、设备或者装置,或者前述的任意适当组合,存储器用于存储程序代码或指令,程序代码包括计算机操作指令,处理器用于执行存储器存储的上述方法的程序代码或指令。
存储器和处理器的定义,可以参考前述计算机设备实施例的描述,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
在本申请各个实施例中的各功能单元或模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。本申请描述的“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了装置若干的单元权利要求中,这些装置中的若干个单元可以是通过同一个硬件项来具体体现。第一、第二、以及第三等的使用不表示任何顺序,可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (8)
1.一种实体对齐的处理方法,其特征在于,包括:
获取目标实体提及,所述目标实体提及用于描述目标实体对应的提及;
基于所述目标实体提及和预设数据库,确定所述目标实体提及所对齐的所述目标实体,所述目标实体提及与所述目标实体之间的对应关系为一对多;
其中,所述预设数据库中包括:实体表和别名表,所述实体表中包括多个实体的名称,所述别名表中包括多个实体的别名,所述实体表与所述别名表相对应;
所述基于所述目标实体提及和预设数据库,确定所述目标实体提及所对齐的所述目标实体,包括:将所述目标实体与所述实体表中包括的所有实体的名称进行匹配;在所述目标实体提及与所述实体表中包括的所有实体的名称均不匹配时,将所述目标实体与所述别名表中包括的所有实体的别名进行匹配;在所述目标实体提及与所述别名表中包括的所有实体的别名均不匹配时,对所述目标实体提及进行多路召回,得到所述目标实体提及对应的候选实体列表,所述多路召回用于确定出与所述目标实体提及相似度最高的实体;基于所述目标实体提及和所述目标实体提及对应的所述候选实体列表,确定所述目标实体提及所对齐的所述目标实体;
所述对所述目标实体提及进行多路召回,得到所述目标实体提及对应的候选实体列表,包括:对所述目标实体提及进行向量转换,得到目标提及向量,并基于所述目标提及向量与预设实体向量的相似度比对,确定所述目标实体提及对应的第一实体列表;基于所述预设实体向量中以所述目标提及向量为标识前缀的实体向量,确定第二实体列表;对所述第一实体列表和所述第二实体列表进行去重,得到所述目标实体提及对应的所述候选实体列表。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标实体提及和所述目标实体提及对应的所述候选实体列表,确定所述目标实体提及所对齐的所述目标实体,包括:
基于所述目标实体提及和所述目标实体提及对应的所述候选实体列表,构建第一请求文本,所述第一请求文本作为大语言模型的输入,所述目标实体提及对应的所述候选实体列表中的候选实体对应有第一上下文信息,以使得所述大语言模型通过所述第一请求文本确定出所述目标实体提及对应的第一实体排序表;
将所述第一请求文本输入所述大语言模型中,根据所述大语言模型的输出确定所述目标实体提及对应的所述第一实体排序表,所述第一实体排序表中包括至少两个候选实体,每个所述候选实体对应有相似值,所述相似值用于描述所述候选实体与所述目标实体提及之间的相似程度;
确定至少两个所述候选实体中最高相似值对应的候选实体,为所述目标实体提及所对齐的所述目标实体。
3.根据权利要求1所述的方法,其特征在于,所述目标实体提及对应有第二上下文信息;
所述将所述目标实体与所述实体表中包括的所有实体的名称进行匹配之后,还包括:
在所述目标实体提及与所述实体表中包括的至少两个实体的名称匹配时,基于所述目标实体提及和至少两个所述实体构建第二请求文本,至少两个所述实体分别对应有第三上下文信息,所述第二请求文本作为大语言模型的输入;
基于所述第二上下文信息和所述第三上下文信息的对应关系、所述第二请求文本以及所述大语言模型,确定所述目标实体提及所对齐的所述目标实体。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第二上下文信息和所述第三上下文信息的对应关系、所述第二请求文本以及所述大语言模型,确定所述目标实体提及所对齐的所述目标实体,包括:
在所述目标实体提及对应的所述第二上下文信息与至少两个所述实体中任一实体对应的所述第三上下文信息不匹配时,从所述第二请求文本中删除所述任一实体,得到更新后的第二请求文本;
将所述更新后的第二请求文本输入所述大语言模型中,根据所述大语言模型的输出确定所述目标实体提及对应的第二实体排序表,所述第二实体排序表中包括至少两个候选实体,每个所述候选实体对应有相似值,所述相似值用于描述所述候选实体与所述目标实体提及之间的相似程度;
确定至少两个所述候选实体中最高相似值对应的候选实体,为所述目标实体提及所对齐的所述目标实体。
5.根据权利要求1所述的方法,其特征在于,所述目标实体提及对应有第二上下文信息;
所述将所述目标实体与所述别名表中包括的所有实体的别名进行匹配之后,还包括:
在所述目标实体提及与所述别名表中包括的至少两个实体的别名匹配时,基于所述目标实体提及和至少两个所述实体,构建第三请求文本,至少两个所述实体分别对应有第三上下文信息,所述第三请求文本作为大语言模型的输入;
基于所述大语言模型、所述第三请求文本以及所述第二上下文信息和所述第三上下文信息的对应关系,确定所述目标实体提及所对齐的所述目标实体。
6.根据权利要求1所述的方法,其特征在于,所述将所述目标实体与所述实体表中包括的所有实体的名称进行匹配之后,还包括:
在所述目标实体提及与所述实体表中包括的一个实体的名称唯一匹配时,确定所述实体表中包括的一个实体为所述目标实体提及所对齐的所述目标实体;
所述将所述目标实体与所述别名表中包括的所有实体的别名进行匹配之后,还包括:
在所述目标实体提及与所述别名表中包括的一个实体的别名唯一匹配时,确定所述别名表中包括的一个实体为所述目标实体提及所对齐的所述目标实体。
7.根据权利要求1所述的方法,其特征在于,所述获取目标实体提及,包括:
获取初始实体提及,所述初始实体提及用于描述所述目标实体对应的原始提及;
对所述初始实体提及进行格式统一操作,得到所述目标实体提及,所述格式统一操作包括:错别字纠错、符号纠错以及大小写统一。
8.一种实体对齐的处理装置,其特征在于,包括:
获取模块,用于获取目标实体提及,所述目标实体提及用于描述目标实体对应的提及;
确定模块,用于基于所述目标实体提及和预设数据库,确定所述目标实体提及所对齐的所述目标实体,所述目标实体提及与所述目标实体之间的对应关系为一对多;
其中,所述预设数据库中包括:实体表和别名表,所述实体表中包括多个实体的名称,所述别名表中包括多个实体的别名,所述实体表与所述别名表相对应;
所述确定模块,包括:匹配单元、第一确定单元和第二确定单元;匹配单元,用于将所述目标实体与所述实体表中包括的所有实体的名称进行匹配;在所述目标实体提及与所述实体表中包括的所有实体的名称均不匹配时,将所述目标实体与所述别名表中包括的所有实体的别名进行匹配;第一确定单元,用于在所述目标实体提及与所述别名表中包括的所有实体的别名均不匹配时,对所述目标实体提及进行多路召回,得到所述目标实体提及对应的候选实体列表,所述多路召回用于确定出与所述目标实体提及相似度最高的实体;二确定单元,用于基于所述目标实体提及和所述目标实体提及对应的所述候选实体列表,确定所述目标实体提及所对齐的所述目标实体;
所述第一确定单元,具体用于:对所述目标实体提及进行向量转换,得到目标提及向量,并基于所述目标提及向量与预设实体向量的相似度比对,确定所述目标实体提及对应的第一实体列表;基于所述预设实体向量中以所述目标提及向量为标识前缀的实体向量,确定第二实体列表;对所述第一实体列表和所述第二实体列表进行去重,得到所述目标实体提及对应的所述候选实体列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311263034.5A CN116992883B (zh) | 2023-09-27 | 2023-09-27 | 实体对齐的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311263034.5A CN116992883B (zh) | 2023-09-27 | 2023-09-27 | 实体对齐的处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116992883A CN116992883A (zh) | 2023-11-03 |
CN116992883B true CN116992883B (zh) | 2023-12-05 |
Family
ID=88525254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311263034.5A Active CN116992883B (zh) | 2023-09-27 | 2023-09-27 | 实体对齐的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992883B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989808A (zh) * | 2021-03-26 | 2021-06-18 | 清华大学 | 实体链接方法及装置 |
CN113657100A (zh) * | 2021-07-20 | 2021-11-16 | 北京百度网讯科技有限公司 | 实体识别方法、装置、电子设备及存储介质 |
CN114297449A (zh) * | 2021-12-29 | 2022-04-08 | 广东明创软件科技有限公司 | 内容查找方法、装置、电子设备及计算机可读介质及产品 |
-
2023
- 2023-09-27 CN CN202311263034.5A patent/CN116992883B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112989808A (zh) * | 2021-03-26 | 2021-06-18 | 清华大学 | 实体链接方法及装置 |
CN113657100A (zh) * | 2021-07-20 | 2021-11-16 | 北京百度网讯科技有限公司 | 实体识别方法、装置、电子设备及存储介质 |
CN114297449A (zh) * | 2021-12-29 | 2022-04-08 | 广东明创软件科技有限公司 | 内容查找方法、装置、电子设备及计算机可读介质及产品 |
Non-Patent Citations (1)
Title |
---|
基于CNN和深层语义匹配的中文实体链接模型;吴晓崇;段跃兴;张月琴;闫雄;;计算机工程与科学(08);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116992883A (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6643555B2 (ja) | 曖昧なエンティティワードに基づくテキスト処理方法及び装置 | |
US20210264109A1 (en) | Stylistic Text Rewriting for a Target Author | |
CN111581976B (zh) | 医学术语的标准化方法、装置、计算机设备及存储介质 | |
CN111177184A (zh) | 基于自然语言的结构化查询语言转换方法、及其相关设备 | |
CN109241286B (zh) | 用于生成文本的方法和装置 | |
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
CN110795541B (zh) | 文本查询方法、装置、电子设备及计算机可读存储介质 | |
JP7052145B2 (ja) | 大量な文書コーパスにおけるトークン・マッチング | |
CN111061740B (zh) | 一种数据同步方法、设备和存储介质 | |
WO2021249311A1 (zh) | 命名实体的识别方法、识别设备及电子设备 | |
CN111506608A (zh) | 一种结构化文本的比较方法和装置 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN113408660B (zh) | 图书聚类方法、装置、设备和存储介质 | |
CN113177407A (zh) | 数据字典的构建方法、装置、计算机设备及存储介质 | |
CN116992883B (zh) | 实体对齐的处理方法和装置 | |
CN111126056A (zh) | 一种识别触发词的方法及装置 | |
CN115858776A (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN111708819B (zh) | 用于信息处理的方法、装置、电子设备和存储介质 | |
CN114417850A (zh) | 信息抽取方法、装置、存储介质及电子设备 | |
CN110795915A (zh) | xml文件批量修改方法、系统、设备和计算机可读存储介质 | |
CN114416847A (zh) | 一种数据转换的方法、装置、服务器及存储介质 | |
CN111625579B (zh) | 一种信息处理方法、装置及系统 | |
CN114528824A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN111949765A (zh) | 基于语义的相似文本搜索方法、系统、设备和存储介质 | |
CN115774793B (zh) | 机构时效性的检测方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |