CN115906797A - 文本实体对齐方法、装置、设备及介质 - Google Patents

文本实体对齐方法、装置、设备及介质 Download PDF

Info

Publication number
CN115906797A
CN115906797A CN202211449173.2A CN202211449173A CN115906797A CN 115906797 A CN115906797 A CN 115906797A CN 202211449173 A CN202211449173 A CN 202211449173A CN 115906797 A CN115906797 A CN 115906797A
Authority
CN
China
Prior art keywords
entity
aligned
entities
standard
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211449173.2A
Other languages
English (en)
Inventor
牛寒松
卢阳光
刘利明
宋保柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sany Heavy Machinery Ltd
Original Assignee
Sany Heavy Machinery Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sany Heavy Machinery Ltd filed Critical Sany Heavy Machinery Ltd
Priority to CN202211449173.2A priority Critical patent/CN115906797A/zh
Publication of CN115906797A publication Critical patent/CN115906797A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及计算机技术领域,提供一种文本实体对齐方法、装置、设备及介质,方法包括:获取待对齐实体集合和标准实体集合,其中,待对齐实体集合包括至少一个待对齐实体,标准实体集合包括至少一个标准实体;按照预设输入方式,将每个待对齐实体和每个标准实体输入至少两个表示学习模型,得到每个表示学习模型的输出结果,其中,至少两个表示学习模型为不同的预训练模型;基于输出结果,从待对齐实体集合中提取至少两个候选实体;基于候选实体中每个待对齐实体的出现次数,从候选实体中确定目标实体。本发明用以解决现有技术中在进行实体对齐时产生的一系列的缺陷,实现快速、精准的完成实体对齐。

Description

文本实体对齐方法、装置、设备及介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本实体对齐方法、装置、设备及介质。
背景技术
实体对齐是指在自然语言处理中使用命名实体识别(Named EntityRecognition,简称NER)技术提取出相应的实体以后,针对提取出的不同语义表述的相同实体信息进行映射成标准统一表述的技术手段。
对于文本实体,现有技术在进行实体对齐时,采集大量的样本数据,预先训练模型,基于预训练的模型学习实体的语义表示,以和标准实体进行对齐。其中,标准实体为对文本实体进行标准化处理后得到的实体。
由于现有技术的模型训练,采用大量的样本数据,无论是有监督训练还是无监督训练均带来了一系列的问题,例如,训练时间长、训练效率低或模型预测准确率低等。另外,采用单一模型进行实体对齐的方式,误差较大。
发明内容
本发明提供一种文本实体对齐方法、装置、设备及介质,用以解决现有技术中在进行实体对齐时产生的一系列的缺陷,实现快速、精准的完成实体对齐。
本发明提供一种文本实体对齐方法,包括:
获取待对齐实体集合和标准实体集合,其中,所述待对齐实体集合包括至少一个待对齐实体,所述标准实体集合包括至少一个标准实体;
按照预设输入方式,将每个所述待对齐实体和每个所述标准实体输入至少两个表示学习模型,得到每个所述表示学习模型的输出结果,其中,所述至少两个表示学习模型为不同的预训练模型;
基于所述输出结果,从所述待对齐实体集合中提取至少两个候选实体;
基于所述候选实体中每个所述待对齐实体的出现次数,从所述候选实体中确定目标实体。
根据本发明提供的一种文本实体对齐方法,所述至少两个表示学习模型包括:至少两个语义表征模型;
所述按照预设输入方式,将每个所述待对齐实体和每个所述标准实体输入至少两个表示学习模型,得到每个所述表示学习模型的输出结果,包括:
将每个所述待对齐实体分别输入所述至少两个语义表征模型,得到每个所述语义表征模型输出的语义表征;
将每个所述标准实体分别输入所述至少两个语义表征模型,得到每个所述语义表征模型输出的表征语义表征。
根据本发明提供的一种文本实体对齐方法,所述至少两个语义表征模型包括:第一语义表征模型和第二语义表征模型;
所述将每个所述待对齐实体分别输入所述至少两个语义表征模型,得到每个所述语义表征模型输出的语义表征,包括:
将每个所述待对齐实体输入所述第一语义表征模型,得到所述第一语义表征模型输出的第一语义表征,以及将每个所述待对齐实体输入所述第二语义表征模型,得到所述第二语义表征模型输出的第二语义表征;
所述将每个所述标准实体分别输入所述至少两个语义表征模型,得到每个所述语义表征模型输出的表征语义表征,包括:
将每个所述标准实体输入所述第一语义表征模型,得到所述第一语义表征模型输出的第一标准语义表征,以及将每个所述标准实体输入所述第二语义表征模型,得到所述第二语义表征模型输出的第二标准语义表征。
根据本发明提供的一种文本实体对齐方法,所述至少两个表示学习模型还包括:至少一个相似度计算模型;
所述按照预设输入方式,将每个所述待对齐实体和每个所述标准实体输入至少两个表示学习模型,得到每个所述表示学习模型的输出结果,包括:
将每个所述待对齐实体和每个所述标准实体同时输入所述相似度计算模型,得到所述相似度计算模型输出的所述待对齐实体与所述标准实体之间的第一相似度。
根据本发明提供的一种文本实体对齐方法,所述基于所述输出结果,从所述待对齐实体集合中提取至少两个候选实体,包括:
确定所述第一语义表征与所述第一标准语义表征的第二相似度,以及所述第二语义表征与所述第二标准语义表征的第三相似度;
基于所述第一相似度,从所述待对齐实体集合中提取第一数量的第一候选子实体;
基于所述第二相似度,从所述待对齐实体集合中提取第二数量的第二候选子实体;
基于所述第三相似度,从所述待对齐实体集合中提取第三数量的第三候选子实体;
将所述第一获选子实体、所述第二候选子实体和所述第三候选子实体确定为所述候选实体。
根据本发明提供的一种文本实体对齐方法,所述基于所述候选实体中每个所述待对齐实体的出现次数,从所述候选实体中确定目标实体,包括:
确定所述出现次数中最大出现次数的个数;
在确定所述最大出现次数的个数等于预设值时,将所述最大出现次数对应的所述待对齐实体确定为所述目标实体;
在确定所述最大出现次数的个数大于所述预设值时,从每个所述最大出现次数对应的所述待对齐实体中确定所述目标实体。
根据本发明提供的一种文本实体对齐方法,所述获取待对齐实体集合之前,还包括:
获取初始实体集合;
基于预先设置的过滤策略,从所述初始实体集合中滤除异常实体,得到所述待对齐实体集合。
本发明还提供一种文本实体对齐装置,包括:
获取模块,用于获取待对齐实体集合和标准实体集合,其中,所述待对齐实体集合包括至少一个待对齐实体,所述标准实体集合包括至少一个标准实体;
模型输出模块,用于按照预设输入方式,将每个所述待对齐实体和每个所述标准实体输入至少两个表示学习模型,得到每个所述表示学习模型的输出结果,其中,所述至少两个表示学习模型为不同的预训练模型;
提取模块,用于基于所述输出结果,从所述待对齐实体集合中提取至少两个候选实体;
确定模块,用于基于所述候选实体中每个所述待对齐实体的出现次数,从所述候选实体中确定目标实体。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的文本实体对齐方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的文本实体对齐方法。
本发明提供的文本实体对齐方法、装置、设备及介质,通过获取待对齐实体集合和标准实体集合,其中,待对齐实体集合包括至少一个待对齐实体,标准实体集合包括至少一个标准实体;按照预设输入方式,将每个待对齐实体和每个标准实体输入至少两个表示学习模型,得到每个表示学习模型的输出结果,其中,至少两个表示学习模型为不同的预训练模型,可见,本发明的表示学习模型为预训练模型,无需再通过大量样本数据进行模型训练,节省了训练时长,从整体上提高了实体对齐效率;进而,基于输出结果,从待对齐实体集合中提取至少两个候选实体,可见,本发明采用多个模型的输出结果进行实体对齐,避免了现有技术中采用单一模型进行实体对齐时出现的误差较大的问题,或者由于模型预测准确率低导致实体对齐效果差的问题;最后,基于候选实体中每个待对齐实体的出现次数,从候选实体中确定目标实体,可见,本发明实现了快速、精准的完成了实体对齐。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的文本实体对齐方法的流程示意图;
图2是本发明提供的文本实体对齐装置的结构示意图;
图3是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1描述本发明的文本实体对齐方法。
为了能够清楚的说明本发明,下面对机器学习进行具体描述:
机器学习方法一般包括有监督学习和无监督学习。有监督学习一般指需要人为指导机器学习建模即数据标注,对数据标签整理、标注、完善以及引入相关专家经验,为模型提供训练样本;无监督学习一般指人工不需要对数据进行标注,算法通过分析数据本身的分布情况和数据特性进行建模。
有监督学习因为人工工作较多而更加准确,无监督学习因为人工工作较少而成本较低。对于有监督学习,由于模型架构越来越复杂,数据种类越来越多,需要标注的数据也越来越多,造成人工成本大幅提升,无监督学习凭借其对人工的需求较低而逐渐发展壮大,具有越来越广的应用。
由于无监督学习本身没有数据标注环节,所持有的输入信息较少,所以其表现一直比有监督学习较差。在技术发展的过程中,业内开始通过一些辅助手段来对其进行优化提升,在不标注数据(或不大量标注数据)的基础上用一些较小代价的技术来弥补无监督学习的不足。
近几年开始流行的表示学习(representation learning)主要是一种自监督学习(self-supervised learning),是使用有监督学习的学习任务来执行无监督学习的学习任务,兼有有监督学习的高准确和无监督学习的不需要人工标注的优点。
本发明基于该表示学习的思想进行实体对齐的处理。
本发明实施例提供了一种文本实体对齐方法,该方法可以应用在智能终端,例如,手机、电脑、平板等,也可以应用在服务器中。下面,以该方法应用在服务器为例进行说明,但需要说明的是仅为举例说明,并不用于对本发明的保护范围进行限定。本发明实施例中的一些其他说明,也是举例说明,并不用于对本发明的保护范围进行限定,之后便不再一一说明。如图1所示,该方法包括:
步骤101,获取待对齐实体集合和标准实体集合。
其中,待对齐实体集合包括至少一个待对齐实体,标准实体集合包括至少一个标准实体。
其中,待对齐实体为待对齐文本实体,标准实体为标准文本实体。
具体的,标准实体集合为预先创建的,用户根据自身的业务需求和实际需要,将标准文本实体组合起来得到标准实体集合。
一个具体实施例中,获得待对齐实体集合的具体实现为:获取初始实体集合;基于预先设置的过滤策略,从初始实体集合中滤除异常实体,得到待对齐实体集合。
其中,过滤策略包括:文本中存在乱码的过滤,文本长度不属于预设长度范围内的过滤,与当前业务场景不相符的过滤等。其中,不符合过滤策略的实体均为异常实体。
例如,滤除文本长度为1以及文本长度大于9的实体,滤除含有乱码的实体,滤除含有预先规定的不合法字符的实体,等。
本发明预先对初始实体集合进行过滤操作,以滤除其中的异常实体,保证待对齐实体集合中的实体均为符合过滤策略的正常实体,为后期的实体对齐提供了有效的数据基础。
步骤102,按照预设输入方式,将每个待对齐实体和每个标准实体输入至少两个表示学习模型,得到每个表示学习模型的输出结果。
其中,至少两个表示学习模型为不同的预训练模型。
其中,预训练模型为已经基于大量的公共语料进行训练得到的模型。本发明仅需要根据自身的业务需求和实际需要,对预训练模型进行微调,便可以快速的得到表示学习模型。
其中,表示学习模型包括:BERT模型、word2vec模型、simBERT模型、ERNIE模型、GPT模型、GLOVE模型等。
其中,BERT模型的全称为Bidirectional Encoder Representations fromTransformer,基于注意力机制(Transformer)的双向编码器表示;word2vec模型是用来产生词向量的相关模型;simBERT模型具备相似本文的生成能力和相似文本的检验能力;ERNIE模型用于潜在学习知识的依赖以及语义依赖;GPT模型用于利用上下文语义预测下一个文本;GLOVE模型用于学习文本的语义表示;等。
本发明通过利用多个预训练模型,无需再通过大量样本数据进行模型训练,节省了训练时长,从整体上提高了实体对齐效率,并且,采用多个模型的输出结果进行实体对齐,避免了现有技术中采用单一模型进行实体对齐时出现的误差较大的问题。
一个具体实施例中,至少两个表示学习模型包括:至少两个语义表征模型。将每个待对齐实体分别输入至少两个语义表征模型,得到每个语义表征模型输出的语义表征;将每个标准实体分别输入至少两个语义表征模型,得到每个语义表征模型输出的表征语义表征。
其中,语义表征模型为上述表示学习模型中的任几项,但是至少两个语义表征模型为不同的表示学习模型。
一个具体实施例中,至少两个语义表征模型包括:第一语义表征模型和第二语义表征模型。将每个待对齐实体输入第一语义表征模型,得到第一语义表征模型输出的第一语义表征,以及将每个待对齐实体输入第二语义表征模型,得到第二语义表征模型输出的第二语义表征。将每个标准实体输入第一语义表征模型,得到第一语义表征模型输出的第一标准语义表征,以及将每个标准实体输入第二语义表征模型,得到第二语义表征模型输出的第二标准语义表征。
具体的,以第一语义表征模型为BERT模型,第二语义表征模型为word2vec模型为例进行说明:
BERT模型对输入的文本进行动态编码,以更多的捕获上下文信息,使得同一个词在不同的上下文有不同的词表示。
word2vec模型为传统的词表示方法,通过自监督任务进行表示学习,使用了简单的三层架构,只能捕捉上下文的静态信息,即,针对同一个词汇仅能生成同样的表示学习。
具体的,将每个待对齐实体输入BERT模型,得到BERT模型输出的第一语义表征,以及将每个待对齐实体输入word2vec模型,得到word2vec模型输出的第二语义表征。将每个标准实体输入BERT模型,得到BERT模型输出的第一标准语义表征,以及将每个标准实体输入word2vec模型,得到word2vec模型输出的第二标准语义表征。
其中,第二语义表征模型还可以为skip-gram模型,其中,skip-gram模型是利用无监督学习训练得到的模型,通过中心词来推断上下文的词,模型相对比于BERT模型简单,整个预测过程简单高效。
一个具体实施例中,至少两个表示学习模型还包括:至少一个相似度计算模型。将每个待对齐实体和每个标准实体同时输入相似度计算模型,得到相似度计算模型输出的待对齐实体与标准实体之间的第一相似度。
具体的,以相似度计算模型为simBERT模型为例进行说明:
simBERT模型是基于BERT模型得到的用于判别两段文本是否为相似句的有监督训练模型。该模型的本质为二分类任务,即,预测两段文本是相似文本的概率。
具体的,将待对齐实体和标准实体输入simBERT模型,得到simBERT模型输出的待对齐实体与标准实体之间的第一相似度。
本发明通过多个模型预测待对齐实体的语义表征,以及预测待对齐实体与标准实体的相似度,避免了单一模型预测的误差,保证了实体对齐的准确性。
步骤103,基于输出结果,从待对齐实体集合中提取至少两个候选实体。
其中,输出结果包括:第一语义表征、第二语义表征、第一语义标准表征、第二语义标准表征和第一相似度等。
具体的,基于输出结果,从待对齐实体集合中提取至少两个目标待对齐实体作为候选实体。
一个具体实施例中,候选实体的确定的具体实现如下所示:确定第一语义表征与第一标准语义表征的第二相似度,以及第二语义表征与第二标准语义表征的第三相似度;基于第一相似度,从待对齐实体集合中提取第一数量的第一候选子实体;基于第二相似度,从待对齐实体集合中提取第二数量的第二候选子实体;基于第三相似度,从待对齐实体集合中提取第三数量的第三候选子实体;将第一获选子实体、第二候选子实体和第三候选子实体确定为候选实体。
其中,第一数量、第二数量和第三数量用户根据自身的实际需求进行设定即可,可以相同,也可以不相同,本发明不做限制。
其中,本发明以第一数量、第二数量和第三数量均为3为例进行说明,当然此处进行举例说明,并不用于对保护范围进行限定,用户根据自身需求进行设定即可(5个、8个或任意个均可以):
则可以得到3个第一候选子实体、3个第二候选子实体和3个第三候选子实体,得到9个候选实体。
其中,第一候选子实体、第二候选子实体和第三候选子实体的选取,基于相似度的高低进行选取,选择相似度最高的。
具体的,相似度的计算为就计算两个目标体的相似度,具体可以采用余弦相似度计算方式:根据内积计算公式的原理,使用余弦来计算两者的夹角,从而反应两者的相似度。利用余弦相似度的优点在于计算简单。
其中,对于输入余弦相似度计算公式的数据要求已经进行归一化处理。因此,在确定第一语义表征与第一标准语义表征的第二相似度,以及第二语义表征与第二标准语义表征的第三相似度之前,对第一语义表征与第一标准语义表征进行归一化处理,以及对第二语义表征与第二标准语义表征进行归一化处理。
另外,对于输入余弦相似度计算公式的数据维度是相同的。因此,需要采用求和、求平均或使用LATM、n-gram等方法对输入数据进行聚合处理,使不同维度的向量转换为相同维度的向量。
例如,采用求平均的方法分别对第二语义表征和第二标准语义表征进行聚合,然后利用余弦相似度计算公式计算第一语义表征与第一标准语义表征的第二相似度,以及聚合后的第二语义表征与聚合后的第二标准语义表征的第三相似度。
其中,对于第一相似度直接采用simBERT模型的输出结果即可。
当然,对于相似度的计算,还可以采用杰卡德相似度计算方式、欧几里得距离计算方式和文本编辑距离计算方式等多个计算方式。
本发明通过计算多个模型的输出结果的相似度,提高了确定目标实体的准确性。
步骤104,基于候选实体中每个待对齐实体的出现次数,从候选实体中确定目标实体。
一个具体实施例中,确定目标实体的具体实现方式为:
确定出现次数中最大出现次数的个数;在确定最大出现次数的个数等于预设值时,将最大出现次数对应的待对齐实体确定为目标实体;在确定最大出现次数的个数大于预设值时,从每个最大出现次数对应的待对齐实体中确定目标实体。
具体的,在确定最大出现次数的个数等于1时,将最大出现次数对应的待对齐实体确定为目标实体;在确定最大出现次数的个数大于1时,从每个最大出现次数对应的待对齐实体中确定目标实体。
具体的,在确定最大出现次数的个数大于1时,对每个最大出现次数对应的待对齐实体对应的相似度进行加权求和的方式进行评分,得到求和结果,将求和结果最大值对应的待对齐实体作为目标实体。其中,不同的模型预先设置有对应的权重。
当然,还可以将每个最大出现次数对应的待对齐实体输入预先训练的评估模型,得到评估模型输出的每个最大出现次数对应的待对齐实体的评分,将评分最大值对应的待对齐实体作为目标实体。
本发明通过确定众数的方式,将分布上具有明显集中趋势的待对齐实体作为目标实体,保证了目标实体的准确性。
本发明提供的文本实体对齐方法,通过获取待对齐实体集合和标准实体集合,其中,待对齐实体集合包括至少一个待对齐实体,标准实体集合包括至少一个标准实体;按照预设输入方式,将每个待对齐实体和每个标准实体输入至少两个表示学习模型,得到每个表示学习模型的输出结果,其中,至少两个表示学习模型为不同的预训练模型,可见,本发明的表示学习模型为预训练模型,无需再通过大量样本数据进行模型训练,节省了训练时长,从整体上提高了实体对齐效率;进而,基于输出结果,从待对齐实体集合中提取至少两个候选实体,可见,本发明采用多个模型的输出结果进行实体对齐,避免了现有技术中采用单一模型进行实体对齐时出现的误差较大的问题,或者由于模型预测准确率低导致实体对齐效果差的问题;最后,基于候选实体中每个待对齐实体的出现次数,从候选实体中确定目标实体,可见,本发明实现了快速、精准的完成了实体对齐。
下面对本发明提供的文本实体对齐装置进行描述,下文描述的文本实体对齐装置与上文描述的文本实体对齐方法可相互对应参照,重复之处不再赘述,如图2所示,该装置包括:
获取模块201,用于获取待对齐实体集合和标准实体集合,其中,待对齐实体集合包括至少一个待对齐实体,标准实体集合包括至少一个标准实体;
模型输出模块202,用于按照预设输入方式,将每个待对齐实体和每个标准实体输入至少两个表示学习模型,得到每个表示学习模型的输出结果,其中,至少两个表示学习模型为不同的预训练模型;
提取模块203,用于基于输出结果,从待对齐实体集合中提取至少两个候选实体;
确定模块204,用于基于候选实体中每个待对齐实体的出现次数,从候选实体中确定目标实体。
一个具体实施例中,至少两个表示学习模型包括:至少两个语义表征模型;模型输出模块202,具体用于将每个待对齐实体分别输入至少两个语义表征模型,得到每个语义表征模型输出的语义表征;将每个标准实体分别输入至少两个语义表征模型,得到每个语义表征模型输出的表征语义表征。
一个具体实施例中,至少两个语义表征模型包括:第一语义表征模型和第二语义表征模型;模型输出模块202,具体用于将每个待对齐实体输入第一语义表征模型,得到第一语义表征模型输出的第一语义表征,以及将每个待对齐实体输入第二语义表征模型,得到第二语义表征模型输出的第二语义表征;模型输出模块202,具体用于将每个标准实体输入第一语义表征模型,得到第一语义表征模型输出的第一标准语义表征,以及将每个标准实体输入第二语义表征模型,得到第二语义表征模型输出的第二标准语义表征。
一个具体实施例中,至少两个表示学习模型还包括:至少一个相似度计算模型;模型输出模块202,具体用于将每个待对齐实体和每个标准实体同时输入相似度计算模型,得到相似度计算模型输出的待对齐实体与标准实体之间的第一相似度。
一个具体实施例中,提取模块203,具体用于确定第一语义表征与第一标准语义表征的第二相似度,以及第二语义表征与第二标准语义表征的第三相似度;基于第一相似度,从待对齐实体集合中提取第一数量的第一候选子实体;基于第二相似度,从待对齐实体集合中提取第二数量的第二候选子实体;基于第三相似度,从待对齐实体集合中提取第三数量的第三候选子实体;将第一获选子实体、第二候选子实体和第三候选子实体确定为候选实体。
一个具体实施例中,确定模块204,具体用于确定出现次数中最大出现次数的个数;在确定最大出现次数的个数等于预设值时,将最大出现次数对应的待对齐实体确定为目标实体;在确定最大出现次数的个数大于预设值时,从每个最大出现次数对应的待对齐实体中确定目标实体。
一个具体实施例中,获取模块201,还用于获取初始实体集合;基于预先设置的过滤策略,从初始实体集合中滤除异常实体,得到待对齐实体集合。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行文本实体对齐方法,该方法包括:获取待对齐实体集合和标准实体集合,其中,待对齐实体集合包括至少一个待对齐实体,标准实体集合包括至少一个标准实体;按照预设输入方式,将每个待对齐实体和每个标准实体输入至少两个表示学习模型,得到每个表示学习模型的输出结果,其中,至少两个表示学习模型为不同的预训练模型;基于输出结果,从待对齐实体集合中提取至少两个候选实体;基于候选实体中每个待对齐实体的出现次数,从候选实体中确定目标实体。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例所提供的文本实体对齐方法,该方法包括:获取待对齐实体集合和标准实体集合,其中,待对齐实体集合包括至少一个待对齐实体,标准实体集合包括至少一个标准实体;按照预设输入方式,将每个待对齐实体和每个标准实体输入至少两个表示学习模型,得到每个表示学习模型的输出结果,其中,至少两个表示学习模型为不同的预训练模型;基于输出结果,从待对齐实体集合中提取至少两个候选实体;基于候选实体中每个待对齐实体的出现次数,从候选实体中确定目标实体。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例提供的文本实体对齐方法,该方法包括:获取待对齐实体集合和标准实体集合,其中,待对齐实体集合包括至少一个待对齐实体,标准实体集合包括至少一个标准实体;按照预设输入方式,将每个待对齐实体和每个标准实体输入至少两个表示学习模型,得到每个表示学习模型的输出结果,其中,至少两个表示学习模型为不同的预训练模型;基于输出结果,从待对齐实体集合中提取至少两个候选实体;基于候选实体中每个待对齐实体的出现次数,从候选实体中确定目标实体。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本实体对齐方法,其特征在于,包括:
获取待对齐实体集合和标准实体集合,其中,所述待对齐实体集合包括至少一个待对齐实体,所述标准实体集合包括至少一个标准实体;
按照预设输入方式,将每个所述待对齐实体和每个所述标准实体输入至少两个表示学习模型,得到每个所述表示学习模型的输出结果,其中,所述至少两个表示学习模型为不同的预训练模型;
基于所述输出结果,从所述待对齐实体集合中提取至少两个候选实体;
基于所述候选实体中每个所述待对齐实体的出现次数,从所述候选实体中确定目标实体。
2.根据权利要求1所述的文本实体对齐方法,其特征在于,所述至少两个表示学习模型包括:至少两个语义表征模型;
所述按照预设输入方式,将每个所述待对齐实体和每个所述标准实体输入至少两个表示学习模型,得到每个所述表示学习模型的输出结果,包括:
将每个所述待对齐实体分别输入所述至少两个语义表征模型,得到每个所述语义表征模型输出的语义表征;
将每个所述标准实体分别输入所述至少两个语义表征模型,得到每个所述语义表征模型输出的表征语义表征。
3.根据权利要求2所述的文本实体对齐方法,其特征在于,所述至少两个语义表征模型包括:第一语义表征模型和第二语义表征模型;
所述将每个所述待对齐实体分别输入所述至少两个语义表征模型,得到每个所述语义表征模型输出的语义表征,包括:
将每个所述待对齐实体输入所述第一语义表征模型,得到所述第一语义表征模型输出的第一语义表征,以及将每个所述待对齐实体输入所述第二语义表征模型,得到所述第二语义表征模型输出的第二语义表征;
所述将每个所述标准实体分别输入所述至少两个语义表征模型,得到每个所述语义表征模型输出的表征语义表征,包括:
将每个所述标准实体输入所述第一语义表征模型,得到所述第一语义表征模型输出的第一标准语义表征,以及将每个所述标准实体输入所述第二语义表征模型,得到所述第二语义表征模型输出的第二标准语义表征。
4.根据权利要求3所述的文本实体对齐方法,其特征在于,所述至少两个表示学习模型还包括:至少一个相似度计算模型;
所述按照预设输入方式,将每个所述待对齐实体和每个所述标准实体输入至少两个表示学习模型,得到每个所述表示学习模型的输出结果,包括:
将每个所述待对齐实体和每个所述标准实体同时输入所述相似度计算模型,得到所述相似度计算模型输出的所述待对齐实体与所述标准实体之间的第一相似度。
5.根据权利要求4所述的文本实体对齐方法,其特征在于,所述基于所述输出结果,从所述待对齐实体集合中提取至少两个候选实体,包括:
确定所述第一语义表征与所述第一标准语义表征的第二相似度,以及所述第二语义表征与所述第二标准语义表征的第三相似度;
基于所述第一相似度,从所述待对齐实体集合中提取第一数量的第一候选子实体;
基于所述第二相似度,从所述待对齐实体集合中提取第二数量的第二候选子实体;
基于所述第三相似度,从所述待对齐实体集合中提取第三数量的第三候选子实体;
将所述第一获选子实体、所述第二候选子实体和所述第三候选子实体确定为所述候选实体。
6.根据权利要求1-5任一项所述的文本实体对齐方法,其特征在于,所述基于所述候选实体中每个所述待对齐实体的出现次数,从所述候选实体中确定目标实体,包括:
确定所述出现次数中最大出现次数的个数;
在确定所述最大出现次数的个数等于预设值时,将所述最大出现次数对应的所述待对齐实体确定为所述目标实体;
在确定所述最大出现次数的个数大于所述预设值时,从每个所述最大出现次数对应的所述待对齐实体中确定所述目标实体。
7.根据权利要求1-5任一项所述的文本实体对齐方法,其特征在于,所述获取待对齐实体集合之前,还包括:
获取初始实体集合;
基于预先设置的过滤策略,从所述初始实体集合中滤除异常实体,得到所述待对齐实体集合。
8.一种文本实体对齐装置,其特征在于,包括:
获取模块,用于获取待对齐实体集合和标准实体集合,其中,所述待对齐实体集合包括至少一个待对齐实体,所述标准实体集合包括至少一个标准实体;
模型输出模块,用于按照预设输入方式,将每个所述待对齐实体和每个所述标准实体输入至少两个表示学习模型,得到每个所述表示学习模型的输出结果,其中,所述至少两个表示学习模型为不同的预训练模型;
提取模块,用于基于所述输出结果,从所述待对齐实体集合中提取至少两个候选实体;
确定模块,用于基于所述候选实体中每个所述待对齐实体的出现次数,从所述候选实体中确定目标实体。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的文本实体对齐方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文本实体对齐方法。
CN202211449173.2A 2022-11-18 2022-11-18 文本实体对齐方法、装置、设备及介质 Pending CN115906797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211449173.2A CN115906797A (zh) 2022-11-18 2022-11-18 文本实体对齐方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211449173.2A CN115906797A (zh) 2022-11-18 2022-11-18 文本实体对齐方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115906797A true CN115906797A (zh) 2023-04-04

Family

ID=86492818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211449173.2A Pending CN115906797A (zh) 2022-11-18 2022-11-18 文本实体对齐方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115906797A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702745A (zh) * 2023-06-14 2023-09-05 上交所技术有限责任公司 一种基于语义匹配模型的启发式实体对齐方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702745A (zh) * 2023-06-14 2023-09-05 上交所技术有限责任公司 一种基于语义匹配模型的启发式实体对齐方法

Similar Documents

Publication Publication Date Title
EP3872652B1 (en) Method and apparatus for processing video, electronic device, medium and product
CN106294505B (zh) 一种反馈答案的方法和装置
CN110046648B (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
CN115544240B (zh) 文本类敏感信息识别方法、装置、电子设备和存储介质
CN109492085B (zh) 基于数据处理的答案确定方法、装置、终端及存储介质
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN115906797A (zh) 文本实体对齐方法、装置、设备及介质
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN112906368B (zh) 行业文本增量方法、相关装置及计算机程序产品
CN113408280A (zh) 负例构造方法、装置、设备和存储介质
CN110489740B (zh) 语义解析方法及相关产品
CN117195046A (zh) 异常文本识别方法及相关设备
US20230274161A1 (en) Entity linking method, electronic device, and storage medium
CN114444514B (zh) 语义匹配模型训练、语义匹配方法及相关装置
CN116150376A (zh) 一种样本数据分布优化方法、装置和存储介质
CN114417881A (zh) 敏感词检测方法、装置、电子设备及存储介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114120341A (zh) 简历文档识别模型训练方法、简历文档识别方法及装置
CN114265917A (zh) 工单类别识别方法、模型训练方法、装置和设备
CN113761874A (zh) 事件事实性预测方法、装置、电子设备与存储介质
CN114942980B (zh) 一种确定文本匹配方法及装置
CN115033701B (zh) 文本向量生成模型训练方法、文本分类方法及相关装置
CN115098680B (zh) 数据处理方法、装置、电子设备、介质及程序产品
CN111914536B (zh) 观点分析方法、装置、设备及存储介质
CN116069914B (zh) 训练数据的生成方法、模型训练方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination