CN114254080A - 一种文本匹配方法、装置及设备 - Google Patents

一种文本匹配方法、装置及设备 Download PDF

Info

Publication number
CN114254080A
CN114254080A CN202111582721.4A CN202111582721A CN114254080A CN 114254080 A CN114254080 A CN 114254080A CN 202111582721 A CN202111582721 A CN 202111582721A CN 114254080 A CN114254080 A CN 114254080A
Authority
CN
China
Prior art keywords
text
matching degree
texts
matched
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111582721.4A
Other languages
English (en)
Inventor
王猛
许亦楷
周寅
叶栓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202111582721.4A priority Critical patent/CN114254080A/zh
Publication of CN114254080A publication Critical patent/CN114254080A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种文本匹配方法、装置及设备,可应用于人工智能技术领域。所述方法包括:获取至少两个待匹配文本;分别从待匹配文本中提取至少一个文本特征;基于所述至少两个待匹配文本对应的文本特征,利用匹配度确定模型计算待匹配文本之间的匹配度得分;匹配度确定模型包括获取用于预测匹配程度的采样文本,并基于预测结果对采样文本进行筛选后,根据筛选后的采样文本所确定的模型;根据所述匹配度得分确定待匹配文本之间的匹配类别;所述匹配类别用于描述文本之间的匹配程度。上述方法保证了获取匹配度确定模型这一过程的准确高效,也实现了对于文本之间匹配程度的定量描述,准确地实现文本之间的匹配,保证了相关应用的有效进行。

Description

一种文本匹配方法、装置及设备
技术领域
本说明书实施例涉及人工智能技术领域,特别涉及一种文本匹配方法、模型训练方法、装置及设备。
背景技术
随着计算机技术的发展,对于文本匹配的利用程度也在逐渐提高。文本匹配在包括文本推理、语义识别、智能问答等众多自然语言处理任务中处于底层,是搭建众多自然语言处理应用需要的最基本与核心的模块之一,实现高效准确的文本匹配在人工智能领域中具有重要的意义。
目前在利用深度神经网络模型处理文本匹配任务时,为了保证模型对于文本匹配结果的准确性,往往扩大模型的规模,使模型在包含较多的模型参数的同时,也利用大量的样本数据对模型进行训练。而在实际应用中,即使是基于全监督学习方式,对所有的样本数据进行标注,也无法保证标注结果的准确性,这样训练得到的模型可以会偏离实际应用的需求,且利用大量的数据对模型进行训练也会降低文本匹配过程的效率,从而缺乏实际应用效果。如何实现快速准确的文本匹配是当前所亟需解决的问题。
发明内容
本说明书实施例的目的是提供一种文本匹配方法、装置及设备,以解决如何高效准确地实现文本匹配的问题。
为了解决上述技术问题,本说明书实施例提出一种文本匹配方法,包括:获取至少两个待匹配文本;分别从所述待匹配文本中提取至少一个文本特征;基于所述至少两个待匹配文本对应的文本特征,利用匹配度确定模型计算待匹配文本之间的匹配度得分;所述匹配度确定模型包括获取用于预测匹配程度的采样文本,并基于预测结果对采样文本进行筛选后,根据筛选后的采样文本所确定的模型;;所述匹配度得分用于反映待匹配文本之间的匹配程度。
本说明书实施例还提出一种文本匹配装置,包括:待匹配文本获取模块,用于获取至少两个待匹配文本;文本特征提取模块,用于分别从所述待匹配文本中提取至少一个文本特征;匹配度得分计算模块,用于基于所述至少两个待匹配文本对应的文本特征,利用匹配度确定模型计算待匹配文本之间的匹配度得分;所述匹配度确定模型包括获取用于预测匹配程度的采样文本,并基于预测结果对采样文本进行筛选后,根据筛选后的采样文本所确定的模型;所述匹配度得分用于反映待匹配文本之间的匹配程度。
本说明书实施例还提出一种文本匹配设备,包括存储器和处理器;所述存储器,用于存储计算机程序指令;所述处理器,用于执行所述计算机程序指令以实现以下步骤:获取至少两个待匹配文本;分别从所述待匹配文本中提取至少一个文本特征;基于所述至少两个待匹配文本对应的文本特征,利用匹配度确定模型计算待匹配文本之间的匹配度得分;所述匹配度确定模型包括获取用于预测匹配程度的采样文本,并基于预测结果对采样文本进行筛选后,根据筛选后的采样文本所确定的模型;所述匹配度得分用于反映待匹配文本之间的匹配程度。
由以上本说明书实施例提供的技术方案可见,本说明书实施例在获取到待匹配文本后,通过从待匹配文本中提取文本特征,并基于匹配度确定模型来计算待匹配文本之间的匹配度得分。在所述匹配度确定模型是在获取采样文本,并基于样本数据对应的预测结果对采样文本进行筛选后所确定的模型,保证了规律自身的准确性,最终能够根据匹配度得分确定待匹配文本之间的匹配类别,进而对文本之间的匹配程度进行定量描述。上述方法在确定匹配度确定模型时对采样文本进行筛选,既减小了采样文本的数据量,也提高了采样文本所确定的匹配度确定模型的准确性,保证了获取匹配度确定模型这一过程的准确高效,相应的也能够实现对于文本之间匹配程度的定量描述,准确地实现文本之间的匹配,保证了相关应用的有效进行。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例一种文本匹配方法的流程图;
图2为本说明书实施例一种RE2模型的结构示意图;
图3为本说明书实施例一种模型训练过程的流程示意图;
图4为本说明书实施例一种文本匹配装置的模块图;
图5为本说明书实施例一种文本匹配设备的结构图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
为了解决上述技术问题,介绍本说明书实施例一种文本匹配方法。所述文本匹配方法的执行主体为文本匹配设备,所述文本匹配设备包括但不限于服务器、工控机、PC机等。如图1所示,所述文本匹配方法可以包括以下具体实施步骤。
S110:获取至少两个待匹配文本。
待匹配文本即为需要判断是否匹配的文本。所述待匹配文本的格式不做限制,待匹配文本中可以包括汉字、数字、外文以及特殊符号等。对于所述待匹配文本的长度可以不做限制,也可以限定为某一固定长度。
所述待匹配文本例如可以是在语义识别任务中,需要确定相应文本对应的释义,从而进行文本匹配确定对应的解释,也可以应用于文本查找等领域,对于所述待匹配文本的应用场景不做限制。
具体的获取待匹配文本的方式可以是直接获取其他设备或用户所传输的多个文本进行匹配,也可以是在接收到一些文本后,将这些文本与设备自身所存储的其他文本依次进行匹配,对此也不做限制,可以基于实际应用的需求进行调整。
S120:分别从所述待匹配文本中提取至少一个文本特征。
由于待匹配文本在未被处理的情况下格式以及内容上可能无法较好地实现对应,为了更好地实现待匹配文本之间的比较,可以分别从各个待匹配文本中提取文本特征。
文本特征可以用于描述待匹配文本,且由于文本特征具有预先设定的格式,便于后续过程中的比对。
在一些实施方式中,从待匹配文本中提取文本特征时,可以是先将所述待匹配文本转化为文本向量,再基于文本向量提取至少一个文本特征。例如,基于图2所对应的RE2文本匹配模型的结构示意图所示,可以先利用嵌入层将待匹配文本转化为对应的向量,再通过其中的编码层来提取文本特征的特征。具体的转化向量以及从向量中提取文本特征的方式可以基于实际应用的需求进行设置,对此不做限制。
S130:基于所述至少两个待匹配文本对应的文本特征,利用匹配度确定模型计算待匹配文本之间的匹配度得分;所述匹配度确定模型包括获取用于预测匹配程度的采样文本,并基于采样文本对应的预测结果对采样文本进行筛选后,根据筛选后的采样文本所确定的模型;所述匹配度得分用于反映待匹配文本之间的匹配程度。
在获取到文本特征后,可以结合所述文本特征,利用匹配度确定模型计算待匹配文本之间的匹配度得分。
匹配度确定模型可以是在进行文本匹配之前预先确定的用于分析文本之间的匹配程度的模型。具体的,可以是先获取采样文本后,再基于采样文本对应的预测结果对采样文本进行筛选后,利用筛选后的采样文本所确定的描述文本之间的匹配程度之间的规律。
由于在确定匹配度确定模型时,基于预测结果对采样文本进行了筛选,保证了筛选后的采样文本的准确性,采样文本的数据量减小也加快了匹配度确定模型的确定过程,从而保证了快速准确地实现文本。
为了更好地对匹配度确定模型进行描述,下面以匹配度确定模型对应于神经网络深度学习模型的形式对其进行介绍。需要说明的是,实际应用中匹配度确定模型也可以表现为其他形式,并不限于上述示例,例如还可以是对实际情况进行归纳总结的形式,对此不做限制。
在该实施方式中,所述匹配度确定模型可以通过以下方式获取:获取第一文本集合;所述第一文本集合中的第一采样文本对应有预标注结果;利用初始预测模型预测对应于第一采样文本的预测标注结果;在所述预测标注结果中筛选候选标注结果;利用预先构建的匹配度确定模型预测对应于第一采样文本的实验标注结果;基于所述实验标注结果、候选标注结果与预标注结果训练所述匹配度确定模型。
第一文本集合中可以包含有预先设置的用于对模型进行训练的第一采样文本。所述第一采样文本均对应有预标注结果。所述预标注结果可以是由用户预先标注的结果数据。应用至本实施方式中,所述预标注结果可以是所述第一采样文本中包含的文本之间的匹配程度。
在获取到第一文本集合之后,可以利用初始预测模型预测对应于第一采样文本的预测标注结果。初始预测模型可以是预先训练完毕的用于对文本匹配程度进行预测的模型,具有较高的准确度。相应的,为了执行该步骤,在进行具体的预测之前,可以先利用第二文本集合对所述初始预测模型进行训练。所述第二文本集合的数据量可以大于所述第一文本集合的数据量。
具体的,可以先获取第二文本集合;所述第二文本集合中包括标注采样文本和未标注采样文本;所述标注采样文本对应有标注结果。
基于本说明书实施例的应用特点,所述初始预测模型的准确性可以大于匹配度确定模型的准确性,相应的,初始预测模型的模型参数以及对应的样本数据的数量也可以大于匹配度确定模型。由于所述初始预测模型在线下阶段即完成部署,且在各阶段应用中均具备较强的通用性,因此可以预先利用大量样本进行长时间学习,以提高模型的准确性。
在实际应用中,随着文本匹配涉及的类型、领域越来越多,训练过程中所涉及的样本数据的类型、涉及领域也在不断增多,进而导致训练样本的数量也在不断增多。若针对这些训练样本逐一进行标注,显然需要消耗较多的时间和精力,因此可以只针对第二文本集合中的部分文本进行标注。
相应的,在标注后所得到的第二文本集合中即包含有标注采样文本和未标注采样文本。标注采样文本即为进行了标注的文本,所述标注采样文本对应有标注结果。所述标注结果可以基于采样文本的类型进行设置,例如在采样文本为问题形式时,标注结果可以是对应于该问题的答案,实际应用中可以根据需要设置所标注的标注结果,并不限于上述示例。
具体的标注过程可以是人工针对各个样本数据进行标注,也可以是预先训练相应的标注模型,利用标注模型实现样本数据的标注。实际应用中可以根据需要采取其他的方式来实现样本数据标注,在此不再赘述。
优选的,为了进一步减小标注的工作量,所述标注采样文本的数量可以小于未标注采样文本的数量。具体的所设置的标注采样文本的比例可以根据实际应用的需求进行调整,在此不再赘述。
在获取到第二文本集合后,可以利用所述第二文本集合中的标注采样文本来训练初始预测模型。所述初始预测模型可以用来预测数据的标注结果。由于用于训练的标注采样文本对应有标注结果,因此可以结合所述标注采样文本和对应的标注结果实现所述初始预测模型的有监督学习。
在一些实施方式中,所述初始预测模型可以是基于RE2文本匹配模型所构建的模型。RE2文本匹配模型是一种快速、强悍神经网络方法来用于通用文本的匹配的模型。具体的模型结构和参数可以基于实际应用情况进行设置,在此不再赘述。
如图2所示,为本说明书实施例中一种RE2文本匹配模型的结构示意图,其中,两条文本序列在预测层之前处理完全相同,除预测层之前的所有参数共享,由于右边的模型结构与左边的完全相同,故图2中省略了右侧的结构示意图。在RE2模型中,送入的文本序列首先通过嵌入层进行向量化,然后经过连续的独立参数的N个基础模块(虚线方框)进行处理。每个基础模块包括以下几个组件:首先是编码层,用来提取文本的上下文特征。经过编码层处理后的序列与处理前的序列拼接在一起后送入对齐层来学习两个输入文本序列之间的交互关系特征,进行信息“对齐”。接着,同样将对齐层的输入与输出直接拼接到一起送入融合层进行处理。融合层的输出即为之前提到的RE2模型的基础构建模块的输出,此时该输出序列再次与嵌入层的输出拼接至一起,作为下一个基础构建模块的输入,如此循环往复N次,最后学习得到的两个文本序列送入池化层得到固定长度的向量,然后通过预测层进行匹配,并给出匹配度得分,通常选择交叉熵损失作为优化函数。
优选的,由于所述初始预测模型可以在线下阶段进行训练,训练时间长短并不影响线上应用过程的效率,因此可以尽可能地提升所述初始预测模型的预测准确度。具体的例如可以针对所述初始预测模型设置尽可能多的参数,以及训练过程中的循环迭代次数等。实际应用中也可以采用其他方式保证模型的拟合程度和高准确性。
初始预测模型在对所述初始预测模型训练完成后,由于所述初始预测模型可以用于预测数据的标注结果,因此可以利用所述初始预测模型分别对第一采样文本分别进行预测,得到对应于第一采样文本的预测标注结果。
需要说明的是,即使针对标注采样文本已经预先进行了标注,预测得到的预测标注结果与原本的标注结果之间也可以存在差异,且该差异的产生可能基于任一者的不准确性而导致。基于两者之间的差异程度大小,在后续的执行过程中也可以利用相应的损失函数对训练结果进行优化。
在获取到预测标注结果后,还可以从中筛选候选标注结果。由于本说明书实施例中训练匹配度确定模型的目的是为了实现文本匹配,因此,通过比较标注结果之间的相似程度,能够预先筛选得到一些相似程度较为接近的文本,从而能够在后续实施过程中更好地实现文本的匹配。
在一些实施方式中,筛选过程可以是分别计算候选标注结果对应于各个预标注结果的相似度分数,再基于所述相似度分数的大小分别筛选预设数量的对应于各个预标注结果的目标候选标注结果。通过上述步骤获取到每个预标注结果对应于各个候选标注结果的相似度分数后,根据这些相似度分数进行相应的计算。
实际筛选时可以不限于选取的数量,例如也可以设置相似度阈值,将大于相似度阈值的预测标注结果选取为候选标注结果。具体的对于选取候选标注结果的方式可以根据实际需要进行调整,对此不做限制。
所述匹配度确定模型可以是预先构建的模型,具体的可以应用于线上阶段,以适应不同场景下的文本匹配。相应的,所述匹配度确定模型的模型参数数量可以小于初始预测模型。所述匹配度确定模型即可用于数据匹配,具体的,在所述数据为文本数据时,所述匹配度确定模型即可用于进行文本匹配。
相应的,在训练过程中,还可以利用预先构建的匹配度确定模型预测对应于第一采样文本的实验标注结果,即当前对应于第一采样文本存在预标注结果、候选标注结果和实验标注结果这三种标注结果。
在获取到上述标注结果后,即可实现对于匹配度确定模型的训练。
由于候选标注结果是筛选后的标注结果,且预标注结果、候选标注结果和实验标注结果是针对同一采样文本的预测结果,因此可以基于这些数据的相似度实现匹配度确定模型的训练。而由于初始预测模型已经能够较为准确地实现标注结果的预测,从而不仅较少了数据标注的工作量,也减小了训练匹配度确定模型所消耗的时间和计算资源。优选的,所述匹配度确定模型可以具备较少的参数,以尽可能地提高模型训练的效率,保证文本匹配过程的高效性。
在一些实施方式中,所述匹配度确定模型也可以是基于RE2模型所构建的模型。对于所述RE2模型的结构的介绍可以参照前述说明,在此不再赘述。
在一些实施方式中,可以基于所述实验标注结果、候选标注结果和预标注结果构建损失函数,来对匹配度确定模型进行训练。所述损失函数用于分别结合实验标注结果与候选标注结果、预标注结果之间的差异确定对匹配度确定模型的优化策略。基于所述标注采样文本和目标候选标注结果对应的未标注采样文本构建损失函数,再基于所述损失函数对匹配度确定模型进行优化。
具体的,可以先利用损失函数计算实验标注结果和候选标注结果之间的第一结果差异,再利用所述损失函数计算实验标注结果和预标注结果之间的第二结果差异。由于损失函数可以用于评估不同结果之间的差异,在预标注结果和候选标注结果分别为用户标注和初始预测模型预测到的结果的情况下,具有一定的准确性,相应的可以基于所述第一结果差异和第二结果差异的大小对模型进行优化和校正。
在获取到所述第一结果差异和第二结果差异后,可以结合所述第一结果差异和第二结果差异计算预测损失值。具体的,可以直接将所述第一结果差异和第二结果差异进行相加,也可以针对两者设置对应的权重值,实现交叉熵损失的计算。
在所述预测损失值不大于损失阈值的情况下,表示利用匹配度确定模型计算得到的结果与预测结果之间差异性较小,可以确定所述预先构建的匹配度确定模型为用于计算匹配度得分的匹配度确定模型。
在所述预测损失值大于损失阈值的情况下,可以重复执行调节所述预先构建的匹配度确定模型的模型参数、计算第一结果差异、计算第二结果差异、计算预测损失值的步骤,不断对匹配度确定模型进行优化,直至预测损失值不大于损失阈值,使得模型达到优化要求,或是重复次数达到重复次数阈值为止。在上述重复步骤结束后,将当前调整得到的匹配度确定模型确定为最终的匹配度确定模型,用于计算匹配度得分。
在一些实施方式中,所述损失函数中还包括超参数;所述超参数用于调节预测结果和标注结果对于模型参数的优化程度。
结合上述分析与介绍,在一个具体的示例中,所述损失函数可以是
Figure BDA0003426761430000071
式中,θS为匹配度确定模型中待优化的参数,α为调节损失占比的超参数,
Figure BDA0003426761430000081
为候选标注结果对标注结果的损失,
Figure BDA0003426761430000082
为候选标注结果对预测标注结果的损失。
通过上述损失函数,能够在评估初始预测模型预测误差的同时对匹配度确定模型的训练结果进行优化,保证了模型训练的准确性,进而也可以实现以更小的规模针对匹配度确定模型进行学习训练,提高了学习效率。
由于训练得到的匹配度确定模型能够实现数据匹配,因此,将文本特征输入匹配度确定模型中后,可以得到相应的匹配度得分,进而实现根据匹配度得分的大小确定文本之间的匹配类型。
匹配度得分用于定量对文本之间的匹配程度进行描述,在计算得到待匹配文本之间的匹配度得分后,后续过程中可以讲匹配度得分与相应的评估标准进行比对以确定最终的匹配结果。
在一些实施方式中,当存在三个或三个以上待匹配文本时,可以两两分别进行匹配,可以在确定两个待匹配文本所对应的匹配度得分后,再利用其他待匹配文本进行匹配,依次重复匹配过程直至完成所有文本的匹配。实际应用中也可以存在需要确定具体的匹配方式,对此不做赘述。
在获取到匹配度得分后,由于匹配度得分的大小能够反映文本之间的匹配程度,通过计算出的匹配度得分即可确定不同的待匹配文本之间是否相互匹配。
在一些实施方式中,为了更好地确定待匹配文本之间的匹配程度,还可以预先设置有匹配类别。所述匹配类别可以是预先设定的用于描述匹配程度的类别,进而对不同类别的文本匹配程度进行区分,例如可以包括完全匹配、基本匹配、部分匹配和不匹配等匹配类别。在应用过程中,可以预先设置多个匹配类别,并预先划分各个匹配类别所对应的匹配度得分区间,在计算得到所述匹配度得分后,根据所述匹配度得分所对应的匹配度得分区间,可以直接确定待匹配文本之间的匹配类别,保证了匹配类别划分的准确性。具体的对于所述匹配类别的数量、类型可以基于实际应用的需求进行设置,在此不再赘述。
在获取到匹配类别后,即可根据所对应的匹配类别,对不同的待匹配文本进行分类,以实现对于待匹配文本的有效利用。
基于上述实施例,利用一个场景示例进行说明,如图3所示。可以预先构建T-Re2模型和S-Re2模型,在常用深度学习文本匹配模型架构——RE2的基础上,结合知识蒸馏技术,通过选取T模型在未标注数据上的Top-k预测作为额外信息,加入S模型训练,来达到在仍然保证S模型高准确率(与T模型相比)的基础上,减少模型参数,简化模型结构,提升推理预测速度的目的。
具体实施时,首先,在线下阶段,我们选用RE2文本匹配模型在标注好的数据集上进行训练,训练得到的模型称为T-Re2模型。在T-Re2模型的训练中,通常设置尽可能多的参数进行训练,以保证模型的拟合效果与匹配高准确性。
接着,在线上阶段,仍选用RE2文本匹配模型,对每一例已标注数据样本对中的问题q,首先将其送入线下阶段训练好的T-Re2模型中进行预测,在未标注数据的答案文本集合中选取相似度得分最高的前K条候选答案文本r1,r2,..rK作为q的标准答案a的补充信息,融入损失函数一起进行训练,损失函数为
Figure BDA0003426761430000091
其中θS为S-Re2模型中待优化参数,LT为当前数据样本中问题q的预测对人工标注的标准答案的损失,LS为当前问题q在前述选出的Top-K条文本上的T-Re2模型预测值对其的S-Re2模型预测值的损失,通常可选取为负对数似然损失,α为调节两种损失之间比率的超参数。从该损失函数可以很容易看出,S-Re2模型以T-Re2模型为老师,将其已经学到的信息作为高级特征通过在未标注数据上做预测的形式补充进自身模型的训练过程(也就是损失函数中的αLS项),以此来达到与T-Re2模型接近的准确度表现。另一方面,将T-Re2模型的学习结果视为更高级的特征后,可以认为数据中蕴含的信息已经过其提纯,所以能实现在S模型中以更小的规模进行学习训练,同时又不损失准确度。
基于上述实施例和场景示例的介绍,可以看出,上述方法在获取到待匹配文本后,通过从待匹配文本中提取文本特征,并基于匹配度确定模型来计算待匹配文本之间的匹配度得分。在所述匹配度确定模型是在获取采样文本,并基于采样文本对应的预测结果对采样文本进行筛选后所确定的规律,保证了规律自身的准确性,最终能够根据匹配度得分确定待匹配文本之间的匹配类别,进而对文本之间的匹配程度进行定量描述。上述方法在确定匹配度确定模型时对采样文本进行筛选,既减小了采样文本的文本量,也提高了基于采样文本所确定的匹配度确定模型的准确性,保证了获取匹配度确定模型这一过程的准确高效,相应的也能够实现对于文本之间匹配程度的定量描述,准确地实现文本之间的匹配,保证了相关应用的有效进行。
基于图1所对应的文本匹配方法,介绍本说明书实施例一种文本匹配装置。所述文本匹配装置设置于所述文本匹配设备。如图4所示,所述文本匹配装置包括以下模块。
待匹配文本获取模块410,用于获取至少两个待匹配文本。
文本特征提取模块420,用于分别从所述待匹配文本中提取至少一个文本特征。
匹配度得分计算模块430,用于基于所述至少两个待匹配文本对应的文本特征,利用匹配度确定模型计算待匹配文本之间的匹配度得分;所述匹配度确定模型包括获取用于预测匹配程度的采样文本,并基于预测结果对采样文本进行筛选后,根据筛选后的采样文本所确定的模型;所述匹配度得分用于反映待匹配文本之间的匹配程度。
基于图1所对应的文本匹配方法,本说明书实施例提供一种文本匹配设备。如图5所示,所述文本匹配设备可以包括存储器和处理器。
在本实施例中,所述存储器可以按任何适当的方式实现。例如,所述存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等。所述存储器可以用于存储计算机程序指令。
在本实施例中,所述处理器可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机程序指令实现以下步骤:获取至少两个待匹配文本;分别从所述待匹配文本中提取至少一个文本特征;基于所述至少两个待匹配文本对应的文本特征,利用匹配度确定模型计算待匹配文本之间的匹配度得分;所述匹配度确定模型包括获取用于预测匹配程度的采样文本,并基于预测结果对采样文本进行筛选后,根据筛选后的采样文本所确定的模型;所述匹配度得分用于反映待匹配文本之间的匹配程度。
需要说明的是,上述文本匹配方法、装置及设备可以应用于人工智能技术领域,也可以应用至除人工智能技术领域外的其他技术领域,对此不做限制。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的第一硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书可用于众多第一或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (12)

1.一种文本匹配方法,其特征在于,包括:
获取至少两个待匹配文本;
分别从所述待匹配文本中提取至少一个文本特征;
基于所述至少两个待匹配文本对应的文本特征,利用匹配度确定模型计算待匹配文本之间的匹配度得分;所述匹配度确定模型包括获取用于预测匹配程度的采样文本,并基于采样文本对应的预测结果对采样文本进行筛选后,根据筛选后的采样文本所确定的模型;所述匹配度得分用于反映待匹配文本之间的匹配程度。
2.如权利要求1所述的方法,其特征在于,所述分别从所述待匹配文本中提取至少一个文本特征,包括:
将所述待匹配文本转化为文本向量;
基于所述文本向量提取至少一个文本特征。
3.如权利要求1所述的方法,其特征在于,所述匹配度确定模型,通过以下方式获取:
获取第一文本集合;所述第一文本集合中的第一采样文本对应有预标注结果;
利用初始预测模型预测对应于第一采样文本的预测标注结果;
在所述预测标注结果中筛选候选标注结果;
利用预先构建的匹配度确定模型预测对应于第一采样文本的实验标注结果;
基于所述实验标注结果、候选标注结果与预标注结果训练所述匹配度确定模型。
4.如权利要求3所述的方法,其特征在于,所述匹配度确定模型的模型参数量小于所述初始预测模型的模型参数量。
5.如权利要求3所述的方法,其特征在于,所述初始预测模型通过以下方式获取:
获取第二文本集合;所述第二文本集合中包括标注采样文本和未标注采样文本;所述标注采样文本对应有标注结果;所述第二文本集合中的文本数量大于所述第一采样文本第一文本集合的数据量;
利用所述第二文本集合训练所述初始预测模型。
6.如权利要求3所述的方法,其特征在于,所述在所述预测标注结果中筛选候选标注结果,包括:
分别计算候选标注结果对应于各个预标注结果的相似度分数;
基于所述相似度分数的大小分别筛选预设数量的目标候选标注结果。
7.如权利要求3所述的方法,其特征在于,所述基于所述实验标注结果、候选标注结果与预标注结果训练所述匹配度确定模型,包括:
基于所述实验标注结果、候选标注结果和预标注结果构建损失函数;
利用所述损失函数计算实验标注结果和候选标注结果之间的第一结果差异;
利用所述损失函数计算实验标注结果和预标注结果之间的第二结果差异;
结合所述第一结果差异和第二结果差异计算预测损失值;
在所述预测损失值不大于损失阈值的情况下,确定所述预先构建的匹配度确定模型为用于计算匹配度得分的匹配度确定模型。
8.如权利要求7所述的方法,其特征在于,所述结合所述第一结果差异和第二结果差异计算预测损失值之后,还包括:
在所述预测损失值大于损失阈值的情况下,重复执行调节所述预先构建的匹配度确定模型的模型参数、计算第一结果差异、计算第二结果差异、计算预测损失值的步骤,直至预测损失值不大于损失阈值或重复次数达到重复次数阈值为止;
确定当前的匹配度确定模型为用于计算匹配度得分的匹配度确定模型。
9.如权利要求7所述的方法,其特征在于,所述损失函数中还包括超参数;所述超参数用于调节预测结果和标注结果对于模型参数的优化程度。
10.如权利要求1所述的方法,其特征在于,所述基于所述至少两个待匹配文本对应的文本特征,利用匹配度确定模型计算待匹配文本之间的匹配度得分之后,还包括:
确定对应于所述匹配度得分的匹配类别;所述匹配类别用于区分不同类别的文本匹配程度。
11.一种文本匹配装置,其特征在于,包括:
待匹配文本获取模块,用于获取至少两个待匹配文本;
文本特征提取模块,用于分别从所述待匹配文本中提取至少一个文本特征;
匹配度得分计算模块,用于基于所述至少两个待匹配文本对应的文本特征,利用匹配度确定模型计算待匹配文本之间的匹配度得分;所述匹配度确定模型包括获取用于预测匹配程度的采样文本,并基于预测结果对采样文本进行筛选后,根据筛选后的采样文本所确定的模型;所述匹配度得分用于反映待匹配文本之间的匹配程度。
12.一种文本匹配设备,包括存储器和处理器;
所述存储器,用于存储计算机程序指令;
所述处理器,用于执行所述计算机程序指令以实现以下步骤:获取至少两个待匹配文本;分别从所述待匹配文本中提取至少一个文本特征;基于所述至少两个待匹配文本对应的文本特征,利用匹配度确定模型计算待匹配文本之间的匹配度得分;所述匹配度确定模型包括获取用于预测匹配程度的采样文本,并基于预测结果对采样文本进行筛选后,根据筛选后的采样文本所确定的模型;所述匹配度得分用于反映待匹配文本之间的匹配程度。
CN202111582721.4A 2021-12-22 2021-12-22 一种文本匹配方法、装置及设备 Pending CN114254080A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111582721.4A CN114254080A (zh) 2021-12-22 2021-12-22 一种文本匹配方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111582721.4A CN114254080A (zh) 2021-12-22 2021-12-22 一种文本匹配方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114254080A true CN114254080A (zh) 2022-03-29

Family

ID=80794400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111582721.4A Pending CN114254080A (zh) 2021-12-22 2021-12-22 一种文本匹配方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114254080A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108163A (zh) * 2023-04-04 2023-05-12 之江实验室 一种文本的匹配方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108163A (zh) * 2023-04-04 2023-05-12 之江实验室 一种文本的匹配方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
WO2022037256A1 (zh) 文本语句处理方法、装置、计算机设备和存储介质
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
JP2021096812A (ja) セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN111241851A (zh) 语义相似度确定方法、装置及处理设备
CN111324696B (zh) 实体抽取方法、实体抽取模型的训练方法、装置及设备
CN110309511B (zh) 基于共享表示的多任务语言分析系统及方法
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN112906397B (zh) 一种短文本实体消歧方法
CN113051929A (zh) 一种基于细粒度语义信息增强的实体关系抽取的方法
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
Suman et al. Why pay more? A simple and efficient named entity recognition system for tweets
WO2023134083A1 (zh) 基于文本的情感分类方法和装置、计算机设备、存储介质
WO2023159767A1 (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN114298053A (zh) 一种基于特征和注意力机制融合的事件联合抽取系统
Zhang et al. A BERT fine-tuning model for targeted sentiment analysis of Chinese online course reviews
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN114492460B (zh) 基于衍生提示学习的事件因果关系抽取方法
CN115953645A (zh) 模型训练方法、装置、电子设备及存储介质
CN111563378A (zh) 一种联合学习的多文档阅读理解实现方法
CN114254080A (zh) 一种文本匹配方法、装置及设备
CN116955644A (zh) 基于知识图谱的知识融合方法、系统及存储介质
CN116384379A (zh) 一种基于深度学习的中文临床术语标准化方法
CN116579345A (zh) 命名实体识别模型的训练方法、命名实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination