CN115757700A

CN115757700A - 识别文本匹配的方法、装置、电子设备及存储介质

Info

Publication number: CN115757700A
Application number: CN202211460830.3A
Authority: CN
Inventors: 黄海龙
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-03-07

Abstract

本申请提出的识别文本匹配的方法、装置、电子设备及存储介质，涉及人工智能技术领域。该方法包括：获取第一文本对，第一文本对包括第一文本和第二文本；根据第一文本在匹配文本对库中进行搜索，得到第二文本对；对第一文本对进行向量转化，得到第一向量，并对第二文本对进行向量转化，得到第二向量；基于第一向量和第二向量的匹配度，确定第二文本和第四文本的匹配关系；基于第二文本和第四文本的匹配关系，确定第一文本和第二文本是否匹配。本申请实施例通过第一文本搜索第二文本对的方式，把识别第一文本与第二文本是否匹配转化成第一文本对与第二文本对是否匹配，由于利用了已标注好的匹配文本对，提高了识别文本匹配的准确率。

Description

识别文本匹配的方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种识别文本匹配的方法、装置、电子设备及存储介质。

背景技术

当前，在理赔时需要将多次治疗同一疾病的识别出来以便进行理赔金额的计算。但针对同一疾病的不同次治疗，医生诊断的疾病名称可能不相同，故同一疾病的不同次治疗显示在病例单的疾病名称用词并不一致。相关技术中，一般采用人工识别的方式判定是否两个不同的疾病名称为同一疾病，但识别准确率过低。因此，如何提供一种识别文本匹配的方法，能够提高识别文本匹配的准确率，成为了亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提出识别文本匹配的方法、装置、电子设备及存储介质，能够提高识别文本匹配的准确率。

为实现上述目的，本申请实施例的第一方面提出了一种识别文本匹配的方法，所述方法包括：

获取第一文本对，所述第一文本对包括第一文本和第二文本；

根据所述第一文本在匹配文本对库中进行搜索，得到第二文本对，其中，所述第二文本对是所述匹配文本对库中的一个匹配文本对，所述第二文本对包括第三文本和第四文本，且所述第三文本是所述第一文本的同义文本；

对所述第一文本对进行向量转化，得到第一向量，并对所述第二文本对进行向量转化，得到第二向量；

基于所述第一向量和所述第二向量的匹配度，确定所述第二文本和所述第四文本的匹配关系；

基于所述第二文本和所述第四文本的匹配关系，确定所述第一文本和所述第二文本是否匹配。

在一些实施例，所述根据所述第一文本在匹配文本对库中进行搜索，得到第二文本对，包括：

获取所述第一文本的搜索关键词；

根据所述搜索关键词在所述匹配文本对库中进行搜索，得到包含所述搜索关键词的所述第三文本；

将包含所述搜索关键词的所述第三文本对所述匹配文本对库中的所述匹配文本对进行筛选，得到所述第二文本对。

在一些实施例，所述匹配文本对包括候选文本，所述匹配文本对库还包括所述候选文本的候选关键词，所述根据所述第一文本的搜索关键词在所述匹配文本对库中进行搜索，得到包含所述搜索关键词的所述第三文本，包括：

根据所述搜索关键词在所述匹配文本对库中对每一所述候选关键词进行相同词判断，得到判断结果；

基于所述判断结果对所述候选文本进行筛选，得到包含所述搜索关键词的所述第三文本。

在一些实施例，所述匹配文本对包括候选文本，所述候选文本包括至少一个第二文本分词，所述根据所述第一文本在匹配文本对库中进行搜索，得到第二文本对，包括：

对所述第一文本进行分词，得到至少一个第一文本分词；

对于每一所述候选文本，根据所述第一文本分词和所述第二文本分词的比对，得到相同分词；

根据所述相同分词的词数量确定所述第一文本和所述候选文本的文本匹配度；

基于所述文本匹配度，对所述候选文本进行筛选，得到所述第三文本；

将所述第三文本在所述匹配文本对库中的匹配文本对作为所述第二文本对。

在一些实施例，所述根据所述相同分词的词数量确定所述第一文本和所述候选文本的文本匹配度，包括：

获取每一所述相同分词的词权重，所述词权重用于表征所述相同分词的重要程度；

在每一所述相同分词中，根据所述词权重和所述词数量确定所述相同分词的词匹配度；

根据所述词匹配度确定所述文本匹配度。

在一些实施例，在所述基于所述第一向量和所述第二向量的匹配度，确定所述第二文本和所述第四文本的匹配关系之前，所述方法还包括：

将所述第一向量和所述第二向量输入至预设的全连接网络，通过所述全连接网络对所述第一向量和所述第二向量进行数值映射，得到向量匹配分数；

基于所述向量匹配分数，确定所述第一向量和所述第二向量的匹配度。

在一些实施例，在将所述第一向量和所述第二向量输入至预设的全连接网络之前，所述方法还包括：

预训练所述全连接网络，包括：

获取第一样本文本对，并获取所述第一样本文本对的原始匹配分数；所述第一样本文本对包括第一样本文本和第二样本文本；

根据所述第一样本文本在匹配文本对库中进行搜索，得到第二样本文本对，其中，所述第二样本文本对是所述匹配文本对库中的一个匹配文本对，所述第二样本文本对包括第三样本文本和第四样本文本，且所述第三样本文本是所述第一样本文本的同义文本；

对所述第一样本文本对进行向量转化，得到第一样本向量，并对所述第二样本文本对进行向量转化，得到第二样本向量；

将所述第一样本向量和所述第二样本向量输入至所述全连接网络，通过所述全连接网络对所述第一样本向量和所述第二样本向量进行数值映射，得到目标匹配分数；

根据所述目标匹配分数和所述原始匹配分数，确定所述全连接网络的损失值；

根据所述损失值对所述全连接网络进行参数调整，得到训练后的所述全连接网络。

为实现上述目的，本申请实施例的第二方面提出了一种识别文本匹配的装置，所述装置包括：

文本获取模块，用于获取第一文本对，所述第一文本对包括第一文本和第二文本；

文本搜索模块，用于根据所述第一文本在匹配文本对库中进行搜索，得到第二文本对，其中，所述第二文本对是所述匹配文本对库中的一个匹配文本对，所述第二文本对包括第三文本和第四文本，且所述第三文本是所述第一文本的同义文本；

文本转化模块，用于对所述第一文本对进行向量转化，得到第一向量，并对所述第二文本对进行向量转化，得到第二向量；

初步匹配模块，用于基于所述第一向量和所述第二向量的匹配度，确定所述第二文本和所述第四文本的匹配关系；

目标匹配模块，用于基于所述第二文本和所述第四文本的匹配关系，确定所述第一文本和所述第二文本是否匹配。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。

本申请提出的识别文本匹配的方法、装置、电子设备及存储介质，该方法包括：获取第一文本对，所述第一文本对包括第一文本和第二文本；根据所述第一文本在匹配文本对库中进行搜索，得到第二文本对；对所述第一文本对进行向量转化，得到第一向量，并对所述第二文本对进行向量转化，得到第二向量；基于所述第一向量和所述第二向量的匹配度，确定所述第二文本和所述第四文本的匹配关系；基于所述第二文本和所述第四文本的匹配关系，确定所述第一文本和所述第二文本是否匹配。本申请实施例通过第一文本搜索第二文本对的方式，把识别第一文本与第二文本是否匹配转化成第一文本对与第二文本对是否匹配，由于利用了已标注好的匹配文本对，提高了识别文本匹配的准确率。

附图说明

图1是本申请实施例提供的用于执行识别文本匹配的方法的系统架构示意图；

图2是本申请实施例提供的识别文本匹配的方法的流程图；

图3是图2中的步骤S102的流程图；

图4是图3中的步骤S203的流程图；

图5是图2中的步骤S102的流程图；

图6是本申请另一实施例提供的识别文本匹配的方法的流程图；

图7是本申请另一实施例提供的识别文本匹配的方法的流程图；

图8是本申请实施例提供的识别文本匹配的装置的模块结构框图；

图9是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

人工智能(art i f i c i a l i nte l l i gence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(natura l language process i ng，NLP)：NLP用计算机来处理、理解以及运用人类语言(如中文、英文等)，NLP属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息图像处理、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。

理赔业务中，客户常常针对同一疾病进行多次治疗，在理赔时需要将多次治疗同一疾病的识别出来以便进行理赔金额的计算。同一疾病的不同次治疗医生诊断疾病名称可能不一定完全相同，故对于同一疾病不同次治疗显示在病例单的疾病名称用词并不完全一致。相关技术中，一般采用人工识别的方式判定是否两个不同的疾病名称为同一疾病，但识别准确率过低。另外，还可采用文本匹配模型将多次治疗的疾病名称进行匹配，能匹配上则判断为同一疾病，否则为不同疾病。然而，在文本匹配的过程中需要使用大量标注好的参考数据进行模型训练。但对数据进行标注很复杂且需要大量人工，从而导致没有足够多的相同疾病名称对的标注来训练文本匹配模型，进而导致文本匹配的准确率较低。另外，疾病名称的文本往往相对较短，加大了现有的文本匹配模型的匹配难度，也制约着识别文本匹配的识别准确率。因此，如何提供一种识别文本匹配的方法，能够提高识别文本匹配的准确率，成为了亟待解决的技术问题。

基于此，本申请实施例的主要目的在于提出识别文本匹配的方法和识别文本匹配的装置、电子设备、存储介质，旨在通过第一文本搜索第二文本对的方式，把识别第一文本与第二文本是否匹配转化成第一文本对与第二文本对是否匹配，由于利用了已标注好的匹配文本对，提高了识别文本匹配的准确率。进一步地，本申请实施例避免因标注数据过少而导致的识别文本匹配的准确率过低的技术问题。

本申请实施例提供的识别文本匹配的方法应用于服务器端中，还可以是运行于终端或服务器端中的软件。服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现识别文本匹配的方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：服务器计算机、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请实施例提供识别文本匹配的方法和识别文本匹配的装置、电子设备、存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的识别文本匹配的方法。

参照图1，本申请实施例的识别文本匹配的方法可以单独由目标服务器400执行，也可以是第一终端100、第二终端200或第三终端300单独执行，还可以是第一终端100、第二终端200、第三终端300和目标服务器400共同执行。

图2是本申请实施例提供的识别文本匹配的方法的一个可选的流程图，可以包括但不限于包括步骤S101至步骤S105。

步骤S101，获取第一文本对，第一文本对包括第一文本和第二文本；

步骤S102，根据第一文本在匹配文本对库中进行搜索，得到第二文本对，其中，第二文本对是匹配文本对库中的一个匹配文本对，第二文本对包括第三文本和第四文本，且第三文本是第一文本的同义文本；

步骤S103，对第一文本对进行向量转化，得到第一向量，并对第二文本对进行向量转化，得到第二向量；

步骤S104，基于第一向量和第二向量的匹配度，确定第二文本和第四文本的匹配关系；

步骤S105，基于第二文本和第四文本的匹配关系，确定第一文本和第二文本是否匹配。

本申请实施例所示意的步骤S101至步骤S105，在确定第一文本和第二文本是否匹配之前，根据第一文本在匹配文本对库中搜索出与第二文本对，且第一文本与第二文本对中的第三文本为同义文本，第三文本与第四文本构成匹配文本对库中的一个匹配文本对。分别对第一文本对和第二文本对进行向量转化，得到第一向量和第二向量。再根据第一向量和第二向量的匹配度，确定第一向量和第二向量是否匹配。由于第一向量中的第一文本和第二向量中的第三文本为同义文本，则根据第一向量和第二向量的匹配度，可以确定第二文本和第四文本的匹配关系。最后根据第二文本和第四文本的匹配关系，确定第一文本和第四文本是否匹配。综上所述，本申请实施例通过第一文本搜索第二文本对的方式，把识别第一文本与第二文本是否匹配转化成第一文本对与第二文本对是否匹配，由于利用了已标注好的匹配文本对，提高了识别文本匹配的准确率。进一步地，本申请实施例避免因标注数据过少而导致的识别文本匹配的准确率过低的技术问题。

需要说明的是，对于现有的文本匹配算法，一般是根据第一文本和第二文本之间的文本相似程度判断是否匹配。但若第一文本和第二文本过短，单单从文本相似度无法准确识别两者是否匹配，该判断方法准确率较低。而在本申请实施例中，不在是直接对第一文本和第二文本进行匹配判断，通过在匹配文本对库中搜索出与第一文本关联的第二文本对，并通过第一文本对和第二文本对是否匹配的间接方式，推断出第一文本与第二文本是否匹配，避免了因文本长度过短而带来的准确率较低的技术问题，且利用了标注好的匹配文本对，大大提高了识别文本匹配的准确率。

在一些实施例的步骤S101中，获取第一文本对，第一文本对包括第一文本和第二文本。本申请的识别文本匹配的方法可以应用于医疗领域，例如医疗理赔服务中，所以第一文本和第二文本可以是疾病名称。本申请的识别文本匹配的方法还可以应用于金融领域，例如商品的归类售卖，所以第一文本和第二文本也可以是商品名称。

在本申请实施例中，以第一文本和第二文本均为疾病名称为例进行说明。例如，第一文本为“颅内占位性病变且炎性病变可能性大”，第二文本为“颅内病变且缺血性可能性大”。从上述可知，第一文本和第二文本虽然都是疾病名称，但对疾病的描述存在差异。为了判断是否为同一疾病，则需要识别第一文本和第二文本是否匹配。

在实际的理赔服务中，目标对象(用户)包括多张治疗记录单，且每张治疗记录单上对应一个疾病名称。若是疾病名称相同，则会将治疗记录单进行合并理赔。因此，需判断不同的的疾病名称是否为同一疾病。在一示例中，获取目标对象的多张治疗记录单；对每一治疗记录单进行文本识别，得到包含疾病关键词的疾病名称文本；对任意两个疾病名称文本进行组合，得到第一文本对。例如，第一文本(疾病名称文本1)出现在治疗记录单1，第二文本(疾病名称文本2)出现在治疗记录单2，对第一文本和第二文本进行组合，得到第一文本对。

具体地，每张治疗记录单包括疾病名称，也包括治疗方案等其他文本。因此，对治疗记录单进行文本识别会得到多个候选文本，根据疾病关键词对候选文本进行筛选，得到包含疾病关键词的候选文本，即得到包含疾病关键词的疾病名称文本。需要说明的是，可通过光学字符识别模型或其他文本识别模型(例如CRNN模型)对治疗记录单进行文本识别。疾病关键词包括“病”、“病变”和“占位”等词，本申请实施例不作具体限定。

在实际的理赔服务中，同一疾病名称又可分为多个子疾病名称，因此不同的保险单上的疾病名称即使不相同，也可以统一进行理赔。因此，目标对象在购买理赔保险之前，可以查询两个相似但又不完全相同的疾病名称是否为同一疾病，以便购买相应的保险。所以，在另一示例中，接收目标对象的输入文本，得到第一文本对。需要说明的是，输入文本至少为两个疾病名称。若输入文本为两个疾病名称，则根据输入文本得到第一文本对。若输入文本为三个以上疾病名称，则基于输入文本进行两两配对，得到至少两个第一文本对。

本申请的匹配文本对库中存储着多个匹配文本对，每个匹配文本对包括第一候选文本和第二候选文本，且第一候选文本和第二候选文本之间互相匹配。但在实际应用中发现，在匹配文本对库中，任意两个第一候选文本之间、任意两个第二候选文本之间、或者位于不同匹配文本对的第一候选文本和第二候选文本之间，均可能存在匹配关系。因此，为了进一步挖掘出更多的匹配文本对，需对匹配文本对库进行整理。具体地，在另一示例中，对任意一个匹配文本对进行文本的随机选取，得到第三文本；对其他的匹配文本对进行文本的随机选取，得到第四文本；对第三文本和第四文本进行组合，得到第一文本对。需要说明的是，匹配文本对库中存储着多个匹配文本对。本示例通过随机选取得到的第一文本对不是匹配文本对库中原来的匹配文本对，是来自不同的匹配文本对的互相结合。例如，本示例的第一文本对可以包括匹配文本对A的第一候选文本和匹配文本对B的第一候选文本。本示例的第一文本对还可以包括匹配文本对A的第一候选文本和匹配文本对B的第二候选文本。

在一些实施例的步骤S102中，匹配文本对库为一个文本数据库，该匹配文本对库中存储着多个匹配文本对。每个匹配文本对包括两个候选文本，具体包括第一候选文本和第二候选文本。根据第一文本在匹配文本对库中进行搜索，可以得到与第一文本是同义文本的候选文本(该候选文本可为第一候选文本，也可为第二候选文本)，并将该候选文本作为第三文本。又由于候选文本在匹配文本对库中是以匹配文本对进行存储，因此将匹配文本对的另一个文本作为第四文本，最终可以得到由第三文本和第四文本构成的第二文本对。

在一示例中，步骤S102具体包括：

对第一文本和匹配文本对库中的候选文本进行文本相似度计算，得到相似度；

若相似度大于预设相似度阈值，则将候选文本作为第三文本，并根据第三文本确定对应的匹配文本对，将匹配文本对的另一个候选文本作为第四文本；

根据第三文本和第四文本得到第二文本对。

具体地，本实施例以文本的相似度是否高于相似度阈值作为同义文本的判断条件，可以保证第三文本和第一文本的同义程度，有助于提高后续识别第一文本和第二文本的是否匹配的准确率。

需要说明的是，对第一文本和匹配文本对库中的候选文本进行文本相似度计算，得到相似度，具体包括：

将第一文本进行向量转化，得到第三向量，并将候选文本进行向量转化，得到第四向量；

根据第三向量和第四向量计算余弦距离或欧式距离，得到相似度。

在一示例中，根据第三文本和第四文本得到第二文本对，第二文本对由第三文本和第四文本组成。在另一示例中，可以对第三文本和第三文本进行过滤处理，第二文本对包括过滤后的第三文本和过滤后的第四文本。该过滤处理可以是过滤掉一些无意义的分词，例如：的、地、得，等分词。

在一示例中，步骤S102具体包括：

根据相似度对候选相似文本顺序排列，得到排序结果；根据排序结果对候选文本进行筛选，得到第三文本，并根据第三文本确定对应的匹配文本对，将匹配文本对的另一个候选文本作为第四文本；

根据第三文本和第四文本得到第二文本对。

具体地，根据排序结果选取排序前5的候选文本作为第三文本，且将第三文本的匹配文本作为第四文本。

在一些实施例中，匹配文本对包括候选文本，候选文本包括至少一个第二文本分词，参阅图3，步骤S102具体包括但不限于步骤S201至步骤S205：

步骤S201，对第一文本进行分词，得到至少一个第一文本分词；

步骤S202，对于每一候选文本，根据第一文本分词和第二文本分词的比对，得到相同分词；

步骤S203，根据相同分词的词数量确定第一文本和候选文本的文本匹配度；

步骤S204，基于文本匹配度，对候选文本进行筛选，得到第三文本；

步骤S205，将第三文本在匹配文本对库中的匹配文本对作为第二文本对。

本申请实施例所示意的步骤S201至步骤S205，在确定第三文本之前，对第一文本与候选文本之间相同分词进行确定，并对得到的相同分词的词数量进行统计，并根据词数量确定文本匹配度。文本匹配度越高，说明第一文本和候选文本越匹配。基于文本匹配度对候选文本进行筛选，可以得到第三文本。第三文本可以是文本匹配度最高的候选文本。第三文本也可以是文本匹配度高于预设匹配度阈值的候选文本。最后根据第三文本确定所处的匹配文本对，将匹配文本对的另一个候选文本作为第四文本，然后对第三文本和第四文本进行组合，得到第二文本对。

例如，第一文本为“颅内占位性病变且炎性病变可能性大”，候选文本为“颅内病变且缺血性可能性大”。则相同分词至少包括“颅”、“颅内”、“病变”、“可能性大”等。对应的词数量均为1，则总的词数量为4。在一示例中，可根据词数量进行查表，得到与词数量对应的文本匹配度。例如，若词数量为4，则查表得到文本匹配度为80；若例如词数量为3，则文本匹配度为60。在另一示例中，可根据词数量与第一文本的长度(该长度是指第一文本的总的词数量)进行比较，根据比较结果得到文本匹配度。例如，若词数量为4，第一文本的长度为10，则根据公式：系数*词数量/长度，则文本匹配度为80(200*4/10)；若词数量为3，第一文本的长度为10，则根据公式：系数*词数量/长度，则文本匹配度为60(200*3/10)。系数可根据实际需求设置，本申请实施例不做具体限定。

在一些实施例中，参阅图4，步骤S203具体包括但不限于步骤S301至步骤S303：

步骤S301，获取每一相同分词的词权重，词权重用于表征相同分词的重要程度；

步骤S302，在每一相同分词中，根据词权重和词数量确定相同分词的词匹配度；

步骤S303，根据词匹配度确定文本匹配度。

本申请实施例所示意的步骤S301至步骤S303，对于不同的第一文本分词，即使候选分词中与某些第一文本分词存在相同分词的词数量很多，但该相同分词可能无实际意义，会影响对第一文本和候选文本的文本匹配度的计算，导致文本匹配度的准确率较低。例如，的、地、得等相同分词，即使词数量再多，根据这些相同分词得到的文本匹配度无法真正表示第一文本和候选文本之间的匹配关系。因此，在本申请实施例中，为相同分词设置词权重，重要程度较低的相同分词则词权重较低。例如，的、地、得等与疾病名称无关的相同分词，词权重可为零。重要程度较高的相同分词则词权重较高，例如，病变、高压、低压等关乎疾病名称的相同分词，词权重可为0.6或0.7等。最后，可根据每个相同分词的词数量和词权重的乘积得到词匹配度，在根据所有的词匹配度求和得到文本匹配度。本申请实施例在考虑词数量的基础上，进一步考虑了词权重，提高了第一文本与候选文本匹配的准确率。

在一些实施例中，参阅图5，步骤S102具体包括但不限于步骤S401至步骤S403：

步骤S401，获取第一文本的搜索关键词；

步骤S402，根据搜索关键词在匹配文本对库中进行搜索，得到包含搜索关键词的第三文本；

步骤S403，将包含搜索关键词的第三文本对匹配文本对库中的匹配文本对进行筛选，得到第二文本对。

本申请实施例所示意的步骤S401至步骤S403，具体地，本申请实施例以第三文本是否包含第一文本的关键词作为同义文本的判断条件，若第三文本包含搜索关键词，则说明该第三文本与第一文本为同义文本。另外，在搜索过程中使用搜索关键词进行匹配，可以提高搜索效率。

在一示例中，匹配文本对包括候选文本，候选文本包括至少一个第二文本分词，步骤S402具体包括但不限于：

根据搜索关键词在匹配文本对库中对每一第二文本分词进行相同词判断，得到判断结果；

若判断结果为词相同，则根据包含第二文本分词的候选文本得到包含搜索关键词的第三文本。

需要说明的是，上述示例根据搜索关键词得到包含搜索关键词的第三文本，比直接根据文本相似度进行搜索的效率有所提高。又考虑到候选文本中有部分第二文本分词其实没有判断的比要，例如：的、地、得等第二文本分词，这些第二文本分词会降低搜索效率。因此，除了对第一文本进行关键词提取，得到搜索关键词以外，还可对候选文本进行关键词提取，得到候选关键词，根据搜索关键词与候选关键词是否相同，得到包含候选关键词的候选文本，从而得到包含搜索关键词的第三文本。

具体的，在一些实施例中，匹配文本对包括候选文本，匹配文本对库还包括候选文本的候选关键词。步骤S402具体包括但不限于：

根据搜索关键词在匹配文本对库中对每一候选关键词进行相同词判断，得到判断结果；

基于判断结果对候选文本进行筛选，得到包含搜索关键词的第三文本。

具体地，将第一文本与候选文本是否为同义文本的判断，转化为搜索关键词与候选关键词的是否为相同词的判断，大大提高了搜索第二文本对的效率。

需要说明的是，对于大多数文本而言，将搜索关键词与候选关键词是否相同来替代第一文本与第三文本的文本相似度，会对判断文本同义的准确率有些影响。但由于本申请实施例的第一文本对和第二文本对均为疾病名称，而疾病名称中包含相同的关键词足以说明文本之间互相同义。因此，本申请实施例不仅能够有效提高文本搜索效率，且还能提高识别第一文本和第二文本是否匹配的准确率。

在一些实施例的步骤S103中，对第一文本对进行向量转化，得到第一向量，并对第二文本对进行向量转化，得到第二向量。

在一示例中，对第一文本对中的第一文本和第二文本进行文本拼接，得到第一拼接文本；通过编码模型对第一拼接文本进行向量编码，得到第一向量；对第二文本对中的第三文本和第四文本进行文本拼接，得到第二拼接文本；通过编码模型对第二拼接文本进行向量编码，得到第二向量。需要说明的是，编码模型可以是类BERT的所有模型，如RoBERTa模型，DeBERTa模型等。

在另一示例中，通过编码模型对第一文本对中的第一文本进行向量编码，得到第一中间向量；通过编码模型对第一文本对中的第二文本进行向量编码，得到第二中间向量；对第一中间向量和第二中间向量进行向量拼接，得到第一向量；通过编码模型对第二文本对中的第三文本进行向量编码，得到第三中间向量；通过编码模型对第二文本对中的第四文本进行向量编码，得到第四中间向量；对第三中间向量和第四中间向量进行向量拼接，得到第二向量。

具体的，在另一些实施例中，参阅图6，在步骤S104之前，识别文本匹配的方法具体包括但不限于步骤S501至步骤S502：

步骤S501，将第一向量和第二向量输入至预设的全连接网络，通过全连接网络对第一向量和第二向量进行数值映射，得到向量匹配分数；

步骤S502，基于向量匹配分数，确定第一向量和第二向量的匹配度。

本申请实施例所示意的步骤S501至步骤S502，通过全连接网络对第一向量和第二向量进行数值映射，得到向量匹配分数。向量匹配分数用于表征第一向量和第二向量相似的概率。基于向量匹配分数确定第一向量和第二向量的匹配度。

在另一些实施例中，参阅图7，在步骤S501之前，识别文本匹配的方法具体包括但不限于：预训练全连接网络，具体包括：

步骤S601，获取第一样本文本对，并获取第一样本文本对的原始匹配分数；第一样本文本对包括第一样本文本和第二样本文本；

步骤S602，根据第一样本文本在匹配文本对库中进行搜索，得到第二样本文本对，其中，第二样本文本对是匹配文本对库中的一个匹配文本对，第二样本文本对包括第三样本文本和第四样本文本，且第三样本文本是第一样本文本的同义文本；

步骤S603，对第一样本文本对进行向量转化，得到第一样本向量，并对第二样本文本对进行向量转化，得到第二样本向量；

步骤S604，将第一样本向量和第二样本向量输入至全连接网络，通过全连接网络对第一样本向量和第二样本向量进行数值映射，得到目标匹配分数；

步骤S605，根据目标匹配分数和原始匹配分数，确定全连接网络的损失值；

步骤S606，根据损失值对全连接网络进行参数调整，得到训练后的全连接网络。

本申请实施例所示意的步骤S601至步骤S606，在对全连接网络进行训练的过程中，不在是仅依靠输入的第一样本文本对，还利用了第二样本文本对，实现了训练数据的扩充。另外，第二样本对是根据第一样本文本在匹配文本对库中搜索得到，且第二样本对中的第三样本文本与第一样本文本是同义文本，在实现训练数据的扩充基础上，保住了训练数据的准确性。原始匹配分数是第一样本文本和第二样本文本的原始标签，目标匹配分数为经过数据扩充和全连接网络数值映射后得到的目标标签。基于原始匹配分数和目标匹配分数可以计算出匹配差值，从而确定损失值。该损失值用于表示全连接网络的性能，通过该损失值对全连接网络进行参数调整，可以优化全连接网络的性能，使得损失值收敛，得到训练后的全连接网路。

需要说明的是，未经训练的全连接网络或训练后的全连接网络都可接收至少两个向量，并输出匹配分数。但本申请实施例训练后的全连接网络在进行第一向量和第二向量的数值映射时，准确率更高。也更适合本申请实施例以疾病名称为主的第一文本和第二文本。

还需要说明的是，除了通过全连接网络进行数值映射得到匹配分数之外，可通过计算第一向量和第二向量的余弦相似度，得到第一向量和第二向量的匹配度。另外，还可通过其他向量求相似度的方式确定第一向量和第二向量的匹配度，此处不再赘述。

在一些实施例的步骤S104中，基于第一向量和第二向量的匹配度，确定第二文本和第四文本的匹配关系。

具体地，若第一向量和第二向量的匹配度大于预设匹配度阈值，则第二文本和第四文本的匹配关系为匹配；若第一向量和第二向量的匹配度小于或等于预设匹配度阈值，则第二文本和第四文本的匹配关系为不匹配。

具体地，若第二文本和第四文本的匹配关系为匹配，则第一文本和第二文本为匹配；若第二文本和第四文本的匹配关系为不匹配，则第一文本和第二文本为不匹配。

请参阅图8，本申请实施例还提供识别文本匹配的装置，可以实现上述识别文本匹配的方法，图8为本申请实施例提供的识别文本匹配的装置的模块结构框图，该装置包括：文本获取模块701、文本搜索模块702、文本转化模块703、初步匹配模块704和目标匹配模块705。其中，文本获取模块701用于获取第一文本对，第一文本对包括第一文本和第二文本；文本搜索模块702用于根据第一文本在匹配文本对库中进行搜索，得到第二文本对，其中，第二文本对是匹配文本对库中的一个匹配文本对，第二文本对包括第三文本和第四文本，且第三文本是所述第一文本的同义文本；文本转化模块703用于对第一文本对进行向量转化，得到第一向量，并对第二文本对进行向量转化，得到第二向量；初步匹配模块704用于基于第一向量和第二向量的匹配度，确定第二文本和第四文本的匹配关系；目标匹配模块705用于基于第二文本和第四文本的匹配关系，确定第一文本和第二文本是否匹配。

需要说明的是，该识别文本匹配的装置的具体实施方式与上述识别文本匹配的方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了电子设备，电子设备包括：存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线，程序被处理器执行时实现上述识别文本匹配的方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图9，图9示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器801，可以采用通用的CPU(Centra l Process i ng Un i t，中央处理器)、微处理器、应用专用集成电路(App l i cat i on Spec i f i c I ntegrated Ci rcuit，AS I C)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器802，可以采用只读存储器(Read On l y Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器802可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器802中，并由处理器801来调用执行本申请实施例的识别文本匹配的方法；

输入/输出接口803，用于实现信息输入及输出；

通信接口804，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WI F I、蓝牙等)实现通信；

总线805，在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息；

其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。

本申请实施例还提供了存储介质，存储介质为计算机可读存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述识别文本匹配的方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的识别文本匹配的方法、识别文本匹配的装置、电子设备及存储介质，包括：在确定第一文本和第二文本是否匹配之前，根据第一文本在匹配文本对库中搜索出与第二文本对，且第一文本与第二文本对中的第三文本为同义文本，第三文本与第四文本构成匹配文本对库中的一个匹配文本对。分别对第一文本对和第二文本对进行向量转化，得到第一向量和第二向量。再根据第一向量和第二向量的匹配度，确定第一向量和第二向量是否匹配。由于第一向量中的第一文本和第二向量中的第三文本为同义文本，则根据第一向量和第二向量的匹配度，可以确定第二文本和第四文本的匹配关系。最后根据第二文本和第四文本的匹配关系，确定第一文本和第四文本是否匹配。综上所述，本申请实施例通过第一文本搜索第二文本对的方式，把识别第一文本与第二文本是否匹配转化成第一文本对与第二文本对是否匹配，由于利用了已标注好的匹配文本对，提高了识别文本匹配的准确率。进一步地，本申请实施例避免因标注数据过少而导致的识别文本匹配的准确率过低的技术问题。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图2-7中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-On ly Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种识别文本匹配的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一文本在匹配文本对库中进行搜索，得到第二文本对，包括：

获取所述第一文本的搜索关键词；

3.根据权利要求2所述的方法，其特征在于，所述匹配文本对包括候选文本，所述匹配文本对库还包括所述候选文本的候选关键词，所述根据所述第一文本的搜索关键词在所述匹配文本对库中进行搜索，得到包含所述搜索关键词的所述第三文本，包括：

4.根据权利要求1所述的方法，其特征在于，所述匹配文本对包括候选文本，所述候选文本包括至少一个第二文本分词，所述根据所述第一文本在匹配文本对库中进行搜索，得到第二文本对，包括：

对所述第一文本进行分词，得到至少一个第一文本分词；

5.根据权利要求4所述的方法，其特征在于，所述根据所述相同分词的词数量确定所述第一文本和所述候选文本的文本匹配度，包括：

根据所述词匹配度确定所述文本匹配度。

6.根据权利要求1至5任一项所述的方法，其特征在于，在所述基于所述第一向量和所述第二向量的匹配度，确定所述第二文本和所述第四文本的匹配关系之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，在将所述第一向量和所述第二向量输入至预设的全连接网络之前，所述方法还包括：

预训练所述全连接网络，包括：

8.一种识别文本匹配的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。