CN114942980A

CN114942980A - 一种确定文本匹配方法及装置

Info

Publication number: CN114942980A
Application number: CN202210863942.7A
Authority: CN
Inventors: 王卿云; 亓克娜; 朱凯泉
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-08-26
Anticipated expiration: 2042-07-22
Also published as: CN114942980B

Abstract

本申请提供一种确定文本匹配方法及装置，应用于深度学习的技术领域。该方法包括：获取第一文本和第二文本，从所述第一文本中提取第一关键词，构建第一特征图，从所述第二文本中提取第二关键词，构建第二特征图。将第一特征图输入预设神经网络模型训练，获得第一向量，将第二特征图输入预设神经网络模型训练，获得第二向量，基于处理长度不同且粒度相同的匹配任务的多任务学习模型，根据第一向量、第二向量的乘积确定第一匹配概率。响应于所述第一匹配概率大于第一阈值，确定第一文本和第二文本匹配。本申请中通过训练好的多任务学习模型确定文本匹配概率，可以处理长度不同且粒度相同的多种匹配任务，提高确定文本匹配效率。

Description

一种确定文本匹配方法及装置

技术领域

本申请涉及深度学习的技术领域，特别是涉及一种确定文本匹配方法。

背景技术

近年来，随着互联网的高速发展，网络平台上时常会出现一些相似或者冗余的文本，由于文本中大多存在大量文字内容，用户难以在短时间进行判别两个或者多个文本是否相似。而且运营商也很难为用户推荐表意不同的文本。所以需要对不同文本进行匹配，以筛选出匹配文本。

目前，通过transformer模型确定两个文本是否匹配，由于transformer模型只能解决一类特定的匹配任务，例如，长长文本匹配、长短文本匹配等原因，导致其有确定文本匹配效率低缺点。

因此，如何处理所有类型的匹配任务，提高确定文本匹配效率，是本领域技术人员急需解决的技术问题。

发明内容

基于上述问题，本申请提供了一种确定文本匹配方法及装置，以能够处理所有类型的匹配任务，提高确定文本匹配效率。本申请实施例公开了如下技术方案。

第一方面，本申请提的一种确定文本匹配方法，包括：

获取第一文本和第二文本；

从所述第一文本中提取第一关键词，构建第一特征图，从所述第二文本中提取第二关键词，构建第二特征图；

将所述第一特征图输入预设神经网络模型训练，获得第一向量，将所述第二特征图输入所述预设神经网络模型训练，获得第二向量；

基于多任务学习模型，根据所述第一向量和所述第二向量的乘积确定第一匹配概率，所述多任务学习模型用于处理长度不同且粒度相同的匹配任务；

响应于所述第一匹配概率大于第一阈值，确定所述第一文本和所述第二文本匹配。

可选的，所述从所述第一文本中提取第一关键词，构建第一特征图，包括：

从所述第一文本中提取第一关键词，获得第一节点集合；

从所述第一节点集合中确定多个第二节点，通过所述多个第二节点构建所述第一特征图，第二节点为所述第一节点集合中处于同一句话的节点。

可选的，在所述构建所述第一特征图之前，所述方法还包括：

计算第一相关性，所述第一相关性为所述多个第二节点之间的相关性；

响应于所述第一相关性大于第一相关性阈值，连接所述多个第二节点，构建所述第一特征图。

可选的，所述基于多任务学习模型，根据所述第一向量和所述第二向量的乘积确定第一匹配概率包括：

根据所述第一向量和所述第二向量的乘积确定第一训练参数；

将所述第一训练参数、事件粒度常数和话题粒度常数输入多任务学习模型；

根据所述第一训练参数、所述事件粒度常数和所述话题粒度常数的乘积确定所述第一匹配概率，所述事件粒度常数用于指示文本匹配中事件匹配的重要程度，所述话题粒度常数用于指示文本匹配中话题匹配的重要程度。

可选的，在确定所述第一文本和所述第二文本匹配之后，所述方法还包括：

基于所述第一匹配概率，训练第一模型，所述第一模型用于判断第三文本和第四文本是否匹配。

第二方面，本申请提供一种确定文本匹配装置，包括：

获取单元，用于获取第一文本和第二文本；

提取单元，用于从所述第一文本中提取第一关键词，构建第一特征图，从所述第二文本中提取第二关键词，构建第二特征图；

输入单元，用于将所述第一特征图输入预设神经网络模型训练，获得第一向量，将所述第二特征图输入所述预设神经网络模型训练，获得第二向量；

第一确定单元，用于基于多任务学习模型，根据所述第一向量和所述第二向量的乘积确定第一匹配概率，所述多任务学习模型用于处理长度不同且粒度相同的匹配任务；

第二确定单元，用于响应于所述第一匹配概率大于第一阈值，确定所述第一文本和所述第二文本匹配。

可选的，所述提取单元具体用于，

从所述第一文本中提取第一关键词，获得第一节点集合；

可选的，所述装置还包括：

计算单元，用于计算第一相关性，所述第一相关性为所述多个第二节点之间的相关性；

响应单元，用于响应于所述第一相关性大于第一相关性阈值，连接所述多个第二节点，构建所述第一特征图。

可选的，所述第一确定单元具体用于：

可选的，所述装置还包括：

训练单元，用于基于所述第一匹配概率，训练第一模型，所述第一模型用于判断第三文本和第四文本是否匹配。

第三方面，本申请实施例提供了一种设备，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行前述第一方面任一项所述的方法。

第四方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现前述第一方面任一项所述的方法。

相较于现有技术，本申请具有以下有益效果：

本申请中获取第一文本和第二文本，从所述第一文本中提取第一关键词，构建第一特征图，从所述第二文本中提取第二关键词，构建第二特征图。将第一特征图输入预设神经网络模型训练，获得第一向量，将第二特征图输入预设神经网络模型训练，获得第二向量，基于用于处理长度不同且粒度相同的匹配任务的多任务学习模型，根据第一向量、第二向量的乘积确定第一匹配概率。响应于所述第一匹配概率大于第一阈值，确定第一文本和第二文本匹配。本申请中通过训练好的多任务学习模型确定文本匹配概率，可以处理长度不同且粒度相同的多个匹配任务。这样就克服了现有技术中通过transformer模型确定两个文本是否匹配，由于transformer模型只能解决一类特定的匹配任务，例如，长长文本匹配、长短文本匹配等，导致其存在确定文本匹配效率低的问题。提高确定文本匹配效率。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种确定文本匹配方法流程图；

图2为本申请实施例提供的一种确定文本匹配装置一种具体的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

需要说明的是，本申请提供的一种确定文本匹配方法及装置，用于深度学习领域，上述仅为示例，并不对本申请提供的方法及装置名称的应用领域进行限定。

发明人经过研究，提出本申请方案，本申请中通过训练好的多任务学习模型确定文本匹配概率，可以处理长度不同且粒度相同的多个匹配任务。这样就克服了现有技术中通过transformer模型确定两个文本是否匹配，由于transformer模型只能解决一类特定的匹配任务，例如，长长文本匹配、长短文本匹配等，导致其存在确定文本匹配效率低的问题。提高确定文本匹配效率。

本申请实施例提供的方法可以由终端设备上的软件执行。所述终端设备例如可以是手机、平板电脑、计算机等设备。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。下面以本申请实施例提供的方法由第一设备执行为例进行说明。

图1为本申请实施例提供的一种确定文本匹配方法流程图，如图1所示，该方法包括：

S101：获取第一文本和第二文本。

第一设备获取第一文本和第二文本。其中，文本指的是书面语言的表达形式，例如可以是一段文字、一篇新闻、一篇文章等。

S102：从所述第一文本中提取第一关键词，构建第一特征图，从所述第二文本中提取第二关键词，构建第二特征图。

第一设备在获取第一文本和第二文本之后，从第一文本中提取第一关键构建第一特征图，从第二文本中提取第二关键词，构建第二特征图。

进一步解释，利用TextRank算法提取文本的关键词，把每个关键词作为一个节点，可以称为第一节点。需要说明的是，可以从一个文本中提取多个关键词，可以获得多个第一节点集合，也可以把每个第一节点集合称为一个社区。如果两个关键词来自同一句话，可以给两个关键词对应的第一节点连接一条边。然后对每个社区中的第一节点进行分类，把来自同一句话的关键词对应的第一节点分为一类，可以将分类后的节点称为第二节点，生成多个第二节点集合。可以理解的是每个第二节点集合中包括多个来自同一句话的关键词对应的节点。然后将输入的文本和多个第二节点集合进行匹配，找到包括节点数最多的第二节点集合，将输入的文本归属于该新第二的节点集合。

然后计算第一相关性，也就是多个第二节点之间的相关性，判断第一相关性和第一相关性阈值的大小关系，当确定第一相关性大于第一相关性阈值，连接多个第二节点，构建特征图。其中，第一相关性阈值可以是根据需求预先设定。

将获取的第一文本和第二文本经过上述步骤，构建第一特征图和第二特征图。

S103：将所述第一特征图输入预设神经网络模型训练，获得第一向量，将所述第二特征图输入所述预设神经网络模型训练，获得第二向量。

第一设备在构建第一特征图和第二特征图之后，将构建的第一特征图输入图神经网络GCN训练并编码获得第一向量，将构建的第一特征图输入图神经网络GCN训练并编码获得第二向量，然后将第一向量和第二向量相乘，获得结果X的值。

S104：基于多任务学习模型，根据所述第一向量和所述第二向量的乘积确定第一匹配概率，所述多任务学习模型用于处理长度不同且粒度相同的匹配任务。

多任务学习模型可以为LayerNorm模型，主要目的是为了结合不同长度和不同粒度的训练模型，统一为一个模型。并让它们能够在底层共享参数，彼此学习。将获得的结果X的值输入LayerNorm模型，通过修改LayerNorm参数事件粒度常数γ和话题粒度常数β，增加长度组合和粒度组合的区分度，其中LayerNorm模型的公式为：

其中，E[x]是平均值，

是标准差，ε为常数，y为第一匹配概率，是一个处于[0,1]区间的小数，事件粒度常数γ和话题粒度常数β是控制文本匹配中事件匹配和话题匹配走向的两个参数，例如，输入是长长话题匹配时，β=2， γ=1，当输入是长长事件匹配时，γ=2，β =1。

S105：响应于所述第一匹配概率大于第一阈值，确定所述第一文本和所述第二文本匹配。

第一设备在获取第一匹配概率之后，判断第一匹配概率和第一阈值的大小关系，当确定第一匹配概率大于第一阈值时，确定第一文本和第二文本匹配。其中，第一阈值可以根据需求预先设定可以为[0,1]之间的小数。

本申请中获取第一文本和第二文本，从所述第一文本中提取第一关键词，构建第一特征图，从所述第二文本中提取第二关键词，构建第二特征图。将第一特征图输入预设神经网络模型训练，获得第一向量，将第二特征图输入预设神经网络模型训练，获得第二向量，基于处理长度且粒度相同的匹配任务的多任务学习模型，根据第一向量、第二向量的乘积确定第一匹配概率。响应于所述第一匹配概率大于第一阈值，确定第一文本和第二文本匹配。本申请中通过训练好的多任务学习模型确定文本匹配概率，可以处理长度不同且粒度相同的多种匹配任务。这样就克服了现有技术中通过transformer模型确定两个文本是否匹配，由于transformer模型只能解决一类特定的匹配任务，例如，长长文本匹配、长短文本匹配等，导致其存在确定文本匹配效率低的问题。提高确定文本匹配效率。

在上述介绍的基础上，由于图神经网络GCN存在复杂的网络结构，会导致处理速度变慢。所以本申请实施例提供的技术方案还可以在获取第一匹配概率之后，基于第一匹配概率，训练第一模型。利用较小的预训练模型对复杂网络进行训练，保证高准确率的同时降低了推理速度。

具体的，第一模型的主要目的是为了将得到的第一匹配概率和真实的标签信息进行混合训练。这样做的好处是，通过拟合分布，能够最大限度的使得第一模型的性能逼近孪生-图神经网络SEGCN，同时第一模型在推理过程中全程使用矩阵运算，能够有效提高推理速度。整个过程采用KL作为损失函数，q表示学生模型的分布，p表示教师模型的输出分布，其中的公式为:

在训练过程中，为了解决缺乏鲁棒性和增加样本集合，可以加入了快速梯度法FGM对抗训练，通过增加扰动保证模型鲁棒性，加入基于简单对比学习句子嵌入法SimCSE，通过dropout产生正负样本，通过加入lookahead希望模型能够找到更快的梯度下降的方向等。

具体地，本具体实施方式与上述具体实施方式的不同之处在于，添加了在获取第一匹配概率之后，基于第一匹配概率，训练第一模型的步骤，其余步骤均与上述具体实施方式相同，在此不再展开赘述。

以上为本申请实施例提供一种确定文本匹配方法的一些具体实现方式，基于此，本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的装置进行介绍，该装置与上文描述的数据输入的方法可相互对应参照。

图2为本申请实施例提供的一种确定文本匹配装置一种具体的结构示意图，该装置包括：

获取单元200，用于获取第一文本和第二文本；

提取单元210，用于从所述第一文本中提取第一关键词，构建第一特征图，从所述第二文本中提取第二关键词，构建第二特征图；

输入单元220，用于将所述第一特征图输入预设神经网络模型训练，获得第一向量，将所述第二特征图输入所述预设神经网络模型训练，获得第二向量；

第一确定单元230，用于基于多任务学习模型，根据所述第一向量和所述第二向量的乘积确定第一匹配概率，所述多任务学习模型用于处理长度不同且粒度相同的匹配任务；

第二确定单元240，用于响应于所述第一匹配概率大于第一阈值，确定所述第一文本和所述第二文本匹配。

可选的，所述提取单元具体用于，

从所述第一文本中提取第一关键词，获得第一节点集合，从第一节点集合中确定多个第二节点，通过所述多个第二节点构建所述第一特征图，第二节点为所述第一节点中处于同一句话的节点。

可选的，所述装置还包括：

计算单元，用于计算第一相关性，所述第一相关性为多个第二节点之间的相关性；

响应单元，用于响应于所述第一相关性大于所述第一相关性阈值，连接所述多个第二节点，构建所述第一特征图。

可选的，所述第一确定单元具体用于：

将所述第一训练参数、所述事件粒度常数和所述话题粒度常数输入多任务学习模型，根据所述第一训练参数、所述事件粒度常数和所述话题粒度常数的乘积确定匹配概率，所述事件粒度常数用于指示文本匹配中事件匹配的重要程度，所述话题粒度常数用于指示文本匹配中话题匹配的重要程度。

可选的，所述装置还包括：

训练单元，用于基于所述第一匹配概率，训练第一模型，所述第一模型用于确定不同文本的匹配概率。

本申请中获取单元200获取第一文本和第二文本，提取单元210从所述第一文本中提取第一关键词，构建第一特征图，从所述第二文本中提取第二关键词，构建第二特征图。输入单元220将第一特征图输入预设神经网络模型训练，获得第一向量，将第二特征图输入预设神经网络模型训练，获得第二向量，第一确定单元230基于处理长度且粒度相同的匹配任务的多任务学习模型，根据第一向量、第二向量的乘积确定第一匹配概率。第二确定单元240响应于所述第一匹配概率大于第一阈值，确定第一文本和第二文本匹配。本申请中通过训练好的多任务学习模型确定文本匹配概率，可以处理长度不同且粒度相同的多种匹配任务。这样就克服了现有技术中通过transformer模型确定两个文本是否匹配，由于transformer模型只能解决一类特定的匹配任务，例如，长长文本匹配、长短文本匹配等，导致其存在确定文本匹配效率低的问题。提高确定文本匹配效率。

本申请实施例还提供了对应的设备以及计算机存储介质，用于实现本申请实施例提供的方案。

其中，所述设备包括存储器和处理器，所述存储器用于存储指令或代码，所述处理器用于执行所述指令或代码，以使所述设备执行本申请任一实施例所述的方法。

所述计算机存储介质中存储有代码，当所述代码被运行时，运行所述代码的设备实现本申请任一实施例所述的方法。

本申请实施例中提到的 “第一”、“第二”（若存在）等名称中的“第一”、“第二”只是用来做名字标识，并不代表顺序上的第一、第二。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如只读存储器（英文：read-only memory，ROM）/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者诸如路由器等网络通信设备）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请示例性的实施方式，并非用于限定本申请的保护范围。

Claims

1.一种确定文本匹配方法，其特征在于，包括：

获取第一文本和第二文本；

2.根据权利要求1中所述的方法，其特征在于，所述从所述第一文本中提取第一关键词，构建第一特征图，包括：

从所述第一文本中提取第一关键词，获得第一节点集合；

3.根据权利要求2中所述的方法，其特征在于，在所述构建所述第一特征图之前，所述方法还包括：

4.根据权利要求1中所述的方法，其特征在于，所述基于多任务学习模型，根据所述第一向量和所述第二向量的乘积确定第一匹配概率包括：

5.根据权利要求1中所述的方法，其特征在于，在确定所述第一文本和所述第二文本匹配之后，所述方法还包括：

6.一种确定文本匹配装置，其特征在于，包括：

获取单元，用于获取第一文本和第二文本；

7.根据权利要求6中所述的装置，其特征在于，所述提取单元具体用于：

从所述第一文本中提取第一关键词，获得第一节点集合；

8.根据权利要求7中所述的装置，其特征在于，所述装置还包括：

9.根据权利要求6中所述的装置，其特征在于，所述第一确定单元具体用于：

10.根据权利要求7中所述的装置，其特征在于，所述装置还包括：