CN114780709A

CN114780709A - 文本匹配方法、装置及电子设备

Info

Publication number: CN114780709A
Application number: CN202210283487.3A
Authority: CN
Inventors: 杨扬; 李丹; 王金刚; 张富峥; 武威
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-07-22
Anticipated expiration: 2042-03-22
Also published as: CN114780709B

Abstract

本发明公开了一种文本匹配方法、装置及电子设备。其中，该方法包括：将查询文本以及关联文本输入至文本匹配模型，其中，文本匹配模型是由训练样本以及交互损失函数预先训练得到的，训练样本包括第一文本与第二文本，交互损失函数用于表征第一文本与第二文本之间的交互信息；通过文本匹配模型的两个特征处理层，分别确定查询文本对应的第一向量表示，以及，关联文本对应的第二向量表示；根据文本匹配模型中的特征分类层，根据第一向量表示以及第二向量表示，确定查询文本与关联文本的相似度。本发明解决了由于相关技术中文本匹配任务中，单塔模型计算耗时，双塔模型准确度较低，无法保证对文本匹配任务的处理效率的技术问题。

Description

文本匹配方法、装置及电子设备

技术领域

本发明涉及文本识别技术领域，具体而言，涉及一种文本匹配方法、装置及电子设备。

背景技术

文本匹配是个非常典型的任务，如搜索中常见的搜索召回和排序、检索式问答等任务，本质上都属于文本匹配的任务，即给定一段文本作为query，然后匹配出最为相关的文档或答案然后返回给用户。

在这些信息检索的业务场景中，通常需要计算搜索词Query和文档Doc(兴趣点POI、广告Ad、Query、用户生成内容UGC等等)的文本匹配相关性。主流的文本相关性匹配架构分为两大类：(1)以DSSM(深度语义模型，Deep Structured Semantic Models)为代表的双塔模型，由于BERT(双向编码器表示，Bidirectional Encoder Representation fromTransformers)预训练语言模型具有强大的文本表征能力，也在多项自然语言处理NLP任务中得到了验证，基于BERT的双塔模型也被提出及广泛应用。(2)交互式单塔模型。

申请人在实现本发明的过程中，发现相关技术中至少存在以下技术问题。

单塔模型：对Query和Doc端的每个词进行交互，无法离线计算doc的表征向量，每处理一个query都只能遍历所有(query,doc)的pairs依次计算相关性，所以相当耗时，无法满足上线要求。

双塔模型：Query和Doc只在最后的相关性判别函数计算时才发生交互，Query端与Doc过于分离，完全没有进行信息交互，这样导致模型表达为一个静态向量，表达能力受限，这种独立的编码方式会对模型的匹配性能造成很大影响。

弱交互模型：计算Query与Doc的表征时，并不进行交互，部分缓解了单塔模型的效率问题，但是其在获得相应表征输出后依旧进行了交互，最后再通过交互后的表达计算相似度，这部分弱交互包括attention等计算，依然会给线上计算效率问题带来一定的挑战。

可见，相关技术中针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本匹配方法、装置及电子设备，以至少解决由于相关技术中文本匹配任务中，单塔模型计算耗时，双塔模型准确度较低，无法保证对文本匹配任务的处理效率的技术问题。

根据本发明实施例的一个方面，提供了一种文本匹配方法，包括：将查询文本以及关联文本输入至文本匹配模型，其中，所述文本匹配模型是由训练样本以及交互损失函数预先训练得到的，所述训练样本包括第一文本与第二文本，所述交互损失函数用于表征所述第一文本与所述第二文本之间的交互信息；通过所述文本匹配模型的两个特征处理层，分别确定所述查询文本对应的第一向量表示，以及，所述关联文本对应的第二向量表示；根据所述文本匹配模型中的特征分类层，根据所述第一向量表示以及所述第二向量表示，确定所述查询文本与所述关联文本的相似度。

进一步地，所述特征处理层包括特征提取子网络以及池化层，其中，通过所述文本匹配模型的两个特征处理层，分别确定所述查询文本对应的第一向量表示，以及，所述关联文本对应的第二向量表示，包括：通过所述特征提取子网络，获取所述查询文本对应的第一文本向量，以及所述关联文本对应的第二文本向量；通过所述池化层，根据所述第一文本向量获取所述第一向量表示，根据所述第二文本向量获取所述第二向量表示。

进一步地，所述第一文本向量以及所述第二文本向量分别包括标记序列，所述标记序列包括多个文本标记以及语义标记，其中，通过所述池化层，根据所述第一文本向量获取所述第一向量表示，根据所述第二文本向量获取所述第二向量表示包括：根据所述多个文本标记以及所述语义标记分别对应的权重进行平均加权，以得到所述标记序列对应的文本向量表示；或，对所述多个文本标记以及所述语义标记进行平均池化，以得到所述标记序列对应的文本向量表示。

进一步地，根据所述文本匹配模型中的特征分类层，根据所述第一向量表示以及所述第二向量表示，确定所述查询文本与所述关联文本的相似度，包括：根据所述第一向量表示以及所述第二向量表示确定余弦相似度；或，对所述第一向量表示以及所述第二向量表示进行融合，并通过Softmax函数确定所述相似度。

进一步地，在将查询文本以及关联文本输入至文本匹配模型之前，还包括：通过所述训练样本的交叉熵损失，确定所述文本匹配模型的任务损失函数；通过预先训练完成的教师文本匹配模型，获取所述训练样本对应的预测结果，并根据所述预测结果确定教师损失函数，其中，所述教师文本匹配模型为单塔模型；通过所述教师文本匹配模型以及所述训练样本，确定虚拟注意力蒸馏损失函数；根据所述任务损失函数、所述教师损失函数以及所述虚拟注意力蒸馏损失函数确定所述交互损失函数；根据所述交互损失函数训练所述文本匹配模型。

进一步地，所述教师文本匹配模型的教师特征提取层包括N层第一编码器，所述第一编码器包括N层第一注意力层，所述文本匹配模型包括所述查询文本对应的第一特征提取层以及所述关联文本对应的第二特征提取层，所述第一特征提取层包括N层第二编码器，所述第二特征提取层包括N层第三编码器，所述第二编码器包括N层第二注意力层，所述第三编码器包括N层第三注意力层，N为大于1的整数，其中，通过所述教师文本匹配模型以及所述训练样本，构建虚拟注意力蒸馏损失函数，包括：根据所述训练样本获取所述N层第一注意力层对应的N个第一虚拟注意力向量，以及N个第二虚拟注意力向量；根据所述训练样本获取所述N层第二注意力层对应的N个第三虚拟注意力向量，以及所述N层第三注意力层对应的N个第四虚拟注意力向量；根据所述N个第一虚拟注意力向量、所述N个第二虚拟注意力向量、所述N个第三虚拟注意力向量以及所述N个第四虚拟注意力向量，确定所述虚拟注意力蒸馏损失函数。

根据本发明实施例的另一方面，还提供了一种文本匹配装置，包括：输入模块，用于将查询文本以及关联文本输入至文本匹配模型，其中，所述文本匹配模型是由训练样本以及交互损失函数预先训练得到的，所述训练样本包括第一文本与第二文本，所述交互损失函数用于表征所述第一文本与所述第二文本之间的交互信息；第一确定模块，用于通过所述文本匹配模型的两个特征处理层，分别确定所述查询文本对应的第一向量表示，以及，所述关联文本对应的第二向量表示；第二确定模块，用于根据所述文本匹配模型中的特征分类层，根据所述第一向量表示以及所述第二向量表示，确定所述查询文本与所述关联文本的相似度。

进一步地，还包括：第三确定模块，用于在将查询文本以及关联文本输入至文本匹配模型之前，通过所述训练样本的交叉熵损失，确定所述文本匹配模型的任务损失函数；获取模块，用于通过预先训练完成的教师文本匹配模型，获取所述训练样本对应的预测结果，并根据所述预测结果确定教师损失函数，其中，所述教师文本匹配模型为单塔模型；第四确定模块，用于通过所述教师文本匹配模型以及所述训练样本，确定虚拟注意力蒸馏损失函数；第五确定模块，用于根据所述任务损失函数、所述教师损失函数以及所述虚拟注意力蒸馏损失函数确定所述交互损失函数；训练模块，用于根据所述交互损失函数训练所述文本匹配模型。

进一步地，所述教师文本匹配模型的教师特征提取层包括N层第一编码器，所述第一编码器包括N层第一注意力层，所述文本匹配模型包括所述查询文本对应的第一特征提取层以及所述关联文本对应的第二特征提取层，所述第一特征提取层包括N层第二编码器，所述第二特征提取层包括N层第三编码器，所述第二编码器包括N层第二注意力层，所述第三编码器包括N层第三注意力层，N为大于1的整数，其中，所述第四确定模块包括：第一获取子模块，用于根据所述训练样本获取所述N层第一注意力层对应的N个第一虚拟注意力向量，以及N个第二虚拟注意力向量；第二获取子模块，用于根据所述训练样本获取所述N层第二注意力层对应的N个第三虚拟注意力向量，以及所述N层第三注意力层对应的N个第四虚拟注意力向量；确定子模块，用于根据所述N个第一虚拟注意力向量、所述N个第二虚拟注意力向量、所述N个第三虚拟注意力向量以及所述N个第四虚拟注意力向量，确定所述虚拟注意力蒸馏损失函数。

根据本发明实施例的另一方面，还提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上所述的文本匹配方法的步骤。

根据本发明实施例的另一方面，还提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上所述的文本匹配方法的步骤。

在本发明实施例中，通过将查询文本以及关联文本输入至文本匹配模型，其中，文本匹配模型是由训练样本以及交互损失函数预先训练得到的，训练样本包括第一文本与第二文本，交互损失函数用于表征第一文本与第二文本之间的交互信息；通过文本匹配模型的两个特征处理层，分别确定查询文本对应的第一向量表示，以及，关联文本对应的第二向量表示；根据文本匹配模型中的特征分类层，根据第一向量表示以及第二向量表示，确定查询文本与关联文本的相似度。通过由交互损失函数以及训练样本训练得到的双塔结构的文本匹配模型，对查询文本以及关联文本进行预测，实现了将单塔模型中的交互信息迁移至双塔模型的目的，从而实现了在保证预测准确度的情况下，提高预测速度的技术效果，进而解决了由于相关技术中文本匹配任务中，单塔模型计算耗时，双塔模型准确度较低，无法保证对文本匹配任务的处理效率的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的文本匹配方法的流程示意图；

图2是根据本发明实施例的一种可选的文本匹配模型的示意图；

图3是根据本发明实施例的又一种可选的文本匹配模型的示意图；

图4a是根据本发明实施例的一种可选的教师文本匹配模型的示意图；

图4b是根据本发明实施例的又一种可选的文本匹配模型的示意图；

图4c是根据本发明实施例的一种可选的交互信息迁移的示意图；

图5是根据本发明实施例的一种可选的文本匹配装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种文本匹配方法，如图1所示，该方法包括：

S102，将查询文本以及关联文本输入至文本匹配模型，其中，文本匹配模型是由训练样本以及交互损失函数预先训练得到的，训练样本包括第一文本与第二文本，交互损失函数用于表征第一文本与第二文本之间的交互信息；

在本实施例中所述的查询文本包括但不限于用户通过搜索页面输入的查询词和/或选择的查询条件，也可以为平台根据用户的行为生成的查询词和/或查询条件。本实施例的平台包括但不限于地理位置、服务、商品等任何网络平台。本实施例中对查询文本的对象不做任何限定。

具体实施时，通过平台的查询入口可以获取到针对当前次查询的查询输入，进一步的，平台根据获取的查询文本进行搜索查询，并召回查询文本对应的关联文本Doc、用户生成内容UGC以及与查询输入匹配的至少一个问题文本Query。例如，购物应用中，用户输入查询词“洗衣机”时，平台将召回的关联文本为“家电”，问题文本“衣机划算吗”、“洗衣机贵吗”、“扫地机划算吗”，以及用户生成内容“洗衣机性价比高”等，每一个查询词可以认为是一个查询文本，每一个查询词相关联的文本、问题、用户生成内容可以作为一个关联文本。

本实施例具体实施时，首先需要训练文本匹配模型。

在一些实施例中，根据用户查询在预设平台中的查询数据，构建训练样本集，其中，训练样本集中的每条训练样本包括：查询文本、关联文本。其中，用户的查询输入为一个查询文本。

首先，获取预设平台中的用户查询数据。通常，用户在预设平台上的每一查询行为都会生成一条查询记录，预设平台上存储的查询记录至少包括以下信息：查询文本Query、查询输入匹配的问题文本、候选问题、用户评论、相似度分数等。

然后，基于用户查询数据构建训练样本。在一些实施例中，通过对上述用户查询数据进行处理，可以得到训练样本。每条训练样本包括查询文本、关联文本、相似度分数等信息。在一些实施例中，将每一个样本表示为一个三元组，包括<查询文本、关联文本、相似度分数>。

接下来，基于构建的训练样本集训练文本匹配模型，以查询文本、关联文本作为模型输入，以相似度分数作为模型目标，训练文本匹配模型，直至模型收敛，或迭代预设次数。

S104，通过文本匹配模型的两个特征处理层，分别确定查询文本对应的第一向量表示，以及，关联文本对应的第二向量表示；

本实施例中的文本匹配模型为一个双塔模型，例如包括两个对称的Bert模型，此外，还可以是CNN(卷积神经网络，Convolutional Neural Networks)、LSTM(长短期记忆，Long Short-Term Memory)等模型。如图2所示，文本匹配模型中包括特征处理层200、特征处理层210以及特征分类层220。其中，特征处理层210与特征处理层220的结构以及参数相同。特征处理层200对查询文本进行特征提取以及特征处理，得到第一向量表示，特征处理层210对关联文本进行特征提取以及特征处理，得到第二向量表示。通过文本匹配模型中的特征处理层，分别确定查询文本以及关联文本分别对应的向量表示。

可选地，在本实施例中，特征处理层包括特征提取子网络以及池化层，其中，通过文本匹配模型的两个特征处理层，分别确定查询文本对应的第一向量表示，以及，关联文本对应的第二向量表示，包括但不限于：通过特征提取子网络，获取查询文本对应的第一文本向量，以及关联文本对应的第二文本向量；通过池化层，根据第一文本向量获取第一向量表示，根据第二文本向量获取第二向量表示。

本实施例中的文本匹配模型为一个双塔模型，如图3所示，文本匹配模型中包括特征处理层300、特征处理层310以及特征分类层320。其中，特征特征提取层300与特征提取层310的结构以及参数相同。特征提取层300中包括特征提取子网络302以及池化层304，特征提取层310中包括特征提取子网络312以及池化层314。

在如图3所示的例子中，通过特征提取子网络302对查询文本进行特征提取，得到第一文本向量，然后经过池化层304，可以得到第一文本向量的第一向量表示。通过特征提取子网络312对关联文本进行特征提取，得到第二文本向量，然后经过池化层314，可以得到第二文本向量的第二向量表示。

可选地，在本实施例中，第一文本向量以及第二文本向量分别包括标记序列，标记序列包括多个文本标记以及语义标记，其中，通过池化层，根据第一文本向量获取第一向量表示，根据第二文本向量获取第二向量表示包括但不限于以下两种方式：

1)根据多个文本标记以及语义标记分别对应的权重进行平均加权，以得到标记序列对应的文本向量表示；

具体地，以特征提取子网络为Bert模型为例进行说明，文本匹配模型为包括两个Bert模型的双塔结构模型，假定查询文本为Query，关联文本为Doc，通过两个Bert模型分别对Query和Doc进行表征以后，再各自经过一个Pooling Layer池化层，主要是将序列中每个token的向量进行融合变成一个向量进行表征，得到第一文本向量Query向量和第二文本向量Doc向量。

接下来，Bert模型输出的向量中包括一个语义标记token[CLS]以及多个文本标记token[SEP]，通过对[CLS]位token或者所有tokens向量平均加权以得到对应的文本向量表示。

2)对多个文本标记以及语义标记进行平均池化，以得到标记序列对应的文本向量表示。

具体地，仍以特征提取子网络为Bert模型为例进行说明，文本匹配模型为包括两个Bert模型的双塔结构模型，假定查询文本为Query，关联文本为Doc，通过两个Bert模型对Query和Doc进行表征以后，再各自经过一个Pooling Layer池化层，主要是将序列中每个token的向量进行融合变成一个向量进行表征，得到第一文本向量Query向量和第二文本向量Doc向量。

接下来，对Query的token进行平均池化average pooling操作得到Query的文本向量表示，对Doc的token进行average pooling操作得到Doc的文本向量表示。

S106，根据文本匹配模型中的特征分类层，根据第一向量表示以及第二向量表示，确定查询文本与关联文本的相似度。

在本实施例中，通过两个特征处理层，分别获取查询文本对应的第一向量表示以及关联文本对应的第二向量表示。然后根据第一向量表示以及的人向量表示进行交互，来确定查询文本与关联文本的相似度。

可选地，在本实施例中，根据文本匹配模型中的特征分类层，根据第一向量表示以及第二向量表示，确定查询文本与关联文本的相似度，包括但不限于：根据第一向量表示以及第二向量表示确定余弦相似度；或，对第一向量表示以及第二向量表示进行融合，并通过Softmax函数确定相似度。

在本实施例中，可以计算第一向量表示与第二向量表示的余弦相似度，来确定查询文本与关联文本的相似度。还可以是对第一向量表示以及第二向量表示进行特征融合，然后再通过Softmax函数确定相似度。

具体地，具体地，仍以特征提取子网络为Bert模型为例进行说明，文本匹配模型为包括两个Bert模型的双塔结构模型，假定查询文本为Query，关联文本为Doc，根据特征提取层确定查询文本对应的第一向量表示为q，关联文本对应的第二向量表示为d，对二者进行距离计算，具体为对第一向量表示以及第二向量表示进行融合(q,d,|q-d|)，然后再进行softmax去计算相似度。

然而，现有技术中，双塔模型在进行文本匹配的过程中，Query端与Doc过于分离，完全没有进行信息交互，这样导致模型表达为一个静态向量，表达能力受限，这种独立的编码方式会对模型的匹配性能造成很大影响。

本实施例中的文本匹配模型为一个双塔模型，为了解决上述问题，在文本匹配模型的训练过程中，基于训练样本以及交互损失函数来对文本匹配模型进行训练，其中，交互损失函数是由单塔模型在对训练样本的预测过程中确定的，本实施例中，训练样本输入至模型中的特征为两个文本特征，训练样本包括第一文本与第二文本，交互损失函数用于表征第一文本与第二文本之间的交互信息。

通过上述方式，可以根据其他预先训练完成的单塔模型，基于单塔模型对训练样本预测过程中得到的交互信息，引入至文本匹配模型的训练过程中，实现单塔模型的核心交互信息迁移到双塔模型中。

可选地，在本实施例中，在将查询文本以及关联文本输入至文本匹配模型之前，还包括但不限于通过以下三方面确定文本匹配模型的损失函数：

1、通过训练样本的交叉熵损失，确定文本匹配模型的任务损失函数；

具体地，根据训练样本中第一文本与第二文本之间相似度，以及文本匹配模型对训练样本预测得到的预测相似度，来确定文本匹配模型的交叉熵损失函数L_task。

2、通过预先训练完成的教师文本匹配模型，获取训练样本对应的预测结果，并根据预测结果确定教师损失函数，其中，教师文本匹配模型为单塔模型；

在具体地应用场景中，获取预先训练完成的教师文本模型，其中，教师文本匹配模型中的特征提取层与文本匹配模型中的特征提取层结构相同，例如，教师文本匹配模型中的特征提取层与文本匹配模型中的特征提取层均为Bert模型。

此外，教师文本匹配模型为单塔结构模型，将预先训练完成的教师文本匹配模型作为教师模型，将本实施例中的文本匹配模型作为学生模型，通过单塔结构的迁移教师文本匹配模型中对Qurey和Doc分类的输出结果，指导本实施例中双塔结构的文本匹配模型的训练过程，以提升本实施例中文本匹配模型的预测准确度。

3、通过教师文本匹配模型以及训练样本，确定虚拟注意力蒸馏损失函数；

在本实施例中，在教师文本匹配模型对训练样本进行预测的过程中，首先对训练样本进行特征提取，在特征提取过程中，训练样本中的第一文本与第二文本经过拼接后输入至教师文本匹配模型，在特征提取过程中，能够得到第一文本与第二文本之间的交互信息，进而可以将交互信息迁移至文本匹配模型中，以得到虚拟注意力蒸馏损失函数。

综上，根据任务损失函数、教师损失函数以及虚拟注意力蒸馏损失函数确定交互损失函数，根据交互损失函数训练文本匹配模型。

具体地，对任务损失函数、教师损失函数以及虚拟注意力蒸馏损失函数进行求和，可以得到交互损失函数，然后根据交互损失函数以及训练样本对文本匹配模型进行训练。

可选地，在本实施例中，教师文本匹配模型的教师特征提取层包括N层第一编码器，第一编码器包括N层第一注意力层，文本匹配模型包括查询文本对应的第一特征提取层以及关联文本对应的第二特征提取层，第一特征提取层包括N层第二编码器，第二特征提取层包括N层第三编码器，第二编码器包括N层第二注意力层，第三编码器包括N层第三注意力层，N为大于1的整数，其中，通过教师文本匹配模型以及训练样本，构建虚拟注意力蒸馏损失函数，包括但不限于：根据训练样本获取N层第一注意力层对应的N个第一虚拟注意力向量，以及N个第二虚拟注意力向量；根据训练样本获取N层第二注意力层对应的N个第三虚拟注意力向量，以及N层第三注意力层对应的N个第四虚拟注意力向量；根据N个第一虚拟注意力向量、N个第二虚拟注意力向量、N个第三虚拟注意力向量以及N个第四虚拟注意力向量，确定虚拟注意力蒸馏损失函数。

具体地，将单塔模型教师文本匹配模型作为教师模型，本实施例中的双塔模型文本匹配模型作为学生模型。对于文本的语义匹配而言，最重要的语义信息包含在注意力层self-attention中，本实施例中利用单塔丰富的交互信息，对双塔结构的两路编码器encoder的深度语义进行优化。

由于本实施例中文本匹配模型中双塔的两路encoder没有任何交互，因此构建虚拟注意力来表征其交互信息，并进一步引入教师文本匹配模型的交互信息来进行指导。

在一个例子中，如图4a所示为本实施例中一种可选地教师文本匹配模型的结构示意图，该教师文本匹配模型中的特征处理层中包括N层第一编码器40堆叠，每个第一编码器40中包括M个注意力层400，层归一化402以及前馈神经网络404，向教师文本匹配模型中输入文本L和文本R拼接特征，然后由教师文本匹配模型输出文本特征L和文本特征R的相似分数。在教师文本匹配模型中，在注意力层400中可以提取到文本特征L和文本特征R的交互信息，教师文本匹配模型中的特征处理层输出文本向量表示H^(L)。

此外，如图4b所示为本实施例中一种可选地文本匹配模型的结构示意图，该教师文本匹配模型中的一个特征处理层中包括N层第一编码器42堆叠，每个第一编码器42中包括M个注意力层410，层归一化412以及前馈神经网络414；另一个特征处理层中包括N层第一编码器44堆叠，每个第一编码器44中包括M个注意力层420，层归一化422以及前馈神经网络424。文本特征L输入至注意力层410，文本特征R输入至注意力层420，教师文本匹配模型中的一个特征处理层输出第一文本向量表示

另一个特征处理层输出第二文本向量表示

根据第一文本向量表示以及第二文本向量表示来确定文本L与文本R的相似分数。

然后，在图4a中，注意力层400中可以提取到文本特征L和文本特征R的交互信息，而在图4b中，注意力层410与注意力层420之间没有进行文本特征之间的交互，在本实施例中，将教师文本匹配模型中注意力层400提取到的交互信息迁移至注意力层410与注意力层420中。

接下来，如图4c中所示教师文本匹配模型中注意力层400中提取到的文本特征L对应的向量表示为H_x，文本特征R对应的向量表示为H_y，根据文本特征L和文本特征R的交互信息，得到虚拟注意力L_virt。如图4c中所示文本匹配模型中注意力层410与注意力层420获取到的文本特征L与文本特征R分别对应的向量表示

和

可见向量表示

和

之间是没有交互信息的，因此，将虚拟注意力L_virt迁移至文本匹配模型中，以实现将教师文本匹配模型中的文本特征L和文本特征R之间的交互信息迁移至文本匹配模型中。

本实施例中，教师文本匹配模型的虚拟注意力定义如下：

注意力蒸馏损失函数loss为:

其中，M是编码器中编码器注意力头部attention head(注意力头部位于注意力层中，用于提取文本特征以及文本之间的交互信息)的个数，N是注意力层数。

综上，在得到上述三种损失函数后，本实施例中文本匹配模型训练的交互损失函数loss是以上三项损失函数loss的总和：

L＝αL_vi-att+βL_prob+L_task

其中，α、β为教师损失函数以及注意力蒸馏损失函数的权重值，具体可以根据实际经验进行设置。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述文本匹配方法的文本匹配装置，如图5所示，该装置包括：

1)输入模块50，用于将查询文本以及关联文本输入至文本匹配模型，其中，所述文本匹配模型是由训练样本以及交互损失函数预先训练得到的，所述训练样本包括第一文本与第二文本，所述交互损失函数用于表征所述第一文本与所述第二文本之间的交互信息；

2)第一确定模块52，用于通过所述文本匹配模型的两个特征处理层，分别确定所述查询文本对应的第一向量表示，以及，所述关联文本对应的第二向量表示；

3)第二确定模块54，用于根据所述文本匹配模型中的特征分类层，根据所述第一向量表示以及所述第二向量表示，确定所述查询文本与所述关联文本的相似度。

可选地，在本实施例中，还包括：

1)第三确定模块，用于在将查询文本以及关联文本输入至文本匹配模型之前，通过所述训练样本的交叉熵损失，确定所述文本匹配模型的任务损失函数；

2)获取模块，用于通过预先训练完成的教师文本匹配模型，获取所述训练样本对应的预测结果，并根据所述预测结果确定教师损失函数，其中，所述教师文本匹配模型为单塔模型；

3)第四确定模块，用于通过所述教师文本匹配模型以及所述训练样本，确定虚拟注意力蒸馏损失函数；

4)第五确定模块，用于根据所述任务损失函数、所述教师损失函数以及所述虚拟注意力蒸馏损失函数确定所述交互损失函数；

5)训练模块，用于根据所述交互损失函数训练所述文本匹配模型。

可选地，在本实施例中，所述教师文本匹配模型的教师特征提取层包括N层第一编码器，所述第一编码器包括N层第一注意力层，所述文本匹配模型包括所述查询文本对应的第一特征提取层以及所述关联文本对应的第二特征提取层，所述第一特征提取层包括N层第二编码器，所述第二特征提取层包括N层第三编码器，所述第二编码器包括N层第二注意力层，所述第三编码器包括N层第三注意力层，N为大于1的整数，其中，所述第四确定模块包括：

1)第一获取子模块，用于根据所述训练样本获取所述N层第一注意力层对应的N个第一虚拟注意力向量，以及N个第二虚拟注意力向量；

2)第二获取子模块，用于根据所述训练样本获取所述N层第二注意力层对应的N个第三虚拟注意力向量，以及所述N层第三注意力层对应的N个第四虚拟注意力向量；

3)确定子模块，用于根据所述N个第一虚拟注意力向量、所述N个第二虚拟注意力向量、所述N个第三虚拟注意力向量以及所述N个第四虚拟注意力向量，确定所述虚拟注意力蒸馏损失函数。

在上述实施例中，通过由交互损失函数以及训练样本训练得到的双塔结构的文本匹配模型，对查询文本以及关联文本进行预测，实现了将单塔模型中的交互信息迁移至双塔模型的目的，从而实现了在保证预测准确度的情况下，提高预测速度的技术效果，进而解决了由于相关技术中文本匹配任务中，单塔模型计算耗时，双塔模型准确度较低，无法保证对文本匹配任务的处理效率的技术问题。

实施例3

根据本发明实施例，还提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上所述的文本匹配方法的步骤。

可选地，在本实施例中，存储器被设置为存储用于执行以下步骤的程序代码：

S1，将查询文本以及关联文本输入至文本匹配模型，其中，所述文本匹配模型是由训练样本以及交互损失函数预先训练得到的，所述训练样本包括第一文本与第二文本，所述交互损失函数用于表征所述第一文本与所述第二文本之间的交互信息；

S2，通过所述文本匹配模型的两个特征处理层，分别确定所述查询文本对应的第一向量表示，以及，所述关联文本对应的第二向量表示；

S3，根据所述文本匹配模型中的特征分类层，根据所述第一向量表示以及所述第二向量表示，确定所述查询文本与所述关联文本的相似度。

可选地，本实施例中的具体示例可以参考上述实施例1中所描述的示例，本实施例在此不再赘述。

实施例4

本发明的实施例还提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上所述的文本匹配方法的步骤。

可选地，在本实施例中，可读存储介质被设置为存储用于执行以下步骤的程序代码：

可选地，可读存储介质还被设置为存储用于执行上述实施例1中的方法中所包括的步骤的程序代码，本实施例中对此不再赘述。

可选地，在本实施例中，上述可读存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本匹配方法，其特征在于，包括：

将查询文本以及关联文本输入至文本匹配模型，其中，所述文本匹配模型是由训练样本以及交互损失函数预先训练得到的，所述训练样本包括第一文本与第二文本，所述交互损失函数用于表征所述第一文本与所述第二文本之间的交互信息；

通过所述文本匹配模型的两个特征处理层，分别确定所述查询文本对应的第一向量表示，以及，所述关联文本对应的第二向量表示；

根据所述文本匹配模型中的特征分类层，根据所述第一向量表示以及所述第二向量表示，确定所述查询文本与所述关联文本的相似度。

2.根据权利要求1所述的方法，其特征在于，所述特征处理层包括特征提取子网络以及池化层，其中，

通过所述文本匹配模型的两个特征处理层，分别确定所述查询文本对应的第一向量表示，以及，所述关联文本对应的第二向量表示，包括：

通过所述特征提取子网络，获取所述查询文本对应的第一文本向量，以及所述关联文本对应的第二文本向量；

通过所述池化层，根据所述第一文本向量获取所述第一向量表示，根据所述第二文本向量获取所述第二向量表示。

3.根据权利要求2所述的方法，其特征在于，所述第一文本向量以及所述第二文本向量分别包括标记序列，所述标记序列包括多个文本标记以及语义标记，其中，

通过所述池化层，根据所述第一文本向量获取所述第一向量表示，根据所述第二文本向量获取所述第二向量表示包括：

根据所述多个文本标记以及所述语义标记分别对应的权重进行平均加权，以得到所述标记序列对应的文本向量表示；或，

对所述多个文本标记以及所述语义标记进行平均池化，以得到所述标记序列对应的文本向量表示。

4.根据权利要求1所述的方法，其特征在于，根据所述文本匹配模型中的特征分类层，根据所述第一向量表示以及所述第二向量表示，确定所述查询文本与所述关联文本的相似度，包括：

根据所述第一向量表示以及所述第二向量表示确定余弦相似度；或，

对所述第一向量表示以及所述第二向量表示进行融合，并通过Softmax函数确定所述相似度。

5.根据权利要求1所述的方法，其特征在于，在将查询文本以及关联文本输入至文本匹配模型之前，还包括：

通过所述训练样本的交叉熵损失，确定所述文本匹配模型的任务损失函数；

通过预先训练完成的教师文本匹配模型，获取所述训练样本对应的预测结果，并根据所述预测结果确定教师损失函数，其中，所述教师文本匹配模型为单塔模型；

通过所述教师文本匹配模型以及所述训练样本，确定虚拟注意力蒸馏损失函数；

根据所述任务损失函数、所述教师损失函数以及所述虚拟注意力蒸馏损失函数确定所述交互损失函数；

根据所述交互损失函数训练所述文本匹配模型。

6.根据权利要求5所述的方法，其特征在于，所述教师文本匹配模型的教师特征提取层包括N层第一编码器，所述第一编码器包括N层第一注意力层，所述文本匹配模型包括所述查询文本对应的第一特征提取层以及所述关联文本对应的第二特征提取层，所述第一特征提取层包括N层第二编码器，所述第二特征提取层包括N层第三编码器，所述第二编码器包括N层第二注意力层，所述第三编码器包括N层第三注意力层，N为大于1的整数，其中，

通过所述教师文本匹配模型以及所述训练样本，构建虚拟注意力蒸馏损失函数，包括：

根据所述训练样本获取所述N层第一注意力层对应的N个第一虚拟注意力向量，以及N个第二虚拟注意力向量；

根据所述训练样本获取所述N层第二注意力层对应的N个第三虚拟注意力向量，以及所述N层第三注意力层对应的N个第四虚拟注意力向量；

根据所述N个第一虚拟注意力向量、所述N个第二虚拟注意力向量、所述N个第三虚拟注意力向量以及所述N个第四虚拟注意力向量，确定所述虚拟注意力蒸馏损失函数。

7.一种文本匹配装置，其特征在于，包括：

输入模块，用于将查询文本以及关联文本输入至文本匹配模型，其中，所述文本匹配模型是由训练样本以及交互损失函数预先训练得到的，所述训练样本包括第一文本与第二文本，所述交互损失函数用于表征所述第一文本与所述第二文本之间的交互信息；

第一确定模块，用于通过所述文本匹配模型的两个特征处理层，分别确定所述查询文本对应的第一向量表示，以及，所述关联文本对应的第二向量表示；

第二确定模块，用于根据所述文本匹配模型中的特征分类层，根据所述第一向量表示以及所述第二向量表示，确定所述查询文本与所述关联文本的相似度。

8.根据权利要求7所述的装置，其特征在于，还包括：

第三确定模块，用于在将查询文本以及关联文本输入至文本匹配模型之前，通过所述训练样本的交叉熵损失，确定所述文本匹配模型的任务损失函数；

获取模块，用于通过预先训练完成的教师文本匹配模型，获取所述训练样本对应的预测结果，并根据所述预测结果确定教师损失函数，其中，所述教师文本匹配模型为单塔模型；

第四确定模块，用于通过所述教师文本匹配模型以及所述训练样本，确定虚拟注意力蒸馏损失函数；

第五确定模块，用于根据所述任务损失函数、所述教师损失函数以及所述虚拟注意力蒸馏损失函数确定所述交互损失函数；

训练模块，用于根据所述交互损失函数训练所述文本匹配模型。

9.根据权利要求8所述的装置，其特征在于，所述教师文本匹配模型的教师特征提取层包括N层第一编码器，所述第一编码器包括N层第一注意力层，所述文本匹配模型包括所述查询文本对应的第一特征提取层以及所述关联文本对应的第二特征提取层，所述第一特征提取层包括N层第二编码器，所述第二特征提取层包括N层第三编码器，所述第二编码器包括N层第二注意力层，所述第三编码器包括N层第三注意力层，N为大于1的整数，其中，所述第四确定模块包括：

第一获取子模块，用于根据所述训练样本获取所述N层第一注意力层对应的N个第一虚拟注意力向量，以及N个第二虚拟注意力向量；

第二获取子模块，用于根据所述训练样本获取所述N层第二注意力层对应的N个第三虚拟注意力向量，以及所述N层第三注意力层对应的N个第四虚拟注意力向量；

确定子模块，用于根据所述N个第一虚拟注意力向量、所述N个第二虚拟注意力向量、所述N个第三虚拟注意力向量以及所述N个第四虚拟注意力向量，确定所述虚拟注意力蒸馏损失函数。

10.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-6所述的文本匹配方法的步骤。