CN114492450A

CN114492450A - 文本匹配方法及装置

Info

Publication number: CN114492450A
Application number: CN202111578904.9A
Authority: CN
Inventors: 吕乐宾; 蒋宁; 王洪斌; 吴海英; 权佳成
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-05-13

Abstract

本申请公开了文本匹配方法及装置，该方法包括：将第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出相应的匹配结果；其中，文本匹配模型的第一分布式层分别对第一文本和第二文本进行表示学习，输出第一文本向量和第二文本向量；第一交互层将第一分布式层输出的向量进行交叉注意力学习，输出第三文本向量和第四文本向量；第二分布式层分别对第三文本向量和第四文本向量进行表示学习，输出第五文本向量和第六文本向量；第二交互层将第二分布式层输出的向量进行拼接得到第七文本向量，以及将第七文本向量进行自注意力学习及计算文本相似度，输出匹配结果。采用本申请实施例可提高文本匹配的准确性。

Description

文本匹配方法及装置

技术领域

本申请涉及文本处理技术领域，特别涉及文本匹配方法及装置。

背景技术

文本匹配任务是自然语言处理(Natural Language Processing，NLP)中重要的研究方向，不论是在信息检索(Information Retrieval，IR)、问题回答(Question Answer，QA)还是复述识别(Paraphrase Recognition，PR)等任务中都扮演着重要的角色。传统的文本匹配方法依赖于预定义的模板和人工提取的规则。

随着深度学习的发展，深度神经网络已经普遍应用于自然语言处理任务中，以降低人工提取特征所耗费的成本和时间。文本匹配任务旨在给定两段文本Q和D，通过提取文本中存在的语义信息和相似度特征来给出两段文本的相似度值，由最终的相似度值可以得知两段文本的内容是否属于相似的描述。该种文本匹配方式存在准确性不足的问题。

发明内容

为了解决上述问题，本申请提供文本匹配方法及装置，能够提高文本匹配的准确性。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种文本匹配方法，该方法包括：

将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出第一文本和第二文本的匹配结果；其中，文本匹配模型包括第一分布式层、第一交互层、第二分布式层和第二交互层；第一分布式层，用于分别对输入的第一文本和第二文本进行表示学习，输出第一文本向量和第二文本向量；第一交互层，用于将第一分布式层输出的第一文本向量和第二文本向量进行交叉注意力学习，输出第三文本向量和第四文本向量；第二分布式层，用于分别对第一交互层输出的第三文本向量和第四文本向量进行表示学习，输出第五文本向量和第六文本向量；第二交互层，用于将第二分布式层输出的第五文本向量和第六文本向量进行拼接得到第七文本向量，以及将第七文本向量进行自注意力学习及计算文本相似度，输出匹配结果。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种文本匹配装置，该装置包括：

文本匹配单元，用于将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出第一文本和第二文本的匹配结果；

其中，文本匹配模型包括第一分布式层、第一交互层、第二分布式层和第二交互层；

第一分布式层，用于分别对输入的第一文本和第二文本进行表示学习，输出第一文本向量和第二文本向量；

第一交互层，用于将第一分布式层输出的第一文本向量和第二文本向量进行交叉注意力学习，输出第三文本向量和第四文本向量；

第二分布式层，用于分别对第一交互层输出的第三文本向量和第四文本向量进行表示学习，输出第五文本向量和第六文本向量；

第二交互层，用于将第二分布式层输出的第五文本向量和第六文本向量进行拼接得到第七文本向量，以及将第七文本向量进行自注意力学习及计算文本相似度，输出匹配结果。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，该电子设备包括处理器以及与处理器耦接的存储器，存储器中存储有计算机程序，处理器用于执行计算机程序以实现如上述技术方案提供的方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序在被处理器执行时，实现如上述技术方案提供的方法。

可以看出，在本申请实施例中，通过对第一文本和第二文本各自进行表示学习得到第一文本向量和第二文本向量，以及对第一文本向量和第二文本向量进行交叉注意力学习，得到第三文本向量和第四文本向量，以及对第三文本向量和第四文本向量进行表示学习，得到第五文本向量和第六文本向量，以及对第五文本向量和第六文本向量进行拼接得到第七文本向量，以及将第七文本向量进行自注意力学习及计算文本相似度，输出匹配结果的方式进行文本匹配，实现了匹配过程中既能通过表示学习关注到自身文本，又能通过交叉注意力学习关注到另一个文本的语义信息，进而能够提高文本匹配的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的文本匹配方法第一实施例的流程示意图；

图2是本申请提供的文本匹配方法第二实施例的流程示意图；

图3是本申请提供的第一分布式层一实施例的结构示意图；

图4是本申请提供的第二分布式层一实施例的结构示意图；

图5是本申请提供的第二交互层一实施例的结构示意图；

图6是本申请提供的文本匹配模型一实施例的结构示意图；

图7是本申请提供的文本匹配装置一实施例的结构示意图；

图8是本申请提供的电子设备一实施例的结构示意图；

图9是本申请提供的计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了更好地理解本申请实施例的方案，下面先对本申请实施例可能涉及的相关术语和概念进行介绍。

Attention(注意力机制)：一种机器模拟人类阅读、听说时较多关注重点信息，适当忽略不重要信息的方法。可对输入文本序列中不同时间步编码的信息分配不同的加权值，表征模型不同的关注程度。

Self-attention(自注意力)：计算句子中的每个词对于当前整个句子的重要程度。

Cross-attention(交叉注意力)：计算句子A中的每个词对于整个句子B的重要程度；相反，也可以计算句子B中的每个词对于整个句子A的重要程度。

Text Matching(文本匹配)：一种深度学习任务，可以简单理解为计算两个句子之间的相似度，主要应用于信息检索、智能问答等。

Transformer：一种sequence2sequence的深度学习模型，分为编码器(encoder)部分和解码器(decoder)部分。

参阅图1，图1是本申请提供的文本匹配方法第一实施例的流程示意图。该方法应用于电子设备，该方法包括：

步骤11：获取待匹配的第一文本和第二文本。

在一些实施例中，第一文本和第二文本可以是问答对的形式，其中，第一文本可以是问题，第二文本可以是答案，或者，第一文本可以是答案，第二文本可以是问题。

在一些实施例中，第一文本和第二文本可以是信息检索的形式，其中，第一文本是检索文本，第二文本是待匹配文本。

在一些实施例中，第一文本和第二文本可以是复述识别的形式，其中，第一文本是第一种表述文本，第二文本是第二种表述文本。

步骤12：将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出第一文本和所述第二文本的匹配结果。

在一些实施例中，文本匹配模型包括第一分布式层、第一交互层、第二分布式层和第二交互层。

第一分布式层用于分别对输入的第一文本和第二文本进行表示学习，输出第一文本向量和第二文本向量。

通过对输入的第一文本和第二文本进行表示学习，使第一文本和第二文本具有相应的表示注意力，其中，表示注意力表示文本向量中的词向量对文本向量的贡献度。

第一交互层用于将第一分布式层输出的第一文本向量和第二文本向量进行交叉注意力学习，输出第三文本向量和第四文本向量。

在一些实施例中，在第一交互层中，可以对第一文本向量进行单个词向量、词语向量、短语向量的提取，形成第一词组向量集合。对第二文本向量进行单个词向量、词语向量、短语向量的提取，形成第二词组向量集合。将第一词组向量集合和第二词组向量集合进行相似性比较，即进行交叉注意力学习，得到第三文本向量和第四文本向量，并输出。

如，第一词组向量集合和第二词组向量集合之间的近义词、以及近义词在原文本向量中的排序、以及该近义词在文本向量中的属性，如主语、谓语、宾语、定语、状语或补语，可以通过这些对应的联系，来确定第一文本向量和第二文本向量之间的交叉注意力，进而得到第三文本向量和第四文本向量。

第二分布式层用于分别对第一交互层输出的第三文本向量和第四文本向量进行表示学习，输出第五文本向量和第六文本向量。

通过对输入的第三文本向量和第四文本向量进行表示学习，使第三文本向量和第四文本向量具有相应的表示注意力，其中，表示注意力表示文本向量中的词向量对文本向量的贡献度。

因表示注意力表示文本向量中的词向量对文本向量的贡献度，则经过表示学习的第三文本向量形成了第五文本向量。经过表示学习的第四文本向量形成了第六文本向量。其中的每一词向量均有属于自己的对文本向量的贡献度。

因第三文本向量和第四文本向量是基于交叉注意力得到的，则第五文本向量和第六文本向量中也存在由交叉注意力带来的好处，如，叉中也存在两个文本向量之间的词向量关联度信息。

因第七文本向量是由第一文本和第二文本转换得到，则由第七文本向量计算出的文本相似度可以表示第一文本和第二文本之间的匹配结果。

在本实施例中，通过对第一文本和第二文本各自进行表示学习得到第一文本向量和第二文本向量，以及对第一文本向量和第二文本向量进行交叉注意力学习，得到第三文本向量和第四文本向量，以及对第三文本向量和第四文本向量进行表示学习，得到第五文本向量和第六文本向量，以及对第五文本向量和第六文本向量进行拼接得到第七文本向量，以及将第七文本向量进行自注意力学习及计算文本相似度，输出匹配结果的方式进行文本匹配，实现了匹配过程中既能通过表示学习关注到自身文本，又能通过交叉注意力学习关注到另一个文本的语义信息，进而能够提高文本匹配的准确性。

参阅图2，图2是本申请提供的文本匹配方法第二实施例的流程示意图。该方法应用于电子设备，该方法包括：

步骤21：获取待匹配的第一文本和第二文本。

在一些实施例中，第一文本和第二文本可以是问答对的形式，其中，第一文本可以是问题，第二文本可以是答案。或者，第一文本可以是答案，第二文本可以是问题。

步骤22：将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出第一文本和第二文本的匹配结果。

其中，参阅图3，第一分布式层包括第一嵌入层、第一Transformer网络、第二嵌入层、第二Transformer网络。

其中，第一嵌入层用于对第一文本进行词嵌入处理和位置嵌入处理，输出第一处理文本。

如，第一文本包括十个字，第一文本中每个字的位置嵌入从头到尾依次是(1，2，3，4，5，6，7，8，9，10)。

第一Transformer网络用于将第一嵌入层输出的第一处理文本进行表示学习，输出第一文本向量。

Transformer是一种sequence2sequence的深度学习网络，分为编码器部分和解码器部分。

如，将第一处理文本输入至第一Transformer网路后，在第一Transformer网路的编码器部分，利用注意力机制和前向反馈的方式对第一文本进行编码，即第一处理文本在此时进行表示学习。

然后将编码后的第一处理文本输入至第一Transformer网路的解码器部分进行解码，得到第一文本向量。

第二嵌入层用于对第二文本进行词嵌入处理和位置嵌入处理，输出第二处理文本。

如，第二文本包括十个字，第二文本中每个字的位置嵌入从头到尾依次是(1，2，3，4，5，6，7，8，9，10)。

第二Transformer网络用于将第二嵌入层输出的第二处理文本进行表示学习，输出第二文本向量。

如，将第二处理文本输入至第二Transformer网路后，在第二Transformer网路的编码器部分，利用注意力机制和前向反馈的方式对第二处理文本进行编码，即第二处理文本在此时进行表示学习。

然后将编码后的第二处理文本输入至第二Transformer网路的解码器部分进行解码，得到第二文本向量。

其中，第一Transformer网路和第二Transformer网路基于自注意力机制建立的。

由此，通过对输入的第一文本和第二文本进行表示学习，使第一文本和第二文本具有相应的表示注意力，其中，表示注意力表示文本向量中的词向量对文本向量的贡献度。

其中，第一交互层包括第三Transformer网络；第三Transformer网络用于对第一文本向量和第二文本向量进行交叉注意力学习，输出第三文本向量和第四文本向量。

其中，第三Transformer网络包括交叉注意力机制，交叉注意力机制包括：

Q_att＝sum_row(softmax_row(Q·K))·Q；

K_att＝sum_col(softmax_col(Q·K))·K；

其中，Q和K均表示输入的文本向量，softmax_row(Q·K)为Q与K进行词相似度计算得到的相似度矩阵按行进行归一化处理的结果，softmax_col(Q·K)为Q与K进行词相似度计算得到的相似度矩阵按列进行归一化处理的结果，sum_row(softmax_row(Q·K))表示Q对应的交叉注意力权重，sum_col(softmax_col(Q·K))表示K对应的交叉注意力权重，Q_att表示具有交叉注意力权重的Q，K_att表示具有交叉注意力权重的K。

具体地，Q可以为第一文本向量、K为第二文本向量。或者，Q可以为第二文本向量、K为第一文本向量。

此时，在第三Transformer网路中，能够得到第一文本向量和第二文本向量之间的交叉注意力。其中，Q_att表示具有交叉注意力权重的Q，K_att表示具有交叉注意力权重的K。

然后对Q_att和K_att进行相应处理，得到对应的第三文本向量和第四文本向量，并输出。

在第三Transformer网路中，第一文本向量和第二文本向量进行交叉注意力学习之后，得到第三文本向量和第四文本向量都实现了对另一个文本向量信息的关注，并且获取了另一个文本向量的相关信息。

参阅图4，第二分布式层包括第三嵌入层、第四Transformer网络、第四嵌入层、第五Transformer网络。

第三嵌入层用于对第三文本向量进行词嵌入处理和位置嵌入处理，输出第一处理文本向量。

因上述过程中第三文本向量和第四文本向量是在进行了交叉处理后得到的，因此，需要再次对第三文本向量进行处理，有利于后续对每个位置的词向量进行识别。

第四Transformer网络用于将第三嵌入层输出的第一处理文本向量进行表示学习，输出第五文本向量。

将进行位置嵌入处理的第一处理文本向量输入至第四Transformer网路进行表示学习，得到第五文本向量，并输出。

第四嵌入层用于对第四文本向量进行词嵌入处理和位置嵌入处理，输出第二处理文本向量。

因上述过程中第三文本向量和第四文本向量是在进行了交叉处理后得到的，因此，需要再次对第四文本向量进行处理，有利于后续对每个位置的词向量进行识别。

第五Transformer网络用于将第四嵌入层输出的第二处理文本向量进行表示学习，输出第六文本向量。

将进行位置嵌入处理的第二处理文本向量输入至第五Transformer网路进行表示学习，得到第六文本向量，并输出。

因此，通过对输入的第三文本向量和第四文本向量进行表示学习，使第三文本向量和第四文本向量具有相应的表示注意力。

参阅图5，第二交互层包括：第六Transformer网络、池化层和感知机。

第六Transformer网络用于将第二分布式层输出的第五文本向量和第六文本向量进行拼接得到第七文本向量，以及将第七文本向量进行自注意力学习，输出第八文本向量。

如将第五文本向量和第六文本向量首尾拼接得到第七文本向量。

池化层用于对第六Transformer网络输出的第八文本向量进行池化处理，输出第九文本向量。

通过池化处理可以选择保留更重要的语义张量，去除不重要的语义张量。

感知机用于对池化层输出的第九文本向量进行文本相似度计算，输出匹配结果。

如，多层感知机包括三层：输入层、隐层和输出层，多层感知机不同层之间是全连接的。

在本实施例中，通过对第一文本和第二文本各自进行表示学习得到第一文本向量和第二文本向量，以及对第一文本向量和第二文本向量进行交叉注意力学习，得到第三文本向量和第四文本向量，以及对第三文本向量和第四文本向量进行表示学习，得到第五文本向量和第六文本向量，以及对第五文本向量和第六文本向量进行拼接得到第七文本向量，以及将第七文本向量进行自注意力学习及计算文本相似度，输出匹配结果的方式进行文本匹配，匹配过程中既能通过表示学习关注到自身文本，又能通过交叉注意力学习关注到另一个文本的语义信息，能够提高文本匹配的准确性。

在一应用场景中，结合图6的文本匹配模型进行说明：

首先，在第一输入层输入第一文本，第二输入层输入第二文本，并在第一嵌入层对第一文本进行词嵌入和位置嵌入操作，输出第一处理文本。以及在第二嵌入层对第二文本进行词嵌入和位置嵌入操作，输出第二处理文本。

然后，将第一嵌入层输出的第一处理文本，作为第一Transformer网路的输入，将第二词嵌入层输出的第二处理文本，作为第二Transformer网路的输入。

分别在第一Transformer网络和第二Transformer网络中进行表示学习，输出第一文本向量和输出第二文本向量。

使第一文本向量和第二文本向量得到各自的表示注意力。

然后将第一文本向量和第二文本向量输入至第三Transformer网络。以在第三Transformer网路对第一文本向量和所述第二文本向量进行交叉注意力学习，输出第三文本向量和所述第四文本向量。

具体地，在第三Transformer网络中，能够获取第一文本向量中每个词向量对第二文本向量的重要性的权重向量。以及能够获取第二文本向量中每个词向量对第一文本向量的重要性的权重向量。这样就可以使第一文本向量和第二文本向量在第三Transformer网路内部进行编码时实现互相关注。第三Transformer网络包括交叉注意力机制，交叉注意力机制包括：

Q_att＝sum_row(softmax_row(Q·K))·Q；

K_att＝sum_col(softmax_col(Q·K))·K；

具体地，Q为第一文本向量、K为第二文本向量。

然后将第三文本向量输入至第三嵌入层，将第四文本向量输入至第四嵌入层。

其中，第三嵌入层用于对第三文本向量进行词嵌入处理和位置嵌入处理，输出第一处理文本向量。

在本应用场景中，利用上述的文本匹配模型对第一文本和第二文本各自进行表示学习得到第一文本向量和第二文本向量，以及对第一文本向量和第二文本向量进行交叉注意力学习，得到第三文本向量和第四文本向量，以及对第三文本向量和第四文本向量进行表示学习，得到第五文本向量和第六文本向量，以及对第五文本向量和第六文本向量进行拼接得到第七文本向量，以及将第七文本向量进行自注意力学习及计算文本相似度，输出匹配结果的方式进行文本匹配，匹配过程中既能通过表示学习关注到自身文本，又能通过交叉注意力学习关注到另一个文本的语义信息，能够提高文本匹配的准确性。

参阅图7，图7是本申请提供的文本匹配装置一实施例的结构示意图。该文本匹配装置70包括：文本匹配单元71。

其中，文本匹配单元71用于将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出第一文本和第二文本的匹配结果。其中，文本匹配模型包括第一分布式层、第一交互层、第二分布式层和第二交互层；第一分布式层，用于分别对输入的第一文本和第二文本进行表示学习，输出第一文本向量和第二文本向量；第一交互层，用于将第一分布式层输出的第一文本向量和第二文本向量进行交叉注意力学习，输出第三文本向量和第四文本向量；第二分布式层，用于分别对第一交互层输出的第三文本向量和第四文本向量进行表示学习，输出第五文本向量和第六文本向量；第二交互层，用于将第二分布式层输出的第五文本向量和第六文本向量进行拼接得到第七文本向量，以及将第七文本向量进行自注意力学习及计算文本相似度，输出匹配结果。

可以理解，文本匹配单元71还能实现上述任一实施例的方法，具体请参阅上述任一技术方案，这里不做赘述。

参阅图8，图8是本申请提供的电子设备一实施例的结构示意图。该电子设备80包括处理器81以及与处理器81耦接的存储器82，存储器82中存储有计算机程序，处理器81用于执行计算机程序以实现以下方法：

可以理解，处理器81还用于执行计算机程序以实现上述任一实施例的方法，具体请参阅上述任一技术方案，这里不做赘述。

参阅图9，图9是本申请提供的计算机可读存储介质一实施例的结构示意图。该计算机可读存储介质90存储有计算机程序91，计算机程序91在被处理器执行时，实现以下方法：

可以理解，计算机程序91在被处理器执行时，还用于实现上述任一实施例的方法，具体请参阅上述任一技术方案，这里不做赘述。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种文本匹配方法，其特征在于，所述方法包括：

将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出所述第一文本和所述第二文本的匹配结果；

其中，所述文本匹配模型包括第一分布式层、第一交互层、第二分布式层和第二交互层；

所述第一分布式层，用于分别对输入的所述第一文本和所述第二文本进行表示学习，输出第一文本向量和第二文本向量；

所述第一交互层，用于将所述第一分布式层输出的所述第一文本向量和所述第二文本向量进行交叉注意力学习，输出第三文本向量和第四文本向量；

所述第二分布式层，用于分别对所述第一交互层输出的所述第三文本向量和所述第四文本向量进行表示学习，输出第五文本向量和第六文本向量；

所述第二交互层，用于将所述第二分布式层输出的所述第五文本向量和所述第六文本向量进行拼接得到第七文本向量，以及将所述第七文本向量进行自注意力学习及计算文本相似度，输出所述匹配结果。

2.根据权利要求1所述的方法，其特征在于，所述第一分布式层包括第一嵌入层、第一Transformer网络、第二嵌入层、第二Transformer网络；

所述第一嵌入层，用于对所述第一文本进行词嵌入处理和位置嵌入处理，输出第一处理文本；

所述第一Transformer网络，用于将所述第一嵌入层输出的所述第一处理文本进行表示学习，输出所述第一文本向量；

所述第二嵌入层，用于对所述第二文本进行词嵌入处理和位置嵌入处理，输出第二处理文本；

所述第二Transformer网络，用于将所述第二嵌入层输出的所述第二处理文本进行表示学习，输出所述第二文本向量。

3.根据权利要求1所述的方法，其特征在于，所述第一交互层包括第三Transformer网络；

所述第三Transformer网络，用于对所述第一文本向量和所述第二文本向量进行交叉注意力学习，输出所述第三文本向量和所述第四文本向量。

4.根据权利要求3所述的方法，其特征在于，所述第三Transformer网络包括交叉注意力机制，所述交叉注意力机制包括：

Q_att＝sum_row(softmax_row(Q·K))·Q；

K_att＝sum_col(softmax_col(Q·K))·K；

5.根据权利要求1所述的方法，其特征在于，所述第二分布式层包括第三嵌入层、第四Transformer网络、第四嵌入层、第五Transformer网络；

所述第三嵌入层，用于对所述第三文本向量进行词嵌入处理和位置嵌入处理，输出第一处理文本向量；

所述第四Transformer网络，用于将所述第三嵌入层输出的所述第一处理文本向量进行表示学习，输出所述第五文本向量；

所述第四嵌入层，用于对所述第四文本向量进行词嵌入处理和位置嵌入处理，输出第二处理文本向量；

所述第五Transformer网络，用于将所述第四嵌入层输出的所述第二处理文本向量进行表示学习，输出所述第六文本向量。

6.根据权利要求1所述的方法，其特征在于，所述第二交互层包括：第六Transformer网络、池化层和感知机；

所述第六Transformer网络，用于将所述第二分布式层输出的所述第五文本向量和所述第六文本向量进行拼接得到第七文本向量，以及将所述第七文本向量进行自注意力学习，输出第八文本向量；

所述池化层，用于对所述第六Transformer网络输出的所述第八文本向量进行池化处理，输出第九文本向量；

所述感知机，用于对所述池化层输出的所述第九文本向量进行文本相似度计算，输出所述匹配结果。

7.根据权利要求2、5或6所述的方法，其特征在于，所述Transformer网络包括自注意力机制。

8.一种文本匹配装置，其特征在于，所述装置包括：

文本匹配单元，用于将待匹配的第一文本和第二文本输入文本匹配模型进行文本匹配处理，输出所述第一文本和所述第二文本的匹配结果；

9.一种电子设备，其特征在于，所述电子设备包括处理器以及与所述处理器耦接的存储器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序在被处理器执行时，实现如权利要求1-7任一项所述的方法。