CN110543549A

CN110543549A - 语义等价性判断方法和装置

Info

Publication number: CN110543549A
Application number: CN201910818133.2A
Authority: CN
Inventors: 苏萌; 刘钰; 苏海波; 王然; 孙伟; 于帮付
Original assignee: Beijing Baifendian Information Science & Technology Co Ltd
Current assignee: Beijing Baifendian Information Science & Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-06
Anticipated expiration: 2039-08-30
Also published as: CN110543549B

Abstract

本申请公开了语义等价性判断方法及装置。该方法包括：根据第一语句和第二语句生成第一语句所对应的多个向量以及第二语句所对应的多个向量；将第一语句所对应的多个向量与第二语句所对应的多个向量进行匹配，并根据匹配结果生成相似度表示；将相似度表示拼接后通过模型的相似度表示层进行筛选；将筛选结果输入模型的自注意层，并通过自注意层计算自注意力值，自注意力值反映第一语句和第二语句的内部结构；根据自注意力值判断所述第一语句与所述第二语句之间的语义是否等价。由于该方法对多个句子之间语义是否等价的判断结果，相对于现有技术准确性更高，因此能够用于解决现有技术中的问题。

Description

语义等价性判断方法和装置

技术领域

本申请涉及机器学习技术领域，尤其涉及语义等价性判断方法及装置。

背景技术

随着人工智能相关技术的不断进步，问答机器人也受到了越来越多的关注。为了更好地提高问答机器人的问答效果，需要其对语句的语义具有深刻的理解，其中判断多个语句之间的语义是否等价为关键之一。然而，现有技术中判断多个语句之间的语义是否等价准的确性较低，因此需要一种准确性更高的语义等价性判断方式。

发明内容

本申请实施例提供判断语义等价性的方法及装置，能够用于解决现有技术中判断语义等价性准确性较低的问题。

本申请实施例提供了一种语义等价性判断方法，该方法包括：

根据第一语句和第二语句生成第一语句所对应的多个向量以及第二语句所对应的多个向量；

将所述第一语句所对应的多个向量与所述第二语句所对应的多个向量进行匹配，并根据匹配结果生成相似度表示；

将所述相似度表示拼接后通过模型的相似度表示层进行筛选；

将筛选结果输入模型的自注意层，并通过所述自注意层计算自注意力值，所述自注意力值反映第一语句和第二语句的内部结构；

根据所述自注意力值判断所述第一语句与所述第二语句之间的语义是否等价。

本申请实施例提供了一种基于模型的语义等价性判断方法，所述模型包括：向量转化层、匹配层、拼接层、相似度表示层、自注意层以及预测层，所述方法包括：

所述向量转化层根据所输入的第一语句和第二语句生成第一语句所对应的多个向量以及第二语句所对应的多个向量；

所述匹配层将所述第一语句所对应的多个向量与所述第二语句所对应的多个向量进行匹配，并根据匹配结果生成相似度表示；

所述拼接层将所述相似度表示进行拼接；

所述相似度表示层对拼接结果进行筛选；

所述自注意层根据筛选结果计算自注意力值，所述自注意力值反映第一语句和第二语句的内部结构；

所述预测层根据所述自注意力值判断所述第一语句与所述第二语句之间的语义是否等价。

本申请实施例提供了一种语义等价性判断装置，该装置包括：向量生成单元、相似度表示生成单元、筛选单元、自注意力值计算单元以及判断单元，其中：

向量生成单元，根据第一语句和第二语句生成第一语句所对应的多个向量以及第二语句所对应的多个向量；

相似度表示生成单元，将所述第一语句所对应的多个向量与所述第二语句所对应的多个向量进行匹配，并根据匹配结果生成相似度表示；

筛选单元，将所述相似度表示拼接后通过模型的相似度表示层进行筛选；

自注意力值计算单元，将筛选结果输入模型的自注意层，并通过所述自注意层计算自注意力值，所述自注意力值反映第一语句和第二语句的内部结构；

判断单元，根据所述自注意力值判断所述第一语句与所述第二语句之间的语义是否等价。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

采用实施例所提供的语义等价性判断方法，根据第一语句所对应的多个向量与第二语句所对应的多个向量之间的匹配结果，生成相似度表示，并将相似度表示拼接后通过模型的相似度表示进行筛选，然后模型的自注意层通过该筛选结果计算自注意力值，该自注意力值反映第一语句和第二语句的内部结构，从而能够根据自注意力值来判断第一语句与第二语句之间的语义是否等价。通过该方法对多个句子之间语义是否等价的判断结果，相对于现有技术准确性更高，因此能够用于解决现有技术中的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的用于判断语义等价性的模型的具体结构示意图；

图2为本申请实施例提供的语义等价性判断方法的具体流程示意图；

图3为本申请实施例提供的语义等价性判断装置的具体结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

如上所述，问答机器人对语句语义的理解，特别是对多个语句之间的语义是否等价的理解，通常能够影响问答机器人的问答效果。其中，判断多个语句之间的语义是否等价是指对给定的多个句子，判断他们在语义上是否一致。比如，语句一为“安全验证为什么没有成功”，语句二为“安全验证没通过是怎么回事”，该语句一和语句二之间的语义上是等价的。又或者，语句三为“我如何到图书馆去”，语句四为“图书馆今天是否开门”，该语句三和语句四之间的语义不等价。本专利的目的在于确定语句之间的语义是否等价。

基于此，本申请实施例1提供了一种语义等价性判断方法，能够通过所提供的模型来确定第一语句(后续用P表示)和第二语句(后续用Q表示)之间语义是否等价。为了便于理解，可以先结合图1对模型的结构进行说明，该模型10包括向量转化层11、匹配层12、拼接层13、相似度表示层14(也即Sim Attention层14)、自注意层15(也即Self Attention层15)以及预测层16。

其中，向量转化层11能够将所输入的语句转化为相应的多个向量，比如将P输入该向量转化层11，能够通过该向量转化层11生成与该P对应的多个向量。同样，将Q输入该向量转化层11，能够通过该向量转化层11生成与该Q对应的多个向量。

在实际应用中，通常可以采取预训练的模型作为该向量转化层11，比如将Bert深度迁移模型作为该向量转化层11。

Bert深度迁移模型全称为Bidirectional Encoder Representations fromTransformers，它由谷歌AI团队所发布，能够根据所输入的语句中的各个字生成相应的向量。并且在根据语句生成向量的过程中，通常在语句的头部添加[CLS]分类符号，用于表示该语句用于分类模型。在根据语句生成向量的过程中也同时根据语句的[CLS]分类符号生成CLS向量。

比如，将P输入Bert深度迁移模型，该Bert深度迁移模型能够根据P中的各个字生成对应的向量，以及根据P的[CLS]分类符号，生成对应的CLS向量。同样，将Q作为输入时，生成Q对应的CLS向量以及Q中各个字分别对应的向量。

匹配层12，能够将向量转化层11的输出(即P所对应的多个向量和Q所对应的多个向量)作为其输入，从而通过匹配层12将P所对应的多个向量与Q所对应的多个向量进行匹配，并根据匹配结果生成相似度表示。

当向量转化层11具体为Bert深度迁移模型时，由于Bert深度迁移模型的输出中，P所对应的多个向量包括P中的各个字分别对应的向量和P的CLS向量，Q所对应的多个向量包括Q中的各个字分别对应的向量和Q的CLS向量。因此，当向量转化层11具体为Bert深度迁移模型时，匹配层12将P所对应的多个向量与Q所对应的多个向量进行匹配，并根据匹配结果对应的相似度表示的方式可以有多种。该匹配层12通过将P所对应的向量与Q所对应的向量进行交互匹配，从而得到对应的相似度表示，该相似度表示能够反映出另一句子信息的表示。例如，将P中的各个字分别对应的向量和P的CLS向量，与Q中的各个字分别对应的向量和Q的CLS向量进行匹配，再将Q中的各个字分别对应的向量和Q的CLS向量，和P中的各个字分别对应的向量和P的CLS向量进行表示，这是一个双向过程，用一种多视角匹配操作，依次包含四个匹配方式，下面仅以P为例进行说明：

匹配方式一，将P中各个字分别所对应的向量分别和Q的CLS向量进行匹配，从而确定匹配结果。比如分别计算P中的各个字所对应的向量与Q的CLS向量的余弦相似度，从而将所计算出的各个余弦相似度作为匹配结果。

当然，也可以分别计算P中的各个字所对应的向量与Q的CLS向量的向量距离(比如欧氏距离等)，并根据这些向量距离得到匹配结果(比如向量距离的倒数)。

匹配方式二，将P中各个字分别所对应的向量分别和Q中各个字分别所对应的向量进行匹配，从而确定匹配结果。比如，也可以采用余弦相似度的方式，分别计算P中各个字所对应的向量与Q中各个字所对应的向量的余弦相似度，从而确定Q的各个字所对应的向量分别对应的最大余弦相似度，并根据这些最大余弦相似度确定匹配结果。

当然，与方式一相同，也可以采用向量距离的方式，分别计算P中各个字的所对应向量与Q中各个字所对应的向量的向量距离，从而根据这些向量距离来确定匹配结果。比如，将Q中各个字所对应的向量的最小向量距离，确定为匹配结果。

匹配方式三，分别计算P中各个字所对应的向量与Q中各个字所对应的向量的相似度，并将所计算出的相似度作为Q中各个字对应的向量的权重进行加权求和运算，从而计算出中间向量，然后将中间向量分别与Q中各个字所对应的向量进行匹配。

匹配方式四，分别计算P中各个字所对应的向量与Q中各个字所对应的向量的相似度，并将最大相似度分别与Q中各个字所对应的向量进行匹配。

可以结合上述四种匹配方式的匹配结果，从而生成与P对应的相似度表示。

另外，还可以采用与上述四种匹配方式相同的构思，确定与Q对应的相似度表示。

将第二语句中各个字所对应的向量分别与第一语句中的CLS向量进行匹配；将第二语句中各个字所对应的向量分别与第一语句中各个字所对应的向量进行匹配；分别计算第二语句中各个字所对应的向量与第一语句中各个字所对应的向量的相似度，并将所计算出的相似度作为所述第一语句中各个字所对应的向量的权重进行加权求和运算，将加权求和运算的结果分别与所述第一语句中各个字所对应的向量进行匹配；分别计算第二语句中各个字所对应的向量与第一语句中各个字所对应的向量的相似度，并将最大相似度分别与所述第一语句中各个字所对应的向量进行匹配。

同样可以根据上述四种匹配方式的匹配结果，生成与Q对应的相似度表示，这里对此不再赘述。

拼接层13，以匹配层12所生成的相似度表示作为该拼接层13的输入，通过该拼接层13将各个相似度进行拼接。

比如，将P所对应的相似度表示通过该拼接层13拼接后，生成P所对应的拼接结果。将Q所对应的相似度表示通过该拼接层13拼接后，生成Q所对应的拼接结果。

Sim Attention层14，将拼接层13的拼接结果作为该Sim Attention层14的输入，通过该Sim Attention层14对拼接结果进行筛选。

其中，可以先对拼接结果作线性变换，比如将拼接结果与权重矩阵相乘做线性变换，并在线性变换之后经过softmax函数(归一化指数函数)来进行筛选，作为权重更新P和Q的word embedding。

这里可以以第一语句为例，将第一语句对应的拼接结果输入Sim Attention层14，从而通过该Sim Attention层14对该拼接结果进行筛选，计算方法如下：

该计算公式中，M₁和表示第一语句对应的拼接结果，M₂表示第二语句对应的拼接结果，V₁为第一语句的筛选结果，D_k为常数，W₁、W₂和W_V均为预先生成的权重矩阵。

同理，第二语句对应的拼接结果进行筛选，计算方法如下：

该计算公式中，M₁和表示第一语句对应的拼接结果，M₂表示第二语句对应的拼接结果，V₂为第二语句的筛选结果，D_k为常数，W₁、W₂和W_V分别为预先生成的不同的权重矩阵。

Self Attention层15，根据Sim Attention层14所输出的筛选结果计算自注意力值，其中自注意力值反映第一语句和第二语句自身各字之间的依赖关系，进而捕获它们自身的内部结构。

Self Attention层15可以采用自注意力机制，对于所输入语句，该语句中的每个字都要和语句中所有词分别进行注意力值计算。可以从Sim Attention层14得到的筛选结果计算自注意力值，计算方式如下：

其中，E为所输入的筛选结果，D’_k为常数，W’₁、W’₂和W’_V分别为预先生成的不同的权重矩阵。

预测层16，将Self Attention层15所计算出的自注意力值作为输入，并根据自注意力值来预测第一语句和第二语句是否等价。

预测层16具体的预测方式可以是，将Self Attention层15所计算出的自注意力值映射到目标类别上，并经过预测层16中的平均池化层将句子长度映射到一维上，之后经过预测层16中的全连接神经网络层，并通过全连接神经网络层中的softmax函数来计算出等价和不等价的概率，选择概率较大的作为预测结果。比如，不等价的概率大于等价的概率，则将第一语句和第二语句不等价作为预测结果。

下面可以结合图2，并基于图所示的模型10，对本申请所提供的语义等价性确定方法进行说明，该方法包括如下步骤：

步骤S21：根据第一语句和第二语句生成第一语句所对应的多个向量以及第二语句所对应的多个向量。

比如，可以将第一语句输入到上述模型10的向量转化层11(可以是Bert深度迁移模型)，该Bert深度迁移模型可以根据第一语句生成第一语句的CLS向量和第一语句中各个字分别对应的向量；也可以将第二语句输入到作为向量转化层11的Bert深度迁移模型中，该Bert深度迁移模型可以根据第二语句生成第二语句的CLS向量和第二语句中各个字分别对应的向量。

步骤S22：将所述第一语句所对应的多个向量与所述第二语句所对应的多个向量进行匹配，并根据匹配结果生成相似度表示。

步骤S23：将所述相似度表示拼接后通过模型10的相似度表示层14进行筛选。

步骤S24：将筛选结果输入模型10的自注意层15，并通过所述自注意层15计算自注意力值，所述自注意力值反映第一语句和第二语句的内部结构；

步骤S25：根据所述自注意力值判断所述第一语句与所述第二语句之间的语义是否等价。

可以将自注意力值作为模型10的预测层16的输入，通过该预测层16中的平均池化层和全连接神经网络层，确定出第一语句与第二语句等价和不等价的概率，当等价的概率大于不等价的概率时，则确定第一语句和第二语句之间的语义等价，当等价的概率小于不等价的概率时，则确定第一语句和第二语句之间的语义不等价。

采用本申请实施例所提供的判断语义等价性的方法，根据第一语句所对应的多个向量与第二语句所对应的多个向量之间的匹配结果，生成相似度表示，并将该相似度表示通过模型10的相似度表示层14进行筛选，然后将筛选结果通过模型10的自注意层15计算出自注意力值，该自注意力值反映第一语句和第二语句的内部结构，从而根据自注意力值来判断第一语句与第二语句之间的语义是否等价。通过该方法对多个句子之间语义是否等价的判断结果，相对于现有技术准确性更高，因此能够用于解决现有技术中的问题。

另外，在实际应用中，可以将预训练的Bert深度迁移模型作为本申请所提供的模型10中的向量转化层11，利用该Bert深度迁移模型自身优良的特性，进一步提高判断的准确性。

基于与本申请所提供的语义等价性确定方法相同的发明构思，本申请实施例还提供了一种语义等价性判断装置，也能够解决现有技术中的问题。另外，对于该装置实施例中，如有不清楚指出，可以参考方法部分。

如图3所示，该装置30包括：向量生成单元301、相似度确定单元302、筛选单元303、自注意力值计算单元304以及判断单元305，其中：

向量生成单元301，根据第一语句和第二语句生成第一语句所对应的多个向量以及第二语句所对应的多个向量；

相似度确定单元302，将所述第一语句所对应的多个向量与所述第二语句所对应的多个向量进行匹配，并根据匹配结果生成相似度表示；

筛选单元303，将所述相似度表示拼接后通过模型的相似度表示层进行筛选；

自注意力值计算单元304，将筛选结果输入模型的自注意层，并通过所述自注意层计算自注意力值，所述自注意力值反映第一语句和第二语句的内部结构；

判断单元305，根据所述自注意力值判断所述第一语句与所述第二语句之间的语义是否等价。

由于该装置30采用与本申请实施例中判断语义等价性的方法相同的发明构思，在该方法能够解决技术问题的情况下，该装置30也能够解决现有技术中的问题，这里对此不再赘述。

在实际应用中，向量生成单元301可以将第一语句和第二语句分别作为Bert深度迁移模型的输入，并通过所述Bert深度迁移模型生成第一语句中各个字分别对应的向量和第一语句的CLS向量，以及第二语句中各个字分别对应的向量和第二语句的CLS向量。

筛选单元303可以包括线性变换子单元以及筛选子单元，其中：所述线性变换子单元，用于在将所述相似度表示拼接后，通过相似度表示层对拼接结果作线性变换；所述筛选子单元，用于所述相似度表示层将线性变换的结果点乘后，通过softmax函数进行筛选。

相似度确定单元302，可以通过如下任意一种方式或多种方式的结合，来将第一语句所对应的多个向量与第二语句所对应的多个向量进行匹配：将所述第一语句中各个字所对应的向量分别与所述第二语句中的CLS向量进行匹配；将所述第二语句中各个字所对应的向量分别与所述第一语句中的CLS向量进行匹配；将所述第一语句中各个字所对应的向量分别与所述第二语句中各个字所对应的向量进行匹配；将所述第二语句中各个字所对应的向量分别与所述第一语句中各个字所对应的向量进行匹配；分别计算所述第一语句中各个字所对应的向量与所述第二语句中各个字所对应的向量的相似度，并将所计算出的相似度作为所述第二语句中各个字所对应的向量的权重进行加权求和运算，将加权求和运算的结果分别与所述第二语句中各个字所对应的向量进行匹配；分别计算所述第二语句中各个字所对应的向量与所述第一语句中各个字所对应的向量的相似度，并将所计算出的相似度作为所述第一语句中各个字所对应的向量的权重进行加权求和运算，将加权求和运算的结果分别与所述第一语句中各个字所对应的向量进行匹配；分别计算所述第一语句中各个字所对应的向量与所述第二语句中各个字所对应的向量的相似度，并将最大相似度分别与所述第二语句中各个字所对应的向量进行匹配；分别计算所述第二语句中各个字所对应的向量与所述第一语句中各个字所对应的向量的相似度，并将最大相似度分别与所述第一语句中各个字所对应的向量进行匹配。

自注意力值计算单元304，可以通过将筛选结果输入所述模型的自注意层，并通过所述自注意层计算自注意力值，其中自注意层通过如下公式计算所述自注意力值：

其中，Self attention(E)为所计算出的自注意力值，E为筛选结果，D’_k为常数，W’₁、W’₂和W’_V分别为不同的权重矩阵。

判断单元305，将所述自注意力值映射到目标类别上，并通过平均池化层映射到一维；将所述平均池化层的输出结果输入全连接神经网络层，并在所述全连接神经网络层中通过softmax函数计算出等价的概率和不等价的概率；根据等价的概率和不等价的概率的大小，判断所述第一语句与所述第二语句之间的语义是否等价。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种语义等价性判断方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，将所述相似度表示拼接后通过模型的相似度表示层进行筛选，具体包括：

将所述相似度进行拼接；

通过相似度表示层对拼接结果作线性变换和点乘，并通过softmax函数进行筛选。

3.如权利要求1所述的方法，其特征在于，根据第一语句和第二语句生成第一语句所对应的多个向量以及第二语句所对应的多个向量，具体包括：

将第一语句和第二语句分别作为Bert深度迁移模型的输入，并通过所述Bert深度迁移模型生成第一语句中各个字分别对应的向量和第一语句的CLS向量，以及第二语句中各个字分别对应的向量和第二语句的CLS向量。

4.如权利要求3所述的方法，其特征在于，将所述第一语句所对应的多个向量与所述第二语句所对应的多个向量进行匹配，具体包括：

将第一语句中各个字分别对应的向量和第一语句的CLS向量，与第二语句中各个字分别对应的向量和第二语句的CLS向量进行匹配。

5.如权利要求1所述的方法，其特征在于，所述自注意层通过如下公式计算所述自注意力值：

6.如权利要求1所述的方法，其特征在于，根据所述自注意力值判断所述第一语句与所述第二语句之间的语义是否等价，具体包括：

将所述自注意力值映射到目标类别上，并通过平均池化层映射到一维；

将所述平均池化层的输出结果输入全连接神经网络层，并在所述全连接神经网络层中通过softmax函数计算出等价的概率和不等价的概率；

根据等价的概率和不等价的概率的大小，判断所述第一语句与所述第二语句之间的语义是否等价。

7.一种基于模型的语义等价性判断方法，其特征在于，所述模型包括：向量转化层、匹配层、拼接层、相似度表示层、自注意层以及预测层，所述方法包括：

所述拼接层将所述相似度表示进行拼接；

所述相似度表示层对拼接结果进行筛选；

8.如权利要求1所述的方法，其特征在于，所述相似度表示层对拼接结果进行筛选，具体包括：

所述相似度表示层对拼接结果作线性变换；以及，

所述相似度表示层将线性变换的结果点乘后，通过softmax函数进行筛选。

9.一种语义等价性判断装置，其特征在于，包括：向量生成单元、相似度表示生成单元、筛选单元、自注意力值计算单元以及判断单元，其中：

10.如权利要求9所述的装置，其特征在于，筛选单元包括线性变换子单元以及筛选子单元，其中：

所述线性变换子单元，用于在将各所述相似度拼接后，通过相似度表示层对拼接结果作线性变换；

所述筛选子单元，用于通过所述相似度表示层将线性变换的结果点乘，并通过softmax函数进行筛选。