CN110633359B

CN110633359B - 语句等价性判断方法和装置

Info

Publication number: CN110633359B
Application number: CN201910832807.4A
Authority: CN
Inventors: 王然; 苏海波; 孙伟; 刘钰; 杜晓梦; 刘译璟
Original assignee: Beijing Percent Technology Group Co ltd
Current assignee: Percentage Technology Group Co.,Ltd.
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2022-03-29
Anticipated expiration: 2039-09-04
Also published as: CN110633359A

Abstract

本申请实施例公开了一种语句等价性判断方法和装置，所述方法包括：获取待判断等价性的语句；将所述语句输入预先训练的等价性判断模型，所述等价性判断模型根据基于深度学习模型和人工特征模型的模型平均方法训练得到；通过所述等价性判断模型对所述语句进行等价性判断，得到等价性判断结果。通过本申请实施例，可以提高语句等价性判断的效率和精确性。

Description

语句等价性判断方法和装置

技术领域

本申请涉及机器学习、人工智能、自然语言处理技术领域，尤其涉及一种语句等价性判断方法和装置。

背景技术

随着人工智能技术的兴起，各个领域都从中受益，其中就包括备受业界关注的“问答机器人”领域。从最初基于“规则”的智能体到后来基于“知识图谱”的智能体，问答机器人的性能得到了较大改善，但由于自然语言表述的复杂性及多样性，如同义句的不同语言表达结构和异义句的相似语言表达结构，容易迷惑机器人，使其在理解问题时就会产生极大的偏差，进一步产生误差传递严重限制其性能提升。

目前对于句子等价性的研究，主要是基于深度学习方法，例如基于Siamese 框架的方法和匹配聚合框架的方法。在基于Siamese框架的方法中，对两个句子分别运用相同的神经网络编码器，使得句子被编码到相同的句子向量空间中，然后仅基于两个句子向量做出匹配决策。该框架的优点是共享参数使得模型小且容易训练，缺点是在编码过程期间两个句子之间没有明确的交互，导致可能丢失一些重要信息。在基于匹配聚合框架的方法中，匹配两个句子的较小单元(如单词或者上下文向量)，然后将匹配结果聚合到向量中以做出最终决定。该框架可以捕获两个句子之间的更多交互的信息，但是模型的学习效率不够高，并且忽略了深层次的匹配，缺少双向匹配甚至任意距离的匹配。

因此，现有语句等价性判断方案存在效率低、精确性差的问题。

发明内容

本申请实施例提供一种基于语句等价性判断方法和装置，以解决现有语句等价性判断方案存在效率低、精确性差的问题。

为解决上述技术问题，本发明实施例是这样实现的：

第一方面，本发明实施例提供了一种语句等价性判断方法，包括：获取待判断等价性的语句；将所述语句输入预先训练的等价性判断模型，所述等价性判断模型根据基于深度学习模型和人工特征模型的模型平均方法训练得到；通过所述等价性判断模型对所述语句进行等价性判断，得到等价性判断结果。

第二方面，本发明实施例提供了一种语句等价性判断装置，包括：获取模块，用于获取待判断等价性的语句；输入模块，用于将所述语句输入预先训练的等价性判断模型，所述等价性判断模型根据基于深度学习模型和人工特征模型的模型平均方法训练得到；判断模块，用于通过所述等价性判断模型对所述语句进行等价性判断，得到等价性判断结果。

第三方面，本发明实施例提供了一种语句等价性判断的设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述第一方面所述的语句等价性判断方法的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的语句等价性判断方法的步骤。

在本发明实施例中，可以通过根据基于深度学习模型和人工特征模型的模型平均方法训练得到等价性判断模型，进行句子等价性判断，基于在自然语言处理领域表现良好的深度学习模型与深度学习模型可以互补的人工特征模型相结合，再使用模型平均的方法，可以获得拟合准确性和性能更佳的语句等价性判断模型，从而提高语句等价性判断的效率和精确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请的一个实施例提供的一种语句等价性判断方法的流程示意图；

图2是根据本申请的一个实施例提供的Bert模型的结构示意图；

图3是根据本申请的一个实施例提供的Transformer模型的结构示意图；

图4是根据本申请的一个实施例提供的BIMPM模型的结构示意图；

图5是根据本申请的一个实施例提供的BCNN模型的结构示意图；

图6是根据本申请的一个实施例提供的ABCNN模型的结构示意图；

图7是根据本申请的一个实施例提供的另一种ABCNN模型的结构示意图；

图8是根据本申请的一个实施例提供的另一种ABCNN模型的结构示意图；

图9是根据本申请的一个实施例提供的MatchPyramid模型的结构示意图；

图10是根据本申请的一个实施例提供的一种语句等价性判断装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

图1为本申请的一个实施例提供的一种语句等价性判断方法的流程示意图，如图1所示，包括以下步骤：

S102，获取待判断等价性的语句。

句子的等价性是指对给定的两个句子，判断它们在语义上是否一致。例如“安全验证为什么没有成功”和“安全验证没通过是怎么回事”这两句话在语义上是一样的，而“我如何到图书馆去”和“图书馆今天是否开放”这两句话的语义则是不同的。本实施例提供的方法可以对给定的句子对是否语义相同做出判断。

S104，将语句输入预先训练的等价性判断模型，该等价性判断模型根据基于深度学习模型和人工特征模型的模型平均方法训练得到。

由于不同的模型关注的特征不同，尤其是基于深度学习和人工特征的模型可以分别捕捉给定文本中不同角度的特征，从而形成互补的关系。考虑到自然语言处理领域中大部分数据或任务是存在相关性的，在本实施例中，采用基于深度学习模型和人工特征模型的模型平均方法，来提高整体模型的拟合准确性。

可选地，在本实施例中可以采用基于逻辑回归的模型平均方法。具体而言，可以将全部需要平均的模型的预测概率输入逻辑回归模型中，进行训练确定各个模型的权重，基于权重对应的模型参数得到完整的等价性判断模型。在上述模型中还包括人工特征模型，即基于提取的人工特征的模型，通过多种角度提取的重要人工特征，可以辅助模型提升等价句子的判断性能。

S106，通过等价性判断模型对语句进行等价性判断，得到等价性判断结果。

本申请实施例中，可以通过根据基于深度学习模型和人工特征模型的模型平均方法训练得到等价性判断模型，进行句子等价性判断，基于在自然语言处理领域表现良好的深度学习模型与深度学习模型可以互补的人工特征模型相结合，再使用模型平均的方法，可以获得拟合准确性和性能更佳的语句等价性判断模型，从而提高语句等价性判断的效率和精确性。

具体地，可以通过以下方式训练得到上述等价性判断模型，包括：

1.使用训练数据分别训练组合模型和人工特征模型，组合模型包括至少两个不同的深度学习模型。

其中，作为等价性判断模型的基础模型包括：深度学习模型和人工特征模型。深度学习模型包括：基于Transformer的双向编码器表示模型BERT (Bidirectional EncoderRepresentation from Transformers)、基于注意力用于句子建模的卷积神经网络模型ABCNN(Attention-Based Convolutional Neural Network for Modeling SentencePairs)、双边多视角自然语言句子匹配模型 BIMPM(Bilateral Multi-PerspectiveMatching for Natural Language Sentences) 和匹配金字塔模型MatchPyramid；人工特征模型包括提升Boosting模型，例如极端梯度提升Xgboost(eXtreme Gradient Boosting)模型或者自适应提升 Adboost(Adaptive Boosting)模型。

组合模型包括至少两个不同的深度学习模型，即由两个不同的深度学习模型连接得到，包括：BERT连接ABCNN的组合模型、BERT连接BIMPM的组合模型以及BERT连接MatchPyramid的组合模型，均是在BERT模型的上层添加复杂的网络结构，在训练时先固定BERT的参数，仅单独训练上层任务模型，再联合训练包括BERT在内的整个模型，可以改善模型的预测性能。因此上述使用训练数据训练组合模型的步骤，可以包括：使用训练数据对组合模型中的ABCNN、BiMPM、MatchPyramid分别进行拟合；对拟合后的组合模型进行微调，得到训练后的组合模型。

在获取到训练数据后，可以将训练数据分为n个数据集t₁-t_n，依次使用t₁-t_n之一作为验证集，其余数据集作为训练集；使用数据集t₁-t_n对组合模型和人工特征模型进行n折交叉验证训练。

2.将训练数据分别输入训练后的组合模型和人工特征模型，得到训练数据的预测结果。

将上述数据集t₁-t_n分别输入训练后的组合模型和人工特征模型，得到组合模型和人工特征模型分别对应的预测结果。将组合模型对应的预测结果合并，得到训练数据对应于组合模型的预测结果；将人工特征模型对应的预测结果合并，得到训练数据对应于人工特征模型的预测结果。由于前述训练过程中将训练数据分成了n份，对应每个模型均会得到n个预测结果，针对每个模型的n 个预测结果拼接起来，从而得到每个模型对训练数据的预测结果。

3.通过训练数据的预测结果拟合逻辑回归模型，对组合模型和人工特征模型进行模型平均得到等价性判断模型。

具体地，可以将训练数据对应于组合模型的预测结果和训练数据对应于人工特征模型的预测结果作为训练数据，拟合逻辑回归模型，即将前述各个模型训练过程中得到的训练数据的预测结果作为输入，拟合逻辑回归模型，进而确定组合模型和人工特征模型的权重参数，得到等价性判断模型。

以上述方式训练得到等价性判断模型，可以判断两个句子在语义层面的表达是否一致，可帮助问答机器人更好理解基于自然语言的问题输入，并给出合理回答。

在本实施例中以stacking方法训练得到上述等价性判断模型为例，具体包括以下步骤：

1.将实验数据集分成训练集和测试集。

2.对训练集中数据的顺序进行混淆后，平均分为五份t₁，t₂，t₃，t₄，t₅。

3.选择四个基础模型，分别为BERT+ABCNN组合模型、BERT+BIMPM 组合模型、BERT+MatchPyramid组合模型和人工特征模型Xgboost，使用t₁， t₂，t₃，t₄，t₅对上述四个基础模型进行5折交叉验证训练。

首先对每一个基础模型，使用t₂，t₃，t₄，t₅训练，并用t₁测试，结果保存在d₁；然后再对每一个基础模型，使用t₁，t₃，t₄，t₅训练，并用t₂测试，结果保存在d₂；依此类推得到d₃，d₄，d₅，得到四个模型在全部训练集的初步预测结果。

4.使用训练集的全部数据拟合上述四个基础模型后，使用上述四个基础模型分别对测试集进行预测，从而得到测试集的初步预测结果。

5.使用训练集的初步预测结果拟合逻辑回归模型，得到进行模型平均后的等价性判断模型，并根据该等价性判断模型对测试集的判断结果作为测试集的最终预测结果。

本申请实施例中使用的基础模型，具体如下：

1.BERT

BERT模型从多个双向的Transformer的编码器获得词语的表示，核心主要是遮蔽语言模型(Masked Language Model)和Transformer。BERT模型在多项自然语言处理任务中有卓越的表现。参见图2所示的Bert模型的结构示意图， BERT模型利用Transformer结构构造了一个多层双向的编码网络。当使用该模型时只需要根据具体任务在图2所示的结构后添加一层输出层即可。在预训练 BERT模型时，可以添加一个全连接层。

上述遮蔽语言模型通过随机遮蔽句子中的15％的词语，根据该句子的上下文对其进行预测，结合对下一个句子的预测，完成模型的预测任务。为了防止被遮蔽的词语在预训练过程中没有出现，被选中遮蔽的词在80％的时间里用 mark标记，在10％的时间里随机替换别的词，在10％的时间里保留原词。

参见图3所示的Transformer模型的结构示意图，Transformer模型是不同于传统循环神经网络和卷积神经网络的一种新的架构，可以用来实现机器翻译等任务。图3中所示的模型结构，由左半部分的编码器(Encoder)和右半部分的解码器(Decoder)构成。

编码器由Nx个相同的层(layer)组成，l层指的就是图3中左侧框内的单元。编码器的每层主要由多头自注意力机制Multi-head self-attention和前馈神经网络FeedForward Neural Network构成。自注意力机制对任意位置的两个词语都可以进行直接编码，可以解决长距离信息丢失问题。多头自注意力机制在自注意力机制的基础上，将输入序列进行不同的线性变化，切分成h个维度，分别计算注意力相似度，每个维度空间都可以学到不同层次的特征。在图3中还是示出了位置嵌入Positional Embedding，用于为每个词引入了一定的位置信息。

Bert预训练过程中产生能表示词语上下文含义的词向量，在其后拼接下游具体的任务，可以充分利用词向量信息，因此可以使用Bert作为基础模型，与其他模型结合。

2.BIMPM

BIMPM使用两个双向长短期记忆网络(LongShort-TermMemory，LSTM) 并在中间加入匹配机制。参见图4所示的BIMPM模型的结构示意图，主要包括五层：词向量表示层WordRepresentation Layer、上下文表示层Context Representation Layer、匹配层MachingLayer、聚合层Aggregation Layer和预测层Prediction Layer。上下文表示层和聚合层都使用BILSTM，在匹配层用了四种的匹配方式并将结果拼接。

BIMPM的主要创新点在匹配层，将两个句子进行多角度、多粒度的匹配，通过对两个向量点乘一个权重矩阵后计算余弦相似度。共有四种匹配方式，仅以第一个句子为例：将第一个句子中经过双向LSTM之后得到的每一步的隐藏层状态和第二句子的最后一个隐藏状态进行匹配。将第一个句子中的每个隐藏层状态分别于第二个句子中的每个隐藏层状态进行匹配，选择得分最大的值作为匹配值。将第一个句子中的每个隐藏层状态和第二个句子中的每个隐藏层状态计算余弦值，作为第二个句子中的每个状态的权重，加权求和得到中间向量，再与初始状态进行匹配。与上一种方法相似，但在最后一步不进行加权求和，而是用最大的匹配值与初始状态计算余弦相似度。

单个BIMPM目前在句子相似度计算问题上取得了最好的效果，中间的匹配层能够提取出两个句子的大量信息，为充分利用这个模型，可以适应性改进和修正，以提高预测效果。

3.ABCNN

ABCNN在双线性卷积神经网络(BCNN)的基础上加入了注意力机制。参见图5所示的BCNN模型的结构示意图，对两个句子先用0去填充，增大宽度，分别作宽卷积(wideconvolution)，假设句子的长度分别为s1，s2，词向量维度是d，经过宽卷积得到的是(s1+w)*d维的特征图。再经过平均池化 (Average pooling)，对于不是最后一层的池化层，以宽度为w+1，步长为1，求均值，得到s1*d的矩阵。这一步是将特征图变换为与输入矩阵维度相同的矩阵。对于最后一层的池化层，对所有行求平均，得到d维向量。最后通过逻辑回归(logistic regression)计算类别得分。

参见图6所示的ABCNN模型的结构示意图，该ABCNN模型是在卷积层(Convolution)之前加入注意力机制。考虑句子之间的相关性，计算第一个句子中的每个词与第二个句子中的每个词的得分，作为注意力矩阵A(Attention matrix A)。其中，得分通过欧式距离计算。图示的表示特征图(representation feature map)经过注意力矩阵A处理后，再分别乘以不同的权重矩阵，得到分别表示两个句子的注意力特征图(attentionfeature map)。图6中Covn Input 表示表示特征图和注意力特征图为卷积输入。

参见图7所示的ABCNN模型的结构示意图，该ABCNN模型是在卷积层之后加入注意力机制，对两个句子经过卷积后的矩阵，计算注意力矩阵A (Attention matrix A)，将注意力矩阵按行求和(row-wise sum)或按列求和 (col-wise sum)，作为卷积层矩阵的权重，加入到注意力池化层(Attention-based average pooling)中。图7所示的ABCNN和图6所示的ABCNN主要有三个区别：图6所示的ABCNN中注意力直接影响卷积，图7所示的ABCNN直接影响池化；图6所示的ABCNN中要将注意力矩阵转化为注意力特征图，参数比较多，容易引起过拟合；粒度不同。

参见图8所示的ABCNN模型的结构示意图，将图6所示的ABCNN模型和图7所示的ABCNN模型结合起来，分别在卷积层和池化层前加入注意力机制，在最后一层池化的输出结果连接一个全连接层，得到对类别的预测，从中选择预测概率最大的类别作为当前样本的分类。

4.MatchPyramid

参见图9所示的MatchPyramid模型的结构示意图，MatchPyramid模型包括匹配矩阵层(Layer0-Matching matrix)、二维卷积层(Layer1-2D-convolution)、二维池化层(Layer2-2D-Pooling)和多层感知层(Layer-MLP)。MatchPyramid 的主要思路是将文本和问句匹配问题看作是一种图像识别问题。具体而言， MatchPyramid的思想和BIMPM类似，即MatchPyramid依据是输入文本中每个字或词的输出进行两两匹配，并据此得到相似度矩阵。然而对于得到相似度矩阵之后，MatchPyramid采用卷积神经网络作为特征提取器。

5.人工特征模型

针对句子等价性问题，本申请实施例中设计了人工特征用以补充神经网络自动抽取的特征。本申请实施例中使用的人工特征模型基于如下人工特征：句法特征、语法特征和主题特征。

(1)句法特征具体包括以下特征：

句子长度：计算两个句子各自的字符数目；

句子长度差：计算两个句子字符数目的差值；

句向量间距离：对句中各个词用word2vec模型训练词向量，标准化后得到句向量表示，之后计算余弦距离(cosine)、城市街区距离(cityblock)、堪培拉距离(canberra)、欧式距离euclidean、明科夫斯基距离(minkowski)、相异度距离(braycurtis)，其中部分距离计算公式如下所示：

余弦距离：

城市街区距离：

欧式距离：

明科夫斯基距离：

以上距离计算函数可从scipy.distance导入。

句向量偏斜度：计算由词向量拼接得到的句向量偏移到另一句句向量的偏移角度；

句向量峰度：计算是句向量在均值处峰值高低的特征；

动词表示句向量及名词表示句向量的余弦相似度：分别计算由动词词性词向量拼接得到的句子表示的余弦相似度和由名词词性词向量拼接得到的句子表示的余弦相似度；

tf-idf表示的句向量的统计值：计算每个词的tf-idf值，先计算两个句子分词后的词的词频(tf值)，再计算含有该单词的句子数除以句子总数的值(idf 值)，将二值相乘作为单词的tf-idf表示，然后拼接得到tf-idf表示的句向量。再计算句子向量的数值和、平均值、非零值的数目等统计特征；

tf-idf表示的句向量的余弦相似度：计算由词的tf-idf值表示的句向量间的余弦相似度；

中心词词向量的余弦相似度：由句法分析得到句子中的定位词(紧紧围绕的主旨词)的词向量间的余弦相似度。

(2)词法特征具体包括以下特征：

数目差：计算分词后两个句子的词数目差；

句子中共有词数目：计算两个句子中共有的词语和共有的停用词的数目；

句子间共有词及共有停用词差：计算两个句子间中共有词数目的差值，包括共有词和共有停用词；

句子间共有词占两个句子所有词的比例：计算两个句子中共有词占所有词的比例和计算两个句子中共有停用词占所有停用词的比例；

词性：计算句子中是否包含各种词性的词，如形容词、名词、连词、副词、成语、缩写、前缀、后缀、数词、方向词、地名、动词、人名、代词、机构名、外文等；

用模糊字符串匹配(fuzzywuzzy)计算的模糊相似度：用fuzzywuzzy进行字符串的模糊匹配然后进行比较，计算类型有词语排序比较、词语集合比较、部分比较；

词移距离：计算一句话中的词语转移到另一句话中的最短路劲(最小代价)，即两句话的相似程度；

等价句中共现的词表：得到训练语料中等价句子对中共同出现的词语，组成一个集合，计算这些词语在该词语集合中出现的概率，然后对于每个句子对，计算其所含的共现词语的上述概率之和；

句中共有词的tf-idf值之和与全部词的tf-idf值这的比值：共有词、全部词的tf-idf值计算方法同上。

(3)主题特征具体包括以下特征：

主题分布的句向量的余弦相似度：用潜在狄利克雷分布(Latent Dirichletdistribution、LDA)主题模型得到句子在各主题上的概率，作为句子的一个向量表示，计算这样两个向量的余弦相似度。

为了验证本申请实施例中等价性判断模型对语句等价性判断的效果，设计了验证实验。验证实验采用的数据来自Kaggle网站上公开的英文文本数据集“quora-question-pairs”，在Pytorch框架上，使用图形处理器对基础模型和组合模型分别进行试验。在BERT连接其他上层模型的组合模型实验中，需要预先训练BERT，在拟合时固定BERT的参数仅拟合上层模型，再对BERT和上层模型进行微调。实验结果参见表1所示。

模型	预测准确率
		ABCNN	80.11％
BiMPM	87.85％
		MatchPyramid	81.01％
BERT+ABCNN	85.73％
		BERT+BIMPM	88.01％
BERT+MatchPyramid	85.12％
		组合模型(不包含人工特征)	88.79％
组合模型(包含人工特征)	89.23％

表1

在表1中组合模型(不包含人工特征)的预测准确率为88.79％，组合模型(包含人工特征)的预测准确率为89.23％，均明显高于单个模型的预测准确率。表1的实验结果表明，在上述基础模型的基础上应用模型平均的方法，即采用逻辑回归进行模型组合所得到的模型较单个模型的预测准确率有明显的提高。

图10为本申请一个实施例提供的一种语句等价性判断装置的示意图，如图10所示，该装置包括：

获取模块11，用于获取待判断等价性的语句；

输入模块12，用于将所述语句输入预先训练的等价性判断模型，所述等价性判断模型根据基于深度学习模型和人工特征模型的模型平均方法训练得到；

判断模块13，用于通过所述等价性判断模型对所述语句进行等价性判断，得到等价性判断结果。

可选地，还包括训练模块，用于通过以下方式训练得到所述等价性判断模型，包括：使用训练数据分别训练组合模型和人工特征模型，所述组合模型包括至少两个不同的深度学习模型；将训练数据分别输入训练后的所述组合模型和所述人工特征模型，得到所述训练数据的预测结果；通过所述训练数据的预测结果拟合逻辑回归模型，对所述组合模型和所述人工特征模型进行模型平均得到所述等价性判断模型。

可选地，所述深度学习模型包括：基于Transformer的双向编码器表示模型BERT、基于注意力用于句子建模的卷积神经网络模型ABCNN、双边多视角自然语言句子匹配模型BIMPM和匹配金字塔模型MatchPyramid；所述组合模型包括：BERT连接ABCNN的组合模型、BERT连接BIMPM的组合模型以及BERT连接MatchPyramid的组合模型；所述人工特征模型包括Boosting 模型。

可选地，所述训练模块具体用于：使用训练数据对所述组合模型中的ABCNN、BiMPM、MatchPyramid分别进行拟合；对拟合后的所述组合模型进行微调，得到训练后的所述组合模型。

可选地，所述训练模块具体用于：将训练数据分为n个数据集t₁-t_n，依次使用t₁-t_n之一作为验证集，其余数据集作为训练集；使用所述数据集t₁-t_n对组合模型和人工特征模型进行n折交叉验证训练。

可选地，所述训练模块具体用于：将所述数据集t₁-t_n分别输入训练后的所述组合模型和所述人工特征模型，得到所述组合模型和所述人工特征模型分别对应的预测结果；将所述组合模型对应的预测结果合并，得到所述训练数据对应于所述组合模型的预测结果；将所述人工特征模型对应的预测结果合并，得到所述训练数据对应于所述人工特征模型的预测结果。

可选地，所述训练模块具体用于：将所述训练数据对应于所述组合模型的预测结果和所述训练数据对应于所述人工特征模型的预测结果作为训练数据，拟合逻辑回归模型；确定所述组合模型和所述人工特征模型的权重参数，得到所述等价性判断模型。

可选地，所述人工特征模型基于如下人工特征：句法特征、语法特征和主题特征。

本申请实施例中，通过根据基于深度学习模型和人工特征模型的模型平均方法训练得到等价性判断模型，进行句子等价性判断，通过在自然语言处理领域表现良好的深度学习模型结合与深度学习模型可以互补的人工特征模型，再使用模型平均的方法，可以获得拟合准确性和性能更佳的语句等价性判断模型，从而提高语句等价性判断的效率和精确性。

本申请实施例提供一种语句等价性判断的设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述语句等价性判断方法实施例的各个步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述语句等价性判断方法实施例的各个步骤。

总之，以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种语句等价性判断方法，其特征在于，包括：

获取待判断等价性的语句；

将所述语句输入预先训练的等价性判断模型，所述等价性判断模型根据基于深度学习模型和人工特征模型的模型平均方法训练得到；

通过所述等价性判断模型对所述语句进行等价性判断，得到等价性判断结果；

其中，所述人工特征模型基于如下人工特征：句法特征、语法特征和主题特征；

(1)句法特征具体包括以下特征：

句子长度；

句子长度差；

句向量间距离；

句向量偏斜度；

句向量峰度；

动词表示句向量及名词表示句向量的余弦相似度；

tf-idf表示的句向量的统计值；

tf-idf表示的句向量的余弦相似度；

中心词词向量的余弦相似度；

(2)词法特征具体包括以下特征：

数目差；

句子中共有词数目；

句子间共有词及共有停用词差；

句子间共有词占两个句子所有词的比例；

词性；

用模糊字符串匹配计算的模糊相似度；

词移距离；

等价句中共现的词表；

句中共有词的tf-idf值之和与全部词的tf-idf值这的比值；

(3)主题特征具体包括以下特征：

主题分布的句向量的余弦相似度。

2.如权利要求1所述的方法，其特征在于，通过以下方式训练得到所述等价性判断模型，包括：

使用训练数据分别训练组合模型和人工特征模型，所述组合模型包括至少两个不同的深度学习模型；

将训练数据分别输入训练后的所述组合模型和所述人工特征模型，得到所述训练数据的预测结果；

通过所述训练数据的预测结果拟合逻辑回归模型，对所述组合模型和所述人工特征模型进行模型平均得到所述等价性判断模型。

3.如权利要求2所述的方法，其特征在于，所述深度学习模型包括：基于Transformer的双向编码器表示模型BERT、基于注意力用于句子建模的卷积神经网络模型ABCNN、双边多视角自然语言句子匹配模型BIMPM和匹配金字塔模型MatchPyramid；

所述组合模型包括：BERT连接ABCNN的组合模型、BERT连接BIMPM的组合模型以及BERT连接MatchPyramid的组合模型；

所述人工特征模型包括Boosting模型。

4.如权利要求3所述的方法，其特征在于，所述使用训练数据训练组合模型，包括：

使用训练数据对所述组合模型中的ABCNN、BiMPM、MatchPyramid分别进行拟合；

对拟合后的所述组合模型进行微调，得到训练后的所述组合模型。

5.如权利要求2所述的方法，其特征在于，所述使用训练数据分别训练组合模型和人工特征模型，包括：

将训练数据分为n个数据集t₁-t_n，依次使用t₁-t_n之一作为验证集，其余数据集作为训练集；

使用所述数据集t₁-t_n对组合模型和人工特征模型进行n折交叉验证训练。

6.如权利要求5所述的方法，其特征在于，所述将所述训练数据分别输入训练后的所述组合模型和所述人工特征模型，得到所述训练数据的预测结果，包括：

将所述数据集t₁-t_n分别输入训练后的所述组合模型和所述人工特征模型，得到所述组合模型和所述人工特征模型分别对应的预测结果；

将所述组合模型对应的预测结果合并，得到所述训练数据对应于所述组合模型的预测结果；

将所述人工特征模型对应的预测结果合并，得到所述训练数据对应于所述人工特征模型的预测结果。

7.如权利要求6所述的方法，其特征在于，所述根据所述训练数据的预测结果拟合逻辑回归模型，得到所述等价性判断模型，包括：

将所述训练数据对应于所述组合模型的预测结果和所述训练数据对应于所述人工特征模型的预测结果作为训练数据，拟合逻辑回归模型；

确定所述组合模型和所述人工特征模型的权重参数，得到所述等价性判断模型。

8.一种语句等价性判断装置，其特征在于，包括：

获取模块，用于获取待判断等价性的语句；

输入模块，用于将所述语句输入预先训练的等价性判断模型，所述等价性判断模型根据基于深度学习模型和人工特征模型的模型平均方法训练得到；

判断模块，用于通过所述等价性判断模型对所述语句进行等价性判断，得到等价性判断结果；

(1)句法特征具体包括以下特征：

句子长度；

句子长度差；

句向量间距离；

句向量偏斜度；

句向量峰度；

动词表示句向量及名词表示句向量的余弦相似度；tf-idf表示的句向量的统计值；

tf-idf表示的句向量的余弦相似度；

中心词词向量的余弦相似度；

(2)词法特征具体包括以下特征：

数目差；

句子中共有词数目；

句子间共有词及共有停用词差；

句子间共有词占两个句子所有词的比例；

词性；

用模糊字符串匹配计算的模糊相似度；

词移距离；

等价句中共现的词表；

句中共有词的tf-idf值之和与全部词的tf-idf值这的比值；

(3)主题特征具体包括以下特征：

主题分布的句向量的余弦相似度。

9.如权利要求8所述的装置，其特征在于，通过以下方式训练得到所述等价性判断模型，包括：