CN111178036B

CN111178036B - 一种知识蒸馏的文本相似度匹配模型压缩方法及系统

Info

Publication number: CN111178036B
Application number: CN201911241731.4A
Authority: CN
Inventors: 张勇
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2023-08-29
Anticipated expiration: 2039-12-06
Also published as: CN111178036A

Abstract

本发明提供了一种知识蒸馏的文本相似度匹配模型压缩方法及系统，所述方法执行以下步骤：获取训练数据；根据训练数据，采用第一深度文本匹配算法，确定第一训练模型；将第一训练模型的先验知识蒸馏进入第二训练模型的训练数据，采用第二深度文本匹配算法，确定第二训练模型，其中第一深度文本匹配算法的计算量大于第二深度文本匹配算法的计算量；采用所述第二训练模型对文本相似度匹配结果进行预测。根据本发明的方法，采用基于知识蒸馏的文本匹配方法，将大模型的计算结果融合进入小模型的训练过程中，在采用第二训练模型在线上进行预测时，避免了运算速度出现下降，同时又利用了第一训练大模型的先验结果，可以提高预测的准确性。

Description

一种知识蒸馏的文本相似度匹配模型压缩方法及系统

技术领域

本发明涉及文本匹配技术领域，特别涉及一种知识蒸馏的文本相似度匹配模型压缩方法及系统。

背景技术

目前在人机对话系统中的开放领域问答中，主流方案为检索模块与匹配模块结合的方案。目前主流的文本匹配方案的步骤是：步骤1:先通过检索模块，得到固定数量N(比如20)的候选结果；步骤2：通过深度文本匹配算法(比如基于长短时记忆的孪生网络)，得到每条候选结果的分数；步骤3:取出步骤2中的候选分数，将分数最高的候选作为最终匹配结果。

目前匹配模块的主流方案为深度学习的方法。为了达到更好的效果，深度学习的模型已经越来越复杂，计算量就越来越大。且由于检索模块得到的结果为N个，需要进行N次计算，因此，深度匹配算法在实际落地产品时，为了保证速度，仍然倾向于使用计算量较小的简单模型，计算速度成为了最大的瓶颈。

发明内容

本发明提供一种知识蒸馏的文本相似度匹配模型压缩方法及系统，用以避免运算速度出现下降，同时提高匹配结果的准确性。

本发明提供了一种知识蒸馏的文本相似度匹配模型压缩方法，所述方法执行以下步骤：

步骤1：获取训练数据；

步骤2：根据所述训练数据，采用第一深度文本匹配算法，确定第一训练模型；

步骤3：将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据，采用第二深度文本匹配算法，确定所述第二训练模型，其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量；

步骤4：采用所述第二训练模型对文本相似度匹配结果进行预测。

进一步地，在所述步骤2中，所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。

进一步地，在所述步骤3中，所述第二深度学习模型包括基于长短时记忆的孪生网络。

进一步地，所述步骤3：将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据，采用第二深度文本匹配算法，确定所述第二训练模型，执行以下步骤：

步骤S301：根据所述训练数据以及所述第一训练模型，计算所述第一训练模型的每条训练数据的输出概率；

步骤S302：计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵，以及真实标签和所述第二训练模型的第二预测结果的第二交叉熵；

步骤S303：根据所述第一交叉熵和所述第二交叉熵进行加权相加，得到加权交叉熵；

步骤S304：根据所述加权交叉熵，更新所述第二训练模型的模型参数。

进一步地，在所述步骤S302中，采用以下公式计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵；

其中，L_soft为第一训练模型M_b的第一预测结果和第二训练模型M_s的第二预测结果的第一交叉熵，n为输出层的维度，y_b为第一训练模型M_b的每条训练数据的输出概率，即最终的归一化指数函数的结果，y为第二训练模型M_s的预测结果；

采用以下公式计算真实标签和所述第二训练模型的第二预测结果的第二交叉熵；

其中，L_hard为真实标签和第二训练模型M_s的第二预测结果的第二交叉熵，y_t为真实标签。

进一步地，在所述步骤S303中，采用以下公式得到加权交叉熵；

L＝λL_hard+(1-λ)L_soft

其中，L为加权交叉熵，λ为介于0到1之间的常数。

本发明实施例提供的一种知识蒸馏的文本相似度匹配模型压缩方法，具有以下有益效果：采用基于知识蒸馏的文本匹配方法，将第一训练模型这一大模型的计算结果融合进入第二训练模型这一小模型的训练过程中，这样在采用第二训练模型在线上进行预测时，避免了运算速度出现下降，同时又利用了第一训练大模型的先验结果，可以提高匹配结果的准确性。

本发明还提供一种知识蒸馏的文本相似度匹配模型压缩系统，包括：

获取模块，用于获取训练数据；

第一确定模块，用于根据所述获取模块所获取的所述训练数据，采用第一深度文本匹配算法，确定第一训练模型；

第二确定模块，用于将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据，采用第二深度文本匹配算法，确定所述第二训练模型，其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量；

预测模块，用于采用所述第二训练模型对文本相似度匹配结果进行预测。

进一步地，所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。

进一步地，所述第二深度学习模型包括基于长短时记忆的孪生网络。

进一步地，所述第二确定模块包括：

第一计算单元，用于根据所述训练数据以及所述第一训练模型，计算所述第一训练模型的每条训练数据的输出概率；

第二计算单元，用于计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵；

第三计算单元，用于计算真实标签和所述第二训练模型的第二预测结果的第二交叉熵；

第四计算单元，用于根据所述第一交叉熵和所述第二交叉熵进行加权相加，得到加权交叉熵；

更新单元，用于根据所述加权交叉熵，更新所述第二训练模型的模型参数。

本发明实施例提供的一种知识蒸馏的文本相似度匹配模型压缩系统，具有以下有益效果：第二确定模块采用基于知识蒸馏的文本匹配方法，将第一训练模型这一大模型的计算结果融合进入第二训练模型这一小模型的训练过程中，这样在采用第二训练模型在线上进行预测时，避免了运算速度出现下降，同时又利用了第一训练大模型的先验结果，可以提高匹配结果的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种知识蒸馏的文本相似度匹配模型压缩方法的流程示意图；

图2为本发明实施例中一种知识蒸馏的文本相似度匹配模型压缩系统的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种知识蒸馏的文本相似度匹配模型压缩方法，如图1所示，所述方法执行以下步骤：

步骤1：获取训练数据；

上述技术方案的工作原理为：现有的深度学习的文本匹配算法，效果最好的都是计算量很大的大型模型。但是由于速度限制，这些模型很难直接应用到实际线上环境，运算量主要集中在通过深度文本匹配算法(比如基于长短时记忆的孪生网络)，得到每条候选结果的分数，而计算量小的模型的文本匹配效果比计算量大的模型的匹配效果差。

本发明在获取训练数据后，根据训练数据，采用计算量大的第一深度文本匹配算法，确定第一训练模型，然后将第一训练模型的先验知识蒸馏进入第二训练模型的训练数据，采用计算量小的第二深度文本匹配算法，确定第二训练模型；将计算量小的第二训练模型部署到线上，对文本相似度匹配结果进行预测。

所述步骤4：采用所述第二训练模型对文本相似度匹配结果进行预测包括：将所述第二训练模型部署到线上，对文本相似度匹配结果进行预测。

上述技术方案的有益效果为：采用基于知识蒸馏的文本匹配方法，将第一训练模型这一大模型的计算结果融合进入第二训练模型这一小模型的训练过程中，这样在采用第二训练模型在线上进行预测时，避免了运算速度出现下降，同时又利用了第一训练大模型的先验结果，可以提高匹配结果的准确性。

在一个实施例中，在所述步骤2中，所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。

上述技术方案的工作原理为：Transformer双向编码器表示模型来自于谷歌，是一种类似于双向LSTM的序列编码器，能够更好的感知上下文信息，其原理是，位置i上的词语表示上下文所有的单词都相关，这意味着每个单词都是整句话或者整个文本的综合表示的结果，每个单词经过计算以后，原来的信息在新的表达中所占的比重，与其本身在整个文本当中所占的比重成正相关，因此可以并行计算和具有上下文编码能力。

知识增强的语义表示模型来自于百度，通过海量数据建模词、实体及实体关系。相较于BERT学习原始语言信号，知识增强的语义表示模型直接对先验语义知识单元进行建模，增强了模型语义表示能力。此外，知识增强的语义表示模型采用多源训练数据，利用高性能分布式深度学习平台飞桨完成预训练。

本发明使用训练运算量较大、效果较好的深度模型方法，得到了训练好的第一训练模型，本发明优选的第一训练模型为Transformer双向编码器表示模型。

上述技术方案的有益效果为：提供了第一训练模型的具体模型。

在一个实施例中，在所述步骤3中，所述第二深度学习模型包括基于长短时记忆的孪生网络。

上述技术方案的工作原理为：基于长短时记忆(Long Short-Term Memory，

LSTM)的孪生网络是一种特殊的循环神经网络，在孪生网络的框架上，不仅能够记忆历史输入信息，还具有遗忘机制，能够处理长时间的序列信息。

上述技术方案的有益效果为：提供了第二深度学习模型的具体模型。

在一个实施例中，所述步骤3：将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据，采用第二深度文本匹配算法，确定所述第二训练模型，执行以下步骤：

上述技术方案的工作原理为：根据训练数据以及第一训练模型，计算第一训练模型的每条训练数据的输出概率；计算第一训练模型的第一预测结果和第二训练模型的第二预测结果的第一交叉熵，以及真实标签和第二训练模型的第二预测结果的第二交叉熵；根据第一交叉熵和第二交叉熵进行加权相加，得到加权交叉熵；根据加权交叉熵的误差进行反向传播，更新第二训练模型的模型参数。

在所述步骤S302中，采用以下公式计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵；

其中，L_hard为真实标签和第二训练模型M_s的第二预测结果的第二交叉熵，即为一般神经网络中的损失，y_t为真实标签。

在所述步骤S303中，采用以下公式得到加权交叉熵；

L＝λL_hard+(1-λ)L_soft

其中，L为加权交叉熵，λ为介于0到1之间的常数。

利用L_soft，可以将第一训练模型M_b的先验知识蒸馏进入第二训练模型M_s这一小模型的训练中，完成训练过程，得到运算量较小的方法的模型M_s。

上述技术方案的有益效果为：提供了确定第二训练模型的具体方法，可以将第一训练模型的先验知识蒸馏进入第二训练模型的训练中，完成训练过程，得到运算量较小的模型。

如图2所示，本发明实施例提供了一种知识蒸馏的文本相似度匹配模型压缩系统，包括：

获取模块201，用于获取训练数据；

第一确定模块202，用于根据所述获取模块201所获取的所述训练数据，采用第一深度文本匹配算法，确定第一训练模型；

第二确定模块203，用于将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据，采用第二深度文本匹配算法，确定所述第二训练模型，其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量；

预测模块204，用于采用所述第二训练模型对文本相似度匹配结果进行预测。

本发明的获取模块201获取训练数据；第一确定模块202根据训练数据，采用第一深度文本匹配算法，确定第一训练模型；第二确定模块203将第一训练模型的先验知识蒸馏进入第二训练模型的训练数据，采用第二深度文本匹配算法，确定第二训练模型；预测模块204采用所述第二训练模型对文本相似度匹配结果进行预测。

上述技术方案的有益效果为：第二确定模块采用基于知识蒸馏的文本匹配方法，将第一训练模型这一大模型的计算结果融合进入第二训练模型这一小模型的训练过程中，这样在采用第二训练模型在线上进行预测时，避免了运算速度出现下降，同时又利用了第一训练大模型的先验结果，可以提高匹配结果的准确性。

在一个实施例中，所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。

在一个实施例中，所述第二深度学习模型包括基于长短时记忆的孪生网络。

上述技术方案的工作原理为：基于长短时记忆(Long Short-Term Memory，LSTM)的孪生网络是一种特殊的循环神经网络，在孪生网络的框架上，不仅能够记忆历史输入信息，还具有遗忘机制，能够处理长时间的序列信息。

上述技术方案的有益效果为：提供了第二训练模型的具体模型。

在一个实施例中，所述第二确定模块203包括：

上述技术方案的工作原理为：第一计算单元根据训练数据以及第一训练模型，计算第一训练模型的每条训练数据的输出概率，第二计算单元计算第一训练模型的第一预测结果和第二训练模型的第二预测结果的第一交叉熵，第三计算单元计算真实标签和第二训练模型的第二预测结果的第二交叉熵；第四计算单元根据第一交叉熵和第二交叉熵进行加权相加，得到加权交叉熵；更新单元根据加权交叉熵的误差进行反向传播，更新第二训练模型的模型参数。

第二计算单元采用以下公式计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵；

第三计算单元采用以下公式计算真实标签和所述第二训练模型的第二预测结果的第二交叉熵；

第四计算单元采用以下公式得到加权交叉熵；

L＝λL_hard+(1-λ)L_soft

其中，L为加权交叉熵，λ为介于0到1之间的常数。

上述技术方案的有益效果为：提供了第二确定模块的具体结构，借助于第一计算单元、第二计算单元、第三计算单元、第四计算单元以及更新单元，可以将第一训练模型的先验知识蒸馏进入第二训练模型的训练中，完成训练过程，得到运算量较小的模型。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种知识蒸馏的文本相似度匹配模型压缩方法，其特征在于，所述方法执行以下步骤：

步骤1：获取训练数据；

步骤4：采用所述第二训练模型对文本相似度匹配结果进行预测；

所述步骤3：将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据，采用第二深度文本匹配算法，确定所述第二训练模型，执行以下步骤：

2.如权利要求1所述的方法，其特征在于，在所述步骤2中，所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。

3.如权利要求1所述的方法，其特征在于，在所述步骤3中，所述第二训练模型包括基于长短时记忆的孪生网络。

4.如权利要求1所述的方法，其特征在于，在所述步骤S302中，采用以下公式计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵；

其中，L _soft为第一训练模型M_b的第一预测结果和第二训练模型M_s的第二预测结果的第一交叉熵，n为输出层的维度，y_b为第一训练模型M_b的每条训练数据的输出概率，即最终的归一化指数函数的结果，y为第二训练模型M_s的预测结果；

其中，L _hard为真实标签和第二训练模型M_s的第二预测结果的第二交叉熵，y_t为真实标签。

5.如权利要求4所述的方法，其特征在于，在所述步骤S303中，采用以下公式得到加权交叉熵；

其中，L为加权交叉熵，λ为介于0到1之间的常数。

6.一种知识蒸馏的文本相似度匹配模型压缩系统，其特征在于，包括：

获取模块，用于获取训练数据；

预测模块，用于采用所述第二训练模型对文本相似度匹配结果进行预测；

所述第二确定模块包括：

7.如权利要求6所述的系统，其特征在于，所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。

8.如权利要求6所述的系统，其特征在于，所述第二训练模型包括基于长短时记忆的孪生网络。