CN112529153B

CN112529153B - 基于卷积神经网络的bert模型的微调方法及装置

Info

Publication number: CN112529153B
Application number: CN202011407010.9A
Authority: CN
Inventors: 陈浩; 谯轶轩; 高鹏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2023-12-22
Anticipated expiration: 2040-12-03
Also published as: WO2022116441A1; CN112529153A

Abstract

本发明公开了一种基于卷积神经网络的BERT模型的微调方法及装置，该方法包括：构建隐含层为Transformer block网络的第一BERT模型以及隐含层为卷积神经网络的第二BERT模型且第一BERT模型的隐含层与第二BERT模型的隐含层的层数相等；根据第一文本集对第一BERT模型进行训练并基于训练后的第一BERT模型对第二BERT模型进行蒸馏，得到第二BERT模型的蒸馏损失和分布损失；将第二文本集输入至第二BERT模型中，得到第二BERT模型的交叉熵损失；根据蒸馏损失、交叉熵损失对第二BERT模型的网络参数进行更新。本发明基于神经网络技术，通过该方法不仅实现了隐含层为卷积神经网络的BERT模型的微调，而且微调后的BERT模型中参数的数量显著降低，极大的提高了模型的计算速度并保证了模型的文本分类的精确度。

Description

基于卷积神经网络的BERT模型的微调方法及装置

技术领域

本发明涉及神经网络技术，尤其涉及一种基于卷积神经网络的BERT模型的微调方法及装置。

背景技术

BERT模型是近年来自然语言处理(NLP)领域的热门研究领域之一。BERT模型的训练主要分为两个阶段，在预训练(pre-trained)阶段，基于海量数据优化模型参数，学习到通用的语言表示，而在微调(fine-tuned)阶段，基于具体的下游任务重新微调模型参数，从而提高具体NLP任务的精确率。

目前，由于BERT模型中存在大量的参数，导致需要花费大量时间对BERT模型进行微调，极大的阻碍了BERT模型在实际开发中的应用。为了解决该问题，通常采用蒸馏(knowledge distillation，KD)技术对BERT模型进行微调，其中蒸馏技术的原理为：预先训练一个参数量较大的基准BERT模型作为教师模型，然后定义一个参数量较小的学生模型，使得学生模型去模仿教师模型，进而完成对学生模型的微调，最终将微调后的学生模型运用到实际场景中进行文本分类。虽然学生模型除了具备参数量少、模型生成速度快、精确度与教师模型相当等优点，但是现有的学生模型仅仅只是基于BERT的架构简单设计学生模型，学生模型的参数的数量只能在一定范围内有限度的减少，无法进一步提高学生模型的计算速度。

发明内容

本发明实施例提供了一种基于卷积神经网络的BERT模型的微调方法及装置，实现了隐含层为卷积神经网络的BERT模型的微调，同时微调后的BERT模型不仅参数的数量实质性的减少，计算速度显著的提高，而且还保证了微调后的BERT模型的文本分类的精确度。

第一方面，本发明实施例提供了一种基于卷积神经网络的BERT模型的微调方法，其包括：

构建预训练好的第一BERT模型，其中，所述预训练好的第一BERT模型的隐含层为Transformer block网络；

根据预设的第一文本集对所述预训练好的第一BERT模型进行训练，得到训练后的第一BERT模型；

构建预训练好的第二BERT模型，其中，所述预训练好的第二BERT模型的隐含层为卷积神经网络，所述预训练好的第二BERT模型的隐含层与所述预训练好的第一BERT模型的隐含层的层数相等；

基于所述训练后的第一BERT模型对所述预训练好的第二BERT模型进行蒸馏，得到所述预训练好的第二BERT模型的蒸馏损失；

将预设的第二文本集输入至所述预训练好的第二BERT模型中，得到所述预训练好的第二BERT模型的交叉熵损失；

根据所述蒸馏损失、所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新。

第二方面，本发明实施例提供了一种基于卷积神经网络的BERT模型的微调装置，其包括：

第一构建单元，用于构建预训练好的第一BERT模型，其中，所述预训练好的第一BERT模型的隐含层为Transformer block网络；

第一训练单元，用于根据预设的第一文本集对所述预训练好的第一BERT模型进行训练，得到训练后的第一BERT模型；

第二构建单元，用于构建预训练好的第二BERT模型，其中，所述预训练好的第二BERT模型的隐含层为卷积神经网络，所述预训练好的第二BERT模型的隐含层与所述预训练好的第一BERT模型的隐含层的层数相等；

蒸馏单元，用于基于所述训练后的第一BERT模型对所述预训练好的第二BERT模型进行蒸馏，得到所述预训练好的第二BERT模型的蒸馏损失；

第一输入单元，用于将预设的第二文本集输入至所述预训练好的第二BERT模型中，得到所述预训练好的第二BERT模型的交叉熵损失；

第一更新单元，用于根据所述蒸馏损失、所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新。

第三方面，本发明实施例又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的基于卷积神经网络的BERT模型的微调方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于卷积神经网络的BERT模型的微调方法。

本发明实施例提供了一种基于卷积神经网络的BERT模型的微调方法及装置，通过构建隐含层为Transformer block网络的第一BERT模型以及隐含层为卷积神经网络的第二BERT模型且第一BERT模型的隐含层与第二BERT模型的隐含层的层数相等；根据第一文本集对第一BERT模型进行训练并基于训练后的第一BERT模型对第二BERT模型进行蒸馏，得到第二BERT模型的蒸馏损失和分布损失；将第二文本集输入至第二BERT模型中，得到第二BERT模型的交叉熵损失；根据蒸馏损失、交叉熵损失对第二BERT模型的网络参数进行更新。通过该方法不仅实现了隐含层为卷积神经网络的BERT模型的微调，而且微调后的BERT模型中参数的数量显著低于现有的学生模型，极大的提高了BERT模型的计算速度，同时保证了微调后的BERT模型的文本分类的精确度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于卷积神经网络的BERT模型的微调方法的流程示意图；

图2为本发明实施例提供的基于卷积神经网络的BERT模型的微调方法的子流程示意图；

图3为本发明实施例提供的基于卷积神经网络的BERT模型的微调方法的另一子流程示意图；

图4为本发明实施例提供的基于卷积神经网络的BERT模型的微调方法的另一子流程示意图；

图5为本发明实施例提供的基于卷积神经网络的BERT模型的微调方法的另一子流程示意图；

图6为本发明实施例提供的基于卷积神经网络的BERT模型的微调方法的另一子流程示意图；

图7为本发明实施例提供的基于卷积神经网络的BERT模型的微调装置的示意性框图；

图8为本发明实施例提供的基于卷积神经网络的BERT模型的微调装置的子单元示意性框图；

图9为本发明实施例提供的基于卷积神经网络的BERT模型的微调装置的另一子单元示意性框图；

图10为本发明实施例提供的基于卷积神经网络的BERT模型的微调装置的另一子单元示意性框图；

图11为本发明实施例提供的基于卷积神经网络的BERT模型的微调装置的另一子单元示意性框图；

图12为本发明实施例提供的基于卷积神经网络的BERT模型的微调装置的另一子单元示意性框图；

图13为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的基于卷积神经网络的BERT模型的微调方法的流程示意图。该基于卷积神经网络的BERT模型的微调方法应用于服务器中，该方法通过安装于服务器中的应用软件进行执行。该方法实现了隐含层为卷积神经网络的BERT模型的微调，同时微调后的BERT模型在进行文本分类的过程中，分类计算的速度显著的得到提升，而且文本分类的精确度能达到现有学生模型的文本分类的精确度。

如图1所示，该方法包括步骤S110～S160。

S110、构建预训练好的第一BERT模型，其中，所述预训练好的第一BERT模型的隐含层为Transformer block网络。

在本实施例中，所述预训练好的第一BERT模型为谷歌预训练好的Bert-Base模型，所述预训练好的第一BERT模型的参数为：12-layer，768-hidden，12-heads，110Mparameters，即所述预训练好的第一BERT模型的隐含层为12层Transformer block网络。

S120、根据预设的第一文本集对所述预训练好的第一BERT模型进行训练，得到训练后的第一BERT模型。

具体的，所述第一文本集为用于对所述预训练好的第一BERT模型进行训练的数据集，通过所述第一文本集对所述预训练好的第一BERT模型进行训练，便可得到用于供预训练的第二BERT模型进行学习的基准模型，即所述训练后的第一BERT模型。

在一实施例中，如图2所示，步骤S120包括步骤S121和S122。

S121、对所述第一文本集进行二分类，得到二分类后的第一文本集，其中所述二分类后的第一文本集中标注有正样本标签和负样本标签。

在本实施例中，所述第一文本集中既包含正样本，也包含负样本，通过对所述第一文本集进行二分类处理，便可使得所述第一文本集中所有的文本均标注有正样本标签或负样本标签。例如，所述第一文本集表示为：S＝{(s₁,y₁),(s₂,y₂),…,(s_i,y_i),…,(s_l,y_l)}，其中s_i表示所述第一文本集S中的第i文本，l为所述第一文本集S中总样本的个数，y_i表示第i文本对应的标签，则y_i表示如下：

S122、根据所述二分类后的第一文本集对所述预训练好的第一BERT模型进行训练，得到所述训练后的第一BERT模型。

具体的，所述二分类后的第一文本集包括标注有正样本标签的文本集和标注有负样本标签的文本集，通过将所述第一文本集中的标注有正样本标签的文本集以及标注有负样本标签的文本集分别对所述预训练好的第一BERT模型进行训练，不仅保证了所述训练后的第一BERT模型的精确度，而且提高了对所述预训练好的第一BERT模型的训练速度。

在一实施例中，如图3所示，步骤S122包括步骤S1221和S1222。

S1221、根据预设的拆分规则对所述二分类后的第一文本集进行拆分，得到训练文本集和验证文本集。

具体的，所述预设的拆分规则为用于将所述二分类的第一文本集按照一定比例进行拆分的规则信息，所述训练文本集中的正样本、负样本的比例与所述验证文本集中的正样本、负样本的比例相同。在本实施例中，所述训练文本集中文本的数量是所述验证文本集中文本的数量的4倍。

S1222、根据所述训练文本集、所述验证文本集对所述预训练好的第一BERT模型进行训练，得到所述训练后的第一BERT模型。

具体的，所述训练文本集用于训练所述预训练好的第一BERT模型，所述验证文本集用于验证所述训练文本集训练后的第一BERT模型，进而进一步提高所述训练后的第一BERT模型的精确度。

在一实施例中，如图4所示，步骤S1222包括步骤S12221、S12222和S12223。

S12221、根据所述训练文本集对所述预训练好的第一BERT模型进行微调，得到多个微调后的第一BERT模型。

具体的，所述训练文本集在对所述预训练好的第一BERT模型进行微调的过程中，通过模型优化器的学习率和随机数种子以修改所述预训练好的第一BERT模型中不同超参数，便可得到多个微调后的第一BERT模型。例如，所述多个微调后的第一BERT模型M表示为：M＝[m₁,m₂,…,m_i,…,m_n]，其中m_i表示第i个微调后的第一BERT模型，n表示微调后的第一BERT模型的个数。其中，微调后的第一BERT模型的个数可根据实际情况进行设定，在此不做限制。

S12222、根据所述验证文本集从所述多个微调后的第一BERT模型中获取教师模型，其中，所述教师模型为所述多个微调后的第一BERT模型中精确度最高的BERT模型。

具体的，通过将所述验证文本集分别输入到每一微调后的第一BERT模型中后，进而得到每一微调后的第一BERT模型的精确度，然后从每一微调后的第一BERT模型中筛选出精确度最高的BERT模型，该BERT模型即为所述教师模型。

在一实施例中，如图5所示，步骤S12222包括步骤S122221、S122222和S122223。

S122221、将所述验证文本集中每一文本输入到每一微调后的第一BERT模型中，得到所述每一文本在所述每一微调后的第一BERT模型中的得分。

具体的，所述每一文本在所述每一微调后的第一BERT模型中的得分为所述每一微调后的第一BERT模型对所述每一文本进行分类后输出的预测值，即通过将所述验证文本集中每一文本输入到每一微调后的第一BERT模型中进行分类处理，便可得到所述得分。该得分即为所述每一文本在所述每一微调后的第一BERT模型中的精确度。

S122222、根据所述得分对所述验证文本集进行标注，得到所述验证文本集中每一文本的预测标签。

具体的，所述根据所述得分对所述验证文本集进行标注即为根据所述验证文本集中每一文本的得分对该文本进行标注，进而使得所述验证文本集中每一文本均标注有正文本的预测标签或者负文本的预测标签。在本实施例中，若所述验证文本集中文本的得分超过0.5，则该文本被标注为正样本的预测标签；若所述验证文本集中文本的得分不超过0.5，则该文本被标注为负样本的预测标签。该预测标签表示如下：

其中，t_i,j表示为所述验证文本集中第j个样本在M中第i个微调后的第一BERT模型m_i上的得分。

S122223、根据验证文本集中每一文本的预测标签、原始标签计算所述每一微调后的第一BERT模型的精确度并根据所述精确度从所述多个微调后的第一BERT模型中获取所述教师模型。

具体的，通过判断所述验证文本集中每一文本在所述每一微调后的第一BERT模型中的预测标签是否与其原始标签一致，然后统计所述验证文本集中预测标签与原始标签一致的文本在所述验证文本集中的数量，最后计算出该验证文本在所述每一微调后的第一BERT模型的精确度，然后选取精确度最高的微调后的第一BERT模型作为所述教师模型，即所述多个微调后的第一BERT模型中精确度最高的模型最为所述教师模型。

S12223、基于预设的贪婪集成策略从所述教师模型、所述多个微调后的第一BERT模型中构建所述训练后的第一BERT模型。

具体的，所述贪婪集成策略的本质是在根据所述教师模型、所述多个微调后的第一BERT模型中构建所述训练后的第一BERT模型的过程中选取最优选择，最终得到所述训练后的第一BERT模型的策略方法，具体构建过程为：将所述教师模型分别与所述多个微调后的第一BERT模型中除所述教师模型以外的任意一模型组合成多个集成模型，然后将所述验证文本集分别输入到所述多个集成模型中，得到所述验证文本集中每一文本在每一集成模型中的得分，然后通过标注获取该文本在该集成模型上的预测标签并计算所述验证文本集在每一集成模型上的精确度，最后选取精确度最高的集成模型作为第二教师模型，通过该方法不断迭代使得最终得到的教师模型的精确度不再提高，并将该最终得到的教师模型作为所述训练后的第一BERT模型。其中，最终得到的教师模型为由多个微调后的第一BERT模型组合而成，所述训练后的第一BERT模型的每层输出均为多个微调后的第一BERT模型输出后的平均值。所述训练后的第一BERT模型与现有的教师模型相比，精确率更高，进而进一步提高后续的学生模型在进行文本分类时的精确度。

S130、构建预训练好的第二BERT模型，其中，所述预训练好的第二BERT模型的隐含层为卷积神经网络，所述预训练好的第二BERT模型的隐含层与所述预训练好的第一BERT模型的隐含层的层数相等。

具体的，所述预训练好的第二BERT模型与所述预训练好的第一BERT模型的唯一区别点为：所述预训练好的第二BERT模型的隐含层为卷积神经网络，所述预训练好的第一BERT模型的隐含层为Transformer block网络。由于卷积神经网络参数具备共享的机制，相对于BERT模型中的Transformer block模型，因此所述预训练好的第二BERT模型中的参数量与预训练好的第一BERT模型相比，所述预训练好的第二BERT模型中的参数量明显减少。在本实施例中，所述预训练好的第二BERT模型的隐含层的层数与所述预训练好的第一BERT模型的隐含层的层数均为12层，序列长度均为512，所述预训练好的第二BERT模型的隐含层的维度为128，所述预训练好的第一BERT模型的隐含层的维度为768。

S140、基于所述训练后的第一BERT模型对所述预训练好的第二BERT模型进行蒸馏，得到所述预训练好的第二BERT模型的蒸馏损失。

具体的，由于所述训练后的第一BERT模型的隐含层的层数与所述预训练好的第二BERT模型的隐含层的层数相等，且每层的参数维度未发生变化，不失一般性，因此所述预训练好的第二BERT模型的隐含层中每层的蒸馏损失KD Loss_k的函数为：其中，/>为第k层所述训练后的第一BERT模型中隐含层的每层输出，/>则为第k层所述预训练好的第二BERT模型中隐含层的每层输出，W∈R^768*128为超参数。通过所述预训练好的第二BERT模型的隐含层中每层的蒸馏损失函数最终可以得到所述预训练好的第二BERT模型的蒸馏损失的函数K为：其中，n表示为所述预训练好的第二BERT模型中隐含层的层数。在本实施例中，所述预训练好的第二BERT模型中隐含层的层数为12层。

S150、将预设的第二文本集输入至所述预训练好的第二BERT模型中，得到所述预训练好的第二BERT模型的交叉熵损失。

具体的，所述第二文本集为用于训练所述预训练好的第二BERT模型的文本数据，所述预训练好的第二BERT模型的交叉熵损失为所述预训练好的第二BERT模型在对所述第二文本集进行分类时产生的损失，即与BERT模型在分类任务上的损失函数相同，所述交叉熵损失函数可表示为target Loss。在本实施例中，所述第二文本集为所述预训练好的第一BERT模型在进行训练过程中所采用的训练文本集，即所述第一文本集中的所述训练文本集，在重复使用训练集的基础上提高了所述预训练好的第二BERT模型对所述训练后的第一BERT模型的学习能力。

S160、根据所述蒸馏损失、所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新。

在本实施例中，将所述蒸馏损失、所述交叉熵损失相加后为所述预训练好的第二BERT模型的最终损失，该最终损失L的函数为：通过该最终损失的函数计算得到所述预训练好的第二BERT模型的最终损失，进而根据该最终损失对所述预训练好的第二BERT模型的网络参数进行调整，直至所述预训练好的第二BERT模型收敛，便可完成所述预训练好的第二BERT模型的微调。在本实施例中，训练采用Adam优化器，不断优化最终损失L的函数，直到所述预训练好的第二BERT模型收敛。

在一实施例中，如图6所示，步骤S150包括步骤S161和S162。

S161、将所述训练文本集输入至所述预训练好的第二BERT模型中，得到所述预训练好的第二BERT模型的输出损失。

具体的，所述输出损失为所述预训练好的第二BERT模型在对所述训练文本集进行分类过程中，所述预训练好的第二BERT模型的最后一层输出的损失。所述输出损失KDLoss_last的函数为：其中，/>为所述训练后的第一BERT模型最后一层的输出结果，/>为所述预训练好的第二BERT模型最后一层的输出结果，且维度都为1。

S162、根据所述蒸馏损失、所述输出损失以及所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新。

在本实施例中，将所述蒸馏损失、所述输出损失以及所述交叉熵损失相加后为所述预训练好的第二BERT模型的最终损失，通过提高所述预训练好的第二BERT模型对所述训练后的第一BERT模型的学习能力，进一步的提高了所述预训练好的第二BERT模型微调后的精确度。该最终损失L的函数为：通过该最终损失的函数计算得到所述预训练好的第二BERT模型的最终损失，进而根据该最终损失对所述预训练好的第二BERT模型的网络参数进行调整，直至所述预训练好的第二BERT模型收敛，便可完成所述预训练好的第二BERT模型的微调。在本实施例中，训练采用Adam优化器，不断优化最终损失L的函数，直到所述预训练好的第二BERT模型收敛。

在本发明实施例所提供的基于卷积神经网络的BERT模型的微调方法中，通过构建预训练好的第一BERT模型，其中，所述预训练好的第一BERT模型的隐含层为Transformerblock网络；根据预设的第一文本集对所述预训练好的第一BERT模型进行训练，得到训练后的第一BERT模型；构建预训练好的第二BERT模型，其中，所述预训练好的第二BERT模型的隐含层为卷积神经网络，所述预训练好的第二BERT模型的隐含层与所述预训练好的第一BERT模型的隐含层的层数相等；基于所述训练后的第一BERT模型对所述预训练好的第二BERT模型进行蒸馏，得到所述预训练好的第二BERT模型的蒸馏损失；将预设的第二文本集输入至所述预训练好的第二BERT模型中，得到所述预训练好的第二BERT模型的交叉熵损失；根据所述蒸馏损失、所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新。通过该方法不仅能实现隐含层为卷积神经网络的BERT模型的微调，而且微调后的BERT模型中参数的数量显著低于现有的学生模型，从而极大的提高了BERT模型的计算速度，同时保证了微调后的BERT模型的文本分类的精确度。

本发明实施例还提供了一种基于卷积神经网络的BERT模型的微调装置100，该装置用于执行前述基于卷积神经网络的BERT模型的微调方法的任一实施例。具体地，请参阅图7，图7是本发明实施例提供的基于卷积神经网络的BERT模型的微调装置100的示意性框图。

如图7所示，所述的基于卷积神经网络的BERT模型的微调装置100，该装置包括第一构建单元110、第一训练单元120、第二构建单元130、蒸馏单元140、第一输入单元150和第一更新单元160。

第一构建单元110，用于构建预训练好的第一BERT模型，其中，所述预训练好的第一BERT模型的隐含层为Transformer block网络。

第一训练单元120，用于根据预设的第一文本集对所述预训练好的第一BERT模型进行训练，得到训练后的第一BERT模型。

在其他发明实施例中，如图8所示，所述第一训练单元120包括：分类单元121和第二训练单元122。

分类单元121，用于对所述第一文本集进行二分类，得到二分类后的第一文本集，其中所述二分类后的第一文本集中标注有正样本标签和负样本标签；第二训练单元122，用于根据所述二分类后的第一文本集对所述预训练好的第一BERT模型进行训练，得到所述训练后的第一BERT模型。

在其他发明实施例中，如图9所示，所述第二训练单元122包括：拆分单元1221和第三训练单元1222。

拆分单元1221，用于根据预设的拆分规则对所述二分类后的第一文本集进行拆分，得到训练文本集和验证文本集；第三训练单元1222，用于根据所述训练文本集、所述验证文本集对所述预训练好的第一BERT模型进行训练，得到所述训练后的第一BERT模型。

在其他发明实施例中，如图10所示，所述第三训练单元1222包括：微调单元12221、获取单元12222和第三构建单元12223。

微调单元12221，用于根据所述训练文本集对所述预训练好的第一BERT模型进行微调，得到多个微调后的第一BERT模型；获取单元12222，用于根据所述验证文本集从所述多个微调后的第一BERT模型中获取教师模型，其中，所述教师模型为所述多个微调后的第一BERT模型中精确度最高的BERT模型；第三构建单元12223，用于基于预设的贪婪集成策略从所述教师模型、所述多个微调后的第一BERT模型中构建所述训练后的第一BERT模型。

在其他发明实施例中，如图11所示，所述获取单元12222包括：第二输入单元122221、标注单元122222和计算单元122223。

第二输入单元122221，用于将所述验证文本集中每一文本输入到每一微调后的第一BERT模型中，得到所述每一文本在所述每一微调后的第一BERT模型中的得分；标注单元122222，用于根据所述得分对所述验证文本集进行标注，得到所述验证文本集中每一文本的预测标签；计算单元122223，用于根据验证文本集中每一文本的预测标签、原始标签计算所述每一微调后的第一BERT模型的精确度并根据所述精确度从所述多个微调后的第一BERT模型中获取所述教师模型。

第二构建单元130，用于构建预训练好的第二BERT模型，其中，所述预训练好的第二BERT模型的隐含层为卷积神经网络，所述预训练好的第二BERT模型的隐含层与所述预训练好的第一BERT模型的隐含层的层数相等。

蒸馏单元140，用于基于所述训练后的第一BERT模型对所述预训练好的第二BERT模型进行蒸馏，得到所述预训练好的第二BERT模型的蒸馏损失。

第一输入单元150，用于将预设的第二文本集输入至所述预训练好的第二BERT模型中，得到所述预训练好的第二BERT模型的交叉熵损失。

第一更新单元160，用于根据所述蒸馏损失、所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新。

在其他发明实施例中，如图12所示，所述第一更新单元160包括：第三输入单元161和第二更新单元162。

第三输入单元161，用于将所述训练文本集输入至所述预训练好的第二BERT模型中，得到所述预训练好的第二BERT模型的输出损失；第二更新单元162，用于根据所述蒸馏损失、所述输出损失以及所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新。

本发明实施例所提供的基于卷积神经网络的BERT模型的微调装置100用于执行上述用于构建预训练好的第一BERT模型，其中，所述预训练好的第一BERT模型的隐含层为Transformer block网络；根据预设的第一文本集对所述预训练好的第一BERT模型进行训练，得到训练后的第一BERT模型；构建预训练好的第二BERT模型，其中，所述预训练好的第二BERT模型的隐含层为卷积神经网络，所述预训练好的第二BERT模型的隐含层与所述预训练好的第一BERT模型的隐含层的层数相等；基于所述训练后的第一BERT模型对所述预训练好的第二BERT模型进行蒸馏，得到所述预训练好的第二BERT模型的蒸馏损失；将预设的第二文本集输入至所述预训练好的第二BERT模型中，得到所述预训练好的第二BERT模型的交叉熵损失；根据所述蒸馏损失、所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新。

请参阅图13，图13是本发明实施例提供的计算机设备的示意性框图。

参阅图13，该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于卷积神经网络的BERT模型的微调方法。

该处理器502用于提供计算和控制能力，支撑整个设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于卷积神经网络的BERT模型的微调方法。

该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图13中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的设备500的限定，具体的设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：构建预训练好的第一BERT模型，其中，所述预训练好的第一BERT模型的隐含层为Transformer block网络；根据预设的第一文本集对所述预训练好的第一BERT模型进行训练，得到训练后的第一BERT模型；构建预训练好的第二BERT模型，其中，所述预训练好的第二BERT模型的隐含层为卷积神经网络，所述预训练好的第二BERT模型的隐含层与所述预训练好的第一BERT模型的隐含层的层数相等；基于所述训练后的第一BERT模型对所述预训练好的第二BERT模型进行蒸馏，得到所述预训练好的第二BERT模型的蒸馏损失；将预设的第二文本集输入至所述预训练好的第二BERT模型中，得到所述预训练好的第二BERT模型的交叉熵损失；根据所述蒸馏损失、所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新。

本领域技术人员可以理解，图13中示出的设备500的实施例并不构成对设备500具体构成的限定，在其他实施例中，设备500可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，设备500可以仅包括存储器及处理器502，在这样的实施例中，存储器及处理器502的结构及功能与图13所示实施例一致，在此不再赘述。

应当理解，在本发明实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器502、数字信号处理器502(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器502可以是微处理器502或者该处理器502也可以是任何常规的处理器502等。

在本发明的另一实施例中提供计算机存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序5032，其中计算机程序5032被处理器502执行时实现以下步骤：构建预训练好的第一BERT模型，其中，所述预训练好的第一BERT模型的隐含层为Transformer block网络；根据预设的第一文本集对所述预训练好的第一BERT模型进行训练，得到训练后的第一BERT模型；构建预训练好的第二BERT模型，其中，所述预训练好的第二BERT模型的隐含层为卷积神经网络，所述预训练好的第二BERT模型的隐含层与所述预训练好的第一BERT模型的隐含层的层数相等；基于所述训练后的第一BERT模型对所述预训练好的第二BERT模型进行蒸馏，得到所述预训练好的第二BERT模型的蒸馏损失；将预设的第二文本集输入至所述预训练好的第二BERT模型中，得到所述预训练好的第二BERT模型的交叉熵损失；根据所述蒸馏损失、所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台设备500(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于卷积神经网络的BERT模型的微调方法，其特征在于，包括以下步骤：

根据所述蒸馏损失、所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新；

所述根据预设的第一文本集对所述预训练好的第一BERT模型进行训练，得到训练后的第一BERT模型，包括：

对所述第一文本集进行二分类，得到二分类后的第一文本集，其中所述二分类后的第一文本集中标注有正样本标签和负样本标签；

根据所述二分类后的第一文本集对所述预训练好的第一BERT模型进行训练，得到所述训练后的第一BERT模型；

所述根据所述二分类后的第一文本集对所述预训练好的第一BERT模型进行训练，得到所述训练后的第一BERT模型，包括：

根据预设的拆分规则对所述二分类后的第一文本集进行拆分，得到训练文本集和验证文本集；

根据所述训练文本集、所述验证文本集对所述预训练好的第一BERT模型进行训练，得到所述训练后的第一BERT模型；

所述根据所述训练文本集、所述验证文本集对所述预训练好的第一BERT模型进行训练，得到所述训练后的第一BERT模型，包括：

根据所述训练文本集对所述预训练好的第一BERT模型进行微调，得到多个微调后的第一BERT模型；

根据所述验证文本集从所述多个微调后的第一BERT模型中获取教师模型，其中，所述教师模型为所述多个微调后的第一BERT模型中精确度最高的BERT模型；

基于预设的贪婪集成策略从所述教师模型、所述多个微调后的第一BERT模型中构建所述训练后的第一BERT模型；

所述根据所述验证文本集从所述多个微调后的第一BERT模型中获取教师模型，包括：

将所述验证文本集中每一文本输入到每一微调后的第一BERT模型中，得到所述每一文本在所述每一微调后的第一BERT模型中的得分；

根据所述得分对所述验证文本集进行标注，得到所述验证文本集中每一文本的预测标签；

根据验证文本集中每一文本的预测标签、原始标签计算所述每一微调后的第一BERT模型的精确度并根据所述精确度从所述多个微调后的第一BERT模型中获取所述教师模型。

2.根据权利要求1所述的基于卷积神经网络的BERT模型的微调方法，其特征在于，所述将预设的第二文本集输入至所述预训练好的第二BERT模型中，得到所述预训练好的第二BERT模型的交叉熵损失，包括：

将所述训练文本集输入至所述预训练好的第二BERT模型中，得到所述交叉熵损失。

3.根据权利要求2所述的基于卷积神经网络的BERT模型的微调方法，其特征在于，所述根据所述蒸馏损失、所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新，包括：

将所述训练文本集输入至所述预训练好的第二BERT模型中，得到所述预训练好的第二BERT模型的输出损失；

根据所述蒸馏损失、所述输出损失以及所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新。

4.一种基于卷积神经网络的BERT模型的微调装置，其特征在于，包括：

第一更新单元，用于根据所述蒸馏损失、所述交叉熵损失对所述预训练好的第二BERT模型的网络参数进行更新；

所述第一训练单元包括：

分类单元，用于对所述第一文本集进行二分类，得到二分类后的第一文本集，其中所述二分类后的第一文本集中标注有正样本标签和负样本标签；

第二训练单元，用于根据所述二分类后的第一文本集对所述预训练好的第一BERT模型进行训练，得到所述训练后的第一BERT模型；

所述第二训练单元包括：

拆分单元，用于根据预设的拆分规则对所述二分类后的第一文本集进行拆分，得到训练文本集和验证文本集；

第三训练单元，用于根据所述训练文本集、所述验证文本集对所述预训练好的第一BERT模型进行训练，得到所述训练后的第一BERT模型；

所述第三训练单元包括：

微调单元，用于根据所述训练文本集对所述预训练好的第一BERT模型进行微调，得到多个微调后的第一BERT模型；

获取单元，用于根据所述验证文本集从所述多个微调后的第一BERT模型中获取教师模型，其中，所述教师模型为所述多个微调后的第一BERT模型中精确度最高的BERT模型；

第三构建单元，用于基于预设的贪婪集成策略从所述教师模型、所述多个微调后的第一BERT模型中构建所述训练后的第一BERT模型；

所述获取单元包括：

第二输入单元，用于将所述验证文本集中每一文本输入到每一微调后的第一BERT模型中，得到所述每一文本在所述每一微调后的第一BERT模型中的得分；

标注单元，用于根据所述得分对所述验证文本集进行标注，得到所述验证文本集中每一文本的预测标签；

计算单元，用于根据验证文本集中每一文本的预测标签、原始标签计算所述每一微调后的第一BERT模型的精确度并根据所述精确度从所述多个微调后的第一BERT模型中获取所述教师模型。

5.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的基于卷积神经网络的BERT模型的微调方法。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至3任一项所述的基于卷积神经网络的BERT模型的微调方法。