CN111079406A

CN111079406A - 自然语言处理模型训练方法、任务执行方法、设备及系统

Info

Publication number: CN111079406A
Application number: CN201911293789.3A
Authority: CN
Inventors: 王芳; 冯丹; 焦小奇
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-28
Anticipated expiration: 2039-12-13
Also published as: CN111079406B

Abstract

本发明公开了一种自然语言处理模型训练方法、自然语言处理方法、设备及系统，属于自然语言处理领域，包括：利用已标注的原始数据集对老师模型进行训练；对原始数据集中的文本语句进行增强，得到增强的文本语句，并利用已训练好的老师模型对增强的文本语句进行标注，得到已标注的增强数据集；以原始数据集和增强数据集为训练数据集，对学生模型进行训练，将训练好的学生模型作为自然语言处理模型；其中，老师模型和学生模型均为深度学习模型，且执行相同的自然语言处理任务，老师模型更复杂且规模更大。本发明能够在知识蒸馏场景下，有效增强自然语言处理任务的数据集，提高自然语言处理模型的处理能力，从而提高自然语言处理任务的执行效果。

Description

自然语言处理模型训练方法、任务执行方法、设备及系统

技术领域

本发明属于文本处理领域，更具体地，涉及一种知识蒸馏场景下的自然语言处理方法及系统。

背景技术

深度学习近年来在自然语言处理领域得到了广泛的应用，深度学习的实质，是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。在利用大规模数据集训练深度学习模型时，为了处理复杂的数据分布，一种做法是建立复杂的神经网络模型，例如含有上百层的残差网络，这种复杂的网络往往包含数百万个参数；另一种做法是混合多种模型，将几个大规模的神经网络在同一个数据集上训练好，然后综合多个模型，得到最终的分类结果。这两种方法能够得到较好的分类效果，但是，一方面，由于模型复杂，在新的场景下重新训练成本过高；另一方面，进行自然语言处理的模型往往需要部署到手机等边缘设备上，而这些边缘设备的计算和存储资源有限，由于模型过于庞大，并不能部署到边缘设备上，解决实际的应用问题。

知识蒸馏是一种将复杂、规模大但性能优异的老师模型学习到的知识迁移到简单、规模小的学生模型中的方法，其基本思想是将大规模模型学习出来的知识作为先验，将先验知识传递到小规模模型中，之后实际应用中部署小规模模型。将知识蒸馏应用到自然语言处理任务中，能够很好地解决边缘设备中模型部署困难的问题。

深度学习的成功离不开大量、高质量的人工标注数据，知识蒸馏场景下，模型训练也需要大量标注好的训练数据，才能有效地避免过拟合(overfitting)。然而，人工标注数据的获得是及其昂贵的，所以，自动的数据增强方法对于深度学习的发展具有重要的意义。当前，数据增强的相关工作大量集中在计算机视觉(Computer Vision)领域，而在自然语言处理(NaturalLanguageProcessing)领域，相关的工作相对较少，主要集中在文本情感分类任务中，而且，即使在文本情感分类任务中已经出现了相关的数据增强方式，这些数据增强方法也主要是通过增、删、位置互换、同义词替换等方式对原始句子文本进行处理，以得到更多与原始句子文本语义相同的句子，在实际应用中十分受限。总的来说，由于缺乏有效的数据增强方法，通过知识蒸馏训练得到的学生模型对于自然语言的处理能力有待提高。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种知识蒸馏场景下的自然语言处理方法及系统，其目的在于，在知识蒸馏场景下，有效增强自然语言处理任务的数据集，提高自然语言处理模型的处理能力，从而提高自然语言处理任务的执行效果。

为实现上述目的，按照本发明的第一方面，提供了一种自然语言处理模型训练方法，包括：

利用已标注的原始数据集对老师模型进行训练；

对原始数据集中的文本语句进行增强，从而得到增强的文本语句，并利用已训练好的老师模型对增强的文本语句进行标注，从而得到已标注的增强数据集；

以原始数据集和增强数据集为训练数据集，对学生模型进行训练，将训练好的学生模型作为自然语言处理模型；

其中，老师模型和学生模型均为深度学习模型，且执行相同的自然语言处理任务，老师模型比学生模型更为复杂且规模更大。

本发明在知识蒸馏场景下进行模型训练，能够有效解决复杂模型在边缘设备中部署困难的问题；在原始数据集的基础之上，通过数据增强的方式得到增强的文本语句，并利用训练好的老师模型对增强的文本语句进行标注，有效地增强了用于训练学生模型的数据集，使得训练得到的自然语言处理模型(即学生模型)的自然语言处理能力得到了提高，从而能够提高自然语言处理任务的执行效果。

进一步地，增强的文本语句与原始数据集中与之对应的文本语句语义相同或不相同。

本发明在进行文本数据增强的过程中，所得到的增强文本语句与原始文本语句的语义可以相同，也可以不同，有利于保持语义多样性，使得后续训练得到的学生模型具有更好的泛化能力，能够应用到更为广泛的自然语言处理任务中。

进一步地，对原始数据集中的任意一个文本语句S进行增强，包括：

通过增、删、位置互换以及同义词互换中的一种或多种处理方式对文本语句S进行处理，以得到与文本语句S语义相同的一个或多个文本语句，将新的文本语句作为增强的文本语句。

(S1)遍历文本语句S，对于遍历到的每一个单词W_i，若为非停用词，则从已训练好的词向量表中获得与单词W_i语法或语义相似度最高的N个单词，构成候选单词集合，并转入步骤(S2)；若为停用词，则不作处理；

(S2)以概率p确定是否需要对单词W_i进行替换，若是，则从候选单词集合中随机选择一个单词对单词W_i进行替换；若否，则不作替换；

(S3)对文本语句S遍历完成后，将得到的句子作为一个增强的文本语句；

(S4)重复执行步骤(S1)～(S3)，直至达到预设的增强次数；

其中，N为预设的正整数，p为预设的概率，0<p<1。

本发明在进行文本语句增强时，采用语法或语义相似度最高的单词按照一定的概率对原始文本语句中的单词进行替换，由于根据语法相似度进行单词替换时，无需维持语义一致性，因此，能够保持语义多样性，使得后续训练得到的学生模型具有更好的泛化能力。

进一步地，对原始数据集中的文本语句进行增强，包括：

提取原始数据集的特征，并根据所提取的特征获得与原始数据集相关的网页；

对该网页进行爬虫，将爬取的到文本语句作为增强的文本语句。

本发明在进行文本语句增强时，采样爬虫的方式从原始数据集相关的网页中爬取文本语句，在保证数据相关的情况下，无需维持语义一致性，因此，能够保持语义多样性，使得后续训练得到的学生模型具有更好的泛化能力。

按照本发明的第二方面，提供了一种自然语言处理模型训练系统，包括：第一训练模块、文本数据增强模块以及第二训练模块；

第一训练模块，用于利用已标注的原始数据集对老师模型进行训练；

文本数据增强模块，用于对原始数据集中的文本语句进行增强，从而得到增强的文本语句，并利用由第一训练模块训练好的老师模型对增强的文本语句进行标注，从而得到已标注的增强数据集；

第二训练模块，用于以原始数据集和文本数据增强模块获得的增强数据集为训练数据集，对学生模型进行训练，将训练好的学生模型作为自然语言处理模型；

按照本发明的第三方面，提供了一种部署有自然语言处理模型的边缘设备，其中的自然语言处理模型由本发明第一方面提供的自然语言处理模型训练方法训练得到。

按照本发明的第四方面，提供了一种自然语言处理任务执行方法，包括：

利用本发明第一方面提供的自然语言处理模型训练方法得到的自然语言处理模型，执行自然语言处理任务。

按照本发明的第五方面，提供了一种自然语言处理任务执行系统，该系统利用本发明第一方面提供的自然语言处理模型训练方法得到的自然语言处理模型，执行自然语言处理任务。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明在知识蒸馏场景下进行模型训练，能够有效解决复杂模型在边缘设备中部署困难的问题；在原始数据集的基础之上，通过数据增强的方式得到增强的文本语句，并利用训练好的老师模型对增强的文本语句进行标注，有效地增强了用于训练学生模型的数据集，使得训练得到的自然语言处理模型(即学生模型)的自然语言处理能力得到了提高，从而能够提高自然语言处理任务的执行效果。

(2)本发明对原始数据集中的文本语句增强，所得到的增强文本语句与原始文本语句的语义可以相同也可以不同，有利于保持语义多样性，使得后续训练得到的学生模型具有更好的泛化能力，能够应用到更为广泛的自然语言处理任务中。

附图说明

图1为本发明实施例提供的自然语言处理模型训练方法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了在知识蒸馏场景下，有效增强自然语言处理任务的数据集，提高自然语言处理模型的处理能力，从而提高自然语言处理任务的执行效果，本发明提供的自然语言处理模型训练方法，如图1所示，包括：

利用已标注的原始数据集对老师模型进行训练；

对原始数据集中的文本语句进行增强，从而得到增强的文本语句，并利用已训练好的老师模型对增强的文本语句进行标注，从而得到已标注的增强数据集；利用老师模型对增强的文本语句进行标注，即以增强的文本语句为自然语言处理任务的输入数据，由老师执行自然语言处理任务后，将处理结果作为增强的文本语句的标签，利用自动标注的方式来代替人工标注；

其中，老师模型和学生模型均为深度学习模型，且执行相同的自然语言处理任务，具体的自然语言处理任务可以是情感分析(即根据文本语句进行情感分类)、文本蕴含(即判断两个给定的文本语句中，第一个文本语句的意思是否包含了第二个文本语句的意思)、语法判断(即判断一个给定的文本语句是否语法上是正确的)，等等；

老师模型比学生模型更为复杂且规模更大；实际应用中，可以利用已有的大规模预训练语言模型，如BERT，以及它的变种XLNET,RoBERTa等，也训练多个老师模型，然后将它们聚合(ensemble)在一起，作为最终的老师模型；这些模型的参数量巨大(超过1亿个参数)，在大规模无标注语料上训练得到，性能很好，但是也因为模型太大，导致很难使用在真是的系统中；学生模型可采用传统的LSTM(Long Short-Term Memory，长短期记忆网络)等，与老师模型相比，参数量较小且至少相差1个数量级，但是性能较差。

上述自然语言处理模型训练方法，能够有效解决复杂模型在边缘设备中部署困难的问题；在知识蒸馏场景下进行模型训练，在原始数据集的基础之上，通过数据增强的方式得到增强的文本语句，并利用训练好的老师模型对增强的文本语句进行标注，有效地增强了用于训练学生模型的数据集，使得训练得到的自然语言处理模型(即学生模型)的自然语言处理能力得到了提高，从而能够提高自然语言处理任务的执行效果。

作为一种可选的实施方式，增强的文本语句与原始数据集中与之对应的文本语句语义相同或不相同；在进行文本数据增强的过程中，所得到的增强文本语句与原始文本语句的语义可以相同，也可以不同，有利于保持语义多样性，使得后续训练得到的学生模型具有更好的泛化能力，能够应用到更为广泛的自然语言处理任务中；

作为一种可选的实施方式，为了获得与原始文本语句语义相同的增强文本语句，对原始数据集中的任意一个文本语句S进行增强，可以包括：

通过增、删、位置互换以及同义词互换中的一种或多种处理方式对文本语句S进行处理，以得到与文本语句S语义相同的一个或多个文本语句，将新的文本语句作为增强的文本语句；

作为一种可选的实施方式，对原始数据集中的任意一个文本语句S进行增强，可以包括：

(S4)重复执行步骤(S1)～(S3)，直至达到预设的增强次数；

其中，N为预设的正整数，p为预设的概率，0<p<1；语法相似度或语义相似度可以使用欧式距离、余弦相似度或其他方式进行衡量；通过增强次数的控制，能够对每个文本语句进行一次或多次增增强；

上述文本语句增强方法实际上是一种基于词向量的单词替换增强方法，在进行文本语句增强时，采用语法或语义相似度最高的单词按照一定的概率对原始文本语句中的单词进行替换，由于根据语法相似度进行单词替换时，无需维持语义一致性，因此，能够保持语义多样性，使得后续训练得到的学生模型具有更好的泛化能力；

作为一种可选的实施方式，对原始数据集中的文本语句进行增强，可以包括：

对该网页进行爬虫，将爬取的到文本语句作为增强的文本语句；

上述文本语句增强方法实际上是一种基于相似主题爬虫的增强方法，在进行文本语句增强时，采样爬虫的方式从原始数据集相关的网页(包括相关的评价网站、论坛、百度百科、维基百科等)中爬取文本语句，在保证数据相关的情况下，无需维持语义一致性，即爬取到的文本语句可能与原始文本语句语义相同，也可能不同，因此，能够保持语义多样性，使得后续训练得到的学生模型具有更好的泛化能力；

应当说明的是，在进行文本数据增强时，可以单独采用上述任意一种文本语句增强方式进行增强，也可以是任意一种其他的文本增强语句；可以将上述文本语句增强方式进行任意组合，甚至于其他的文本语句增强方式组合。

本发明还提供了一种自然语言处理模型训练系统，包括：第一训练模块、文本数据增强模块以及第二训练模块；

其中，老师模型和学生模型均为深度学习模型，且执行相同的自然语言处理任务，老师模型比学生模型更为复杂且规模更大；

在本发明实施例中，各模块的具体实施方式可参考上述方法实施例中的描述，在此将不作描述。

本发明还提供了一种部署有自然语言处理模型的边缘设备，其中的自然语言处理模型由上述自然语言处理模型训练方法训练得到。

本发明还提供了一种自然语言处理任务执行方法，包括：

利用上述自然语言处理模型训练方法得到的自然语言处理模型，执行自然语言处理任务。

本发明还提供了一种自然语言处理任务执行系统，该系统利用上述自然语言处理模型训练方法得到的自然语言处理模型，执行自然语言处理任务。

为了使本发明技术方案及优点更加清楚明白，下面结合一个情感分析的实例，对本发明的技术方案做进一步的解释。

执行情感分析任务的模型，需要根据输入的文本语句完成情感分类；在本应用实例中，以标准的公开SST-2数据集作为原始数据集，以BERT为老师模型，以LSTM为学生模型，利用原始数据集对老师模型(BERT)进行训练之后，对原始数据集中的文本语句进行增强；以SST-2数据集中的一个例句“are an absolute joy”为例，该语句的人工标注的标签为“1”(即正向的情感)，与之相对应地，如果文本语句被人工标注的标签为“0”，即表示负向的情感；

采用上述基于词向量的单词替换增强方法对该语句进行增强，设置增强次数为4，p＝0.4，N＝20，从Stanford大学公开的Glove词向量表中选择候选单词，所得到的增强文本语句，以及利用训练好的老师模型进行标注后的标签，如表1所示：

表1基于词向量的单词替换自动文本语句增强示例

采用上述基于相似主题爬虫的增强方法，提取SST-2数据集的特征后发现，该数据集是一个关于电影评论的数据集，选择与其相关的电影评价网站(例如IMDB)进行爬虫，自动增强更多的数据，所得到的增强文本语句，以及利用训练好的老师模型进行标注后的标签，如表2所示：

表2基于相似主题爬虫的自动文本语句增强示例

对老师模型和学生模型进行训练后，模型执行情感分析任务的准确度如表3所示：

表3模型训练完成后执行情感分析任务的准确度

根据表3所示的结果可以看出，老师模型由于更为复杂，规模更大，其执行情感分析任务的准确度明显高于学生模型；利用上述方法对文本数据增强后，训练得到的学生模型执行情感分析任务的准确度明显得到了提高。由此可知，本发明在知识蒸馏场景下，通过有效增强自然语言处理任务的数据集，能够提高自然语言处理模型的处理能力，从而提高自然语言处理任务的执行效果。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自然语言处理模型训练方法，其特征在于，包括：

利用已标注的原始数据集对老师模型进行训练；

对所述原始数据集中的文本语句进行增强，从而得到增强的文本语句，并利用已训练好的老师模型对增强的文本语句进行标注，从而得到已标注的增强数据集；

以所述原始数据集和所述增强数据集为训练数据集，对学生模型进行训练，将训练好的学生模型作为自然语言处理模型；

2.如权利要求1所述的自然语言处理模型训练方法，其特征在于，增强的文本语句与所述原始数据集中与之对应的文本语句语义相同或不相同。

3.如权利要求2所述的自然语言处理模型训练方法，其特征在于，对所述原始数据集中的任意一个文本语句S进行增强，包括：

4.如权利要求2所述的自然语言处理模型训练方法，其特征在于，对所述原始数据集中的任意一个文本语句S进行增强，包括：

(S1)遍历文本语句S，对于遍历到的每一个单词W_i，若为非停用词，则从已训练好的词向量表中获得与单词W_i相似度最高的N个单词，构成候选单词集合，并转入步骤(S2)；若为停用词，则不作处理；

(S4)重复执行步骤(S1)～(S3)，直至达到预设的增强次数；

其中，N为预设的正整数，p为预设的概率，0<p<1。

5.如权利要求2所述的自然语言处理模型训练方法，其特征在于，对所述原始数据集中的文本语句进行增强，包括：

提取所述原始数据集的特征，并根据所提取的特征获得与所述原始数据集相关的网页；

6.一种自然语言处理模型训练系统，其特征在于，包括：第一训练模块、文本数据增强模块以及第二训练模块；

所述第一训练模块，用于利用已标注的原始数据集对老师模型进行训练；

所述文本数据增强模块，用于对所述原始数据集中的文本语句进行增强，从而得到增强的文本语句，并利用由所述第一训练模块训练好的老师模型对增强的文本语句进行标注，从而得到已标注的增强数据集；

所述第二训练模块，用于以所述原始数据集和所述文本数据增强模块获得的增强数据集为训练数据集，对学生模型进行训练，将训练好的学生模型作为自然语言处理模型；

7.一种部署有自然语言处理模型的边缘设备，其特征在于，其中的自然语言处理模型由权利要求1-5任一项所述的自然语言处理模型训练方法训练得到。

8.一种自然语言处理任务执行方法，其特征在于，包括：

利用权利要求1-5任一项所述的自然语言处理模型训练方法得到的自然语言处理模型，执行自然语言处理任务。

9.一种自然语言处理任务执行系统，其特征在于，该系统利用权利要求1-5任一项所述的自然语言处理模型训练方法得到的自然语言处理模型，执行自然语言处理任务。