CN112766494A

CN112766494A - 一种预训练模型知识蒸馏的安全性评估方法

Info

Publication number: CN112766494A
Application number: CN202110080749.1A
Authority: CN
Inventors: 杨建磊; 郭新
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-07

Abstract

本发明公开了一种预训练模型知识蒸馏的安全性评估方法，使用神经网络对抗攻击方法，以验证数据集为起点，对待评估的预训练模型知识蒸馏方法的学生模型、老师模型分别进行攻击，产生两个对抗样本集，并以学生模型在这两个对抗样本集上的正确率，来评估知识蒸馏方法分别在直接攻击和迁移攻击下的安全性。本发明提供的上述预训练模型知识蒸馏的安全性评估方法，可以从直接攻击和迁移攻击两方面评估知识蒸馏方法和相关学生模型的安全性，便于专业人员在研究、使用预训练模型知识蒸馏方法时对其安全性进行评估，减少安全隐患。

Description

一种预训练模型知识蒸馏的安全性评估方法

技术领域

本发明涉及深度学习、知识蒸馏以及神经网络安全性技术领域，尤其涉及一种预训练模型知识蒸馏的安全性评估方法。

背景技术

预训练模型是指训练过程包括预训练和微调两个阶段的深度学习模型，其中比较有代表性的是自然语言处理领域的预训练语言模型。预训练语言模型是通过在大量无标注自然语言数据上对人工神经网络进行预训练获得一个语言模型，再对这个语言模型在特定下游任务的有标注数据集上进行微调形成的任务相关推理模型。

知识蒸馏方法是在训练模型时，使用一个较大的经过训练的模型作为老师模型，训练学生模型模仿老师模型的行为，从而将老师模型中的知识转移到学生模型中的技术。知识蒸馏方法包括但不限于，通过老师模型对训练样本的推理，产生每个样本在每个分类上的预测概率作为软标签，使用软标签对特定结构的学生模型进行训练。知识蒸馏方法可以用于将大型模型中的知识迁移到较小的模型中，达到模型压缩、轻量化的效果。

此前研究发现，神经网络容易受到对抗攻击，对输入数据进行很小的、不易被人注意的修改可能会使神经网络做出完全不同的预测，从而产生安全隐患。这不仅限制了神经网络在高安全性要求的环境中的应用，也降低了神经网络作为数据分析、处理工具的可靠性。神经网络安全性是指神经网络模型对于对抗攻击的抵抗能力。现有的预训练模型知识蒸馏技术并没有关注神经网络安全性。

发明内容

有鉴于此，本发明提供了一种预训练模型知识蒸馏的安全性评估方法，用以对现有预训练模型知识蒸馏方法的安全性做出评估。

本发明提供的一种预训练模型知识蒸馏的安全性评估方法，包括如下步骤：

S1：获取训练数据集，包括多个第一样本和各所述第一样本的分类标签；

S2：获得经过预训练和微调后的预训练模型，作为知识蒸馏中的老师模型；

S3：选取待评估的知识蒸馏方法及与待评估的知识蒸馏方法相关的学生模型，在所述训练数据集上，使用所述老师模型对所述学生模型进行知识蒸馏；

S4：获取验证数据集，包括多个第二样本和各所述第二样本的分类标签；

S5：使用神经网络对抗攻击方法，以所述验证数据集中的每个第二样本为起点，攻击知识蒸馏后的学生模型，产生与各所述第二样本一一对应的第一对抗样本，各所述第一对抗样本和所述验证数据集中各所述第二样本的分类标签构成第一对抗样本集；

S6：计算知识蒸馏后的学生模型在所述第一对抗样本集上的正确率，用于评估所述待评估的知识蒸馏方法和相关的学生模型在直接攻击下的安全性；

S7：使用神经网络对抗攻击方法，以所述验证数据集中的每个第二样本为起点，攻击所述老师模型，产生与各所述第二样本一一对应的第二对抗样本，各所述第二对抗样本和所述验证数据集中各所述第二样本的分类标签构成第二对抗样本集；

S8：计算知识蒸馏后的学生模型在所述第二对抗样本集上的正确率，用于评估所述待评估的知识蒸馏方法和相关的学生模型在迁移攻击下的安全性。

在一种可能的实现方式中，在本发明提供的上述预训练模型知识蒸馏的安全性评估方法中，步骤S6中，计算知识蒸馏后的学生模型在所述第一对抗样本集上的正确率，具体包括：

将所述第一对抗样本集中的每个第一对抗样本在知识蒸馏后的学生模型上进行前向传播，得到第一推理结果，将所述第一推理结果与第一对抗样本对应的第二样本的分类标签进行对比，若对比结果一致，则代表正确，统计结果正确的第一对抗样本所占的百分比，作为知识蒸馏后的学生模型在所述第一对抗样本集上的正确率。

在一种可能的实现方式中，在本发明提供的上述预训练模型知识蒸馏的安全性评估方法中，步骤S8，计算知识蒸馏后的学生模型在所述第二对抗样本集上的正确率，具体包括：

将所述第二对抗样本集中的每个第二对抗样本在知识蒸馏后的学生模型上进行前向传播，得到第二推理结果，将所述第二推理结果与第二对抗样本对应的第二样本的分类标签进行对比，若对比结果一致，则代表正确，统计结果正确的第二对抗样本所占的百分比，作为知识蒸馏后的学生模型在所述第二对抗样本集上的正确率。

本发明提供的上述预训练模型知识蒸馏的安全性评估方法，使用神经网络对抗攻击方法，以验证数据集为起点，对待评估的预训练模型知识蒸馏方法的学生模型、老师模型分别进行攻击，产生两个对抗样本集，并以学生模型在这两个对抗样本集上的正确率，来评估知识蒸馏方法分别在直接攻击和迁移攻击下的安全性。本发明提供的上述预训练模型知识蒸馏的安全性评估方法，可以从直接攻击和迁移攻击两方面评估知识蒸馏方法和相关学生模型的安全性，便于专业人员在研究、使用预训练模型知识蒸馏方法时对其安全性进行评估，减少安全隐患。

附图说明

图1为本发明实施例1中预训练模型知识蒸馏的安全性评估方法的流程示意图；

图2为本发明实施例1中预训练模型知识蒸馏的安全性评估方法的框架示意图；

图3为本发明实施例1中产生第一对抗样本集的过程示意图；

图4为本发明实施例1中计算学生模型安全性的过程示意图。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整的描述，显然，所描述的实施方式仅仅是作为例示，并非用于限制本发明。

S1：获取训练数据集，包括多个第一样本和各第一样本的分类标签；

S3：选取待评估的知识蒸馏方法及与待评估的知识蒸馏方法相关的学生模型，在训练数据集上，使用老师模型对学生模型进行知识蒸馏；

S4：获取验证数据集，包括多个第二样本和各第二样本的分类标签；

S5：使用神经网络对抗攻击方法，以验证数据集中的每个第二样本为起点，攻击知识蒸馏后的学生模型，产生与各第二样本一一对应的第一对抗样本，各第一对抗样本和验证数据集中各第二样本的分类标签构成第一对抗样本集；

S6：计算知识蒸馏后的学生模型在第一对抗样本集上的正确率，用于评估待评估的知识蒸馏方法和相关的学生模型在直接攻击下的安全性；

S7：使用神经网络对抗攻击方法，以验证数据集中的每个第二样本为起点，攻击老师模型，产生与各第二样本一一对应的第二对抗样本，各第二对抗样本和验证数据集中各第二样本的分类标签构成第二对抗样本集；

S8：计算知识蒸馏后的学生模型在第二对抗样本集上的正确率，用于评估待评估的知识蒸馏方法和相关的学生模型在迁移攻击下的安全性。

需要说明的是，模型的安全性也被称为模型的鲁棒性，本发明阐述的对象包含安全性与鲁棒性，下面以安全性代指。

下面通过一个具体的实施例对本发明提供的上述预训练模型知识蒸馏的安全性评估方法的具体实施进行详细说明。

实施例1：

现有的预训练语言模型知识蒸馏方法如AdaBERT和PKD，可以将大型预训练模型中知识迁移到较小的模型中，提高大规模影视评论情感识别的速度。但这两种方法的安全性没有经过评估，在实际应用中可能会受到攻击，攻击者刻意设计的影视评论可以使人类和基于该技术的识别系统对情感的分类完全相反，造成安全隐患。本发明实施例1对上述两种方法的安全性进行评估，便于专业人员在使用这些方法时能够清晰地了解它们的安全性。

本发明实施例1中预训练模型知识蒸馏的安全性评估方法，如图1和图2所示，包括如下步骤：

步骤S1：获取训练数据集D1，包括多个第一样本和各第一样本的分类标签。

SST-2数据集包括六万余条影视评论样本，以及每条影视评论在情感上属于积极或是消极的分类标签，是一个二分类数据集。SST-2数据集分为训练集和验证集。在本发明实施例1中，取SST-2数据集的训练集作为训练数据集D1。

步骤S2：获得经过预训练和微调后的预训练模型，作为知识蒸馏中的老师模型T。

在本发明实施例1中，取预训练模型BERT在SST-2数据集上微调得到的影视评论情感识别模型作为老师模型T。

步骤S3：选取待评估的知识蒸馏方法M及与待评估的知识蒸馏方法M相关的学生模型S，在训练数据集D1上，使用老师模型T对学生模型S进行知识蒸馏，得到学生模型U。

在本发明实施例1中，选择大规模影视评论情感识别中常用的预训练模型知识蒸馏技术，例如，AdaBERT和PKD。

步骤S4：获取验证数据集D2，包括多个第二样本和各第二样本的分类标签。

在本发明实施例1中，取SST-2数据集的验证集作为验证数据集D2。

步骤S5：使用神经网络对抗攻击方法，以验证数据集D2中的每个第二样本为起点，攻击知识蒸馏后的学生模型U，产生与各第二样本一一对应的第一对抗样本，各第一对抗样本和验证数据集D2中各第二样本的分类标签构成第一对抗样本集A_S。

图3是本发明实施例1中产生第一对抗样本集的过程示意图。在本发明实施例1中，使用TextFooler攻击方法，对于验证数据集D2中的每个第二样本，以知识蒸馏后的学生模型U为目标模型进行攻击，根据攻击的结果产生与各第二样本一一对应的第一对抗样本，产生的所有第一对抗样本与其对应的第二样本在验证数据集D2中的分类标签构成第一对抗样本集A_S。

步骤S6：计算知识蒸馏后的学生模型U在第一对抗样本集A_S上的正确率，用于评估待评估的知识蒸馏方法M和相关的学生模型S在直接攻击下的安全性。

图4是本发明实施例1中计算学生模型安全性的过程示意图。在本发明实施例1中，第一对抗样本集A_S中的每个第一对抗样本，在知识蒸馏后的学生模型U上进行前向传播，得到第一推理结果，将第一推理结果与第一对抗样本对应的第二样本的分类标签进行对比，若对比结果一致，则代表正确，统计结果正确的第一对抗样本所占的百分比，作为知识蒸馏后的学生模型U在第一对抗样本集上A_S的正确率。

步骤S7：使用神经网络对抗攻击方法，以验证数据集D2中的每个第二样本为起点，攻击老师模型T，产生与各第二样本一一对应的第二对抗样本，各第二对抗样本和验证数据集D2中各第二样本的分类标签构成第二对抗样本集A_T。

在本发明实施例1中，使用TextFooler攻击方法，对于验证数据集D2中的每个第二样本，对老师模型T进行攻击，产生与各第二样本一一对应的第二对抗样本，产生的所有第二对抗样本与其对应的第二样本在验证数据集D2中的分类标签构成第二对抗样本集A_T。

步骤S8：计算知识蒸馏后的学生模型U在第二对抗样本集A_T上的正确率，用于评估待评估的知识蒸馏方法M和相关的学生模型S在迁移攻击下的安全性。

在本发明实施例1中，第二对抗样本集A_T中的每个第二对抗样本，在知识蒸馏后的学生模型U上进行前向传播，得到第二推理结果，将第二推理结果与第二对抗样本对应的第二样本的分类标签进行对比，若对比结果一致，则代表正确，统计结果正确的第二对抗样本所占的百分比为知识蒸馏后的学生模型U在第二对抗样本集A_T上的正确率。

表1列出了本发明实施例1中对预训练模型知识蒸馏方法AdaBERT和PKD分别进行直接攻击和迁移攻击时安全性的评估结果。结果表明，这两种方法在直接攻击下安全性都比较低，在迁移攻击下安全性尚可。相关专业人员在使用基于这两种方法的大规模影视评论情感识别系统时，需要注意其安全隐患，特别是面对直接攻击时。

表1

方法	原准确率	直接攻击安全性	迁移攻击安全性
				AdaBERT	89.0％	7.1％	53.7％
PKD	90.7％	6.2％	56.4％

需要说明的是，对预训练模型使用知识蒸馏以外的模型压缩方法时，同样具有安全性问题，对于其他模型压缩方法的安全性评估方法，如果属于在本发明的思想之内的任何修改、替换、改进等，同样在本专利的保护范围之内。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种预训练模型知识蒸馏的安全性评估方法，其特征在于，包括如下步骤：

2.如权利要求1所述的预训练模型知识蒸馏的安全性评估方法，其特征在于，步骤S6中，计算知识蒸馏后的学生模型在所述第一对抗样本集上的正确率，具体包括：

3.如权利要求1所述的预训练模型知识蒸馏的安全性评估方法，其特征在于，步骤S8，计算知识蒸馏后的学生模型在所述第二对抗样本集上的正确率，具体包括：