CN112766494A - 一种预训练模型知识蒸馏的安全性评估方法 - Google Patents

一种预训练模型知识蒸馏的安全性评估方法 Download PDF

Info

Publication number
CN112766494A
CN112766494A CN202110080749.1A CN202110080749A CN112766494A CN 112766494 A CN112766494 A CN 112766494A CN 202110080749 A CN202110080749 A CN 202110080749A CN 112766494 A CN112766494 A CN 112766494A
Authority
CN
China
Prior art keywords
sample
knowledge distillation
model
safety
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110080749.1A
Other languages
English (en)
Inventor
杨建磊
郭新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110080749.1A priority Critical patent/CN112766494A/zh
Publication of CN112766494A publication Critical patent/CN112766494A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Vaporization, Distillation, Condensation, Sublimation, And Cold Traps (AREA)

Abstract

本发明公开了一种预训练模型知识蒸馏的安全性评估方法,使用神经网络对抗攻击方法,以验证数据集为起点,对待评估的预训练模型知识蒸馏方法的学生模型、老师模型分别进行攻击,产生两个对抗样本集,并以学生模型在这两个对抗样本集上的正确率,来评估知识蒸馏方法分别在直接攻击和迁移攻击下的安全性。本发明提供的上述预训练模型知识蒸馏的安全性评估方法,可以从直接攻击和迁移攻击两方面评估知识蒸馏方法和相关学生模型的安全性,便于专业人员在研究、使用预训练模型知识蒸馏方法时对其安全性进行评估,减少安全隐患。

Description

一种预训练模型知识蒸馏的安全性评估方法
技术领域
本发明涉及深度学习、知识蒸馏以及神经网络安全性技术领域,尤其涉及一种预训练模型知识蒸馏的安全性评估方法。
背景技术
预训练模型是指训练过程包括预训练和微调两个阶段的深度学习模型,其中比较有代表性的是自然语言处理领域的预训练语言模型。预训练语言模型是通过在大量无标注自然语言数据上对人工神经网络进行预训练获得一个语言模型,再对这个语言模型在特定下游任务的有标注数据集上进行微调形成的任务相关推理模型。
知识蒸馏方法是在训练模型时,使用一个较大的经过训练的模型作为老师模型,训练学生模型模仿老师模型的行为,从而将老师模型中的知识转移到学生模型中的技术。知识蒸馏方法包括但不限于,通过老师模型对训练样本的推理,产生每个样本在每个分类上的预测概率作为软标签,使用软标签对特定结构的学生模型进行训练。知识蒸馏方法可以用于将大型模型中的知识迁移到较小的模型中,达到模型压缩、轻量化的效果。
此前研究发现,神经网络容易受到对抗攻击,对输入数据进行很小的、不易被人注意的修改可能会使神经网络做出完全不同的预测,从而产生安全隐患。这不仅限制了神经网络在高安全性要求的环境中的应用,也降低了神经网络作为数据分析、处理工具的可靠性。神经网络安全性是指神经网络模型对于对抗攻击的抵抗能力。现有的预训练模型知识蒸馏技术并没有关注神经网络安全性。
发明内容
有鉴于此,本发明提供了一种预训练模型知识蒸馏的安全性评估方法,用以对现有预训练模型知识蒸馏方法的安全性做出评估。
本发明提供的一种预训练模型知识蒸馏的安全性评估方法,包括如下步骤:
S1:获取训练数据集,包括多个第一样本和各所述第一样本的分类标签;
S2:获得经过预训练和微调后的预训练模型,作为知识蒸馏中的老师模型;
S3:选取待评估的知识蒸馏方法及与待评估的知识蒸馏方法相关的学生模型,在所述训练数据集上,使用所述老师模型对所述学生模型进行知识蒸馏;
S4:获取验证数据集,包括多个第二样本和各所述第二样本的分类标签;
S5:使用神经网络对抗攻击方法,以所述验证数据集中的每个第二样本为起点,攻击知识蒸馏后的学生模型,产生与各所述第二样本一一对应的第一对抗样本,各所述第一对抗样本和所述验证数据集中各所述第二样本的分类标签构成第一对抗样本集;
S6:计算知识蒸馏后的学生模型在所述第一对抗样本集上的正确率,用于评估所述待评估的知识蒸馏方法和相关的学生模型在直接攻击下的安全性;
S7:使用神经网络对抗攻击方法,以所述验证数据集中的每个第二样本为起点,攻击所述老师模型,产生与各所述第二样本一一对应的第二对抗样本,各所述第二对抗样本和所述验证数据集中各所述第二样本的分类标签构成第二对抗样本集;
S8:计算知识蒸馏后的学生模型在所述第二对抗样本集上的正确率,用于评估所述待评估的知识蒸馏方法和相关的学生模型在迁移攻击下的安全性。
在一种可能的实现方式中,在本发明提供的上述预训练模型知识蒸馏的安全性评估方法中,步骤S6中,计算知识蒸馏后的学生模型在所述第一对抗样本集上的正确率,具体包括:
将所述第一对抗样本集中的每个第一对抗样本在知识蒸馏后的学生模型上进行前向传播,得到第一推理结果,将所述第一推理结果与第一对抗样本对应的第二样本的分类标签进行对比,若对比结果一致,则代表正确,统计结果正确的第一对抗样本所占的百分比,作为知识蒸馏后的学生模型在所述第一对抗样本集上的正确率。
在一种可能的实现方式中,在本发明提供的上述预训练模型知识蒸馏的安全性评估方法中,步骤S8,计算知识蒸馏后的学生模型在所述第二对抗样本集上的正确率,具体包括:
将所述第二对抗样本集中的每个第二对抗样本在知识蒸馏后的学生模型上进行前向传播,得到第二推理结果,将所述第二推理结果与第二对抗样本对应的第二样本的分类标签进行对比,若对比结果一致,则代表正确,统计结果正确的第二对抗样本所占的百分比,作为知识蒸馏后的学生模型在所述第二对抗样本集上的正确率。
本发明提供的上述预训练模型知识蒸馏的安全性评估方法,使用神经网络对抗攻击方法,以验证数据集为起点,对待评估的预训练模型知识蒸馏方法的学生模型、老师模型分别进行攻击,产生两个对抗样本集,并以学生模型在这两个对抗样本集上的正确率,来评估知识蒸馏方法分别在直接攻击和迁移攻击下的安全性。本发明提供的上述预训练模型知识蒸馏的安全性评估方法,可以从直接攻击和迁移攻击两方面评估知识蒸馏方法和相关学生模型的安全性,便于专业人员在研究、使用预训练模型知识蒸馏方法时对其安全性进行评估,减少安全隐患。
附图说明
图1为本发明实施例1中预训练模型知识蒸馏的安全性评估方法的流程示意图;
图2为本发明实施例1中预训练模型知识蒸馏的安全性评估方法的框架示意图;
图3为本发明实施例1中产生第一对抗样本集的过程示意图;
图4为本发明实施例1中计算学生模型安全性的过程示意图。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整的描述,显然,所描述的实施方式仅仅是作为例示,并非用于限制本发明。
本发明提供的一种预训练模型知识蒸馏的安全性评估方法,包括如下步骤:
S1:获取训练数据集,包括多个第一样本和各第一样本的分类标签;
S2:获得经过预训练和微调后的预训练模型,作为知识蒸馏中的老师模型;
S3:选取待评估的知识蒸馏方法及与待评估的知识蒸馏方法相关的学生模型,在训练数据集上,使用老师模型对学生模型进行知识蒸馏;
S4:获取验证数据集,包括多个第二样本和各第二样本的分类标签;
S5:使用神经网络对抗攻击方法,以验证数据集中的每个第二样本为起点,攻击知识蒸馏后的学生模型,产生与各第二样本一一对应的第一对抗样本,各第一对抗样本和验证数据集中各第二样本的分类标签构成第一对抗样本集;
S6:计算知识蒸馏后的学生模型在第一对抗样本集上的正确率,用于评估待评估的知识蒸馏方法和相关的学生模型在直接攻击下的安全性;
S7:使用神经网络对抗攻击方法,以验证数据集中的每个第二样本为起点,攻击老师模型,产生与各第二样本一一对应的第二对抗样本,各第二对抗样本和验证数据集中各第二样本的分类标签构成第二对抗样本集;
S8:计算知识蒸馏后的学生模型在第二对抗样本集上的正确率,用于评估待评估的知识蒸馏方法和相关的学生模型在迁移攻击下的安全性。
需要说明的是,模型的安全性也被称为模型的鲁棒性,本发明阐述的对象包含安全性与鲁棒性,下面以安全性代指。
下面通过一个具体的实施例对本发明提供的上述预训练模型知识蒸馏的安全性评估方法的具体实施进行详细说明。
实施例1:
现有的预训练语言模型知识蒸馏方法如AdaBERT和PKD,可以将大型预训练模型中知识迁移到较小的模型中,提高大规模影视评论情感识别的速度。但这两种方法的安全性没有经过评估,在实际应用中可能会受到攻击,攻击者刻意设计的影视评论可以使人类和基于该技术的识别系统对情感的分类完全相反,造成安全隐患。本发明实施例1对上述两种方法的安全性进行评估,便于专业人员在使用这些方法时能够清晰地了解它们的安全性。
本发明实施例1中预训练模型知识蒸馏的安全性评估方法,如图1和图2所示,包括如下步骤:
步骤S1:获取训练数据集D1,包括多个第一样本和各第一样本的分类标签。
SST-2数据集包括六万余条影视评论样本,以及每条影视评论在情感上属于积极或是消极的分类标签,是一个二分类数据集。SST-2数据集分为训练集和验证集。在本发明实施例1中,取SST-2数据集的训练集作为训练数据集D1。
步骤S2:获得经过预训练和微调后的预训练模型,作为知识蒸馏中的老师模型T。
在本发明实施例1中,取预训练模型BERT在SST-2数据集上微调得到的影视评论情感识别模型作为老师模型T。
步骤S3:选取待评估的知识蒸馏方法M及与待评估的知识蒸馏方法M相关的学生模型S,在训练数据集D1上,使用老师模型T对学生模型S进行知识蒸馏,得到学生模型U。
在本发明实施例1中,选择大规模影视评论情感识别中常用的预训练模型知识蒸馏技术,例如,AdaBERT和PKD。
步骤S4:获取验证数据集D2,包括多个第二样本和各第二样本的分类标签。
在本发明实施例1中,取SST-2数据集的验证集作为验证数据集D2。
步骤S5:使用神经网络对抗攻击方法,以验证数据集D2中的每个第二样本为起点,攻击知识蒸馏后的学生模型U,产生与各第二样本一一对应的第一对抗样本,各第一对抗样本和验证数据集D2中各第二样本的分类标签构成第一对抗样本集AS
图3是本发明实施例1中产生第一对抗样本集的过程示意图。在本发明实施例1中,使用TextFooler攻击方法,对于验证数据集D2中的每个第二样本,以知识蒸馏后的学生模型U为目标模型进行攻击,根据攻击的结果产生与各第二样本一一对应的第一对抗样本,产生的所有第一对抗样本与其对应的第二样本在验证数据集D2中的分类标签构成第一对抗样本集AS
步骤S6:计算知识蒸馏后的学生模型U在第一对抗样本集AS上的正确率,用于评估待评估的知识蒸馏方法M和相关的学生模型S在直接攻击下的安全性。
图4是本发明实施例1中计算学生模型安全性的过程示意图。在本发明实施例1中,第一对抗样本集AS中的每个第一对抗样本,在知识蒸馏后的学生模型U上进行前向传播,得到第一推理结果,将第一推理结果与第一对抗样本对应的第二样本的分类标签进行对比,若对比结果一致,则代表正确,统计结果正确的第一对抗样本所占的百分比,作为知识蒸馏后的学生模型U在第一对抗样本集上AS的正确率。
步骤S7:使用神经网络对抗攻击方法,以验证数据集D2中的每个第二样本为起点,攻击老师模型T,产生与各第二样本一一对应的第二对抗样本,各第二对抗样本和验证数据集D2中各第二样本的分类标签构成第二对抗样本集AT
在本发明实施例1中,使用TextFooler攻击方法,对于验证数据集D2中的每个第二样本,对老师模型T进行攻击,产生与各第二样本一一对应的第二对抗样本,产生的所有第二对抗样本与其对应的第二样本在验证数据集D2中的分类标签构成第二对抗样本集AT
步骤S8:计算知识蒸馏后的学生模型U在第二对抗样本集AT上的正确率,用于评估待评估的知识蒸馏方法M和相关的学生模型S在迁移攻击下的安全性。
在本发明实施例1中,第二对抗样本集AT中的每个第二对抗样本,在知识蒸馏后的学生模型U上进行前向传播,得到第二推理结果,将第二推理结果与第二对抗样本对应的第二样本的分类标签进行对比,若对比结果一致,则代表正确,统计结果正确的第二对抗样本所占的百分比为知识蒸馏后的学生模型U在第二对抗样本集AT上的正确率。
表1列出了本发明实施例1中对预训练模型知识蒸馏方法AdaBERT和PKD分别进行直接攻击和迁移攻击时安全性的评估结果。结果表明,这两种方法在直接攻击下安全性都比较低,在迁移攻击下安全性尚可。相关专业人员在使用基于这两种方法的大规模影视评论情感识别系统时,需要注意其安全隐患,特别是面对直接攻击时。
表1
方法 原准确率 直接攻击安全性 迁移攻击安全性
AdaBERT 89.0% 7.1% 53.7%
PKD 90.7% 6.2% 56.4%
需要说明的是,对预训练模型使用知识蒸馏以外的模型压缩方法时,同样具有安全性问题,对于其他模型压缩方法的安全性评估方法,如果属于在本发明的思想之内的任何修改、替换、改进等,同样在本专利的保护范围之内。
本发明提供的上述预训练模型知识蒸馏的安全性评估方法,使用神经网络对抗攻击方法,以验证数据集为起点,对待评估的预训练模型知识蒸馏方法的学生模型、老师模型分别进行攻击,产生两个对抗样本集,并以学生模型在这两个对抗样本集上的正确率,来评估知识蒸馏方法分别在直接攻击和迁移攻击下的安全性。本发明提供的上述预训练模型知识蒸馏的安全性评估方法,可以从直接攻击和迁移攻击两方面评估知识蒸馏方法和相关学生模型的安全性,便于专业人员在研究、使用预训练模型知识蒸馏方法时对其安全性进行评估,减少安全隐患。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (3)

1.一种预训练模型知识蒸馏的安全性评估方法,其特征在于,包括如下步骤:
S1:获取训练数据集,包括多个第一样本和各所述第一样本的分类标签;
S2:获得经过预训练和微调后的预训练模型,作为知识蒸馏中的老师模型;
S3:选取待评估的知识蒸馏方法及与待评估的知识蒸馏方法相关的学生模型,在所述训练数据集上,使用所述老师模型对所述学生模型进行知识蒸馏;
S4:获取验证数据集,包括多个第二样本和各所述第二样本的分类标签;
S5:使用神经网络对抗攻击方法,以所述验证数据集中的每个第二样本为起点,攻击知识蒸馏后的学生模型,产生与各所述第二样本一一对应的第一对抗样本,各所述第一对抗样本和所述验证数据集中各所述第二样本的分类标签构成第一对抗样本集;
S6:计算知识蒸馏后的学生模型在所述第一对抗样本集上的正确率,用于评估所述待评估的知识蒸馏方法和相关的学生模型在直接攻击下的安全性;
S7:使用神经网络对抗攻击方法,以所述验证数据集中的每个第二样本为起点,攻击所述老师模型,产生与各所述第二样本一一对应的第二对抗样本,各所述第二对抗样本和所述验证数据集中各所述第二样本的分类标签构成第二对抗样本集;
S8:计算知识蒸馏后的学生模型在所述第二对抗样本集上的正确率,用于评估所述待评估的知识蒸馏方法和相关的学生模型在迁移攻击下的安全性。
2.如权利要求1所述的预训练模型知识蒸馏的安全性评估方法,其特征在于,步骤S6中,计算知识蒸馏后的学生模型在所述第一对抗样本集上的正确率,具体包括:
将所述第一对抗样本集中的每个第一对抗样本在知识蒸馏后的学生模型上进行前向传播,得到第一推理结果,将所述第一推理结果与第一对抗样本对应的第二样本的分类标签进行对比,若对比结果一致,则代表正确,统计结果正确的第一对抗样本所占的百分比,作为知识蒸馏后的学生模型在所述第一对抗样本集上的正确率。
3.如权利要求1所述的预训练模型知识蒸馏的安全性评估方法,其特征在于,步骤S8,计算知识蒸馏后的学生模型在所述第二对抗样本集上的正确率,具体包括:
将所述第二对抗样本集中的每个第二对抗样本在知识蒸馏后的学生模型上进行前向传播,得到第二推理结果,将所述第二推理结果与第二对抗样本对应的第二样本的分类标签进行对比,若对比结果一致,则代表正确,统计结果正确的第二对抗样本所占的百分比,作为知识蒸馏后的学生模型在所述第二对抗样本集上的正确率。
CN202110080749.1A 2021-01-21 2021-01-21 一种预训练模型知识蒸馏的安全性评估方法 Pending CN112766494A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110080749.1A CN112766494A (zh) 2021-01-21 2021-01-21 一种预训练模型知识蒸馏的安全性评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110080749.1A CN112766494A (zh) 2021-01-21 2021-01-21 一种预训练模型知识蒸馏的安全性评估方法

Publications (1)

Publication Number Publication Date
CN112766494A true CN112766494A (zh) 2021-05-07

Family

ID=75702219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110080749.1A Pending CN112766494A (zh) 2021-01-21 2021-01-21 一种预训练模型知识蒸馏的安全性评估方法

Country Status (1)

Country Link
CN (1) CN112766494A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808095A (zh) * 2024-02-26 2024-04-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种对抗攻击样本生成方法和装置、电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117808095A (zh) * 2024-02-26 2024-04-02 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种对抗攻击样本生成方法和装置、电子设备
CN117808095B (zh) * 2024-02-26 2024-05-28 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种对抗攻击样本生成方法和装置、电子设备

Similar Documents

Publication Publication Date Title
Chu et al. Automatic image captioning based on ResNet50 and LSTM with soft attention
CN105426356B (zh) 一种目标信息识别方法和装置
CN106599155B (zh) 一种网页分类方法及系统
Ferreira et al. Towards automatic content analysis of social presence in transcripts of online discussions
CN106503055A (zh) 一种从结构化文本到图像描述的生成方法
CN112733533A (zh) 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN109299258A (zh) 一种舆情事件检测方法、装置及设备
CN111709244B (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
CN111506785B (zh) 基于社交文本的网络舆情话题识别方法和系统
CN106919557A (zh) 一种结合主题模型的文档向量生成方法
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN116629275A (zh) 一种基于大数据的智能决策支持系统及方法
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN110728144B (zh) 一种基于上下文语义感知的抽取式文档自动摘要方法
CN110322003B (zh) 一种用于文档分类的基于梯度的通过添加虚假节点的图对抗样本生成方法
CN111966878A (zh) 基于机器学习的舆情事件反转检测方法
CN116415581A (zh) 一种基于智慧教育的教学数据分析系统
CN112884150A (zh) 一种预训练模型知识蒸馏的安全性增强方法
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN108197274B (zh) 基于对话的异常个性检测方法及装置
CN112766494A (zh) 一种预训练模型知识蒸馏的安全性评估方法
CN107992473B (zh) 基于逐点互信息技术的诈骗信息特征词提取方法及系统
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN113392334B (zh) 冷启动环境下的虚假评论检测方法
CN115952438A (zh) 社交平台用户属性预测方法、系统、移动设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210507