CN113297574B - 基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法 - Google Patents

基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法 Download PDF

Info

Publication number
CN113297574B
CN113297574B CN202110653241.6A CN202110653241A CN113297574B CN 113297574 B CN113297574 B CN 113297574B CN 202110653241 A CN202110653241 A CN 202110653241A CN 113297574 B CN113297574 B CN 113297574B
Authority
CN
China
Prior art keywords
model
stealing
defence
training
acc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110653241.6A
Other languages
English (en)
Other versions
CN113297574A (zh
Inventor
陈晋音
吴长安
王雪柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110653241.6A priority Critical patent/CN113297574B/zh
Publication of CN113297574A publication Critical patent/CN113297574A/zh
Application granted granted Critical
Publication of CN113297574B publication Critical patent/CN113297574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法,通过在模型输出中,对激活函数进行自适应变化,使用强化学习的奖励机制不断调整自适应策略,降低攻击者从模型输出中获取的信息量,隐藏模型输出的置信度信息中的敏感信息,达到对于模型窃取攻击的防御目的。本发明的方法,在不同的数据集上和模型上,均能达到良好的防御效果。

Description

基于强化学习奖励机制的激活函数自适应变化模型窃取防御 方法
技术领域
本发明属于人工智能安全领域,尤其是涉及一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法。
背景技术
近年来,深度学习成为热门学科,深度学习和人工智能技术被广泛应用于各项行业。但是与此同时,深度学习的数据和模型安全也受到各种威胁。其中,深度神经网络(DNNs)模型容易受到模型窃取攻击,这种攻击能够在攻击者对训练数据不了解的情况下,通过使用黑盒查询访问的方法来复制目标模型的功能。模型窃取攻击通过使用合成数据集或代理数据集的来查询目标模型,同时保存查询结果以构建一个带标记的转移数据集。攻击者可以使用这个带标记的转移数据集来训练复制模型,从而达到与目标模型相当的分类精度。
深度学习模型的训练需要一定数量的数据集以及计算机算力的支持,数据集的标记和整合以及硬件设施都需要投入大量的资金,因此,深度学习模型具有经济和社会价值。深度学习模型一旦被恶意攻击者窃取,会对模型所有者造成巨大的损失。
除此以外,随着机器学习云端服务(ML-as-a-service)的兴起,越来越多的商用模型被投入使用,模型所有者使用API将深度学习模型作为一种服务型商品出售,依据API的查询次数向用户进行收费。但是在查询的过程中,恶意用户能够通过特定的攻击算法窃取深度模型的信息,从而复制API内部的模型功能,损害模型所有者的利益。
为了提高深度模型的安全性,针对恶意攻击者通过查询API的方式窃取模型的问题,亟需设计一种深度神经网络模型的窃取防御方法,降低攻击者从模型输出中获取的信息量,达到对于模型窃取攻击的防御目的。
发明内容
本发明提供了一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法,可以防止模型在API的输入输出查询过程中,被恶意访问者窃取。
一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法,包括以下步骤
(1)构建目标模型,所述目标模型的全连接层连接有softmax激活函数的变形形式,softmax激活函数中添加有自适应变换项系数ε;
(2)获取用于训练目标模型的图像数据集,分成训练集和测试集后对目标模型进行训练;
(3)获取与图形数据集对应的代理数据集,输入目标模型后得到添加自适应变换项系数的置信度向量,将对应的输入图片和置信度向量保存,作为窃取模型的训练集,记作SETdefence
(4)构建窃取模型并利用窃取模型的训练集SETdefence进行训练,所述窃取模型的模型结构与目标模型一致;每一轮训练后使用步骤(2)中的测试集测试窃取模型的测试准确率,记作ACCdefence
(5)以ACCdefence作为强化学习的优化目标,对目标模型和窃取模型进行迭代训练,每一轮训练的ACCdefence记为当前的优化状态ACCdefence-t,下一轮的ACCdefence记为ACCdefence-t+1,当ACCdefence-t+1小于ACCdefence-t,奖励Rt加一,反之奖励Rt减一;同时对当前的自适应变化项系数εt进行自适应变换系数随机操作at
(6)训练完成后,得到具有窃取防御功能的目标模型,并进行图像分类的应用。
进一步地,步骤(1)中,所述的目标模型包括但不限于Alexnet模型、VGG19模型、ResNet-34模型。
进一步地,步骤(1)中,所述softmax激活函数的变形形式具体为:
Figure BDA0003112637960000031
式中,ε为自适应变换项系数,利用强化学习的奖励机制,实现自适应优化变换;Z(x,i)为全连接层后输出的特征向量,表示的是输入的样本x在第i类的权重大小,i=1,2,....C,C是模型训练的样本类别总数。
进一步地,步骤(4)中,使用交叉熵损失函数作为窃取模型训练优化的损失函数,使用adam优化器进行优化,交叉熵损失函数的计算公式如下:
Figure BDA0003112637960000032
其中Lossstl(x)为窃取模型的损失函数,N为输入的样本数量,y为目标模型的输出,y’为窃取模型的输出;
进一步地,步骤(5)中,设定ACCdefence的阈值为0.05,当ACCdefence小于0.05时,结束训练。
进一步地,步骤(5)中,对当前的自适应变化项系数εt进行自适应变换系数随机操作at的公式为:
Figure BDA0003112637960000033
其中,εt+1表示更新后的自适应变化项系数。
与现有技术相比,本发明具有以下有益效果:
1、本发明通过在模型的输出层的激活函数中添加自适应变化策略,针对模型窃取攻击需要获得模型输出分布,在不改变模型输出类标的前提下,最大程度模糊深度模型的输出分布,大大降低模型窃取攻击的水平,为了增强防御性能,当攻击者获取一定量的防御信息时也能保证本发明具有良好的防御性能。
2、本发明引入强化学习的奖励机制,对自适应变化策略不断调整,使得攻击者无法获取确切的防御信息。
3、本发明在不同的数据集上和模型上,均能达到良好的防御效果。
附图说明
图1为本发明方法的流程示意图;
图2为本发明实施例中窃取模型攻击的示意图;
图3为本发明实施例中基于强化学习奖励机制的激活函数自适应变化模型防御的示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1~3所示,一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法,步骤如下:
1)构建模型窃取攻击的目标模型
1.1)数据集预处理:
本发明中,使用图像数据集进行防御效果的验证,具体的数据集包括:MNIST数据集、Fashion-MNIST数据集、CIFAR-10数据集和Caltech-256数据集。
每个数据集包括训练集和测试集,其中MNIST数据集的训练集共十类,每类6000张样本,训练集十类,每类1000张样本;Fashion-MNIST数据集的训练集共十类,每类6000张样本,训练集十类,每类1000张样本;CIFAR-10数据集的训练集共十类,每类5000张样本,训练集十类,每类1000张样本;Caltech-256数据集共256类,每类样本的数量80~400张样本不等,从每类中随机抽取30%的图片作为测试集,其余图片作为训练集。
1.2)训练目标模型
对于MNIST数据集、Fashion-MNIST数据集,使用Alexnet模型结构进行训练;对于CIFAR-10数据集,使用VGG19模型结构进行训练;对于Caltech-256数据集,使用ImageNet预训练的ResNet-34模型结构,训练设置统一的超参数:采用随机梯度下降(SGD)、adam优化器、学习率为0.2、epoch数为200、批次大小为32。训练结束后将保存模型,作为模型窃取攻击的目标模型,统计每个数据集在测试集上的准确率,记为ACCtest
2)进行模型窃取攻击
2.1)构建模型窃取数据集(防御前)
本发明中使用的模型窃取攻击为Knockoff,使用的转移数据集是代理数据集,具体的代理数据集为:MNIST和Fashion-MNIST数据集使用的代理数据集是KMNIST,CIFAR-10数据集的代理数据集是CIFAR-100数据集,Caltech-256数据集的代理数据集是ImageNet数据集,分别将数据输入模型后得到输出的置信度向量,将对应的输入图片和置信度向量保存,作为窃取模型的训练集,记作SETStl
2.2)训练窃取模型
为了提高模型窃取的效果,窃取模型的模型结构选择与目标模型一致。使用2.1)中的窃取数据集作为训练样本,迭代训练次数为iternum,训练的epoch数为epochnum,使用交叉熵(categorical_crossentropy)损失函数作为窃取模型训练优化的损失函数,使用adam优化器进行优化,交叉熵损失函数的计算公式如下:
Figure BDA0003112637960000061
其中,Lossstl(x)为窃取模型的损失函数,N为输入的样本数量,y为目标模型的输出,y’为窃取模型的输出。训练完成后,使用1.2)中同样的测试集分别测试窃取模型的测试准确率,记作ACCstl
3)激活函数自适应变换
3.1)激活函数变换
在深度模型的训练过程中,经过最后的全连接层后会输出一个特征向量Z(x,i),其中,i=1,2,....C,C是模型训练的样本类别总数。输出的向量Z(x,i)表示的是输入的样本x在第i类的权重大小,也就是样本x被归为第i类的得分情况。为了将输出向量转化为概率P(P∈[0,1]),将向量Z(x,i)输入到softmax层,通过softmax层的激活函数,将向量Z(x,i)映射到[0,1]的概率区间,得到一个包含各类得分归一化后的概率向量Y(x,i),i=1,2,....C,C是样本类别总数,向量Y(x,i)表示输入的样本x被分类成第i类时的概率,概率值最大的一类即为模型分类结果,通常称该向量为置信度,公式如下:
Figure BDA0003112637960000062
为了减少输出置信度中的敏感信息,对softmax激活函数进行变换,在激活函数中添加自适应变换项系数,得到以下softmax函数的变形形式:
Figure BDA0003112637960000063
其中的ε为自适应变换项系数,利用强化学习的奖励机制,实现自适应优化变换。
3.2)强化学习的奖励机制
为了提高模型窃取防御的效果,针对攻击者对于防御策略具有先验知识的问题,利用强化学习的奖励机制,更新激活函数的自适应变化项系数。在深度学习模型训练过程保存当前的自适应变化项系数εt、自适应变换系数随机操作at(action)、奖励Rt(Reward)以及更新后的自适应变化项系数εt+1
4)模型窃取攻击的防御
4.1)构建模型窃取数据集(防御后)
重复2.1)的步骤,分别输入样本到目标模型中,输入模型后得到输出的置信度向量,此时的输出为添加自适应变换项系数的置信度向量,将对应的输入图片和置信度向量保存,作为窃取模型的训练集,记作SETdefence
4.2)训练窃取模型
重复2.2)步骤,使用4.1)中的窃取数据集(防御后)作为训练样本,训练完成后,使用1.2)中同样的测试集分别测试窃取模型的测试准确率,记作ACCdefence。ACCdefence作为模型窃取防御的衡量指标,ACCdefence越低,说明防御效果越好。
4.3)自适应变化项系数更新
ACCdefence作为强化学习的优化目标,设定ACCdefence的阈值为0.05。每一轮训练的ACCdefence记为当前的优化状态ACCdefence-t,下一轮的ACCdefence记为ACCdefence-t+1,当ACCdefence-t+1小于ACCdefence-t,奖励Rt加一,反之奖励Rt减一。同时对εt进行自适应变换系数随机操作at(action):
Figure BDA0003112637960000071
5)防御指标及效果
模型窃取攻击效果指标:
Figure BDA0003112637960000072
这个公式衡量的是模型窃取目标模型的效果和程度,本实验使用的攻击方法为Knockoff,其中MNIST数据集、Fashion-MNIST数据集和CIFAR-10数据集的Attackstl均在80%以上,在Caltech-256数据集上Attackstl为84%。
模型窃取防御效果指标:
Figure BDA0003112637960000081
这个公式通过模型窃取成功率的下降程度来表征防御的效果。
本发明的主要内容是针对目前出现的模型窃取攻击,提出了一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法,通过激活函数的自适应变换,在不影响模型类别判断的前提下,模糊模型输出的置信度分布,从而降低模型窃取攻击能力。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法,其特征在于,包括以下步骤:
(1)构建目标模型,所述目标模型的全连接层连接有softmax激活函数的变形形式,softmax激活函数中添加有自适应变换项系数ε;
(2)获取用于训练目标模型的图像数据集,分成训练集和测试集后对目标模型进行训练;
(3)获取与图像数据集对应的代理数据集,输入目标模型后得到添加自适应变换项系数的置信度向量,将对应的输入图片和置信度向量保存,作为窃取模型的训练集,记作SETdefence
(4)构建窃取模型并利用窃取模型的训练集SETdefence进行训练,所述窃取模型的模型结构与目标模型一致;每一轮训练后使用步骤(2)中的测试集测试窃取模型的测试准确率,记作ACCdefence
(5)以ACCdefence作为强化学习的优化目标,对目标模型和窃取模型进行迭代训练,每一轮训练的ACCdefence记为当前的优化状态ACCdefence-t,下一轮的ACCdefence记为ACCdefence-t+1,当ACCdefence-t+1小于ACCdefence-t,奖励Rt加一,反之奖励Rt减一;同时对当前的自适应变化项系数εt进行自适应变换系数随机操作at,公式为:
Figure FDA0003607272720000011
其中,εt+1表示更新后的自适应变化项系数;
(6)训练完成后,得到具有窃取防御功能的目标模型,并进行图像分类的应用。
2.根据权利要求1所述的基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法,其特征在于,步骤(1)中,所述的目标模型包括Alexnet模型、VGG19模型、ResNet-34模型。
3.根据权利要求1所述的基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法,其特征在于,步骤(1)中,所述softmax激活函数的变形形式具体为:
Figure FDA0003607272720000021
式中,ε为自适应变换项系数,利用强化学习的奖励机制,实现自适应优化变换;Z(x,i)为全连接层后输出的特征向量,表示的是输入的样本x在第i类的权重大小,i=1,2,....C,C是模型训练的样本类别总数。
4.根据权利要求1所述的基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法,其特征在于,步骤(4)中,使用交叉熵损失函数作为窃取模型训练优化的损失函数,使用adam优化器进行优化,交叉熵损失函数的计算公式如下:
Figure FDA0003607272720000022
其中Lossstl(x)为窃取模型的损失函数,N为输入的样本数量,y为目标模型的输出,y’为窃取模型的输出。
5.根据权利要求1所述的基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法,其特征在于,步骤(5)中,设定ACCdefence的阈值为0.05,当ACCdefence小于0.05时,结束训练。
CN202110653241.6A 2021-06-11 2021-06-11 基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法 Active CN113297574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110653241.6A CN113297574B (zh) 2021-06-11 2021-06-11 基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110653241.6A CN113297574B (zh) 2021-06-11 2021-06-11 基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法

Publications (2)

Publication Number Publication Date
CN113297574A CN113297574A (zh) 2021-08-24
CN113297574B true CN113297574B (zh) 2022-08-02

Family

ID=77327998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110653241.6A Active CN113297574B (zh) 2021-06-11 2021-06-11 基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法

Country Status (1)

Country Link
CN (1) CN113297574B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663840B (zh) * 2022-05-13 2022-08-23 浙江有色地球物理技术应用研究院有限公司 隧道环境的巡检设备监控方法及系统
CN116680727B (zh) * 2023-08-01 2023-11-03 北京航空航天大学 一种面向图像分类模型的功能窃取防御方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902715A (zh) * 2019-01-18 2019-06-18 南京理工大学 一种基于上下文聚合网络的红外弱小目标检测方法
CN112241554A (zh) * 2020-10-30 2021-01-19 浙江工业大学 基于差分隐私指数机制的模型窃取防御方法和装置
CN112334917A (zh) * 2018-12-31 2021-02-05 英特尔公司 对采用人工智能的系统进行防护
CN112738035A (zh) * 2020-12-17 2021-04-30 杭州趣链科技有限公司 一种基于区块链技术的垂直联邦下模型窃取防御方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112334917A (zh) * 2018-12-31 2021-02-05 英特尔公司 对采用人工智能的系统进行防护
CN109902715A (zh) * 2019-01-18 2019-06-18 南京理工大学 一种基于上下文聚合网络的红外弱小目标检测方法
CN112241554A (zh) * 2020-10-30 2021-01-19 浙江工业大学 基于差分隐私指数机制的模型窃取防御方法和装置
CN112738035A (zh) * 2020-12-17 2021-04-30 杭州趣链科技有限公司 一种基于区块链技术的垂直联邦下模型窃取防御方法

Also Published As

Publication number Publication date
CN113297574A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN109639710B (zh) 一种基于对抗训练的网络攻击防御方法
CN113297574B (zh) 基于强化学习奖励机制的激活函数自适应变化模型窃取防御方法
CN111209497B (zh) 基于GAN和Char-CNN的DGA域名检测方法
CN111460443A (zh) 一种联邦学习中数据操纵攻击的安全防御方法
CN111047006B (zh) 一种基于对偶式生成网络的对抗攻击防御模型及应用
CN112241554B (zh) 基于差分隐私指数机制的模型窃取防御方法和装置
CN110020711A (zh) 一种采用灰狼优化算法的大数据分析方法
CN111047054A (zh) 一种基于两阶段对抗知识迁移的对抗样例防御方法
Liu et al. Adversaries or allies? Privacy and deep learning in big data era
Ye et al. Detection defense against adversarial attacks with saliency map
CN114417427A (zh) 一种面向深度学习的数据敏感属性脱敏系统及方法
CN112597993A (zh) 基于补丁检测的对抗防御模型训练方法
CN117940936A (zh) 用于评估对抗鲁棒性的方法和装置
CN113111963A (zh) 一种黑盒攻击行人重识别系统的方法
CN115293235A (zh) 建立风险识别模型的方法及对应装置
CN117424754B (zh) 针对集群联邦学习攻击的防御方法、终端及存储介质
Li et al. Defensive few-shot learning
CN115510986A (zh) 一种基于AdvGAN的对抗样本生成方法
CN114973350B (zh) 一种源域数据无关的跨域人脸表情识别方法
CN115620100A (zh) 一种基于主动学习的神经网络黑盒攻击方法
CN115358283A (zh) 电磁信号孪生深度学习识别方法、装置、设备及存储介质
Zhou et al. Exploring the effect of randomness on transferability of adversarial samples against deep neural networks
CN112749759A (zh) 一种深度神经网络图对抗样本的预处理方法、系统及应用
CN113283537B (zh) 面向成员推理攻击的基于参数共享的深度模型隐私保护方法和装置
CN115546567B (zh) 一种无监督领域适应分类方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant