CN112085050A - 基于pid控制器的对抗性攻击与防御方法及系统 - Google Patents

基于pid控制器的对抗性攻击与防御方法及系统 Download PDF

Info

Publication number
CN112085050A
CN112085050A CN202010720974.2A CN202010720974A CN112085050A CN 112085050 A CN112085050 A CN 112085050A CN 202010720974 A CN202010720974 A CN 202010720974A CN 112085050 A CN112085050 A CN 112085050A
Authority
CN
China
Prior art keywords
machine learning
attack
learning model
loss function
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010720974.2A
Other languages
English (en)
Inventor
黄方军
万晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010720974.2A priority Critical patent/CN112085050A/zh
Publication of CN112085050A publication Critical patent/CN112085050A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明基于PID控制器的对抗性攻击与防御方法及系统,其方法包括步骤:S1、输入训练数据集和机器学习模型f;S2、根据输入的训练数据集训练机器学习模型f;S3、判断损失函数J是否收敛,若损失函数J不收敛,则采用基于PID控制器的对抗性攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型f进行训练,直至损失函数J收敛,得到训练好的机器学习模型f,若损失函数J收敛,则直接输出结果。本发明通过对抗攻击生成对抗样本的过程,能够在相同的扰动约束限制下,实现更高的攻击成功率,可用于评估机器学习模型的性能以及对抗防御方法的有效性;使用对抗攻击所产生的对抗样本对机器学习模型进行对抗训练可作为一种防御方法,以提升模型的鲁棒性。

Description

基于PID控制器的对抗性攻击与防御方法及系统
技术领域
本发明涉及人工智能机器学习方法的安全领域,具体为基于PID(ProportionalIntegral Derivative)控制器的对抗性攻击与防御方法及系统。
背景技术
机器学习是人工智能的核心,近年来机器学习得到了前所未有的发展,其应用遍及人工智能的各个领域。尤其在数据挖掘、计算机视觉、自然语言处理和无人驾驶等领域,机器学习的应用取得了巨大的成功。然而,现有的机器学习模型存在着易受对抗样本攻击的安全隐患,攻击者可以通过向原始输入数据中添加细微的扰动,生成对抗样本。附加细微扰动的对抗样本不会影响人类的判断,却会造成机器学习模型产生错误的预测。
在实际应用中,因基于梯度的对抗攻击算法具有较低的计算成本和较好的性能,大多数对抗攻击主要是由损失函数相对于输入数据的梯度所决定的。对抗攻击不仅能误导正常训练的机器学习模型,同时也能攻击各种防御模型。而从另一方面来讲,对于对抗攻击研究可以发现机器学习模型存在的缺陷,从而提升模型的鲁棒性。现有的对抗攻击与防御算法面临四个问题:第一个问题是由于基于梯度的对抗攻击需要知道网络模型的具体结构及参数,而对于黑盒模型的攻击主要依赖于生成对抗样本的迁移性,因而随着攻击者知道模型的结构信息和训练模型的数据源越来越少,攻击成功率也会随之下降;第二个问题是针对防御模型,现有的对抗攻击算法的攻击成功率有限;第三个问题是对于现有的防御方法,在实施对抗性训练的过程中采用对抗样本的迁移性有限,导致防御模型的鲁棒性较低;第四个问题是现有的技术也无法准确地评估出机器学习模型的鲁棒性以及对抗防御方法的有效性。
发明内容
为解决现有技术所存在的技术问题,本发明提供基于PID控制器的对抗性攻击与防御方法及系统,通过对抗攻击生成对抗样本的过程,能够保证在相同的扰动约束限制下,实现更高的攻击成功率,且可用于评估机器学习模型的性能以及对抗防御方法的有效性;使用基于PID控制器的对抗攻击所产生的对抗样本对机器学习模型进行对抗训练可以作为一种防御方法,以提升模型的鲁棒性。
本发明方法采用以下技术方案来实现:基于PID控制器的对抗性攻击与防御方法,包括以下步骤:
S1、输入训练数据集和机器学习模型f;
S2、根据输入的训练数据集训练机器学习模型f;
S3、判断损失函数J是否收敛,如果损失函数J不收敛,则采用基于PID控制器的对抗性攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型f进行训练,直至损失函数J收敛,得到训练好的机器学习模型f,如果损失函数J收敛,则直接输出结果。
在优选的实施例中,步骤S3中基于PID控制器的对抗性攻击生成对抗样本xadv的具体步骤如下:
S31、输入原始数据x、机器学习模型f和损失函数J;
S32、进行参数初始化;
S33、根据给定的迭代次数T开始循环;
S34、获取回调数据
Figure BDA0002599985410000021
S35、进行梯度计算;
S36、对未来梯度的趋势进行更新;
S37、进行扰动确定,确定每次迭代所添加的扰动;
S38、添加扰动;
S39、循环T次后结束循环,返回对抗样本xadv
本发明系统采用以下技术方案来实现:基于PID控制器的对抗性攻击与防御系统,包括:
数据信息输入模块,用于输入训练数据集和机器学习模型f;
训练模型模块,用于根据输入的训练数据集训练机器学习模型;
损失函数收敛判断模块,用于判断损失函数是否收敛,如果损失函数不收敛,则采用基于PID控制器的对抗攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型进行训练,直至损失函数收敛,得到训练好的机器学习模型,如果损失函数收敛,则直接输出结果;
PID对抗攻击生成对抗样本模块,先输入原始数据x、机器学习模型f和损失函数J,初始化参数,根据给定的迭代次数T开始循环,接着获取回调数据、计算梯度、更新未来梯度趋势、确定扰动、添加扰动,循环T次后结束循环,返回对抗样本xadv
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明采用了未来梯度变化的趋势优化扰动,使对抗性攻击的过程中产生的扰动达到最优,因此不仅能对白盒模型的攻击取得较高的成功率,并且对黑盒模型和防御模型都能实现较高的攻击成功率。
2、本发明使用了未来梯度的变化趋势,可以更好地确保生成的对抗样本具有较强的迁移性,其生成的对抗样本可以用来对机器学习模型进行对抗训练,以提升模型的鲁棒性,进而为人工智能领域的机器学习方法的安全领域提供更为优质的服务。
3、本发明基于PID控制器的对抗性攻击方法能达到较高的攻击成功率,可以用于使用该方法评估机器学习模型的性能以及对抗性防御方法的有效性。
附图说明
图1是本发明对抗攻击与防御方法流程图;
图2是本发明方法进行对抗防御的流程图;
图3是本发明方法进行对抗攻击的流程图;
图4是本发明方法攻击Inc-v3模型产生的对抗样本在不同微分系数kd情况下的黑盒攻击成功率曲线图;
图5是本发明方法攻击Inc-v3模型产生的对抗样本在不同迭代次数T情况下的黑盒攻击成功率曲线图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例基于P(比例)、I(积分)和D(微分)控制器进行对抗攻击和防御攻击,主要涉及如下技术:1)基于PID控制器的对抗攻击方法:通过将损失函数相对于输入数据的梯度划分成当前和过去的梯度信息,分别对应于PID控制器中的P控制器和I控制器,对D控制器采用当前和过去的梯度差值来进行计算;2)基于PID控制器的防御方法:采用基于PID控制器的对抗攻击方法生成的对抗样本对机器学习模型进行对抗训练成为一种防御方法,以提升模型的鲁棒性。
如图2所示,本实施例基于PID控制器的对抗性攻击与防御方法,具体步骤如下:
S1、输入训练数据集和机器学习模型f;
S2、根据输入的训练数据集训练机器学习模型f;
S3、判断损失函数J是否收敛,如果损失函数J不收敛,则采用基于PID控制器的对抗性攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型f进行训练,直至损失函数J收敛,得到训练好的机器学习模型f,如果损失函数J收敛,则直接输出结果。
具体来说,如图3所示,步骤S3中基于PID控制器的对抗性攻击生成对抗样本xadv的具体步骤如下:
S31、输入原始数据x、机器学习模型f和损失函数J;
S32、进行参数初始化,确定扰动约束范围ε,迭代次数T,衰减因子μ和微分系数kd,对抗样本的初始值
Figure BDA0002599985410000041
等于原始数据x,梯度变化趋势的初始值为0,初始扰动g0=0,每次迭代所添加的扰动a=ε/T;
S33、取初值t=0并开始进行迭代循环,参数t表示当前迭代次数并且有0≤t≤T-1;
S34、获取回调数据,即根据梯度变化趋势Dt对生成的对抗样本
Figure BDA0002599985410000042
进行回调,具体方式为:
Figure BDA0002599985410000043
S35、进行梯度计算,分别将对抗样本
Figure BDA0002599985410000044
和回调数据
Figure BDA0002599985410000045
代入机器学习模型f中,并计算其预测标签与真实标签y之间的损失函数J所对应的梯度
Figure BDA0002599985410000046
Figure BDA0002599985410000047
S36、对未来梯度的趋势进行更新,通过计算出来的梯度
Figure BDA0002599985410000048
Figure BDA0002599985410000049
更新未来梯度的趋势,未来梯度变化趋势相关公式表示如下:
Figure BDA00025999854100000410
S37、进行扰动确定,确定每次迭代所添加扰动的方向,具体相关公式表示如下:
Figure BDA00025999854100000411
其中,gt为当前扰动。
S38、添加扰动,以无穷范数的扰动约束为例,无目标对抗攻击中每次迭代所生成的对抗样本如下:
Figure BDA00025999854100000412
其中sign(·)为符号函数,α表示每次迭代过程中添加的扰动,
Figure BDA00025999854100000413
函数表示生成的对抗样本所添加的扰动限制在ε范围内;
S39、若t小于迭代次数T,则t=t+1,并转入步骤S34,否则直接输出对抗样本xadv,其中
Figure BDA00025999854100000414
即将循环T次后得到的对抗样本
Figure BDA00025999854100000415
作为最终得到的对抗样本xadv
基于相同的发明构思,本发明提出了与上述攻击与防御方法相应的攻击与防御系统,其包括:
数据信息输入模块,用于输入训练数据集和机器学习模型f;
训练模型模块,用于根据输入的训练数据集训练机器学习模型f;
损失函数收敛判断模块,用于判断损失函数J是否收敛,如果损失函数J不收敛,则采用基于PID控制器的对抗性攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型f进行训练,直至损失函数J收敛,得到训练好的机器学习模型f,如果损失函数J收敛,则直接输出结果。
PID对抗攻击生成对抗样本模块,先输入原始数据x、机器学习模型f和损失函数J,初始化参数,根据给定的迭代次数T开始循环,接着获取回调数据、计算梯度、更新未来梯度趋势、确定扰动、添加扰动,循环T次后结束循环,返回对抗样本xadv
如图4、5所示,在本实施例中,基于PID控制器的对抗性攻击与防御方法攻击Inc-v3模型产生的对抗样本xadv在不同微分系数kd和迭代次数T情况下攻击Inc-v4、Res-152和IncRes-v2模型的成功率的实验结果显示,在不同微分系数kd下,黑盒攻击成功率的变化情况不同,在kd=0.7时,对Inc-v4、Res-152和IncRes-v2模型的攻击成功率最高。随着迭代次数的增加,均有不错的黑盒攻击成功率,并且当迭代次数的增加时,黑盒攻击成功率趋于一种稳定状态,不会发生攻击成功率明显下降的情况。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.基于PID控制器的对抗性攻击与防御方法,其特征在于,包括以下步骤:
S1、输入训练数据集和机器学习模型f;
S2、根据输入的训练数据集训练机器学习模型f;
S3、判断损失函数J是否收敛,如果损失函数J不收敛,则采用基于PID控制器的对抗性攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型f进行训练,直至损失函数J收敛,得到训练好的机器学习模型f,如果损失函数J收敛,则直接输出结果。
2.根据权利要求1所述的对抗性攻击与防御方法,其特征在于,步骤S3中所述基于PID控制器的对抗性攻击生成对抗样本xadv包括以下步骤:
S31、输入原始数据x、机器学习模型f和损失函数J;
S32、进行参数初始化;
S33、根据给定的迭代次数T开始循环;
S34、获取回调数据
Figure FDA0002599985400000011
S35、进行梯度计算;
S36、对未来梯度的趋势进行更新;
S37、进行扰动确定,确定每次迭代所添加扰动的方向;
S38、添加扰动;
S39、循环T次后结束循环,返回对抗样本xadv
3.根据权利要求2所述的对抗性攻击与防御方法,其特征在于,所述初始化参数为:扰动约束范围ε,迭代次数T,衰减因子μ和微分系数kd,对抗样本的初始值
Figure FDA0002599985400000012
等于原始数据x,梯度变化趋势的初始值为0,初始扰动g0=0,每次迭代所添加的扰动a=ε/T。
4.根据权利要求2所述的对抗性攻击与防御方法,其特征在于,所述回调数据的获取是根据梯度变化趋势Dt对生成的对抗样本
Figure FDA0002599985400000013
进行回调,具体方式为:
Figure FDA0002599985400000014
5.根据权利要求2所述的对抗性攻击与防御方法,其特征在于,所述梯度计算为分别将对抗样本
Figure FDA0002599985400000015
和回调数据
Figure FDA0002599985400000016
代入机器学习模型f中,并计算其预测标签与真实标签y之间的损失函数J所对应的梯度
Figure FDA0002599985400000017
Figure FDA0002599985400000018
6.根据权利要求3所述的对抗性攻击与防御方法,其特征在于,通过计算出来的梯度
Figure FDA0002599985400000019
Figure FDA00025999854000000110
更新未来梯度的趋势,未来梯度变化趋势相关公式表示如下:
Figure FDA00025999854000000111
7.根据权利要求2所述的对抗性攻击与防御方法,其特征在于,进行扰动确定,确定每次迭代所添加扰动的方向时,具体相关公式表示如下:
Figure FDA0002599985400000021
其中,gt为当前扰动。
8.根据权利要求3所述的对抗性攻击与防御方法,其特征在于,步骤S38中添加扰动时,采用无穷范数的扰动约束,无目标对抗攻击中每次迭代所生成的对抗样本如下:
Figure FDA0002599985400000022
其中sign(·)为符号函数,α表示每次迭代过程中添加的扰动,
Figure FDA0002599985400000023
函数表示生成的对抗样本添加的扰动限制在ε范围内。
9.基于PID控制器的对抗性攻击与防御系统,其特征在于,包括:
数据信息输入模块,用于输入训练数据集和机器学习模型f;
训练模型模块,用于根据输入的训练数据集训练机器学习模型f;
损失函数收敛判断模块,用于判断损失函数J是否收敛,如果损失函数J不收敛,则采用基于PID控制器的对抗性攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型f进行训练,直至损失函数J收敛,得到训练好的机器学习模型f,如果损失函数J收敛,则直接输出结果;
PID对抗攻击生成对抗样本模块,先输入原始数据x、机器学习模型f和损失函数J,初始化参数,根据给定的迭代次数T开始循环,接着获取回调数据
Figure FDA0002599985400000024
计算梯度、更新未来梯度趋势、确定扰动、添加扰动,循环T次后结束循环,返回对抗样本xadv
10.根据权利要求9所述的对抗性攻击与防御系统,其特征在于,所述未来梯度的趋势是通过计算当前和过去梯度之间的差值来进行更新的。
CN202010720974.2A 2020-07-24 2020-07-24 基于pid控制器的对抗性攻击与防御方法及系统 Pending CN112085050A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010720974.2A CN112085050A (zh) 2020-07-24 2020-07-24 基于pid控制器的对抗性攻击与防御方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010720974.2A CN112085050A (zh) 2020-07-24 2020-07-24 基于pid控制器的对抗性攻击与防御方法及系统

Publications (1)

Publication Number Publication Date
CN112085050A true CN112085050A (zh) 2020-12-15

Family

ID=73735817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010720974.2A Pending CN112085050A (zh) 2020-07-24 2020-07-24 基于pid控制器的对抗性攻击与防御方法及系统

Country Status (1)

Country Link
CN (1) CN112085050A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329929A (zh) * 2021-01-04 2021-02-05 北京智源人工智能研究院 基于代理模型的对抗样本生成方法和装置
CN112784984A (zh) * 2021-01-29 2021-05-11 联想(北京)有限公司 一种模型训练方法及装置
CN113505855A (zh) * 2021-07-30 2021-10-15 中国科学院计算技术研究所 一种对抗攻击模型的训练方法
CN115631085A (zh) * 2022-12-19 2023-01-20 浙江君同智能科技有限责任公司 一种用于图像保护的主动防御方法及装置
CN117669651A (zh) * 2024-01-31 2024-03-08 山东省计算中心(国家超级计算济南中心) 基于arma模型的对抗样本黑盒攻击防御方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329929A (zh) * 2021-01-04 2021-02-05 北京智源人工智能研究院 基于代理模型的对抗样本生成方法和装置
CN112784984A (zh) * 2021-01-29 2021-05-11 联想(北京)有限公司 一种模型训练方法及装置
CN113505855A (zh) * 2021-07-30 2021-10-15 中国科学院计算技术研究所 一种对抗攻击模型的训练方法
CN115631085A (zh) * 2022-12-19 2023-01-20 浙江君同智能科技有限责任公司 一种用于图像保护的主动防御方法及装置
CN115631085B (zh) * 2022-12-19 2023-04-11 浙江君同智能科技有限责任公司 一种用于图像保护的主动防御方法及装置
CN117669651A (zh) * 2024-01-31 2024-03-08 山东省计算中心(国家超级计算济南中心) 基于arma模型的对抗样本黑盒攻击防御方法及系统
CN117669651B (zh) * 2024-01-31 2024-05-14 山东省计算中心(国家超级计算济南中心) 基于arma模型的对抗样本黑盒攻击防御方法及系统

Similar Documents

Publication Publication Date Title
CN112085050A (zh) 基于pid控制器的对抗性攻击与防御方法及系统
CN112364885B (zh) 一种基于深度神经网络模型可解释性的对抗样本防御方法
CN109639710B (zh) 一种基于对抗训练的网络攻击防御方法
CN113408743A (zh) 联邦模型的生成方法、装置、电子设备和存储介质
CN109375514B (zh) 一种存在假数据注入攻击时的最优跟踪控制器设计方法
CN113033822A (zh) 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统
CN111598210B (zh) 面向基于人工免疫算法对抗攻击的对抗防御方法
CN112200243B (zh) 一种基于低问询图像数据的黑盒对抗样本生成方法
CN112580728B (zh) 一种基于强化学习的动态链路预测模型鲁棒性增强方法
CN111507384B (zh) 一种黑盒深度模型对抗样本生成方法
CN113704758B (zh) 一种黑盒攻击对抗样本生成方法及系统
CN111967006A (zh) 基于神经网络模型的自适应黑盒对抗攻击方法
CN114240951B (zh) 一种基于查询的医学图像分割神经网络的黑盒攻击方法
CN113935396A (zh) 基于流形理论的对抗样本攻击方法及相关装置
CN114708479B (zh) 一种基于图结构和特征的自适应防御方法
CN111311324B (zh) 基于稳定神经协同过滤的用户-商品偏好预测系统和方法
CN114387449A (zh) 一种应对神经网络对抗性攻击的图像处理方法及系统
CN115063652A (zh) 一种基于元学习的黑盒攻击方法、终端设备及存储介质
CN113935496A (zh) 一种面向集成模型的鲁棒性提升防御方法
Li et al. Robust moving target defense against unknown attacks: A meta-reinforcement learning approach
CN113822443A (zh) 一种对抗攻击和生成对抗样本的方法
CN116824232A (zh) 一种数据填充式的深度神经网络图像分类模型对抗训练方法
CN115510986A (zh) 一种基于AdvGAN的对抗样本生成方法
CN114444690B (zh) 一种基于任务扩增的迁移攻击方法
CN114039867B (zh) 一种隐蔽式攻击下网络化控制系统状态与故障的联合区间估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201215

RJ01 Rejection of invention patent application after publication