CN112085050A - 基于pid控制器的对抗性攻击与防御方法及系统 - Google Patents
基于pid控制器的对抗性攻击与防御方法及系统 Download PDFInfo
- Publication number
- CN112085050A CN112085050A CN202010720974.2A CN202010720974A CN112085050A CN 112085050 A CN112085050 A CN 112085050A CN 202010720974 A CN202010720974 A CN 202010720974A CN 112085050 A CN112085050 A CN 112085050A
- Authority
- CN
- China
- Prior art keywords
- machine learning
- attack
- learning model
- loss function
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000007123 defense Effects 0.000 title claims abstract description 37
- 230000003042 antagnostic effect Effects 0.000 title claims abstract description 18
- 238000010801 machine learning Methods 0.000 claims abstract description 52
- 230000006870 function Effects 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 6
- 230000008859 change Effects 0.000 claims description 6
- 230000008485 antagonism Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Feedback Control In General (AREA)
Abstract
本发明基于PID控制器的对抗性攻击与防御方法及系统,其方法包括步骤:S1、输入训练数据集和机器学习模型f;S2、根据输入的训练数据集训练机器学习模型f;S3、判断损失函数J是否收敛,若损失函数J不收敛,则采用基于PID控制器的对抗性攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型f进行训练,直至损失函数J收敛,得到训练好的机器学习模型f,若损失函数J收敛,则直接输出结果。本发明通过对抗攻击生成对抗样本的过程,能够在相同的扰动约束限制下,实现更高的攻击成功率,可用于评估机器学习模型的性能以及对抗防御方法的有效性;使用对抗攻击所产生的对抗样本对机器学习模型进行对抗训练可作为一种防御方法,以提升模型的鲁棒性。
Description
技术领域
本发明涉及人工智能机器学习方法的安全领域,具体为基于PID(ProportionalIntegral Derivative)控制器的对抗性攻击与防御方法及系统。
背景技术
机器学习是人工智能的核心,近年来机器学习得到了前所未有的发展,其应用遍及人工智能的各个领域。尤其在数据挖掘、计算机视觉、自然语言处理和无人驾驶等领域,机器学习的应用取得了巨大的成功。然而,现有的机器学习模型存在着易受对抗样本攻击的安全隐患,攻击者可以通过向原始输入数据中添加细微的扰动,生成对抗样本。附加细微扰动的对抗样本不会影响人类的判断,却会造成机器学习模型产生错误的预测。
在实际应用中,因基于梯度的对抗攻击算法具有较低的计算成本和较好的性能,大多数对抗攻击主要是由损失函数相对于输入数据的梯度所决定的。对抗攻击不仅能误导正常训练的机器学习模型,同时也能攻击各种防御模型。而从另一方面来讲,对于对抗攻击研究可以发现机器学习模型存在的缺陷,从而提升模型的鲁棒性。现有的对抗攻击与防御算法面临四个问题:第一个问题是由于基于梯度的对抗攻击需要知道网络模型的具体结构及参数,而对于黑盒模型的攻击主要依赖于生成对抗样本的迁移性,因而随着攻击者知道模型的结构信息和训练模型的数据源越来越少,攻击成功率也会随之下降;第二个问题是针对防御模型,现有的对抗攻击算法的攻击成功率有限;第三个问题是对于现有的防御方法,在实施对抗性训练的过程中采用对抗样本的迁移性有限,导致防御模型的鲁棒性较低;第四个问题是现有的技术也无法准确地评估出机器学习模型的鲁棒性以及对抗防御方法的有效性。
发明内容
为解决现有技术所存在的技术问题,本发明提供基于PID控制器的对抗性攻击与防御方法及系统,通过对抗攻击生成对抗样本的过程,能够保证在相同的扰动约束限制下,实现更高的攻击成功率,且可用于评估机器学习模型的性能以及对抗防御方法的有效性;使用基于PID控制器的对抗攻击所产生的对抗样本对机器学习模型进行对抗训练可以作为一种防御方法,以提升模型的鲁棒性。
本发明方法采用以下技术方案来实现:基于PID控制器的对抗性攻击与防御方法,包括以下步骤:
S1、输入训练数据集和机器学习模型f;
S2、根据输入的训练数据集训练机器学习模型f;
S3、判断损失函数J是否收敛,如果损失函数J不收敛,则采用基于PID控制器的对抗性攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型f进行训练,直至损失函数J收敛,得到训练好的机器学习模型f,如果损失函数J收敛,则直接输出结果。
在优选的实施例中,步骤S3中基于PID控制器的对抗性攻击生成对抗样本xadv的具体步骤如下:
S31、输入原始数据x、机器学习模型f和损失函数J;
S32、进行参数初始化;
S33、根据给定的迭代次数T开始循环;
S35、进行梯度计算;
S36、对未来梯度的趋势进行更新;
S37、进行扰动确定,确定每次迭代所添加的扰动;
S38、添加扰动;
S39、循环T次后结束循环,返回对抗样本xadv。
本发明系统采用以下技术方案来实现:基于PID控制器的对抗性攻击与防御系统,包括:
数据信息输入模块,用于输入训练数据集和机器学习模型f;
训练模型模块,用于根据输入的训练数据集训练机器学习模型;
损失函数收敛判断模块,用于判断损失函数是否收敛,如果损失函数不收敛,则采用基于PID控制器的对抗攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型进行训练,直至损失函数收敛,得到训练好的机器学习模型,如果损失函数收敛,则直接输出结果;
PID对抗攻击生成对抗样本模块,先输入原始数据x、机器学习模型f和损失函数J,初始化参数,根据给定的迭代次数T开始循环,接着获取回调数据、计算梯度、更新未来梯度趋势、确定扰动、添加扰动,循环T次后结束循环,返回对抗样本xadv。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明采用了未来梯度变化的趋势优化扰动,使对抗性攻击的过程中产生的扰动达到最优,因此不仅能对白盒模型的攻击取得较高的成功率,并且对黑盒模型和防御模型都能实现较高的攻击成功率。
2、本发明使用了未来梯度的变化趋势,可以更好地确保生成的对抗样本具有较强的迁移性,其生成的对抗样本可以用来对机器学习模型进行对抗训练,以提升模型的鲁棒性,进而为人工智能领域的机器学习方法的安全领域提供更为优质的服务。
3、本发明基于PID控制器的对抗性攻击方法能达到较高的攻击成功率,可以用于使用该方法评估机器学习模型的性能以及对抗性防御方法的有效性。
附图说明
图1是本发明对抗攻击与防御方法流程图;
图2是本发明方法进行对抗防御的流程图;
图3是本发明方法进行对抗攻击的流程图;
图4是本发明方法攻击Inc-v3模型产生的对抗样本在不同微分系数kd情况下的黑盒攻击成功率曲线图;
图5是本发明方法攻击Inc-v3模型产生的对抗样本在不同迭代次数T情况下的黑盒攻击成功率曲线图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例基于P(比例)、I(积分)和D(微分)控制器进行对抗攻击和防御攻击,主要涉及如下技术:1)基于PID控制器的对抗攻击方法:通过将损失函数相对于输入数据的梯度划分成当前和过去的梯度信息,分别对应于PID控制器中的P控制器和I控制器,对D控制器采用当前和过去的梯度差值来进行计算;2)基于PID控制器的防御方法:采用基于PID控制器的对抗攻击方法生成的对抗样本对机器学习模型进行对抗训练成为一种防御方法,以提升模型的鲁棒性。
如图2所示,本实施例基于PID控制器的对抗性攻击与防御方法,具体步骤如下:
S1、输入训练数据集和机器学习模型f;
S2、根据输入的训练数据集训练机器学习模型f;
S3、判断损失函数J是否收敛,如果损失函数J不收敛,则采用基于PID控制器的对抗性攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型f进行训练,直至损失函数J收敛,得到训练好的机器学习模型f,如果损失函数J收敛,则直接输出结果。
具体来说,如图3所示,步骤S3中基于PID控制器的对抗性攻击生成对抗样本xadv的具体步骤如下:
S31、输入原始数据x、机器学习模型f和损失函数J;
S33、取初值t=0并开始进行迭代循环,参数t表示当前迭代次数并且有0≤t≤T-1;
S37、进行扰动确定,确定每次迭代所添加扰动的方向,具体相关公式表示如下:
其中,gt为当前扰动。
S38、添加扰动,以无穷范数的扰动约束为例,无目标对抗攻击中每次迭代所生成的对抗样本如下:
基于相同的发明构思,本发明提出了与上述攻击与防御方法相应的攻击与防御系统,其包括:
数据信息输入模块,用于输入训练数据集和机器学习模型f;
训练模型模块,用于根据输入的训练数据集训练机器学习模型f;
损失函数收敛判断模块,用于判断损失函数J是否收敛,如果损失函数J不收敛,则采用基于PID控制器的对抗性攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型f进行训练,直至损失函数J收敛,得到训练好的机器学习模型f,如果损失函数J收敛,则直接输出结果。
PID对抗攻击生成对抗样本模块,先输入原始数据x、机器学习模型f和损失函数J,初始化参数,根据给定的迭代次数T开始循环,接着获取回调数据、计算梯度、更新未来梯度趋势、确定扰动、添加扰动,循环T次后结束循环,返回对抗样本xadv。
如图4、5所示,在本实施例中,基于PID控制器的对抗性攻击与防御方法攻击Inc-v3模型产生的对抗样本xadv在不同微分系数kd和迭代次数T情况下攻击Inc-v4、Res-152和IncRes-v2模型的成功率的实验结果显示,在不同微分系数kd下,黑盒攻击成功率的变化情况不同,在kd=0.7时,对Inc-v4、Res-152和IncRes-v2模型的攻击成功率最高。随着迭代次数的增加,均有不错的黑盒攻击成功率,并且当迭代次数的增加时,黑盒攻击成功率趋于一种稳定状态,不会发生攻击成功率明显下降的情况。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.基于PID控制器的对抗性攻击与防御方法,其特征在于,包括以下步骤:
S1、输入训练数据集和机器学习模型f;
S2、根据输入的训练数据集训练机器学习模型f;
S3、判断损失函数J是否收敛,如果损失函数J不收敛,则采用基于PID控制器的对抗性攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型f进行训练,直至损失函数J收敛,得到训练好的机器学习模型f,如果损失函数J收敛,则直接输出结果。
9.基于PID控制器的对抗性攻击与防御系统,其特征在于,包括:
数据信息输入模块,用于输入训练数据集和机器学习模型f;
训练模型模块,用于根据输入的训练数据集训练机器学习模型f;
损失函数收敛判断模块,用于判断损失函数J是否收敛,如果损失函数J不收敛,则采用基于PID控制器的对抗性攻击生成对抗样本xadv和原始数据x作为训练数据集对机器学习模型f进行训练,直至损失函数J收敛,得到训练好的机器学习模型f,如果损失函数J收敛,则直接输出结果;
10.根据权利要求9所述的对抗性攻击与防御系统,其特征在于,所述未来梯度的趋势是通过计算当前和过去梯度之间的差值来进行更新的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010720974.2A CN112085050A (zh) | 2020-07-24 | 2020-07-24 | 基于pid控制器的对抗性攻击与防御方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010720974.2A CN112085050A (zh) | 2020-07-24 | 2020-07-24 | 基于pid控制器的对抗性攻击与防御方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112085050A true CN112085050A (zh) | 2020-12-15 |
Family
ID=73735817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010720974.2A Pending CN112085050A (zh) | 2020-07-24 | 2020-07-24 | 基于pid控制器的对抗性攻击与防御方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085050A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329929A (zh) * | 2021-01-04 | 2021-02-05 | 北京智源人工智能研究院 | 基于代理模型的对抗样本生成方法和装置 |
CN112784984A (zh) * | 2021-01-29 | 2021-05-11 | 联想(北京)有限公司 | 一种模型训练方法及装置 |
CN113505855A (zh) * | 2021-07-30 | 2021-10-15 | 中国科学院计算技术研究所 | 一种对抗攻击模型的训练方法 |
CN115631085A (zh) * | 2022-12-19 | 2023-01-20 | 浙江君同智能科技有限责任公司 | 一种用于图像保护的主动防御方法及装置 |
CN117669651A (zh) * | 2024-01-31 | 2024-03-08 | 山东省计算中心(国家超级计算济南中心) | 基于arma模型的对抗样本黑盒攻击防御方法及系统 |
-
2020
- 2020-07-24 CN CN202010720974.2A patent/CN112085050A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329929A (zh) * | 2021-01-04 | 2021-02-05 | 北京智源人工智能研究院 | 基于代理模型的对抗样本生成方法和装置 |
CN112784984A (zh) * | 2021-01-29 | 2021-05-11 | 联想(北京)有限公司 | 一种模型训练方法及装置 |
CN113505855A (zh) * | 2021-07-30 | 2021-10-15 | 中国科学院计算技术研究所 | 一种对抗攻击模型的训练方法 |
CN115631085A (zh) * | 2022-12-19 | 2023-01-20 | 浙江君同智能科技有限责任公司 | 一种用于图像保护的主动防御方法及装置 |
CN115631085B (zh) * | 2022-12-19 | 2023-04-11 | 浙江君同智能科技有限责任公司 | 一种用于图像保护的主动防御方法及装置 |
CN117669651A (zh) * | 2024-01-31 | 2024-03-08 | 山东省计算中心(国家超级计算济南中心) | 基于arma模型的对抗样本黑盒攻击防御方法及系统 |
CN117669651B (zh) * | 2024-01-31 | 2024-05-14 | 山东省计算中心(国家超级计算济南中心) | 基于arma模型的对抗样本黑盒攻击防御方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112085050A (zh) | 基于pid控制器的对抗性攻击与防御方法及系统 | |
CN112364885B (zh) | 一种基于深度神经网络模型可解释性的对抗样本防御方法 | |
CN109639710B (zh) | 一种基于对抗训练的网络攻击防御方法 | |
CN113408743A (zh) | 联邦模型的生成方法、装置、电子设备和存储介质 | |
CN109375514B (zh) | 一种存在假数据注入攻击时的最优跟踪控制器设计方法 | |
CN113033822A (zh) | 基于预测校正和随机步长优化的对抗性攻击与防御方法及系统 | |
CN111598210B (zh) | 面向基于人工免疫算法对抗攻击的对抗防御方法 | |
CN112200243B (zh) | 一种基于低问询图像数据的黑盒对抗样本生成方法 | |
CN112580728B (zh) | 一种基于强化学习的动态链路预测模型鲁棒性增强方法 | |
CN111507384B (zh) | 一种黑盒深度模型对抗样本生成方法 | |
CN113704758B (zh) | 一种黑盒攻击对抗样本生成方法及系统 | |
CN111967006A (zh) | 基于神经网络模型的自适应黑盒对抗攻击方法 | |
CN114240951B (zh) | 一种基于查询的医学图像分割神经网络的黑盒攻击方法 | |
CN113935396A (zh) | 基于流形理论的对抗样本攻击方法及相关装置 | |
CN114708479B (zh) | 一种基于图结构和特征的自适应防御方法 | |
CN111311324B (zh) | 基于稳定神经协同过滤的用户-商品偏好预测系统和方法 | |
CN114387449A (zh) | 一种应对神经网络对抗性攻击的图像处理方法及系统 | |
CN115063652A (zh) | 一种基于元学习的黑盒攻击方法、终端设备及存储介质 | |
CN113935496A (zh) | 一种面向集成模型的鲁棒性提升防御方法 | |
Li et al. | Robust moving target defense against unknown attacks: A meta-reinforcement learning approach | |
CN113822443A (zh) | 一种对抗攻击和生成对抗样本的方法 | |
CN116824232A (zh) | 一种数据填充式的深度神经网络图像分类模型对抗训练方法 | |
CN115510986A (zh) | 一种基于AdvGAN的对抗样本生成方法 | |
CN114444690B (zh) | 一种基于任务扩增的迁移攻击方法 | |
CN114039867B (zh) | 一种隐蔽式攻击下网络化控制系统状态与故障的联合区间估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201215 |
|
RJ01 | Rejection of invention patent application after publication |