CN108932527A - 使用交叉训练模型检测对抗样本的方法 - Google Patents

使用交叉训练模型检测对抗样本的方法 Download PDF

Info

Publication number
CN108932527A
CN108932527A CN201810587300.2A CN201810587300A CN108932527A CN 108932527 A CN108932527 A CN 108932527A CN 201810587300 A CN201810587300 A CN 201810587300A CN 108932527 A CN108932527 A CN 108932527A
Authority
CN
China
Prior art keywords
sample
training
model
resisting
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810587300.2A
Other languages
English (en)
Inventor
易平
胡嘉尚
张�浩
倪洁
何芷珊
胡又佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201810587300.2A priority Critical patent/CN108932527A/zh
Publication of CN108932527A publication Critical patent/CN108932527A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

一种使用交叉训练模型检测对抗样本的方法,首先通过普通样本分别训练两个待优化模型,然后混合生成训练样本集并交叉训练若干次,完成训练后得到的两个模型分别用于对样本进行分类,根据分类结果的是否相同判断该样本是否为对抗样本;本发明能够显著减小系统受到对抗样本攻击的风险,能够广泛应用于基于分类器的机器学习模型,如语音识别、图像分类等多个领域,提高对抗样本检测率。用于人工智能API,可以对输入样本进行过滤,对人工智能的安全性有明显提升。

Description

使用交叉训练模型检测对抗样本的方法
技术领域
本发明涉及的是一种人工智能领域的技术,具体是一种针对对抗样本攻击的基于交叉训练的对抗样本检测方法。
背景技术
随着人工智能和深度学习的快速发展,机器学习本身的安全问题也不断涌现。攻击者在样本上加上精心构造的扰动,产生对抗样本,能导致机器识别出错误的结果,造成严重后果。如果将对抗样本作为训练数据的一部分,则可以增强鲁棒性,但还是不能抵抗不了强大的攻击方法,于是目前很多研究集中在对抗样本的鉴别上,希望通过独立于攻击方式的检测方法来抵御对抗性攻击。
发明内容
本发明提出一种使用交叉训练模型检测对抗样本的方法,通过优化训练数据集和训练过程,显著提高模型的鲁棒性。这样,一般的对抗样本无法使得模型产生误分类,而更强大的对抗样本以高概率导致两个模型分类不同,所以会被检测出来。这样一来,可以减小系统受到对抗样本攻击的风险。本发明针对人工智能对抗攻击,能够广泛应用于基于分类器的机器学习模型,如语音识别、图像分类等多个领域,提高对抗样本检测率。用于人工智能API,可以对输入样本进行过滤,对人工智能的安全性有明显提升。
本发明是通过以下技术方案实现的:
本发明首先通过普通样本分别训练两个待优化模型,然后混合生成训练样本集并交叉训练若干次,完成训练后得到的两个模型分别用于对样本进行分类,根据分类结果的是否相同判断该样本是否为对抗样本。
所述的训练样本集包括:正常样本、模型自身的对抗样本以及来自其他模型的对抗样本,其中正常样本、模型自身的对抗样本和另一个模型的对抗样本按1:2:1的比例混合。
所述的交叉训练是指:每轮训练中分别以训练样本集训练两个待优化模型,并根据每轮各自产生对抗样本对训练样本集进行更新,供下一轮交叉训练使用。
所述的两个模型分别为卷积神经网络以及全连接深度学习网络。
所述的对抗样本生成方法包括:快速梯度下降法(FGSM)、多重迭代的快速梯度下降算法(iter_FGSM)、基于优化的对抗样本距离计算方法(C&W)。
所述的交叉训练采用的损失函数为基于距离的损失函数:
其中:Xi是正常样本,是模型自身的对抗样本,是另一个模型的对抗样本,yi是样本的正确分类标签,L(Xi|yi)是输入Xi且标签为yi时的损失值,和Ei分别是向模型中输入和Xi时输出的预测值(未经过argmax),和Ei的距离,k和γ是常数。
技术效果
与现有技术相比,本发明的特点在于用交叉训练的方式,训练两个模型,训练样本的丰富性以及训练过程的多轮迭代,增强了两个模型抵御对抗性攻击的鲁棒性。而且本发明采用的鉴别方法不是主流的基于样本周围样本的分布来鉴别,而是用两个模型分别分类,并通过分类结果的异同而鉴别。交叉训练的两个高鲁棒性模型,可以抵抗多数对抗样本,而通过两个模型分类结果的异同,以基于分类结果的方法检测,极大提高了检测正确性。
附图说明
图1为本发明总体结构示意图;
图2为交叉训练过程的流程图;
图3为对抗样本鉴别过程的流程图;
图4为实施例中模型A的神经网络结构,即卷积神经网络(CNN)示意图;
图5为实施例中模型B的神经网络结构,即全连接深度神经网络(DNN)示意图。
具体实施方式
如图1所示,为本实施例涉及的一种实现基于交叉训练的对抗样本检测方法的系统,,包括:依次级联的预处理模块、交叉训练模块和对抗样本鉴别模块,其中:预处理模块采用普通样本对模型进行训练并分别得到两个模型的模型参数,交叉训练模块将正常样本、两个模型之一的对抗样本、另一模型的对抗样本作为该模型的训练样本集训练两个模型,并各自产生对抗样本后迭代地进行交叉训练直至得到鉴别模型,对抗样本鉴别模块分别用两个鉴别模型对待鉴别样本进行分类,根据分类结果的是否相同判断该样本是否为对抗样本。
本实施例中交叉训练采用的损失函数为:
其中:Xi是正常样本,是模型自身的对抗样本,是另一个模型的对抗样本,yi是样本的正确分类标签,L(Xi|yi)是输入Xi且标签为yi时的损失值,和Ei分别是向模型中输入和Xi时输出的预测值(未经过argmax),和Ei的距离,k和γ是常数,本实施例中选取k=0.5,γ=0.7。
如图4所示,本实施例中所采用的模型A为使用卷积层的卷积神经网络(CNN),包括:三层卷积层和一层全连接层。
如图5所示,本实施例中所采用的模型B为使用全连接的深度学习网络(DNN),包括:四层全连接层(Dense)和三层Dropout层。
如图2和图3所示,本实施例涉及上述系统的针对对抗样本攻击的交叉训练方法,包括以下步骤:
a)用普通样本训练模型A和模型B,其中模型A的神经网络结构如图4所示,模型B的神经网络结构如图5所示。
b)对模型A生成对抗样本对模型B生成对抗样本普通样本为Xclean
c)将Xclean以1:2:1的比例用于模型A的训练,将Xclean以1:2:1的比例用于模型B的训练。
d)重复步骤b)和步骤c),直至模型对对抗样本的准确率达到97%以上
e)将模型A和B用于对抗样本的鉴别,即通过交叉训练后的模型A和模型B分别对测试样本T进行样本分类,仅当两者分类结果相同时才视T为正常样本。
用现有的对抗样本检测技术在MNIST和CIFAR数据集上进行测试后,效果分别如下:
a)MNIST:
I.核密度法(Kernel Density):95.7%
II.k-平均距离(k-mean distance):93.0%
III.LID(局部内在维度):96.8%
IV.基于交叉训练的对抗样本检测方法(本方法):99.2%
b)CIFAR:
I.核密度法(Kernel Density):83.5%
II.k-平均距离(k-mean distance):80.7%
III.LID(局部内在维度):91.1%
IV.基于交叉训练的对抗样本检测方法(本方法):95.1%
可以看出,在比较简单的MNIST数据集上,几种方法的对抗样本检测率都比较高,而本方法的检测率更是高达99.2。而在CIFAR数据集上,本方法则表现出明显的优势。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (8)

1.一种使用交叉训练模型检测对抗样本的方法,其特征在于,首先通过普通样本分别训练两个待优化模型,然后混合生成训练样本集并交叉训练若干次,完成训练后得到的两个模型分别用于对样本进行分类,根据分类结果的是否相同判断该样本是否为对抗样本;
所述的训练样本集包括:正常样本、模型自身的对抗样本以及来自其他模型的对抗样本。
2.根据权利要求1所述的方法,其特征是,所述的混合生成是指:正常样本、模型自身的对抗样本和另一个模型的对抗样本按1:2:1的比例混合。
3.根据权利要求1所述的方法,其特征是,所述的交叉训练是指:每轮训练中分别以训练样本集训练两个待优化模型,并根据每轮各自产生对抗样本对训练样本集进行更新,供下一轮交叉训练使用。
4.根据权利要求1所述的方法,其特征是,所述的两个模型分别为卷积神经网络以及全连接深度学习网络。
5.根据权利要求1或4所述的方法,其特征是,所述的两个模型中模型A为包括:三层卷积层和一层全连接层的卷积神经网络;模型B为包括:四层全连接层和三层Dropout层的深度学习网络。
6.根据权利要求1所述的方法,其特征是,所述的对抗样本生成方法包括:快速梯度下降法、多重迭代的快速梯度下降算法、基于优化的对抗样本距离计算方法。
7.根据权利要求1所述的方法,其特征是,所述的交叉训练采用的损失函数为基于距离的损失函数: 其中:Xi是正常样本,是模型自身的对抗样本,是另一个模型的对抗样本,yi是样本的正确分类标签,L(Xi|yi)是输入Xi且标签为yi时的损失值,和Ei分别是向模型中输入和Xi时输出的预测值(未经过argmax),和Ei的距离,k和γ是常数。
8.一种实现上述任一权利要求所述检测方法的系统,其特征在于,包括:依次级联的预处理模块、交叉训练模块和对抗样本鉴别模块,其中:预处理模块采用普通样本对模型进行训练并分别得到两个模型的模型参数,交叉训练模块将正常样本、两个模型之一的对抗样本、另一模型的对抗样本作为该模型的训练样本集训练两个模型,并各自产生对抗样本后迭代地进行交叉训练直至得到鉴别模型,对抗样本鉴别模块分别用两个鉴别模型对待鉴别样本进行分类,根据分类结果的是否相同判断该样本是否为对抗样本。
CN201810587300.2A 2018-06-06 2018-06-06 使用交叉训练模型检测对抗样本的方法 Pending CN108932527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810587300.2A CN108932527A (zh) 2018-06-06 2018-06-06 使用交叉训练模型检测对抗样本的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810587300.2A CN108932527A (zh) 2018-06-06 2018-06-06 使用交叉训练模型检测对抗样本的方法

Publications (1)

Publication Number Publication Date
CN108932527A true CN108932527A (zh) 2018-12-04

Family

ID=64449529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810587300.2A Pending CN108932527A (zh) 2018-06-06 2018-06-06 使用交叉训练模型检测对抗样本的方法

Country Status (1)

Country Link
CN (1) CN108932527A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948658A (zh) * 2019-02-25 2019-06-28 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
CN110222502A (zh) * 2019-06-10 2019-09-10 北京计算机技术及应用研究所 一种注入随机化的对抗训练方法
CN110322003A (zh) * 2019-06-10 2019-10-11 浙江大学 一种基于梯度的通过添加虚假节点的图对抗样本生成方法
CN110334742A (zh) * 2019-06-10 2019-10-15 浙江大学 一种基于强化学习的通过添加虚假节点的图对抗样本生成方法
CN110674856A (zh) * 2019-09-12 2020-01-10 阿里巴巴集团控股有限公司 一种用于机器学习的方法和装置
CN110852450A (zh) * 2020-01-15 2020-02-28 支付宝(杭州)信息技术有限公司 识别对抗样本以保护模型安全的方法及装置
WO2020134533A1 (zh) * 2018-12-29 2020-07-02 北京市商汤科技开发有限公司 深度模型训练方法及装置、电子设备及存储介质
CN111460881A (zh) * 2020-01-16 2020-07-28 华中科技大学 基于近邻判别的交通标志对抗样本检测方法和分类装置
CN112069507A (zh) * 2020-09-21 2020-12-11 西安交通大学 机器学习框架漏洞检测方法、系统、设备及可读存储介质
CN112200380A (zh) * 2020-10-23 2021-01-08 支付宝(杭州)信息技术有限公司 优化风险检测模型的方法及装置
CN112529209A (zh) * 2020-12-07 2021-03-19 上海云从企业发展有限公司 模型训练方法、装置以及计算机可读存储介质
CN112750067A (zh) * 2019-10-29 2021-05-04 爱思开海力士有限公司 图像处理系统及其训练方法
WO2022063076A1 (zh) * 2020-09-24 2022-03-31 华为技术有限公司 对抗样本的识别方法及装置
US11568282B2 (en) 2019-09-24 2023-01-31 International Business Machines Corporation Mitigating adversarial effects in machine learning systems

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020134533A1 (zh) * 2018-12-29 2020-07-02 北京市商汤科技开发有限公司 深度模型训练方法及装置、电子设备及存储介质
TWI747120B (zh) * 2018-12-29 2021-11-21 大陸商北京市商湯科技開發有限公司 深度模型訓練方法及裝置、電子設備及儲存介質
JP2021536083A (ja) * 2018-12-29 2021-12-23 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 深層モデルの訓練方法及びその装置、電子機器並びに記憶媒体
JP7110493B2 (ja) 2018-12-29 2022-08-01 ベイジン・センスタイム・テクノロジー・デベロップメント・カンパニー・リミテッド 深層モデルの訓練方法及びその装置、電子機器並びに記憶媒体
CN109948658B (zh) * 2019-02-25 2021-06-15 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
CN109948658A (zh) * 2019-02-25 2019-06-28 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
CN110334742A (zh) * 2019-06-10 2019-10-15 浙江大学 一种基于强化学习的通过添加虚假节点的图对抗样本生成方法
CN110334742B (zh) * 2019-06-10 2021-06-29 浙江大学 一种用于文档分类的基于强化学习的通过添加虚假节点的图对抗样本生成方法
CN110322003A (zh) * 2019-06-10 2019-10-11 浙江大学 一种基于梯度的通过添加虚假节点的图对抗样本生成方法
CN110322003B (zh) * 2019-06-10 2021-06-29 浙江大学 一种用于文档分类的基于梯度的通过添加虚假节点的图对抗样本生成方法
CN110222502A (zh) * 2019-06-10 2019-09-10 北京计算机技术及应用研究所 一种注入随机化的对抗训练方法
CN110674856A (zh) * 2019-09-12 2020-01-10 阿里巴巴集团控股有限公司 一种用于机器学习的方法和装置
US11568282B2 (en) 2019-09-24 2023-01-31 International Business Machines Corporation Mitigating adversarial effects in machine learning systems
CN112750067A (zh) * 2019-10-29 2021-05-04 爱思开海力士有限公司 图像处理系统及其训练方法
CN110852450A (zh) * 2020-01-15 2020-02-28 支付宝(杭州)信息技术有限公司 识别对抗样本以保护模型安全的方法及装置
CN110852450B (zh) * 2020-01-15 2020-04-14 支付宝(杭州)信息技术有限公司 识别对抗样本以保护模型安全的方法及装置
CN111460881A (zh) * 2020-01-16 2020-07-28 华中科技大学 基于近邻判别的交通标志对抗样本检测方法和分类装置
CN112069507A (zh) * 2020-09-21 2020-12-11 西安交通大学 机器学习框架漏洞检测方法、系统、设备及可读存储介质
CN112069507B (zh) * 2020-09-21 2023-04-07 西安交通大学 机器学习框架漏洞检测方法、系统、设备及可读存储介质
WO2022063076A1 (zh) * 2020-09-24 2022-03-31 华为技术有限公司 对抗样本的识别方法及装置
CN112200380A (zh) * 2020-10-23 2021-01-08 支付宝(杭州)信息技术有限公司 优化风险检测模型的方法及装置
CN112200380B (zh) * 2020-10-23 2023-07-25 支付宝(杭州)信息技术有限公司 优化风险检测模型的方法及装置
CN112529209A (zh) * 2020-12-07 2021-03-19 上海云从企业发展有限公司 模型训练方法、装置以及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108932527A (zh) 使用交叉训练模型检测对抗样本的方法
Li et al. Are generative classifiers more robust to adversarial attacks?
CN105095856B (zh) 基于掩模的有遮挡人脸识别方法
CN109299741B (zh) 一种基于多层检测的网络攻击类型识别方法
CN108848068A (zh) 基于深度信念网络-支持向量数据描述的apt攻击检测方法
CN103716204B (zh) 一种基于维纳过程的异常入侵检测集成学习方法及装置
CN103824055B (zh) 一种基于级联神经网络的人脸识别方法
CN108958217A (zh) 一种基于深度学习的can总线报文异常检测方法
CN109034194B (zh) 基于特征分化的交易欺诈行为深度检测方法
CN106951825A (zh) 一种人脸图像质量评估系统以及实现方法
WO2016091084A1 (zh) 一种基于复杂网络的高速列车系统安全评估方法
CN106920206B (zh) 一种基于对抗神经网络的隐写分析方法
CN107506786A (zh) 一种基于深度学习的属性分类识别方法
CN106295694A (zh) 一种迭代重约束组稀疏表示分类的人脸识别方法
CN109543760A (zh) 基于图像滤镜算法的对抗样本检测方法
CN112733533A (zh) 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
Odeh et al. Off-line signature verification and recognition: Neural Network Approach
CN102158486A (zh) 一种网络入侵快速检测方法
CN105138951B (zh) 基于图模型表示的人脸画像-照片识别方法
CN105574489A (zh) 基于层次级联的暴力群体行为检测方法
CN113269228B (zh) 一种图网络分类模型的训练方法、装置、系统及电子设备
CN107145841A (zh) 一种基于矩阵的低秩稀疏人脸识别方法及其系统
CN106991049A (zh) 一种软件缺陷预测方法及预测系统
CN111126820A (zh) 反窃电方法及系统
CN106372656A (zh) 获取深度一次性学习模型的方法、图像识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181204

RJ01 Rejection of invention patent application after publication