CN109766991A - 一种采用对抗性训练的人工智能优化系统及方法 - Google Patents

一种采用对抗性训练的人工智能优化系统及方法 Download PDF

Info

Publication number
CN109766991A
CN109766991A CN201910033648.1A CN201910033648A CN109766991A CN 109766991 A CN109766991 A CN 109766991A CN 201910033648 A CN201910033648 A CN 201910033648A CN 109766991 A CN109766991 A CN 109766991A
Authority
CN
China
Prior art keywords
population
training
data
sample
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910033648.1A
Other languages
English (en)
Inventor
张小松
牛伟纳
任仲蔚
谢鑫
将天宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910033648.1A priority Critical patent/CN109766991A/zh
Publication of CN109766991A publication Critical patent/CN109766991A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种采用对抗性训练的人工智能优化系统及方法,属于机器学习领域。本发明对获取的原始数据集中的数据进行特征提取后,训练一个未经过对抗性训练的神经网络模型,得到识别模型;将识别模型作为计算适应度的一个参数,遗传算法基于计算的参数和提取的特征进行对抗样本的生成,得到生成的全部对抗样本;将生成的全部对抗样本与提取特征后的样本混合起来,作为新的数据集再次进行识别模型的有监督训练,得到有监督训练后的识别模型;对有监督训练后的识别模型进行测试,若达到给定要求,得到最终训练好的识别模型,否则调整遗传算法的参数后,再次生成对抗样本进行训练。本发明用于对抗性训练神经网络模型,提高模型安全性。

Description

一种采用对抗性训练的人工智能优化系统及方法
技术领域
一种采用对抗性训练的人工智能优化系统及方法,用于对抗性训练神经网络模型,属于机器学习领域。
背景技术
近年来机器学习得到广泛的应用,并在很多领域取得了很好的应用效果,例如在恶意邮件检测、恶意程序检测、图像识别、人脸识别、图像分类、无人驾驶等和人们日常生活息息相关的领域都有机器学习的实例。因此机器学习逐渐的渗入到人们的日常生活中去,成为改善人们生活水平的关键技术。然而,在机器学习给人们的学习和生活带来极大帮助的同时,机器学习算法还存在很多的安全性问题,在早期的垃圾邮件检测系统和入侵检测系统中攻击者针对不同模型的特点来规避检测模型的检测,严重的影响了机器学习的安全性,严重阻碍机器学习的应用。到目前为止还有更多的安全问题还未被发现。
对抗样本是可以直接改变或影响机器学习模型识别结果的一类数据,它是使用某种算法对元素数据产生细微的精心构造的扰动后,使原本正常的机器学习模型发生识别错误或者不能识别。对抗样本存在的主要原因之一是模型具有过度线性。大多数的神经网络模型是按照线性块构建的,而他们构成的整体函数具有高度的线性的。这些线性函数很容易被优化,但是如果一个线性函数具有许多的输入,那么它的值可以迅速的改变。所以当输入样本发生微小变化是很可能会对整个模型的输出结果造成非常大的影响。如果一个模型可以抵抗对抗样本的攻击,那就在一定程度上可以提高机器学习的安全性。
为了防御对抗样本的攻击,最直观的一个做法是采用对抗性训练的方法来优化模型提高模型的安全性。对抗训练,就是通过在对抗样本上训练模型。既然深度学习的对抗样本是由于模型的线性特征所导致,那就可以设计一种快速的方法来产生对抗样本进行对抗训练。Szegedy等人的研究认为对抗样本可以通过使用标准正则化技术解决,可是Goodfellow等人使用常见的正则化方法,如dropout,预训练和模型平均进行测试,并没能显著地提高深度模型对于对抗样本的抗干扰能力。根据神经网络的UniversalApproximation Theory,至少拥有一个隐层的神经网络只要拥有足够的隐层单元,就可以任意逼近任何一个非线性函数,这是浅层模型所不具备的。因此,对于解决对抗样本问题,Goodfellow等人认为深度学习至少有希望的,而浅层模型却不太可能。Goodfellow等人通过利用对抗样本训练,对抗样本上的误分率被大大降低。同时他们发现选择原始模型产生的对抗样本作为训练数据可以训练得到具有更高抵抗力的模型。此外,他们还发现,对于误分的对抗样本,对抗训练得到的模型的置信度依然很高。所以通过对抗训练能够提高深度学习的对于对抗样本的抗干扰能力。
自从针对深度学习网络模型的对抗样本被证明存在之后,为了保证神经网络模型在对抗攻击情况下的鲁棒性,对抗样本的代入训练就在被广泛使用。因此,在一些新的攻击方式公布的时候,都会将对抗训练作为首先被考虑的防御方式。对抗训练本质上就是将通过不同攻击方式生成的大量对抗样本,在网络训练时直接加入训练集进行训练的方式。这种途径的基本要求是,需要使用尽可能强的攻击来生成对抗样本,同时网络模型的结构需要足够清晰明了,以便生成尽可能多的对抗样本。正是因为这种对抗训练的方式会增加训练样本。所以称之为一种暴力的防御策略。如易平,王科迪,黄程,顾双驰,邹福泰,李建华.人工智能对抗攻击研究综述[J].上海交通大学学报,2018,52(10):1298-1306。中提到该方法是暴力的做法。
并且当模型面对新出现的对抗样本生成算法的攻击时,因为模型未经过该类攻击样本的对抗性训练,所以模型难以防御新的对抗样本算法的攻击。所以现有的对抗性训练防御方法是一种被动的暴力的防御手段。
发明内容
针对上述研究的问题,本发明的目的在于提供一种采用对抗性训练的人工智能优化系统及方法,现有的对抗训练中,抗性训练计算量大,被动防御的缺点,造成成本高,鲁棒性差等问题。针对现有对抗性训练计算量大,被动防御的缺点,本发明采用了使用遗传算法的随机性,将遗传算法作为对抗样本生成算法,依据遗传算法的随机性,给原始数据集添加微小的随机扰动噪声,以提高模型的主动防御能力。
为了达到上述目的,本发明采用如下技术方案:
一种采用对抗性训练的人工智能优化系统,其特征在于,包括:
预训练模块:对获取的原始数据集中的数据进行特征提取后,训练一个未经过对抗性训练的神经网络模型,得到识别模型;
对抗样本生成模块:将识别模型作为计算适应度的一个参数,遗传算法基于计算的参数和提取的特征进行对抗样本的生成,得到生成的全部对抗样本;
深度学习训练模块:将生成的全部对抗样本与提取特征后的样本混合起来,作为新的数据集再次进行识别模型的有监督训练,得到有监督训练后的识别模型;对有监督训练后的识别模型进行测试,若达到给定要求,得到最终训练好的识别模型,否则反馈信息使对抗样本生成模块修改遗传算法中的参数。
进一步,所述预训练模块包括:
数据预处理模块:对采集的原始元素数据进行数据的初步处理,即对采集的原始元素数据进行去重,剔除不需要的特征,将二维数据转换为一维数据,得到处理后的原始数据集;
数据特征提取模块:基于所需要训练的神经网络模型,对原始数据集中的数据进行特征提取;
数据预训练模块:基于所有提取的特征,训练一个未经过对抗性训练的神经网络模型,得到识别模型,即预训练模型。
进一步,所述对抗样本生成模块具体实现步骤包括:
数据编码:根据原始数据集的特征选择编码方式,将所有特征进行编码,得到编码后的向量;
种群初始化:数据编码后,根据原始数据集中样本的数量设置种群的个体数量和迭代次数,设置不同的初始化方法对种群中的每一个个体的规模范围,即每个样本的特征规模范围进行编码后的向量初始化,其中种群为单种群;
计算种群适应度:种群初始化后,将种群与提取特征后的样本的欧氏距离和识别模型对该种群的识别结果作为两个质量按照权重相加后作为该种群的适应度;
种群选择:基于适应度和轮盘赌选择算法,对种群进行选择,得到更优的候选种群,其中适应度越大,种群中个体被选中的机率越大;
种群交叉:设定交叉概率,对候选种群中的各个体进行随机交叉,产生新的个体;
种群变异:给定变异概率,对所有新的个体进行种群的变异,得到多个生成的新的对抗样本;
若未到给定迭代次数,基于得到的变异后的种群重新计算适应度后再执行种群选择、种群交叉和种群变异,否则选出多个最优的对抗样本,即生成全部的对抗样本,多个为设置的个体数量。
一种采用对抗性训练的人工智能优化方法,其特征在于,如下步骤:
S1、基于要训练的神经网络模型,对获取的原始数据集中的样本进行特征提取后,训练一个未经过对抗性训练的神经网络模型,得到识别模型,即预训练模型;
S2、将识别模型作为对抗样本生成计算适应度的一个参数,使用遗传算法和预训练模型进行原始数据集的对抗样本生成得到对抗样本;
S3、将生成的全部对抗样本与提取特征后的样本混合起来,作为新的数据集再次进行识别模型的有监督训练,得到有监督训练后的识别模型;
S4、对有监督训练后的识别模型进行测试,若达到给定要求,得到最终训练好的识别模型,否则调整步骤S2遗传算法中的参数后,再次执行步骤S2-S4。
进一步,所述步骤S1的具体步骤为:
S1.1、数据预处理:对采集的原始元素数据进行数据的初步处理,即对采集的原始元素数据进行去重,剔除不需要的特征,将二维数据转换为一维数据,得到处理后的原始数据集;
S1.2、数据特征提取:基于所需要训练的神经网络模型,对原始数据集中的数据进行特征提取;
S1.3、数据预训练:基于所有提取的特征,训练一个未经过对抗性训练的神经网络模型,得到识别模型,即预训练模型。
进一步,所述原始元素数据为图片、向量、网络流量或文本。
进一步,所述S2的具体步骤为:
S2.1、数据编码:根据原始数据集的特征选择编码方式,将所有特征进行编码,得到编码后的向量;
S2.2、种群初始化:数据编码后,根据原始数据集中样本的数量设置种群的个体数量和迭代次数,设置不同的初始化方法对种群中的每一个个体的规模范围,即每个样本的特征规模范围进行编码后的向量初始化,其中种群为单种群;
S2.3、计算种群适应度:种群初始化后,将种群与提取特征后的样本的欧氏距离和识别模型对该种群的识别结果作为两个质量按照权重相加后作为该种群的适应度;
S2.4、种群选择:基于适应度和轮盘赌选择算法,对单种群进行选择,得到更优的候选种群,其中适应度越大,种群中个体被选中的机率越大;
S2.5、种群交叉:设定交叉概率,对候选种群中的各个体进行随机交叉,产生新的个体;
S2.6、种群变异:给定变异概率,对所有新的个体进行种群的变异,得到多个生成的新的对抗样本;
S2.7、若未到给定迭代次数,基于步骤2.6得到的变异后的种群执行步骤2.3-步骤2.7,否则选出多个最优的对抗样本,即生成全部的对抗样本,多个为设置的个体数量。
进一步,所述S3的具体步骤为:
S3.1、对一定数量的提取特征后的样本与其对抗样本进行混合将混合后的数据集作为新的数据集,计算出对抗样本;
S3.2、将新的数据集对识别模型进行有监督训练,得到有监督训练后的识别模型。
本发明同现有防御技术相比,其有益效果表现在:
一、本发明能够克服传统对抗新训练算法训练量大,不能防御新算法的攻击的缺点;
二、本发明结构简单,容易对遗传算法进行参数的优化,使识别模型更容易得到控制,现有的防御算法主要是进行模型梯度的屏蔽,需要强大的数学基础支持,并不是那么容易控制;
三、本发明能够抵御对抗样本的攻击,更加的安全;
四、本发明依据遗传算法的随机性,进一步扩大训练样本集,使每一个样本都有不同的扰动,使得到的识别模型可识别出为发生扰动的样本和已发生扰动的样本的能力,增强识别模型鲁棒性和安全性。
附图说明
图1为本发明的流程示意图;
图2为本发明中实施例中的MNIST数据集的示意图。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
为了解决技术问题,本发明提供了一种系统和方法,具体如下:
一种采用对抗性训练的人工智能优化系统,包括:
预训练模块:对获取的原始数据集中的数据进行特征提取后,训练一个未经过对抗性训练的神经网络模型,得到识别模型;
预训练模块包括:
数据预处理模块:对采集的原始元素数据进行数据的初步处理,即对采集的原始元素数据进行去重,剔除不需要的特征,将二维数据转换为一维数据,得到处理后的原始数据集;
数据特征提取模块:基于所需要训练的神经网络模型,对原始数据集中的数据进行特征提取;
数据预训练模块:基于所有提取的特征,训练一个未经过对抗性训练的神经网络模型,得到识别模型,即预训练模型。
对抗样本生成模块:将识别模型作为计算适应度的一个参数,遗传算法基于计算的参数和提取的特征进行对抗样本的生成,得到生成的全部对抗样本;
具体实现步骤包括:
数据编码:根据原始数据集的特征选择编码方式,将所有特征进行编码,编码后得到向量;
种群初始化:种群采用单种群,数据编码后,根据原始数据集中样本的数量设置种群的个体数量和迭代次数,设置不同的初始化方法对种群中的每一个个体的规模范围,即每个样本的特征规模范围进行向量初始化,一般的做法是进行随机初始化;
计算种群适应度:种群初始化后,将种群与提取特征后的样本的欧氏距离和识别模型对该种群的识别结果作为两个质量按照权重相加后作为该种群的适应度;
种群选择:基于适应度和轮盘赌选择算法,对单种群进行选择,得到更优的候选种群,其中适应度越大,种群中个体被选中的机率越大;
种群交叉:设定交叉概率,对候选种群中的各个体进行随机交叉,产生新的个体;
种群变异:给定变异概率,对所有新的个体进行种群的变异,得到多个生成的新的对抗样本;
若未到给定迭代次数,基于得到的变异后的种群重新计算适应度后再执行种群选择、种群交叉和种群变异,否则选出多个最优的对抗样本,即生成全部的对抗样本,多个为设置的个体数量。
深度学习训练模块:将生成的全部对抗样本与提取特征后的样本混合起来,作为新的数据集再次进行识别模型的有监督训练,得到有监督训练后的识别模型;对有监督训练后的识别模型进行测试,若达到给定要求,得到最终训练好的识别模型,否则反馈信息使对抗样本生成模块修改遗传算法中的参数,其中参数为种群数量、迭代次数、交叉率、变异率。
一种采用对抗性训练的人工智能优化方法,如下步骤:
S1、基于要训练的神经网络模型,对获取的原始数据集中的样本进行特征提取后,训练一个未经过对抗性训练的神经网络模型,得到识别模型,即预训练模型;具体步骤为:
S1.1、对采集的原始元素数据进行数据的初步处理,即对采集的原始元素数据进行去重,剔除不需要的特征,将二维数据转换为一维数据等,因下述实施例中,MINIST是二维图像可以方便的编码为二进制向量,除了二进制向量外还可以考虑编码为浮点数,符号编码等,得到处理后的原始数据集;原始元素数据除了图像类数据外,还可以处理网络流量,图片类,文本类等。
S1.2、基于所需要训练的神经网络模型,对原始数据集中的数据进行特征提取;如网络流量类特征需要提取流量的连接时间,单位时间的窗口内保持连接的连接数等信息;
S1.3、基于所有提取的特征,训练一个未经过对抗性训练的神经网络模型,得到识别模型,即预训练模型。
S2、将识别模型作为对抗样本生成计算适应度的一个参数,使用遗传算法和预训练模型进行原始数据集的对抗样本生成得到对抗样本;具体步骤为:
S2.1、数据编码:根据原始数据集的特征选择编码方式,将所有特征进行编码,得到编码后的向量;
s2.2、种群初始化:种群采用单种群,数据编码后,根据原始数据集中样本的数量设置种群的个体数量和迭代次数,设置不同的初始化方法对种群中的每一个个体的规模范围,即每个样本的特征规模范围进行编码后的向量初始化,一般的做法是进行随机初始化;
S2.3、计算种群适应度:种群初始化后,将种群与提取特征后的样本的欧氏距离和识别模型对该种群的识别结果作为两个质量按照权重相加后作为该种群的适应度;
S2.4、种群选择:基于适应度和轮盘赌选择算法,对单种群进行选择,得到更优的候选种群,其中适应度越大,种群中个体被选中的机率越大;
S2.5、种群交叉:设定交叉概率,对候选种群中的各个体进行随机交叉,产生新的个体;
S2.6、种群变异:给定变异概率,对所有新的个体进行种群的变异,得到多个生成的新的对抗样本;
S2.7、若未到给定迭代次数,基于步骤2.6得到的变异后的种群执行步骤2.3-步骤2.7,否则选出多个最优的对抗样本,即生成全部的对抗样本,多个为设置的个体数量。
S3、将生成的全部对抗样本与提取特征后的样本混合起来,作为新的数据集再次进行识别模型的有监督训练,得到有监督训练后的识别模型;
具体步骤为:
S3.1、如FGSM,JSMA等算法,对一定数量的提取特征后的样本与其对抗样本进行混合将混合后的数据集作为新的数据集,计算出对抗样本;
S3.2、将新的数据集对识别模型进行有监督训练,得到有监督训练后的识别模型。
S4、对有监督训练后的识别模型进行测试,若达到给定要求,得到最终训练好的识别模型,否则调整步骤S2遗传算法中的参数后,再次执行步骤S2-S4,其中参数为种群数量、迭代次数、交叉率、变异率。
实施例
针对手写字符集MNIST机型对抗性训练。
MNIST数据集来自美国国家标准与技术研究所(National Institute ofStandards and Technology(NIST))。
训练集(training set)由来自250个不同人手写的数字构成,其中50%是高中学生,50%来自人口普查局(the Census Bureau)的工作人员,测试集(test set)也是同样比例的手写数字数据,训练数据集(即原始数据集)50000张,验证集10000,测试数据集10000张。
一、数据预处理:原始的MNIST数据使28×28的黑白点阵图片,可以将28×28的二维矩阵转换成784的一个单行向量,这样对于一条数据(即原始数据集中的样本)来说,有784个0、1特征;
二、数据的特征提取,因为MNIST是图片数据,所以可以保留所有的784个特征,作为数据的全部特征,来进行处理;
三、模型的预训练:原始数据集进行分割,按照3∶1的比例划分为训练数据集(即原始数据集)和测试数据集,设计一个784×32×32×10的全连接的网络结构进行模型的与训练,得到一个能够识别测试集MNIST的正常的模型,即识别模型;
四、对抗样本生成阶段:将已经训练好的识别模型交给遗传算法,在遗传算法中进行对抗样本生成。处理步骤主要有以下步骤:
数据编码:784特征的向量编码为一个二进制向量;
种群初始化:种群采用单种群,数据编码后,根据原始数据集中样本的数量设置种群的个体数量为300次和迭代次数10次,设置不同的初始化方法对种群中的每一个个体的规模范围,即每个样本的特征规模范围进行向量初始化,一般的做法是进行随机初始化,其中,特征规模范围是指每个特征的范围,因为有些特征是浮点数0.0-1.0有的特征是整数0-1000等;随机赋值为n×28*28转成1维后是n×1×784的0、1向量,随机初始化的话就是对这n个一维的0、1向量随机初始化,就是每个特征会随机选择0或1;
计算种群适应度:种群初始化后,将种群与提取特征后的样本的欧氏距离和识别模型对该种群的识别结果作为两个质量按照权重相加后作为该种群的适应度;
种群选择:基于适应度和轮盘赌选择算法,对单种群进行选择出300个个体,得到更优的候选种群,其中适应度越大,种群中个体被选中的机率越大;
种群交叉:设定交叉概率0.01,对候选种群中的300个个体进行随机交叉,产生新的大约600个体;
种群变异:给定变异概率设置为0.02,对所有新的个体进行种群的变异,得到多个生成的新的对抗样本,其中变异不产生新个体,是在原有的个体上变异;
若未到给定迭代次数,基于得到的变异后的种群重新计算适应度后再执行种群选择、种群交叉和种群变异,否则选出多个最优的对抗样本,即生成全部的对抗样本,多个为设置的个体数量。
五、对抗性训练阶段:选择一定数量的提取特征后的样本,将每个提取特征后的样本与其对抗样本进行1∶1的混合,将混合后的数据集作为新的数据集,按照预训练阶段的模型结构进行模型的训练,得到对抗训练的样本,由新混合的数据集进行神经网路的训练,得到经过对抗性训练的神经网络模型,最后训练后的识别模型(即得到有监督训练后的识别模型)用于识别验证集,识别率为98.0%;
六、模型测试阶段:该阶段将经过对抗性训练后的识别模型与未知的对抗样本生成算法做测试,比如基于测试数据集,采用FGSM算法进行对抗样本生成,测试有监督训练后的识别模型能否识别出经过FGSM算法扰动的数据,如果可以这说明模型训练良好,否则需要调整遗传算法的参数并回到对抗样本生成阶段再次训练;
有监督训练后的识别模型的识别结果为:
FGSM攻击强度ε 0.03 0.05 0.07
未经过对抗性训练的模型识别准确率 83.2% 75.6% 46.4%
经过对抗性训练的模型识别准确率 88.3% 87.2% 85.1%
相比于未经过对抗性训练的神经网络模型,经过该算法改进后的算法能够抵御一定程度的对抗样本攻击。
七、模型输出阶段:模型训练良好,将第五阶段训练好的识别模型输出。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (8)

1.一种采用对抗性训练的人工智能优化系统,其特征在于,包括:
预训练模块:对获取的原始数据集中的数据进行特征提取后,训练一个未经过对抗性训练的神经网络模型,得到识别模型;
对抗样本生成模块:将识别模型作为计算适应度的一个参数,遗传算法基于计算的参数和提取的特征进行对抗样本的生成,得到生成的全部对抗样本;
深度学习训练模块:将生成的全部对抗样本与提取特征后的样本混合起来,作为新的数据集再次进行识别模型的有监督训练,得到有监督训练后的识别模型;对有监督训练后的识别模型进行测试,若达到给定要求,得到最终训练好的识别模型,否则反馈信息使对抗样本生成模块修改遗传算法中的参数。
2.根据权利要求1所述的一种采用对抗性训练的人工智能优化系统,其特征在于:所述预训练模块包括:
数据预处理模块:对采集的原始元素数据进行数据的初步处理,即对采集的原始元素数据进行去重,剔除不需要的特征,将二维数据转换为一维数据,得到处理后的原始数据集;
数据特征提取模块:基于所需要训练的神经网络模型,对原始数据集中的数据进行特征提取;
数据预训练模块:基于所有提取的特征,训练一个未经过对抗性训练的神经网络模型,得到识别模型,即预训练模型。
3.根据权利要求1或2所述的一种采用对抗性训练的人工智能优化系统,其特征在于:所述对抗样本生成模块具体实现步骤包括:
数据编码:根据原始数据集的特征选择编码方式,将所有特征进行编码,得到编码后的向量;
种群初始化:数据编码后,根据原始数据集中样本的数量设置种群的个体数量和迭代次数,设置不同的初始化方法对种群中的每一个个体的规模范围,即每个样本的特征规模范围进行编码后的向量初始化,其中种群为单种群;
计算种群适应度:种群初始化后,将种群与提取特征后的样本的欧氏距离和识别模型对该种群的识别结果作为两个质量按照权重相加后作为该种群的适应度;
种群选择:基于适应度和轮盘赌选择算法,对种群进行选择,得到更优的候选种群,其中适应度越大,种群中个体被选中的机率越大;
种群交叉:设定交叉概率,对候选种群中的各个体进行随机交叉,产生新的个体;
种群变异:给定变异概率,对所有新的个体进行种群的变异,得到多个生成的新的对抗样本;
若未到给定迭代次数,基于得到的变异后的种群重新计算适应度后再执行种群选择、种群交叉和种群变异,否则选出多个最优的对抗样本,即生成全部的对抗样本,多个为设置的个体数量。
4.一种采用对抗性训练的人工智能优化方法,其特征在于,如下步骤:
S1、基于要训练的神经网络模型,对获取的原始数据集中的样本进行特征提取后,训练一个未经过对抗性训练的神经网络模型,得到识别模型,即预训练模型;
S2、将识别模型作为对抗样本生成计算适应度的一个参数,使用遗传算法和预训练模型进行原始数据集的对抗样本生成得到对抗样本;
S3、将生成的全部对抗样本与提取特征后的样本混合起来,作为新的数据集再次进行识别模型的有监督训练,得到有监督训练后的识别模型;
S4、对有监督训练后的识别模型进行测试,若达到给定要求,得到最终训练好的识别模型,否则调整步骤S2遗传算法中的参数后,再次执行步骤S2-S4。
5.根据权利要求4所述的一种采用对抗性训练的人工智能优化方法,其特征在于,所述步骤S1的具体步骤为:
S1.1、数据预处理:对采集的原始元素数据进行数据的初步处理,即对采集的原始元素数据进行去重,剔除不需要的特征,将二维数据转换为一维数据,得到处理后的原始数据集;
S1.2、数据特征提取:基于所需要训练的神经网络模型,对原始数据集中的数据进行特征提取;
S1.3、数据预训练:基于所有提取的特征,训练一个未经过对抗性训练的神经网络模型,得到识别模型,即预训练模型。
6.根据权利要求5所述的一种采用对抗性训练的人工智能优化方法,其特征在于:所述原始元素数据为图片、向量、网络流量或文本。
7.根据权利要求6所述的一种采用对抗性训练的人工智能优化方法,其特征在于:所述S2的具体步骤为:
S2.1、数据编码:根据原始数据集的特征选择编码方式,将所有特征进行编码,得到编码后的向量;
S2.2、种群初始化:数据编码后,根据原始数据集中样本的数量设置种群的个体数量和迭代次数,设置不同的初始化方法对种群中的每一个个体的规模范围,即每个样本的特征规模范围进行编码后的向量初始化,其中种群为单种群;
S2.3、计算种群适应度:种群初始化后,将种群与提取特征后的样本的欧氏距离和识别模型对该种群的识别结果作为两个质量按照权重相加后作为该种群的适应度;
S2.4、种群选择:基于适应度和轮盘赌选择算法,对单种群进行选择,得到更优的候选种群,其中适应度越大,种群中个体被选中的机率越大;
S2.5、种群交叉:设定交叉概率,对候选种群中的各个体进行随机交叉,产生新的个体;
S2.6、种群变异:给定变异概率,对所有新的个体进行种群的变异,得到多个生成的新的对抗样本;
S2.7、若未到给定迭代次数,基于步骤2.6得到的变异后的种群执行步骤2.3-步骤2.7,否则选出多个最优的对抗样本,即生成全部的对抗样本,多个为设置的个体数量。
8.根据权利要求5-7任意一项所述的一种采用对抗性训练的人工智能优化方法,其特征在于:所述S3的具体步骤为:
S3.1、对一定数量的提取特征后的样本与其对抗样本进行混合将混合后的数据集作为新的数据集,计算出对抗样本;
S3.2、将新的数据集对识别模型进行有监督训练,得到有监督训练后的识别模型。
CN201910033648.1A 2019-01-14 2019-01-14 一种采用对抗性训练的人工智能优化系统及方法 Pending CN109766991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910033648.1A CN109766991A (zh) 2019-01-14 2019-01-14 一种采用对抗性训练的人工智能优化系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910033648.1A CN109766991A (zh) 2019-01-14 2019-01-14 一种采用对抗性训练的人工智能优化系统及方法

Publications (1)

Publication Number Publication Date
CN109766991A true CN109766991A (zh) 2019-05-17

Family

ID=66452827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910033648.1A Pending CN109766991A (zh) 2019-01-14 2019-01-14 一种采用对抗性训练的人工智能优化系统及方法

Country Status (1)

Country Link
CN (1) CN109766991A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110139147A (zh) * 2019-05-20 2019-08-16 深圳先进技术研究院 一种视频处理方法、系统、移动终端、服务器及存储介质
CN110222502A (zh) * 2019-06-10 2019-09-10 北京计算机技术及应用研究所 一种注入随机化的对抗训练方法
CN110348509A (zh) * 2019-07-08 2019-10-18 睿魔智能科技(深圳)有限公司 数据增广参数的调整方法、装置、设备及存储介质
CN110569916A (zh) * 2019-09-16 2019-12-13 电子科技大学 用于人工智能分类的对抗样本防御系统及方法
CN110909877A (zh) * 2019-11-29 2020-03-24 百度在线网络技术(北京)有限公司 神经网络模型结构搜索方法、装置、电子设备及存储介质
CN110991549A (zh) * 2019-12-13 2020-04-10 成都网域复兴科技有限公司 一种针对图像数据的对抗样本生成方法及系统
CN111046755A (zh) * 2019-11-27 2020-04-21 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和计算机可读存储介质
CN111160526A (zh) * 2019-12-18 2020-05-15 河海大学 基于mape-d环形结构的深度学习系统在线测试方法与装置
CN111783998A (zh) * 2020-06-30 2020-10-16 百度在线网络技术(北京)有限公司 一种违规账号识别模型训练方法、装置及电子设备
CN111797975A (zh) * 2020-06-24 2020-10-20 武汉大学 一种基于微生物遗传算法的黑盒对抗样本生成方法
CN112215629A (zh) * 2019-07-09 2021-01-12 百度在线网络技术(北京)有限公司 基于构造对抗样本的多目标广告生成系统及其方法
CN113449865A (zh) * 2021-08-30 2021-09-28 算筹(深圳)信息科技有限公司 一种增强训练人工智能模型的优化方法
CN113935913A (zh) * 2021-10-08 2022-01-14 北京计算机技术及应用研究所 一种具有视觉感知隐蔽性的黑盒图像对抗样本生成方法
CN114841137A (zh) * 2022-04-18 2022-08-02 北京百度网讯科技有限公司 模型获取方法、装置、电子设备及存储介质
TWI780751B (zh) * 2020-07-15 2022-10-11 大陸商北京市商湯科技開發有限公司 網路訓練方法、目標檢測方法、電子設備和電腦可讀儲存介質

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971162A (zh) * 2014-04-04 2014-08-06 华南理工大学 一种基于遗传算法改进bp神经网络的方法
CN104572993A (zh) * 2015-01-06 2015-04-29 浪潮电子信息产业股份有限公司 一种基于遗传算法的分类算法参数优化方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971162A (zh) * 2014-04-04 2014-08-06 华南理工大学 一种基于遗传算法改进bp神经网络的方法
CN104572993A (zh) * 2015-01-06 2015-04-29 浪潮电子信息产业股份有限公司 一种基于遗传算法的分类算法参数优化方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110139147B (zh) * 2019-05-20 2021-11-19 深圳先进技术研究院 一种视频处理方法、系统、移动终端、服务器及存储介质
CN110139147A (zh) * 2019-05-20 2019-08-16 深圳先进技术研究院 一种视频处理方法、系统、移动终端、服务器及存储介质
CN110222502A (zh) * 2019-06-10 2019-09-10 北京计算机技术及应用研究所 一种注入随机化的对抗训练方法
CN110348509A (zh) * 2019-07-08 2019-10-18 睿魔智能科技(深圳)有限公司 数据增广参数的调整方法、装置、设备及存储介质
CN110348509B (zh) * 2019-07-08 2021-12-14 睿魔智能科技(深圳)有限公司 数据增广参数的调整方法、装置、设备及存储介质
CN112215629B (zh) * 2019-07-09 2023-09-01 百度在线网络技术(北京)有限公司 基于构造对抗样本的多目标广告生成系统及其方法
CN112215629A (zh) * 2019-07-09 2021-01-12 百度在线网络技术(北京)有限公司 基于构造对抗样本的多目标广告生成系统及其方法
CN110569916A (zh) * 2019-09-16 2019-12-13 电子科技大学 用于人工智能分类的对抗样本防御系统及方法
CN110569916B (zh) * 2019-09-16 2022-03-22 电子科技大学 用于人工智能分类的对抗样本防御系统及方法
CN111046755A (zh) * 2019-11-27 2020-04-21 上海眼控科技股份有限公司 字符识别方法、装置、计算机设备和计算机可读存储介质
CN110909877A (zh) * 2019-11-29 2020-03-24 百度在线网络技术(北京)有限公司 神经网络模型结构搜索方法、装置、电子设备及存储介质
CN110909877B (zh) * 2019-11-29 2023-10-27 百度在线网络技术(北京)有限公司 神经网络模型结构搜索方法、装置、电子设备及存储介质
CN110991549A (zh) * 2019-12-13 2020-04-10 成都网域复兴科技有限公司 一种针对图像数据的对抗样本生成方法及系统
CN111160526B (zh) * 2019-12-18 2022-08-26 河海大学 基于mape-d环形结构的深度学习系统在线测试方法与装置
CN111160526A (zh) * 2019-12-18 2020-05-15 河海大学 基于mape-d环形结构的深度学习系统在线测试方法与装置
CN111797975A (zh) * 2020-06-24 2020-10-20 武汉大学 一种基于微生物遗传算法的黑盒对抗样本生成方法
CN111783998B (zh) * 2020-06-30 2023-08-11 百度在线网络技术(北京)有限公司 一种违规账号识别模型训练方法、装置及电子设备
CN111783998A (zh) * 2020-06-30 2020-10-16 百度在线网络技术(北京)有限公司 一种违规账号识别模型训练方法、装置及电子设备
TWI780751B (zh) * 2020-07-15 2022-10-11 大陸商北京市商湯科技開發有限公司 網路訓練方法、目標檢測方法、電子設備和電腦可讀儲存介質
CN113449865B (zh) * 2021-08-30 2021-12-07 算筹(深圳)信息科技有限公司 一种增强训练人工智能模型的优化方法
CN113449865A (zh) * 2021-08-30 2021-09-28 算筹(深圳)信息科技有限公司 一种增强训练人工智能模型的优化方法
CN113935913A (zh) * 2021-10-08 2022-01-14 北京计算机技术及应用研究所 一种具有视觉感知隐蔽性的黑盒图像对抗样本生成方法
CN114841137A (zh) * 2022-04-18 2022-08-02 北京百度网讯科技有限公司 模型获取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109766991A (zh) 一种采用对抗性训练的人工智能优化系统及方法
CN108615048A (zh) 基于扰动进化对图像分类器对抗性攻击的防御方法
CN110991549A (zh) 一种针对图像数据的对抗样本生成方法及系统
CN108376220A (zh) 一种基于深度学习的恶意样本程序分类方法及系统
CN109617706B (zh) 工业控制系统防护方法及工业控制系统防护装置
CN111047006B (zh) 一种基于对偶式生成网络的对抗攻击防御模型及应用
CN111460426B (zh) 基于对抗演化框架的抗深度学习文本验证码生成系统及方法
CN108052968B (zh) 一种qsfla-svm的感知入侵检测方法
CN108171059A (zh) 基于软件基因的恶意代码检测与识别方法及装置
CN102411687A (zh) 未知恶意代码的深度学习检测方法
CN110414483A (zh) 一种基于深度神经网络和随机森林的人脸识别方法及系统
CN109101999A (zh) 基于支持向量机的协神经网络可信决策方法
CN109816030A (zh) 一种基于受限玻尔兹曼机的图像分类方法及装置
Huang et al. Adversarial defence by diversified simultaneous training of deep ensembles
Kong et al. Evolutionary multi-label adversarial examples: An effective black-box attack
CN103902737A (zh) 基于群智能算法的投影寻踪分类建模软件及实现
CN116545764B (zh) 一种工业互联网的异常数据检测方法、系统和设备
CN109508689A (zh) 一种对抗强化的表情识别方法
CN110061986A (zh) 一种基于遗传算法和anfis相结合的网络入侵异常检测方法
CN113449865B (zh) 一种增强训练人工智能模型的优化方法
CN113268991B (zh) 一种基于cgan模型的用户人格隐私保护方法
Jin et al. Network identification and authentication
Wang et al. A visualized malware detection framework with CNN and conditional GAN
CN114898137A (zh) 面向人脸识别的黑盒对抗样本攻击方法、装置、设备及介质
CN113947706A (zh) 一种基于生成对抗网络的图像多样性增强方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190517

RJ01 Rejection of invention patent application after publication