CN113919497A - 针对连续学习能力系统的基于特征操纵的攻击和防御方法 - Google Patents

针对连续学习能力系统的基于特征操纵的攻击和防御方法 Download PDF

Info

Publication number
CN113919497A
CN113919497A CN202111242998.2A CN202111242998A CN113919497A CN 113919497 A CN113919497 A CN 113919497A CN 202111242998 A CN202111242998 A CN 202111242998A CN 113919497 A CN113919497 A CN 113919497A
Authority
CN
China
Prior art keywords
sample
clean
image
samples
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111242998.2A
Other languages
English (en)
Inventor
郭良轩
陈阳
余山
曲徽
黄旭辉
张金鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Second Research Institute Of Casic
Institute of Automation of Chinese Academy of Science
Original Assignee
Second Research Institute Of Casic
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Second Research Institute Of Casic, Institute of Automation of Chinese Academy of Science filed Critical Second Research Institute Of Casic
Priority to CN202111242998.2A priority Critical patent/CN113919497A/zh
Priority to PCT/CN2021/128193 priority patent/WO2023070696A1/zh
Publication of CN113919497A publication Critical patent/CN113919497A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Neurology (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于模式识别、机器学习、多任务学习、对抗攻击技术领域,具体涉及一种针对连续学习能力系统的基于特征操纵的攻击和防御方法,旨在解决现有基于连续学习的智能系统安全性、鲁棒性较差的问题。本发明方法包括:获取图像干净样本;提取干净样本的特征;获取目标样本并提取特征,作为目标锚点特征;基于干净样本特征,结合目标锚点特征,通过攻击样本生成算法生成对抗样本;通过连续学习算法对图像分类模型进行训练,并统计在C类任务分类学习时干净样本对应的分类正确率;按照1:n的比例增入第一矩阵作为训练样本,重新训练;基于训练好的图像分类模型对图像进行分类。本发明提升了现有基于连续学习的智能系统的安全性、鲁棒性。

Description

针对连续学习能力系统的基于特征操纵的攻击和防御方法
技术领域
本发明属于模式识别、机器学习、多任务学习、对抗攻击技术领域,具体涉及一种针对连续学习能力系统的基于特征操纵的攻击和防御方法、系统、设备。
背景技术
深层人工神经网络可以从原始数据中提取高级特征,并以此为基础实现模式的检测、识别和分类等任务,在学习复杂的映射规则方面展现出非常强大潜力。然而,这种能力是一种“静态”的能力,即一旦训练完成,映射通常是固定的。在学习新任务时,深层人工神经网络往往会将以往任务中建立的映射破坏掉,不具备连续的学习能力。在机器学习领域中,这常被称为“灾难性遗忘”。很多应用场景需要深层人工神经网络能够学习新的信息并自我调整,但“灾难性遗忘”无疑是一块短板。“连续学习算法”应运而生,旨在平衡新旧任务的知识,以让人工智能系统具有连续学习的能力。这样的人工智能系统称为“连续学习系统”。
现在已有不少用以克服“灾难性遗忘”的连续学习算法和人工智能系统问世。这样的系统可以在实际场景中主动适应环境,大大提高人机协作的工作效率。但是由于基于神经网络构建的智能系统的学习能力没有关闭,这也使其学习能力完全暴露于实际场景,容易遭受第三方入侵。而目前,针对连续攻击连续学习过程的研究还比较少,而相应的防御算法就更少有人关心了。实际上,这些内容是连续学习算法落地应用所必不可少的。基于此,本发明针对具备连续学习能力的连续学习能力系统(或称之为智能系统),如基于连续学习的图像分类模型,提出一种基于特征操纵的攻击和防御方法,可以隐蔽地影响连续学习系统的学习过程和操纵系统的学习结果。
发明内容
为了解决现有技术中的上述问题,即为了解决现有基于连续学习的智能系统暴露于实际场景,容易被利用、攻击和误导,导致安全性、鲁棒性较差的问题,本发明提出了一种针对连续学习能力系统的基于特征操纵的攻击和防御方法,该方法包括:
步骤S10,获取图像训练样本集中待分类学习的B类任务对应的训练样本,作为干净样本;所述图像训练样本集中含有M种待分类学习的任务;
步骤S20,通过预构建的特征提取网络提取所述干净样本的特征,作为干净样本特征;
步骤S30,获取图像训练样本集中待分类学习的C类任务对应的训练样本,作为目标样本,并通过所述特征提取网络提取目标样本的特征,作为目标锚点特征;
步骤S40,基于所述干净样本特征,结合所述目标锚点特征,通过预设的攻击样本生成算法生成待分类学习的B类任务的对抗样本;
步骤S50,将干净样本从所述图像训练样本集中删除,将对抗样本增入图像训练样本集,并通过连续学习算法对图像分类模型进行训练,统计所述图像分类模型在C类任务分类学习时所述干净样本对应的分类正确率;
步骤S60,若所述分类正确率低于设定阈值,则在所述图像分类模型的线性分类层中增加一个神经元,用于识别除M种待分类学习的类别外的类别;将包含对抗样本的图像训练样本集中的各类任务的训练样本和第一矩阵按照1:n的比例,在包含对抗样本的图像训练样本集增入第一矩阵,增入后,对增加神经元的图像分类模型进行训练,直至得到训练好的图像分类模型;否则,跳转步骤S70;其中,所述第一矩阵为基于随机噪声构建的像素矩阵;n为正整数;
步骤S70,基于训练好的图像分类模型对待分类的图像进行分类。
在一些优选的实施方式中,所述特征提取网络、所述图像分类模型均基于深度神经网络构建;其中,所述特征提取网络基于去掉线性分类层的深度神经网络构建。
在一些优选的实施方式中,所述图像分类模型在连续学习时特征层面的损失函数为基于距离函数构建的损失函数;所述距离函数包括欧式距离。
在一些优选的实施方式中,所述的攻击样本生成算法为:
Figure BDA0003320138920000031
Figure BDA0003320138920000032
Figure BDA0003320138920000033
ClipX,∈{X′}(x,y)=min{γ,X(x,y)+∈,max{0,X(x,y)-∈,X′(x,y)}}
其中,Xclean、X均表示干净样本,
Figure BDA0003320138920000034
表示第N次迭代获取的对抗样本,J(·,·)表示损失函数,hs表示目标锚点特征,ClipX,∈{X′}表示裁剪函数,(x,y)表示像素坐标,∈表示噪声扰动强度,α、γ表示预设的权重参数,F表示特征提取网络,
Figure BDA0003320138920000035
表示未剪裁的第N+1次迭代获取的对抗样本,
Figure BDA0003320138920000036
表示对干净样本X求梯度。
在一些优选的实施方式中,所述连续学习算法为OWM连续学习算法。
本发明的第二方面,提出了一种针对连续学习能力系统的基于特征操纵的攻击和防御系统,所述连续学习能力系统为图像分类模型,该系统包括:干净样本获取模块、干净样本特征提取模块、目标锚点特征提取模块、对抗样本生成方法、连续学习模块、防御优化模块、图像分类模块;
所述干净样本获取模块,配置为获取图像训练样本集中待分类学习的B类任务对应的训练样本,作为干净样本;所述图像训练样本集中含有M种待分类学习的任务;
所述干净样本特征提取模块,配置为通过预构建的特征提取网络提取所述干净样本的特征,作为干净样本特征;
所述目标锚点特征提取模块,配置为获取图像训练样本集中待分类学习的C类任务对应的训练样本,作为目标样本,并通过所述特征提取网络提取目标样本的特征,作为目标锚点特征;
所述对抗样本生成方法,配置为基于所述干净样本特征,结合所述目标锚点特征,通过预设的攻击样本生成算法生成待分类学习的B类任务的对抗样本;
所述连续学习模块,配置为将干净样本从所述图像训练样本集中删除,将对抗样本增入图像训练样本集,并通过连续学习算法对图像分类模型进行训练,统计所述图像分类模型在C类任务分类学习时所述干净样本对应的分类正确率;
所述防御优化模块,配置为若所述分类正确率低于设定阈值,则在所述图像分类模型的线性分类层中增加一个神经元,用于识别除M种待分类学习的类别外的类别;将包含对抗样本的图像训练样本集中的各类任务的训练样本和第一矩阵按照1:n的比例,在包含对抗样本的图像训练样本集增入第一矩阵,增入后,对增加神经元的图像分类模型进行训练,直至得到训练好的图像分类模型;否则,跳转图像分类模块;其中,所述第一矩阵为基于随机噪声构建的像素矩阵;n为正整数;
所述图像分类模块,配置为基于训练好的图像分类模型对待分类的图像进行分类。
本发明的第三方面,提出了一种电子设备,包括:至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的针对连续学习能力系统的基于特征操纵的攻击和防御方法。
本发明的第四方面,提出了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的针对连续学习能力系统的基于特征操纵的攻击和防御方法。
本发明的有益效果:
本发明提升了现有基于连续学习的智能系统的安全性、鲁棒性。
1)本发明提出一种新的神经网络攻击算法,在不需要直接攻击和修改系统参数的情况,只利用系统自身的学习的能力,操纵连续学习系统的能力和学习结果,主要针对神经网络的训练过程,而非像传统的神经网络攻击算法往往针对一个静态的神经网络模型。在算法设计上,它具有可扩展性强、易操作并且具有较强隐蔽性等优点;
2)本发明将首次对主流连续学习算法的鲁棒性进行系统的量化和分析。目前,在连续学习领域,关注的焦点还是在新算法的提出,刷新神经网络的连续学习性能,而对于连续学习算法的鲁棒性缺乏系统的研究。因此,本发明不仅将是一个有益的补充,还可能为连续学习算法设计提供新的视角。
3)本发明揭示了现有连续学习算法在实际场景应用时的潜在风险,同时也给出了有效的防御策略。无论是将来研究新的连续学习算法,还是将已有连续学习算法落地使用,本发明都具有积极的意义。
附图说明
通过阅读参照以下附图所做的对非限制性实施例所做的详细描述,本申请的其他特征、目的和优点将会变得更明显。
图1是本发明一种实施例的针对连续学习能力系统的基于特征操纵的攻击和防御方法的流程示意图;
图2为本发明一种实施例的生成的对抗样本的示例图;
图3是本发明一种实施例的针对连续学习的对抗攻击过程的示意图;
图4是本发明一种实施例的图像分类模型受到攻击后的实施效果的示意图;其中,(a)是全部任务学完后,被攻击的图像分类模型和对照组的各任务准确率对比图;(b)是学习进程中,被攻击的图像分类模型和对照组对于干净3的测试准确率变化折线图;
图5是本发明一种实施例的防御优化后的实施效果的示意图;其中,(a)是全部任务学完后,经过防御后的图像分类模型和未受攻击的图像分类模型的各任务准确率对比图;(b)是全部任务学完后,被攻击的图像分类模型和经过防御后的图像分类模型的各任务准确率对比图;(c)是学习进程中,对照组、被攻击的图像分类模型和经过防御的图像分类模型,对于干净3的测试准确率变化折线图;
图6是本发明一种实施例的适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明第一实施例的一种针对连续学习能力系统的基于特征操纵的攻击和防御方法,所述连续学习能力系统为图像分类模型,如图1所示,该方法包括以下步骤:
步骤S10,获取图像训练样本集中待分类学习的B类任务对应的训练样本,作为干净样本;所述图像训练样本集中含有M种待分类学习的任务;
步骤S20,通过预构建的特征提取网络提取所述干净样本的特征,作为干净样本特征;
步骤S30,获取图像训练样本集中待分类学习的C类任务对应的训练样本,作为目标样本,并通过所述特征提取网络提取目标样本的特征,作为目标锚点特征;
步骤S40,基于所述干净样本特征,结合所述目标锚点特征,通过预设的攻击样本生成算法生成待分类学习的B类任务的对抗样本;
步骤S50,将干净样本从所述图像训练样本集中删除,将对抗样本增入图像训练样本集,并通过连续学习算法对图像分类模型进行训练,统计所述图像分类模型在C类任务分类学习时所述干净样本对应的分类正确率;
步骤S60,若所述分类正确率低于设定阈值,则在所述图像分类模型的线性分类层中增加一个神经元,用于识别除M种待分类学习的类别外的类别;将包含对抗样本的图像训练样本集中的各类任务的训练样本和第一矩阵按照1:n的比例,在包含对抗样本的图像训练样本集增入第一矩阵,增入后,对增加神经元的图像分类模型进行训练,直至得到训练好的图像分类模型;否则,跳转步骤S70;其中,所述第一矩阵为基于随机噪声构建的像素矩阵;n为正整数;
步骤S70,基于训练好的图像分类模型对待分类的图像进行分类。
为了更清晰地对本发明针对连续学习能力系统的基于特征操纵的攻击和防御方法进行说明,下面结合附图,对本发明方法一种实施例中各步骤进行展开详述。
在本发明中,针对人工神经网络连续学习系统,提出了一种隐蔽式、延迟性的攻击。可以使对于系统的破坏并不立马表现出来,而是在特定的连续学习阶段使目标任务性能骤降。这对当前连续学习系统提出了重大挑战,也为连续学习算法的鲁棒性设计提供了思路。
为实现上述目的,本发明:1)预设一个攻击目标任务;构建一个独立于连续学习系统、预设的特征提取网络,用于提取连续学习系统的目标任务信息类型所对应的特征向量;2)使用特征提取网络,定义某种度量来衡量样本中的关键特征,确定对于预设攻击目标任务的关键性特征;3)基于预设目标任务的关键性特征,对预设任务的训练样本进行特征微调后,即完成了对连续学习系统中预设目标任务的隐蔽式攻击操作。具体过程如下:
步骤S10,获取图像训练样本集中待分类学习的B类任务对应的训练样本,作为干净样本;所述图像训练样本集中含有M种待分类学习的任务;
在本实施例中,采集连续学习系统(即图像分类模型)在分类学习时的图像训练样本,构建图像样本训练集。图像训练样本集中含有M种待分类学习的任务,例如,本实施例中采用MNIST训练集作为图像本训练集,包含10个手写体数字的60000张图片,即本发明的图像样本训练集包含0~9的10中待分类学习的任务。
获取图像训练样本集中待分类学习的B类任务对应的训练样本,作为干净样本。例如,本实施例中选取数字3作为干净样本(即待攻击学习的样本),简称“干净3”。
步骤S20,通过预构建的特征提取网络提取所述干净样本的特征,作为干净样本特征;
在本实施例中,特征提取网络基于深度神经网络构建,本发明特征提取网络以基于深度学习的全连接神经网络为例,其中,基于深度学习的全连接神经网络优选为三层全连接神经网络,结构为[784-800-10],并在全部MNIST训练集上训练该网络。[784-800-10],即网络的第一层为784个神经元的输入层,与训练样本的数据维度匹配;第二层为含有800个神经元的隐层,最后一层是包含10个类别的分类层。我们首先使用传统的多输出的方法训练数据,在MNIST的训练集上用该基于深度学习的全连接网络训练了一个特征向量提取器(即特征提取网络),然后去掉网络的最后一层线性分类层,使用倒数第二层的输出作为数据的特征。即本发明中的特征提取网络基于去掉线性分类层的深度神经网络构建。
特征提取网络在训练时,使用Adam算法,学习率为0.1,权重衰减率为0.0001,每个Batch的大小为256。
步骤S30,获取图像训练样本集中待分类学习的C类任务对应的训练样本,作为目标样本,并通过所述特征提取网络提取目标样本的特征,作为目标锚点特征;
在本实施例中,可以指定在图像样本训练集对应的特征空间中的某个空间点或某个子空间作为目标特征。目标特征的选择视具体需要而确定,可以选定攻击目标任务之外的某个任务中的样本特征作为其目标特征。例如,本实施例中优选数字5作为目标样本,并提取目标样本的特征作为目标锚点特征。
步骤S40,基于所述干净样本特征,结合所述目标锚点特征,通过预设的攻击样本生成算法生成待分类学习的B类任务的对抗样本;
在本实施例中,将图像样本训练集中所有数字3取出,优选采用欧氏距离作为损失函数。在其他实施例中,可以根据实际需要,用其他距离来作为损失函数。即图像分类模型在连续学习时特征层面的损失函数基于距离函数构建。
在本发明中,定义图像分类模型在连续学习时特征层面的损失函数为J=‖hclean-hadv2,其中,hclean为数字3的原始特征,即干净样本特征,hadv为参考数字5特征得到的目标特征,即对抗样本特征。固定特征提取网络,采用以下方法迭代更新数字的对抗样本:
Figure BDA0003320138920000101
Figure BDA0003320138920000102
Figure BDA0003320138920000103
ClipX,∈{X′}(x,y)=min{γ,X(x,y)+∈,max{0,X(x,y)-∈,X′(x,y)}} (4)
其中,Xclean、X均表示干净样本,
Figure BDA0003320138920000104
表示第N次迭代获取的对抗样本,J(·,·)表示损失函数,hs表示目标锚点特征,ClipX,∈{X′}表示裁剪函数,(x,y)表示像素坐标,∈表示噪声扰动强度,α、γ表示预设的权重参数,F表示特征提取网络,
Figure BDA0003320138920000105
表示未剪裁的第N+1次迭代获取的对抗样本,
Figure BDA0003320138920000106
表示对干净样本X求梯度。
例如,α为0,γ为255,则ClipX,∈{X′}(x,y)=min{255,X(x,y)+∈,max{0,X(x,y)-∈,X′(x,y)}}。
经过N轮迭代后,得到对抗样本Xadv,图2为生成的对抗样本和原始样本,二者十分接近,非常具有隐蔽性。
步骤S50,将干净样本从所述图像训练样本集中删除,将对抗样本增入图像训练样本集,并通过连续学习算法对图像分类模型进行训练,统计所述图像分类模型在C类任务分类学习时所述干净样本对应的分类正确率;
在本实施例中,构建一个可以连续学习的前馈神经网络,优选同样以网络结构[784-800-10]基于深度学习的全连接神经网络为例,作为图像分类模型,即本发明中的图像分类模型基于深度神经网络构建。在连续学习时,将干净样本从所述图像训练样本集中删除,将对抗样本增入图像训练样本集,按照0~9的顺序,优选使用OWM连续学习算法训练网络,在其他实施例中,可以根据实际需要,选取其他的连续学习算法对网络进行训练。此时,当连续学习能力系统在学习数字3时,我们将其中90%的干净样本(或全部干净样本)替换为攻击样本。期望的攻击效果将在神经网络在真正学习任务5时触发。攻击过程如图3所示,其中a为正常的连续学习过程,b为被攻击的过程,B类任务为被攻击的任务,C类任务为攻击的触发点。图4为本发明方法的攻击效果。攻击后,任务3(数字3)的性能相对正常连续学习急剧下降(图4(a))。在过程中,任务3在刚刚学习完时表现正常,但在学习数字5后性能急剧下降(图4(b))。另外,图4以及图5中的“对照”,指的是图像分类模型的图像训练样本集未增入对抗样本,训练后的图像分类模型对各数字的分类准确率(即测试准确率)。
步骤S60,若所述分类正确率低于设定阈值,则在所述图像分类模型的线性分类层中增加一个神经元,用于识别除M种待分类学习的类别外的类别;将包含对抗样本的图像训练样本集中的各类任务的训练样本和第一矩阵按照1:n的比例,在包含对抗样本的图像训练样本集增入第一矩阵,增入后,对增加神经元的图像分类模型进行训练,直至得到训练好的图像分类模型;否则,跳转步骤S70;其中,所述第一矩阵为基于随机噪声构建的像素矩阵;n为正整数;
经试验发现,对抗样本可以用任意样本生成,即使用随机噪声也可以生成对抗样本。并且生成的对抗样本具有有效性,即在生成它的网络看来可以100%误导。这给予我们启发:随机噪声充满了整个样本空间,且总量和密度远远大于MNIST数据集。但如果强行将样本输入被训好的网络,那网络会将其强行分类。如果我们能够“教会”网络认识这些噪声(MNIST task-unnecessary samples),那么相当于“挤掉了”对抗样本可能的分布空间,从而增强模型鲁棒性。
在本实施例中,第一步是将网络的结构进行扩展,在最后的分类层多一个神经元,用以教会系统什么是“什么都不是”的类别,即拒识类。第二步是在训练过程中,在每个任务中,除了原本任务的样本,再添加部分辅助样本合并至该任务,对该任务进行学习。这样便完成了防御工作,具体处理过程如下:
若所述分类正确率低于设定阈值,则在线性分类层增加一个head(神经元),用以识别随机噪声,那么网络的结构就变为[784-800-11]。对包含对抗样本的图像训练样本集中的各类任务,按照1:n的比例生成随机噪声图片(例如,“数字0”原本有100张训练图像,按照1:n比例,假如n为6,则生成600张随机噪声图片,即现在“数字0”总共有700张训练图像),并打上第11类的标签,并入包含对抗样本的图像训练样本集。用11-head的网络训练这个数据增强过的图像训练样本集。防御优化后的效果如图5所示,其中柱状图表示所有任务学完后每个任务的测试准确率,折线图表示随着学习进程推进,干净数字3的测试准确率。
其中,受到攻击后数字3的准确率从86.93%下降至17.13%,性能损失有69.8%;通过防御后准确率从86.93%下降至38.61%,性能损失有48.32%,大概为原损失69.8%的0.7倍,即经过防御后性能损失减小约30%。
步骤S70,基于训练好的图像分类模型对待分类的图像进行分类。
在本实施例中,获取待分类的图像,通过连续学习算法训练好的图像分类模型(即若所述分类正确率低于设定阈值,则使用步骤S60训练好的图像分类模型,否则使用步骤S50训练好的图像分类模型)对待分类的图像进行分类,输出分类结果。
另外,本发明针对连续学习能力系统的基于特征操纵的攻击和防御方法,在其他实施例中,也可以根据实际的应用场景以及应用需要,用于其他智能系统的攻击和防御,例如图像检测、识别等,此处不再一一阐述。
本发明第二实施例的一种针对连续学习能力系统的基于特征操纵的攻击和防御系统,所述连续学习能力系统为图像分类模型,该系统包括:干净样本获取模块、干净样本特征提取模块、目标锚点特征提取模块、对抗样本生成方法、连续学习模块、防御优化模块、图像分类模块;
所述干净样本获取模块,配置为获取图像训练样本集中待分类学习的B类任务对应的训练样本,作为干净样本;所述图像训练样本集中含有M种待分类学习的任务;
所述干净样本特征提取模块,配置为通过预构建的特征提取网络提取所述干净样本的特征,作为干净样本特征;
所述目标锚点特征提取模块,配置为获取图像训练样本集中待分类学习的C类任务对应的训练样本,作为目标样本,并通过所述特征提取网络提取目标样本的特征,作为目标锚点特征;
所述对抗样本生成方法,配置为基于所述干净样本特征,结合所述目标锚点特征,通过预设的攻击样本生成算法生成待分类学习的B类任务的对抗样本;
所述连续学习模块,配置为将干净样本从所述图像训练样本集中删除,将对抗样本增入图像训练样本集,并通过连续学习算法对图像分类模型进行训练,统计所述图像分类模型在C类任务分类学习时所述干净样本对应的分类正确率;
所述防御优化模块,配置为若所述分类正确率低于设定阈值,则在所述图像分类模型的线性分类层中增加一个神经元,用于识别除M种待分类学习的类别外的类别;将包含对抗样本的图像训练样本集中的各类任务的训练样本和第一矩阵按照1:n的比例,在包含对抗样本的图像训练样本集增入第一矩阵,增入后,对增加神经元的图像分类模型进行训练,直至得到训练好的图像分类模型;否则,跳转图像分类模块;其中,所述第一矩阵为基于随机噪声构建的像素矩阵;n为正整数;
所述图像分类模块,配置为基于训练好的图像分类模型对待分类的图像进行分类。
所述技术领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体的工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的针对连续学习能力系统的基于特征操纵的攻击和防御系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种电子设备,至少一个处理器;以及与至少一个所述处理器通信连接的存储器;其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求上述的针对连续学习能力系统的基于特征操纵的攻击和防御方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求上述的针对连续学习能力系统的基于特征操纵的攻击和防御方法。
所述技术领域的技术人员可以清楚的了解到,未描述的方便和简洁,上述描述的针对连续学习能力系统的基于特征操纵的攻击和防御装置、电子设备、计算机可读存储介质的具体工作过程及有关说明,可以参考前述方法实例中的对应过程,在此不再赘述。
下面参考图6,其示出了适于用来实现本申请系统、方法、设备实施例的服务器的计算机系统的结构示意图。图6示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统包括中央处理单元(CPU,Central Processing Unit)601,其可以根据存储在只读存储器(ROM,Read Only Memory)602中的程序或者从存储部分608加载到随机访问存储器(RAM,Random Access Memory)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有系统操作所需的各种程序和数据。CPU601、ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O,Input/Output)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管、液晶显示器等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如局域网卡、调制解调器等的网络接口卡的通讯部分609。通讯部分609经由诸如因特网的网络执行通讯处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通讯部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被CPU601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言,如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网或广域网连接到用户计算机,或者可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (8)

1.一种针对连续学习能力系统的基于特征操纵的攻击和防御方法,所述连续学习能力系统为图像分类模型,其特征在于,该方法包括:
步骤S10,获取图像训练样本集中待分类学习的B类任务对应的训练样本,作为干净样本;所述图像训练样本集中含有M种待分类学习的任务;
步骤S20,通过预构建的特征提取网络提取所述干净样本的特征,作为干净样本特征;
步骤S30,获取图像训练样本集中待分类学习的C类任务对应的训练样本,作为目标样本,并通过所述特征提取网络提取目标样本的特征,作为目标锚点特征;
步骤S40,基于所述干净样本特征,结合所述目标锚点特征,通过预设的攻击样本生成算法生成待分类学习的B类任务的对抗样本;
步骤S50,将干净样本从所述图像训练样本集中删除,将对抗样本增入图像训练样本集,并通过连续学习算法对图像分类模型进行训练,统计所述图像分类模型在C类任务分类学习时所述干净样本对应的分类正确率;
步骤S60,若所述分类正确率低于设定阈值,则在所述图像分类模型的线性分类层中增加一个神经元,用于识别除M种待分类学习的类别外的类别;将包含对抗样本的图像训练样本集中的各类任务的训练样本和第一矩阵按照1:n的比例,在包含对抗样本的图像训练样本集增入第一矩阵,增入后,对增加神经元的图像分类模型进行训练,直至得到训练好的图像分类模型;否则,跳转步骤S70;其中,所述第一矩阵为基于随机噪声构建的像素矩阵;n为正整数;
步骤S70,基于训练好的图像分类模型对待分类的图像进行分类。
2.根据权利要求1所述的针对连续学习能力系统的基于特征操纵的攻击和防御方法,其特征在于,所述特征提取网络、所述图像分类模型均基于深度神经网络构建;其中,所述特征提取网络基于去掉线性分类层的深度神经网络构建。
3.根据权利要求1所述的针对连续学习能力系统的基于特征操纵的攻击和防御方法,其特征在于,所述图像分类模型在连续学习时特征层面的损失函数为基于距离函数构建的损失函数;所述距离函数包括欧式距离。
4.根据权利要求3所述的针对连续学习能力系统的基于特征操纵的攻击和防御方法,其特征在于,所述的攻击样本生成算法为:
Figure FDA0003320138910000021
Figure FDA0003320138910000022
Figure FDA0003320138910000023
ClipX,∈{X′}(X,y)=min{γ,X(X,y)+∈,max{0,X(x,y)-∈,X′(X,y)}}
其中,Xclean、X均表示干净样本,
Figure FDA0003320138910000024
表示第N次迭代获取的对抗样本,J(·,·)表示损失函数,hs表示目标锚点特征,ClipX,∈{X′}表示裁剪函数,(x,y)表示像素坐标,∈表示噪声扰动强度,α、γ表示预设的权重参数,F表示特征提取网络,
Figure FDA0003320138910000025
表示未剪裁的第N+1次迭代获取的对抗样本,
Figure FDA0003320138910000026
表示对干净样本X求梯度。
5.根据权利要求1所述的针对连续学习能力系统的基于特征操纵的攻击和防御方法,其特征在于,所述连续学习算法为OWM连续学习算法。
6.一种针对连续学习能力系统的基于特征操纵的攻击和防御系统,所述连续学习能力系统为图像分类模型,其特征在于,该系统包括:干净样本获取模块、干净样本特征提取模块、目标锚点特征提取模块、对抗样本生成方法、连续学习模块、防御优化模块、图像分类模块;
所述干净样本获取模块,配置为获取图像训练样本集中待分类学习的B类任务对应的训练样本,作为干净样本;所述图像训练样本集中含有M种待分类学习的任务;
所述干净样本特征提取模块,配置为通过预构建的特征提取网络提取所述干净样本的特征,作为干净样本特征;
所述目标锚点特征提取模块,配置为获取图像训练样本集中待分类学习的C类任务对应的训练样本,作为目标样本,并通过所述特征提取网络提取目标样本的特征,作为目标锚点特征;
所述对抗样本生成方法,配置为基于所述干净样本特征,结合所述目标锚点特征,通过预设的攻击样本生成算法生成待分类学习的B类任务的对抗样本;
所述连续学习模块,配置为将干净样本从所述图像训练样本集中删除,将对抗样本增入图像训练样本集,并通过连续学习算法对图像分类模型进行训练,统计所述图像分类模型在C类任务分类学习时所述干净样本对应的分类正确率;
所述防御优化模块,配置为若所述分类正确率低于设定阈值,则在所述图像分类模型的线性分类层中增加一个神经元,用于识别除M种待分类学习的类别外的类别;将包含对抗样本的图像训练样本集中的各类任务的训练样本和第一矩阵按照1:n的比例,在包含对抗样本的图像训练样本集增入第一矩阵,增入后,对增加神经元的图像分类模型进行训练,直至得到训练好的图像分类模型;否则,跳转图像分类模块;其中,所述第一矩阵为基于随机噪声构建的像素矩阵;n为正整数;
所述图像分类模块,配置为基于训练好的图像分类模型对待分类的图像进行分类。
7.一种电子设备,其特征在于,包括:
至少一个处理器;以及与至少一个所述处理器通信连接的存储器;
其中,所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-5任一项所述的针对连续学习能力系统的基于特征操纵的攻击和防御方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求1-5任一项所述的针对连续学习能力系统的基于特征操纵的攻击和防御方法。
CN202111242998.2A 2021-10-25 2021-10-25 针对连续学习能力系统的基于特征操纵的攻击和防御方法 Pending CN113919497A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111242998.2A CN113919497A (zh) 2021-10-25 2021-10-25 针对连续学习能力系统的基于特征操纵的攻击和防御方法
PCT/CN2021/128193 WO2023070696A1 (zh) 2021-10-25 2021-11-02 针对连续学习能力系统的基于特征操纵的攻击和防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111242998.2A CN113919497A (zh) 2021-10-25 2021-10-25 针对连续学习能力系统的基于特征操纵的攻击和防御方法

Publications (1)

Publication Number Publication Date
CN113919497A true CN113919497A (zh) 2022-01-11

Family

ID=79242793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111242998.2A Pending CN113919497A (zh) 2021-10-25 2021-10-25 针对连续学习能力系统的基于特征操纵的攻击和防御方法

Country Status (2)

Country Link
CN (1) CN113919497A (zh)
WO (1) WO2023070696A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708460A (zh) * 2022-04-12 2022-07-05 济南博观智能科技有限公司 一种图像分类方法、系统、电子设备及存储介质
CN115409818A (zh) * 2022-09-05 2022-11-29 江苏济远医疗科技有限公司 一种应用于内窥镜图像目标检测模型的增强训练方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036869B (zh) * 2023-10-08 2024-01-09 之江实验室 一种基于多样性和随机策略的模型训练方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334808A (zh) * 2019-06-12 2019-10-15 武汉大学 一种基于对抗样本训练的对抗攻击防御方法
US11636332B2 (en) * 2019-07-09 2023-04-25 Baidu Usa Llc Systems and methods for defense against adversarial attacks using feature scattering-based adversarial training
CN111753881B (zh) * 2020-05-28 2024-03-29 浙江工业大学 一种基于概念敏感性量化识别对抗攻击的防御方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708460A (zh) * 2022-04-12 2022-07-05 济南博观智能科技有限公司 一种图像分类方法、系统、电子设备及存储介质
CN115409818A (zh) * 2022-09-05 2022-11-29 江苏济远医疗科技有限公司 一种应用于内窥镜图像目标检测模型的增强训练方法
CN115409818B (zh) * 2022-09-05 2023-10-27 江苏济远医疗科技有限公司 一种应用于内窥镜图像目标检测模型的增强训练方法

Also Published As

Publication number Publication date
WO2023070696A1 (zh) 2023-05-04

Similar Documents

Publication Publication Date Title
Warnecke et al. Evaluating explanation methods for deep learning in security
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
Gong et al. Change detection in synthetic aperture radar images based on deep neural networks
CN111178183B (zh) 人脸检测方法及相关装置
US9111375B2 (en) Evaluation of three-dimensional scenes using two-dimensional representations
CN113919497A (zh) 针对连续学习能力系统的基于特征操纵的攻击和防御方法
CN109800682B (zh) 驾驶员属性识别方法及相关产品
CN109840413B (zh) 一种钓鱼网站检测方法及装置
JP7381942B2 (ja) 制御方法、情報処理装置および制御プログラム
KR20210037632A (ko) 생체 검출 방법 및 장치
CN111639667B (zh) 图像识别方法、装置、电子设备及计算机可读存储介质
Chen et al. Patch selection denoiser: An effective approach defending against one-pixel attacks
CN115439708A (zh) 一种图像数据处理方法和装置
CN111783716A (zh) 基于姿态信息的行人检测方法、系统、装置
Suratkar et al. Deep-fake video detection approaches using convolutional–recurrent neural networks
Phoka et al. Image based phishing detection using transfer learning
CN114282258A (zh) 截屏数据脱敏方法、装置、计算机设备及存储介质
Hashemi et al. Runtime monitoring for out-of-distribution detection in object detection neural networks
CN114638356A (zh) 一种静态权重引导的深度神经网络后门检测方法及系统
EP3975071A1 (en) Identifying and quantifying confounding bias based on expert knowledge
CN110889316A (zh) 一种目标对象识别方法、装置及存储介质
CN117390685B (zh) 一种基于遗忘学习的行人重识别数据隐私保护方法和系统
CN117454187B (zh) 一种基于频域限制目标攻击的集成模型训练方法
Ghani et al. Securing synthetic faces: A GAN-blockchain approach to privacy-enhanced facial recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination