CN111275192B - 一种同时提高神经网络精确度和鲁棒性的辅助训练方法 - Google Patents

一种同时提高神经网络精确度和鲁棒性的辅助训练方法 Download PDF

Info

Publication number
CN111275192B
CN111275192B CN202010131293.2A CN202010131293A CN111275192B CN 111275192 B CN111275192 B CN 111275192B CN 202010131293 A CN202010131293 A CN 202010131293A CN 111275192 B CN111275192 B CN 111275192B
Authority
CN
China
Prior art keywords
training
classifier
auxiliary
image
clean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010131293.2A
Other languages
English (en)
Other versions
CN111275192A (zh
Inventor
张林峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cross Information Core Technology Research Institute Xi'an Co ltd
Tsinghua University
Original Assignee
Cross Information Core Technology Research Institute Xi'an Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cross Information Core Technology Research Institute Xi'an Co ltd filed Critical Cross Information Core Technology Research Institute Xi'an Co ltd
Priority to CN202010131293.2A priority Critical patent/CN111275192B/zh
Publication of CN111275192A publication Critical patent/CN111275192A/zh
Application granted granted Critical
Publication of CN111275192B publication Critical patent/CN111275192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种同时提高神经网络精确度和鲁棒性的辅助训练方法,辅助训练的数据包括两个部分:来自数据集的图像(记为干净的图像)和通过损坏数据增强从干净的图像生成的图像(记为损坏的图像)。在辅助训练的第一阶段,两种图像都被馈送到相同的卷积层以得到表示特征。然后,在卷积层之后为每种类型的图像附加单独的分类器,每个分类器仅负责其相应图像特征的预测。干净的图像和损坏的图像的分类器分别被称为主分类器和辅助分类器。在辅助训练结束时,在主分类器和辅助分类器的权值之间应用L2损失以最小化它们的差异,直到两个分类器都具有相同的权值。结果主分类器和辅助分类器被合并在一起,因此辅助分类器可以被直接丢弃以减少神经网络的参数。

Description

一种同时提高神经网络精确度和鲁棒性的辅助训练方法
技术领域
本发明涉及卷积神经网络的训练,具体为一种同时提高神经网络精确度和鲁棒性的辅助训练方法。
背景技术
借助于神经网络,在包括计算机视觉、自然语言处理等各种领域的深度学习,已经获得了显著的成就。然而,在诸如旋转、模糊、雨痕和噪声的现实应用场景中广泛观察到的图像损坏,由于神经网络的脆弱性而导致严重的精确度降低。
现有技术中,一种简单而有效的提升神经网络鲁棒性的方法是数据增强。然而,对于用数据增强训练的神经网络,同时损害干净的数据的精确度,这在应用场景中是无法容忍的。此外,不同种类的损坏的神经网络鲁棒性总是相互影响的。例如,高斯噪声数据增强导致噪声损坏的鲁棒性增量,但是减少了对具有不同对比度和饱和度的图像的神经网络鲁棒性。
神经网络在应用场景的部署对于精确度和鲁棒性都有严格的要求。然而,当前的大部分方法都面临着一个困境,那就是模型精确度和鲁棒性之间存在着令人尴尬的权衡——其中一个提升,另外一个就会下降。同时提升精确度和鲁棒性仍然是挑战。
发明内容
针对现有技术中存在的问题,本发明提供一种同时提高神经网络精确度和鲁棒性的辅助训练方法,在推断阶段不增加计算和参数的情况下,提升了模型的精确度和鲁棒性。
本发明是通过以下技术方案来实现:
一种同时提高神经网络精确度和鲁棒性的辅助训练方法,包括如下步骤,
步骤1,第一训练阶段,
步骤1.1,将来自数据集的干净的图像,以及从数据增强生成的损坏的图像,合并作为图像训练的整个训练集;
步骤1.2,将整个训练集的所有图像馈送到相同的卷积层,以得到表示特征,分别得到干净的图像的特征和损坏的图像的特征;
步骤1.3,将干净的图像的特征馈入到主分类器中,将损坏的图像的特征被馈入到辅助分类器中,分别进行训练;
步骤2,第二训练阶段,利用L2损失来迫使辅助分类器的权值以定向主分类器,直到它们具有完全相同的权值,完成对神经网络的辅助训练。
优选的,第一阶段训练和第二阶段训练的训练函数如下,
Figure BDA0002395839130000021
式中,惩罚函数Ω如下,
Figure BDA0002395839130000022
通过超参数γ的控制,分别进行两个阶段训练;当γ=0时,进行第一阶段训练;当γ=1时,进行第二阶段训练;
其中,l(·,·)是损失函数,即L2-范数、交叉熵和KL散度;Ω表示惩罚函数,g(·,·)表示使用分类器对于特征进行分类,θ表示分类器的参数,α是一个控制比例的超参数,
Figure BDA0002395839130000023
表示卷积神经网络抽取的特征。
优选的,步骤1.2中,将整个训练集进行选择性的批规范化处理后,将整个训练集的所有图像馈送到相同的卷积层。
优选的,对整个训练集进行选择性的批规范化时,分别计算干净的图像和损坏的图像的均值和方差,并仅由干净的图像更新其参数;具体采用如下公式进行,
Figure BDA0002395839130000031
其中,将在第k个卷积层中的特征映射
Figure BDA0002395839130000032
表示为
Figure BDA0002395839130000033
γ和β是通过反向传播训练的用于缩放和移位的两个参数,是具有小值以避免零除误差的数;
Figure BDA0002395839130000034
为平均值,
Figure BDA0002395839130000035
为方差。
优选的,通过输入感知的自蒸馏,将主分类器作为教师模型,辅助分类器作为学生模型,将知识从干净的图像转移到损坏的图像,并使主分类器能够从辅助分类器学习鲁棒信息。
优选的,步骤1.3中,主分类器由一个全连接层组成;辅助分类器由依次设置的一个注意力模块和一个全连接层组成;注意力模块由一个卷积层和一个去卷积层,以及瓶颈层组成;瓶颈层由1x1、3x3和1x1卷积层组成。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种同时提高神经网络精确度和鲁棒性的辅助训练方法,解决了同时提升神经网络精确度和鲁棒性这个问题,辅助训练的数据包括两个部分:来自数据集的图像(记为干净的图像)和通过损坏数据增强从干净的图像生成的图像(记为损坏的图像)。在本发明中的损坏数据增强表明,对干净的图像添加来自自然界的噪声、模糊和其它图像损坏。在所提出的辅助训练的第一阶段,两种图像都被馈送到相同的卷积层,以得到表示特征。然后,不同于常见的数据增强,我们在卷积层之后为每种类型的图像附加单独的分类器。每个分类器仅负责其相应图像特征的预测。干净的图像和损坏的图像的分类器分别被称为主分类器和辅助分类器。在辅助训练结束时,在主分类器和辅助分类器的权值之间应用L2损失以最小化它们的差异,直到主分类器和辅助分类器都具有相同的权值。结果,主分类器和辅助分类器被合并在一起,因此辅助分类器可以被直接丢弃以减少神经网络的参数。在测试阶段,仅利用主分类器对所有输入图像进行分类。
进一步的,通过提出输入感知的自蒸馏以促进辅助训练的精确度。输入感知的自蒸馏把主分类器作为教师模型,辅助分类器作为学生模型,将知识从干净的图像转移到损坏的图像,并使主分类器能够从辅助分类器学习鲁棒信息。
进一步的,通过提出选择性的批规范化促进辅助训练的鲁棒性。选择性的批规范化分别计算干净的图像和损坏的图像的均值和方差,并仅由干净的图像更新其参数,避免了损坏的图像的不利影响。
附图说明
图1为本发明实例中所述辅助训练方法和测试阶段的流程示意图。
图2为利用2D的离散傅里叶变换(DFT)进行频率摄动的过程。
图3为两个ResNet18模型在频率摄动敏感度研究中的精确度热图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
本发明一种同时提高神经网络精确度和鲁棒性的辅助训练方法,如图1所示,其包括两个测试阶段,
(a)训练阶段1:(i)在训练中涉及的图像包括来自数据集的干净的图像,以及从数据增强生成的损坏的(例如模糊、噪声)的图像。(ii)利用所提出的选择性的批规范化将所有图像馈送到相同的卷积层,以得到表示特征。(iii)然后将干净的图像的特征馈入到主分类器中,主分类器由一个全连接层组成。然后损坏的图像的特征被馈入到辅助分类器,其由注意力模块和全连接层组成。
(b)训练阶段2:(iv)在训练阶段结束时,利用L2损失来迫使辅助分类器的权值以定向主分类器,直到它们具有完全相同的权值。
经过本发明所述辅助训练的神经网络在在测试阶段时,通过主分类器对所有输入图像进行分类,并且可以丢弃辅助分类器以减少神经网络模型的参数。
本发明所提出的辅助训练不仅符合直觉,它在数学上也有完备的理论基础。辅助训练可以作为惩罚函数方法在神经网络训练中应用。本发明提出的辅助训练方法,实现了神经网络的精确度和鲁棒性的显著提升,同时在训练过程中没有额外的计算或存储需求。实验示出,在CIFAR100上可以观察到2.21%的精确度和21.64%的鲁棒性提升。
同时提出了包括输入感知的自蒸馏和选择性的批规范化两种有效的技术,进一步提升所提出的辅助训练的性能,为多出口的神经网络设计提供了丰富的依据。
本发明主要针对常见的图像损坏的鲁棒性,本发明特点还可以从多任务训练的角度来理解。在辅助训练中,对原始干净的数据的分类可作为主任务,对损坏的数据的分类可作为辅助任务。在训练阶段中,辅助分类器允许神经网络从损坏的图像中学习鲁棒特征。因为卷积层在各种分类器之间共享,所以这些特征也包含在干净的图像的分类中,从而使得在主分类器上的显著鲁棒性和精确度的提升。
本发明所述的辅助训练方法的产生如下。
Figure BDA0002395839130000051
是一组干净的训练样本,T={T1,T2,…,Tt}是一组损坏的操作,从而通过对干净的训练样本XC进行损坏操作T,从而得到第j个损坏的损坏训练组
Figure BDA0002395839130000052
因此,整个训练集表示为如下公式,
Figure BDA0002395839130000053
其中,
Figure BDA0002395839130000054
并且假设T0是恒等映射构成。
令f(x;θf)是可以是卷积神经网络的特征提取器,g(x;θg)是与第j个损坏相关联的分类器;特征映射为
Figure BDA0002395839130000061
在现有的增强训练方法中,是通过下式的最小化来寻找最佳参数的,
Figure BDA0002395839130000062
其中,l(·,·)是损失函数,即L2-范数、交叉熵和Kullback-Leibler(KL)散度,
Figure BDA0002395839130000063
示被第j个损坏的损坏第i个样本的特征映射。在式(1)中,同等地处理所有损坏,这可能与真实分布不一致。因此,假设第j个损坏的概率是αj=p(Tj),并且引入辅助分类器
Figure BDA0002395839130000064
Figure BDA0002395839130000065
用于每个损坏,极小化式(1)可以被公式化为,
Figure BDA0002395839130000066
Figure BDA0002395839130000067
容易知道解决上述非凸约束极小化式(2)是困难的。此外,以高精确度和鲁棒性找到式(2)的稳定点甚至更加困难。为了便于训练以合并到期望的分类器,我们仅通过干净的样本来训练主分类器,并且提出引入辅助分类器,使得每一个辅助分类器仅通过一种损坏的样本来训练。最后,通过规则化来合并来自辅助分类器的信息。
更具体地,假设
Figure BDA0002395839130000068
是我们期望的主分类器,并且分类器
Figure BDA0002395839130000069
Figure BDA00023958391300000610
被很好地训练用于第j个损坏,则它意味着训练目标,即处理干净图像的主分类器预测结果,处理损坏图像的辅助分类器的预测结果一致,表示为下式,
Figure BDA0002395839130000071
假设第j个损坏由ζ参数化,那么在特征空间中,我们在
Figure BDA0002395839130000072
的邻域中具有
Figure BDA0002395839130000073
当特征提取网络的容量足够大时,使得它可以学习用于损坏的某些不变特征,即δxj是小的,上式的一阶泰勒展开即为
Figure BDA0002395839130000074
如果存在小的摄动
Figure BDA0002395839130000075
使得
Figure BDA0002395839130000076
从而结合式(3)、(4)和(5),得到了鲁棒主分类器g(·;θf)的必要条件:
Figure BDA0002395839130000077
通过一阶近似,即,我们的辅助分类器是
Figure BDA0002395839130000078
并且通过输入图像的损坏隐含地给出摄动。因此,干净的样本的损坏轨迹对应于鲁棒分类器的轨迹。因此,为了实现主分类器的鲁棒性,最好沿损坏轨迹的切线方向选择平滑。然而,难以分析在特征空间中摄动的切线方向。相反,我们在
Figure BDA0002395839130000079
附近施加主分类器的平滑度,即,
Figure BDA00023958391300000710
这促使我们通过惩罚函数Ω松弛等式约束为:
Figure BDA00023958391300000711
因此,我们的辅助训练的总损失函数为,
Figure BDA00023958391300000712
在式(7)中存在三个超参数α、λ、γ,并且它们对于本发明后续的所有实验都是固定的。在本发明所述的辅助训练方法中,通过超参数γ的控制,分别通过式(7)进行两个阶段训练;当γ=0是,进行第一阶段训练;当γ=1是,进行第二阶段训练。
在本发明中,通过采用输入感知的自蒸馏提升精确度。
由师生结构构成的知识蒸馏是提升精确度的有效方法。然而,性能取决于教师的“智能”程度。在实践中,很难找到通用的“智能”教师。在提出的辅助训练中,应用“去中心化”想法来鼓励分类器之间的知识交流。更具体地,每个分类器仅由具有一定增强的数据来训练,并且在式(6)中定义的惩罚项Ω在同时训练策略下在主分类器和辅助分类器之间强加知识转移。换句话说,每个分类器可以被视为领域专家,并且它们相互学习。因此,作为教师-学生结构的替代,辅助训练方法更可能成为一个更有效的知识转移的
Figure BDA0002395839130000087
框架。
使用特权信息的学习框架并将其连接到知识蒸馏中。令
Figure BDA0002395839130000081
为第i个训练样本,其中(xi、yi)为特征标签对,而
Figure BDA0002395839130000082
为通过教师网络提供的xi的额外信息。在我们所提出的辅助学习框架中,由于两个干净的样本
Figure BDA0002395839130000083
都可以损坏样本
Figure BDA0002395839130000084
共享相同的标签信息,特权信息可以是
Figure BDA0002395839130000085
其中f是特征提取器。在普遍的蒸馏框架中,主分类器是教师,辅助分类器是学生。作为一种良好的特征提取器,f可以为损坏的图像提供一定的不变特性,合理的是辅助分类器在特征空间中相对容易学习,导致较好的泛化误差。从这个角度来看,它激发了所提出的架构包含公共的特征提取器,但是包含不同的损坏分类器。
表1:在CIFAR10数据集上通过辅助训练和标准训练训练的模型之间的精确度(%)的比较。WRN表示WideResNet。
Figure BDA0002395839130000086
Figure BDA0002395839130000091
表2:在CIFAR100数据集上通过辅助训练和标准训练训练的模型之间的精确度(%)的比较。WRN表示WideResNet。
模型 我们的方法 基线 增量
AlexNet 70.09 68.44 +1.65
ResNet18 79.47 77.09 +2.38
ResNet50 80.16 77.42 +2.74
ResNet101 80.51 77.81 +2.70
WRN50 80.84 79.08 +1.76
ResNeXt50 81.51 79.49 +2.02
如上述方法以及图1所示,本发明进一步的采用如下技术以促进神经网络的鲁棒性和精确度。
采用辅助分类器。如图1所示,不同于单一全连接层的主分类器,根据在SCAN中的浅层分类器,本发明中的辅助分类器由两个部件构成:一个注意力模块和一个全连接层。注意力模块由一个卷积层和一个去卷积层以及以一个瓶颈层组成,目的在于帮助辅助分类器得到有用的特征。注意力模块内的一个瓶颈层,它由1x1、3x3、1x1卷积层组成。由于所有辅助分类器仅在训练阶段使用,因此它们不会在推断阶段带来额外的存储和计算。
采用选择性的批规范化。批规范化广泛用于各类卷积神经网络以稳定模型的训练。然而,现有技术中也发现批规范化减少了在对抗攻击和损坏图像的模型鲁棒性。利用批规范化的模型并不优于不利用批规范化的模型,特别是当在训练阶段利用数据增强时。通过实验论证了,批规范化导致在具有数据增强的CIFAR10上训练的ResNet32上的2.9%精确度下降。
表3.在CIFAR10-C数据集上通过辅助训练和标准训练训练的模型之间的鲁棒性的比较,WRN表示WideResNet。
模型 我们的方法 基线 增量
AlexNet 69.98 100.00 +30.02
ResNet18 57.01 85.91 +28.90
ResNet50 58.15 84.26 +26.11
ResNet101 50.03 87.08 +37.05
WRN50 59.43 87.19 +27.76
ResNeXt50 52.96 84.50 +31.54
为了减少批规范化对损坏的数据造成的精确度下降,本发明提出了选择性的批规范化(SBN),旨在消除在批规范化中损坏的数据的影响。所提出的SBN基于观察,批规范化的统计参数易受输入数据中的移位,即输入图像中的损坏的影响。利用所提出的SBN,分别在训练和推断阶段计算了损坏的数据和干净的数据的均值和方差。
将在第k个卷积层中的特征映射
Figure BDA0002395839130000101
表示为
Figure BDA0002395839130000102
在训练阶段中,不同于一起计算的同一批中的训练样本的批规范化,SBN分别计算具有不同损坏的训练样本,其可以被公式化
Figure BDA0002395839130000103
其中,γ和β是通过反向传播训练的用于缩放和移位的两个参数,并且ε是具有小值以避免零除误差的数。在推断阶段中,平均值
Figure BDA0002395839130000104
和方差
Figure BDA0002395839130000105
由统计平均值μ和方差σ2代替。与批规范化不同,其中μ和σ2通过具有不同损坏的所有样本来更新,SBN更新μ和σ2仅具有干净的样本,其可以被公式化
Figure BDA0002395839130000106
Figure BDA0002395839130000107
其中,n表示批次中干净的样本的数目,并且
Figure BDA0002395839130000108
是第k层中干净的样本的特征映射。
以下我们通过各个方面来对本发明所述的辅助训练方法进行验证和说明。
如表4所示,在CIFAR100-C数据集上通过辅助训练方法和标准训练方法训练的模型之间的鲁棒性的比较。模型鲁棒性由损坏误差(CE)度量。,WRN表示WideResNet。
模型 我们的方法 基线 增量
AlexNet 80.03 100.00 +19.97
ResNet18 69.34 92.21 +22.87
ResNet50 69.13 92.28 +23.15
ResNet101 66.10 88.35 +22.25
WRNet50 68.89 87.33 +18.44
ResNeXt50 69.13 92.29 +23.16
如表5所示,在ImageNet上通过辅助训练和标准训练训练的模型之间的精确度(%)的比较如下标所示。
Figure BDA0002395839130000111
如表6所示,在CIFAR10和CIFAR10-C上提出的辅助训练与其他鲁棒性训练方法的比较。模型鲁棒性由损坏误差(CE)度量,其越少越好,下标中的粗体数字是最好的。
Figure BDA0002395839130000112
在AlexNet、ResNet、宽ResNet和ResNeXt四种卷积神经网络以及包括CIFAR10、CIFAR100和ImageNet三种数据集上进行了辅助训练实验。此外,鲁棒性基准数据集包括利用CIFAR-C和ImageNet-C数据集来在19种常见的图像损坏上评估模型的鲁棒性,包括各种噪声、模糊、天气现象等。
在训练阶段中,利用由随机剪切、水平翻转组成的标准数据增强来提升神经网络的性能。利用具有权值衰减和动量的SGD优化器对模型进行训练。CIFAR10和CIFAR100上的模型都训练300次,在第100、200、290次时学习率除以10。在ImageNet上的模型训练90次,在第30、60次时学习率除以10。本文中的默认超参数设置为:α0=1,α0=0.05、λ=0.05、γ∈{0,1}。超参数的选择基于补充材料中的敏感度研究。所有实验由在RTX 2080和TeslaV100GPU设备上运行的PyTorch1.2.0进行。在本发明的验证实验中,共有四种数据增强:高斯噪声、高斯模糊、旋转、图像对比度和亮度。
在本发明中,用神经网络的误差率与AlexNet之间的相对值来测量神经网络的鲁棒性。它被命名为损坏误差(CE),它由以下公式计算
CENetwork=ErrorNetwork/ErrorAlexNet
其中Error表示误差率。CE越低表明神经网络具有更强的鲁棒性。
本发明在CIFAR和CIFAR-C上的实验。
精确度的提升。表1和表2分别示出了通过对CI-FAR10和CIFAR100的辅助训练的神经网络的精确度。可以观察到:(i)在CIFAR10中,利用辅助训练训练的模型上可观察到1.43%的精确度增量,范围从最小值为ResNeXt50的0.75%到最大值为AlexNet上的3.15%。(ii)在CIFAR100中,利用提出的辅助训练的模型上可以检测到2.21%的精确度增量,范围从以最大值为ResNet50的2.74%到最小值为宽ResNet50的2.74%。(iii)与诸如ResNeXt和宽ResNet的高级模型相比,在ResNet和AlexNet模型上可以观察到更精确的增益。
鲁棒性的提升。表3和4示出了CIFAR10-C和CIFAR100-C上的六个神经网络的实验结果。可以观察到:(i)所提出的辅助训练导致一致和显著的鲁棒性提升。CIFAR10-C和CIFAR100-C的平均CE提升率分别为30.15%和21.64%。(ii)尽管很多种损坏(比如雪痕、雾痕、JPEG压缩)没有被包括进训练阶段,但是实验示出了辅助训练也提升了这些损坏图像的模型鲁棒性,表明所提出的辅助训练对各种损坏具有良好的泛化能力。
与相关工作的比较。在表6中示出了所提出的辅助训练与其他三种鲁棒训练方法之间的比较。可以观察到,在神经网络的精确度和鲁棒性上,所提出的辅助训练方法均优于其他三种鲁棒训练方法。
表7.在ImageNet-C数据集上的辅助训练与标准训练模型的鲁棒性比较。“+辅助训练”表明通过提出的辅助训练来训练模型。
Figure BDA0002395839130000131
表8在CIFAR10上的几种对抗攻击的对抗训练和提出的辅助训练ResNet18的比较。PGD攻击、基础迭代攻击、快速梯度符号法、动量迭代攻击、解耦方向和范数攻击。
训练方法 干净 PGD-L2 <![CDATA[PGD-L<sub>∞</sub>]]> BIA-L2 <![CDATA[BIA-L<sub>∞</sub>]]> FGSM MIA-L2 DDN-L2
标准训练 94.75 23.37 4.88 24.62 6.49 18.34 24.62 1.42
对抗训练 83.90 45.54 43.52 79.94 44.88 51.99 74.04 24.36
辅助训练 85.76 49.35 46.45 82.56 47.07 54.38 76.97 26.53
本发明在ImageNet与ImageNet-C上的实验。
通过在ImageNet上的实验,示出了大规模数据集辅助训练的有效性。表5和表7示出了ImageNet上的四个神经网络的精确度和鲁棒性。平均起来,可以观察到在ImageNet上0.85%top-1和0.60%top-5精确度增量以及在ImageNet-C上7.61%CE(鲁棒性)提升。
本发明的对抗攻击实验。
尽管所提出的辅助训练是针对自然损坏的鲁棒性而设计的,但是实验示出,这也导致了对抗攻击的精确度增益。在本实验中,通过PGD在对抗样本上训练主分类器,在自然损坏的图像上训练辅助分类器。利用PGD攻击、基础迭代攻击、FGSM攻击、动量迭代攻击以及解耦方向和范数攻击[36]来评估对抗攻击的模型精确度和鲁棒性。
如在表8中所示:(i)所提出的辅助训练在干净的数据精确度和对抗样本精确度方面都大幅度优于最先进的防御方法-对抗训练。(ii)与对抗训练相比,在提出的辅助训练中可观察到1.86%的干净的数据精确性提升。(iii)在辅助训练中可以观察到在7种对抗攻击方法的精确性提升3.17%。一致且显著的提升表明,所提出的辅助训练方法也可用于对抗攻击的防御。
本发明中除了辅助分类器之外,在所提出的辅助训练中主要利用四种技术,即选择性的批规范化、输入感知的自蒸馏、注意力模块和权值合并。为了探讨它们的有效性,进行了一系列实验以示出在没有上述技术中的一个的情况下通过辅助训练来训练模型时的精确度和鲁棒性。
表9.利用ResNet18进行的精确性(CIFAR100)和鲁棒性(CIFAR100-C)的对所提出的辅助训练的消融实验。
训练方法 精确度 CE
辅助训练 79.47 69.34
w/o选择性BN 76.37 69.52
w/o自蒸馏 78.44 73.67
w/o注意力 77.50 70.79
w/o权值合并 78.32 70.43
如在表9中所示,与完全辅助训练相比:(i)在用不完全辅助训练进行训练的任何模型上可以观察到一致并显著的精确度和鲁棒性下降。(ii)如果在辅助训练中不使用选择性的批规范化,那么在CIFAR100上可以观察到3.1%的精确度下降和0.18%的损坏误差率增量。
其原因可能来自于干净的图像和损坏的图像的联合训练,使得在干净的图像上的模型训练不能更好地合并。(iii)在没有输入感知的自蒸馏的辅助训练模型上观察到1.03%的精确度下降和4.33%的损坏误差率增量,论证主分类器可以从辅助分类器中获益更多的鲁棒性信息。(iv)在没有注意力模块训练的模型上,可以观察到1.93%的精确率下降和1.45%的误差率增量,这可以解释为注意力模块可以帮助辅助分类器更好地学习损坏的图像。(vi)通过不进行权值合并的辅助训练所训练的模型会导致1.15%的精确度下降和0.79%的损坏误差率增量,这可以解释为分类器的权值损失使得主分类器能够直接从辅助分类器学习。总之,为了达到最优的效果,提出的辅助训练中的所有技术都是有效的和必不可少的。
为了进一步证明辅助训练的鲁棒性增益,进行了频率摄动敏感度研究。如在图2中所示,首先将图像从空间域变换到频域,然后在一个像素上摄动一个常数值。最后将它们变换回到空间域。图中被摄动的像素由黑色方块标记。频率摄动由三个步骤组成:首先,对输入图像应用2D的离散傅里叶变换(DFT)以将它们从空间域变换到频域。然后,在频率域中的图像的一个像素受到常数值(这里为3×103)的摄动(Perturb)。常数值越大,摄动越大。最后,通过逆离散傅里叶变换(IDFT)将摄动的图像变换回空间域。
通常认为,当通过DFT将图像变换到频域时,其高频信息由在角落中的像素表示,而其低频信息由在中心中的像素表示。结果,通过观察在不同像素上具有频率摄动的图像上的模型精确度,可以得到对不同频率信息的模型鲁棒性。在频率摄动研究中,在有和没有提出的辅助训练的情况下在CIFAR100上训练两个ResNet18模型,然后在具有不同像素上的频率摄动的测试集上评估,如图3的精确度热图所示。
在图3中,在第i行和第j列中的像素值表明在第i行和第j列中的像素上具有频率摄动的CIFAR100测试组的模型精确度。每个子图形的第i行和第j列中的像素上的值表明在第i行和第j列中的像素上具有频率摄动的图像上的模型精确度。观察到:(i)通过辅助训练所训练的ResNet模型在所有像素中的频率摄动上优于通过标准训练方法所训练的模型,这表明通过辅助训练可以得到一致且显著的鲁棒性。(ii)在标准训练方法和提出的辅助训练中,模型对低频摄动的鲁棒性较好,对高频摄动的鲁棒性较低,表明模型对例如噪声等高频摄动敏感。
在本发明中,我们提出了辅助训练方法,在推断阶段不增加计算和参数的情况下,提升了模型的精确度和鲁棒性。在辅助训练中,原始图像和损坏的图像都被馈入神经网络,由共享卷积层计算,但使用不同的分类器。在训练结束时,所有分类器由于它们的权值上的L 2损失而合并到相同的值。
所提出的辅助训练也是数学基础,其可以被公式化为应用惩罚函数的方法来解决神经网络训练的优化问题的方法。
此外,通过所提出的选择性的批规范化和输入感知的自蒸馏可以实现模型精确度和鲁棒性的进一步提升。进行消融实验以验证每种技术的有效性,并且频率摄动敏感度研究示出,辅助训练可以提升对所有频率的图像损坏的模型鲁棒性。关于CIFAR、CIFAR-C、ImageNet、ImageNet-C和7种对抗攻击方法的大量实验论证了所提出的辅助训练的重要性和通用性。并通过引入超参数敏感度研究,证明辅助训练对选择超参数不敏感。

Claims (3)

1.一种同时提高神经网络精确度和鲁棒性的辅助训练方法,其特征在于,包括如下步骤,
步骤1,第一训练阶段,
步骤1.1,将来自数据集的干净的图像,以及从数据增强生成的损坏的图像,合并作为图像训练的整个训练集;
步骤1.2,将整个训练集的所有图像馈送到相同的卷积层,以得到表示特征,分别得到干净的图像的特征和损坏的图像的特征;
步骤1.3,将干净的图像的特征馈入到主分类器中,将损坏的图像的特征被馈入到辅助分类器中,分别进行训练;
步骤2,第二训练阶段,利用L2损失来迫使辅助分类器的权值以定向主分类器,直到它们具有完全相同的权值,完成对神经网络的辅助训练;
第一阶段训练和第二阶段训练的训练函数如下,
Figure FDA0004122649820000011
式中,惩罚函数Ω如下,
Figure FDA0004122649820000012
通过超参数γ的控制,分别进行两个阶段训练;当γ=0时,进行第一阶段训练;当γ=1时,进行第二阶段训练;
其中,l(·,·)是损失函数,即L2-范数、交叉熵和KL散度;Ω表示惩罚函数,g(·,·)表示使用分类器对于特征进行分类,θ表示分类器的参数,α是一个控制比例的超参数,
Figure FDA0004122649820000013
表示卷积神经网络抽取的特征;
对整个训练集进行选择性的批规范化时,分别计算干净的图像和损坏的图像的均值和方差,并仅由干净的图像更新其参数;具体采用如下公式进行,
Figure FDA0004122649820000021
其中,将在第k个卷积层中的特征映射
Figure FDA0004122649820000022
表示为
Figure FDA0004122649820000023
γ和β是通过反向传播训练的用于缩放和移位的两个参数,ε是具有小值以避免零除误差的数;
Figure FDA0004122649820000024
为平均值,
Figure FDA0004122649820000025
为方差;
通过输入感知的自蒸馏,将主分类器作为教师模型,辅助分类器作为学生模型,将知识从干净的图像转移到损坏的图像,并使主分类器能够从辅助分类器学习鲁棒信息。
2.根据权利要求1所述的一种同时提高神经网络精确度和鲁棒性的辅助训练方法,其特征在于,步骤1.2中,将整个训练集进行选择性的批规范化处理后,将整个训练集的所有图像馈送到相同的卷积层。
3.根据权利要求1所述的一种同时提高神经网络精确度和鲁棒性的辅助训练方法,其特征在于,步骤1.3中,主分类器由一个全连接层组成;辅助分类器由依次设置的一个注意力模块和一个全连接层组成;注意力模块由一个卷积层和一个去卷积层,以及瓶颈层组成;瓶颈层由1x1、3x3和1x1卷积层组成。
CN202010131293.2A 2020-02-28 2020-02-28 一种同时提高神经网络精确度和鲁棒性的辅助训练方法 Active CN111275192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010131293.2A CN111275192B (zh) 2020-02-28 2020-02-28 一种同时提高神经网络精确度和鲁棒性的辅助训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010131293.2A CN111275192B (zh) 2020-02-28 2020-02-28 一种同时提高神经网络精确度和鲁棒性的辅助训练方法

Publications (2)

Publication Number Publication Date
CN111275192A CN111275192A (zh) 2020-06-12
CN111275192B true CN111275192B (zh) 2023-05-02

Family

ID=70999222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010131293.2A Active CN111275192B (zh) 2020-02-28 2020-02-28 一种同时提高神经网络精确度和鲁棒性的辅助训练方法

Country Status (1)

Country Link
CN (1) CN111275192B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364926A (zh) * 2020-11-17 2021-02-12 苏州大学 基于ResNet-50时间压缩的胃镜图片分类方法、装置和存储介质
CN112529178B (zh) * 2020-12-09 2024-04-09 中国科学院国家空间科学中心 一种适用于无预选框检测模型的知识蒸馏方法及系统
CN112927172B (zh) * 2021-05-10 2021-08-24 北京市商汤科技开发有限公司 图像处理网络的训练方法和装置、电子设备和存储介质
CN113674142B (zh) * 2021-08-30 2023-10-17 国家计算机网络与信息安全管理中心 图像中目标物的消融方法、装置、计算机设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408562A (zh) * 2016-09-22 2017-02-15 华南理工大学 基于深度学习的眼底图像视网膜血管分割方法及系统
CN107292349A (zh) * 2017-07-24 2017-10-24 中国科学院自动化研究所 基于百科知识语义增强的零样本分类方法、装置
CN110119803A (zh) * 2019-03-01 2019-08-13 西安电子科技大学 一种基于区域特征的卷积神经网络损失度量方法
CN110334765A (zh) * 2019-07-05 2019-10-15 西安电子科技大学 基于注意力机制多尺度深度学习的遥感影像分类方法
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL2015087B1 (en) * 2015-06-05 2016-09-09 Univ Amsterdam Deep receptive field networks.
US9805305B2 (en) * 2015-08-07 2017-10-31 Yahoo Holdings, Inc. Boosted deep convolutional neural networks (CNNs)

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106408562A (zh) * 2016-09-22 2017-02-15 华南理工大学 基于深度学习的眼底图像视网膜血管分割方法及系统
CN107292349A (zh) * 2017-07-24 2017-10-24 中国科学院自动化研究所 基于百科知识语义增强的零样本分类方法、装置
CN110119803A (zh) * 2019-03-01 2019-08-13 西安电子科技大学 一种基于区域特征的卷积神经网络损失度量方法
CN110334765A (zh) * 2019-07-05 2019-10-15 西安电子科技大学 基于注意力机制多尺度深度学习的遥感影像分类方法
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李琼 ; 柏正尧 ; 刘莹芳 ; .糖尿病性视网膜图像的深度学习分类方法.中国图象图形学报.2018,(10),全文. *

Also Published As

Publication number Publication date
CN111275192A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111275192B (zh) 一种同时提高神经网络精确度和鲁棒性的辅助训练方法
Liang et al. Details or artifacts: A locally discriminative learning approach to realistic image super-resolution
CN110929603B (zh) 一种基于轻量级卷积神经网络的天气图像识别方法
Lefkimmiatis Non-local color image denoising with convolutional neural networks
CN102541954B (zh) 一种商标检索方法及系统
Wang et al. Tensor low-rank constraint and $ l_0 $ total variation for hyperspectral image mixed noise removal
CN102629374B (zh) 基于子空间投影和邻域嵌入的图像超分辨率重建方法
CN105825200A (zh) 基于背景字典学习和结构稀疏表示的高光谱异常目标检测方法
CN106203625A (zh) 一种基于多重预训练的深层神经网络训练方法
CN106991355A (zh) 基于拓扑保持的解析型字典学习模型的人脸识别方法
CN112836820B (zh) 用于图像分类任务的深度卷积网络训练方法、装置及系统
CN107392863A (zh) 基于亲和矩阵融合谱聚类方法的sar图像变化检测方法
CN111161182B (zh) Mr结构信息约束的非局部均值引导的pet图像部分容积校正方法
CN111179272B (zh) 一种面向道路场景的快速语义分割方法
Wang et al. Transform domain based medical image super-resolution via deep multi-scale network
CN116363423A (zh) 面向小样本学习的知识蒸馏方法、装置及存储介质
CN106934398A (zh) 基于超像素聚类和稀疏表示的图像去噪方法
CN104573738A (zh) 信号处理方法及其装置
Cheng et al. Deep fuzzy clustering transformer: learning the general property of corruptions for degradation-agnostic multi-task image restoration
CN105488754A (zh) 基于局部线性迁移和仿射变换的图像特征匹配方法及系统
CN109446473A (zh) 基于分块的稳健张量主成分分析方法
Shiba et al. Convolution filter embedded quantum gate autoencoder
Fourcade et al. Deformable image registration with deep network priors: a study on longitudinal PET images
CN113487491B (zh) 一种基于稀疏性与非局部均值自相似性的图像复原方法
CN115330697A (zh) 基于可迁移Swin Transformer的轮胎瑕疵检测域自适应方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Linfeng

Inventor before: Ma Kaisheng

Inventor before: Zhang Linfeng

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240523

Address after: 710077 5th floor, B3, phase II, software new town, tianguba Road, Yanta District, Xi'an City, Shaanxi Province

Patentee after: Cross Information Core Technology Research Institute (Xi'an) Co.,Ltd.

Country or region after: China

Patentee after: TSINGHUA University

Address before: 710077 5th floor, B3, phase II, software new town, tianguba Road, Yanta District, Xi'an City, Shaanxi Province

Patentee before: Cross Information Core Technology Research Institute (Xi'an) Co.,Ltd.

Country or region before: China