CN114611694B - 提升图像分类网络模型鲁棒性的损失函数方法及系统 - Google Patents

提升图像分类网络模型鲁棒性的损失函数方法及系统 Download PDF

Info

Publication number
CN114611694B
CN114611694B CN202210259849.5A CN202210259849A CN114611694B CN 114611694 B CN114611694 B CN 114611694B CN 202210259849 A CN202210259849 A CN 202210259849A CN 114611694 B CN114611694 B CN 114611694B
Authority
CN
China
Prior art keywords
loss function
model
sample
module
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210259849.5A
Other languages
English (en)
Other versions
CN114611694A (zh
Inventor
赵洪田
郑世宝
王玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202210259849.5A priority Critical patent/CN114611694B/zh
Publication of CN114611694A publication Critical patent/CN114611694A/zh
Application granted granted Critical
Publication of CN114611694B publication Critical patent/CN114611694B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种提升图像分类网络模型鲁棒性的损失函数方法及系统,在进行图像分类时,用以引导映射特征的类间辨别性及类内紧凑性,进而学习到更本质和具有区分性的参数配置。利用本发明方法训练的模型,能有效提升对不同类型图像分类的性能,尤其在受到对抗样本攻击时,本发明所涉及模型仍能保持更好的稳定性,更适合真实世界中图像分类的实际情况。

Description

提升图像分类网络模型鲁棒性的损失函数方法及系统
技术领域
本发明涉及深度学习安全和图像识别的技术领域,具体地,涉及提升图像分类网络模型鲁棒性的损失函数方法及系统。
背景技术
随着计算架构、深度学习、移动智能终端的飞速发展,图像分类在现实世界中获得广泛应用。作为计算机视觉基础任务之一,图像分类是利用计算机根据图像信息中反映的不同特征,把不同类别目标划分开以进行图像理解和分析的方法。由于图像分类任务的基础性,它在物体检测,语义分割和文字识别等相关计算机视觉领域发挥着重要作用。
但是在现阶段广泛存在的基于深度学习的图像分类领域,研究者大都过多关注算法有效性(即在同种干净样本上的准确度评价指标)而忽略了鲁棒性这一衡量指标。据我们所知,AI算法非常脆弱,一些在实验室训练数据集上表现优秀的模型当迁移到陌生现实应用场景时,往往会面临安全性问题;另一方面,AI技术已经对人们的生活造成冲击,尤其在人脸支付和智能安防等对信息安全要求较高领域必须确保AI技术安全可控。为此,AI安全及对抗样本相应成为一个研究课题,例如当我们仅仅替换一点点图像像素,基于深度学习的系统就很有可能将灰蝶分类成草蛉。针对深度学习模型结构(线性映射层)进行物理攻击及其防御具有广泛的应用前景,如自动驾驶,物品的自动识别和鉴定等,研究如何保证深度学习模型的鲁棒性具有重要现实意义。
现在很多神经网络或者模型存在学到的特征并不是本质特征(换句话说,和人的认知还有很大区别),主要是因为它们一般只过分追求类别的可分性而忽视了中间本质特征的学习。通常在实验室训练时,喂给模型的数据都是经过清洗的干净样本,而现实世界中的数据通常含有大量噪声或其他扰动,尤其在未定义环境下样本一个很小的变化量就可以导致模型判定结果的改变。为了提升样本分类网络的鲁棒性,引入新的特征学习准则用以减弱对抗样本因部分特征差异而严重干扰深度学习模型的决策对现实应用具有重要意义。与此同时,基于深度度量学习的方法针对特征和分类的权值向量做归一化并引入largemargin,让学到的特征更具有区分性,也为我们设计鲁棒深度学习分类模型提供新的启发。
在公开号为CN111950628A的专利文献中公开了一种人工智能图像分类模型的鲁棒性评估与增强系统,包括:白盒评估模块、黑盒评估模块和防御增强模块,白盒评估模块从用户处获得待评估模型及所选的评估指标,根据多个不同指标从各方面评估模型抵抗攻击的能力,并计算出所有指标的分数以及鲁棒性总分;黑盒评估模块从用户处获得待评估模型的输出结果,与正确标签相比较得到评估结果。提供了多种黑盒评估手段,从黑盒的角度评估模型的鲁棒性;防御增强模块内置多种鲁棒性提升手段。从用户处获得待增强的模型及所选的防御增强方法信息,使用相应的防御增强方法对使用者上传的模型进行鲁棒性增强。
因此,需要提出一种新的技术方案。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种提升图像分类网络模型鲁棒性的损失函数方法及系统。
根据本发明提供的一种提升图像分类网络模型鲁棒性的损失函数方法,所述方法包括如下步骤:
步骤S1:对Softmax损失函数和Modified Softmax的等值面做分析,最初的Softmax损失函数
Figure BDA0003550362650000021
pi=Wiyi+bi,整体的线性变换表示为p=Wy+b,y=N(x)∈RL,其中L为类别数,N(·)为主干网络非线性特征提取函数变换,x为神经网络学习到的特征向量,y=[y1,y2,…,yL]T为一个非线性变换后的特征向量,p为将特征向量y作为输入,将线性层网络参数W,b分别作为线性变换的权重和偏置的线性变换的结果;将上式Li中中间变量pi使用向量模长和角度表示形式为
Figure BDA0003550362650000022
Softmax等价表示为
Figure BDA0003550362650000023
其中
Figure BDA0003550362650000024
为待求概率值的特征向量与权重向量之间的夹角,
Figure BDA0003550362650000025
对Li参数向量的模长和偏差加入约束,即使权重矩阵W模长为1,偏置向量b为0,令损失函数值为一常数C,则关于角度化模型参数方程表示为:
Figure BDA0003550362650000026
步骤S2:将步骤S1中方程进行简化得到
Figure BDA0003550362650000027
Figure BDA0003550362650000031
属于Log-Sum-Exp函数范畴,它的值为对最大函数的逼近,
Figure BDA0003550362650000032
Figure BDA0003550362650000033
Figure BDA0003550362650000034
获得
Figure BDA0003550362650000035
步骤S3:对
Figure BDA0003550362650000036
做分析和验证,在做识别或分类时,在使用线性映射函数推理时,当类内角度间距大于类间角度间距时,说明模型对样本做出正确预测,反之,模型不能对样本做出正确预测;
步骤S4:通过上述分析,得出通过提升样本在特征空间的密度,不同类别特征的可区分性,由步骤S3中
Figure BDA0003550362650000037
对类内角间距和类间角间距定义不同阙值函数分别进行逆向求解,将类内角间距和类间角间距函数统一为关于等值面的优化目标,并分别定义为LI,LO,由步骤S3衍生出的方程为
Figure BDA0003550362650000038
步骤S5:对步骤S4中方程组进行求解,得到
Figure BDA0003550362650000039
设计训练神经网络的损失函数为L=La+k1LI+k2LO,其中La设置为常规损失设计,k1,k2分别为超参数;
步骤S6:利用主干深度神经网络及训练图片获得预测标签,将预测标签和输入样本标签计算通过步骤S5获得的损失函数计算损失并通过链式法则计算梯度值,根据梯度值更新神经网络参数,主干深度神经网络选择ResNet34,ResNet50,ResNet101,ResNet150;
步骤S7:循环步骤S6中模型,以及利用步骤S5中损失函数诱导更新参数,根据loss,accuracy,recall,F1指标值训练直至模型收敛,即获得鲁棒的图像分类网络模型。
优选地,所述步骤S1依次对Softmax损失函数和Softmax变种损失函数的提取特征做分析,使用MINIST手写字体识别数据集作为训练和测试数据集,针对不同分类任务使用对应类型的数据集完成模型训练和部署,依次使用Softmax and Cross-Entropy和SphereFace Loss作为损失函数和潜在变换层,使用经典卷积神经网络作为主干网络,得到分类训练和测试可视化网络。
优选地,所述步骤S4中的方程组中的‖y‖为样本向量模,
Figure BDA00035503626500000310
为样本特征向量与同类样本权重向量的角度距离,
Figure BDA00035503626500000311
为样本特征向量与其他类样本权重向量的最小角度距离,LI为待优化的类内角度距离目标损失,LO为待优化的类间角度距离目标损失。
优选地,所述步骤S6中深度神经网络对输入图像提取特征后,经特征映射函数将图像映射到潜在的特征空间,潜在特征空间中的特征经过线性映射层对图像获取图像预测值,通过损失函数与输入图像标签结合,经梯度反向传播更新模型参数。
本发明还提供一种提升图像分类网络模型鲁棒性的损失函数系统,所述系统包括如下模块:
模块M1:对Softmax损失函数和Modified Softmax的等值面做分析,最初的Softmax损失函数
Figure BDA0003550362650000041
pi=Wiyi+bi,整体的线性变换表示为p=Wy+b,y=N(x)∈RL,其中L为类别数,N(·)为主干网络非线性特征提取函数变换,x为神经网络学习到的特征向量,y=[y1,y2,…,yL]T为一个非线性变换后的特征向量,p为将特征向量y作为输入,将线性层网络参数W,b分别作为线性变换的权重和偏置的线性变换的结果;将上式Li中中间变量pi使用向量模长和角度表示形式为
Figure BDA0003550362650000042
Softmax等价表示为
Figure BDA0003550362650000043
其中
Figure BDA0003550362650000044
为待求概率值的特征向量与权重向量之间的夹角,
Figure BDA0003550362650000045
对Li参数向量的模长和偏差加入约束,即使权重矩阵W模长为1,偏置向量b为0,令损失函数值为一常数C,则关于角度化模型参数方程表示为:
Figure BDA0003550362650000046
模块M2:将模块M1中方程进行简化得到
Figure BDA0003550362650000047
Figure BDA0003550362650000048
属于Log-Sum-Exp函数范畴,它的值为对最大函数的逼近,
Figure BDA0003550362650000049
Figure BDA00035503626500000410
Figure BDA00035503626500000411
获得
Figure BDA00035503626500000412
模块M3:对
Figure BDA00035503626500000413
做分析和验证,在做识别或分类时,在使用线性映射函数推理时,当类内角度间距大于类间角度间距时,说明模型对样本做出正确预测,反之,模型不能对样本做出正确预测;
模块M4:通过上述分析,得出通过提升样本在特征空间的密度,不同类别特征的可区分性,由模块M3中
Figure BDA00035503626500000414
对类内角间距和类间角间距定义不同阙值函数分别进行逆向求解,将类内角间距和类间角间距函数统一为关于等值面的优化目标,并分别定义为LI,LO,由模块M3衍生出的方程为
Figure BDA0003550362650000051
模块M5:对模块M4中方程组进行求解,得到
Figure BDA0003550362650000052
设计训练神经网络的损失函数为L=La+k1LI+k2LO,其中La设置为常规损失设计,k1,k2分别为超参数;
模块M6:利用主干深度神经网络及训练图片获得预测标签,将预测标签和输入样本标签计算通过模块M5获得的损失函数计算损失并通过链式法则计算梯度值,根据梯度值更新神经网络参数,主干深度神经网络选择ResNet34,ResNet50,ResNet101,ResNet150;
模块M7:循环模块M6中模型,以及利用模块M5中损失函数诱导更新参数,根据loss,accuracy,recall,F1指标值训练直至模型收敛,即获得鲁棒的图像分类网络模型。
优选地,所述模块M1依次对Softmax损失函数和Softmax变种损失函数的提取特征做分析,使用MINIST手写字体识别数据集作为训练和测试数据集,针对不同分类任务使用对应类型的数据集完成模型训练和部署,依次使用Softmax and Cross-Entropy和SphereFace Loss作为损失函数和潜在变换层,使用经典卷积神经网络作为主干网络,得到分类训练和测试可视化网络。
优选地,所述模块M4中的方程组中的‖y‖为样本向量模,
Figure BDA0003550362650000053
为样本特征向量与同类样本权重向量的角度距离,
Figure BDA0003550362650000054
为样本特征向量与其他类样本权重向量的最小角度距离,LI为待优化的类内角度距离目标损失,LO为待优化的类间角度距离目标损失。
优选地,所述模块M6中深度神经网络对输入图像提取特征后,经特征映射函数将图像映射到潜在的特征空间,潜在特征空间中的特征经过线性映射层对图像获取图像预测值,通过损失函数与输入图像标签结合,经梯度反向传播更新模型参数。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提出了一种用于训练高效鲁棒图像分类网络的损失函数,相比较过去通用的Softmax and Cross-Entropy损失函数能够得到更为可靠的图像分类神经网络;
2、相较于通过对抗训练获取鲁棒神经网络的方式,本发明所提方法及系统具有计算复杂度小,且在训练模型时仅需要干净样本,而不需要对抗样本的参与(生成对抗样本通常需要更多的计算资源),使用本发明得到的模型做推理时在干净样本上不会损失预测精度,而用对抗训练获得的模型通常会以损失干净样本预测精度为代价来提升在对抗样本上的预测精度;
3、相对于对抗训练获取鲁棒性的方法,本发明提供的方法从本质上提升了网络模型的鲁棒性,通常对大多数对抗样本具有更好的防御能力,而非通过对抗训练方法只针对特定对抗样本具有防御能力;
4、利用本发明方法开发的系统,具有稳定性高,操作简单等优点,更适合现实世界中图像分类的实际情况。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例的神经网络学习过程示意图;
图2本发明实施例的训练样本特征可视化示意图,使用Softmax and Cross-Entropy(SCE)做损失函数,使用MINIST数据集作为测试数据;
图3本发明实施例的测试样本特征可视化示意图,使用Softmax and Cross-Entropy(SCE)做损失函数,使用MINIST数据集作为测试数据;
图4本发明实施例的训练样本特征可视化示意图,使用SphereFace Loss做损失函数,使用MINIST数据集作为测试数据;
图5本发明实施例的测试样本特征可视化示意图,使用SphereFace Loss做损失函数,使用MINIST数据集作为测试数据;
图6为本发明使用不同损失函数(Softmax Loss,Modified Softmax Loss,CenterLoss,SphereFace Loss,Our Loss)提取的特征可视化示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
针对现有深度神经网络的脆弱性,易受对抗样本攻击的缺陷,本发明发现主要由于现有评估准则以及线性映射层没有能力将投影特征划分的具有可区分性导致的。为了提升映射特征的可判别性,本发明目的是提供一种评估准则,用于诱导神经网络在训练过程中使图像分类学习到的特征在特定度量空间,满足同一类的最大类内距离小于不同类的最小类间距离,从而提升分类网络的鲁棒性,以适应不同类型的输入图像。
深度学习作为一种非常复杂的软件系统,易受对抗样本攻击,即在原始数据上叠加一定的扰动,这些扰动近似一些随机噪声。虽然通过训练数据扩充等途径能够提升得到模型的鲁棒性,但是通常情况下难以穷尽所有的攻击样本。不同于以往对抗训练的方法,本发明从学习表征层面出发,提出一种训练鲁棒深度神经网络的损失函数及其系统,旨在通过特征凝结提升网络模型的鲁棒性,用以增强深度学习在现实世界中图像分类任务的通用性。
本发明提供一种提升图像分类网络模型鲁棒性的损失函数方法,为实现上述解决方案依次使用以下操作步骤:
步骤S1:对Softmax损失函数和Modified Softmax的等值面做分析,最初的Softmax损失函数
Figure BDA0003550362650000071
pi=Wiyi+bi,整体的线性变换表示为p=Wy+b,y=N(x)∈RL,其中L为类别数,N(·)为主干网络非线性特征提取函数变换,x为神经网络学习到的特征向量,y=[y1,y2,…,yL]T为一个非线性变换后的特征向量,p为将特征向量y作为输入,将线性层网络参数W,b分别作为线性变换的权重和偏置的线性变换的结果;将上式Li中中间变量pi使用向量模长和角度表示形式为
Figure BDA0003550362650000072
Softmax等价表示为
Figure BDA0003550362650000073
其中
Figure BDA0003550362650000074
为待求概率值的特征向量与权重向量之间的夹角,
Figure BDA0003550362650000075
对Li参数向量的模长和偏差加入约束,即使权重矩阵W模长为1,偏置向量b为0,令损失函数值为一常数C,则关于角度化模型参数方程表示为:
Figure BDA0003550362650000076
依次对Softmax损失函数和Softmax变种损失函数的提取特征做分析,使用MINIST手写字体识别数据集作为训练和测试数据集,当然针对不同分类任务可以使用对应类型的数据集完成模型训练和部署,依次使用Softmax and Cross-Entropy和SphereFace Loss作为损失函数和潜在变换层,使用经典卷积神经网络作为主干网络,如LeNet-5,AlexNet,得到分类训练和测试可视化网络,分别如图2和图3以及图4和图5所示,可以看出相较于SphereFace Loss,由Softmax及潜在层映射得到的特征分布更加稀疏,尤其不同类特征间的角间距相比较更小,不同类别的特征可区分性较弱,通过该损失函数训练出的模型更容易受到对抗样本攻击,同时对损失函数等值面函数进行变换。
步骤S2:将步骤S1中方程进行简化得到
Figure BDA0003550362650000081
Figure BDA0003550362650000082
属于Log-Sum-Exp函数范畴,它的值为对最大函数的逼近,根据论文(F.Nielsen and K.Sun,″Guaranteed Bounds on the Kullback–Leibler Divergence of Univariate Mixtures,″in IEEE Signal Processing Letters,vol.23,no.11,pp.1543-1546,Nov.2016,doi:10.1109/LSP.2016.2606661.和NesterovY.Smooth minimization of non-smooth functions[J].Mathematical Programming,2005,103(1):127-152.),可知,
Figure BDA0003550362650000083
Figure BDA0003550362650000084
获得
Figure BDA0003550362650000085
步骤S3:当将Softmax角度化获得
Figure BDA0003550362650000086
通常情况下特征向量模长为正后,由文献(H.Wang et al.,″CosFace:Large Margin CosineLoss for Deep Face Recognition,″2018IEEE/CVF Conference on Computer Visionand Pattern Recognition,2018,pp.5265-5274,doi:10.1109/CVPR.2018.00552.)知,在对应识别任务中特征向量的模长对损失函数影响不大,尤其在测试阶段,‖y‖值大小并不会对决策过程产生影响。在使用线性映射函数推理时,当类内角度间距大于类间角度间距时说明模型可以对样本做出正确预测,反之,模型不能对样本做出正确预测。
步骤S4:通过上述分析,得出通过提升样本在特征空间的密度,不同类别特征的可区分性,由步骤S3中
Figure BDA0003550362650000087
对类内角间距和类间角间距定义不同阙值函数分别进行逆向求解,将类内角间距和类间角间距函数统一为关于等值面的优化目标,并分别定义为LI,LO,由步骤S3衍生出的方程为
Figure BDA0003550362650000088
上式中,‖y‖为样本向量模,
Figure BDA0003550362650000089
为样本特征向量与同类样本权重向量的角度距离,
Figure BDA00035503626500000810
为样本特征向量与其他类样本权重向量的最小角度距离,LI为待优化的类内角度距离目标损失,LO为待优化的类间角度距离目标损失。
步骤S5:对步骤S4中方程组进行求解,得到
Figure BDA00035503626500000811
设计训练神经网络的损失函数为L=La+k1LI+k2LO,其中La设置为常规损失设计,k1,k2分别为超参数。
步骤S6:利用主干深度神经网络及训练图片获得预测标签,将预测标签和输入样本标签计算通过步骤S5获得的损失函数计算损失并通过链式法则计算梯度值,然后根据梯度值更新神经网络参数,主干深度神经网络可以选择ResNet34,ResNet50,ResNet101,ResNet150。具体地,深度神经网络非线性层对输入图像提取特征后,经特征映射函数将图像映射到潜在的特征空间。潜在特征空间中的特征经过线性映射层对图像获取图像预测值,通过损失函数与输入图像标签结合,经梯度反向传播更新模型参数。
步骤S7:循环步骤S6中模型,以及利用步骤S5中损失函数诱导更新参数,根据loss,accuracy,recall,F1指标值训练直至模型收敛,即获得鲁棒的图像分类网络模型。
将所提出的方法在MINIST数据集上进行实验,获取鲁棒手写字体识别的分类网络,我们使用经典卷积神经网络提取三维特征,如AlexNet网络。为了展示我们方法的有效性,我们将所提取得到特征进行可视化,并同同类别损失函数(如Softmax and Cross-Entropy(SCE),Modified Softmax,Center loss,SphereFace loss)训练出同类别的神经网络进行比较,结果如图6所示,在图6中第一行为在干净样本上测试集的结果,第二行和第三行为在对抗样本上的测试结果(第二,三行对抗样本分别为通过PGD(Aleksander Madry,Aleksandar Makelov,Ludwig Schmidt,Dimitris Tsipras,and Adrian Vladu.Towardsdeep learning models resistant to adversarial attacks.arXiv preprintarXiv:1706.06083,2017.)攻击,扰动参数分别设置为
Figure BDA0003550362650000091
),由图可以看出通过本发明提出的损失函数训练出的神经网络,在推理过程中,所产生中间特征更紧凑,不同类别的特征更具区分性,能有效抵御对抗样本的攻击,验证了所生成网络模型的鲁棒性。
本发明还提供一种提升图像分类网络模型鲁棒性的损失函数系统,所述系统包括如下模块:
模块M1:对Softmax损失函数和Modified Softmax的等值面做分析,最初的Softmax损失函数
Figure BDA0003550362650000092
pi=Wiyi+bi,整体的线性变换表示为p=Wy+b,y=N(x)∈RL,其中L为类别数,N(·)为主干网络非线性特征提取函数变换,x为神经网络学习到的特征向量,y=[y1,y2,…,yL]T为一个非线性变换后的特征向量,p为将特征向量y作为输入,将线性层网络参数W,b分别作为线性变换的权重和偏置的线性变换的结果;将上式Li中中间变量pi使用向量模长和角度表示形式为
Figure BDA0003550362650000093
Softmax等价表示为
Figure BDA0003550362650000101
其中
Figure BDA0003550362650000102
为待求概率值的特征向量与权重向量之间的夹角,
Figure BDA0003550362650000103
对Li参数向量的模长和偏差加入约束,即使权重矩阵W模长为1,偏置向量b为0,令损失函数值为一常数C,则关于角度化模型参数方程表示为:
Figure BDA0003550362650000104
依次对Softmax损失函数和Softmax变种损失函数的提取特征做分析,使用MINIST手写字体识别数据集作为训练和测试数据集,针对不同分类任务使用对应类型的数据集完成模型训练和部署,依次使用Softmax and Cross-Entropy和SphereFace Loss作为损失函数和潜在变换层,使用经典卷积神经网络作为主干网络,得到分类训练和测试可视化网络。
模块M2:将模块M1中方程进行简化得到
Figure BDA0003550362650000105
Figure BDA0003550362650000106
属于Log-Sum-Exp函数范畴,它的值为对最大函数的逼近,
Figure BDA0003550362650000107
Figure BDA0003550362650000108
Figure BDA0003550362650000109
获得
Figure BDA00035503626500001010
模块M3:对
Figure BDA00035503626500001011
做分析和验证,在做识别或分类时,在使用线性映射函数推理时,当类内角度间距大于类间角度间距时,说明模型对样本做出正确预测,反之,模型不能对样本做出正确预测。
模块M4:通过上述分析,得出通过提升样本在特征空间的密度,不同类别特征的可区分性,由模块M3中
Figure BDA00035503626500001012
对类内角间距和类间角间距定义不同阙值函数分别进行逆向求解,将类内角间距和类间角间距函数统一为关于等值面的优化目标,并分别定义为LI,LO,由模块M3衍生出的方程为
Figure BDA00035503626500001013
‖y‖为样本向量模,
Figure BDA00035503626500001014
为样本特征向量与同类样本权重向量的角度距离,
Figure BDA00035503626500001015
为样本特征向量与其他类样本权重向量的最小角度距离,LI为待优化的类内角度距离目标损失,LO为待优化的类间角度距离目标损失。
模块M5:对模块M4中方程组进行求解,得到
Figure BDA00035503626500001016
设计训练神经网络的损失函数为L=La+k1LI+k2LO,其中La设置为常规损失设计,k1,k2分别为超参数。
模块M6:利用主干深度神经网络及训练图片获得预测标签,将预测标签和输入样本标签计算通过模块M5获得的损失函数计算损失并通过链式法则计算梯度值,根据梯度值更新神经网络参数,主干深度神经网络选择ResNet34,ResNet50,ResNet101,ResNet150。
深度神经网络对输入图像提取特征后,经特征映射函数将图像映射到潜在的特征空间,潜在特征空间中的特征经过线性映射层对图像获取图像预测值,通过损失函数与输入图像标签结合,经梯度反向传播更新模型参数。
模块M7:循环模块M6中模型,以及利用模块M5中损失函数诱导更新参数,根据loss,accuracy,recall,F1指标值训练直至模型收敛,即获得鲁棒的图像分类网络模型。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (8)

1.一种提升图像分类网络模型鲁棒性的损失函数方法,其特征在于,所述方法包括如下步骤:
步骤S1:对Softmax损失函数和Modified Softmax的等值面做分析,最初的Softmax损失函数
Figure FDA0003550362640000011
整体的线性变换表示为p=Wy+b,y=N(x)∈RL,其中L为类别数,N(·)为主干网络非线性特征提取函数变换,x为神经网络学习到的特征向量,y=[y1,y2,…,yL]T为一个非线性变换后的特征向量,p为将特征向量y作为输入,将线性层网络参数W,b分别作为线性变换的权重和偏置的线性变换的结果;将上式Li中中间变量pi使用向量模长和角度表示形式为
Figure FDA0003550362640000012
Softmax等价表示为
Figure FDA0003550362640000013
其中
Figure FDA00035503626400000115
为待求概率值的特征向量与权重向量之间的夹角,
Figure FDA0003550362640000014
对Li参数向量的模长和偏差加入约束,即使权重矩阵W模长为1,偏置向量b为0,令损失函数值为一常数C,则关于角度化模型参数方程表示为:
Figure FDA0003550362640000015
步骤S2:将步骤S1中方程进行简化得到
Figure FDA0003550362640000016
Figure FDA0003550362640000017
属于Log-Sum-Exp函数范畴,它的值为对最大函数的逼近,
Figure FDA0003550362640000018
Figure FDA0003550362640000019
Figure FDA00035503626400000110
获得
Figure FDA00035503626400000111
步骤S3:对
Figure FDA00035503626400000112
做分析和验证,在做识别或分类时,在使用线性映射函数推理时,当类内角度间距大于类间角度间距时,说明模型对样本做出正确预测,反之,模型不能对样本做出正确预测;
步骤S4:通过上述分析,得出通过提升样本在特征空间的密度,不同类别特征的可区分性,由步骤S3中
Figure FDA00035503626400000113
对类内角间距和类间角间距定义不同阙值函数分别进行逆向求解,将类内角间距和类间角间距函数统一为关于等值面的优化目标,并分别定义为LI,LO,由步骤S3衍生出的方程为
Figure FDA00035503626400000114
步骤S5:对步骤S4中方程组进行求解,得到
Figure FDA0003550362640000021
设计训练神经网络的损失函数为L=La+k1LI+k2LO,其中La设置为常规损失设计,k1,k2分别为超参数;
步骤S6:利用主干深度神经网络及训练图片获得预测标签,将预测标签和输入样本标签计算通过步骤S5获得的损失函数计算损失并通过链式法则计算梯度值,根据梯度值更新神经网络参数,主干深度神经网络选择ResNet34,ResNet50,ResNet101,ResNet150;
步骤S7:循环步骤S6中模型,以及利用步骤S5中损失函数诱导更新参数,根据loss,accuracy,recall,F1指标值训练直至模型收敛,即获得鲁棒的图像分类网络模型。
2.根据权利要求1所述的提升图像分类网络模型鲁棒性的损失函数方法,其特征在于,所述步骤S1依次对Softmax损失函数和Softmax变种损失函数的提取特征做分析,使用MINIST手写字体识别数据集作为训练和测试数据集,针对不同分类任务使用对应类型的数据集完成模型训练和部署,依次使用Softmax and Cross-Entropy和SphereFace Loss作为损失函数和潜在变换层,使用经典卷积神经网络作为主干网络,得到分类训练和测试可视化网络。
3.根据权利要求1所述的提升图像分类网络模型鲁棒性的损失函数方法,其特征在于,所述步骤S4中的方程组中的‖y‖为样本向量模,
Figure FDA0003550362640000022
为样本特征向量与同类样本权重向量的角度距离,
Figure FDA0003550362640000023
为样本特征向量与其他类样本权重向量的最小角度距离,LI为待优化的类内角度距离目标损失,LO为待优化的类间角度距离目标损失。
4.根据权利要求1所述的提升图像分类网络模型鲁棒性的损失函数方法,其特征在于,所述步骤S6中深度神经网络对输入图像提取特征后,经特征映射函数将图像映射到潜在的特征空间,潜在特征空间中的特征经过线性映射层对图像获取图像预测值,通过损失函数与输入图像标签结合,经梯度反向传播更新模型参数。
5.一种提升图像分类网络模型鲁棒性的损失函数系统,其特征在于,所述系统包括如下模块:
模块M1:对Softmax损失函数和Modified Softmax的等值面做分析,最初的Softmax损失函数
Figure FDA0003550362640000024
整体的线性变换表示为p=Wy+b,y=N(x)∈RL,其中L为类别数,N(·)为主干网络非线性特征提取函数变换,x为神经网络学习到的特征向量,y=[y1,y2,…,yL]T为一个非线性变换后的特征向量,p为将特征向量y作为输入,将线性层网络参数W,b分别作为线性变换的权重和偏置的线性变换的结果;将上式Li中中间变量pi使用向量模长和角度表示形式为
Figure FDA0003550362640000031
Softmax等价表示为
Figure FDA0003550362640000032
其中
Figure FDA0003550362640000033
为待求概率值的特征向量与权重向量之间的夹角,
Figure FDA0003550362640000034
对Ki参数向量的模长和偏差加入约束,即使权重矩阵W模长为1,偏置向量b为0,令损失函数值为一常数C,则关于角度化模型参数方程表示为:
Figure FDA0003550362640000035
模块M2:将模块M1中方程进行简化得到
Figure FDA0003550362640000036
Figure FDA0003550362640000037
属于Log-Sum-Exp函数范畴,它的值为对最大函数的逼近,
Figure FDA0003550362640000038
Figure FDA0003550362640000039
Figure FDA00035503626400000310
获得
Figure FDA00035503626400000311
模块M3:对
Figure FDA00035503626400000312
做分析和验证,在做识别或分类时,在使用线性映射函数推理时,当类内角度间距大于类间角度间距时,说明模型对样本做出正确预测,反之,模型不能对样本做出正确预测;
模块M4:通过上述分析,得出通过提升样本在特征空间的密度,不同类别特征的可区分性,由模块M3中
Figure FDA00035503626400000313
对类内角间距和类间角间距定义不同阙值函数分别进行逆向求解,将类内角间距和类间角间距函数统一为关于等值面的优化目标,并分别定义为LI,LO,由模块M3衍生出的方程为
Figure FDA00035503626400000314
模块M5:对模块M4中方程组进行求解,得到
Figure FDA00035503626400000315
设计训练神经网络的损失函数为L=La+k1LI+k2LO,其中La设置为常规损失设计,k1,k2分别为超参数;
模块M6:利用主干深度神经网络及训练图片获得预测标签,将预测标签和输入样本标签计算通过模块M5获得的损失函数计算损失并通过链式法则计算梯度值,根据梯度值更新神经网络参数,主干深度神经网络选择ResNet34,ResNet50,ResNet101,ResNet150;
模块M7:循环模块M6中模型,以及利用模块M5中损失函数诱导更新参数,根据loss,accuracy,recall,F1指标值训练直至模型收敛,即获得鲁棒的图像分类网络模型。
6.根据权利要求5所述的提升图像分类网络模型鲁棒性的损失函数系统,其特征在于,所述模块M1依次对Softmax损失函数和Softmax变种损失函数的提取特征做分析,使用MINIST手写字体识别数据集作为训练和测试数据集,针对不同分类任务使用对应类型的数据集完成模型训练和部署,依次使用Softmax and Cross-Entropy和SphereFace Loss作为损失函数和潜在变换层,使用经典卷积神经网络作为主干网络,得到分类训练和测试可视化网络。
7.根据权利要求5所述的提升图像分类网络模型鲁棒性的损失函数系统,其特征在于,所述模块M4中的方程组中的‖y‖为样本向量模,
Figure FDA0003550362640000041
为样本特征向量与同类样本
权重向量的角度距离,
Figure FDA0003550362640000042
为样本特征向量与其他类样本权重向量的最小角度距离,LI为待优化的类内角度距离目标损失,LO为待优化的类间角度距离目标损失。
8.根据权利要求5所述的提升图像分类网络模型鲁棒性的损失函数系统,其特征在于,所述模块M6中深度神经网络对输入图像提取特征后,经特征映射函数将图像映射到潜在的特征空间,潜在特征空间中的特征经过线性映射层对图像获取图像预测值,通过损失函数与输入图像标签结合,经梯度反向传播更新模型参数。
CN202210259849.5A 2022-03-16 2022-03-16 提升图像分类网络模型鲁棒性的损失函数方法及系统 Active CN114611694B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210259849.5A CN114611694B (zh) 2022-03-16 2022-03-16 提升图像分类网络模型鲁棒性的损失函数方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210259849.5A CN114611694B (zh) 2022-03-16 2022-03-16 提升图像分类网络模型鲁棒性的损失函数方法及系统

Publications (2)

Publication Number Publication Date
CN114611694A CN114611694A (zh) 2022-06-10
CN114611694B true CN114611694B (zh) 2022-09-23

Family

ID=81863432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210259849.5A Active CN114611694B (zh) 2022-03-16 2022-03-16 提升图像分类网络模型鲁棒性的损失函数方法及系统

Country Status (1)

Country Link
CN (1) CN114611694B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846413A (zh) * 2018-05-21 2018-11-20 复旦大学 一种基于全局语义一致网络的零样本学习方法
CN111626340A (zh) * 2020-05-11 2020-09-04 Oppo广东移动通信有限公司 一种分类方法、装置、终端及计算机存储介质
CN112949780A (zh) * 2020-04-21 2021-06-11 佳都科技集团股份有限公司 特征模型训练方法、装置、设备及存储介质
WO2021164625A1 (en) * 2020-02-17 2021-08-26 Huawei Technologies Co., Ltd. Method of training an image classification model
CN113592070A (zh) * 2021-07-20 2021-11-02 上海交通大学 提升贝叶斯神经网络对抗防御能力的方法及系统
CN113780461A (zh) * 2021-09-23 2021-12-10 中国人民解放军国防科技大学 基于特征匹配的鲁棒神经网络训练方法
CN114067177A (zh) * 2021-11-18 2022-02-18 中国人民解放军国防科技大学 一种基于自监督学习的遥感图像分类网络鲁棒性提升方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3944138A1 (en) * 2020-07-24 2022-01-26 Sony Semiconductor Solutions Corporation Method and apparatus for image recognition

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846413A (zh) * 2018-05-21 2018-11-20 复旦大学 一种基于全局语义一致网络的零样本学习方法
WO2021164625A1 (en) * 2020-02-17 2021-08-26 Huawei Technologies Co., Ltd. Method of training an image classification model
CN112949780A (zh) * 2020-04-21 2021-06-11 佳都科技集团股份有限公司 特征模型训练方法、装置、设备及存储介质
CN111626340A (zh) * 2020-05-11 2020-09-04 Oppo广东移动通信有限公司 一种分类方法、装置、终端及计算机存储介质
CN113592070A (zh) * 2021-07-20 2021-11-02 上海交通大学 提升贝叶斯神经网络对抗防御能力的方法及系统
CN113780461A (zh) * 2021-09-23 2021-12-10 中国人民解放军国防科技大学 基于特征匹配的鲁棒神经网络训练方法
CN114067177A (zh) * 2021-11-18 2022-02-18 中国人民解放军国防科技大学 一种基于自监督学习的遥感图像分类网络鲁棒性提升方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于附加间隔Softmax损失函数的CNN-GRU模型说话人识别研究;赵宏运;《中国优秀硕士学位论文全文数据库》;20210915;第26-29页 *

Also Published As

Publication number Publication date
CN114611694A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN107506740B (zh) 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
Xie et al. Multilevel cloud detection in remote sensing images based on deep learning
AlDahoul et al. Real‐Time Human Detection for Aerial Captured Video Sequences via Deep Models
CN105184260B (zh) 一种图像特征提取方法及行人检测方法及装置
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN113723238B (zh) 一种人脸轻量网络模型构建方法和人脸识别方法
Salhi et al. Fast and efficient face recognition system using random forest and histograms of oriented gradients
Fan Research and realization of video target detection system based on deep learning
CN115830531A (zh) 一种基于残差多通道注意力多特征融合的行人重识别方法
Wang et al. A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax
Yeganejou et al. Improved deep fuzzy clustering for accurate and interpretable classifiers
Kumar et al. One-shot face recognition
Bouguezzi et al. Improved architecture for traffic sign recognition using a self-regularized activation function: SigmaH
Liu et al. Remote sensing image vehicle detection based on pre-training and random-initialized fusion network
CN112766339A (zh) 一种轨迹识别模型训练方法及轨迹识别方法
CN114611694B (zh) 提升图像分类网络模型鲁棒性的损失函数方法及系统
AlDahoul et al. Local receptive field-extreme learning machine based adult content detection
CN106778589A (zh) 一种基于改进型LeNet的鲁棒蒙面人脸检测方法
Ma et al. Neural CAPTCHA networks
CN115797747A (zh) 基于模型权重变异和置信度距离的对抗样本检测方法
Yow et al. Iris recognition system (IRS) using deep learning technique
Blanger et al. A face recognition library using convolutional neural networks
KR20190134380A (ko) 합성곱 신경망에 대한 도메인 불변 사람 분류기를 위한 연관성 학습 시스템 및 방법
CN111402953B (zh) 基于层次注意力网络的蛋白质序列分类方法
Shah et al. Knowledge-based analogical reasoning in neuro-symbolic latent spaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant