CN111401155A - 基于隐式欧拉跳跃连接的残差神经网络的图像识别方法 - Google Patents

基于隐式欧拉跳跃连接的残差神经网络的图像识别方法 Download PDF

Info

Publication number
CN111401155A
CN111401155A CN202010133492.7A CN202010133492A CN111401155A CN 111401155 A CN111401155 A CN 111401155A CN 202010133492 A CN202010133492 A CN 202010133492A CN 111401155 A CN111401155 A CN 111401155A
Authority
CN
China
Prior art keywords
neural network
residual
jump connection
euler
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010133492.7A
Other languages
English (en)
Other versions
CN111401155B (zh
Inventor
林宙辰
李明杰
何翎申
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202010133492.7A priority Critical patent/CN111401155B/zh
Publication of CN111401155A publication Critical patent/CN111401155A/zh
Application granted granted Critical
Publication of CN111401155B publication Critical patent/CN111401155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公布了一种基于隐式欧拉跳跃连接的残差神经网络的图像识别方法,将隐式欧拉数值方法与残差网络模型中的跳跃连接相结合,建立具有更强鲁棒性的改进模型:含有隐式欧拉跳跃连接的残差神经网络,该改进模型的输入为图像数据及所对应的标签,输出为图像的预测分类,由此实现更加稳定的图像识别。本发明提出的基于含有隐式欧拉跳跃连接的残差神经网络的图像识别方法,具有更强的鲁棒性和可信性,可提高图像识别的准确性和有效性,可应用在如人脸识别、文字识别等多种图像识别场景。

Description

基于隐式欧拉跳跃连接的残差神经网络的图像识别方法
技术领域
本发明涉及深度神经网络结构设计技术和图像识别技术领域,尤其涉及一种基于含有隐式欧拉跳跃连接(IE-Skips,即Implicit Euler Skip Connections)的残差神经网络模型进行图像识别的方法,可以应用在如人脸识别、文字识别等多种图像识别场景。
背景技术
随着近年来图像处理器(GPU)计算能力的飞速发展,以及人们能获得的数据量越来越大,深度神经网络在计算机视觉、图像处理和自然语言处理等领域获得了广泛应用。自从2012年深度神经网络在ImageNet分类任务上取得了突破性进展之后,研究者提出了多种不同网络,并且其结构不局限于经典的前馈神经网络结构。在前馈网络结构中,每个神经元只和其后的神经元相连。其中最典型的例子就是文献[1](He,K.,Zhang,X.,Ren,S.,andSun,J.Deep residual learning for image recognition.In CVPR,2015)记载的ResNet(即残差神经网络),残差神经网络在传统的前馈网络结构上增加了旁支,显著提高了神经网络的性能。
基于此网络模型的图像识别方法也在图像识别的相关领域取得了显著的成果,比如在自动驾驶、人脸识别、图像识别、检测等等。与过去的传统方法相比,基于此网络模型的图像识别方法有着很大的优势。但是这一网络结构在鲁棒性上存在较大问题,其预测结果极易被对抗攻击所干扰。而在实际应用,由于相机、传感器等条件的限制,需要处理的图像常常受到“污染”(即存在某些数值扰动或者数值噪声),因此神经网络在安全相关的领域的应用发展也因此受到了限制。
已有的增强神经网络鲁棒性的工作主要基于神经网络的训练方法如文献[2](Madry,Aleksander,Aleksandar Makelov,Ludwig Schmidt,Dimitris Tsipras,andAdrian Vladu.Towards deep learning models resistant to adversarialattacks.arXiv preprintarXiv:1706.06083,2017.)、文献[3](Zhang,Dinghuai,TianyuanZhang,Yiping Lu,Zhanxing Zhu,and Bin Dong.You only propagate once:Accelerating adversarial trainingvia maximal principle.In Advances in NeuralInformation Processing Systems,pp.227-238.2019.)和文献[4](Shafahi,Ali,MahyarNajibi,Mohammad Amin Ghiasi,Zheng ×u,John Dickerson,Christoph Studer, LarryS.Davis,Gavin Taylor,and Tom Goldstein."Adversarial training for free!."InAdvances in Neural Information Processing Systems.pp.3353-3364.2019.)均采用在训练时对神经网络进行攻击来增加网络鲁棒性,从而提高图像识别的鲁棒性。尽管文献[5](Wang,Bao,Zuoqiang Shi,and Stanley Osher."ResNets Ensemble via the Feynman-Kac Formalism to lmprove Natural and Robust Accuracies."In Advances in NeuralInformation Processing Systems,pp.1655-1665.2019.)通过对网络结构的改进,提出了EnResNet,进一步提高了网络的鲁棒性,但是它采用了在网络前馈过程种增加随机性的方式。而且应用EnResNet的图像识别方法仅仅在小模型上证明了其改进的优势,在大模型上效果提升不明显。
最近,一些研究工作如文献[6](Chen,Tian Qi,Yulia Rubanova,JesseBettencourt.and David K.Duvenaud."Neural ordinary differentialequations.″In Advances in neural information processing systems,pp.6571-6583.2018.)和文献[7](Lu,Yiping,Aoxiao Zhong,Quanzheng Li,and Bin Dong."Beyondfinite layer neural networks:Bridging deep architectures and numericaldifferential equations."arXiv preprint arXiv:1710.10121,2017.)等揭示了ResNet和ODE(常微分方程)之间的关系。在这种观点的启发下,文献[8](Yang,Yibo,Jianlong Wu,Hongyang Li,Xia Li,Tiancheng Shen,and Zhouchen Lin.″Dynamical System InspiredAdaptive Time Stepping Controller for Residual Network Families.″arXivpreprint arXiv:1911.10305,2019.)和文献[9](Zhang,Jingfeng,Bo Han,Laura Wynter,Kian Hsiang Low,and Mohan Kankanhalli.″Towards robust resnet:A small step buta giant Ieap."arXiv preprint arXiv:1902.10887,2019.)等工作从数值ODE方法的误差角度出发,提出了许多传统ResNet的改进结构用以提高传统ResNet的分类准确率。然而,之前并没有工作从数值ODE的稳定性角度出发,提出实际可行的改进结构用于改善传统ResNet的鲁棒性,并提出基于此结构的更加鲁棒的图像识别方法。
发明内容
为了克服上述现有技术存在的不足,提高在实际应用中图像识别技术的鲁棒性,本发明分析了神经网络模型在对抗攻击下的鲁棒性和对应动态系统的稳定性(即数值ODE稳定性)的关系,提出了一种改进的深度残差网络模型和将其应用于进行图像处理的方法。应用这种模型的图像识别方法在图像分类与识别等视觉应用上会具有更强的鲁棒性。
本发明主要针对残差网络的跳跃连接提出了一种更加鲁棒的改进模型,即将隐式欧拉数值算法和传统残差神经网络中的跳跃连接相融合,衍生出一种含有新的跳跃连接结构的网络模型。该模型采用残差模块作为基础模块,输入为图像数据以及其所对应的标签,输出为图像的预测分类。
本发明的技术方案是:
一种基于含有隐式欧拉跳跃连接的残差神经网络模型的图像识别方法,将隐式欧拉数值方法与传统残差网络模型中的跳跃连接相结合,建立具有更强鲁棒性的改进模型,用于更加稳定、鲁棒地进行图像识别等计算机视觉任务。
包括如下步骤:
1)首先获得用于该应用的图像数据,并把图像数据分为训练样本与测试样本;
2)对训练样本进行预处理,这步操作可以采用标准的图像增强技术,如对图像进行随机裁减平移,归一化,随机水平反转等;也可根据具体应用和数据选择对图像进行不同的处理。采用预处理后的数据训练模型可以增强模型的泛化能力。
3)构建网络模型进行训练:根据应用场景,选择网络模型的宽度、深度和残差模块的具体结构,然后利用隐式欧拉跳跃连接,得到含有隐式欧拉跳跃连接结构的残差网络模型;将经过预处理的训练样本输入含有隐式欧拉跳跃连接结构的残差网络模型进行训练,就可以得到训练好的含有隐式欧拉跳跃连接的残差神经网络模型。下面是对这一步骤的具体阐述:
31)构造含有隐式欧拉跳跃连接的残差神经网络,包括如下操作:
311)构造隐式欧拉跳跃连接结构(IE-Skips):
本发明构造了一种受隐式欧拉数值算法启发的残差跳跃连接结构,将传统的残差跳跃连接通过多次梯度下降迭代来近似数值ODE中的隐式欧拉算法,由此得到改进的残差网络中的跳跃连接IE-Skips,并在残差神经网络模型中使用改进的残差网络中的跳跃连接,提高神经网络模型的鲁棒性。具体包括如下步骤:
3111)首先,传统的残差神经网络的第k个阶段的输出xk和第k+1个阶段的输出xk+1的关系表示为式1:
xk+1=xk+fk+1(xk) (式1)
其中,fk+1(·)表示第k+1个阶段的残差模块;xk为第k个阶段的输出;xk+1为第k+1个阶段的输出。而“xk+”这一操作被称为残差网络中的跳跃连接(Skip Connection),这一结构的采用很大程度上提高了传统网络的性能。同时,这一结构与数值ODE里的显式欧拉方法相对应。
3112)一个采用隐式欧拉方法的残差神经网络的第k个阶段的输出xk出和第k+1个阶段的输出xk+1的关系应表示为式2:
xk+1=xk+fk+1(xk+1) (式2)
其中,fk+1(·)表示这个阶段的残差模块;xk为第k个阶段的输出;xk+1为第k+1个阶段的输出。这一网络结构对应数值ODE中的隐式欧拉方法,相较显式欧拉方法,隐式欧拉具有很好的数值稳定性,同时对应的残差神经网络也被我们证明比传统的残差神经网络的鲁棒性。
3113)为了在神经网络中尽可能地逼近隐式欧拉方法,即式2。我们在传统残差神经网络式1的基础上,引入一个非线性最小二乘的优化问题到神经网络的前馈过程种,即尽可能地优化xk+1使其最小:
Figure BDA0002394826480000041
其中,fk+1(·)表示这个阶段的残差块;xk为第k个阶段的输出;xk+1为第k+1个阶段的输出。为了优化这个问题,我们执行如下操作:
3113A)首先,同时计算式1得到xk+1的初始迭代值
Figure BDA0002394826480000043
3113B)然后,我们通过N次梯度下降法(N次内迭代)来尽可能的优化xk+1,在第n次迭代,迭代公式表示为式4:
Figure BDA0002394826480000042
其中,lr为梯度下降的迭代步长(内迭代步长),我们一般选用0.05或0.1。这样N个内迭代过程以后,梯度下降法就会使得整个跳跃连接过程更近似于隐式欧拉方法。我们将311)的整个过程称为IE-Skips(Implicit Euler SkipConnections,即隐式欧拉跳跃连接)结构方法。
312)本发明将IE-Skips与其他任意的残差神经网络族中的神经网络相结合,就构成了含有隐式欧拉跳跃连接的残差神经网络。
本发明具体实施时,对采用传统残差模块的残差神经网络ResNet,将其中维度不发生变化的跳跃连接采用上述构建的隐式欧拉跳跃连接结构IE-Skips,同时根据实际计算量要求和模型选择合适的内迭代次数N和内迭代步长lr,即得到了含有隐式欧拉跳跃连接的残差神经网络:IE-ResNet(Implicit EuIer Residual Network),这是对传统残差模块的残差神经网络ResNet进行改进了的含有隐式欧拉跳跃连接的残差神经网络的一种具体模型。与传统ResNet相比,IE-ResNet不仅能够达到相似甚至超过传统ResNet的表达和泛化能力,还能够显著提高传统ResNet的在实际应用场景下的鲁棒性。
32)模型训练的具体要求:
本发明训练时,先将步骤2)预处理过的数据输入网络模型,然后根据输出结果,训练标签和损失函数(如交叉熵损失函数等)计算损失,接着根据损失通过反向传播算法计算网络模型中具体参数的梯度并更新参数。重复迭代上述过程直到损失收敛或达到迭代次数上限为止,就得到了训练好的网络模型。
本发明具体实施时,均使用反向传播算法,例如可以用带有Nesterov动量的梯度随机下降算法进行模型训练。可以设置模型训练过程迭代120轮,批大小为200,即每200张图片作为一个批次,初始学习率为0.1,并在第75轮,90轮和100轮学习分别将学习率除以10,即在1~74轮学习率为0.1,在75~89轮学习率为0.01,在90~99轮学习率为0.001,在100~110学习率为0.001。权重因子为2×10-4,动量为0.9。该方法可以在深度学习框架PyTorch下实现。
4)利用步骤3)构建并训练好相应的鲁棒的深度残差网络模型。然后,用该模型对测试图像样本进行图像识别,可以得到预测的分类标签;由此实现图像的分类识别。其中,使用者无需对测试图像样本进行如步骤2)的复杂的预处理,只需要将测试样本中心裁剪成网络模型所要求的大小就可以输入到训练好的模型中进行识别,得到相应的分类标签。
本发明的有益效果是:
本发明所提出的基于含有隐式欧拉跳跃连接的残差神经网络的图像识别方法,对于不同深度、宽度、残差模块种类的深度残差卷积神经网络,都可以建立相对应的更加鲁棒的改进模型,在用于图像分类与识别等计算机视觉任务时,可以对于测试数据更加鲁棒,预测准确度更加稳定。
同时,在图像分类性能的标准数据集CIFAR上,本发明提出的网络模型在经过与传统残差神经网络一样的对抗训练后,本发明提出的方法不仅在“干净”测试集(即未被攻击过)上可以达到相当甚至超过基于传统残差神经网络的图像识别方法的分类结果,而且在被对抗样本攻击、进行过数值扰动的测试集上也取得了更好的分类表现。因此,本发明技术方案提出的基于含有隐式欧拉跳跃连接的残差神经网络的图像识别方法,具有更强的鲁棒性和可信性,可提高图像识别的准确性和有效性。
附图说明
图1为传统ResNet模型和本发明方法具体实施中的IE-ResNet模型的结构示意图;
其中,(a)为本发明提出的IE-ResNet网络模型结构;(b)为现有传统ResNet网络模型结构;图中虚线表示对网络模型输出进行升降维的连接操作,该操作一般通过卷积操作实现。(b)中的黑色实线表示传统的跳跃连接,而(a)中的黑色点划线与实线共同组成了含有隐式欧拉跳跃连接IE-Skips结构,而点划线实线表示了IE-Skips实现中的非线性最小二乘优化过程。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明可以应用于任何关于图像识别应用,比如人脸识别、物体检测、文字识别等等,以下实施例将本发明方法应用于图像分类问题并测试方法的鲁棒性。具体实施主要包含四个步骤,分别为数据采集、数据预处理、构建并训练模型进行特征提取和特征识别、测试模型的分类性能和鲁棒性。其中,残差网络模型同时包含特征提取和特征识别过程,并且性能优于其他的传统方法。而应用本发明的的含有隐式欧拉跳跃连接IE-Skips的残差网络模型进行图像识别,则具有更优的识别性能,而且鲁棒性还要优于基于同样训练方法的传统ResNet及其他改进的残差神经网络如EnResNet。
本实施例具体包括如下步骤:
步骤1,采集实验数据:
本实例采用被广泛应用的CIFAR-10[10](Krizhevsky,Alex,and GeoffreyHinton.Learning multiple layers of features from tiny images.2009.)图像数据集。该实验数据集由60000张大小为32×32的RGB彩色图像组成,其中训练数据50000张,测试数据10000张,共分为10个类别,代表了自然界中不同的10种物体。
步骤2,实验数据的预处理,将图片裁剪成一定大小的图片;
具体将图片裁剪成28×28大小,而不做其他处理。
步骤3,构建并训练模型进行特征提取和特征识别:
一)构建网络模型:
我们基于传统的WideResNet-34-10(下面记为WideResNet-34)进行改进。传统的WideResNet-34除了一开始的卷积层和最后的全连接层,共分为三个阶段,每个阶段的卷积通道数分别为160,320,640,每个阶段包括五个跳跃连接,其中一开始的跳跃连接用卷积实现采样和升维操作。为了在WideResNet-34上应用本发明的IE-Skips,本发明把每个阶段的后四个跳跃连接改用内迭代次数为1、内迭代步长为0.1的IE-Skips,这样就构成了含有隐式欧拉跳跃连接的残差网络模型,记为IE-WideResNet-1-34。
本实施中,构造隐式欧拉跳跃连接结构(IE-Skips)是将WideResNet-34-10网络模型中传统的残差跳跃连接通过多次梯度下降迭代来近似数值ODE中的隐式欧拉算法,由此得到改进的残差网络中的跳跃连接IE-Skips,并在残差神经网络模型中使用改进的残差网络中的跳跃连接,提高网络的鲁棒性。具体包括如下步骤:
3111)首先,传统的残差神经网络WideResNet-34-10的第k个阶段的输出xk和第k+1个阶段的输出xk+1的关系表示为式1:
xk+1=xk+fk+1(xk) (式1)
其中,fk+1(·)表示这个阶段的残差模块;xk为第k个阶段的输出;xk+1为第k+1个阶段的输出。而“xk+”这一操作被称为残差网络中的跳跃连接(Skip Connection),这一结构的采用很大程度上提高了传统网络的性能。同时,这一结构与数值ODE里的显式欧拉方法相对应。
3112)采用隐式欧拉方法的残差神经网络的第k个阶段的输出xk出和第k+1个阶段的输出xk+1的关系表示为式2:
xk+1=xk+fk+1(xk+1) (式2)
其中,fk+1(·)表示这个阶段的残差模块;xk为第k个阶段的输出;xk+1为第k+1个阶段的输出。这一网络结构对应数值ODE中的隐式欧拉方法,相较显式欧拉方法,隐式欧拉具有很好的数值稳定性,同时对应的残差神经网络也被我们证明比传统的残差神经网络的鲁棒性。
3113)为了在神经网络中尽可能地逼近隐式欧拉方法,即式2。我们在传统残差神经网络式1的基础上,引入一个非线性最小二乘的优化问题到神经网络的前馈过程种,即尽可能地优化xk+1使其最小:
Figure BDA0002394826480000081
其中,fk+1(·)表示这个阶段的残差块;xk为第k个阶段的输出;xk+1为第k+1个阶段的输出。为了优化这个问题,我们执行如下操作:
3113A)首先,同时计算式1得到xk+1的初始迭代值
Figure BDA0002394826480000083
3113B)然后,我们通过N次梯度下降法(N次内迭代)来尽可能的优化xk+1,在第n次迭代,迭代公式表示为式4:
Figure BDA0002394826480000082
其中,lr为梯度下降的迭代步长(内迭代步长),可选用0.05或0.1。这样N个过程以后,梯度下降法就会使得整个跳跃连接过程更近似于隐式欧拉方法。上述整个过程即被称为IE-Skips(Implicit Euler Skip Connections,即隐式欧拉跳跃连接)结构方法。
上述构造隐式欧拉跳跃连接结构(IE-Skips)对采用的现有残差模块的基本结构没有特殊要求,传统残差模块结构、Pre-Activation结构[11](He,Kaiming,XiangyuZhang,Shaoqing Ren.and Jian Sun."Identity mappings in deep residualnetworks.″In European conference on computer vision,pp.630-645.Springer,Cham,2016.)或是Bottleneck等结构的传统神经网络都可以使用来构建含有隐式欧拉跳跃连接的相应残差神经网络,并实现基于含有隐式欧拉跳跃连接的残差神经网络模型的图像识别。
上述构造隐式欧拉跳跃连接结构(IE-Skips)的步骤3113B)中,内迭代次数N和内迭代步长lr可以根据实验模型的大小,数据集特性和计算量的要求进行取值。相应图像对应相应的残差模块,比如如果图像比较小,那么网络模型就可以选择较小的模型,如果分类图像较大,需要较大网络模型,在保证计算量不会过大的情况下,那就可以选用较多的迭代次数和较小的步长以获得更鲁棒的模型。在内迭代步长选取合适的情况下,内迭代次数越多,模型的鲁棒性越好。但一般情况下,综合鲁棒性和模型计算复杂性考虑,一般设定N=1,lr=0.1就可以得到较好的提升。
本发明提出的网络模型方法采用了输入输出维度不变的跳跃连接的改进方法,对于输入输出维度变化的跳跃连接,即下(上)采样或通道变化时的跳跃连接,则维持原样,即采用卷积,池化等方式构成维度变化时的跳跃连接。
二)训练网络模型:
我们使用文献[12](Zhang,Hongyang,Yaodong Yu,Jiantao Jiao,Eric P.Xing,Laurent EI Ghaoui,and Michael l.Jordan."Theoretically principled trade-offbetween robustnessand accuracy."arXiv preprint arXiv:1901.08573,2019.)中的策略训练IE-WideResNet-1-34模型。具体地,我们采用
Figure BDA0002394826480000091
的TRADES方法(其中扰动强度∈=8/255,内迭代学习率α=1/255)并使用随机梯度下降法(SGD)训练网络,设置冲量为0.9,权重衰减为2×10-4。在CIFAR-10数据集上,我们总共进行110次轮训练,使用样本批量大小为200。初始学习率设为0.1,并在第75轮,90轮和100轮分别将学习率除以10。我们使用4个GPU。
步骤四,测试模型的分类性能和鲁棒性:
一)测试方法:
首先,为了得到模型的分类性能,我们直接输入CIFAR-10的测试数据进行分类,得到测试数据在不同模型中的分类标签,并与测试数据给定的标签相比较,最后得到模型分类的准确率,从准确率的大小可以看出模型的分类性能强弱。
其次,我们采用文献[2]和文献[13](Carlini,Nicholas,and David Wagner."Towardsevaluating the robustness of neural networks.″In 2017 ieee symposiumon security and privacy(sp),pp.39-57.IEEE,2017.)中的方法对CIFAR-10的测试数据进行攻击,然后输入到训练好的模型中进行分类,得到测试数据在不同模型中的分类标签,并与测试数据给定的标签相比较,最后得到模型分类的准确率,从准确率的大小可以看出模型在分类问题上鲁棒性的强弱。
二)该实例的实验结果:
表1为基于En1WideResNet-34、WideResNet-34和IE-WideResNet-34的图像识别方法在遭受不同对抗攻击下的CIFAR-10数据集上的性能比较;其中,第1列代表不同的网络模型结构,其中第1行是基于文献[5]中新提出的ResNet的鲁棒变体En1ResNet的图像识别方法的实验结果,而第2行是文献[12]中基于传统残差神经网络WideResNet-34的图像识别方法的实验结果,第3行带★的是我们实现的基于传统残差神经网络WideResNet-34的图像识别方法的实验结果,而第4行则是采用本发明基于含有隐式欧拉跳跃连接的残差网络模型(IE-WideResNet-1-34)的图像识别方法的实验结果。
表1不同图像识别方法在遭受不同对抗攻击下的CIFAR-10数据集上的性能比较
Figure BDA0002394826480000101
表1中的第二到五列是不同模型在不同测试数据下的表现。其中第二列表示不同模型在未被攻击的CIFAR-10的测试数据上的表现;而第三列和第四列记录了不同模型在被文献[2]中的投影梯度下降(PGD,即Projected Gradient Descent)攻击下的CIFAR-10测试数据上的表现,其中PGD-100攻击的强度比PGD-20攻击更强;而最后一列则记录了不同模型在文献[13]中的C&W攻击(Carlini&Wagner攻击)下的CIFAR-10测试数据上的表现。其中前两行的结果直接取自文献[5]和文献[12],因为在文献中后两种攻击的表现未被记录,因此我们用中线表示。
其中PGD攻击和C&W攻击的具体参数选择如下:对于PGD攻击,我们选取PGD扰动强度∈=8/255,内迭代学习率α=2/255。而对于C&W攻击,我们采用学习率为6×10-4的Adam迭代50个循环,并设c=100实现攻击。
从表1可以看出,相比传统的基于WideResNet的图像识别方法,本发明提出的基于IE-WideResNet(一种具体的含有隐式欧拉跳跃连接的残差神经网络)的图像识别方法在各种情形下都可以达到更高的准确率,相比基于En1ResNet的图像识别方法,本发明提出的方法在对抗样本下的准确率更高。这些实验数据证明了,本发明提出的图像识别方法的鲁棒性更好。也就是说,本发明提供的IE-Skips可以显著提高传统ResNet的鲁棒性。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (9)

1.一种基于含有隐式欧拉跳跃连接的残差神经网络模型的图像识别方法,将隐式欧拉数值方法与残差网络模型中的跳跃连接相结合,建立具有更强鲁棒性的改进模型:含有隐式欧拉跳跃连接的残差神经网络,该改进模型的输入为图像数据及所对应的标签,输出为图像的预测分类,由此实现更加稳定的图像识别;
包括如下步骤:
1)首先将图像数据分为训练样本与测试样本;
2)对训练样本进行图像增强预处理;
3)构建网络模型进行训练:选择网络模型的宽度、深度和残差模块的具体结构;然后利用隐式欧拉跳跃连接得到含有隐式欧拉跳跃连接结构的残差网络模型;将经过预处理的训练样本输入含有隐式欧拉跳跃连接结构的残差网络模型进行训练,得到训练好的含有隐式欧拉跳跃连接的残差神经网络模型;
包括如下过程:
31)构造含有隐式欧拉跳跃连接的残差神经网络,包括如下操作:
311)构造隐式欧拉跳跃连接结构IE-Skips:将现有残差跳跃连接通过多次梯度下降迭代来近似数值ODE中的隐式欧拉算法,由此得到改进的残差网络中的跳跃连接IE-Skips,并在残差神经网络模型中使用改进的残差网络中的跳跃连接,提高神经网络模型的鲁棒性;
312)将IE-Skips与其他任意的残差神经网络族中的神经网络模型相结合,构成含有隐式欧拉跳跃连接的残差神经网络,使得所述含有隐式欧拉跳跃连接的残差神经网络达到更好的模型表达和泛化能力,显著提高采用神经网络模型进行图像识别的鲁棒性;
32)将经过预处理的训练样本输入含有隐式欧拉跳跃连接结构的残差网络模型进行训练,包括如下过程:
先将步骤2)预处理的数据输入步骤31)构建的含有隐式欧拉跳跃连接结构的残差网络模型;
然后根据输出结果训练标签和损失函数计算得到损失;
接着根据计算得到的损失计算网络模型中具体参数的梯度并更新参数;
重复迭代上述过程,直到损失收敛或达到迭代次数上限为止,即得到训练好的含有隐式欧拉跳跃连接结构的残差网络模型;
4)利用步骤3)构建并训练好的鲁棒的含有隐式欧拉跳跃连接结构的深度残差网络模型,对待测的测试图像样本进行图像识别,即得到预测的分类标签;由此实现图像的分类识别;其中,所述测试图像样本无需进行复杂预处理,只需将测试图像样本通过中心裁剪成网络模型所要求的大小即可。
2.如权利要求1所述基于含有隐式欧拉跳跃连接的残差神经网络模型的图像识别方法,其特征是,步骤311)构造隐式欧拉跳跃连接结构IE-Skips,具体包括如下过程:
3111)将残差神经网络的第k个阶段的输出xk和第k+1个阶段的输出xk+1的关系表示为式1:
xk+1=xk+fk+1(xk) 式1
其中,fk+1(·)表示第k+1个阶段的残差模块;xk为第k个阶段的输出;xk+1为第k+1个阶段的输出;操作“xk+”为残差网络中的跳跃连接结构,该结构对应于数值ODE的显式欧拉方法;
3112)将含有隐式欧拉跳跃连接结构的残差网络的第k个阶段的输出xk出和第k+1个阶段的输出xk+1的关系表示为式2:
xk+1=xk+fk+1(xk+1) 式2
其中,fk+1(·)表示第k+1个阶段的残差模块;xk为第k个阶段的输出;xk+1为第k+1个阶段的输出;
3113)在式1表示的残差神经网络的基础上,引入非线性最小二乘优化到神经网络的前馈过程,即尽可能地优化xk+1使其最小,由此使得在神经网络中尽可能地逼近式2所表示的隐式欧拉方法,表示为式3:
Figure FDA0002394826470000021
其中,fk+1(·)表示第k+1个阶段的残差块;xk为第k个阶段的输出;xk+1为第k+1个阶段的输出。
3.如权利要求2所述基于含有隐式欧拉跳跃连接的残差神经网络模型的图像识别方法,其特征是,具体执行如下操作进行非线性最小二乘优化:
3113A)首先,同时计算式1得到xk+1的初始迭代值
Figure FDA0002394826470000022
3113B)然后,通过N次梯度下降法即N次内迭代,尽可能优化xk+1
第n次迭代公式表示为式4:
Figure FDA0002394826470000023
其中,lr为梯度下降的迭代步长,即内迭代步长;
N个内迭代过程后,通过梯度下降法使得跳跃连接过程更近似于隐式欧拉方法,通过该过程即获得隐式欧拉跳跃连接结构。
4.如权利要求3所述基于含有隐式欧拉跳跃连接的残差神经网络模型的图像识别方法,其特征是,为梯度下降的迭代步长lr取值为0.05或0.1。
5.如权利要求1所述基于含有隐式欧拉跳跃连接的残差神经网络模型的图像识别方法,其特征是,步骤312)中,通过将构建的隐式欧拉跳跃连接结构IE-Skips与残差神经网络ResNet相结合,再设定内迭代次数N和内迭代步长lr的取值,即得到含有隐式欧拉跳跃连接的残差神经网络IE-ResNet。
6.如权利要求1所述基于含有隐式欧拉跳跃连接的残差神经网络模型的图像识别方法,其特征是,步骤32)将经过预处理的训练样本输入含有隐式欧拉跳跃连接结构的残差网络模型使用反向传播算法进行训练。
7.如权利要求6所述基于含有隐式欧拉跳跃连接的残差神经网络模型的图像识别方法,其特征是,具体采用带有Nesterov动量的梯度随机下降算法进行模型训练。
8.如权利要求7所述基于含有隐式欧拉跳跃连接的残差神经网络模型的图像识别方法,其特征是,模型训练过程的迭代轮数为120轮,批大小为200,即每200张图片作为一个批次;初始学习率为0.1,并在第75轮、90轮和100轮学习分别将学习率除以10;权重因子设为2×10-4,动量为0.9。
9.如权利要求8所述基于含有隐式欧拉跳跃连接的残差神经网络模型的图像识别方法,其特征是,在深度学习框架PyTorch下实现所述模型训练过程。
CN202010133492.7A 2020-02-28 2020-02-28 基于隐式欧拉跳跃连接的残差神经网络的图像识别方法 Active CN111401155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010133492.7A CN111401155B (zh) 2020-02-28 2020-02-28 基于隐式欧拉跳跃连接的残差神经网络的图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010133492.7A CN111401155B (zh) 2020-02-28 2020-02-28 基于隐式欧拉跳跃连接的残差神经网络的图像识别方法

Publications (2)

Publication Number Publication Date
CN111401155A true CN111401155A (zh) 2020-07-10
CN111401155B CN111401155B (zh) 2022-05-20

Family

ID=71432101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010133492.7A Active CN111401155B (zh) 2020-02-28 2020-02-28 基于隐式欧拉跳跃连接的残差神经网络的图像识别方法

Country Status (1)

Country Link
CN (1) CN111401155B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832564A (zh) * 2020-07-20 2020-10-27 浙江诺诺网络科技有限公司 一种图像文字识别方法、系统及电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874898A (zh) * 2017-04-08 2017-06-20 复旦大学 基于深度卷积神经网络模型的大规模人脸识别方法
US20170212867A1 (en) * 2016-01-27 2017-07-27 Shing-Tung Yau Method for computing spherical conformal and riemann mapping
GB201900742D0 (en) * 2019-01-18 2019-03-06 Microsoft Technology Licensing Llc Modelling ordinary differential equations using a variational auto encoder
CN110598288A (zh) * 2019-08-30 2019-12-20 上海杏脉信息科技有限公司 一种用于冠脉三维模型的边界条件处理方法和装置
CN110598746A (zh) * 2019-08-13 2019-12-20 武汉大学 一种基于ode求解器自适应的场景分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170212867A1 (en) * 2016-01-27 2017-07-27 Shing-Tung Yau Method for computing spherical conformal and riemann mapping
CN106874898A (zh) * 2017-04-08 2017-06-20 复旦大学 基于深度卷积神经网络模型的大规模人脸识别方法
GB201900742D0 (en) * 2019-01-18 2019-03-06 Microsoft Technology Licensing Llc Modelling ordinary differential equations using a variational auto encoder
CN110598746A (zh) * 2019-08-13 2019-12-20 武汉大学 一种基于ode求解器自适应的场景分类方法
CN110598288A (zh) * 2019-08-30 2019-12-20 上海杏脉信息科技有限公司 一种用于冠脉三维模型的边界条件处理方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BO CHANG: "Reversible Architectures for Arbitrarily Deep Residual Neural Networks", 《ARXIV》 *
RICKY T. Q. CHEN等: "Neural Ordinary Differential Equations", 《ARXIV》 *
XIANGYU HE: "ODE-inspired Network Design for Single Image Super-Resolution", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832564A (zh) * 2020-07-20 2020-10-27 浙江诺诺网络科技有限公司 一种图像文字识别方法、系统及电子设备和存储介质

Also Published As

Publication number Publication date
CN111401155B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
US20190228268A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN110048827B (zh) 一种基于深度学习卷积神经网络的类模板攻击方法
CN110674836B (zh) 一种基于生成网络的稀疏对抗样本生成方法
CN111062329B (zh) 基于增广网络的无监督行人重识别方法
CN112699899A (zh) 一种基于生成对抗网络的高光谱图像特征提取方法
CN112183742B (zh) 基于渐进式量化和Hessian信息的神经网络混合量化方法
CN106203628A (zh) 一种增强深度学习算法鲁棒性的优化方法和系统
CN115331079A (zh) 一种面向多模态遥感图像分类网络的对抗攻击方法
CN112766378A (zh) 一种专注细粒度识别的跨域小样本图像分类模型方法
CN114821432A (zh) 基于离散余弦变换的视频目标分割对抗攻击方法
CN111401155B (zh) 基于隐式欧拉跳跃连接的残差神经网络的图像识别方法
CN116701681B (zh) 一种用于语义分割的多查询网络
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN116453108A (zh) 基于非对称并行Transformer网络的三维点云理解处理方法
CN114581789A (zh) 一种高光谱图像分类方法及系统
CN110188692B (zh) 一种有效目标快速识别的强化循环级联方法
CN114120424A (zh) 一种基于注意力机制的轻量级面部情绪识别方法
CN112529047A (zh) 一种基于梯度屏蔽的对抗样本生成方法
CN113807421B (zh) 基于脉冲发送皮层模型的注意力模块的特征图处理方法
Liang et al. Compression and denoising of time-resolved light transport
CN113837360B (zh) 一种基于关系图的dnn鲁棒模型加固方法
CN116541273B (zh) 基于图注意力的二进制代码相似性检测方法及系统
CN111882563B (zh) 一种基于方向性全卷积网络的语义分割方法
CN112364892B (zh) 一种基于动态模型的图像识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant