CN111582442A

CN111582442A - 一种基于优化深度神经网络模型的图像识别方法

Info

Publication number: CN111582442A
Application number: CN202010306509.4A
Authority: CN
Inventors: 高峰利; 钟汇才; 王师峥
Original assignee: Institute of Microelectronics of CAS
Current assignee: Institute of Microelectronics of CAS
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-25

Abstract

本发明涉及一种基于优化深度神经网络模型的图像识别方法，属于图像识别技术领域。该方法包括：S1，选取图像的数据集作为训练样本，根据批数量的批次设置划分所述数据集为多个样本集合，将当前样本集合输入特定深度神经网络模型，得到当前样本集合对应的损失函数值集合；其中，特定深度神经网络模型作为选中深度神经网络；S2，通过对损失函数值集合中数值较小的部分集合对应的训练样本的丢弃或强制置零，更新选中深度神经网络的网络参数；S3，通过多次迭代S1和S2，得到优化后的深度神经网络模型；S4，将待识别图像输入所述优化后的深度神经网络模型，得到识别出的图像。本发明解决了大批量图像数据集下深度神经网络模型的训练性能大幅下滑问题。

Description

一种基于优化深度神经网络模型的图像识别方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于优化深度神经网络模型的图像识别方法。

背景技术

目前，在神经网络的深度学习用以图像识别时，增大模型的并行化计算规模具有较为重要的实际应用价值，然而在不断增大模型的批数量(batch size)时，遇到了对图像进行识别的训练性能不断下降的问题。且通过进一步的研究发现，这种性能的下降伴随着模型噪声的增加和网络参数平均梯度的下降。现有公开文献中提出了一种基于模型层内梯度设置学习率的训练方法即LARS，较大幅度改善了批数量(batch size)大数值情况下的模型训练性能表现，但是当批数量(batch size)数值继续增大时，训练性能仍不可避免地出现下滑。

发明内容

鉴于上述的分析，本发明旨在提供一种基于优化深度神经网络模型的图像识别方法，以解决在大批量的训练样本情况下深度神经网络模型的训练性能大幅下滑的问题，有效提高深度神经网络大规模并行化训练的速度和模型准确度。

本发明的目的主要是通过以下技术方案实现的：

本发明提供了一种基于优化深度神经网络模型的图像识别方法，包括以下步骤：

S1，选取图像的数据集作为训练样本，根据批数量的批次设置划分所述数据集为多个样本集合，将当前样本集合输入特定深度神经网络模型，得到当前样本集合对应的损失函数值集合；其中，所述特定深度神经网络模型作为选中深度神经网络；

S2，通过对所述损失函数值集合中数值较小的部分集合对应的训练样本的丢弃或强制置零，以增大所述选中深度神经网络参数的梯度平均值，更新所述选中深度神经网络的网络参数；

S3，通过多次迭代S1和S2，进行网络参数更新，直至特定深度神经网络模型收敛至最佳，得到优化后的深度神经网络模型；

S4，将待识别图像输入所述优化后的深度神经网络模型，得到识别出的图像。

进一步地，所述深度神经网络模型包括一个输入层、一个输出层和N个隐藏层，N为大于1的自然数；所述特定深度神经网络模型包括整个深度神经网络、或者深度神经网络中的某一层网络、或者某一个通道、或者多层网络的组合、或者多个通道的组合。

进一步地，所述S1中将当前样本集合输入特定深度神经网络模型，得到当前样本集合对应的损失函数值集合包括：通过对当前样本集合中的训练样本执行选中深度神经网络的前向传播处理得到每个样本的损失函数值，表示为loss值。

进一步地，所述每个样本的loss值，通过对获取的数据集中的训练样本执行选中深度神经网络的前向传播处理获得的样本的推断值与样本的真实值之间的差值得到。

进一步地，所述S2中通过对所述损失函数值集合中数值较小的部分集合对应的训练样本的丢弃或强制置零，更新所述选中深度神经网络的网络参数包括以下步骤：

根据预设阈值得到损失函数值集合中数值较小的部分集合，将部分集合的loss值丢弃后得到第一loss值集合或强制置零后得到第二loss值集合；

对所述第一loss值集合或第二loss值集合对应的训练样本执行选中深度神经网络的反向传播处理，获得选中深度神经网络的各层网络参数的梯度值；

根据所述各层网络参数的梯度值执行对所述选中深度神经网络的网络参数进行数值更新。

进一步地，所述根据预设阈值得到损失函数值集合中数值较小的部分集合，将部分集合的loss值丢弃后得到第一loss值集合或强制置零后得到第二loss值集合包括：将小于预设阈值的loss值丢弃后将剩余loss值作为第一loss值集合，或将小于预设值阈值的所有loss值置零以将处理后的各个loss值作为第二loss值集合；其中，所述预设阈值是根据预设百分比统计得到的，所述预设百分比为小于所述预设阈值的loss值数量占loss值总数的比值。

进一步地，所述预设阈值根据所述预设百分比统计得到，包括：对所有样本的loss值进行从小到大的顺序排序，将小于预设百分比数量的所有loss值丢弃后，剩下的loss值中最小的作为预设阈值。

进一步地，对所述第一loss值集合或第二loss值集合对应的训练样本执行选中深度神经网络的反向传播处理，获得选中深度神经网络的各层网络参数的梯度值包括：

选中深度神经网络的每一层网络的权重参数反向传播处理后，获得所述权重参数对应的样本的梯度值；若样本的loss值为零时，则所述权重参数对应的样本的梯度值为零；

对所述权重参数对应的所有样本的梯度值统计平均后得到各层网络参数的梯度平均值作为各层网络的权重参数的最终梯度值。

进一步地，所述对训练样本执行选中深度神经网络的前向传播处理的训练平台为Pytorch平台，具体包括：

通过设置包括批数量、训练次数、学习率、梯度下降系数、权值衰减系数、防止过拟合系数和优化器在内的平台参数，根据数据集中每个训练样本的前向传播结果得到每个样本的loss值；

利用平台中自带的函数找到所述预设百分比处的最小loss值，得到所述预设阈值，并将小于所述预设阈值的loss值丢弃后得到第一loss值集合或强制置零后得到第二loss值集合。

进一步地，对所述第一loss值集合或第二loss值集合对应的训练样本执行选中深度神经网络的反向传播处理的训练平台为Pytorch平台，具体包括：

根据样本集合中每个样本的loss值得到每一层网络的权重参数对应的每个样本的梯度值；

对所述每一层网络的权重参数对应的每个样本的梯度值统计平均，得到每一层网络的权重参数的最终梯度值，更新选中深度神经网络的各层网络参数的数值。

本发明技术方案的有益效果如下：本发明提供了一种基于优化深度神经网络模型的图像识别方法，采用大批量的图像数据集作为训练样本对深度神经网络模型进行样本训练，通过提升网络参数的梯度平均值，有效提升深度神经网络对批数量大数值的训练样本情况的图像识别性能，加快样本训练的速度，并提高模型识别的准确度。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例的一种基于优化深度神经网络模型的图像识别方法流程图；

图2为本发明实施例的深度神经网络内部的神经网络层模型示意图；

图3为本发明实施例的Alexnet模型结构示意图；

图4为本发明实施例的深度神经网络大批数量的训练结果示意图；

图5为本发明实施例的网络梯度平均值随批数量的变换示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，如图1所示，公开了一种基于优化深度神经网络模型的图像识别方法，包括以下步骤：

具体地，图像的数据集为若干图片的数据集合，比如动物照片、景色照片等等的集合。

与现有技术相比，本发明技术方案采用大批量的图像集合作为原始训练样本对深度神经网络模型进行样本训练，通过提升网络参数的梯度平均值，优化网络模型的训练性能，使其能够应对批数量(batch size)大数值情况下的数据处理，从而提高图像识别的效率以及准确度。

本发明的一个具体实施例，所述深度神经网络模型包括一个输入层、一个输出层和N个隐藏层，N为大于1的自然数；所述特定深度神经网络模型包括整个深度神经网络、或者深度神经网络中的某一层网络、或者某一个通道、或者多层网络的组合、或者多个通道的组合。

具体地，如图2所示，深度神经网络由多层网络组成：输入层，隐藏层和输出层。输入层位于第一层，输出层位于最后一层，剩余的中间网络都是隐藏层。结合图3的Alexnet模型结构示意图，可知层与层之间可以是全连接的，相临两层的任意两个神经元之间直接连接；也可以通过卷积核进行部分连接，上一层网络的神经元只与下一层网络的部分神经元连接。对于复杂的神经网络，例如ResNet、DenseNet等，某一层网络可以与其他多个层进行连接，甚至与网络中的所有层连接。

需要说明的是，随着同时输入深度神经网络进行并行化计算的数据的增多，网络的训练结果将逐渐变差，如图4所示，横坐标表示单次迭代步输入到网络中的数据的个数，纵坐标表示网络经过了多次迭代训练之后最终得到的模型精确度。由图4可见，随着深度神经网络的输入数据的增加，网络性能变差。图5给出了网络梯度平均值随批数量(batchsize)的变化示意图。如图所示，横坐标表示输入网络中的数据批数量(batch size)数值的大小，纵坐标表示某一层网络的网络梯度平均值，可见网络梯度平均值随着输入数据批数量(batch size)的增大而减小。网络梯度平均值是网络参数的梯度绝对值在特定集合内(整体网络、某一层网络、某一个通道等)的平均值，直接决定了网络参数更新的步长。因梯度平均值小会影响到更新网络参数时的迭代步长，导致网络参数很难搜寻到全局最优，使得网络训练效果变差。因此，要优化深度神经网络的性能，应设法增大在批数量(batchsize)大数值情况下的网络梯度平均值，扩大网络参数更新的搜索空间，以获取更优的网络参数。

也就是说，本发明在批数量(batch size)大数值情况下的深度神经网络中采用增大网络梯度平均值的方式进行优化，所述网络梯度平均值是网络参数的梯度绝对值在特定集合内的平均值，所述特定集合包括整个深度神经网络、或者深度神经网络中的某一层网络、或者某一个通道、或者多层网络的组合、或者多个通道的组合。

本发明的一个具体实施例，所述S1中将当前样本集合输入特定深度神经网络模型，得到当前样本集合对应的损失函数值集合包括：通过对当前样本集合中的训练样本执行选中深度神经网络的前向传播处理得到每个样本的损失函数值，表示为loss值。

本发明的一个具体实施例，所述每个样本的loss值，通过对获取的数据集中的训练样本执行选中深度神经网络的前向传播处理获得的样本的推断值与样本的真实值之间的差值得到。

具体地，通过筛选不同样本的损失函数值(loss值)，即网络模型对样本的推断值与真实值之间的差值，抛弃一部分loss值较小的样本，达到提高深度神经网络的平均梯度值的效果。该方法通过深度神经网络的前向传播过程获得当前批数量中所有样本的loss值，丢弃loss值小于某一预设值的多个样本或者将loss值小于某一预设值的多个样本保留但将其loss值强制设置为零，对深度神经网络中丢失或强制设置处理后的多个loss值分别对应的多个样本执行深度神经网络的反向传播，以增大深度神经网络的各个网络参数的梯度值，进而基于各个网络参数的梯度值执行对深度神经网络的网络参数的数值更新。

需要说明的是，本发明实施例通过对神经网络前向传播得到的每个样本对应的loss值进行筛选，剔除小于预设阈值的所有loss值，根据剩余loss值对神经网络进行反向传播并更新神经网络参数。本发明技术方案能够提升网络参数的梯度平均值，优化网络的训练性能，使其能够应对批数量(batch size)大数值情况下的数据处理。

本发明的一个具体实施例，所述S2中通过对所述损失函数值集合中数值较小的部分集合对应的训练样本的丢弃或强制置零，更新所述选中深度神经网络的网络参数包括以下步骤：

下面给出丢弃损失函数小值(小loss值)样本以增大网络梯度平均值的具体实施例，以具体说明本发明的深度神经网络优化方法，该方法包括以下步骤：

步骤1：基于选取的数据集按照批数量的设置值分批次对样本执行选中深度神经网络的前向传播处理，以获得每一个样本对应的损失函数值即loss值；

步骤2：针对各个样本的各个loss值执行以下处理：将小于loss值阈值的所有loss值丢弃以将剩余loss值作为第一loss值集合，或将小于loss值阈值的所有loss值置零以将处理后的各个loss值作为第二loss值集合，所述loss值阈值是根据统计得到的，小于所述loss值阈值的loss值数占总loss值数的比值为预设百分比；

步骤3：将所述第一loss值集合或所述第二loss值集合用于所述选中深度神经网络以执行反向传播处理，获得选中深度神经网络的各个网络参数的梯度值；

步骤4：使用各个网络参数的梯度值执行对所述选中深度神经网络的网络参数的数值更新；

其中，每一个样本对应的损失函数值为选中深度神经网络通过对样本执行的前向传播处理获得的样本的推断值与样本的真实值之间的差值。

本发明的一个具体实施例，所述根据预设阈值得到损失函数值集合中数值较小的部分集合，将部分集合的loss值丢弃后得到第一loss值集合或强制置零后得到第二loss值集合包括：将小于预设阈值的loss值丢弃后将剩余loss值作为第一loss值集合，或将小于预设值阈值的所有loss值置零以将处理后的各个loss值作为第二loss值集合；其中，所述预设阈值是根据预设百分比统计得到的，所述预设百分比为小于所述预设阈值的loss值数量占loss值总数的比值。

本发明的一个具体实施例，所述预设阈值根据所述预设百分比统计得到，包括：对所有样本的loss值进行从小到大的顺序排序，将小于预设百分比数量的所有loss值丢弃后，剩下的loss值中最小的作为预设阈值。

本发明的一个具体实施例，对所述第一loss值集合或第二loss值集合对应的训练样本执行选中深度神经网络的反向传播处理，获得选中深度神经网络的各层网络参数的梯度值包括：

具体地，将所述第一loss值集合或所述第二loss值集合用于所述选中深度神经网络以执行反向传播处理，以获得选中深度神经网络的各个网络参数的梯度值包括：针对选中深度神经网络的每一层网络的权重参数，在所述反向传播处理后，获取所述权重参数对应的每一个样本的梯度值，对所述权重参数对应的各个样本的梯度值执行算术平均值计算以获得所述权重参数的最终梯度值；进一步针对选中深度神经网络的每一层网络的权重参数，在所述反向传播处理后，获取所述权重参数对应的每一个样本的梯度值包括：样本的loss值为零时，所述权重参数对应的所述样本的梯度值为零。

本发明的一个具体实施例，所述对训练样本执行选中深度神经网络的前向传播处理的训练平台为Pytorch平台，具体包括：

本发明的一个具体实施例，对所述第一loss值集合或第二loss值集合对应的训练样本执行选中深度神经网络的反向传播处理的训练平台为Pytorch平台，具体包括：

需要说明的是，通常所述预设百分比的取值为40％，选中深度神经网络为AlexNet网络。执行AlexNet网络的前向传播处理和反向传播处理的训练平台为Pytorch平台。基于Pytorch平台自带的数学函数自动寻找预设百分比对应的loss值。设定的数据集为Cifar10数据集，批数量即batch size取值为8000。所述深度神经网络包括一个输入层、一个输出层和N个隐藏层，N为大于1的自然数。执行选中深度神经网络的前向传播处理还基于以下参数：批数量、训练次数epoch、学习率、梯度下降系数momentum、权值衰减系数weight decay、防止过拟合系数dropout和优化器optimizer；其中，epoch设置为250，学习率设置为0.01，momentum设置为0.9，weight decay设置为0.0001，dropout设置为0.5，optimizer设置为SGD。

具体地，利用Pytorch平台对数据集中每一个样本执行选中深度神经网络的自动前向传播处理，得到的结果为每个样本的loss值，如表1所示：

样本编号	1	2	3	…	8000
						Loss	2.3024	2.4520	3.5423	…	2.3064

表1

再利用Pytorch平台中自带的数学函数寻找到x％处的loss值L，本例中x设为40，并根据实际的训练任务进行调整，得到的L＝2.4520，将小于L的所有loss强制设置为0，则表1被转换为表2：

样本编号	1	2	3	…	8000
						Loss	0.0	2.4520	3.5423	…	0.0

表2

也可以选择将表2的零值loss直接丢弃掉，即表1被转换为表3：

样本编号	2	3	…
				Loss	2.4520	3.5423	…

表3

随后，Pytorch平台对表2或表3中的每个loss自动进行反向传播，计算得到相应的网络参数梯度，以AlexNet网络接近输入端的第一层网络的第一个权重参数w1为例，在反向传播后，将计算得到w1对应的每个样本的梯度值，其中0值loss对应的梯度值自然为0，如表4所示：

表4

获得表4中每个样本对应的梯度值之后，Pytorch平台将进行梯度值的统计平均，以作为w1的最终梯度值d1，比如计算得到d1＝0.0019。w1的数值更新将根据得到的d1进行相应计算。以此类推，进行选中深度神经网络的各个网络参数的数值更新，以获得性能优化后的深度神经网络。利用优化后的深度神经网络进行图像识别，提升了图像识别的效率以及准确度。

综上所述，本发明公开了一种基于优化深度神经网络模型的图像识别方法，该方法包括以下步骤：S1，选取图像的数据集作为训练样本，根据批数量的批次设置划分所述数据集为多个样本集合，将当前样本集合输入特定深度神经网络模型，得到当前样本集合对应的损失函数值集合；其中，所述特定深度神经网络模型作为选中深度神经网络；S2，通过对所述损失函数值集合中数值较小的部分集合对应的训练样本的丢弃或强制置零，以增大所述选中深度神经网络参数的梯度平均值，更新所述选中深度神经网络的网络参数；S3，通过多次迭代S1和S2，进行网络参数更新，直至特定深度神经网络模型收敛至最佳，得到优化后的深度神经网络模型；S4，将待识别图像输入所述优化后的深度神经网络模型，得到识别出的图像。本发明实施例通过基于损失函数loss值的筛选，以提升网络参数的平均梯度值，实现对深度神经网络的各个网络参数梯度值的计算和更新，进而基于每一个网络参数的更新后的梯度值，获取深度神经网络的各个网络参数的更新值，从而重建深度神经网络模型，优化其模型训练性能，使其能够应对大batch size的数据处理。

本领域技术人员可以理解，实现上述实施例中方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于优化深度神经网络模型的图像识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述深度神经网络模型包括一个输入层、一个输出层和N个隐藏层，N为大于1的自然数；所述特定深度神经网络模型包括整个深度神经网络、或者深度神经网络中的某一层网络、或者某一个通道、或者多层网络的组合、或者多个通道的组合。

3.根据权利要求1所述的方法，其特征在于，所述S1中将当前样本集合输入特定深度神经网络模型，得到当前样本集合对应的损失函数值集合包括：通过对当前样本集合中的训练样本执行选中深度神经网络的前向传播处理得到每个样本的损失函数值，表示为loss值。

4.根据权利要求3所述的方法，其特征在于，所述每个样本的loss值，通过对获取的数据集中的训练样本执行选中深度神经网络的前向传播处理获得的样本的推断值与样本的真实值之间的差值得到。

5.根据权利要求1所述的方法，其特征在于，所述S2中通过对所述损失函数值集合中数值较小的部分集合对应的训练样本的丢弃或强制置零，更新所述选中深度神经网络的网络参数包括以下步骤：

6.根据权利要求5所述的方法，其特征在于，所述根据预设阈值得到损失函数值集合中数值较小的部分集合，将所述部分集合的loss值丢弃后得到第一loss值集合或强制置零后得到第二loss值集合包括：将小于预设阈值的loss值丢弃后将剩余loss值作为第一loss值集合，或将小于预设值阈值的所有loss值置零以将处理后的各个loss值作为第二loss值集合；其中，所述预设阈值是根据预设百分比统计得到的，所述预设百分比为小于所述预设阈值的loss值数量占loss值总数的比值。

7.根据权利要求6所述的方法，其特征在于，所述预设阈值根据所述预设百分比统计得到，包括：对所有样本的loss值进行从小到大的顺序排序，将小于预设百分比数量的所有loss值丢弃后，剩下的loss值中最小的作为预设阈值。

8.根据权利要求5所述的方法，其特征在于，对所述第一loss值集合或第二loss值集合对应的训练样本执行选中深度神经网络的反向传播处理，获得选中深度神经网络的各层网络参数的梯度值包括：

9.根据权利要求3或4所述的方法，其特征在于，所述对训练样本执行选中深度神经网络的前向传播处理的训练平台为Pytorch平台，具体包括：

10.根据权利要求5或8所述的方法，其特征在于，对所述第一loss值集合或第二loss值集合对应的训练样本执行选中深度神经网络的反向传播处理的训练平台为Pytorch平台，具体包括：