CN109344888A

CN109344888A - 一种基于卷积神经网络的图像识别方法、装置及设备

Info

Publication number: CN109344888A
Application number: CN201811094372.XA
Authority: CN
Inventors: 李雪扬; 王永华; 艾雄志; 万频; 戴鹏翔
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2019-02-15

Abstract

本发明公开了一种基于卷积神经网络的图像识别方法、装置、设备以及计算机可读存储介质，包括：获取待识别的图像，将图像输入卷积神经网络的卷积层进行特征提取，得到各个卷积层的神经元；对最后一层卷积层的神经元进行全连接操作，得到第一层全连接层；依据第一层全连接层神经元预选特征值大小，对第一层全连接层的神经元进行排序；判断第一全连接层神经元的排序方式，若排序方式为升序排序，则根据预设丢弃比率，由上至下丢弃所述第一全连接层中部分神经元后，将第一层全连接层神经元内剩余神经元连接至softmax层进行分类和识别。本发明所提供的方法、装置、设备以及计算机可读存储介质，有效防止过拟合的同时保证了减小训练次数后图像识别的精确度。

Description

一种基于卷积神经网络的图像识别方法、装置及设备

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于卷积神经网络的图像识别方法、装置、设备以及计算机可读存储介质。

背景技术

深度学习是近十年来人工智能领域取得的重要突破。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域的应用取得了巨大成功。现有的深度学习模型属于神经网络。深度模型具有强大的学习能力和高效的特征表达能力，更重要的优点是从像素级原始数据到抽象的语义概念逐层提取信息，这使得它在提取图像的全局特征和上下文信息方面具有突出的优势，解决传统的计算机视觉问题提高了图像识别与分类的准确率。

在图像识别中，卷积神经网络模型应该将整幅图像作为输入，直接预测整幅分割图。图像分割可以被看作一个高维数据转换的问题来解决。这样不但利用到了上下文信息，模型在高维数据转换过程中也隐式地加入了形状先验，使识别效果大幅上升。但是当训练数据集规模较小或计算资源有限的情况下，由于神经网络有大量参数，将会发生过拟合问题，虽然其识别结果在训练集上准确率很高，但在测试集上效果却很差。

现有的改善过拟合，提高图像识别在测试集上的准确率的方法一种是减小网络规模降低模型的复杂度，就是在cost函数中加入正则化项，正则化项可以理解为复杂度，cost越小越好，但cost加上正则项之后，为了使cost小，就不能让正则项变大，也就是不能让模型更复杂，这样就降低了模型复杂度，也就降低了过拟合。正则化又分为L2正则化和L1正则化两种。第二种方法就是在神经网络中添加Dropout层。在该层中，神经网络在每次训练时按一定的概率随机抛弃掉一些神经元，将其置0。相当于在不同的神经网络上进行训练，这样就减少了神经元之间的依赖性，即每个神经元不能依赖于某几个其他的神经元(指层与层之间相连接的神经元)，使神经网络更加能学习到与其他神经元之间的更加健壮robust的特征。

如图1所示，全连接层神经网络是每相邻两层神经元之间，下一层的每一个神经元都与上一层所有神经元相互连接，形成前向传递和反向回馈的计算方式。现有技术中，通过Dropout方法使全连接层的神经元随机减少，减少的神经在实践中是用伯努利随机分布实现。在概率为0.5的情况下，经过Dropout处理后全连接层的网络结构为图2所示。如图2所示，被选中的神经在模型训练的时候其所有的连接都剔除，只有剩下的神经元进行连接。

在原始的全连接层网络计算公式为：

通过激活函数后输出为：

其中，W为权重；y(l)为原始卷积输入层；y(l+1)为经过激活后的全连接输出层；z为全连接输出层；b为偏置；l结构层数；i神经元个数；j为随机变量个数；为第l+1层第i个权重；为第l+1层j个服从伯努利分布的随机变量。

如图3所示，在使用Dropout层后,修改激活函数，通过一个伯努利随机变量分布使输出变为：

Bernoulli(p)为：其中，k为可能的输出，以设定的概率p，随机生成一个0、1的向量决定每个神经元是否被保留。比如我们某一层网络神经元的个数为1000个；其激活值为x1，x2……x1000，我们设定Dropout比率p选择0.4，那么这一层神经元经过Dropout层后，x1……x1000神经元其中会有大约400个的值被置为0。经过上述操作屏蔽掉某些神经元，使其激活值为0以后，我们还需要对向量x1……x1000进行重置(rescale)，也就是乘以1/(1-p)。如果在训练的时，经过置0后，没有对x1……x1000进行rescale，那么你在测试的时候，就需要对权重进行rescale：r为服从伯努利分布的一个随机变量，为经过丢弃后的输出层。

在使用Dropout层来防止过拟合时，每次训练抛弃的神经元都是随机的，但是每个神经元上都承载着图像的某一部分特征，这些特征中有些也许在最后的图像识别中会起到很重要的作用，因此如果被丢弃将会使最终的识别精确度下降。相反，有些承载不重要特征的神经元被保留下来，对最后的识别结果并无作用。且使用Dropout层的神经网络的训练一般都是基于大数据集，并且需要经过大量的训练，不断修正网络权重从而得到的良好效果。当训练次数减小时，对于图像的识别精确度就会下降。

综上所述可以看出，如何在有效防止过拟合的同时保证减小训练次数后图像识别的精确度是目前有待解决的问题。

发明内容

本发明的目的是提供一种基于卷积神经网络的图像识别方法、装置、设备以及计算机可读存储介质，以解决现有技术中采用Dropout层防止过拟合问题时图像识别精确度较低的问题。

为解决上述技术问题，本发明提供一种基于卷积神经网络的图像识别方法，包括：获取待识别的图像，将所述图像输入卷积神经网络的各个卷积层进行特征提取后，得到所述各个卷积层的神经元；对最后一层卷积层的神经元进行全连接操作，从而得到所述卷积神经网络的第一层全连接层；依据所述第一层全连接层神经元预选特征值大小，对所述第一层全连接层的神经元进行排序；判断所述第一全连接层神经元的排序方式，若所述排序方式为升序排序，则根据预设丢弃比率，由上至下丢弃所述第一全连接层中部分神经元后，将所述第一层全连接层神经元内剩余的神经元连接至所述卷积神经网络的softmax层进行分类和识别。

优选地，所述依据所述第一层全连接层神经元预选特征值大小，对所述第一层全连接层的神经元进行排序包括：

依据所述第一层全连接层神经元灰度值的大小，对所述第一层全连接层的神经元进行排序。

优选地，所述判断所述第一全连接层神经元的排序方式后还包括：若所述排序方式为降序排列，则根据预设丢弃比率，由下至上丢弃所述第一全连接层中部分神经元后，将所述第一层全连接层神经元内剩余的神经元连接至所述卷积神经网络的softmax层进行分类。

优选地，所述获取待识别的图像，将所述图像输入卷积神经网络的各个卷积层进行特征提取后，得到所述各个卷积层的神经元包括：

将待识别的图像输入至卷积神经网络的卷积层，通过多个不同的卷积核的特征提取，并为所述图像添加偏置，从而得到所述图像的局部特征；

利用非线性的激活函数对所述卷积核的特征提取结果进行激活识别，得到所述卷积层的神经元。

优选地，所述利用非线性的激活函数对所述卷积核的特征提取结果进行激活识别，得到所述卷积层的神经元

利用Sigmoid函数对所述卷积核的特征提取结果进行激活识别，得到所述卷积层的神经元。

优选地，所述将所述第一层全连接层神经元内剩余的神经元连接至所述卷积神经网络的softmax层进行分类和识别包括：

将所述第一层全连接层神经元内剩余的神经元连接至所述卷积神经网络的softmax层进行分类，以便于在所述softmax层的最终分类输出所述图像的识别结果的准确度。

本发明还提供了一种基于卷积神经网络的图像识别装置，包括：

特征提取模块，用于获取待识别的图像，将所述图像输入卷积神经网络的各个卷积层进行特征提取后，得到所述各个卷积层的神经元；

全连接模块，用于对最后一层卷积层的神经元进行全连接操作，从而得到所述卷积神经网络的第一层全连接层；

排序模块，用于依据所述第一层全连接层神经元预选特征值大小，对所述第一层全连接层的神经元进行排序；

丢弃模块，用于判断所述第一全连接层神经元的排序方式，若所述排序方式为升序排序，则根据预设丢弃比率，由上至下丢弃所述第一全连接层中部分神经元后，将所述第一层全连接层神经元内剩余的神经元连接至所述卷积神经网络的softmax层进行分类和识别。

优选地，所述排序模块具体用于：依据所述第一层全连接层神经元灰度值的大小，对所述第一层全连接层的神经元进行排序。

本发明还提供了一种基于卷积神经网络的图像识别的设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种基于卷积神经网络的图像识别的方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于卷积神经网络的图像识别的方法的步骤。

本发明所提供的基于卷积神经网络的图像识别方法，获取待处理的图像，将所述图像输入至所述卷积神经网络的卷积层进行特征提取后，得到所述卷积层的神经元。对最后一层卷积层的神经元进行全连接操作，从而得到所述卷积神经网络的第一层全连接层；依据所述第一层全连接层神经元预选特征值大小，对所述第一层全连接层的神经元进行排序。在神经网络中，权值起到了放大或缩小特征的作用。卷积提取局部特征而全连接层则是将以前的局部特征通过权值矩阵组装完成。将卷积层转换为全连接层相当于用与图像大小相等的卷积核进行一次卷积。此时，权值小的卷积核将对应部分图像特征缩小，则该特征在最终的分类中所占比重降低。因此，通过所述各个神经元内所包含的图像特征的参数值表征所述全连接层的各个神经元的权重大小。当神经元内包含的图像特征越重要，则所述神经元预设参数值就越大；神经元内包含的图像特征越不重要，所述神经元的预设参数值就越小。本发明所提供的方法，通过将包含的图像特征较小的神经元丢弃，保留包含重要图像特征的神经元，有效防止了过拟合问题的同时保证了减小训练次数后图像识别较高的精确度。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为卷积神经网络全连接层的网络结构示意图；

图2为经过Dropout层处理后全连接层的网络结构示意图；

图3为Dropout层通过伯努利随机变量分布决定神经元是否被保留的流程示意图；

图4为本发明所提供的基于卷积神经网络的图像识别方法的第一种具体实施例的流程图；

图5为本发明所提供的基于卷积神经网络的图像识别方法的第二种具体实施例的流程图；

图6为通过DropSort层选择需要丢弃的神经元的流程示意图；

图7为本发明实施例提供的一种基于卷积神经网络的图像识别装置的结构框图。

具体实施方式

本发明的核心是提供一种基于卷积神经网络的图像识别方法、装置、设备以及计算机可读存储介质，有效防止过拟合问题的同时保证了减小训练次数后图像识别的精确度。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图4，图4为本发明所提供的基于卷积神经网络的图像识别方法的第一种具体实施例的流程图；；具体操作步骤如下：

步骤S401：获取待识别的图像，将所述图像输入卷积神经网络的各个卷积层进行特征提取后，得到所述各个卷积层的神经元；

在卷积神经网络中，第一个卷积层会直接接受图像像素级的输入，每一个卷积操作只处理一小块图像，进行卷积变化后再传到后面的网络，每一个卷积层都会提取数据中最有效的特征。这种方法可以提取到图像中最基础的特征，比如不同方向的边或者拐角，而后在进行组合和抽象形成更高阶的特征。

将所述待处理的图像输入至所述卷积神经网络的卷积层，使所述图像通过多个不同的卷积核的特征提取，并加偏置(bias)，提取出局部特征，每一个卷积核会映射出一个新的2D图像。将卷积核的特征提取结果进行非线性的激活函数处理，得到所述卷积层的神经元。在本实施例中，可以使用ReLU函数对所述卷积核的特征提取结果进行激活处理；也可以使用Sigmoid函数对所述卷积核的特征提取结果进行激活处理。

对所述激活函数的结果在进行池化操作，即降采样操作；在本实施例中可以使用最大池化，保留最显著的图像特征，并提升模型的畸变容忍能力。

步骤S402：对最后一层卷积层的神经元进行全连接操作，从而得到所述卷积神经网络的第一层全连接层；

步骤S403：依据所述第一层全连接层神经元预选特征值大小，对所述第一层全连接层的神经元进行排序；

每一个神经元内均承载着图像的某一部分图像特征；通过神经元的预设参数值的大小说明这一部分图像特征在一次图像识别中所占的重要性大小。因此，当神经元内包含的图像特征越重要，则所述神经元的预设参数值就越大；神经元内包含的图像特征越不重要，所述神经元的预设参数值就越小。

步骤S404：判断所述第一全连接层神经元的排序方式，若所述排序方式为升序排序，则根据预设丢弃比率，由上至下丢弃所述第一全连接层中部分神经元后，将所述第一层全连接层神经元内剩余的神经元连接至所述卷积神经网络的softmax层进行分类和识别。

在本实施例中，也可以依据所述第一层全连接层神经元的与预设参数值的大小对所述第一层全连接层神经元进行降序排序。根据预设丢弃比率，由上至下丢弃所述第一全连接层中部分神经元后，将所述第一层全连接层神经元内剩余的神经元连接至所述卷积神经网络的softmax层进行分类和识别。

在本实施例中，通过将包含的图像特征不是很重要的神经元丢弃，保留包含重要图像特征的神经元，有效防止了过拟合问题的同时保证了减小训练次数后图像识别较高的精确度。

基于上述实施例，在本实施例中利用所述第一层全神经层的灰度值大小对所述第一层全连接层中神经元进行排序。请参考图5，图5为本发明所提供的基于卷积神经网络的图像识别方法的第二种具体实施例的流程图；具体操作步骤如下：

步骤S501：将待处理的图像输入至卷积神经网络的卷积层，通过多个不同的卷积核的特征提取，并为所述图像添加偏置，从而得到所述图像的局部特征；

步骤S502：利用非线性的激活函数对所述卷积核的特征提取结果进行激活处理，得到所述卷积层的神经元；

步骤S503：将最后一层卷积层的神经元进行降采样操作后，得到所述卷积神经网络的第一层全连接层；

步骤S504：依据所述第一层全连接层神经元灰度值的大小，对所述第一层全连接层的神经元进行升序排序；

步骤S505：根据预设丢弃比率，由上至下丢弃所述第一全连接层中部分神经元；

经过大量实验数据，在本实施例中，将所述丢弃比率设置为50％时，卷积神经网络模型的性能最优。因此可以依据所述第一层全连接层神经元灰度值的大小，对所述池化层的神经元进行升序排序；然后从上到下丢弃50％的神经元。

步骤S506：将所述第一层全连接层神经元内剩余的神经元连接至所述卷积神经网络的softmax层进行分类和识别，以便于在所述softmax层的最终分类输出所述图像的识别结果的准确度。

在本实施例中，通过对TensorFlow底层的Dropout层代码的修改，如图6所示；抛弃原有的伯努利分布式丢弃，将输入(input)Dropout层的神经元在被以一定概率丢弃以前先进行升序排序，在以规定的丢弃率k，丢弃前input*k个神经元，我们将其命名为DropSort层。本实施例所提供的方法不仅保留了原始Dropout层防止过拟合的效果，也实现了减少的训练次数后图像识别的精确度。

使用TensorFlow搭建一个具有两个卷积层和一个全连接层的简单卷积神经网络，分别使用Dropout层和DropSort层进行防止过拟合。将训练步数减少到仅有200步，在MNIST的公开数据集上进行测试，每10步输出一次识别的精确度结果，最后将200次的训练结果拟合。对于不同的卷积神经网络，分别使用Dropout层和DropSort层防止过拟合。通过拟合效果可以看出，在仅有200步的训练中使用DropSort后图像识别的精确度始终优于使用Dropout的精确度，如表1、表2和表3所示。

表1 LeNet结构实验结果

表2 ResNet-18结构实验结果

表3 ResNet-18结构实验结果

请参考图7，图7为本发明实施例提供的一种基于卷积神经网络的图像识别装置的结构框图；具体装置可以包括：

特征提取模块100，用于获取待识别的图像，将所述图像输入卷积神经网络的各个卷积层进行特征提取后，得到所述各个卷积层的神经元；

全连接模块200，用于对最后一层卷积层的神经元进行全连接操作，从而得到所述卷积神经网络的第一层全连接层；

排序模块300，用于依据所述第一层全连接层神经元预选特征值大小，对所述第一层全连接层的神经元进行排序；

丢弃模块400，用于判断所述第一全连接层神经元的排序方式，若所述排序方式为升序排序，则根据预设丢弃比率，由上至下丢弃所述第一全连接层中部分神经元后，将所述第一层全连接层神经元内剩余的神经元连接至所述卷积神经网络的softmax层进行分类和识别。

本实施例的基于卷积神经网络的图像识别装置用于实现前述的基于卷积神经网络的图像识别方法，因此基于卷积神经网络的图像识别装置中的具体实施方式可见前文中的基于卷积神经网络的图像识别方法的实施例部分，例如，特征提取模块100，全连接模块200，排序模块300，丢弃模块400，分别用于实现上述基于卷积神经网络的图像识别方法中步骤S101，S102，S103和S104，所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再赘述。

本发明具体实施例还提供了一种基于卷积神经网络的图像识别设备，包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序时实现上述一种基于卷积神经网络的图像识别方法的步骤。

本发明具体实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述一种基于卷积神经网络的图像识别方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的基于卷积神经网络的图像识别方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于卷积神经网络的图像识别方法，其特征在于，包括：

获取待识别的图像，将所述图像输入卷积神经网络的各个卷积层进行特征提取后，得到所述各个卷积层的神经元；

对最后一层卷积层的神经元进行全连接操作，从而得到所述卷积神经网络的第一层全连接层；

依据所述第一层全连接层神经元预选特征值大小，对所述第一层全连接层的神经元进行排序；

判断所述第一全连接层神经元的排序方式，若所述排序方式为升序排序，则根据预设丢弃比率，由上至下丢弃所述第一全连接层中部分神经元后，将所述第一层全连接层神经元内剩余的神经元连接至所述卷积神经网络的softmax层进行分类和识别。

2.如权利要求1所述的图像识别方法，其特征在于，所述依据所述第一层全连接层神经元预选特征值大小，对所述第一层全连接层的神经元进行排序包括：

3.如权利要求2所述的图像识别方法，其特征在于，所述判断所述第一全连接层神经元的排序方式后还包括：

若所述排序方式为降序排列，则根据预设丢弃比率，由下至上丢弃所述第一全连接层中部分神经元后，将所述第一层全连接层神经元内剩余的神经元连接至所述卷积神经网络的softmax层进行分类。

4.如权利要求1所述的图像识别方法，其特征在于，所述获取待识别的图像，将所述图像输入卷积神经网络的各个卷积层进行特征提取后，得到所述各个卷积层的神经元包括：

5.如权利要求4所述的图像识别方法，其特征在于，所述利用非线性的激活函数对所述卷积核的特征提取结果进行激活识别，得到所述卷积层的神经元

6.如权利要求1所述的图像识别方法，其特征在于，所述将所述第一层全连接层神经元内剩余的神经元连接至所述卷积神经网络的softmax层进行分类和识别包括：

7.一种基于卷积神经网络的图像识别装置，其特征在于，包括：

8.如权利要求7所述的装置，其特征在于，所述排序模块具体用于：

9.一种基于卷积神经网络的图像识别的设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述一种基于卷积神经网络的图像识别的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述一种基于卷积神经网络的图像识别的方法的步骤。