CN110796162B

CN110796162B - 图像识别、训练识别模型的方法、相关设备及存储介质

Info

Publication number: CN110796162B
Application number: CN201910882256.2A
Authority: CN
Inventors: 韦嘉楠; 王义文; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2023-08-29
Anticipated expiration: 2039-09-18
Also published as: WO2021051520A1; CN110796162A

Abstract

本发明公开了图像识别、训练识别模型的方法、相关设备及存储介质，训练识别模型的方法包括：获取待识别图像；将所述待识别图像输入到图像识别模型；所述图像识别模型包括T个卷积层，所述T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不相同，所述N为大于或者等于2的正整数；通过所述图像识别模型输出识别结果。本发明实施例中图像识别的方法在保证图像识别率的同时，减少了占用终端的处理资源。

Description

图像识别、训练识别模型的方法、相关设备及存储介质

技术领域

本发明涉及计算机应用技术领域，尤其涉及图像识别、训练识别模型的方法、相关设备及存储介质。

背景技术

近年来，随着深度学习技术的高速发展，卷积神经网络在各个领域(如语义理解、图像识别等)都具有很广泛的应用。比如，在图像识别领域，所应用的卷积神经网络中比较有代表性的结构为Inception结构，Inception结构用于增加网络深度和宽度，从而提高神经网络性能，在Inception结构中，使用多个不同尺寸的卷积核来增强网络的适应力。在同一层神经网络中引入了不同大小的卷机核，例如分别使用了1*1，3*3，5*5的卷积核，这些不同卷积核的提取不同尺度的特征，以增加了特征的多样性。

传统方式中，为了提高图像的识别率，需要增大感受野，尽可能的获取更多的特征，模型中设置更大尺寸的卷积核，部署在终端的卷积神经网络模型的参数更多，模型体量更大，该图像识别模型所占用移动终端的资源越多，降低了移动终端的运行速度。

发明内容

本发明实施例提供一种训练识别模型、图像识别的方法、相关设备及存储介质，用于保证图像识别率的同时，减少占用终端的处理资源。

第一方面，本发明实施例提供了一种图像识别的方法，包括：

获取待识别图像；

将所述待识别图像输入到图像识别模型；所述图像识别模型包括T个卷积层，所述T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不相同，所述N为大于或者等于2的正整数；

通过所述图像识别模型输出识别结果。

第二方面，本发明实施例提供了一种训练识别模型的方法，包括：

获取待训练数据集；

将所述待训练数据集输入到空洞卷积神经网络，所述空洞卷积神经网络包括T个卷积层，所述T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不不同，所述N和T均为大于或者等于2的正整数；

在所述T个卷积层中的第M个卷积层，所述N路空洞卷积中的每路空洞卷积的卷积核进行卷积的过程中，得到多个特征映射；

将所述多个特征映射通过拼接后输入到第(M+1)个卷积层；所述第M个卷积层的卷积核与所述第(M+1)个卷积层的卷积核的权值不同；

将第T个卷积层输出的特征映射通过拼接后输入到输出层，通过所述输出层输出分类结果，所述T大于或者等于所述(M+1)；

根据所述分类结果确定所述卷积神经网络的参数，得到识别模型。

第三方面，本发明实施例提供了一种图像识别的装置，包括：

获取模块，用于获取待识别图像；

图像输入模块，用于将所述获取模块获取的待识别图像输入到图像识别模型；所述图像识别模型包括T个卷积层，所述T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不相同，所述N为大于或者等于2的正整数；

结果输出模块，用于输出识别结果。

第四方面，本发明实施例提供了一种训练识别模型的装置，包括：

获取模块，用于获取待识别图像；

图像输入模块，用于将所述获取模块获取的待识别图像输入到空洞卷积神经网络模型；所述空洞卷积神经网络模型包括T个卷积层，所述T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不相同，所述N为大于或者等于2的正整数；

卷积模块，在所述图像输入模块输入到的所述T个卷积层中的第M个卷积层，所述N路空洞卷积中的每路空洞卷积的卷积核进行卷积的过程中，得到多个特征映射；

特征映射输入模块，用于将所述卷积模块得到的所述多个特征映射通过拼接后输入到第(M+1)个卷积层；所述第M个卷积层的卷积核与所述第(M+1)个卷积层的卷积核的权值不同；

结果输出模块，用于将第T个卷积层输出的特征映射通过拼接后输入到输出层，通过所述输出层输出识别结果，所述T大于或者等于所述(M+1)。

第五方面，本发明实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时执行上述第一方面或上述第二方面所述的方法。

第六方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时执行上述第一方面或上述第二方面所述的方法。

本发明实施例中，首先获取待识别图像；然后将所述待识别图像输入到图像识别模型，本发明实施例中的图像识别模型包括T个卷积层，该T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不不同；本发明实施例中同一个卷积层的原始卷积核的大小相同，例如在同一个卷积层的N路的空洞卷积的原始卷积核的大小都可以为3*3，且N路的空洞卷积的卷积核的权值相同，N路的卷积核的数量相同。但是N路空洞卷积的空洞率互不相同，获取N路不同感受野的特征映射(featuremap)，在同一层就可以提取不同尺度的特征，扩大感受野，既保证了图像识别的准确率，而且N路空洞卷积共享卷积核的权值，不需要像传统方法中增加不同尺寸的卷积核来扩大感受野，有效的减少图像识别模型的体量，保证识别图像的识别准确率的同时，有效减少图像识别模型部署在移动终端所占用的资源，提高移动终端的运行速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例中一种训练识别模型的方法的一个实施例的步骤流程图；

图2是本发明实施例中不同空洞率的卷积核的示意图；

图3是本发明实施例中空洞卷积神经网络的结构示意图；

图4是本发明实施例中一种图像识别的方法的一个实施例的步骤流程图；

图5是本发明实施例中一种图像识别的装置的一个实施例的结构示意图；

图6是本发明实施例中一种训练识别模型的装置的一个实施例的结构示意图；

图7是本发明实施例中一种计算机设备的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种图像识别的方法，该方法可以应用于终端，该终端可以包括但不限定于手机，平板电脑等，本发明实施例中，首先获取待识别图像；然后将所述待识别图像输入到图像识别模型，本发明实施例中的图像识别模型包括T个卷积层，该T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不不同；本发明实施例中同一个卷积层的原始卷积核的大小相同，例如在同一个卷积层的N路的空洞卷积的原始卷积核的大小都可以为3*3，且N路的空洞卷积的卷积核的权值相同，N路的卷积核的数量相同。但是N路空洞卷积的空洞率互不相同，获取N路不同感受野的特征映射(featuremap)，在同一层就可以提取不同尺度的特征，扩大感受野，既保证了图像识别的准确率，而且N路空洞卷积共享卷积核的权值，不需要像传统方法中增加不同尺寸的卷积核来扩大感受野，有效的减少图像识别模型的体量，有效减少图像识别模型部署在移动终端所占用的资源，提高移动终端的运行速度。

本发明实施例中包括两个部分的方法步骤，其中，第一部分为训练识别模型，第二部分为通过该识别模型对图像进行识别。在第一部分中，训练识别模型的方法的执行主体可以为服务器，也可以为终端，该终端包括但不限定于各种个人计算机、笔记本电脑等。该服务器为独立的服务器或者是多个服务器组成的服务器集群来实现。训练识别模型的方法可以是线上训练也可以是线下训练，具体的并不限定。训练识别模型的执行主体可以与图像识别的执行主体相同，也可以不同。本发明实施例中，该训练识别模型的方法的执行主体可以以服务器为例进行说明，图像识别的方法的执行主体可以以终端为例进行说明。

首先，对训练识别模型的方法进行说明：

请参阅图1所示，本发明实施例提供了一种训练识别模型的方法，该方法可以具体包括如下步骤。

S101:获取待训练数据集。

该待训练数据集可以是图像数据集，文本数据集等，该待训练数据集可以根据具体的应用场景获取不同类别的待训练数据集。本发明中，该待训练的数据集可以以图像数据集为例进行说明。

可选的，可以通过爬虫在互联网上爬取目标数据集。例如，该目标数据集可以为动物图像集，为了丰富待训练数据集，更好的提取特征，泛化模型防止模型出现过拟合，需要输入充足的数据量。可以对待训练数据集进行数据增强处理来获得更多的待训练数据。

具体的，对所述目标数据集通过几何变换方式进行增强处理，得到所述待训练数据集；所述几何变换方式包括旋转变换、翻转变换、缩放变换和平移变换中的至少一种。其中，旋转变换可以理解为将图像随机的旋转一定的角度，使图像里的目标物体的朝向发生变化；翻转变换可以理解为沿着水平或者垂直方向翻转图像；缩放变换可以理解为按照一定的比例放大或者缩小图像；平移变换可以理解为将图像按照某种方式进行平移，达到改变目标位置的目的，平移方向和距离可以预先设定，也可以随机生成。本实施例中，通过上述数据增强处理，待训练数据集可以包括充足的训练样本。

S102:将所述待训练数据集输入到空洞卷积神经网络，所述空洞卷积神经网络包括T个卷积层，所述T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的原始卷积核的尺寸相同、权值相同、空洞率互不相同，所述N为大于或者等于2的正整数；T为大于或者等于2的正整数。

卷积层：通过卷积核在特征图上以滑窗的形式反复进行卷积运算。请参阅图2进行理解，空洞卷积可以从两个角度来理解：1、从输入图像的角度来理解，空洞可以理解为在输入图像上做采样。采样的频率是根据空洞率(以“rate”表示)来设置的，当空洞率为1时，输入图像不丢失任何信息采样，此时卷积操作就是标准的卷积操作；当空洞率大于1时，例如，空洞率为2，可以理解为在输入图像上每隔一(rate-1)个像素采样，卷积核中的元素为在输入图像上的采样点，然后将采样后的图像与卷积核做卷积，从而增大了感受野。2、从卷积核的角度来理解，在卷积核中注入空洞(即0)，注入空洞之后的卷积核可以称为“膨胀卷积核”，以大小为3*3卷积核为例，当空洞率为1时，则在原始卷积核中没有占用的区域填充注入(rate-1)个0，卷积的感受野的大小不发生变化；若空洞率为2，则在卷积核中相邻的元素中间注入(空洞率-1)个0，也就是在原始卷积核中相邻的元素之间注入1个0，膨胀卷积核的尺寸相对于原始卷积核的尺寸变大了，该膨胀卷积核的尺寸变为5*5，则该膨胀卷积核的感受野变为5*5，从而增大了感受野。

请参阅图3进行理解，该空洞卷积神经网络包括输入层，隐藏层和输出层，隐藏层包括T个卷积层，T为大于或者等于2的正整数，T可以为5、6、7等，具体的数量并不限定，在一个应用实例中，该T可以以7为例进行说明。该隐藏层包括7个卷积层。每一个卷积层均包括了并列的N路空洞卷积，该N可以为大于2、3、4等等，可选的，该N可以以3路为例进行说明。以T个卷积层中的一个卷积层为例进行说明，例如第M个卷积层，可以参阅图3进行理解，在一个卷积层中，包括了3路空洞卷积，3路空洞卷积的卷积核尺寸(或称为“大小”)相同，例如，该3路空洞卷积中的每路空洞卷积的原始卷积核的大小为3*3或5*5等，本发明中并不限定。本发明中，该原始卷积核的大小均以3*3为例进行说明。

膨胀卷积核的尺寸计算公式如下：

ksize₁＝(rate-1)*(ksize₀-1)+ksize₀；其中，ksize₀为原始卷积核的大小(如ksize₀＝3)，rate为空洞率。

感受野：视觉感受区域的大小。在卷积神经网络中，感受野为卷积神经网络每一层输出的特征映射(feature map)上的像素点在原始图像上映射的区域的大小。感受野的大小代表了提取的特征包含的信息的多少，感受野越大所包含的上下文信息越多。需要说明的是，第一层卷积层的输出特征图像素的感受野的大小等于滤波器的大小；深层卷积层的感受野大小和它之前所有层的卷积核大小和步长有关系。

感受野的计算公式如下：

r＝(m-1)*stride+ksize₁；其中，r为本层感受野，m为上层感受野，stride为卷积步长，ksize₁为膨胀卷积核大小。初始感受野为1。

为了方便说明，本发明实施例中，卷积步长可以以1为例进行说明。卷积层以7层空洞卷积中的第一层空洞卷积为例进行说明，不同的空洞率下的膨胀卷积核的大小，及感受野的大小。

按照上述公式，计算第一层卷积层的膨胀卷积核的大小和感受野的大小。

第一层卷积层，3路不同空洞率的膨胀卷积核的大小及感受野请参阅下表1所示：

表1

第一层	原始卷积核的尺寸	空洞率	膨胀卷积核的尺寸	感受野
					第一路	3*3	1	3*3	3*3
第二路	3*3	2	5*5	5*5
					第三路	3*3	4	9*9	9*9

本发明中同一个卷积层的原始卷积核的大小相同，即在同一个卷积层的三路的空洞卷积的原始卷积核的大小都可以为3*3，且三路的空洞卷积的卷积核的权值相同，3路的卷积核的数量相同。例如，该卷积核的数量可以为16的倍数个，如16、32、64个等。但是3路空洞卷积的空洞率不同，同样以3路为例，空洞率可以分别为：第一路空洞卷积的空洞率为1，第二路空洞卷积的空洞率为2，第三路空洞卷积的空洞率为4。即可以理解为在同一个卷积层中，3路空洞卷积的空洞率互不相同，获取3路不同感受野的特征映射(featuremap)，在同一层就可以提取不同尺度的特征；3路空洞卷积共享卷积核的权值，使用了较少的权值参数量，可以有效的减少模型参数，降低过拟合的可能性，且可以加快计算速度，利于大规模网络的搭建和学习。

S103:在所述T个卷积层中的第M个卷积层，所述N路空洞卷积中的每路空洞卷积的卷积核进行卷积的过程中，得到多路特征映射；

该M取遍从1至(T-1)中的每一个数值，为了方便说明，该第M层以第一层为例进行说明。

在第一个卷积层中，包括了并列的3路，且3路的空洞率不同，3路卷积核的权值相同。

例如，该原始卷积核的权值可以为：【0，1，0】

【1 4 1】

【0 1 0】。

可以理解的是，在同一个卷积层，3路使用同一个卷积核进行卷积，即3路中的每一路所使用的卷积核的原始大小相同，权值相同，3路共享参数。在同一个卷积层，可以获取3路不同尺度的特征，得到3路featuremaps；或者也可以理解为，同一种类型的特征是在同一个featuremap的不同采样率下所捕获。

S104:将所述多路特征映射通过拼接后输入到第(M+1)层卷积层；所述第M层卷积层的卷积核与所述第(M+1)层卷积层的卷积核的权值不同。

例如，将从第一层获得的3路特征映射进行拼接，将拼接后的特征映射输入到第二层卷积层。

为了方便说明，本实施例中，该M层以第一层卷积层为例，第(M+1)层以第2层为例进行说明。按照上述公式1和公式2，计算在第二层卷积层，3路不同空洞率的膨胀卷积核的大小及感受野请参阅下表2所示：

表2

第二层	膨胀卷积核的尺寸	上一层感受野	本层感受野
				第一路	3*3	3*3	5*5
第二路	5*5	5*5	9*9
				第三路	9*9	9*9	17*17

需要说明的是，本发明实施例中，该第M层和第(M+1)层的空洞率可以相同，也可以不同，本实施例中，上述表2中的感受野的计算是以第M层和第(M+1)层的空洞率相同来计算的，也就是说，在第二个空洞卷积层3路的空洞率也是1、2、4。

从上表1和上表2可以看出，本发明实施例中，第一层可以获取3路featuremap，且感受野分别为3*3、5*5和9*9，第二层获得的3路featuremap，且感受野分别为5*5、9*9和17*17，在同一个层就可以获取不同尺度的特征，且在每一层维护的参数相同；在现有技术中，为了获取不同尺度的特征，学习更丰富的区域特征，第一路卷积核的大小为1*1，第二路卷积核的大小3*3，第三路卷积核的大小为5*5，每增加一路就要多维护一路的卷积核参数，相对于现有技术，本发明中极大的减少参数量。

S105:将第T个卷积层输出的N路特征映射通过拼接后输入到输出层，通过所述输出层输出分类结果，所述T大于或者等于所述(M+1)。

进一步的，将所述第T个卷积层输出的特征映射进行拼接后输入到全局平均池化层，得到特征向量；

将所述特征向量输入所述输出层，通过所述输出层输出所述分类结果。

本示例中，T可以以7为例进行说明，第T个卷积层同样输出的3路特征映射，同样的将该3路特征映射进行拼接后，经过激活层，然后输入到全局平均池化层。

从第1个卷积层到第7个卷积层，7个卷积层一共降采样了7次。Feature map的长宽足够小，比较适合直接过全局平均池化(global average pooling)。全局平均池化是指将最后一层的特征图进行整张图的一个均值池化，形成一个特征点，将这些特征点组成最后的特征向量，进行softmax计算。例如，最后的一层的数据是10个6*6的特征图，globalaverage pooling是将每一张特征图计算所有像素点的均值，输出一个数据值，这样10个特征图就会输出10个数据点，将这些数据点组成一个1*10的向量，就成为一个特征向量，将该特征向量输入到softmax的分类中计算，得到分类结果。

需要说明的是，本发明实施例中在每一个卷积层后连接激活层，激活层是由激活函数构成的，本发明实施例中的激活函数为整流线性单元函数(retified linear unit，ReLU)。该ReLU可以为leaky-relu函数、p-relu函数或r-relu函数。

S106:根据所述分类结果确定所述空洞卷积神经网络的参数，得到识别模型。

通过softmax回归进行图像的分类，通过反向传播算法对该空洞卷积神经网络的参数进行训练，将训练样本集输入到该空洞卷积神经网络计算出分类结果，通过损失函数评价分类结果与预期值之间的误差值，然后不断的通过反向传播误差和梯度更新参数权值，完成对该空洞卷积神经网络的训练，得到识别模型。

反向传播算法的第一步首先是进行前向传播，计算最后的损失函数值，然后第二步为根据反向传播算法，求出所有的参数梯度，结合梯度下降方法便可对参数进行不断优化，最终对全空洞卷积神经网络完成训练。以梯度下降算法为例，算法框架如下：

输入：待训练样本集，例如，该带训练样本集中包括多个图像样本，卷积神经网络模型的网络结构及网络层数，网络中各层网络结构，及激活函数。梯度下降算法中设置迭代步长，及最大迭代次数，和停止迭代阈值，初始的空洞率。

输出：全空洞卷积神经网络各层参数值。

本发明实施例中，该各层参数值包括卷积层中每一层中的卷积核的权值，在同一个层中，N路共享权值，不同的卷积层的卷积核的权值互不相同。

可选的，所述将所述多个特征映射通过拼接后输入到第(M+1)个卷积层可以具体包括：

将所述多个特征映射通过拼接后输入到最大池化层；

通过所述最大池化层进行下采样，将下采样后的特征映射输入到第(M+1)个卷积层。

池化层的作用可以有两点，第一点是进行数据降维，特征图尺寸压缩后复杂度减小，而且卷积层和激活层等需要的计算度也减小，可以加速网络的训练；第二点是提取重要信息从而抑制数据噪声。其中，本实施例中，通过三路获取不同尺度的特征后，通过最大池化利于提取关键信息，如关键点提取等。例如，池化窗口为2*2，且池化步长为2，其中最大池化为将2*2区域映射为该区域的最大值，该池化方法能够更好的保留纹理上的特征，因为把上层提取出的特征最明显的取值取代为该窗口的值。

本实施例中，上一个卷积层输出的特征图经过最大池化后，即对数据进行了下采样，同时提取图像的关键点的特征。然后将下采样后的特征映射(也特征图)输入到下一个卷积层。

进一步的，所述T层卷积层中每个卷积层输出通道数大于输入通道数。

若输入的图像为灰度图像，则为通道为1的图像，而实际上，大多数的图像都是3通道的RGB图像，为了提取更多的特征图，卷积层通常设置更多的通道(channel)。本发明实施例中，从第一层卷积层到第T层卷积层输出通道数是逐渐增多的。可选的，本发明实施例中每个卷积层的输出通道数可以为输入通道数的两倍或4倍。

Feature map是形如通道数*宽*高的张量。feature map层数越低，其中的特征越低级，相应的特征的形式也就越少，比如最底层的featuremap提取的是纹理，边缘等图像信息。而高级的特征就具备大量的语义信息，因此比较丰富，越到底层就需要更多的通道数。2的倍数比较符合GPU的硬件设计，计算速度会更快。

本发明实施例提供了一种训练识别模型的方法，该方法应用于一种计算机设备，该计算机设备可以为服务器，也可以为终端设备，具体的并不限定，该终端包括但不限定于各种个人计算机、笔记本电脑等。该服务器为独立的服务器或者是多个服务器组成的服务器集群来实现。本发明实施例中，该方法的执行主体可以以服务器为例进行说明，首先，服务器获取待训练数据集；然后将所述待训练数据集输入到空洞卷积神经网络，本发明实施例中的空洞卷积神经网络包括T个卷积层，该T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不不同；本发明实施例中同一个卷积层的原始卷积核的大小相同，例如在同一个卷积层的N路的空洞卷积的原始卷积核的大小都可以为3*3，且N路的空洞卷积的卷积核的权值相同，N路的卷积核的数量相同。但是N路空洞卷积的空洞率互不相同，获取N路不同感受野的特征映射(featuremap)，在同一层就可以提取不同尺度的特征；然后，在所述T个卷积层中的第M个卷积层，所述N路空洞卷积中的每路空洞卷积的卷积核进行卷积的过程中，得到多个特征映射；将所述多个特征映射通过拼接后输入到第(M+1)个卷积层；所述第M个卷积层的卷积核与所述第(M+1)个卷积层的卷积核的权值不同；直到将将第T个卷积层输出的特征映射通过拼接后输入到输出层，通过所述输出层输出分类结果；根据所述分类结果确定所述卷积神经网络的参数，得到识别模型。本发明实施例中，N路空洞卷积共享卷积核的权值，使用了较少的参数量，可以有效的减少模型参数，降低过拟合的可能性，且可以提高计算速度。

上面对训练识别模型的方法进行了说明，以下对图像识别的方法进行说明：

请参阅图4进行理解，图4为本发明实施例中一种图像识别的方法的一个实施例的步骤流程图。该一种图像识别的方法具体可以包括如下步骤：

S401:获取待识别图像；

待识别图像的尺寸并不限定，该待识别图像可以为一个图像序列，该图像序列中可以包括尺寸不同的图像，例如，在移动终端，通过移动终端中的摄像头获取到较远景物的图像，则图像的尺寸较小，获取到较近的景物图像，该景物图像的尺寸较大。

S402:将所述待识别图像输入到上述实施例中所述的识别模型。

所述识别模型包括T个卷积层，所述T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不同，所述N为大于或者等于2的正整数；

该识别模型为通过上述训练识别模型的方法实施例中所训练的的识别模型，本步骤中对该识别模型的理解，请参考上述实施例中步骤102，此处不赘述。

S403:通过所述图像识别模型输出识别结果。

具体的，在所述T个卷积层中的第M个卷积层，所述N路空洞卷积中的每路空洞卷积的卷积核进行卷积的过程中，得到多个特征映射。本步骤请参考上述实施例中步骤103进行理解，此处不赘述。

将所述多个特征映射通过拼接后输入到第(M+1)个卷积层；所述第M个卷积层的卷积核与所述第(M+1)个卷积层的卷积核的权值不同。本步骤请参考上述实施例中步骤104进行理解，此处不赘述。

将第T个卷积层输出的特征映射通过拼接后输入到输出层，通过所述输出层输出识别结果。本步骤请参考上述实施例中步骤105进行理解，此处不赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种图像识别的装置500，该图像识别的装置与上述实施例中图像识别的方法相对应。如图5所示，图像识别的装置500具体可以包括：

获取模块501，用于获取待识别图像；

图像输入模块502，用于将所述获取模块501获取的待识别图像输入到图像识别模型；所述图像识别模型包括T个卷积层，所述T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不相同，所述N为大于或者等于2的正整数；

结果输出模块503，用于通过图像输入模块502输入到的图像识别模型输出识别结果。

上述图像识别的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，提供一种训练识别模型的装置，该训练识别模型的装置与上述实施例中训练识别模型的方法相对应。如图6所示，训练识别模型的装置600具体可以包括：

获取模块601，用于获取待识别图像；

图像输入模块602，用于将所述获取模块601获取的待识别图像输入到空洞卷积神经网络模型；所述空洞卷积神经网络模型包括T个卷积层，所述T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不相同，所述N为大于或者等于2的正整数；

卷积模块603，在所述图像输入模块602输入到的所述T个卷积层中的第M个卷积层，所述N路空洞卷积中的每路空洞卷积的卷积核进行卷积的过程中，得到多个特征映射；

特征映射输入模块604，用于将所述卷积模块603得到的所述多个特征映射通过拼接后输入到第(M+1)个卷积层；所述第M个卷积层的卷积核与所述第(M+1)个卷积层的卷积核的权值不同；

结果输出模块605，用于将第T个卷积层输出的特征映射通过拼接后通过特征映射输入模块604输入到输出层，通过所述输出层输出识别结果，所述T大于或者等于所述(M+1)。

可选的，特征映射输入模块604，还具体用于将所述多个特征映射通过拼接后输入到最大池化层；通过所述最大池化层进行下采样，将下采样后的特征映射输入到第(M+1)个卷积层。

可选的，所述第M个卷积层输出通道数大于输入通道数。

可选的，结果输出模块605，还用于将所述第T个卷积层输出的特征映射进行拼接后输入到全局平均池化层，得到特征向量；将所述特征向量输入所述输出层，通过所述输出层输出所述分类结果，所述T大于或者等于所述(M+1)。

可选的，获取模块601，还用于获取目标数据集；对所述目标数据集通过几何变换方式进行增强处理，得到所述待训练数据集；所述几何变换方式包括旋转变换、翻转变换、缩放变换和平移变换中的至少一种。

在一个实施例中，请参阅图7所示，本发明实施例提供了一种计算机设备，该计算机设备可以为服务器，也可以为终端，该计算机设备包括存储器701、处理器702及收发器703，存储器701、处理器702和收发器703通过总线704连接。

存储器701中存储可在处理器702上运行的计算机程序，处理器702执行计算机程序时实现上述实施例中图像识别的方法中的步骤，例如图1所示的步骤S101-S106；或者处理器702执行计算机程序时实现上述实施例中训练识别模型的方法，例如图4所示的步骤S401-S403中所示的步骤，为避免重复，这里不再赘述。或者，处理器702执行计算机程序时实现图像识别的装置这一实施例中的各模块/单元的功能，或者，处理器702执行计算机程序时实现训练识别模型的装置这一实施例中的各模块/单元的功能，为避免重复，这里不再赘述。

在一实施例中，提供一计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器702执行时实现实现上述实施例中图像识别的方法中的步骤，例如图1所示的步骤S101-S106；或者，处理器702执行计算机程序时实现上述实施例中训练识别模型的方法，例如图4所示的步骤S401-S403中所示的步骤，为避免重复，这里不再赘述。或者，处理器702执行计算机程序时实现图像识别的装置这一实施例中的各模块/单元的功能，或者，处理器702执行计算机程序时实现训练识别模型的装置这一实施例中的各模块/单元的功能，为避免重复，这里不再赘述，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种图像识别的方法，其特征在于，包括：

获取待识别图像；

将所述待识别图像输入到图像识别模型；所述图像识别模型包括T个卷积层，所述T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不相同，所述N为大于或者等于2的正整数，其中，所述图像识别模型通过如下方式训练：

获取待训练数据集；

将所述待训练数据集输入到空洞卷积神经网络，所述空洞卷积神经网络包括T个卷积层，所述T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不相同，所述N和T均为大于或者等于2的正整数；

将所述多个特征映射通过拼接后输入到第M+1个卷积层；所述第M个卷积层的卷积核与所述第M+1个卷积层的卷积核的权值不同；

将第T个卷积层输出的特征映射通过拼接后输入到输出层，通过所述输出层输出分类结果，所述T大于或者等于所述M+1；

根据所述分类结果确定所述卷积神经网络的参数，得到图像识别模型；

通过所述图像识别模型输出识别结果。

2.如权利要求1所述的方法，其特征在于，所述将所述多个特征映射通过拼接后输入到第M+1个卷积层，包括：

将所述多个特征映射通过拼接后输入到最大池化层；

通过所述最大池化层进行下采样，将下采样后的特征映射输入到第M+1个卷积层。

3.如权利要求1所述的方法，其特征在于，所述第M个卷积层输出通道数大于输入通道数。

4.如权利要求1所述的方法，其特征在于，所述将第T个卷积层输出的特征映射通过拼接后输入到输出层，包括：

将所述第T个卷积层输出的特征映射进行拼接后输入到全局平均池化层，得到特征向量；

将所述特征向量输入所述输出层，通过所述输出层输出所述分类结果，所述T大于或者等于所述M+1。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述获取待训练数据集，包括：

获取目标数据集；

对所述目标数据集通过几何变换方式进行增强处理，得到所述待训练数据集；所述几何变换方式包括旋转变换、翻转变换、缩放变换和平移变换中的至少一种。

6.一种图像识别的装置，其特征在于，包括：

获取模块，用于获取待识别图像；

图像输入模块，用于将所述获取模块获取的待识别图像输入到图像识别模型；所述图像识别模型包括T个卷积层，所述T个卷积层中的每个卷积层包括并列的N路空洞卷积，所述N路空洞卷积的卷积核的尺寸相同、权值相同、空洞率互不相同，所述N为大于或者等于2的正整数，其中，所述图像识别模型通过如下方式训练：

获取待训练数据集；

结果输出模块，用于输出识别结果。

7.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。