CN105389596A

CN105389596A - 卷积神经网络适用于识别多种尺寸图片的方法

Info

Publication number: CN105389596A
Application number: CN201510966515.1A
Authority: CN
Inventors: 袁家劼
Original assignee: Changsha Wangdong Network Technology Co Ltd
Current assignee: Changsha Wangdong Network Technology Co Ltd
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2016-03-09
Anticipated expiration: 2035-12-21
Also published as: CN105389596B

Abstract

本发明提供一种卷积神经网络适用于识别多种尺寸图片的方法，包括以下步骤：对待分类识别样本的长和宽分别进行缩放处理，以损失最小像素为代价，将待分类识别样本的原始长度缩放到样本C1长度的整数倍，将待分类识别样本的原始宽度缩放到样本C1宽度的整数倍；对样本C2进行图片分割处理，并建立全连接层；构建新的卷积神经网络模型架构。优点为：从而将一套已知模型架构参数的卷积神经网络模型拓展到不同尺寸的图形识别中，实现了快速有效的对任意尺寸样本进行智能识别的目的。

Description

卷积神经网络适用于识别多种尺寸图片的方法

技术领域

本发明属于人工智能和模式识别技术领域，具体涉及一种卷积神经网络适用于识别多种尺寸图片的方法。

背景技术

卷积神经网络(ConvolutionalNeuralNetwork，CNN)是一种前馈神经网络，与传统的BP神经网络相比，具有识别效率高、旋转缩放不变性好等优点，已在数字及人脸识别等各个领域得到了广泛的应用。

传统卷积神经网络模型的应用原理为：

首先，根据待输入图像的属性设计卷积神经网络模型架构，所设计的卷积神经网络模型架构为多层结构，包括1个输入层，在输入层之后，按各种顺序排布有若干个卷积层和若干个降采样层，最后为输出层。其中，输入层用于接收原始图像；每个卷积层包括多个相同尺寸的特征图，并且，每个特征图的像素，对应于前一层指定的若干特征图相应窗口位置的像素集合；每个降采样层包括多个相同尺寸的特征图，并且，降采样层的每张特征图，对应于前一层卷积层的一张特征图，降采样层的特征图像素对应于前一层相应特征图的采样区域。某一层节点与前一层节点和后一层节点之间通过边相互连接。

在搭建得到上述具有特定网络架构的卷积神经网络模型后，当需要识别某一图片时，需要对上述的卷积神经网络模型进行训练，训练过程为：初始化卷积神经网络模型的参数为随机值，包括：边的权重值以及卷积核的值等；然后，将训练样本输入卷积神经网络模型，对卷积神经网络模型反复“刺激”，不断调整边的权重值以及卷积核的值等，直到训练得到可识别该图片的卷积神经网络模型。在后续应用中，只需要将待分析图片或其他样本输入到训练好的卷积神经网络模型中，即可达到分类和智能识别的目的。

由此可见，卷积神经网络模型的应用主要包括两大步骤：第1个步骤为卷积神经网络模型架构的搭建过程；第2个步骤为：对所搭建的卷积神经网络模型架构进行训练的过程。

在采用卷积神经网络模型进行分类和智能识别中，卷积神经网络模型架构的搭建过程为基础过程，如果卷积神经网络模型架构搭建不成功，会导致后续训练过程无法收敛，因此，必需搭建得到一种可收敛可训练的卷积神经网络模型架构。

由于每一种卷积神经网络模型架构都是用于对特定尺寸样本的识别，因此，当用户需要对所需尺寸样本进行识别时，就必须搭建适合所需尺寸样本的卷积神经网络模型架构。但是，由于卷积神经网络模型架构通常较复杂，包括多种模型架构参数，例如：网络架构的总层数、卷积层数量、降采样层数量、卷积层和降采样层的排列顺序、卷积核尺寸和降采样比例等。并且，由于卷积神经网络模型架构参数无法通过现有的公式推导。因此，用户只能通过大量的实验和经验确定卷积神经网络模型架构参数，该方法不仅耗费用户大量的时间，并且，经过大量时间尝试后，所搭建得到的卷积神经网络模型架构还可能是不可训练和不可收敛的，无法达到对所需尺寸样本进行智能识别的目的。

此外，还有一种解决方法为：

由于现有技术已公开发表几种用于识别特定尺寸样本的卷积神经网络模型架构，例如，用于识别28*28尺寸图片；因此，如果用户需要识别的样本尺寸与28*28尺寸图片不符，例如，为64*128尺寸图片，此时，用户还可采用的方法为：将64*128尺寸图片缩小到28*28尺寸图片，然后，再采用已发表的卷积神经网络模型架构进行训练和识别。该种方法存在的主要问题为：虽然能够解决对待识别图片的分类识别目的，但是，由于需要对待识别图片进行缩放，会降低待识别图片的像素，增加后续模型训练的难度，也降低了图片识别的精度。

可见，如何能够快速对所需尺寸样本进行智能识别，具有重要意义，现有技术尚未见有效的解决方法。

发明内容

针对现有技术存在的缺陷，本发明提供一种卷积神经网络适用于识别多种尺寸图片的方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种卷积神经网络适用于识别多种尺寸图片的方法，包括以下步骤：

步骤1：已知一种用于识别w*h尺寸样本的可训练的卷积神经网络模型架构；其中，将w*h尺寸样本记为样本C1，w为样本C1的长度；h为样本C1的宽度；已知可训练的卷积神经网络模型架构的模型架构参数均已知，特别包括以下模型架构参数：在输入层之后的第1个卷积层中，包括的特征图数量为n，第1卷积层所采用的卷积核尺寸为m*m；其中，n和m均为自然数；

步骤2：设待分类识别的样本的原始尺寸为W*H；其中，W为待分类识别样本的原始长度；H为待分类识别样本的原始宽度；

对待分类识别样本的长和宽分别进行缩放处理，以损失最小像素为代价，将待分类识别样本的原始长度缩放到样本C1长度的整数倍，将待分类识别样本的原始宽度缩放到样本C1宽度的整数倍，将缩放后得到的样本记为样本C2；设样本C2的长度为样本C1长度的x倍；设样本C2的宽度为样本C1宽度的y倍；其中，x和y均为整数；

步骤3，对样本C2进行图片分割处理，将其分割为x*y个子图，每个子图的长为w，宽为h；

步骤4，将x*y个子图依次记为子图D₁、子图D₂…子图D_x*y；

对于子图D₁，分别采用n个尺寸为m*m的卷积核进行特征图映射，得到n个特征图，依次记为：a₁₁、a₁₂…、a_1n；

对于子图D₂，分别采用n个尺寸为m*m的卷积核进行特征图映射，得到n个特征图，依次记为：a₂₁、a₂₂…、a_2n；

依此类推

直到对于子图D_x*y，分别采用n个尺寸为m*m的卷积核进行特征图映射，得到n个特征图，依次记为：a_(x*y)1、a_(x*y)2…、a_(x*y)n；

然后，合并特征图a₁₁、a₂₁…a_(x*y)1，将合并得到的特征图记为特征图E1；

合并特征图a₁₂、a₂₂…a_(x*y)2，将合并得到的特征图记为特征图E2；

依此类推

直到合并特征图a_1n、a_2n…a_(x*y)n，将合并得到的特征图记为特征图En；

至此，得到n个特征图，分别为特征图E1、特征图E2…特征图En；

此时可以看到，所得到的特征图E1、特征图E2…特征图En的尺寸与已知可训练的卷积神经网络模型架构的第1个卷积层的特征图尺寸相等；所得到的特征图E1、特征图E2…特征图En的数量与已知可训练的卷积神经网络模型架构的第1个卷积层的特征图数量相等；

步骤5，构建新的卷积神经网络模型架构，其中，所述新的卷积神经网络模型架构的第1层为输入层，用于输入尺寸为W*H的待分类识别的样本；

新的卷积神经网络模型架构的第2层为图片分割层，为步骤3划分得到的x*y个长宽为w和h的子图，即：子图D₁、子图D₂…子图D_x*y；

新的卷积神经网络模型架构的第3层为第1卷积层，，为步骤4计算合并到的n个特征图，即：特征图E1、特征图E2…特征图En；

此外，子图D₁、子图D₂…子图D_x*y分别与特征图E1、特征图E2…特征图En建立全连接；

新的卷积神经网络模型架构的第4层为已知可训练的卷积神经网络模型架构的第2层；

新的卷积神经网络模型架构的第5层为已知可训练的卷积神经网络模型架构的第3层；

依此类推，已知可训练的卷积神经网络模型架构的后续模型架构参数对应增加到新的卷积神经网络模型架构的对应层，直到将已知可训练的卷积神经网络模型架构的输出层增加到新的卷积神经网络模型架构的输出层为止；

由此构建得到新的卷积神经网络模型架构，该构建新的卷积神经网络模型架构对于尺寸为W*H的样本必然是可训练和可收敛的。

优选的，步骤2中，以损失最小像素为代价，将待分类识别样本的原始长度缩放到样本C1长度的整数倍，即x倍；将待分类识别样本的原始宽度缩放到样本C1宽度的整数倍，即y倍，具体为：

x值为：W除以w的整数商；y值为：H除以h的整数商；

或者：

x值为：W除以w的值进行四舍五入后得到的整数；

y值为：H除以h的值进行四舍五入后得到的整数。

本发明提供的卷积神经网络适用于识别多种尺寸图片的方法具有以下优点：

在已知针对特定尺寸图片可训练的卷积神经网络架构模型的前端加入分割子图和全连接层后，不需要改变已知可训练的卷积神经网络架构模型的模型架构参数，即可得到对新尺寸图片可训练的新的卷积神经网络架构模型，从而将一套已知模型架构参数的卷积神经网络模型拓展到不同尺寸的图形识别中，实现了快速有效的对任意尺寸样本进行智能识别的目的。

附图说明

图1为一种用于识别28*28尺寸样本的可训练的卷积神经网络模型架构；

图2为对64*128的样本进行图片分割的过程示意图；

图3为采用新构建得到的卷积神经网络模型架构对64*128的图片进行训练的结果图；

图4为本发明实施例3构建得到的卷积神经网络模型架构对56*56的图片进行训练的结果图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种卷积神经网络适用于识别多种尺寸图片的方法，基本思想为：对于一种对特定尺寸图片可训练的卷积神经网络架构模型，在该卷积神经网络架构模型的前端，依次增加一个图片分割层和一个子图与特征图的全连接层，得到新的卷积神经网络架构模型，该新的卷积神经网络架构模型为一种对于其他尺寸图片是可训练的卷积神经网络架构模型，从而实现了已知模型架构参数适用于多种尺寸图片的效果

实施例一：

本实施例提供一种卷积神经网络适用于识别多种尺寸图片的方法，包括以下步骤：

步骤1：已知一种用于识别w*h尺寸样本的可训练的卷积神经网络模型架构；其中，将w*h尺寸样本记为样本C1，w为样本C1的长度；h为样本C1的宽度；已知可训练的卷积神经网络模型架构包括以下模型架构参数：在输入层之后的第1个卷积层中，包括的特征图数量为n，第1卷积层所采用的卷积核尺寸为m*m；其中，n和m均为自然数；

本步骤中，x和y的计算方法为：

x值为：W除以w的整数商；y值为：H除以h的整数商；

或者：

x值为：W除以w的值进行四舍五入后得到的整数；

y值为：H除以h的值进行四舍五入后得到的整数。

步骤4，将x*y个子图依次记为子图D₁、子图D₂…子图D_x*y；

依此类推

新的卷积神经网络模型架构的第3层为第1卷积层，为步骤4计算合并到的n个特征图，即：特征图E1、特征图E2…特征图En；

实施例2：

为进一步对本发明理解，以下介绍一种具体的实施例：

步骤1：如图1所示，为一种用于识别28*28尺寸样本的可训练的卷积神经网络模型架构；

在图1中，可以看到，从输入层到输出层，整个可训练的卷积神经网络模型架构总共有7层，单层感知机是由它的上一层重排得到的，去除这一层影响，再除去输入层与输出层，那么，一整套可训练的卷积神经网络模型架构的模型架构参数为：卷积层和降采样层数量以及排列方式，即：输入层之后，共包括四层，分别为：第1卷积层、第1降采样层、第2卷积层和第2降采样层；此外，还包括每个卷积层和降采样层所包括的特征图数量、每个卷积层所采用的卷积核尺寸、每个降采样层的降采样比例值。也就是说，传统技术中，搭建卷积神经网络模型架构，主要就是用于确定上述的各种模型架构参数。

具体的，在图1中，模型架构参数具体值为：第1卷积层的卷积核尺寸为5，特征图数量为6，第1降采样层的采样比例值为2，第2卷积层的卷积核尺寸为5，特征图数量为12，第2降采样层的采样比例值为2。

图1的卷积神经网络模型架构，是用于训练28*28尺寸样本的。假设采用图1的卷积神经网络模型架构训练64*128尺寸样本，则理论和实践均证明，无论训练多少个样本，进行多少次迭代，误差总是在一个很大的范围内无法收敛。也就是说，图1的卷积神经网络模型架构对于64*128尺寸样本来讲，是不可训练和不可收敛的。

在图1中，在输入层之后的第1个卷积层中，包括的特征图数量n为6；第1卷积层所采用的卷积核尺寸m*m＝5*5。此处之所以特别列出n和m的值，是因为在本发明后续过程中，会特别使用到n和m的值。

步骤2：如果待分类识别样本的原始尺寸W*H＝64*128，则可计算得到：64/28＝2.28，其整数商为2，因此，y值为2；而128/28＝4.57，其整数商为4，因此，x值为4。

因此，将64*128的样本的长缩小到28的4倍整数值，即：长缩小到112像素；将宽缩小到28的2倍整数值，即：宽缩小到56像素；由此得到样本C2；

步骤3，参考图2，将样本C2进行图片分割，划分为8个28*28的子图，依次记为子图D₁、子图D₂…子图D₈；

步骤4，对于子图D₁，分别采用6个尺寸为5*5的卷积核进行特征图映射，得到6个特征图，依次记为：a₁₁、a₁₂…、a₁₆；

对于子图D₂，分别采用6个尺寸为5*5的卷积核进行特征图映射，得到6个特征图，依次记为：a₂₁、a₂₂…、a₂₆；

依此类推

对于子图D₈，分别采用6个尺寸为5*5的卷积核进行特征图映射，得到6个特征图，依次记为：a₈₁、a₈₂…、a₈₆；

合并特征图a₁₁、a₂₁…a₈₁，将合并得到的特征图记为特征图E1；

合并特征图a₁₂、a₂₂…a₈₂，将合并得到的特征图记为特征图E2；

依此类推

直到合并特征图a₁₆、a₂₆…a₈₆，将合并得到的特征图记为特征图E6；

至此，得到6个特征图，分别为特征图E1、特征图E2…特征图E6；

此时可以看到，所得到的特征图E1、特征图E2…特征图E6的尺寸与图1的第1个卷积层的特征图尺寸相等，均为24*24尺寸；所得到的特征图E1、特征图E2…特征图E6的数量与图1的第1个卷积层的特征图数量相等，均为6个；

然后，对于特征图E1、特征图E2…特征图E6，替换图1的第1个卷积层，并保留图1的第1降采样层、第2卷积层和第2降采样层等模型架构参数不变，即可得到新构建得到的卷积神经网络模型架构，而所构建得到的卷积神经网络模型架构，对于尺寸为28*64*128的样本，必然是可训练和可收敛的。如图3所示，为采用新构建得到的卷积神经网络模型架构对64*128的图片进行训练的结果，从图3可以看到，可以达到训练收敛的效果。

实施例3

本实施例与实施例2基本相同，区别仅在于：本实施例中，以56*56的图片为被识别对象，因此，第1层为输入层，用于输入56*56的图片；第2层为图片分割层，包括4个28*28的子图；第3层为第1卷积层，包括若干个特征图，并在第2层和第3层之间建立全连接；第4层为图1的已知可训练的卷积神经网络模型架构的第2层；后面各层保持已知可训练的卷积神经网络模型架构的参数不变，由此得到新的卷积神经网络模型架构。

采用新构建得到的卷积神经网络模型架构对56*56的图片进行训练，结果如图4所示，从图4可以看到，可以达到训练收敛的效果。

本发明人还进行了大量的试验研究，均证明了本发明的可行性和正确性。

由此可见，本发明在已知针对特定尺寸图片可训练的卷积神经网络架构模型的前端加入分割子图和全连接层后，不需要改变已知可训练的卷积神经网络架构模型的模型架构参数，即可得到对新尺寸图片可训练的新的卷积神经网络架构模型，从而将一套已知模型架构参数的卷积神经网络模型拓展到不同尺寸的图形识别中，实现了快速有效的对任意尺寸样本进行智能识别的目的。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种卷积神经网络适用于识别多种尺寸图片的方法，其特征在于，包括以下步骤：

步骤4，将x*y个子图依次记为子图D₁、子图D₂…子图D_x*y；

依此类推

2.根据权利要求1所述的卷积神经网络适用于识别多种尺寸图片的方法，其特征在于，步骤2中，以损失最小像素为代价，将待分类识别样本的原始长度缩放到样本C1长度的整数倍，即x倍；将待分类识别样本的原始宽度缩放到样本C1宽度的整数倍，即y倍，具体为：

x值为：W除以w的整数商；y值为：H除以h的整数商；

或者：

x值为：W除以w的值进行四舍五入后得到的整数；

y值为：H除以h的值进行四舍五入后得到的整数。