CN107316066A

CN107316066A - 基于多通路卷积神经网络的图像分类方法及系统

Info

Publication number: CN107316066A
Application number: CN201710633647.1A
Authority: CN
Inventors: 王瑜; 朱婷; 张娜; 肖洪兵
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2017-11-03
Anticipated expiration: 2037-07-28
Also published as: CN107316066B

Abstract

本发明公开了一种基于多通路卷积神经网络(Convolutional Neural Networks，CNN)的图像分类方法及系统，其中，方法包括：输入待分类图像；对待分类图像进行分块；设计多通路CNN模型，多通路CNN模型至少包括局部特征提取通路和全局特征提取通路；对训练图像进行分块；根据多通路CNN模型和多个训练图像块进行模型训练，以生成CNN分类模型；根据多个图像块通过CNN分类模型得到图像分类结果。该方法可以基于多通路CNN全自动地对图像进行分类，实现基于像素级的分类目的，不受待分类图像类别的限制，而且适应性强，模型性能好，从而有效提高图像分类的准确性和便捷性。

Description

基于多通路卷积神经网络的图像分类方法及系统

技术领域

本发明涉及图像处理和计算机视觉技术领域，特别涉及一种基于多通路卷积神经网络的图像分类方法及系统。

背景技术

目前，图像分类领域传统分类算法是：首先人工设计相对具有特异性的特征，再提取特征，最后通过分类器对特征进行分类，或者手动设计性能更好的分类器，以提高分类性能，从而实现图像分类的目的。然而，与深度学习相比较，很多现存的方法只能提取原始图像的浅层特征，对于分类任务，这些特征还不够健壮，而深度学习恰好能从原始数据中逐层提取更加复杂、更加抽象的特征，而且这些特征更加健壮，从而提高分类精度。

其中，深度学习的基本思想是：利用多个非线性运算层构建深度学习网络，网络底层能够从原始数据中学习到精细的外观信息，底层的输出直接作为高层的输入，以此逐层从输入数据中自适应地学习到高阶的更加抽象、更加复杂的特征表示，最后用这些特征表示来解决分类问题，大量实验表明，深度学习网络在图像分类方面具有非常优越的性能。

相关技术中，深度学习最初主要处理简单的图像分类任务，例如MNIST手写体分类。在2012年的ImageNet比赛上，首次将深度学习用于这种复杂的图像分类任务。ImageNet数据集总共有100万张图片，1000个类别，分辨率为300*300左右，在该赛事上将图像的分类准确率从74.3％提高到了84.7％，而后在2014年的ImageNet比赛上，获得冠军的是深度学习模型GoogleNet，分类准确率是93.4％，最后深度残差学习模型已经将ImageNet数据集的分类精度提高到95％以上，几乎接近于人类的水平。

然而，上述提到的模型均是在朝着网络更深、更复杂的方向发展，并没有证明相对简化的模型不能够达到上述效果，所以用于图像分类的深度学习网络模型的设计还有很大的探索空间。相关技术中，传统分类方法是提取合适的特征，再根据特征分类，但是这类方法只能提取浅层特征，且操作复杂，适用性不强，难以普及。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于多通路卷积神经网络的图像分类方法，该方法可以有效提高图像分类的准确性和便捷性。

本发明的另一个目的在于提出一种基于多通路卷积神经网络的图像分类统。

为达到上述目的，本发明一方面实施例提出了一种基于多通路卷积神经网络的图像分类方法，包括以下步骤：输入待分类图像；对所述待分类图像进行分块，以在所述待分类图像上得到多个图像块；设计多通路CNN(Convolutional Neural Networks，多通路卷积神经网络)模型，所述多通路CNN模型至少包括局部特征提取通路和全局特征提取通路；对训练图像进行分块，以在所述训练图像上得到多个训练图像块；根据所述多通路CNN模型和所述多个训练图像块进行模型训练，以生成CNN分类模型；根据所述多个图像块通过所述CNN分类模型得到图像分类结果。

本发明实施例的基于多通路卷积神经网络的图像分类方法，通过卷积神经网络理论和深度学习网络模型训练方法获得基于多通路CNN的图像分类模型，从而可以实现端到端的分类，且可以用于全自动地对图像进行分类，实现基于像素级的分类目的，不受待分类图像类别的限制，适用性强，模型性能好，具有鲁棒性，使分类不但更加便捷、有效，而且操作简单且性能更好，从而有效提高图像分类的准确性和便捷性。

另外，根据本发明上述实施例的基于多通路卷积神经网络的图像分类方法还可以具有以下附加的技术特征：

可选地，在本发明的一个实施例中，所述CNN分类模型选择所述多个图像块的尺度。

进一步地，在本发明的一个实施例中，所述局部特征提取通路包括第一卷积块和第二卷积块，所述第一卷积块和第二卷积块均包含三个连续的卷积层，卷积核大小均为3*3，且所述局部特征提取通路的卷积层输出的FMs(feature maps，特征图)大小与卷积层输入的FMs大小相等，以及所述卷积层输出的FMs隔层串联。

进一步地，在本发明的一个实施例中，所述全局特征提取通路包括第三卷积块，所述第三卷积块包含三个连续的卷积层，卷积核大小均为9*9，且所述全局特征提取通路的卷积层输出的FMs个数分别为120、120、250，以及计算所述全局特征提取通路的每个卷积层输出的FMs尺度为：

C＝M-N+1，

其中，C×C为所述卷积层输出的FMs尺度，M×M为卷积层输入的FMs尺度，N×N为卷积核的尺度。

进一步地，在本发明的一个实施例中，所述设计多通路CNN模型，进一步包括：对所述多通路CNN模型使用正则项，其中，在所述局部特征提取通路上，对所述局部特征提取通路的每个卷积层的权重施加正则项l2：

其中，C表示有正则项的代价函数，C₀表示原始代价函数，正则项l2为λ表示正则项的系数，n表示训练样本数，w表示卷积层权重；

在所述全局特征提取通路上，使用Dropout正则化方法，以在训练模型时，随机按比例保留所述全局特征提取通路的卷积层的预设节点的权重。

进一步地，在本发明的一个实施例中，使用随机梯度下降法训练所述多通路CNN模型，并使用学习率函数调整模型权重，以及使用Keras深度学习框架，其中，所述随机梯度下降法的参数设置形式如下公式：

sgd＝SGD(lr＝lr_base,momentum＝0.9,nesterov＝True)，

学习率函数如下公式：

其中，SGD(·)为Keras深度学习框架中的随机梯度下降法的函数，momentum为动量参数，nesterov＝True表示使用nesterov动量，lr为每一轮训练的学习率，lr_base表示开始训练时的学习率，epoch为训练的轮次，epoches为设置的训练总轮数，lr_power为设置的指数参数。

进一步地，在本发明的一个实施例中，所述多通路CNN模型和所述多个训练图像块进行模型训练，进一步包括：利用EarlyStopping控制训练过程，以在训练过程中，验证集的精确度不再提高或者训练轮次达到最大时，终止模型训练。

为达到上述目的，本发明另一方面实施例提出了一种基于多通路卷积神经网络的图像分类统，包括：输入模块，用于输入待分类图像；第一分块模块，用于对所述待分类图像进行分块，以在所述待分类图像上得到多个图像块；设计模块，用于设计多通路CNN模型，所述多通路CNN模型至少包括局部特征提取通路和全局特征提取通路；第二分块模块，用于对训练图像进行分块，以在所述训练图像上得到多个训练图像块；训练模块，用于根据所述多通路CNN模型和所述多个训练图像块进行模型训练，以生成CNN分类模型；分类模块，用于根据所述多个图像块通过所述CNN分类模型得到图像分类结果。

本发明实施例的基于多通路卷积神经网络的图像分类统，通过卷积神经网络理论和深度学习网络模型训练方法获得基于多通路CNN的图像分类模型，从而可以实现端到端的分类，且可以用于全自动地对图像进行分类，实现基于像素级的分类目的，不受待分类图像类别的限制，适用性强，模型性能好，具有鲁棒性，使分类不但更加便捷、有效，而且操作简单且性能更好，从而有效提高图像分类的准确性和便捷性。

另外，根据本发明上述实施例的基于多通路卷积神经网络的图像分类统还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述局部特征提取通路包括第一卷积块和第二卷积块，所述第一卷积块和第二卷积块均包含三个连续的卷积层，卷积核大小均为3*3，且所述局部特征提取通路的卷积层输出的FMs大小与卷积层输入的FMs大小相等，以及所述卷积层输出的FMs隔层串联。

C＝M-N+1，

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于多通路卷积神经网络的图像分类方法的流程图；

图2为根据本发明一个实施例的基于多通路卷积神经网络的图像分类方法的流程图；

图3为根据本发明一个实施例的不同背景下的绿色植物图片示意图；

图4为根据本发明一个实施例的不同种类的绿色植物图片示意图；

图5为根据本发明一个实施例的在原图上取图像块的过程图片示意图；

图6为根据本发明一个实施例的多通路CNN模型框架示意图；

图7为根据本发明一个实施例的局部特征提取通路的结构示意图；

图8为根据本发明一个实施例的全局特征提取通路的结构示意图；

图9为根据本发明一个实施例的浅层次信息与深层信息相融合的形式示意图；

图10为根据本发明一个实施例的卷积块与池化层的连接形式示意图；

图11为根据本发明一个实施例的选择合适尺度图像块的过程实例示意图；

图12为根据本发明一个实施例的基于多通路卷积神经网络的图像分类统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于多通路卷积神经网络的图像分类方法及系统，首先将参照附图描述根据本发明实施例提出的基于多通路卷积神经网络的图像分类方法。

图1是本发明一个实施例的基于多通路卷积神经网络的图像分类方法的流程图。

如图1所示，该基于多通路卷积神经网络的图像分类方法包括以下步骤：

在步骤S101中，输入待分类图像。

可以理解的是，如图2所示，步骤A1：输入待分类的绿色植物图像数据。例如，待分类的图像包含不同的类别，每一类图像均在不同的自然场景下拍摄。同一类植物，在不同自然场景下拍摄的图像如图3所示，不同类别的植物叶片如图4所示。

在步骤S102中，对待分类图像进行分块，以在待分类图像上得到多个图像块。

其中，在本发明的一个实施例中，根据CNN分类模型选择多个图像块的尺度，需要说明的是，CNN分类模型会在下面进行详细描述。

可以理解是，如图2所示，步骤A2：在待分类图像上取图像块。例如，训练数据为500×331的绿色植物图像，在每个待分类图像上随机取图像块时，图像块尺度与训练图像块尺度相同，图像块个数为80个，所取图像块如图5所示。在训练集的每个图像上，按照设定值选取合适尺度的图像块，极大提高训练的样本数。

在步骤S103中，设计多通路CNN模型，多通路CNN模型至少包括局部特征提取通路和全局特征提取通路。

其中，在本发明的一个实施例中，局部特征提取通路包括第一卷积块和第二卷积块，第一卷积块和第二卷积块均包含三个连续的卷积层，卷积核大小均为3*3，且局部特征提取通路的卷积层输出的FMs大小与卷积层输入的FMs大小相等，以及卷积层输出的FMs隔层串联。

进一步地，在本发明的一个实施例中，全局特征提取通路包括第三卷积块，第三卷积块包含三个连续的卷积层，卷积核大小均为9*9，且全局特征提取通路的卷积层输出的FMs个数分别为120、120、250，以及计算全局特征提取通路的每个卷积层输出的FMs尺度为：

C＝M-N+1，

其中，C×C为卷积层输出的FMs尺度，M×M为卷积层输入的FMs尺度，N×N为卷积核的尺度。

进一步地，在本发明的一个实施例中，设计多通路CNN模型，进一步包括：对多通路CNN模型使用正则项，其中，在局部特征提取通路上，对局部特征提取通路的每个卷积层的权重施加正则项l2：

在全局特征提取通路上，使用Dropout正则化方法，以在训练模型时，随机按比例保留全局特征提取通路的卷积层的预设节点的权重。

进一步地，在本发明的一个实施例中，使用随机梯度下降法训练多通路CNN模型，并使用学习率函数调整模型权重，以及使用Keras深度学习框架，其中，

随机梯度下降法的参数设置形式如下公式：

sgd＝SGD(lr＝lr_base,momentum＝0.9,nesterov＝True)，

学习率函数如下公式：

进一步地，在本发明的一个实施例中，根据多通路CNN模型和多个训练图像块进行模型训练，进一步包括：利用EarlyStopping控制训练过程，以在训练过程中，验证集的精确度不再提高或者训练轮次达到最大时，终止模型训练。

需要说明的是，对多通路CNN模型使用正则项，包括在局部通路上，为每个卷积层的权重施加正则项l2，如公式1所示。在全局通路上，使用Dropout正则化方法。

其中，C表示有正则项的代价函数，C₀表示原始代价函数，正则项l2为λ表示正则项的系数，n表示训练样本数，w表示卷积层权重；Dropout正则化方法是指在训练模型时，随机按比例保留全局通路的卷积层的一些节点的权重，暂时不更新。

举例而言，多通路CNN模型如图6所示。其中，图中(1)表示绿色植物图像，(2)、(5)和(9)表示卷积块，均包含三个卷积，(3)和(6)表示FMs串联，即浅层信息与深层信息融合，(4)和(7)表示最大池化层，(11)和(12)均为FC(fully connected layers，全连接层)，(11)表示特征融合层，融合局部特征和全局特征，(12)为分类层，(13)表示一定尺度的图像块。多通路CNN模型包括提取局部特征的通路和提取全局特征的通路两种形式，其中，局部特征通路如图7所示，且多通路CNN模型提取全局特征的通路如图8所示。

可以理解的是，如图2所示，步骤A3：设计多通路CNN模型。该多通路CNN模型由两个通路组成，包括全局通路和局部通路，模型如图6所示。该模型的输入大小为M×M×3，其中，M×M表示图像块尺度，“3”表示图像块的三个通道，分别是R(red，红色)、G(green，绿色)、B(blue，蓝色)三个通道。(13)表示选取的图像块，(2)、(3)、(4)、(5)、(6)、(7)和(8)组成局部信息提取通路，其中，(2)表示卷积块1，包括三个卷积层，(3)表示卷积1、3层的输出FMs的融合层，(4)和(7)表示最大池化层，(5)表示卷积块2，(6)表示卷积4、6层的输出FMs融合层，(8)表示局部通路输出的FMs；(9)和(10)组成全局信息提取通路，其中，(9)包括三个卷积核均为9*9的卷积层；(11)是全连接层，融合局部信息(8)与全局信息(10)；(12)是分类层，该层计算出输入图像块属于80个类别的概率，取最大概率的类别为图像块的类别。

可以理解是，如图2所示，本发明实施例中的局部信息提取通路为：在(2)中，卷积层1的输入为33*33*3，另外两个卷积层的输入均为33*33*64；在(5)中，三个卷积层输入均为16*16*128；(4)和(7)的池化窗口均为3*3，滑动步长均为2。局部通路有两个卷积块，每个卷积块包含3个连续的卷积层，卷积核大小为3*3，卷积层输出FMs的大小与其输入FMs的大小相等，卷积层输出的FMs隔层串联，其形式如图9所示。其中，Conv1、Conv2、Conv3为卷积层，FM1s、FM2s、FM3s为卷积层输出的FMs。在局部通路上，卷积块之后是池化层，池化窗口大小为3*3，步长为2*2，其形式如图10所示。其中，(1)、(2)和(3)为卷积层，(4)表示FMs串联，(5)为池化层。

进一步地，如图2所示，全局信息提取通路：三个卷积层的输入形式分别为33*33*3，25*25*120，17*17*120，输出形式分别是25*25*120，17*17*120，9*9*250。所有卷积层的激活函数均为LReLU函数(Leaky Rectified Linear Unit)，其表达式如公式2所示，分类层的激活函数为softmax函数。其中，需要说明是，LReLU函数、softmax函数没有相应的中文名称，softmax函数是最常用的多分类函类，其输出是属于各种类的概率。在局部通路上，施加给卷积层权重的正则项均为如公式2所示；在全局通路上，三个卷积层后面均采用Dropout正则化(同前)方法。

LReLU函数形式为，如公式2所示：

其中，y_i表示该函数的输入，a_i表示斜率。

全局通路有三个连续的卷积层，卷积核均为9*9，输出的FMs的个数分别为120、120、250，计算每个卷积层输出的FMs的尺度公式如公式3所示：

C＝M-N+1， (3)

其中，C×C为卷积层输出的FMs的尺度，M×M为卷积层输入的FMs的尺度，N×N为卷积核的尺度。

需要说明的是，该多通路CNN分类模型通过一块GPU(Graphics Processing Unit，图形处理器)显卡NVIDIATitanX(Pascal)训练得到，效果显著，不需要像传统图像处理方法先手动提取图像特征，再进行分类等繁琐的步骤，而是直接可以提取特征，并对图像块进行分类。而且，除了选择合适的图像块尺度进行模型预训练，不需要再对图像做任何预处理。

在步骤S104中，对训练图像进行分块，以在训练图像上得到多个训练图像块。

可以理解是，如图2所示，步骤A4：在训练图像上取图像块。例如，先从训练集的每类中随机抽取30％的图像，按1：1分成训练数据和验证数据作预训练，选择使验证集分类精度最高的图像尺度，取图像块流程如图11所示。在每张训练集图像上随机选240个图像块，并取图像块所在图像的类别为图像块的类别，组成训练集。

举例而言，本发明实施例的方法通过实施模型预训练来选择合适尺度的图像块。先从训练集的每类中随机抽取30％的图像，按1：1分成训练数据和验证数据做训练，选择使验证集分类精度最高的图像尺度，取图像块流程如图11所示，这里以绿色植物图像为例。其中，(1)表示在原始图像上取图像块。在预训练阶段，每次在训练数据中的每张图像上随机选择若干个(与图像类别个数相同)一定尺度的图像块，输入模型进行训练，通过验证数据获得模型分类精度，选择使模型分类精度最高的图像块尺度。

在步骤S105中，根据多通路CNN模型和多个训练图像块进行模型训练，以生成CNN分类模型。

可以理解是，如图2所示，步骤A5：模型训练，生成CNN分类模型。其中，步骤A5模型训练可以包括A51、A52、A53和A54中的四个步骤。

步骤A51：首先，模型参数初始化；其次，卷积层与全连接层中权重的初始化方式均为Xavier正态分布初始化法，偏置向量的初始化方式为全零初始化。

其中，Xavier正态分布初始化法是2010年Glorot等人提出的一种有效的神经网络初始化方法。

步骤A52：调整模型的权重。训练模型时，采用SGD(Stochastic GradientDescent，随机梯度下降法)优化模型，使用Keras深度学习框架，SGD的参数设置形式如公式4所示。采用变化的学习率，学习率函数如公式5所示。

其中，在步骤A52中，使用SGD训练模型，使用学习率函数调整模型权重。使用Keras深度学习框架，SGD的参数设置形式如公式4所示：

sgd＝SGD(lr＝lr_base,momentum＝0.9,nesterov＝True)， (4)

学习率函数如公式5所示：

其中，SGD(·)为Keras深度学习框架中的SGD的函数，momentum为动量参数，nesterov＝True表示使用nesterov动量(牛顿动量)，lr为每一轮训练的学习率，lr_base表示开始训练时的学习率，epoch为训练的轮次，epoches为设置的训练总轮数，lr_power为设置的指数参数。使用深度学习方法进行图像分类，既能极大简化分类流程，减少人为干预，又能获得很高的分类精度，是非常有前景的做法。

步骤A53：设置训练的终止条件。

模型训练过程中使用EarlyStopping方法，当验证集的精确度不再提高时，或者当训练次数达到设定的最大值时，训练过程自动终止。

可选地，EarlyStopping是指在模型训练过程中，满足设定的终止条件后，不管是否达到最大训练轮次，训练自动终止。

其中，步骤A53为利用EarlyStopping控制训练过程。在训练过程中，验证集的精确度不再提高或者训练轮次达到最大时，终止训练。EarlyStopping是指在模型训练过程中，满足设定的终止条件后，不管是否达到最大训练轮次，训练自动终止；训练过程中的验证集占总训练集的20％。

需要说明的是，本发明实施例可以采用基于时间变化的学习率来训练模型，基于时间变化的学习率既能加快收敛速度，又能有效避免在模型训练过程中，可能出现的超调现象或者剧烈震荡现象，并且利用网格搜索法确定模型的相关参数，如卷积核数、激活函数、正则化操作Dropout的参数取值等等，有效降低优化模型时选参数的难度，以及利用EarlyStopping方式，使得在训练过程中，模型性能不再提高时及时终止训练。

步骤A54：保存训练好的模型。

当训练终止后，保存训练好的模型：包括保存模型权重(文件类型为.hdf)、模型结构信息(类型为.json)、模型结构图(文件类型为.png)。

在步骤S106中，根据多个图像块通过CNN分类模型得到图像分类结果。

可以理解是，如图2所示，步骤A6：输出绿色植物物种分类结果。

其中，如表1所示，确定每张待分类图像类别的流程。其中，表1为确定待分类绿色植物图像类别的流程表。

表1

需要说明是，本发明实施例方法携带的全部或部分步骤是可以通过程序指令相关的硬件完成，程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

具体而言，本发明实施例的基于多通路卷积神经网络的图像分类方法可以包括：输入待分类的图像数据；在待分类图像数据上取图像块；训练CNN模型，具体包括设计多通路CNN模型，将训练数据进行预处理，利用预处理后的训练数据和设计好的CNN模型进行模型训练。其中，设计多通路CNN模型包含局部特征提取的通路和全局特征提取的通路，在训练数据上取图像块，构成训练集，模型训练过程包括初始化模型的权值，调整模型的权重，设置训练的终止条件；输出图像分类结果，具体包括将待分类的图像块输入训练好的CNN模型，对待测图像数据进行正确分类。

根据本发明实施例提出的基于多通路卷积神经网络的图像分类方法，通过卷积神经网络理论和深度学习网络模型训练方法获得基于多通路CNN的图像分类模型，从而可以实现端到端的分类，且可以用于全自动地对图像进行分类，实现基于像素级的分类目的，不受待分类图像类别的限制，适用性强，模型性能好，具有鲁棒性，使分类不但更加便捷、有效，而且操作简单且性能更好，从而有效提高图像分类的准确性和便捷性。

其次参照附图描述根据本发明实施例提出的基于多通路卷积神经网络的图像分类统。

图12是本发明一个实施例的基于多通路卷积神经网络的图像分类统10的结构示意图。

如图12所示，该基于多通路卷积神经网络的图像分类统10包括：输入模块100、第一分块模块200、设计模块300、第二分块模块400、训练模块500和分类模块600。

其中，输入模块100用于输入待分类图像。第一分块模块200用于对待分类图像进行分块，以在待分类图像上得到多个图像块。设计模块300用于设计多通路CNN模型，多通路CNN模型至少包括局部特征提取通路和全局特征提取通路。第二分块模块400用于对训练图像进行分块，以在训练图像上得到多个训练图像块。训练模块500用于根据多通路CNN模型和多个训练图像块进行模型训练，以生成CNN分类模型。分类模块600用于根据多个图像块通过CNN分类模型得到图像分类结果。该基于多通路卷积神经网络的图像分类统10可以基于多通路CNN全自动地对图像进行分类，实现基于像素级的分类目的，不受待分类图像类别的限制，而且适应性强，模型性能好，从而有效提高图像分类的准确性和便捷性。

进一步地，在本发明的一个实施例中，局部特征提取通路包括第一卷积块和第二卷积块，第一卷积块和第二卷积块均包含三个连续的卷积层，卷积核大小均为3*3，且局部特征提取通路的卷积层输出的FMs大小与卷积层输入的FMs大小相等，以及卷积层输出的FMs隔层串联。

C＝M-N+1，

需要说明的是，前述对方法实施例的基于多通路卷积神经网络的图像分类方法解释说明也适用于该实施例的基于多通路卷积神经网络的图像分类统，此处不再赘述。

根据本发明实施例提出的基于多通路卷积神经网络的图像分类统，通过卷积神经网络理论和深度学习网络模型训练方法获得基于多通路CNN的图像分类模型，从而可以实现端到端的分类，且可以用于全自动地对图像进行分类，实现基于像素级的分类目的，不受待分类图像类别的限制，适用性强，模型性能好，具有鲁棒性，使分类不但更加便捷、有效，而且操作简单且性能更好，从而有效提高图像分类的准确性和便捷性。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于多通路卷积神经网络的图像分类方法，其特征在于，包括以下步骤：

输入待分类图像；

对所述待分类图像进行分块，以在所述待分类图像上得到多个图像块；

设计多通路CNN模型，所述多通路CNN模型至少包括局部特征提取通路和全局特征提取通路；

对训练图像进行分块，以在所述训练图像上得到多个训练图像块；

根据所述多通路CNN模型和所述多个训练图像块进行模型训练，以生成CNN分类模型；以及

根据所述多个图像块通过所述CNN分类模型得到图像分类结果。

2.根据权利要求1所述的基于多通路卷积神经网络的图像分类方法，其特征在于，根据所述CNN分类模型选择所述多个图像块的尺度。

3.根据权利要求1所述的基于多通路卷积神经网络的图像分类方法，其特征在于，所述局部特征提取通路包括第一卷积块和第二卷积块，所述第一卷积块和第二卷积块均包含三个连续的卷积层，卷积核大小均为3*3，且所述局部特征提取通路的卷积层输出的FMs大小与卷积层输入的FMs大小相等，以及所述卷积层输出的FMs隔层串联。

4.根据权利要求1所述的基于多通路卷积神经网络的图像分类方法，其特征在于，所述全局特征提取通路包括第三卷积块，所述第三卷积块包含三个连续的卷积层，卷积核大小均为9*9，且所述全局特征提取通路的卷积层输出的FMs个数分别为120、120、250，以及计算所述全局特征提取通路的每个卷积层输出的FMs尺度为：

C＝M-N+1，

5.根据权利要求1所述的基于多通路卷积神经网络的图像分类方法，其特征在于，所述设计多通路CNN模型，进一步包括：对所述多通路CNN模型使用正则项，其中，

在所述局部特征提取通路上，对所述局部特征提取通路的每个卷积层的权重施加正则项l2：

<mrow> <mi>C</mi> <mo>=</mo> <msub> <mi>C</mi> <mn>0</mn> </msub> <mo>+</mo> <mfrac> <mi>&lambda;</mi> <mrow> <mn>2</mn> <mi>n</mi> </mrow> </mfrac> <munder> <mo>&Sigma;</mo> <mi>w</mi> </munder> <msup> <mi>w</mi> <mn>2</mn> </msup> <mo>,</mo> </mrow>

6.根据权利要求5所述的基于多通路卷积神经网络的图像分类方法，其特征在于，使用随机梯度下降法训练所述多通路CNN模型，并使用学习率函数调整模型权重，以及使用Keras深度学习框架，其中，

所述随机梯度下降法的参数设置形式如下公式：

sgd＝SGD(lr＝lr_base,momentum＝0.9,nesterov＝True)，

学习率函数如下公式：

<mrow> <mi>l</mi> <mi>r</mi> <mo>=</mo> <mi>l</mi> <mi>r</mi> <mo>_</mo> <mi>b</mi> <mi>a</mi> <mi>s</mi> <mi>e</mi> <mo>&times;</mo> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mrow> <mi>e</mi> <mi>p</mi> <mi>o</mi> <mi>c</mi> <mi>h</mi> </mrow> <mrow> <mi>e</mi> <mi>p</mi> <mi>o</mi> <mi>c</mi> <mi>h</mi> <mi>e</mi> <mi>s</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mrow> <mi>l</mi> <mi>r</mi> <mo>_</mo> <mi>p</mi> <mi>o</mi> <mi>w</mi> <mi>e</mi> <mi>r</mi> </mrow> </msup> <mo>,</mo> </mrow>

7.根据权利要求5所述的基于多通路卷积神经网络的图像分类方法，其特征在于，根据所述多通路CNN模型和所述多个训练图像块进行模型训练，进一步包括：

利用EarlyStopping控制训练过程，以在训练过程中，验证集的精确度不再提高或者训练轮次达到最大时，终止模型训练。

8.一种基于多通路卷积神经网络的图像分类统，其特征在于，包括：

输入模块，用于输入待分类图像；

第一分块模块，用于对所述待分类图像进行分块，以在所述待分类图像上得到多个图像块；

设计模块，用于设计多通路CNN模型，所述多通路CNN模型至少包括局部特征提取通路和全局特征提取通路；

第二分块模块，用于对训练图像进行分块，以在所述训练图像上得到多个训练图像块；

训练模块，用于根据所述多通路CNN模型和所述多个训练图像块进行模型训练，以生成CNN分类模型；以及

分类模块，用于根据所述多个图像块通过所述CNN分类模型得到图像分类结果。

9.根据权利要求8所述的基于多通路卷积神经网络的图像分类统，其特征在于，所述局部特征提取通路包括第一卷积块和第二卷积块，所述第一卷积块和第二卷积块均包含三个连续的卷积层，卷积核大小均为3*3，且所述局部特征提取通路的卷积层输出的FMs大小与卷积层输入的FMs大小相等，以及所述卷积层输出的FMs隔层串联。

10.根据权利要求8所述的基于多通路卷积神经网络的图像分类统，其特征在于，所述全局特征提取通路包括第三卷积块，所述第三卷积块包含三个连续的卷积层，卷积核大小均为9*9，且所述全局特征提取通路的卷积层输出的FMs个数分别为120、120、250，以及计算所述全局特征提取通路的每个卷积层输出的FMs尺度为：

C＝M-N+1，