CN104517122A

CN104517122A - 一种基于优化卷积架构的图像目标识别方法

Info

Publication number: CN104517122A
Application number: CN201410767043.2A
Authority: CN
Inventors: 王雪姣; 王梁昊; 李东晓; 张明
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-12-12
Filing date: 2014-12-12
Publication date: 2015-04-15

Abstract

本发明公开了一种基于优化卷积架构的图像目标识别方法，该方法首先对输入图像进行采集和增强处理形成样本；然后基于优化的卷积架构对样本进行训练；最后用训练后的卷积架构对图像目标进行分类识别。其中，卷积架构的优化包括：ReLU激活函数；局部响应归一化；卷积区重叠合并；神经元连接Drop-out技术；启发式学习。与现有技术相比，本发明能够扩充带标签样本，支持较多对象分类并获得较快的训练收敛速度和较高的图像目标识别率，并具备更高的鲁棒性。

Description

一种基于优化卷积架构的图像目标识别方法

技术领域

本发明属于图像分析识别技术领域，具体涉及一种基于优化卷积架构的图像目标识别方法。

背景技术

目前，模式识别作为机器学习中的热门研究领域，随着计算机网络图像数据的海量出现越来越受到重视。为了有效管理图像数据并更好的为用户服务，图像目标的自动识别变得尤为重要。

传统的图形识别方法如SVM(Support Vector Machine，支持向量机)、Boosting主要是通过提取图像的特征再进行分类识别。卷积神经网络则是一种基于监督的深度学习模型，实质是模拟人脑机制构建具有多隐层的学习网络，其“感受野”和权值共享的网络结构降低了模型复杂度，并对平移、缩放、倾斜等变形具有高度不变性。以图像直接作为网络输入，卷积神经网络通过逐层特征变换来学习更抽象的特征表达以达到分类识别的目的。

Yann LeCun提出卷积神经网络是一种基于监督的深度学习模型，实质是模拟人脑机制构建具有多隐层的学习网络，其“感受野”和权值共享的网络结构降低了模型复杂度，并对平移、缩放、倾斜等变形具有高度不变性。具体而言，卷积神经网络包括卷积层、采样层、全连接层和输出层。其中，卷积层以图像直接作为网络输入，通过与不同的卷积滤波器卷积得到多个特征图。特征图经降采样操作降低维数并通过激活函数得到采样层。采样层输出直接作为下一卷积层的输入，这一卷积、采样操作可重复多次。全连接层以最高卷积层的特征为输入并映射为向量输出。输出层则是一个C-类的softmax分类器。

卷积神经网络应用于手写数字开始，基于卷积神经网络的图像分类技术已经应用于车型、人脸等识别任务上，并在训练收敛速度和识别率取得了较好的效果。尽管如此，目前卷积神经网络在模式识别中的应用还存在以下缺陷：

第一，尽管当前图像数据海量，但由于基于监督的学习方式其训练数据需要带标签，使当前卷积神经网络应用的分类对象较少且受限于训练库。

第二，在对较多图像类别进行识别时，卷积神经网络规模相应增大，其待训练参数大幅增长，容易出现过拟合现象。

第三，卷积神经网络对新的对象识别任务的可移植性不强，即在面对未知复杂的图像识别对象时，训练收敛速度和目标识别率上很难以让用户满意。

发明内容

针对现有技术所存在的上述技术问题，本发明提供了一种基于优化卷积架构的图像目标识别方法，能够扩充带标签样本，支持较多对象分类并获得较快的训练收敛速度和较高的图像目标识别率。

一种基于优化卷积架构的图像目标识别方法，包括如下步骤：

(1)对输入的样本图像进行图像增强处理；

(2)利用处理后得到的样本图像对卷积神经网络进行优化训练；

(3)输入目标图像至训练好的卷积神经网络中，以对该目标图像进行分类识别。

所述的样本图像来自目前图像识别领域最大且语义学上分类最全的训练库ImageNet。

所述的步骤(1)中对样本图像进行图像增强处理的具体过程如下：

1.1图像平移和翻转：在样本图像四周和中心分别提取固定大小的图像块并做水平翻转，以得到扩增10倍的图像训练集；

1.2图像的RGB颜色通道强度变更：对于每一样本图像，在对图像RGB像素值做PCA处理后，通过以下算式将像素各通道主成份倍乘对应标准高斯随机量化的特征值，将结果添加到原始的RGB通道分量上，以改变像素的颜色强度：

I_xy＝[R_xy,G_xy,B_xy]^T+[P_R,P_G,P_B][α_Rλ_R,α_Gλ_G,α_Bλ_B]^T

其中：I_xy为任一像素变更后的颜色强度，R_xy、G_xy、B_xy对应为该像素变更前对应红色、绿色、蓝色三个通道上的颜色强度值，P_R和λ_R分别为颜色强度值R_xy对应的3×3协方差矩阵的特征向量和特征值，P_G和λ_G分别为颜色强度值G_xy对应的3×3协方差矩阵的特征向量和特征值，P_B和λ_B分别为颜色强度值B_xy对应的3×3协方差矩阵的特征向量和特征值，α_R、α_G、α_B均为标准正太分布下产生的随机变量值。

所述的步骤(2)在对卷积神经网络架构进行优化训练过程中，通过卷积滤波器对输入进行卷积操作提取特征时，为使卷积架构充分利用同一特征核映射图邻近神经元的信息，采取减少降采样步进的方式，使降采样区域部分重叠的方法进行卷积。

所述的步骤(2)在对卷积神经网络架构进行优化训练过程中，特征图在降采样处理后，对图像中神经元输出采用ReLU(修正线性单元)作为建模激活函数，函数的具体表达如下：

f(x)＝max(0,x)

其中：x为函数的输入，f(x)表示为神经元输出。

所述的步骤(2)在对卷积神经网络架构进行优化训练过程中，在卷积层根据以下算式对卷积滤波器输出得到的多个特征图进行归一化处理：

b_{i} = a_{i} / {(k + α Σ_{j = \max (0, i - n / 2)}^{\min (N - 1, i + n / 2)} {(a_{j})}^{2})}^{β}

其中：a_i和a_j对应为第i个和第j个核函数在特征图任一像素位置的神经元响应，b_i对应为a_i归一化后的神经元响应，N为卷积层的核函数总数，k、n、α、β均为由验证集决定的参数。

所述的步骤(2)在对卷积神经网络架构进行优化训练过程中，对于神经元采用Drop-out技术，将隐层神经元输出以50％的概率设为零，被丢弃神经元不再参与前向传递和后向传播。

所述的步骤(2)在对卷积神经网络架构进行优化训练过程中，采取启发式算法更新学习速率。

本发明与现有技术相比，其显著优势在于：

第一，本发明在数据采集阶段，对带标签样本进行了数据增强，扩充了训练样本集并且减少了过拟合现象。

第二，本发明是基于ImageNet图像库做训练的，其依据WordNet层次结构的分类涵盖广。在面对未知复杂识别任务时，本发明的卷积架构具备移植通用性。

第三，本发明基于基础卷积神经网络架构作出了大量优化，具备更优的图像目标识别率和较高的计算效率。

附图说明

图1为本发明方法的流程框架示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

本发明基于优化卷积架构的图像目标识别方法，框架如图1所示，包括前端处理、模型训练和识别应用，具体展开为以下三大步骤：

第一步，前端处理：输入图像的采集与增强处理。

输入图像样本的采集可以通过拍摄获取和网络平台搜索获得。在获得初始样本后，为减少过拟合现象的出现，对采集的带标签样本进行以下增强处理：

(1)图像平移和翻转：在采集的原始图像四周和中心分别提取固定大小的图像块并做水平翻转，得到扩增10倍的训练集。

(2)图像的RGB颜色通道强度变更：对每一训练集图像，在对RGB像素值做PCA处理后，各通道主成份倍乘对应标准高斯随机量化的特征值，将结果添加到原始的RGB通道分量上，改变颜色强度。颜色通道变更计算具体为：

I_xy＝[I_xy ^R,I_xy ^G,I_xy ^B]^T+[P₁,P₂,P₃][α₁λ₁,α₂λ₂,α₃λ₃]^T

其中，PCA处理时由RGB像素值得到3X3协方差矩阵，P_i和λ_i分别对应其特征向量和特征值，α_i是标准正态分布下产生的随机变量值。

第二步，基于优化的卷积架构对样本进行训练。

卷积架构的基础是8层卷积神经网络。训练样本来自目前图像识别领域最大且语义学上分类最全的训练库ImageNet。卷积神经网络是一种基于监督的深度学习模型，实质是模拟人脑机制构建具有多隐层的学习网络，其“感受野”和权值共享的网络结构降低了模型复杂度，并对平移、缩放、倾斜等变形具有高度不变性。

卷积神经网络结构包括卷积层、采样层、全连接层和输出层。具体而言，卷积层以图像直接作为网络输入，通过与不同的卷积滤波器卷积得到多个特征图。特征图经降采样操作降低维数并通过激活函数得到采样层，采样层输出直接作为下一卷积层的输入，这一卷积、采样操作可重复多次。全连接层以最高卷积层的特征为输入并映射为向量输出。输出层则是一个C-类的softmax分类器。

本实施方式对卷积架构的优化技术具体包括：

(1)卷积区重叠pooling：通过卷积滤波器对输入进行卷积操作提取特征时，为使卷积架构充分利用同一特征核映射图邻近神经元的信息，卷积架构中为充分利用同一特征核映射图邻近神经元的信息，采取减少Pooling步进，使Pooling区域部分重叠的方法进行卷积。

(2)局部响应归一化：在卷积层中，对滤波器卷积得到的多个特征图进行归一化处理，具体而言，选取卷积核映射在空间位置上的n"邻近"激励平方求和作为总“单位”，对每个神经元响应做归一化处理。归一化的神经元响应具体为：

b_{x, y}^{i} = a_{x, y}^{i} / {(k + α Σ_{j = \max (0, i - n / 2)}^{\min (N - 1, i + n / 2)} {(a_{x, y}^{j})}^{2})}^{β}

其中，是核函数i在(x,y)位置的神经元响应，N是这一层的核函数总数，常数k,n,α,β是由验证集决定的超参数，此处分别设置为2，5，10^-4，0.75。

(3)ReLU激活函数：特征图在降采样处理后，对神经元输出f的建模函数为ReLU(修正线性单元)，激活函数具体为f(x)＝max(0,x)。

(4)神经元连接Drop-out技术：卷积架构的隐层神经元并非全连接，而是采用Drop-out技术，将隐层神经元输出以50％的概率设为零，被丢弃神经元不再参与前向传递和后向传播。

(5)启发式学习：学习速率决定整个架构参数调整的步幅，在训练过程中采取启发式算法更新学习速率。

第三步，用训练好的卷积架构对图像目标进行分类识别。此处基于ImageNet训练的优化卷积架构既能对当前训练的1000类对象具备较高的图像目标识别率；同时对于未知的识别任务，此优化卷积架构的已训练的网络权重参数可以作为基础，将模型的特征表达迁移学习到其他图像目标识别上，加速训练的收敛并提高目标识别的准确率。

Claims

1.一种基于优化卷积架构的图像目标识别方法，包括如下步骤：

(1)对输入的样本图像进行图像增强处理；

2.根据权利要求1所述的图像目标识别方法，其特征在于：所述的样本图像来自目前图像识别领域最大且语义学上分类最全的训练库ImageNet。

3.根据权利要求1所述的图像目标识别方法，其特征在于：所述的步骤(1)中对样本图像进行图像增强处理的具体过程如下：

I_{xy} = [{R_{xy}, G_{xy}, B_{xy}]}^{T} + [P_{R}, P_{G}, P_{B}] [α_{R} λ_{R}, α_{G} λ_{G}, α_{B} {, λ_{B}]}^{T}

其中：I_xy为任一像素变更后的颜色强度，R_xy、G_xy、B_xy对应为该像素变更前对应红色、绿色、蓝色三个通道上的颜色强度值，P_R和λ_R分别为颜色强度值R_xy对应的3×3协方差矩阵的特征向量和特征值，P_G和λ_G分别为颜色强度值G_xy对应的3×3协方差矩阵的特征向量和特征值，P_B和λ_B分别为颜色强度值B_xy对应的3×3协方差矩阵的特征向量和特征值，α_R、α_G、α_B均为标准正态分布下产生的随机变量值。

4.根据权利要求1所述的图像目标识别方法，其特征在于：所述的步骤(2)在对卷积神经网络架构进行优化训练过程中，通过卷积滤波器对输入进行卷积操作提取特征时，为使卷积架构充分利用同一特征核映射图邻近神经元的信息，采取减少降采样步进的方式，使降采样区域部分重叠的方法进行卷积。

5.根据权利要求1所述的图像目标识别方法，其特征在于：所述的步骤(2)在对卷积神经网络架构进行优化训练过程中，特征图在降采样处理后，对图像中神经元输出采用ReLU(修正线性单元)作为建模激活函数，函数的具体表达如下：

f(x)＝max(0,x)

其中：x为函数的输入，f(x)表示为神经元输出。

6.根据权利要求1所述的图像目标识别方法，其特征在于：所述的步骤(2)在对卷积神经网络架构进行优化训练过程中，在卷积层根据以下算式对卷积滤波器输出得到的多个特征图进行归一化处理：

b_{i} = a_{i} / {(k + α Σ_{j = \max (0, i - n / 2)}^{\min (N - 1, i + n / 2)} {(a_{j})}^{2})}^{β}

7.根据权利要求1所述的图像目标识别方法，其特征在于：所述的步骤(2)在对卷积神经网络架构进行优化训练过程中，对于神经元采用Drop-out技术，将隐层神经元输出以50％的概率设为零，被丢弃神经元不再参与前向传递和后向传播。

8.根据权利要求1所述的图像目标识别方法，其特征在于：所述的步骤(2)在对卷积神经网络架构进行优化训练过程中，采取启发式算法更新学习速率。