CN107967484A

CN107967484A - 一种基于多分辨率的图像分类方法

Info

Publication number: CN107967484A
Application number: CN201711120584.6A
Authority: CN
Inventors: 章东平; 倪佩青; 胡葵; 杨力; 张香伟
Original assignee: China Jiliang University
Current assignee: China Jiliang University
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2018-04-27
Anticipated expiration: 2037-11-14
Also published as: CN107967484B

Abstract

本发明公开了一种基于多分辨率的图像分类方法，其目的在于利用不同的深度神经网络结构解决多分辨率输入问题，利用深度学习技术实现从分类标签集合中找出一个分类标签并把分类标签分配给输入图像的效果。其技术关键在于(1)采用跳过部分池化层的方法来实现多分辨率图像分类；(2)采用指定位置输入的方法来实现多分辨率图像分类。(3)根据卷积网络不同层得到的特征特点不同，对不同层的特征采用不同的利用方式。本发明输入任意一张测试图片到训练好的神经网络模型中，神经网络的输出即为该图片的类别。本发明在不统一输入图片大小的前提下，保持了原图片质量，不增加任何噪声，有效地实现了多分辨率的图像分类。

Description

一种基于多分辨率的图像分类方法

技术领域

本发明属于图像处理领域，尤其涉及到一种基于多分辨率的图像分类方法。

背景技术

图像的分类作为计算机视觉领域的重要组成部分，能够有效地对图像的内容进行分析，获取图像中的关键信息，并给出正确的判断。图像分类看似是最简单的问题，却又是一个核心问题，其重要性还体现在其它的一些计算机视觉问题，如物体定位和识别、图像内容分割等，对现实的工作生活及社会的发展具有重要的意义。

图像分类关注于全局统计信息，而且对于图像数据，深度学习具有优秀的建模和特征提取能力，已被广泛应用于图像物体分类的理论分析和实际应用。Kong提出基于深度置信网络构建模型，利用方向梯度直方图(Histogram of Oriented Gradient,HOG)算子和特征很好地区分了真实交通场景图像数据中的行人、车辆等，并且模型在光照、姿势、分辨率上都具有非常好的鲁棒性。Bo Yu等通过引入多任务训练机制来提升深度模型性能，明显改善了人脸分类识别效果。Sun Y等基于CNN设计出一个DeepID人脸识别系统在人脸识别挑战带标签的数据库LFW(Labeled Faces in the Wild)上取得99.15％的识别率，首次超越同样数据集上人眼97.5％的识别率，最终通过模型的进一步完善，使DeepID系统拥有非常好的遮挡鲁棒性，这一成果极大地推动了具有巨大实用价值的人脸识别领域的发展。

在大规模视觉识别挑战赛(ILSVRC)2012比赛中，来自多伦多大学的AlexKrizhevsky团队设计出卷积神经网络AlexNet，将测试的top-5error下降到15.3％，而采取传统方法做分类的第二名top-5error为26.2％，深度学习方法明显优于传统方法。此后，不断有更加高效、准确的模型出现，如牛津大学的VGG，谷歌研究院的GoogLe Net等。近年来的优秀模型甚至突破了人眼识别的平均错误率，展示了卷积神经网络在图像分类上的强大优势。

深度卷积神经网络用于图片分类效果明显，但仍存在以下问题：

(1)对于一些不容易分类的需要提取更抽象的图片特征的分类任务而言，如人脸识别、人脸属性识别等，一般的网络结构效果比较差。

(2)目前的趋势是网络越深，卷积神经网络的测试效果越好。但是随着网络的加深，过拟合和网络退化问题显得更加严重。

发明内容

本发明的目的在于针对上述技术的不足，提出一种基于多分辨率的图像分类方法，设计深度卷积神经网络结构，利用深度学习技术实现从分类标签集合中找出一个分类标签并把分类标签分配给输入图像的效果。

本发明采用的技术方案是：

一种基于多分辨率的图像分类方法，包括以下步骤：

步骤1：数据集准备。数据集含N种类别，每类含M种分辨其中W为图片的宽，H为图片的高,M＝0,1,2,...n。每种分辨率的图片数量相近。将图片分成训练集和测试集两个部分。

步骤2：制作图片标签。标签表示为l(l∈(1,N))，表示属于第几类。在训练集中，同一类别的图片标签保持一致，不同类别的标签不能相同。

步骤3：构建图片数据库。在深度卷积神经网络训练时需要输入训练数据，利用准备好的数据集和标签将图片数据转换为lmdb格式。所述lmdb为内存映射数据库，读取的效率更高，而且支持不同程序同时读取。

步骤4：设计网络结构。本发明针对多分辨率输入设计了两种网络结构，确定深度神经网络输入层节点数、输出层节点数、隐藏层数和隐藏层节点数，随机初始化各层的连接权值W和偏置b,给定学习速率η，选定激活函数RELU，选定损失函数Loss。所述激活函数的作用是能够给神经网络加入一些非线性因素，使得神经网络可以更好地解决较为复杂的问题，进一步地，RELU的数学表达式为：

(4a)第一种深度神经网络结构。采用跳过部分池化层的方法，所述池化层在卷积层后面，通过池化层来降低卷积层输出的特征向量。本发明结构一中跳过池化层的个数取决于输入图片的分辨率大小和最小分辨率的图片大小。

进一步地，跳过的个数为：

在特征图大小统一前，不同分辨率图片共同作用卷积层和激活层，单独作用池化层，在特征图大小统一后共同作用卷积层、激活层和池化层。

(4b)第二种深度神经网络结构。采用指定位置输入的方法，本发明结构二中不减少池化层个数，利用池化层能够降低特征图大小的的性能以2^M倍采样特征图。将不同分辨率的图片与不同大小的特征图相匹配，将输入图片定位到大小匹配一致的特征图前一层。所述输入图片在与特征图结合前经过卷积激活处理。

(4c)选定损失函数Loss。本发明根据卷积网络不同层得到的特征特点不同，对不同层的特征采用不同的利用方式。利用低层细节更加清楚的特点进行小目标分类，利用高层包含信息更多的特点进行大目标分类。所述小目标与大目标为某一类物体所占图片像素的大小，一张图片中占大部分像素的物体为大目标，反之为小目标。将不同层提取的特征连接得到一个既包含细节又包含总体信息的特征向量。

进一步地，该向量可用具体公式表示为：

其中RELU_j表示深度神经网络的第j个池化层输出，RELU_last表示深度神经网络的最后一个池化层输出。

该向量经过全连接层后输入到softmax层进行类别判断。所述softmax函数是一个归一化的指数函数，可以用于解决多分类问题。

进一步地，softmax函数定义如下：

y_i＝e^zi/∑_ne^zi i＝1,2,3,...,n (4)

其中y_i为概率，i为特征向量z中的第i个元素。

式子中的分母起正则项的作用，∑_ne^zi＝1。所述正则项为保留一些更为重要的特征变量，舍弃不需要的变量。在本发明提出的图像分类方法中需要判断输入图片的类别，重点考虑输入图片可能的类别，不考虑概率小的类别。

根据最大化似然函数就是最小化它的负对数的似然函数可得，本发明的损失函数为：

Loss＝-log(e^zi/∑_ne^zi) (5)

步骤5：训练深度神经网络直到神经网络输出层误差达到精度要求或训练次数达到最大迭代次数，结束训练。保存网络结构和参数，得到训练好的神经网络模型。

步骤6：输入任意一张测试图片到训练好的神经网络模型中，神经网络的输出即为该图片的类别。

附图说明

以下结合附图，对本发明的具体实施方式做进一步的详细描述。

图1为本发明一种基于多分辨率的图像分类方法一的原理示意图。

图2为本发明一种基于多分辨率的图像分类方法二的原理示意图。

具体实施方式

如图1和图2所示，本发明公开了一种基于多分辨率的图像分类方法，下面结合附图对本发明的具体实施方式做详细说明。

步骤1：数据集准备。选取包含10个种类的数据集，每类图片含3种分辨率，分别是64×64，128×128,256×256。每种分辨率的图片数量相近。将图片分成训练集和测试集两个部分。

步骤2：制作图片标签。由于分了10个类别，所以标签有10类，表示为l(l∈(1,10))，在训练集中，同一类别的图片标签保持一致，不同类别的标签不能相同。

步骤4：设计网络结构。本发明针对多分辨率输入设计了两种网络结构，确定深度神经网络输入层节点数、输出层节点数、隐藏层数和隐藏层节点数，随机初始化各层的连接权值W和偏置b,给定学习速率η，选定激活函数RELU，选定损失函数Loss。所述激活函数的作用是能够给神经网络加入一些非线性因素，使得神经网络可以更好地解决较为复杂的问题，进一步地RELU的数学表达式为：

(4a)第一种深度神经网络结构。采用跳过部分池化层的方法，所述池化层在卷积层后面，通过池化来降低卷积层输出的特征向量。本发明结构一中跳过池化层的个数取决于输入图片的分辨率大小和最小分辨率的图片大小。

进一步地，跳过的个数为：

当输入图片分辨率为64×64时：

当输入图片分辨率为128×128时：

当输入图片分辨率为256×256时：

(4b)第二种深度神经网络结构。采用指定位置输入的方法，本发明结构二中不减少池化层个数，利用池化层能够降低特征图大小的的性能以2^M倍采样特征图。将不同分辨率的图片与不同大小的特征图相匹配，将输入图片定位到大小匹配一致的特征图前一层。将分辨率为64×64的图片在深度神经网络经过2个池化层后输入；将分辨率为128×128的图片在深度神经网络经过1个池化层后输入；将分辨率为256×256的图片在深度神经网络不经过池化层前输入。所述输入图片在与特征图结合前经过卷积激活处理。

(4c)选定损失函数Loss。本发明根据卷积网络不同层得到的特征特点不同，对不同层的特征采用不同的利用方式。利用低层细节更加清楚的特点进行小目标分类，利用高层包含信息更多的特点进行大目标分类。所述小目标与大目标为某一类物体所占图片像素的大小，一张图片中占大部分像素的物体为大目标，反之为小目标。将不同层提取的特征连接得到一个既包含细节又包含总体信息的特征向量，该向量经过全连接层后输入到softmax层进行类别判断。所述softmax函数是一个归一化的指数函数，可以用于解决多分类问题。

进一步地，该向量可用具体公式表示为：

进一步地，softmax函数定义如下：

yi＝e^zi/∑_ne^zi i＝1,2,3,...,n (8)

其中y_i为概率，i为特征向量z中的第i个元素。

Loss＝-log(e^zi/∑_ne^zi) (9)

步骤5：训练深度神经网络，直到神经网络输出层误差达到精度要求或训练次数达到最大迭代次数，结束训练。保存网络结构和参数，得到训练好的神经网络模型。

Claims

1.一种基于多分辨率的图像分类方法，其特征在于：

步骤1：数据集准备，数据集含N种类别，每类含M种分辨其中W为图片的宽，H为图片的高,M＝0,1,2,...n，每种分辨率的图片数量相近，将图片分成训练集和测试集两个部分；

步骤2：制作图片标签，标签表示为l(l∈(1,N))，表示属于第几类，在训练集中，同一类别的图片标签保持一致，不同类别的标签不能相同；

步骤3：构建图片数据库，在深度卷积神经网络训练时需要输入训练数据，利用准备好的数据集和标签将图片数据转换为lmdb格式，所述lmdb为内存映射数据库，读取的效率更高，而且支持不同程序同时读取；

步骤4：针对多分辨率输入设计了两种网络结构，确定深度神经网络输入层节点数、输出层节点数、隐藏层数和隐藏层节点数，随机初始化各层的连接权值W和偏置b,给定学习速率η，选定激活函数RELU，选定损失函数Loss，所述激活函数的作用是能够给神经网络加入一些非线性因素，使得神经网络可以更好地解决较为复杂的问题，RELU的数学表达式为：

步骤5：训练深度神经网络直到神经网络输出层误差达到精度要求或训练次数达到最大迭代次数，结束训练，保存网络结构和参数，得到训练好的神经网络模型；

2.根据权利要求1的基于多分辨率的图像分类方法，其特征在于：所述步骤4中，第一种深度神经网络结构，采用跳过部分池化层的方法，所述池化层在卷积层后面，通过池化层来降低卷积层输出的特征向量，本发明结构一中跳过池化层的个数取决于输入图片的分辨率大小和最小分辨率的图片大小；

跳过的个数为：

3.根据权利要求1的基于多分辨率的图像分类方法，其特征在于：所述步骤中，第二种深度神经网络结构，采用指定位置输入的方法，本发明结构二中不跳过池化层，利用池化层能够降低特征图大小的的性能以2^M倍采样特征图，将不同分辨率的图片与不同大小的特征图相匹配，将输入图片定位到大小匹配一致的特征图前一层，所述输入图片在与特征图结合前经过卷积激活处理。

4.根据权利要求1的基于多分辨率的图像分类方法，其特征在于：所述步骤4中，根据卷积网络不同层得到的特征特点不同，对不同层的特征采用不同的利用方式，利用低层细节更加清楚的特点进行小目标分类，利用高层包含信息更多的特点进行大目标分类，所述小目标与大目标为某一类物体所占图片像素的大小，一张图片中占大部分像素的物体为大目标，反之为小目标，将不同层提取的特征连接得到一个既包含细节又包含总体信息的特征向量；

该向量可用具体公式表示为：

其中RELU_j表示深度神经网络的第j个池化层输出，RELU_last表示深度神经网络的最后一个池化层输出；

该向量经过全连接层后输入到softmax层进行类别判断，所述softmax函数是一个归一化的指数函数，可以用于解决多分类问题；

softmax函数定义如下：

y_i＝e^zi/∑_ne^zi i＝1,2,3,...,n (4)

其中y_i为概率，i为特征向量z中的第i个元素。

式子中的分母起正则项的作用，∑_ne^zi＝1，所述正则项为保留一些更为重要的特征变量，舍弃不需要的变量，在本发明提出的图像分类方法中需要判断输入图片的类别，重点考虑输入图片可能的类别，不考虑概率小的类别；

Loss＝-log(e^zi/∑_ne^zi) (5) 。