CN103955718A

CN103955718A - 一种图像主体对象的识别方法

Info

Publication number: CN103955718A
Application number: CN201410205350.1A
Authority: CN
Inventors: 张伟; 傅松林; 王喆; 胡瑞鑫
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2014-05-15
Filing date: 2014-05-15
Publication date: 2014-07-30

Abstract

本发明公开了一种图像主体对象的识别方法，其通过对待识别图像进行图像显著性检测以获取图像的显著性区域，并计算包含所述的显著性区域的最大矩形区域，最后根据所述的最大矩形区域进行卷积神经网络的深度学习，识别得到待识别图像的主体对象，从而能够大大提升识别主体对象的正确率，适应各式各样的构图。

Description

一种图像主体对象的识别方法

技术领域

本发明涉及一种图像识别方法，特别是一种图像主体对象的识别方法。

背景技术

目前，我们在识别图像中的主体对象主要是提取图像的最中间位置的图像来进行识别，但是我们在拍摄时为了使拍摄照片更好看，往往在构图上采用“黄金分割”，它是广泛存在于自然界的一种现象，简单的说就是将摄影的主体对象放在位于画面大约三分之一处，让人觉得画面和谐充满美感。“黄金分割法”又称“三分法则”，“三分法则”就是将整个画面在横、竖方向各用两条直线分割成等份的三部分，我们将拍摄的主体放置在任意一条直线或直线的交点上这样比较符合人类的视觉习惯。拍摄时可直接调出相机的“井”字辅助线，将拍摄主体放在4个交叉点上，这样画面立刻就活了起来。而这样就导致图像主体识别的错误率居高不下。

发明内容

本发明为解决上述问题，提供了一种图像主体对象的识别方法，其通过图像显著性检测及卷积神经网络的深度学习，能够大大提升识别主体对象的正确率，适应各式各样的构图。

为实现上述目的，本发明采用的技术方案为：

一种图像主体对象的识别方法，其特征在于，包括以下步骤：

10.接收待识别图像；

20.对所述待识别图像进行图像显著性检测以获取图像的显著性区域；

30.计算包含所述的显著性区域的最大矩形区域；

40.根据所述的最大矩形区域进行卷积神经网络的深度学习，识别得到待识别图像的主体对象。

优选的，所述的步骤20中对待识别图像进行图像显著性检测进一步包括：

21.提取图像特征：采用高斯滤波器对待识别图像进行滤波和采样，形成以待识别图像为底层的高斯金字塔模型；然后对高斯金字塔模型中的每一层分别提取各种图像特征，形成特征金字塔模型；再根据该特征金字塔模型进行计算得到所述待识别图像的特征图；

22.生成显著图：把每一个所述的特征图归一化处理，并将各个归一化处理后的特征图进行综合计算，得到对应于待识别图像的显著图。

优选的，所述的步骤20中对待识别图像进行图像显著性检测后生成显著图，用白色和黑色对该显著图进行标记以获取图像的显著性区域，其中，白色表示图像中显著的区域，黑色表示图像中不显著的区域。

优选的，所述的步骤30中计算包含所述的显著性区域的最大矩形区域，主要通过标记法对所述显著图进行连通区域的计算和提取，从而得到最大矩形区域。

优选的，所述的标记法进一步包括：

31.初始标记值记为1；

32.对所述显著图进行逐行扫描，找到一个未标记区域的颜色为白色的像素点，标记该像素点的标记值为1；

33.检查该点的八邻域的像素点并标记像素点满足为颜色为白色的像素点且未被标记的标记值为当前标记值，同时将新增的标记像素点记录下来作为区域增长的种子点；

34.在后续的标记像素点过程中，不断从记录种子点的数组中取出一个种子，实施上述的操作，如此循环，直到记录种子点的数组为空；

35.若一个连通区域标记结束，则标记值+1，并遍历下一个连通区域，直到所有像素点被标记为止；

36.获取每个标记值的最大区域，并将每个标记值为1的白色区域连接起来，然后计算出显著性区域与非显著性区域的比例达到最大的矩形区域为所述的最大矩形区域。

优选的，所述的步骤40中根据所述的最大矩形区域进行卷积神经网络的深度学习，识别得到待识别图像的主体对象，主要是系统预先收集各种类型的主体对象的图像进行分类并标注标签，从而得到带有标签的图像块，并将其作为样本图像输入卷积神经网络进行训练学习。

优选的，所述的图像主体对象的分类标签包括：人物标签、食物标签、动物标签、建筑物标签、交通工具标签。

优选的，所述的步骤40中进行卷积神经网络的深度学习，主要是将样本图像输入卷积神经网络进行训练学习，并将分类错误的样本图像收集起来重新进行标注，再将重新标注后的样本图像再次进行训练学习，重复上述过程直到分类正确为止。

本发明的有益效果是：

本发明的一种图像主体对象的识别方法，其通过对待识别图像进行图像显著性检测以获取图像的显著性区域，并计算包含所述的显著性区域的最大矩形区域，最后根据所述的最大矩形区域进行卷积神经网络的深度学习，识别得到待识别图像的主体对象，从而能够大大提升识别主体对象的正确率，适应各式各样的构图。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一种图像主体对象的识别方法的流程简图；

图2为本发明一实施例的待识别图像；

图3为对图2进行图像显著性检测后的图；

图4为在图3的基础上获取最大矩形区域的示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图及实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明的一种图像主体对象的识别方法，其包括以下步骤：

10.接收待识别图像，如图2；

20.对所述待识别图像进行图像显著性检测，如图3，以获取图像的显著性区域；

30.计算包含所述的显著性区域的最大矩形区域，如图4；主要是为了获取显著性区域最大的部分，方便接下来的主体对象的识别；

所述的步骤20中对待识别图像进行图像显著性检测进一步包括：

21.提取图像特征：采用高斯滤波器对待识别图像进行滤波和采样，形成以待识别图像为底层的高斯金字塔模型；然后对高斯金字塔模型中的每一层分别提取各种图像特征，形成特征金字塔模型；再根据该特征金字塔模型进行计算得到所述待识别图像的特征图；具体为：先把待识别图像表示成9层的高斯金字塔，其中第0层是待识别图像，1到8层分别是用5*5的高斯滤波器对待识别图像进行滤波和采样形成的，大小分别为待识别图像的1/2到1/256，然后对金字塔每一层分别提取各种特征，例如：亮度、红色、绿色、蓝色、黄色、方向等特征，形成特征金字塔，然后再进行计算得到各个特征的特征图。

22.生成显著图：把每一个所述的特征图归一化处理，以消除干扰噪声及突出显著部分，并将各个归一化处理后的特征图进行综合计算，得到对应于待识别图像的显著图；具体为：对每个特征图分别用二维高斯差函数进行卷积，并把卷积结果叠加回原特征图，使同种特征以侧抑制的方式在空间上竞争；卷积和迭代过程进行多次，这样可以让少数几个最显著的点均匀分布在整个特征图上，从而每个特征图上只保留少数的几个显著点，在叠加多个特征图时能把多种显著特征的点突现出来；接下来分别把每一类归一化后的特征图逐点求和，得到对应于每一类特征的显著图，综合所有特征的显著性，就得到对应于待识别图像的显著图。

所述的步骤20中对待识别图像进行图像显著性检测后生成显著图，用白色和黑色对该显著图进行标记以获取图像的显著性区域，其中，白色表示图像中显著的区域，黑色表示图像中不显著的区域。

所述的步骤30中计算包含所述的显著性区域的最大矩形区域，主要通过标记法对所述显著图进行连通区域的计算和提取，从而得到最大矩形区域。

所述的标记法进一步包括：

31.初始标记值记为1；

36.获取每个标记值的最大区域，并将每个标记值为1的白色区域连接起来，然后计算出显著性区域与非显著性区域的比例达到最大的矩形区域为所述的最大矩形区域，如图2至图4所示。

所述的步骤40中根据所述的最大矩形区域进行卷积神经网络的深度学习，识别得到待识别图像的主体对象，主要是系统预先收集各种类型的主体对象的图像进行分类并标注标签，从而得到带有标签的图像块，并将其作为样本图像输入卷积神经网络进行训练学习；进一步的，所述的步骤40中进行卷积神经网络的深度学习，主要是将样本图像输入卷积神经网络进行训练学习，并将分类错误的样本图像收集起来重新进行标注，即，调整网络结构，再将重新标注后的样本图像再次进行训练学习，如此重复“训练->调整网络结构->再训练”的过程直到分类正确为止。

上述的图像主体对象的分类标签包括：人物标签、食物标签、动物标签、建筑物标签、交通工具标签；该分类标签还可以进一步细分，例如动物标签还可以分为猫、狗等，交通工具标签还可以分为车、船、飞机等，对于无法分类的图像则分类为其他标签。

本实施例中网格结构顺序为输入层->K个小组层->全连接层->SoftMax层，其中K大于等于1；小组层包括卷积层、激活层、下采样层、归一化层；卷积层、激活层、下采样层、归一化层中每个层的核大小以及输出大小都是可以进行任意调节的，并且每个层都有一个输入且产生一个输出，每一层的输出作为下一层的输入。

其中，输入层的输入大小为Height x Weight x Channel，其中Weight、Height为输入层图像的宽和高，Channel为输入层图像的颜色通道；由于本发明使用GPU硬件实现的原因，Weight＝Height；输入图像的channel只能为1或者3。

卷积层：

1)核的大小必须是奇数，且不大于该层输入的宽或者高；

2)中间表示通过卷积层时不改变宽和高，通道数可变可不变；理论上可以为任意正整数，由于本发明使用GPU硬件实现的原因，这里为16的倍数。

激活层：

1)激活层不改变卷积层表示的宽、高或者通道数；

2)激活层所使用的激活函数包括但不限于以下函数类型：

f(x)＝1/(1+e^-x)

f(x)＝a*tanh(b*x)，a，b为任意数

f(x)＝max(0，x)

f(x)＝min(a，max(0，x))

f(x)＝log(1+e^x)

f(x)＝|x|

f(x)＝x²

f (x) = \sqrt{x}

f(x)＝ax+b

3)激活层跟在卷积层或者全连接之后。

下采样层：

1)下采样层不改变中间表示的通道数；

2)下采样层对图像的缩小比即为核的大小：即核为m x n的下采样层会造成中间表示缩小为上一层的(1/m)x(1/n)，理论上m和n可为任意自然数，由于本发明使用GPU硬件实现的原因，m＝n。例如，15x15x32通过3x3的下采样后，变成5x5x32；15x15x32通过5x5的下采样后，变成3x3x32；但是15x15x32不能进行2x2的下采样，因为15不能被2整除；并不是说，输入尺寸必须是2的次幂，即16、32、64等，输入尺寸只要保证能被所有下采样层采样即可。

归一化层：

1)归一化层不改变中间表示的任何尺寸；

2)归一化层不是必须的，可要可不要，添加归一化层通常会提高精度并增加计算量；是否添加归一化层，要看添加后实际提升的精度和损失的速度。

一般的组合是：卷积->激活->下采样->归一化。

以下情况特殊：

1)添加归一化层“划不来”时，取消归一化层，即采用以下组合：卷积->激活->下采样；

2)归一化层提前，效果基本相同，即采用以下组合：卷积->激活->归一化->下采样。

3)取消下采样层：卷积->激活；或者卷积->激活->归一化；下采样本质是为了增加鲁棒性，同时顺便有减少后续层的运算量的作用；一个网络中通常会有几层下采样，但并不是所有的“卷积->激活”后面都要跟下采样。

全连接层：

1)通过全连接层后的中间表示会变成1维的，不再是3维的；

2)全连接的输出可以任意；

3)一旦进过全连接，就无法进行卷积、下采样或归一化；

4)全连接后面可以接激活层，或者继续接全连接。

SoftMax层：

接在全连接层之后，作用是把全连接产生的实值变成[0，1]之间的概率。

本发明最后使用的网络结构如表1所示。

表1卷积神经网络结构

层数	类型	核大小	输出大小	注解
					1	输入层	32x32x3
2	卷积层	5x5	32x32x32
					3	激活层	32x32x32
4	下采样层	2x2	16x16x32	f(x)＝x²
					5	归一化层	16x16x32	使用局部归一化
6	卷积层	5x5	16x16x16
					7	激活层	16x16x16
8	下采样层	2x2	8x8x16	f(x)＝\|x\|
					9	归一化层	8x8x16	使用局部归一化

10	全连接层		6个数据
					11	SoftMax层		6个数据

本发明通过在待识别图像中的目标区域进行随机采样，放入神经网络的输入层，进行全连接后，在最后的SoftMax层得到每一种标签的概率，即在区间[0，1]中的实值；本实施例中采用人物标签、食物标签、动物标签、建筑物标签、交通工具标签、其他标签，共6种类型，即6个数据，这6个数据的和等于1；然后，将得到的每个样本图像的标签的概率进行平均，得到待识别图像标签的概率，选择概率最大的标签作为该图像的主体对象的标签。

上述说明示出并描述了本发明的优选实施例，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种图像主体对象的识别方法，其特征在于，包括以下步骤：

10.接收待识别图像；

30.计算包含所述的显著性区域的最大矩形区域；

2.根据权利要求1所述的一种图像主体对象的识别方法，其特征在于：所述的步骤20中对待识别图像进行图像显著性检测进一步包括：

3.根据权利要求1或2所述的一种图像主体对象的识别方法，其特征在于：所述的步骤20中对待识别图像进行图像显著性检测后生成显著图，用白色和黑色对该显著图进行标记以获取图像的显著性区域，其中，白色表示图像中显著的区域，黑色表示图像中不显著的区域。

4.根据权利要求3所述的一种图像主体对象的识别方法，其特征在于：所述的步骤30中计算包含所述的显著性区域的最大矩形区域，主要通过标记法对所述显著图进行连通区域的计算和提取，从而得到最大矩形区域。

5.根据权利要求4所述的一种图像主体对象的识别方法，其特征在于：所述的标记法进一步包括：

31.初始标记值记为1；

6.根据权利要求1所述的一种图像主体对象的识别方法，其特征在于：所述的步骤40中根据所述的最大矩形区域进行卷积神经网络的深度学习，识别得到待识别图像的主体对象，主要是系统预先收集各种类型的主体对象的图像进行分类并标注标签，从而得到带有标签的图像块，并将其作为样本图像输入卷积神经网络进行训练学习。

7.根据权利要求6所述的一种图像主体对象的识别方法，其特征在于：所述的图像主体对象的分类标签包括：人物标签、食物标签、动物标签、建筑物标签、交通工具标签。

8.根据权利要求6所述的一种图像主体对象的识别方法，其特征在于：所述的步骤40中进行卷积神经网络的深度学习，主要是将样本图像输入卷积神经网络进行训练学习，并将分类错误的样本图像收集起来重新进行标注，再将重新标注后的样本图像再次进行训练学习，重复上述过程直到分类正确为止。