CN110533068B

CN110533068B - 一种基于分类卷积神经网络的图像对象识别方法

Info

Publication number: CN110533068B
Application number: CN201910660942.5A
Authority: CN
Inventors: 颜成钢; 赵崇宇; 王廷宇; 孙垚棋; 张继勇; 张勇东
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University; Zhejiang Dahua Technology Co Ltd
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2020-07-17
Anticipated expiration: 2039-07-22
Also published as: CN110533068A

Abstract

本发明公开了一种基于分类卷积神经网络的图像对象识别方法。本发明先设计提取图像中对象位置和类别信息的分类卷积神经网络模型，删除最后一次下采样操作和全连接层，增加一层通道数为分类类别数的卷积操作，对新加卷积操作的输出特征进行局部峰值搜索，然后经过滤波得到特征图中各个通道上的峰值点，求出各通道峰值点的均值并作为类别预测分数；接着在分类数据集上进行训练，使得设计的分类网络中的参数不断得到更新学习；最后用训练完的模型进行测试，利用最后一层卷积层输出的特征和分类网络预测的类别来获得图像中对象的位置和类别信息。本发明使用标注成本较低的分类数据集且训练成本较低，便能预测出图像中对象显著性的位置和类别信息。

Description

一种基于分类卷积神经网络的图像对象识别方法

技术领域

本发明涉及计算机视觉领域，尤其针对图像处理方面，具体涉及一种基于分类卷积神经网络的图像对象识别方法。

背景技术

近年来，深度学习(尤其是卷积神经网络)在图像分类、目标检测、图像语义分割等领域取得了一系列突破性的研究成果，其强大的特征学习与分类能力引起了广泛的关注。图像特征的提取与分类一直是计算机视觉领域的一个基础而重要的研究方向。卷积神经网络提供了一种端到端的学习模型，模型中的参数可以通过传统的梯度下降方法进行训练，经过训练的卷积神经网络能够学习图像中的特征，并且完成对图像特征的提取和分类。作为神经网络领域的一个重要研究分支，卷积神经网络的特点在于其每一层的特征都由上一层的局部区域特征融合得到。这一特点使得卷积神经网络相比于其他神经网络和传统方法更适合应用于图像特征的学习与表达。

图像分类一直是计算机视觉领域中重要的研究方向，它需要对已给图像做出所属类别的判断。基于卷积神经网络的图像分类方法对实际复杂的图像，如存在对象的姿态、形变、角度变化和图像的光强度、背景等干扰，相比基于特征描述和检测的传统方法能取得更好地分类性能。然而，相比图像目标检测、图像语义分割等研究任务，图像分类给出了较少的图像信息，即仅仅图像所属类别信息。我们知道卷积神经网络基于卷积核滑动来学习特征，这一特性说明卷积核特征学习过程中保留了图像特征的空间位置信息，使得基于卷积神经网络的图像分类网络能够获得图像中对象的位置信息和类别信息。相比于基于卷积神经网络的图像目标检测和图像分割方法仅有有限的人工标注数据和需要巨大的训练成本，通过已有非常成熟和较高分类性能的卷积神经网络图像分类方法来提供图像中对象的位置和类别信息，可以作为图像目标检测和分割方法的辅助信息来提高性能。

发明内容

本发明提出一种基于分类卷积神经网络的图像对象识别方法。根据卷积神经网路中卷积操作能保留图像中对象位置信息这一特点，通过设计一个分类卷积神经网络，从网络的中间层特征中提取对象位置和类别信息。

本发明的方法是先设计提取图像中对象位置和类别信息的分类卷积神经网络模型，即选取常用的分类网络作为主框架，删除最后一次下采样操作和全连接层，增加一层通道数为分类类别数的卷积操作，对新加卷积操作的输出特征进行局部峰值搜索，然后经过滤波得到特征图中各个通道上的峰值点，求出各通道峰值点的均值并作为类别预测分数；接着在分类数据集上进行训练，使得设计的分类网络中的参数不断得到更新学习；最后用训练完的模型进行测试，利用最后一层卷积层输出的特征和分类网络预测的类别来获得图像中对象的位置和类别信息。具体包括以下步骤：

步骤(1)设计提取图像中对象位置和类别信息的分类卷积神经网络模型：

1-1.从常用的分类卷积神经网络中选取一个模型(如VGG系列或ResNet系列)，作为新分类模型的主要框架；

1-2.删除最后一次下采样操作，使得输出的特征有更高的分辨率；

1-3.删除最后面的全连接层，使得特征保留图像的空间信息；

1-4.在经过步骤1-3处理后的网络后面加一层卷积层，该卷积操作输出特征的通道与分类标签一一对应；

1-5.对步骤1-4的输出特征中每一个通道进行滤波，选取出每一通道内局部峰值点，并将每一通道内筛选出的峰值点的均值作为最后分类类别的概率打分值。

步骤(2)在指定的多标签图像数据集上，对设计的新分类网络参数进行多标签训练，使得预测结果不断接近真实标签。

步骤(3)对训练完的新分类网络，输入一张图像，提取出最后一层卷积输出的特征和预测的多分类结果，将特征用双线性插值的方法放大到原图大小，选择预测存在类别的通道，这些类别通道将提供对象显著区域的位置信息。即对存在的某一类别，该类别特征通道会以峰值的形式描述了该类别对象显著区域的位置，从而描述了不同对象位置和类别信息

本发明的有益效果是：

本发明所述的方法设计了一个新的分类卷积神经网络模型，相比用目标检测等复杂网络模型获得图像中对象位置和类别信息，本发明设计的分类网络使用标注成本较低的分类数据集且训练成本较低，便能预测出图像中对象显著性的位置和类别信息。并且该得到对象位置和类别信息的设计方法普遍适用于不同的分类网络。

附图说明

图1为设计的分类卷积神经网络的网络结构图

图2为测试图像通过网络后得到的不同对象位置和标签识别图

具体实施方式

以下结合附图及实施例，对本发明进行进一步的详细说明。

本发明设计了一个新的分类卷积神经网络模型，如图1所示。使用PASCAL VOC2012图像数据集作为设计分类网络的训练集和测试集，该数据集有20个物体类别。设计的分类网络以常用的ResNet50分类网络作为主要框架，删除最全局平均池化层和后一层全连接层，再在删除后的网络后面加上一层卷积核为3x3、输出通道数为20的卷积层，最后对卷积层输出的每个类别通道特征局部峰值点进行滤波和均值融合，最终得到分类网络预测的多标签分类打分概率。

本发明所述方法包括以下步骤：

步骤(1)设计包含图像中对象位置和类别信息特征的分类卷积神经网络模型

a)从常用的分类卷积神经网络中选取ResNet50分类模型作为将要设计分类模型的主要框架，并将ResNet50在超大分类数据集ImageNet上训练完的参数值迁移过来作为设计网络的预训练参数；

b)删除ResNet50分类网络中最后面的全局平均池化层，使得输出的特征有更高的分辨率，从而可以得到更精确的对象位置信息；

c)删除ResNet50分类网络中最后一层全连接层，使得网络特征在向前预测时一直保留对象位置信息；

d)再在删除修改后的网络后面加上一层步长为1、卷积核为3x3和输出通道数为20的卷积层，该卷积操作输出特征的通道数量等于数据集分类标签数量，让该卷积网络输出的通道与分类标签一一对应，从而在各个类别通道内推导出图像中对象显著性位置；

e)对上面卷积输出特征图用3x3大小的窗口在每一个通道上进行扫描，找到所有局部峰值点。再筛选出每一通道内所有大于通道特征中位数和固定阈值的局部峰值点，然后求出每一通道内被筛选出的峰值点的均值作为最后预测分类20个类别的概率打分值。其中，使用3x3大小、步长为1的最大池化操作寻找局部峰值点；设定的阈值大小为30。

步骤(2)在指定的PASCAL VOC2012多标签图像数据集上，对设计的新网络参数进行多标签训练，使用Sigmoid操作的多标签损失函数作为训练指标，使得预测的分类结果不断接近真实标签。

步骤(3)对训练完的分类网络，输入一张图像，提取出最后一层卷积输出的特征图和预测的多分类概率打分值，用预测的类别挑选出对应类别通道的特征图，再将特征图用双线性插值的方法放大到原图大小。对存在的某一类别，该类别特征通道会以峰值的形式描述了该类别对象显著区域的位置，从而描述了不同对象位置和类别信息，如图2所示。

Claims

1.一种基于分类卷积神经网络的图像对象识别方法，其特征在于先设计提取图像中对象位置和类别信息的分类卷积神经网络模型，即选取常用的分类网络作为主框架，删除最后一次下采样操作和全连接层，增加一层通道数为分类类别数的卷积操作，对新加卷积操作的输出特征进行局部峰值搜索，然后经过滤波得到特征图中各个通道上的峰值点，求出各通道峰值点的均值并作为类别预测分数；接着在分类数据集上进行训练，使得设计的分类网络中的参数不断得到更新学习；最后用训练完的模型进行测试，利用最后一层卷积层输出的特征和分类网络预测的类别来获得图像中对象的位置和类别信息。

2.根据权利要求1所述的一种基于分类卷积神经网络的图像对象识别方法，其特征在于具体包括以下步骤：

1-1.从常用的分类卷积神经网络中选取ResNet50分类模型作为将要设计分类模型的主要框架，并将ResNet50在超大分类数据集ImageNet上训练完的参数值迁移过来作为设计网络的预训练参数；

1-2.删除ResNet50分类网络中最后面的全局平均池化层，使得输出的特征有更高的分辨率，从而得到更精确的对象位置信息；

1-3.删除ResNet50分类网络中最后一层全连接层，使得网络特征在向前预测时一直保留对象位置信息；

1-4.再在删除修改后的网络后面加上一层步长为1、卷积核为3x3和输出通道数为20的卷积层，该卷积操作输出特征的通道数量等于数据集分类标签数量，让该卷积神经网络输出的通道与分类标签一一对应，从而在各个类别通道内推导出图像中对象显著性位置；

1-5.对步骤1-4的输出特征中每一个通道进行滤波，选取出每一通道内局部峰值点，并将每一通道内筛选出的峰值点的均值作为最后分类类别的概率打分值；具体对输出特征用3x3大小的窗口在每一个通道上进行扫描，找到所有局部峰值点；再筛选出每一通道内所有大于通道特征中位数和固定阈值的局部峰值点，然后求出每一通道内被筛选出的峰值点的均值作为最后预测分类20个类别的概率打分值；其中，使用3x3大小、步长为1的最大池化操作寻找局部峰值点；设定的阈值大小为30；

步骤(2)在指定的PASCAL VOC2012多标签图像数据集上，对设计的新网络参数进行多标签训练，使用Sigmoid操作的多标签损失函数作为训练指标，使得预测的分类结果不断接近真实标签；

步骤(3)对训练完的新分类网络，输入一张图像，提取出最后一层卷积输出的特征和预测的多分类结果，将特征用双线性插值的方法放大到原图大小，选择预测存在类别的通道，这些类别通道将提供对象显著区域的位置信息；即对存在的某一类别，所对应的类别特征通道会以峰值的形式描述该类别对象显著区域的位置，从而描述了不同对象位置和类别信息。