CN110533068B - 一种基于分类卷积神经网络的图像对象识别方法 - Google Patents

一种基于分类卷积神经网络的图像对象识别方法 Download PDF

Info

Publication number
CN110533068B
CN110533068B CN201910660942.5A CN201910660942A CN110533068B CN 110533068 B CN110533068 B CN 110533068B CN 201910660942 A CN201910660942 A CN 201910660942A CN 110533068 B CN110533068 B CN 110533068B
Authority
CN
China
Prior art keywords
classification
image
network
channel
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910660942.5A
Other languages
English (en)
Other versions
CN110533068A (zh
Inventor
颜成钢
赵崇宇
王廷宇
孙垚棋
张继勇
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Zhejiang Dahua Technology Co Ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910660942.5A priority Critical patent/CN110533068B/zh
Publication of CN110533068A publication Critical patent/CN110533068A/zh
Application granted granted Critical
Publication of CN110533068B publication Critical patent/CN110533068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Abstract

本发明公开了一种基于分类卷积神经网络的图像对象识别方法。本发明先设计提取图像中对象位置和类别信息的分类卷积神经网络模型,删除最后一次下采样操作和全连接层,增加一层通道数为分类类别数的卷积操作,对新加卷积操作的输出特征进行局部峰值搜索,然后经过滤波得到特征图中各个通道上的峰值点,求出各通道峰值点的均值并作为类别预测分数;接着在分类数据集上进行训练,使得设计的分类网络中的参数不断得到更新学习;最后用训练完的模型进行测试,利用最后一层卷积层输出的特征和分类网络预测的类别来获得图像中对象的位置和类别信息。本发明使用标注成本较低的分类数据集且训练成本较低,便能预测出图像中对象显著性的位置和类别信息。

Description

一种基于分类卷积神经网络的图像对象识别方法
技术领域
本发明涉及计算机视觉领域,尤其针对图像处理方面,具体涉及一种基于分类卷积神经网络的图像对象识别方法。
背景技术
近年来,深度学习(尤其是卷积神经网络)在图像分类、目标检测、图像语义分割等领域取得了一系列突破性的研究成果,其强大的特征学习与分类能力引起了广泛的关注。图像特征的提取与分类一直是计算机视觉领域的一个基础而重要的研究方向。卷积神经网络提供了一种端到端的学习模型,模型中的参数可以通过传统的梯度下降方法进行训练,经过训练的卷积神经网络能够学习图像中的特征,并且完成对图像特征的提取和分类。作为神经网络领域的一个重要研究分支,卷积神经网络的特点在于其每一层的特征都由上一层的局部区域特征融合得到。这一特点使得卷积神经网络相比于其他神经网络和传统方法更适合应用于图像特征的学习与表达。
图像分类一直是计算机视觉领域中重要的研究方向,它需要对已给图像做出所属类别的判断。基于卷积神经网络的图像分类方法对实际复杂的图像,如存在对象的姿态、形变、角度变化和图像的光强度、背景等干扰,相比基于特征描述和检测的传统方法能取得更好地分类性能。然而,相比图像目标检测、图像语义分割等研究任务,图像分类给出了较少的图像信息,即仅仅图像所属类别信息。我们知道卷积神经网络基于卷积核滑动来学习特征,这一特性说明卷积核特征学习过程中保留了图像特征的空间位置信息,使得基于卷积神经网络的图像分类网络能够获得图像中对象的位置信息和类别信息。相比于基于卷积神经网络的图像目标检测和图像分割方法仅有有限的人工标注数据和需要巨大的训练成本,通过已有非常成熟和较高分类性能的卷积神经网络图像分类方法来提供图像中对象的位置和类别信息,可以作为图像目标检测和分割方法的辅助信息来提高性能。
发明内容
本发明提出一种基于分类卷积神经网络的图像对象识别方法。根据卷积神经网路中卷积操作能保留图像中对象位置信息这一特点,通过设计一个分类卷积神经网络,从网络的中间层特征中提取对象位置和类别信息。
本发明的方法是先设计提取图像中对象位置和类别信息的分类卷积神经网络模型,即选取常用的分类网络作为主框架,删除最后一次下采样操作和全连接层,增加一层通道数为分类类别数的卷积操作,对新加卷积操作的输出特征进行局部峰值搜索,然后经过滤波得到特征图中各个通道上的峰值点,求出各通道峰值点的均值并作为类别预测分数;接着在分类数据集上进行训练,使得设计的分类网络中的参数不断得到更新学习;最后用训练完的模型进行测试,利用最后一层卷积层输出的特征和分类网络预测的类别来获得图像中对象的位置和类别信息。具体包括以下步骤:
步骤(1)设计提取图像中对象位置和类别信息的分类卷积神经网络模型:
1-1.从常用的分类卷积神经网络中选取一个模型(如VGG系列或ResNet系列),作为新分类模型的主要框架;
1-2.删除最后一次下采样操作,使得输出的特征有更高的分辨率;
1-3.删除最后面的全连接层,使得特征保留图像的空间信息;
1-4.在经过步骤1-3处理后的网络后面加一层卷积层,该卷积操作输出特征的通道与分类标签一一对应;
1-5.对步骤1-4的输出特征中每一个通道进行滤波,选取出每一通道内局部峰值点,并将每一通道内筛选出的峰值点的均值作为最后分类类别的概率打分值。
步骤(2)在指定的多标签图像数据集上,对设计的新分类网络参数进行多标签训练,使得预测结果不断接近真实标签。
步骤(3)对训练完的新分类网络,输入一张图像,提取出最后一层卷积输出的特征和预测的多分类结果,将特征用双线性插值的方法放大到原图大小,选择预测存在类别的通道,这些类别通道将提供对象显著区域的位置信息。即对存在的某一类别,该类别特征通道会以峰值的形式描述了该类别对象显著区域的位置,从而描述了不同对象位置和类别信息
本发明的有益效果是:
本发明所述的方法设计了一个新的分类卷积神经网络模型,相比用目标检测等复杂网络模型获得图像中对象位置和类别信息,本发明设计的分类网络使用标注成本较低的分类数据集且训练成本较低,便能预测出图像中对象显著性的位置和类别信息。并且该得到对象位置和类别信息的设计方法普遍适用于不同的分类网络。
附图说明
图1为设计的分类卷积神经网络的网络结构图
图2为测试图像通过网络后得到的不同对象位置和标签识别图
具体实施方式
以下结合附图及实施例,对本发明进行进一步的详细说明。
本发明设计了一个新的分类卷积神经网络模型,如图1所示。使用PASCAL VOC2012图像数据集作为设计分类网络的训练集和测试集,该数据集有20个物体类别。设计的分类网络以常用的ResNet50分类网络作为主要框架,删除最全局平均池化层和后一层全连接层,再在删除后的网络后面加上一层卷积核为3x3、输出通道数为20的卷积层,最后对卷积层输出的每个类别通道特征局部峰值点进行滤波和均值融合,最终得到分类网络预测的多标签分类打分概率。
本发明所述方法包括以下步骤:
步骤(1)设计包含图像中对象位置和类别信息特征的分类卷积神经网络模型
a)从常用的分类卷积神经网络中选取ResNet50分类模型作为将要设计分类模型的主要框架,并将ResNet50在超大分类数据集ImageNet上训练完的参数值迁移过来作为设计网络的预训练参数;
b)删除ResNet50分类网络中最后面的全局平均池化层,使得输出的特征有更高的分辨率,从而可以得到更精确的对象位置信息;
c)删除ResNet50分类网络中最后一层全连接层,使得网络特征在向前预测时一直保留对象位置信息;
d)再在删除修改后的网络后面加上一层步长为1、卷积核为3x3和输出通道数为20的卷积层,该卷积操作输出特征的通道数量等于数据集分类标签数量,让该卷积网络输出的通道与分类标签一一对应,从而在各个类别通道内推导出图像中对象显著性位置;
e)对上面卷积输出特征图用3x3大小的窗口在每一个通道上进行扫描,找到所有局部峰值点。再筛选出每一通道内所有大于通道特征中位数和固定阈值的局部峰值点,然后求出每一通道内被筛选出的峰值点的均值作为最后预测分类20个类别的概率打分值。其中,使用3x3大小、步长为1的最大池化操作寻找局部峰值点;设定的阈值大小为30。
步骤(2)在指定的PASCAL VOC2012多标签图像数据集上,对设计的新网络参数进行多标签训练,使用Sigmoid操作的多标签损失函数作为训练指标,使得预测的分类结果不断接近真实标签。
步骤(3)对训练完的分类网络,输入一张图像,提取出最后一层卷积输出的特征图和预测的多分类概率打分值,用预测的类别挑选出对应类别通道的特征图,再将特征图用双线性插值的方法放大到原图大小。对存在的某一类别,该类别特征通道会以峰值的形式描述了该类别对象显著区域的位置,从而描述了不同对象位置和类别信息,如图2所示。

Claims (2)

1.一种基于分类卷积神经网络的图像对象识别方法,其特征在于先设计提取图像中对象位置和类别信息的分类卷积神经网络模型,即选取常用的分类网络作为主框架,删除最后一次下采样操作和全连接层,增加一层通道数为分类类别数的卷积操作,对新加卷积操作的输出特征进行局部峰值搜索,然后经过滤波得到特征图中各个通道上的峰值点,求出各通道峰值点的均值并作为类别预测分数;接着在分类数据集上进行训练,使得设计的分类网络中的参数不断得到更新学习;最后用训练完的模型进行测试,利用最后一层卷积层输出的特征和分类网络预测的类别来获得图像中对象的位置和类别信息。
2.根据权利要求1所述的一种基于分类卷积神经网络的图像对象识别方法,其特征在于具体包括以下步骤:
步骤(1)设计提取图像中对象位置和类别信息的分类卷积神经网络模型:
1-1.从常用的分类卷积神经网络中选取ResNet50分类模型作为将要设计分类模型的主要框架,并将ResNet50在超大分类数据集ImageNet上训练完的参数值迁移过来作为设计网络的预训练参数;
1-2.删除ResNet50分类网络中最后面的全局平均池化层,使得输出的特征有更高的分辨率,从而得到更精确的对象位置信息;
1-3.删除ResNet50分类网络中最后一层全连接层,使得网络特征在向前预测时一直保留对象位置信息;
1-4.再在删除修改后的网络后面加上一层步长为1、卷积核为3x3和输出通道数为20的卷积层,该卷积操作输出特征的通道数量等于数据集分类标签数量,让该卷积神经网络输出的通道与分类标签一一对应,从而在各个类别通道内推导出图像中对象显著性位置;
1-5.对步骤1-4的输出特征中每一个通道进行滤波,选取出每一通道内局部峰值点,并将每一通道内筛选出的峰值点的均值作为最后分类类别的概率打分值;具体对输出特征用3x3大小的窗口在每一个通道上进行扫描,找到所有局部峰值点;再筛选出每一通道内所有大于通道特征中位数和固定阈值的局部峰值点,然后求出每一通道内被筛选出的峰值点的均值作为最后预测分类20个类别的概率打分值;其中,使用3x3大小、步长为1的最大池化操作寻找局部峰值点;设定的阈值大小为30;
步骤(2)在指定的PASCAL VOC2012多标签图像数据集上,对设计的新网络参数进行多标签训练,使用Sigmoid操作的多标签损失函数作为训练指标,使得预测的分类结果不断接近真实标签;
步骤(3)对训练完的新分类网络,输入一张图像,提取出最后一层卷积输出的特征和预测的多分类结果,将特征用双线性插值的方法放大到原图大小,选择预测存在类别的通道,这些类别通道将提供对象显著区域的位置信息;即对存在的某一类别,所对应的类别特征通道会以峰值的形式描述该类别对象显著区域的位置,从而描述了不同对象位置和类别信息。
CN201910660942.5A 2019-07-22 2019-07-22 一种基于分类卷积神经网络的图像对象识别方法 Active CN110533068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910660942.5A CN110533068B (zh) 2019-07-22 2019-07-22 一种基于分类卷积神经网络的图像对象识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910660942.5A CN110533068B (zh) 2019-07-22 2019-07-22 一种基于分类卷积神经网络的图像对象识别方法

Publications (2)

Publication Number Publication Date
CN110533068A CN110533068A (zh) 2019-12-03
CN110533068B true CN110533068B (zh) 2020-07-17

Family

ID=68661681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910660942.5A Active CN110533068B (zh) 2019-07-22 2019-07-22 一种基于分类卷积神经网络的图像对象识别方法

Country Status (1)

Country Link
CN (1) CN110533068B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114902240A (zh) * 2020-03-09 2022-08-12 华为技术有限公司 神经网络通道数搜索方法和装置
CN111428689B (zh) * 2020-04-20 2022-07-01 重庆邮电大学 一种多池化信息融合的人脸图像特征提取方法
CN116227685B (zh) * 2023-01-31 2023-09-22 南京林业大学 低成本的智能油茶果产量估计方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364281A (zh) * 2018-01-08 2018-08-03 佛山市顺德区中山大学研究院 一种基于卷积神经网络的织带边缘毛疵缺陷检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311342B1 (en) * 2016-04-14 2019-06-04 XNOR.ai, Inc. System and methods for efficiently implementing a convolutional neural network incorporating binarized filter and convolution operation for performing image classification
CN107330446B (zh) * 2017-06-05 2020-08-04 浙江工业大学 一种面向图像分类的深度卷积神经网络的优化方法
CN109284670B (zh) * 2018-08-01 2020-09-25 清华大学 一种基于多尺度注意力机制的行人检测方法及装置
CN109993095B (zh) * 2019-03-26 2022-12-20 东北大学 一种面向视频目标检测的帧级别特征聚合方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364281A (zh) * 2018-01-08 2018-08-03 佛山市顺德区中山大学研究院 一种基于卷积神经网络的织带边缘毛疵缺陷检测方法

Also Published As

Publication number Publication date
CN110533068A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN109741347B (zh) 一种基于卷积神经网络的迭代学习的图像分割方法
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN109685067B (zh) 一种基于区域和深度残差网络的图像语义分割方法
CN111028217A (zh) 一种基于全卷积神经网络的图像裂缝分割方法
CN112241762B (zh) 一种用于病虫害图像分类的细粒度识别方法
CN110533068B (zh) 一种基于分类卷积神经网络的图像对象识别方法
CN110956185A (zh) 一种图像显著目标的检测方法
CN110263786B (zh) 一种基于特征维度融合的道路多目标识别系统及方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111369572A (zh) 一种基于图像修复技术的弱监督语义分割方法和装置
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
CN113408584A (zh) Rgb-d多模态特征融合3d目标检测方法
CN107609509A (zh) 一种基于运动显著性区域检测的动作识别方法
CN113361533A (zh) 重叠遮挡的目标物的分割识别方法及系统
CN113657414B (zh) 一种物体识别方法
CN113077438B (zh) 针对多细胞核彩色图像的细胞核区域提取方法及成像方法
CN112785610B (zh) 一种融合低层特征的车道线语义分割方法
CN114445620A (zh) 一种改进Mask R-CNN的目标分割方法
CN113591850A (zh) 基于计算机视觉鲁棒性目标检测的两阶段商标检测法
CN116883650A (zh) 一种基于注意力和局部拼接的图像级弱监督语义分割方法
CN111612803A (zh) 一种基于图像清晰度的车辆图像语义分割方法
CN116433721A (zh) 一种基于生成伪融合特征的室外rgb-t目标跟踪算法
Rao et al. Roads detection of aerial image with FCN-CRF model
CN115631186A (zh) 一种基于双分支神经网络的工业元件表面缺陷检测方法
Swetha et al. Visual Weather Analytics-Leveraging Image Recognition for Weather Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Yan Chenggang

Inventor after: Wang Yayun

Inventor after: Sun Yaoqi

Inventor after: Gao Yuhan

Inventor after: Zhu Zunjie

Inventor after: Zhao Chongyu

Inventor after: Zhang Yongdong

Inventor after: Zhang Jiyong

Inventor after: Yin Jun

Inventor after: Yan Yong

Inventor after: Wang Hongbo

Inventor after: Hu Ji

Inventor after: Jin Heng

Inventor after: Xiong Jianping

Inventor after: Wu Li

Inventor after: Wang Tingyu

Inventor before: Yan Chenggang

Inventor before: Zhao Chongyu

Inventor before: Wang Tingyu

Inventor before: Sun Yaoqi

Inventor before: Zhang Jiyong

Inventor before: Zhang Yongdong

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220929

Address after: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang

Patentee after: HANGZHOU DIANZI University

Patentee after: ZHEJIANG DAHUA TECHNOLOGY Co.,Ltd.

Address before: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang

Patentee before: HANGZHOU DIANZI University