CN111428730A - 弱监督细粒度物体分类方法 - Google Patents

弱监督细粒度物体分类方法 Download PDF

Info

Publication number
CN111428730A
CN111428730A CN201910019867.4A CN201910019867A CN111428730A CN 111428730 A CN111428730 A CN 111428730A CN 201910019867 A CN201910019867 A CN 201910019867A CN 111428730 A CN111428730 A CN 111428730A
Authority
CN
China
Prior art keywords
rectangular area
image
input image
classification
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910019867.4A
Other languages
English (en)
Other versions
CN111428730B (zh
Inventor
张勇东
刘传彬
谢洪涛
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Research Institute
University of Science and Technology of China USTC
Original Assignee
Beijing Zhongke Research Institute
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Research Institute, University of Science and Technology of China USTC filed Critical Beijing Zhongke Research Institute
Priority to CN201910019867.4A priority Critical patent/CN111428730B/zh
Publication of CN111428730A publication Critical patent/CN111428730A/zh
Application granted granted Critical
Publication of CN111428730B publication Critical patent/CN111428730B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种弱监督细粒度物体分类方法,包括:采用注意力机制对输入图像进行一系列矩形区域图像的提取,并结合各矩形区域图像的置信度筛选出若干矩形区域图像;采用分类机制对输入图像以及筛选出的若干矩形区域图像进行特征提取,并进行分类预测,最后将各预测结果做集成,得到一个最终预测结果。通过采用上述方法可以显著提升分类精确度。

Description

弱监督细粒度物体分类方法
技术领域
本发明涉及人工智能与计算机视觉技术领域,尤其涉及一种弱监督细粒度物体分类方法。
背景技术
细粒度图像分类又被称作子类别图像分类,是近年来计算机视觉、模式识别等领域一个非常热门的研究课题。其目的是对粗粒度的大类别进行更加细致的子类划分,但由于子类别间细微的类间差异和较大的类内差异,较之普通的图像分类任务,细粒度图像分类难度更大。
细粒度图像分类是一项极具挑战的研究课题,为了达到满意的分类结果,许多现有的分类算法都严重依赖于人工标注信息。借助于标注框能够完成对前景对象的检测,从而排除掉背景噪声的干扰;而局部区域位置则可以用来对一些有用的局部区域进行定位,或者进行姿态对齐等,以实现局部特征的提取。然而,人工标注信息的获取代价十分昂贵,这在很大程度上制约了这些分类算法的实用性。
发明内容
本发明的目的是提供一种弱监督细粒度物体分类方法,可以显著提升分类精确度。
本发明的目的是通过以下技术方案实现的:
一种弱监督细粒度物体分类方法,包括:
采用注意力机制对输入图像进行一系列矩形区域图像的提取,并结合各矩形区域图像的置信度筛选出若干矩形区域图像;
采用分类机制对输入图像以及筛选出的若干矩形区域图像进行特征提取,并进行分类预测,最后将各预测结果做集成,得到一个最终预测结果。
由上述本发明提供的技术方案可以看出,通过注意力机制筛选出有区分性的局部区域,再结合分类机制进行分类预测,无需使用标注信息,仅仅依靠类别标签即可完成图像分类任务,不仅节省成本,还可以显著提升分类精确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种弱监督细粒度物体分类方法的示意图;
图2为本发明实施例提供的注意力机制示意图;
图3为本发明实施例提供的分类机制示意图;
图4为本发明实施例提供的多次随机擦除示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种弱监督细粒度物体分类方法,如图1所示,其主要包括:
1、采用注意力机制对输入图像进行一系列矩形区域图像的提取,并结合各矩形区域图像的置信度筛选出若干矩形区域图像。
本发明实施例中,采用注意力机制进行矩形区域图像的提取之前,将输入图像的尺寸调整为2N*2N(例如,448*448)大小,筛选出若干矩形区域图像后,将每一矩形区域图像尺寸调整为N*N(例如,224*224)大小,提供给分类机制。
如图2所示,本步骤的优选实施方式如下:
1)采用注意力机制中的区域建议网络从尺寸调整后的输入图像中提取一系列(例如,提取了T个)的矩形区域图像{Rt},每一矩形区域图像对应一个置信度{S(Rt)},t=1,...,T。
2)按照置信度从大大小的顺序进行排序,再进行非极大值抑制,(NMS),以剔除重合度较大的低置信度区域,从而筛选出M个矩形区域图像,作为有区分性的局部区域。
筛选出的矩形区域图像记为{Ri},其置信度记为{S(Ri)};分类机制会学习筛选出的每一矩形区域图像的局部特征,并给出相应矩形区域图像被判定为真实类别的概率{P(Ri)},其中,i=1,...,M表示矩形区域图像的序号。
注意力机制提供的每个矩形区域图像的置信度{S(Ri)}和每个矩形区域图像在分类机制中被判定为真实类别的概率{P(Ri)}应是具有正相关性的。即,矩形区域图像的置信度越高,则在分类机制中被判定为真实类别的概率也越高,因此,{S(Ri)}和{P(Ri)}在排序上应具有一致性。
定义注意力机制损失函数为排序损失函数,优化矩形区域图像的置信度与被判定为真实类别的概率,使二者具有相同的顺序;注意力机制损失函数表示为:
Figure BDA0001940400380000031
f(x)=max{1-x,0}。
上式中,r=1,...,M。
2、采用分类机制对输入图像以及筛选出的若干矩形区域图像进行特征提取,并进行分类预测,最后将各预测结果做集成,得到一个最终预测结果。
如图3所示,本步骤的优选实施方式如下:
1)按照置信度大小,从M个矩形区域图像中筛选出前K个矩形区域图像,利用特征提取器分别提取每一个矩形区域图像的特征向量,所提取的特征向量依次通过一个全连接层与softmax层,得到矩形区域图像的预测结果{Pj(Rk)},其中,Pj(Rk)表示第k个矩形区域图像被预测为第j类的概率值。
2)输入图像记为X,采用与矩形区域图像相同的方式进行处理,得到相应的预测结果Pj(X);其中,Pj(X)表示输入图像X被预测为第j类的概率值;
3)为了能够更好的结合输入图片和局部区域的判别效果,将前K个矩形区域图像对应的特征向量,与输入图像的特征向量拼接在一起,得到拼接特征向量C,同样依次通过一个全连接层与softmax层,得到相应的预测结果Pj(C),即拼接特征向量C被预测为第j类的概率值;
4)再将前K个矩形区域图像的预测结果、输入图像的预测结果、以及拼接特征向量C的预测结果集成,得到最终预测结果,其中概率最大值对应的索引index即为预测出的该输入图像的类别:
Figure BDA0001940400380000041
Figure BDA0001940400380000042
本发明实施例中,分类机制的损失函数为M个矩形区域图像、输入图像X和以及拼接特征向量C的分类损失之和,表示为:
Figure BDA0001940400380000043
其中,
Figure BDA0001940400380000045
为损失函数,若采用交叉熵损失函数,则分类机制的损失函数转换为:
Figure BDA0001940400380000044
其中,g代表真实类别的索引,在训练过程中,真实类别的索引是已知的。
最终,联合损失函数Ltotal为注意力机制损失函数Latt和分类机制损失函数Lcls之和,表示为:
Ltotal=Latt+Lcls
本发明实施例上述方案,涉及训练阶段与测试阶段,两个阶段主要过程类似,通过训练阶段不断优化注意力机制与分类机制所涉及的相关参数,优化完毕后进入测试阶段,可直接进行分类预测。
另外,本发明实施例中,在训练阶段还采用多次随机擦除的方式来实现数据增广,每次在输入图像中随机擦除一个随机大小的矩形区域图像,如图4所示,其中的白色矩形框为随机擦除的矩形区域。由于细粒度物体分类依赖于局部有区分性区域的定位和这些区域的特征学习,而多次随机擦除可以随机在图像的局部区域丢弃信息,因此多次随即擦除还可以提高细粒度物体分类在有区分性区域定位和区域特征学习上的鲁棒性,从而提升细粒度物体分类的精确度。
需要说明的是,图1~图4中所涉及的“输入图像”的内容仅为示例,即目前黑白图像形式的“输入图像”并不影响本发明的公开,同时,在实际应用时可以适用于其他内容、其他颜色的图像。
基于本发明实施例上述方案在现有数据集中进行了验证,其中在CUB-200-2011数据集上达到89.44%的精确度,在Stanford Cars数据集上达到94.3%的精确度,在FGVC-Aircraft上达到92.5%的精确度,与现有方法相比,本发明实施例上述方案显著提升了分类精确度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种弱监督细粒度物体分类方法,其特征在于,包括:
采用注意力机制对输入图像进行一系列矩形区域图像的提取,并结合各矩形区域图像的置信度筛选出若干矩形区域图像;
采用分类机制对输入图像以及筛选出的若干矩形区域图像进行特征提取,并进行分类预测,最后将各预测结果做集成,得到一个最终预测结果。
2.根据权利要求1所述的一种弱监督细粒度物体分类方法,其特征在于,所述采用注意力机制对输入图像进行一系列矩形区域图像的提取,并结合各矩形区域图像的置信度筛选出若干矩形区域图像包括:
采用注意力机制中的区域建议网络从尺寸调整后的输入图像中提取一系列的矩形区域图像,每一矩形区域图像对应一个置信度;
按照置信度从大大小的顺序进行排序,再进行非极大值抑制,从而筛选出M个矩形区域图像,作为有区分性的局部区域。
3.根据权利要求2所述的一种弱监督细粒度物体分类方法,其特征在于,
筛选出的矩形区域图像记为{Ri},其置信度记为{S(Ri)};分类机制会学习筛选出的每一矩形区域图像的局部特征,并给出相应矩形区域图像被判定为真实类别的概率{P(Ri)},其中,i=1,...,M表示矩形区域图像的序号;
矩形区域图像的置信度越高,则在分类机制中被判定为真实类别的概率也越高,定义注意力机制损失函数为排序损失函数,优化矩形区域图像的置信度与被判定为真实类别的概率,使二者具有相同的顺序;注意力机制损失函数表示为:
Figure FDA0001940400370000011
f(x)=max{1-x,0}。
4.根据权利要求1或2或3所述的一种弱监督细粒度物体分类方法,其特征在于,采用注意力机制进行矩形区域图像的提取之前,将输入图像的尺寸调整为2N*2N大小,筛选出若干矩形区域图像后,将每一矩形区域图像尺寸调整为N*N大小,提供给分类机制。
5.根据权利要求1所述的一种弱监督细粒度物体分类方法,其特征在于,采用分类机制得到一个最终预测结果的步骤包括:
按照置信度大小,从M个矩形区域图像中筛选出前K个矩形区域图像,利用特征提取器分别提取每一个矩形区域图像的特征向量,所提取的特征向量依次通过一个全连接层与softmax层,得到矩形区域图像的预测结果{Pj(Rk)},其中,Pj(Rk)表示第k个矩形区域图像被预测为第j类的概率值;
输入图像记为X,采用与矩形区域图像相同的方式进行处理,得到相应的预测结果Pj(X);其中,Pj(X)表示输入图像X被预测为第j类的概率值;
将前K个矩形区域图像对应的特征向量,与输入图像的特征向量拼接在一起,得到拼接特征向量C,同样依次通过一个全连接层与softmax层,得到相应的预测结果Pj(C),即拼接特征向量C被预测为第j类的概率值;
再将前K个矩形区域图像的预测结果、输入图像的预测结果、以及拼接特征向量C的预测结果集成,得到最终预测结果,其中概率最大值对应的索引index即为预测出的该输入图像的类别:
Figure FDA0001940400370000021
Figure FDA0001940400370000022
6.根据权利要求5所述的一种弱监督细粒度物体分类方法,其特征在于,分类机制的损失函数为M个矩形区域图像、输入图像X和以及拼接特征向量C的分类损失之和,表示为:
Figure FDA0001940400370000023
其中,
Figure FDA0001940400370000024
为损失函数,若采用交叉熵损失函数,则分类机制的损失函数转换为:
Figure FDA0001940400370000025
其中,g代表真实类别的索引。
7.根据权利要求3或6所述的一种弱监督细粒度物体分类方法,其特征在于,联合损失函数Ltotal为注意力机制损失函数Latt和分类机制损失函数Lcls之和,表示为:
Ltotal=Latt+Lcls
8.根据权利要求1所述的一种弱监督细粒度物体分类方法,其特征在于,该方法还包括:在训练阶段,采用多次随机擦除的方式来实现数据增广,每次在输入图像中随机擦除一个随机大小的矩形区域图像。
CN201910019867.4A 2019-01-09 2019-01-09 弱监督细粒度物体分类方法 Active CN111428730B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910019867.4A CN111428730B (zh) 2019-01-09 2019-01-09 弱监督细粒度物体分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910019867.4A CN111428730B (zh) 2019-01-09 2019-01-09 弱监督细粒度物体分类方法

Publications (2)

Publication Number Publication Date
CN111428730A true CN111428730A (zh) 2020-07-17
CN111428730B CN111428730B (zh) 2022-07-08

Family

ID=71545895

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910019867.4A Active CN111428730B (zh) 2019-01-09 2019-01-09 弱监督细粒度物体分类方法

Country Status (1)

Country Link
CN (1) CN111428730B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689091A (zh) * 2019-10-18 2020-01-14 中国科学技术大学 弱监督细粒度物体分类方法
CN113158740A (zh) * 2021-01-28 2021-07-23 中国科学技术大学 基于记忆机制前景感知建模的弱监督物体定位装置及方法
CN115080748A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于带噪标签学习的弱监督文本分类方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060164409A1 (en) * 2005-01-26 2006-07-27 Borchardt Jonathan M System and method for providing a dynamic user interface for a dense three-dimensional scene
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN108062574A (zh) * 2017-12-31 2018-05-22 厦门大学 一种基于特定类别空间约束的弱监督目标检测方法
CN108510000A (zh) * 2018-03-30 2018-09-07 北京工商大学 复杂场景下行人细粒度属性的检测与识别方法
CN108615028A (zh) * 2018-05-14 2018-10-02 北京主线科技有限公司 港口重型车辆的细粒度检测识别方法
CN108961350A (zh) * 2018-07-17 2018-12-07 北京工业大学 一种基于显著度匹配的画风迁移方法
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和系统
CN109086792A (zh) * 2018-06-26 2018-12-25 上海理工大学 基于检测和识别网络架构的细粒度图像分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060164409A1 (en) * 2005-01-26 2006-07-27 Borchardt Jonathan M System and method for providing a dynamic user interface for a dense three-dimensional scene
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN108062574A (zh) * 2017-12-31 2018-05-22 厦门大学 一种基于特定类别空间约束的弱监督目标检测方法
CN108510000A (zh) * 2018-03-30 2018-09-07 北京工商大学 复杂场景下行人细粒度属性的检测与识别方法
CN108615028A (zh) * 2018-05-14 2018-10-02 北京主线科技有限公司 港口重型车辆的细粒度检测识别方法
CN109086792A (zh) * 2018-06-26 2018-12-25 上海理工大学 基于检测和识别网络架构的细粒度图像分类方法
CN108961350A (zh) * 2018-07-17 2018-12-07 北京工业大学 一种基于显著度匹配的画风迁移方法
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BO ZHAO 等: "Diversfied Visual Attention Networks for Fine-Grained Object Classfication", 《ARXIV:1606.08572V2》 *
JIANLONG FU 等: "Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-grained Image Recognition", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
XIANGTENG HE 等: "Fine-grained Discriminative Localization via Saliency-guided Faster R-CNN", 《ARXIV:1709.08295V1》 *
ZHUN ZHONG 等: "Random Erasing Data Augmentation", 《ARXIV:1708.04896V2》 *
宋凯: "基于鉴别三元组模型和B-CNN模型的细粒度图像识别与分类算法研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689091A (zh) * 2019-10-18 2020-01-14 中国科学技术大学 弱监督细粒度物体分类方法
CN113158740A (zh) * 2021-01-28 2021-07-23 中国科学技术大学 基于记忆机制前景感知建模的弱监督物体定位装置及方法
CN115080748A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于带噪标签学习的弱监督文本分类方法和装置
CN115080748B (zh) * 2022-08-16 2022-11-11 之江实验室 一种基于带噪标签学习的弱监督文本分类方法和装置

Also Published As

Publication number Publication date
CN111428730B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN108229526B (zh) 网络训练、图像处理方法、装置、存储介质和电子设备
Tong et al. Salient object detection via bootstrap learning
CN101828201B (zh) 图像处理装置及方法、学习装置及方法
US8503792B2 (en) Patch description and modeling for image subscene recognition
CN109829467A (zh) 图像标注方法、电子装置及非暂态电脑可读取储存媒体
CN109684922B (zh) 一种基于卷积神经网络的多模型对成品菜的识别方法
CN109657715B (zh) 一种语义分割方法、装置、设备及介质
CN111428730B (zh) 弱监督细粒度物体分类方法
US11055584B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium that perform class identification of an input image using a discriminator that has undergone learning to perform class identification at different granularities
JP2006172437A (ja) データのストリームにおけるセグメント境界の位置の決定方法、データサブセットを近隣のデータサブセットと比較してセグメント境界を決定する方法、コンピュータによって実行可能な命令のプログラム、ならびにデータのストリームにおける境界及び非境界を識別するシステム又は装置
CN108647625A (zh) 一种表情识别方法及装置
CN107169417B (zh) 基于多核增强和显著性融合的rgbd图像协同显著性检测方法
CN110689091B (zh) 弱监督细粒度物体分类方法
CN109740572A (zh) 一种基于局部彩色纹理特征的人脸活体检测方法
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
US8503768B2 (en) Shape description and modeling for image subscene recognition
CN109190456B (zh) 基于聚合通道特征和灰度共生矩阵的多特征融合俯视行人检测方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN108710893A (zh) 一种基于特征融合的数字图像相机源模型分类方法
CN113343989B (zh) 一种基于前景选择域自适应的目标检测方法及系统
CN113139896A (zh) 基于超分辨重建的目标检测系统及方法
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及系统
Bappy et al. Real estate image classification
CN113807237B (zh) 活体检测模型的训练、活体检测方法、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant