CN111738355A - 注意力融合互信息的图像分类方法、装置及存储介质 - Google Patents

注意力融合互信息的图像分类方法、装置及存储介质 Download PDF

Info

Publication number
CN111738355A
CN111738355A CN202010710654.9A CN202010710654A CN111738355A CN 111738355 A CN111738355 A CN 111738355A CN 202010710654 A CN202010710654 A CN 202010710654A CN 111738355 A CN111738355 A CN 111738355A
Authority
CN
China
Prior art keywords
attention
input image
feature
classification
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010710654.9A
Other languages
English (en)
Other versions
CN111738355B (zh
Inventor
李硕豪
王风雷
张军
张萌萌
雷军
何华
谭真
蒋林承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010710654.9A priority Critical patent/CN111738355B/zh
Publication of CN111738355A publication Critical patent/CN111738355A/zh
Application granted granted Critical
Publication of CN111738355B publication Critical patent/CN111738355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一注意力融合互信息的图像分类方法、装置及存储介质,在所述图像分类方法中,我们将注意力分类网络与最大化互信息的聚类网络集成在一起构成所述图像分类网络,以提高分类网络的性能和获得良好的特性,在所述分类网络中,所述注意力分类网络用作提取区分零件特征的过滤器,所述聚类模块充当半监督学习指导,并利用语义相似性内部类来提高分类性能,此外所述分类网络可以使用没有任何类别标签的数据训练网络,适应于数据集比较小的图像细粒度分类以及有利于提高分类的准确性。

Description

注意力融合互信息的图像分类方法、装置及存储介质
技术领域
本发明属于计算机图像识别技术领域,具体是涉及一种注意力融合互信息的图像分类方法、装置及存储介质。
背景技术
随着深度学习的发展,细粒度的图像分类备受关注。但是,这仍然是一个非常具有挑战性的问题,因为相同子类别中的对象可能呈现较大的外观变化,而来自不同子类别的对象可能呈现出更多相似的外观。图像分类中的传统问题,例如比例尺和视角的变化,复杂的背景和遮挡,由于标记细粒图像的成本大幅增加而变得更加难以处理。相比于通用的图像分类任务,细粒度图像分类拥有的数据集非常少。
一个好的模型应该能够发现并代表子类别中的细微视觉差异。为了获得目标局部特征表示,许多作品都引用了人工标注的边界框。由于大量的人力投入使部件的定义和标注既昂贵又主观,因此使用分类标签学习弱监督部件模型的方法取得了重大进展。这些方法通常由两个阶段组成,包括局部定位和细粒度特征学习。局部定位阶段旨在找到有判别性的部件,这通常被称为部件注意力学习阶段。研究人员提出作为多注意卷积神经网络(MA-CNN)进行细粒度识别,并在许多细粒度分类数据集中取得可喜的结果。但是,用于训练通道注意模型的监督信息是通过对所有训练数据集的峰值响应进行聚类来进行的,这会受到图像中对象的某些特定模式的频率影响。
发明内容
有鉴于此,本发明提供了一种注意力融合互信息的图像分类方法、装置及存储介质,以解决现有技术提供的分类网络准确性不高以及需要较多数据集的问题。
一种注意力融合互信息的图像分类方法,包括:
获取属于同一类别的第一输入图像和第二输入图像,
将所述第一输入图像和第二输入图像输入至训练好的注意力融合互信息的图像分类网络中,
分别提取所述第一输入图像和第二输入图像的全局特征,并将所述第一输入图像的第一全局特征和所述第二输入图像的第二全局特征转换为与类标签对应的第一语义概率和第二语义概率,
提取所述第一输入图像的第一局部特征,并根据所述第一全局特征和所述第一局部特征估计所述所述第一局部特征的注意力图,并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
将所述加权特征输入至线性分类器中进行分类,并获取所述线性分类器的交叉熵损失,
根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取不变信息聚类损失,
根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络,以进行所述第一输入图像的分类预测。
优选地,还包括构建注意力融合互信息的图像分类网络,所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络,根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络的步骤包括:
在获取所述交叉熵损失后,将所述交叉熵损失反向传播至所述注意力分类网络中,以训练所述注意力分类网络,
在获取所述不变信息聚类损失后,将所述不变信息聚类损失反向传播至所述聚类网络中,以训练所述聚类网络。
优选地,根据所述第一输入图像获取所述第二输入图像,所述第一输入图像为待分类图像,所述第二输入图像为所述第一输入图像通过随机扰动转换后获得的图片,
所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种。
优选地,根据所述第一全局特征和所述第一输入图像的第一局部特征获取所述所述第一局部特征的注意力度, 并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征的步骤包括:
采用加法运算使所述第一局部特征中的每个像素位置的局部特征向量
Figure 86482DEST_PATH_IMAGE001
和全局特征
Figure 874309DEST_PATH_IMAGE002
组合在一起,然后学习从结果描述符到兼容性评分的单个全连接层映射,以定义兼容性评分函数
Figure 855035DEST_PATH_IMAGE003
,使得
Figure 742219DEST_PATH_IMAGE004
,其中,
Figure 565819DEST_PATH_IMAGE005
对所述兼容性评分函数
Figure 829441DEST_PATH_IMAGE003
进行归一化,以获得所述注意力图
Figure 789307DEST_PATH_IMAGE006
,所述注意力图
Figure 112972DEST_PATH_IMAGE007
中的第
Figure 689447DEST_PATH_IMAGE008
个元素为
Figure 491181DEST_PATH_IMAGE009
,其中,
Figure 305553DEST_PATH_IMAGE010
使所述注意力图
Figure 800119DEST_PATH_IMAGE011
对所述第一局部特征中的每个像素位置的局部特征向量
Figure 270415DEST_PATH_IMAGE001
进行加权,以获得所述注意力加权特征
Figure 473DEST_PATH_IMAGE012
,其中,
Figure 810298DEST_PATH_IMAGE013
所述全局特征的特征向量为
Figure 334820DEST_PATH_IMAGE002
,所述第一局部特征的局部特征向量为
Figure 495674DEST_PATH_IMAGE014
Figure 435948DEST_PATH_IMAGE015
,所述
Figure 490492DEST_PATH_IMAGE001
为所述第一局部特征向量中的第
Figure 202227DEST_PATH_IMAGE008
个局部激活向量,
Figure 709432DEST_PATH_IMAGE016
为学习与所述第一输入图象类别相关的权重向量。
优选地,使所述分类网络和聚类网络共享相同的特征提取参数。
一种注意力融合互信息的图像分类装置,其特征在于,包括:CNN模块、不变信息聚类模块、注意力估算模块、注意力加权模块、线性分类器,
所述CNN模块为双输入CNN模块,以分别接收属于同一类别的第一输入图像和第二输入图像,用于提取所述第一输入图像和第二输入图像的全局特征和第一输入图像的第一局部特征,
所述注意力估算模块用于根据所述第一全局特征和所述第一全局特征获取所述所述第一局部特征的注意力图,
所述注意力加权模块通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
所述线性分类器根据所述注意力加权特征进行所述第一输入图像的分类,并获取交叉熵损失,
所述不变信息聚类模块根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取聚类网络的不变息聚类损失,
其中,所述注意力融合互信息的图像分类网络根据所述交叉熵损失和所述不变信息聚类损失进行训练,以对所述第一输入图像进行分类预测,
所述CNN模块、所述注意力估计模块、所述注意力加权模块和所述线性分类器构成所述注意力分类网络,所述CNN模块和所述不变信息聚类模块构成所述聚类网络。
优选地,所述的图像分类装置还包括所述第二输入图像获取模块,用于将所述第一输入图像进行随机扰动转换,以获得所述第二输入图像,所述第一输入图像为待分类图像,
所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种,
优选地,所述CNN模块包括第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层,所述图像分类网络还包括第三完全卷积层,
所述第一卷积层用于接收所述第一输入图像和第二输入图像,以将从所述第一输入图像和第二输入图像中提取的特征输入至所述第二卷积层,所述第二卷积层输出所述第一输入图像的第一局部特征,所述第三卷积层与所述第二卷积层的输出相连,以将所述第二卷积层输出的特征转换后传输至所述第一完全卷积层,所述第一完全卷积层分别输出所述第一全局特征和第二全局特征,
所述第二完全卷积根据所述第一全局特征和第二全局特征转换为与类标签对应的第一语义概率和第二语义概率,
所述第三完全卷积层用将所述注意力加权特征换成成相对于所述注意力加权特征更抽象的特征后再传输至所述线性分类器中分类。
优选地,所述注意力图
Figure 984555DEST_PATH_IMAGE011
的计算公式为:
Figure 503392DEST_PATH_IMAGE017
所述注意力加权特征
Figure 245083DEST_PATH_IMAGE012
的计算公式为:
Figure 194296DEST_PATH_IMAGE018
所述全局特征的特征向量为
Figure 538690DEST_PATH_IMAGE002
,所述第一局部特征的局部特征向量为
Figure 239930DEST_PATH_IMAGE014
Figure 152522DEST_PATH_IMAGE019
,所述
Figure 40844DEST_PATH_IMAGE001
为所述第一局部特征向量中的第
Figure 126611DEST_PATH_IMAGE020
个局部激活向量,
Figure 10254DEST_PATH_IMAGE021
为学习与对象类别相关的权重向量,
Figure 359326DEST_PATH_IMAGE003
为兼容性评分函数,
Figure 531682DEST_PATH_IMAGE022
,以及
Figure 483457DEST_PATH_IMAGE023
一种计算机可读存储介质,其特征在于,所述可读存储介质上存储的计算机程序被处理器执行时实现如上述任意一项所述图像分类方法。
本发明的有益效果为:本发明提供的所述图像分类方法中,我们将注意力分类网络与最大化互信息的聚类网络集成在一起构成分类网络,以提高分类网络的性能和获得良好的特性,在所述分类网络中,所述注意力分类网络用作提取区分零件特征的过滤器,所述聚类模块充当半监督学习指导,并利用语义相似性内部类来提高分类性能,此外所述分类网络可以使用没有任何类别标签的数据训练网络,适应于数据集比较小的图像细粒度分类以及有利于提高分类的准确性。
附图说明
图1为依据本发明提供的注意力融合互信息的图像分类网络框图;
图2为依据本发明提供的所述分类网络的注意力图的可视化图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所产生的所有其他实施例,都属于本发明保护的范围。此外需要说明的是,在具体实施方式这一项内容中“所述…”是仅指本发明的中的技术属于或特征。
在本发明实施例中提供的注意力融合互信息的图像分类方法主要包括以下步骤步骤1至步骤5,但是在依据本发明的其它实施例中,下列各个步骤的先后顺序不局限于本实施例中所示的。
步骤1:获取属于同一类别的第一输入图像和第二输入图像,并将所述第一输入图像和第二输入图像输入至训练好的注意力融合互信息的图像分类网络中。
根据所述第一输入图像获取所述第二输入图像,所述第一输入图像为待分类图像,所述第二输入图像为所述第一输入图像通过随机扰动转换后获得的图片,所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种。
步骤2:分别提取所述第一输入图像和第二输入图像的全局特征,并将所述第一输入图像的第一全局特征和所述第二输入图像的第二全局特征转换为与类标签对应的第一语义概率和第二语义概率。
步骤3:提取所述第一输入图像的第一局部特征,并根据所述第一全局特征和所述第一局部特征估计所述所述第一局部特征的注意力图,并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
步骤4:将所述加权特征输入至线性分类器中进行分类,并获取所述线性分类器的交叉熵损失。
步骤5:根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取不变信息聚类损失,
步骤6:根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络,以进行所述第一输入图像的分类预测。
在进行步骤2之前,还需先构建如图1所示的注意力融合互信息的图像分类网络,所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络,所述注意力类网络和聚类网络共用CNN模块提取二者所需要的特征参数,所述注意力类网络和聚类网络共享相同的特征提取参数。此外,在本发明实施例提供的所述图像分类方法中,在获取所述交叉熵损失后,将所述交叉熵损失反向传播至所述注意力分类网络中,以训练所述注意力分类网络,以及在获取所述不变信息聚类损失后,将所述不变信息聚类损失反向传播至所述聚类网络中,以训练所述聚类网络。而在依据本发明的其它实施例中,也可以先将所述交叉熵损失和不变聚类损失融合后,即将二者进行加权后获得的总损失传播到所述图像分类网络。
如图1所示,所述注意力融合互信息的图像分类网络,其特征在于,包括:CNN模块、不变信息聚类模块、注意力估算模块、注意力加权模块、线性分类器。所述CNN模块为双输入CNN模块,以分别接收属于同一类别的第一输入图像和第二输入图像,用于提取所述第一输入图像和第二输入图像的全局特征和第一输入图像的第一局部特征,所述注意力估算模块用于根据所述第一全局特征和所述第一全局特征获取所述所述第一局部特征的注意力图,所述注意力加权模块通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,所述线性分类器根据所述注意力加权特征进行所述第一输入图像的分类,并获取交叉熵损失,所述不变信息聚类模块根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取聚类网络的不变息聚类损失。其中,所述注意力融合互信息的图像分类网络根据所述交叉熵损失和所述不变信息聚类损失进行训练,以对所述第一输入图像进行分类预测。所述CNN模块、所述注意力估计模块、所述注意力加权模块和所述线性分类器构成所述注意力分类网络,所述CNN模块和所述不变信息聚类模块构成所述聚类网络。所述的图像分类装置还包括所述第二输入图像获取模块(图1中未画出),用于将所述第一输入图
Figure 565814DEST_PATH_IMAGE024
像进行随机扰动转换,以获得所述第二输入图像
Figure 944843DEST_PATH_IMAGE025
,所述第一输入图像为待分类图像,所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种。如图1所示,所述CNN模块包括第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层,所述图像分类网络还包括第三完全卷积层。所述第一卷积层用于接收所述第一输入图像和第二输入图像,以将从所述第一输入图像和第二输入图像中提取的特征输入至所述第二卷积层,所述第二卷积层输出所述第一输入图像的第一局部特征,所述第三卷积层与所述第二卷积层的输出相连,以将所述第二卷积层输出的特征转换后传输至所述第一完全卷积层,所述第一完全卷积层分别输出所述第一全局特征和第二全局特征。所述第二完全卷积根据所述第一全局特征和第二全局特征转换为与类标签对应的第一语义概率和第二语义概率。所述第三完全卷积层用将所述注意力加权特征换成成相对于所述注意力加权特征更抽象的特征后再传输至所述线性分类器中分类。
需要说明的是在图1中为了便于展示所述分类方法的分类过程示意了两个第一卷积层、两个第二卷积层、两个第三卷积层、两个第一完全卷积层、两个第二完全卷积层,但实际上所述分类网络仅仅包括一个第一卷积层、一个第二卷积层、一个第三卷积层、一个第一完全卷积层、一个第二完全卷积层。所述第一输入图像依次经过所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层转换后获得第一语义概率后,再使第二输入图图像依次通过所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层转换后获得第二语义概率,即在图1中,上一层的所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层是所述分类网络真正包含的,而下一层的所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层是为了便于示意分类方法画出的示意模块,并非真实存在的。
本发明的所述注意力分类网络基于加强全局特征向量与局部特征向量之间的兼容性进行特征提取和分类。让我们将所述第一全局特征的特征向量表示为
Figure 604494DEST_PATH_IMAGE026
,将所述第一局部特征向量表示为
Figure 235327DEST_PATH_IMAGE027
。然后我们得到
Figure 93561DEST_PATH_IMAGE028
。在此,每个
Figure 50016DEST_PATH_IMAGE029
是第一局部特征的第
Figure 993701DEST_PATH_IMAGE030
个空间位置(共有
Figure 26293DEST_PATH_IMAGE031
个空间位置)输出激活向量。基于注意力分类网络通过限制分类器仅使用局部特征向量的集合来工作,该集合由兼容性评分选择和加权,因此我们需要先定义兼容性评分函数。
我们在所述注意力估计模块中采用加法运算使所述第一局部特征中的每个像素位置的局部特征向量
Figure 145559DEST_PATH_IMAGE029
和全局特征
Figure 538494DEST_PATH_IMAGE026
组合在一起,然后学习从结果描述符到兼容性评分的单个全连接层映射,以定义兼容性评分函数
Figure 376000DEST_PATH_IMAGE032
,使得
Figure 207690DEST_PATH_IMAGE033
,其中,
Figure 994511DEST_PATH_IMAGE034
。在这里,权重向量
Figure 823927DEST_PATH_IMAGE035
可以解释为学习与第一输入图像类别相关的通用特征集。如果
Figure 351991DEST_PATH_IMAGE026
Figure 659476DEST_PATH_IMAGE029
的维数不同,要学习一个线性函数,将
Figure 550072DEST_PATH_IMAGE029
映射到
Figure 550389DEST_PATH_IMAGE026
的维数,得到
Figure 690383DEST_PATH_IMAGE036
。这样,对于所述第一局部特征的局部特征层,容易获得兼容性分数集
Figure 598296DEST_PATH_IMAGE037
,其中
Figure 281081DEST_PATH_IMAGE038
是图像特征在
Figure 983458DEST_PATH_IMAGE029
Figure 610749DEST_PATH_IMAGE026
的维数的线性映射下的局部特征。为了获得最终的注意力图,
然后在所述注意力估计模块中,我们通过Softmax操作对兼容性分数进行归一化,以获得所述注意力图
Figure 463298DEST_PATH_IMAGE039
,其中:
Figure 390803DEST_PATH_IMAGE040
在所述注意力加权模块中,注意力图
Figure 264081DEST_PATH_IMAGE041
用于加权选择每个像素位置的特征向量。我们得到了所述注意力加权特征的特征向量
Figure 254034DEST_PATH_IMAGE042
。 在仅使用一个本地层的情况下,将
Figure 300487DEST_PATH_IMAGE012
用作所述线性分类器分类的最终图像特征。在使用一个以上的局部层的情况下,我们将多个所述注意力加权特征的特征向量连接起来,然后将其输入到最终的线性分类器中,并计算获取所述线性分类器分类的交叉熵损失,以将所述交叉熵损失方向传播至所述注意力分类网络中训练所述注意力分类网络。
所述聚类网络为不变信息聚类网络,下面我们将具体阐述以下本发明提供的不变信息聚类聚类网络的如何根据所述第一语义概率和第二语义概率获得所述第一输入图像
Figure 20181DEST_PATH_IMAGE043
和第二输入图像
Figure 736465DEST_PATH_IMAGE044
的最大互信息。
假设
Figure 603926DEST_PATH_IMAGE043
Figure 391754DEST_PATH_IMAGE044
是为所述第一输入图像和第二输入图像,不变信息聚类可以形式化为最大化样本对投影之间的互信息:
Figure 638059DEST_PATH_IMAGE045
Figure 915456DEST_PATH_IMAGE046
是一个输出容量较小的网络(通常称为“瓶颈”)时,最大化编码变量之间的互信息可以学习特征表示
Figure 942318DEST_PATH_IMAGE047
,该表示可以保留
Figure 205940DEST_PATH_IMAGE024
Figure 696964DEST_PATH_IMAGE048
之间的共同点,同时丢弃了特定于实例的详细信息。
Figure 82946DEST_PATH_IMAGE049
为输出空间,
Figure 534787DEST_PATH_IMAGE050
,这是一个有限的类标签集合。
分类网络
Figure 726734DEST_PATH_IMAGE051
以Softmax层结尾,因此输出
Figure 682052DEST_PATH_IMAGE052
可解释为离散随机变量
Figure 504515DEST_PATH_IMAGE053
Figure 568286DEST_PATH_IMAGE054
类上的分布,表示为
Figure 236027DEST_PATH_IMAGE055
。我们首先使用所述分类网络和第一输入图像
Figure 311431DEST_PATH_IMAGE024
和第二输入图像
Figure 367111DEST_PATH_IMAGE048
计算对应的类别分配变量
Figure 262386DEST_PATH_IMAGE053
Figure 999398DEST_PATH_IMAGE056
。所述输入图像包含相同的对象,变量
Figure 319521DEST_PATH_IMAGE053
与配对变量
Figure 218207DEST_PATH_IMAGE056
应该具有很强的统计关系,在数据集上被边缘化之后,联合概率分布由
Figure 866357DEST_PATH_IMAGE057
的矩阵
Figure 203797DEST_PATH_IMAGE058
给出,其中
Figure 316110DEST_PATH_IMAGE058
Figure DEST_PATH_IMAGE059
行和
Figure 120118DEST_PATH_IMAGE060
列的元素构成
Figure 317881DEST_PATH_IMAGE061
Figure DEST_PATH_IMAGE062
边际
Figure 865537DEST_PATH_IMAGE063
Figure 770039DEST_PATH_IMAGE064
可以通过对矩阵
Figure DEST_PATH_IMAGE065
的行和列求和而获得。对于每个样本对
Figure 807265DEST_PATH_IMAGE066
,都有
Figure 430008DEST_PATH_IMAGE067
,考虑对称问题,
Figure 46934DEST_PATH_IMAGE068
使用
Figure DEST_PATH_IMAGE069
对称化。因此所述不变信息的聚类网络的目标函数可以通过将矩阵
Figure 602680DEST_PATH_IMAGE068
插入到互信息表达式中来计算,从而获得所述最大化的互信息
Figure 14070DEST_PATH_IMAGE070
,其结果为:
Figure 248742DEST_PATH_IMAGE071
由于不变信息聚类的目标是最大化互信息
Figure 669359DEST_PATH_IMAGE072
,使用随机梯度下降优化方法形成端到端的训练过程,因此不变信息聚类损失
Figure 282874DEST_PATH_IMAGE073
的计算公式如下被表述为:
Figure 193061DEST_PATH_IMAGE074
本发明还提供了一种如图所述的所述图像分类装置,还提供了一种计算机可读存储介质,所述可读存储介质上存储的计算机程序被处理器执行时实现本发明提供的意一项所述图像分类方法。
为了证明本发明提供的图像分类方法和图像分类装置的有效性,我们将本发明提供的所述图像分类网络模型在细粒度数据集Caltech-UCSD Birds(CUB-200-2011)上进行评估。我们以错误率作为模型评价的指标,以CUB-200-2011数据集用作评估数据集,其包含200类的11788张鸟类图片,其中5994张训练集,5794张测试集,将本发明提供的分类网络模型与几个基线模型进行对比,对比的结果如表1所示。其中,所述基线模型为:VGG模型,其是基础的深度网络分类模型;GOOGLE-GAP模型,其通过激活输出学习注意力机制,并用于指导模型的训练;GOOGLE-GAP模型,其的基础模型是GoogleNet;RN-34模型,其通过从教师模型到学生模型迁移注意力来提高模型性能,以及其基础模型是ResNet;LPA模型,其通过结合全局特征和局部特征计算注意力模型。
表1
Figure 852713DEST_PATH_IMAGE075
评估结果表明,同样是基于VGG的结构,本发明提供的分类网络模型比原始VGG模型和LPA模型性能分别提升10.14%和2.3%,与GoogleNet结构相比,该模型比GOOGLE-GAP模型提升5%,与ResNet结构相比,该模型比RN-34模型性能提高2%。
此外,图如2所示,其为本发明提供的图像分类网络中的注意力图的可视化图,可以看到注意力分类网络起到把关注点集中到目标上同时抑制不重要的背景信息,在第10层学习到的注意力可以基本包含目标的全局信息,而第13层学习到的注意力主要集中在有判别性的头部和脖子部分信息。
由上可见,本发明提供的所述图像分类方法中,我们将注意力分类网络与最大化互信息的聚类网络集成在一起构成分类网络,以提高分类网络的性能和获得良好的特性,在所述分类网络中,所述注意力分类网络用作提取区分零件特征的过滤器,所述聚类模块充当半监督学习指导,并利用语义相似性内部类来提高分类性能,此外所述分类网络可以使用没有任何类别标签的数据训练网络,适应于数据集比较小的图像细粒度分类以及有利于提高分类的准确性。
我依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种注意力融合互信息的图像分类方法,其特征在于,包括:
获取属于同一类别的第一输入图像和第二输入图像,
将所述第一输入图像和第二输入图像输入至训练好的注意力融合互信息的图像分类网络中,
分别提取所述第一输入图像和第二输入图像的全局特征,并将所述第一输入图像的第一全局特征和所述第二输入图像的第二全局特征转换为与类标签对应的第一语义概率和第二语义概率,
提取所述第一输入图像的第一局部特征,并根据所述第一全局特征和所述第一局部特征估计所述所述第一局部特征的注意力图,并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
将所述加权特征输入至线性分类器中进行分类,并获取所述线性分类器的交叉熵损失,
根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取不变信息聚类损失,
根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络,以进行所述第一输入图像的分类预测。
2.根据权利要求1所述的图像分类方法,其特征在于,还包括构建注意力融合互信息的图像分类网络,所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络,根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络的步骤包括:
在获取所述交叉熵损失后,将所述交叉熵损失反向传播至所述注意力分类网络中,以训练所述注意力分类网络,
在获取所述不变信息聚类损失后,将所述不变信息聚类损失反向传播至所述聚类网络中,以训练所述聚类网络。
3.根据权利要求1所述图像分类方法,其特征在于,根据所述第一输入图像获取所述第二输入图像,所述第一输入图像为待分类图像,所述第二输入图像为所述第一输入图像通过随机扰动转换后获得的图片,
所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更改颜色饱和度中的一种或多种。
4.根据权利要求1所述的图像分类方法,其特征在于,根据所述第一全局特征和所述第一输入图像的第一局部特征获取所述所述第一局部特征的注意力度, 并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征的步骤包括:
采用加法运算使所述第一局部特征中的每个像素位置的局部特征向量
Figure 532145DEST_PATH_IMAGE001
和全局特征
Figure 867443DEST_PATH_IMAGE002
组合在一起,然后学习从结果描述符到兼容性评分的单个全连接层映射,以定义兼容性评分函数
Figure 972802DEST_PATH_IMAGE003
,使得
Figure 719041DEST_PATH_IMAGE004
,其中,
Figure 542641DEST_PATH_IMAGE005
对所述兼容性评分函数
Figure 665318DEST_PATH_IMAGE003
进行归一化,以获得所述注意力图
Figure 625183DEST_PATH_IMAGE006
,所述注意力图
Figure 555706DEST_PATH_IMAGE007
中的第
Figure 866601DEST_PATH_IMAGE008
个元素为
Figure 792969DEST_PATH_IMAGE009
,其中,
Figure 607341DEST_PATH_IMAGE010
使所述注意力图
Figure 960962DEST_PATH_IMAGE006
对所述第一局部特征中的每个像素位置的局部特征向量
Figure 493575DEST_PATH_IMAGE001
进行加权,以获得所述注意力加权特征
Figure 974366DEST_PATH_IMAGE011
,其中,
Figure 643244DEST_PATH_IMAGE012
所述全局特征的特征向量为
Figure 433346DEST_PATH_IMAGE002
,所述第一局部特征的局部特征向量为
Figure 453255DEST_PATH_IMAGE013
Figure 721425DEST_PATH_IMAGE014
,所述
Figure 510389DEST_PATH_IMAGE001
为所述第一局部特征向量中的第
Figure 222124DEST_PATH_IMAGE008
个局部激活向量,
Figure 463750DEST_PATH_IMAGE015
为学习与所述第一输入图象类别相关的权重向量。
5.根据权利要求2所述的图像分类方法,其特征在于,使所述分类网络和聚类网络共享相同的特征提取参数。
6.一种注意力融合互信息的图像分类装置,其特征在于,包括:CNN模块、不变信息聚类模块、注意力估算模块、注意力加权模块、线性分类器,
所述CNN模块为双输入CNN模块,以分别接收属于同一类别的第一输入图像和第二输入图像,用于提取所述第一输入图像和第二输入图像的全局特征和第一输入图像的第一局部特征,
所述注意力估算模块用于根据所述第一全局特征和所述第一全局特征获取所述所述第一局部特征的注意力图,
所述注意力加权模块通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
所述线性分类器根据所述注意力加权特征进行所述第一输入图像的分类,并获取交叉熵损失,
所述不变信息聚类模块根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取聚类网络的不变息聚类损失,
其中,所述注意力融合互信息的图像分类网络根据所述交叉熵损失和所述不变信息聚类损失进行训练,以对所述第一输入图像进行分类预测,
所述CNN模块、所述注意力估计模块、所述注意力加权模块和所述线性分类器构成所述注意力分类网络,所述CNN模块和所述不变信息聚类模块构成所述聚类网络。
7.根据权利要求6所述的图像分类装置,其特征在于,还包括所述第二输入图像获取模块,用于将所述第一输入图像进行随机扰动转换,以获得所述第二输入图像,所述第一输入图像为待分类图像,
所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更改颜色饱和度中的一种或多种。
8.根据权利要求7所述的图像分类装置,其特征在于,
所述CNN模块包括第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层,所述图像分类网络还包括第三完全卷积层,
所述第一卷积层用于接收所述第一输入图像和第二输入图像,以将从所述第一输入图像和第二输入图像中提取的特征输入至所述第二卷积层,所述第二卷积层输出所述第一输入图像的第一局部特征,所述第三卷积层与所述第二卷积层的输出相连,以将所述第二卷积层输出的特征转换后传输至所述第一完全卷积层,所述第一完全卷积层分别输出所述第一全局特征和第二全局特征,
所述第二完全卷积根据所述第一全局特征和第二全局特征转换为与类标签对应的第一语义概率和第二语义概率,
所述第三完全卷积层用将所述注意力加权特征换成成相对于所述注意力加权特征更抽象的特征后再传输至所述线性分类器中分类。
9.根据权利要求8所述的图像分类装置,其特征在于:所述注意力图
Figure 270032DEST_PATH_IMAGE006
的计算公式为:
Figure 444661DEST_PATH_IMAGE016
所述注意力加权特征
Figure 45407DEST_PATH_IMAGE011
的计算公式为:
Figure 56219DEST_PATH_IMAGE017
所述全局特征的特征向量为
Figure 666192DEST_PATH_IMAGE002
,所述第一局部特征的局部特征向量为
Figure 429749DEST_PATH_IMAGE013
Figure 201396DEST_PATH_IMAGE014
所述
Figure 948772DEST_PATH_IMAGE001
为所述第一局部特征向量中的第
Figure 96857DEST_PATH_IMAGE008
个局部激活向量,
Figure 745880DEST_PATH_IMAGE015
为学习与对象类别相关的权重向量,
Figure 954007DEST_PATH_IMAGE018
为兼容性评分函数,
Figure 923100DEST_PATH_IMAGE019
,以及
Figure 609297DEST_PATH_IMAGE020
10.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储的计算机程序被处理器执行时实现如权利要求1至5中任意一项所述图像分类方法。
CN202010710654.9A 2020-07-22 2020-07-22 注意力融合互信息的图像分类方法、装置及存储介质 Active CN111738355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010710654.9A CN111738355B (zh) 2020-07-22 2020-07-22 注意力融合互信息的图像分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010710654.9A CN111738355B (zh) 2020-07-22 2020-07-22 注意力融合互信息的图像分类方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111738355A true CN111738355A (zh) 2020-10-02
CN111738355B CN111738355B (zh) 2020-12-01

Family

ID=72657257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010710654.9A Active CN111738355B (zh) 2020-07-22 2020-07-22 注意力融合互信息的图像分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111738355B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016293A (zh) * 2020-10-22 2020-12-01 浙江大学 一种基于多实例协同对抗训练的远程监督关系抽取方法
CN112529878A (zh) * 2020-12-15 2021-03-19 西安交通大学 一种基于多视图半监督的淋巴结的分类方法、系统及设备
CN113378792A (zh) * 2021-07-09 2021-09-10 合肥工业大学 融合全局和局部信息的弱监督宫颈细胞图像分析方法
CN115564992A (zh) * 2022-09-26 2023-01-03 北京百度网讯科技有限公司 图像分类方法和图像分类模型的训练方法
CN115631388A (zh) * 2022-12-21 2023-01-20 第六镜科技(成都)有限公司 图像分类方法、装置、电子设备及存储介质
CN116109877A (zh) * 2023-04-07 2023-05-12 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质
CN117036788A (zh) * 2023-07-21 2023-11-10 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130331727A1 (en) * 2011-01-28 2013-12-12 Agency For Science, Technology And Research Method and system for detecting attention
CN110472653A (zh) * 2019-07-01 2019-11-19 浙江大学 一种基于最大化区域互信息的语义分割方法
US10510002B1 (en) * 2019-02-14 2019-12-17 Capital One Services, Llc Stochastic gradient boosting for deep neural networks
CN110796026A (zh) * 2019-10-10 2020-02-14 湖北工业大学 一种基于全局特征拼接的行人重识别方法
CN111191791A (zh) * 2019-12-02 2020-05-22 腾讯云计算(北京)有限责任公司 机器学习模型的应用方法、训练方法、装置、设备及介质
WO2020123101A1 (en) * 2018-12-11 2020-06-18 Exxonmobil Upstream Research Company Automated reservoir modeling using deep generative networks
CN111325318A (zh) * 2019-02-01 2020-06-23 北京地平线机器人技术研发有限公司 神经网络的训练方法、神经网络的训练装置和电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130331727A1 (en) * 2011-01-28 2013-12-12 Agency For Science, Technology And Research Method and system for detecting attention
WO2020123101A1 (en) * 2018-12-11 2020-06-18 Exxonmobil Upstream Research Company Automated reservoir modeling using deep generative networks
CN111325318A (zh) * 2019-02-01 2020-06-23 北京地平线机器人技术研发有限公司 神经网络的训练方法、神经网络的训练装置和电子设备
US10510002B1 (en) * 2019-02-14 2019-12-17 Capital One Services, Llc Stochastic gradient boosting for deep neural networks
CN110472653A (zh) * 2019-07-01 2019-11-19 浙江大学 一种基于最大化区域互信息的语义分割方法
CN110796026A (zh) * 2019-10-10 2020-02-14 湖北工业大学 一种基于全局特征拼接的行人重识别方法
CN111191791A (zh) * 2019-12-02 2020-05-22 腾讯云计算(北京)有限责任公司 机器学习模型的应用方法、训练方法、装置、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BING LI ET AL: "Feature Extraction and Selection for Fault Diagnosis of Gear", 《ICSP2008 PROCEEDINGS》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016293A (zh) * 2020-10-22 2020-12-01 浙江大学 一种基于多实例协同对抗训练的远程监督关系抽取方法
CN112529878A (zh) * 2020-12-15 2021-03-19 西安交通大学 一种基于多视图半监督的淋巴结的分类方法、系统及设备
CN112529878B (zh) * 2020-12-15 2024-04-02 西安交通大学 一种基于多视图半监督的淋巴结的分类方法、系统及设备
CN113378792A (zh) * 2021-07-09 2021-09-10 合肥工业大学 融合全局和局部信息的弱监督宫颈细胞图像分析方法
CN113378792B (zh) * 2021-07-09 2022-08-02 合肥工业大学 融合全局和局部信息的弱监督宫颈细胞图像分析方法
CN115564992A (zh) * 2022-09-26 2023-01-03 北京百度网讯科技有限公司 图像分类方法和图像分类模型的训练方法
CN115631388A (zh) * 2022-12-21 2023-01-20 第六镜科技(成都)有限公司 图像分类方法、装置、电子设备及存储介质
CN116109877A (zh) * 2023-04-07 2023-05-12 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质
CN116109877B (zh) * 2023-04-07 2023-06-20 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质
CN117036788A (zh) * 2023-07-21 2023-11-10 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置
CN117036788B (zh) * 2023-07-21 2024-04-02 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置

Also Published As

Publication number Publication date
CN111738355B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN111738355B (zh) 注意力融合互信息的图像分类方法、装置及存储介质
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
Yan et al. Triplet adversarial domain adaptation for pixel-level classification of VHR remote sensing images
Sincan et al. Autsl: A large scale multi-modal turkish sign language dataset and baseline methods
Han et al. A unified metric learning-based framework for co-saliency detection
Chu et al. Image style classification based on learnt deep correlation features
CN106649542B (zh) 用于视觉问答的系统和方法
Yang et al. Show, attend, and translate: Unsupervised image translation with self-regularization and attention
CN106682696B (zh) 基于在线示例分类器精化的多示例检测网络及其训练方法
Delaitre et al. Learning person-object interactions for action recognition in still images
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
CN107169485A (zh) 一种数学公式识别方法和装置
CN106570521A (zh) 多语言场景字符识别方法及识别系统
CN112801236B (zh) 图像识别模型的迁移方法、装置、设备及存储介质
CN105574545B (zh) 街道环境图像多视角语义切割方法及装置
CN113822264A (zh) 一种文本识别方法、装置、计算机设备和存储介质
CN110263855A (zh) 一种利用共基胶囊投影进行图像分类的方法
CN113516142A (zh) 文本图像匹配方法、装置、设备及存储介质
CN110851627B (zh) 一种用于描述全日面图像中太阳黑子群的方法
CN115546553A (zh) 一种基于动态特征抽取和属性修正的零样本分类方法
KR102083786B1 (ko) 문자열 식별 방법 및 장치, 그리고 이를 이용한 디스플레이 영상 식별 시스템
Li et al. KBHN: A knowledge-aware bi-hypergraph network based on visual-knowledge features fusion for teaching image annotation
Sajid et al. Facial asymmetry-based feature extraction for different applications: a review complemented by new advances
CN111242114A (zh) 文字识别方法及装置
CN113688864B (zh) 一种基于分裂注意力的人-物交互关系分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant