CN111738355B - 注意力融合互信息的图像分类方法、装置及存储介质 - Google Patents

注意力融合互信息的图像分类方法、装置及存储介质 Download PDF

Info

Publication number
CN111738355B
CN111738355B CN202010710654.9A CN202010710654A CN111738355B CN 111738355 B CN111738355 B CN 111738355B CN 202010710654 A CN202010710654 A CN 202010710654A CN 111738355 B CN111738355 B CN 111738355B
Authority
CN
China
Prior art keywords
attention
input image
feature
image
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010710654.9A
Other languages
English (en)
Other versions
CN111738355A (zh
Inventor
李硕豪
王风雷
张军
张萌萌
雷军
何华
谭真
蒋林承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010710654.9A priority Critical patent/CN111738355B/zh
Publication of CN111738355A publication Critical patent/CN111738355A/zh
Application granted granted Critical
Publication of CN111738355B publication Critical patent/CN111738355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一注意力融合互信息的图像分类方法、装置及存储介质,在所述图像分类方法中,我们将注意力分类网络与最大化互信息的聚类网络集成在一起构成所述图像分类网络,以提高分类网络的性能和获得良好的特性,在所述分类网络中,所述注意力分类网络用作提取区分零件特征的过滤器,所述聚类模块充当半监督学习指导,并利用语义相似性内部类来提高分类性能,此外所述分类网络可以使用没有任何类别标签的数据训练网络,适应于数据集比较小的图像细粒度分类以及有利于提高分类的准确性。

Description

注意力融合互信息的图像分类方法、装置及存储介质
技术领域
本发明属于计算机图像识别技术领域,具体是涉及一种注意力融合互信息的图像分类方法、装置及存储介质。
背景技术
随着深度学习的发展,细粒度的图像分类备受关注。但是,这仍然是一个非常具有挑战性的问题,因为相同子类别中的对象可能呈现较大的外观变化,而来自不同子类别的对象可能呈现出更多相似的外观。图像分类中的传统问题,例如比例尺和视角的变化,复杂的背景和遮挡,由于标记细粒图像的成本大幅增加而变得更加难以处理。相比于通用的图像分类任务,细粒度图像分类拥有的数据集非常少。
一个好的模型应该能够发现并代表子类别中的细微视觉差异。为了获得目标局部特征表示,许多作品都引用了人工标注的边界框。由于大量的人力投入使部件的定义和标注既昂贵又主观,因此使用分类标签学习弱监督部件模型的方法取得了重大进展。这些方法通常由两个阶段组成,包括局部定位和细粒度特征学习。局部定位阶段旨在找到有判别性的部件,这通常被称为部件注意力学习阶段。研究人员提出作为多注意卷积神经网络(MA-CNN)进行细粒度识别,并在许多细粒度分类数据集中取得可喜的结果。但是,用于训练通道注意模型的监督信息是通过对所有训练数据集的峰值响应进行聚类来进行的,这会受到图像中对象的某些特定模式的频率影响。
发明内容
有鉴于此,本发明提供了一种注意力融合互信息的图像分类方法、装置及存储介质,以解决现有技术提供的分类网络准确性不高以及需要较多数据集的问题。
一种注意力融合互信息的图像分类方法,包括:
获取属于同一类别的第一输入图像和第二输入图像,
将所述第一输入图像和第二输入图像输入至训练好的注意力融合互信息的图像分类网络中,
分别提取所述第一输入图像和第二输入图像的全局特征,并将所述第一输入图像的第一全局特征和所述第二输入图像的第二全局特征转换为与类标签对应的第一语义概率和第二语义概率,
提取所述第一输入图像的第一局部特征,并根据所述第一全局特征和所述第一局部特征估计所述第一局部特征的注意力图,并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
将所述加权特征输入至线性分类器中进行分类,并获取所述线性分类器的交叉熵损失,
根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取不变信息聚类损失,
根据所述交叉熵损失和不变信息聚类损失训练所述注意力融合互信息的图像分类网络,
以进行所述第一输入图像的分类预测。
优选地,还包括构建注意力融合互信息的图像分类网络,所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络,根据所述交叉熵损失和不变信息聚类损失训练所述注意力融合互信息的图像分类网络的步骤包括:
在获取所述交叉熵损失后,将所述交叉熵损失反向传播至所述注意力分类网络中,以训练所述注意力分类网络,
在获取所述不变信息聚类损失后,将所述不变信息聚类损失反向传播至所述聚类网络中,以训练所述聚类网络。
优选地,根据所述第一输入图像获取所述第二输入图像,所述第一输入图像为待分类图像,所述第二输入图像为所述第一输入图像通过随机扰动转换后获得的图片,
所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种。
优选地,根据所述第一全局特征和所述第一输入图像的第一局部特征获取所述第一局部特征的注意力图, 并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征的步骤包括:
采用加法运算使所述第一局部特征中的每个像素位置的输出激活向量
Figure 502239DEST_PATH_IMAGE001
和全局特征
Figure 12855DEST_PATH_IMAGE002
组合在一起,然后学习从结果描述符到兼容性评分的单个全连接层映射,以定义兼容性评分函数
Figure 854909DEST_PATH_IMAGE003
,使得
Figure 598919DEST_PATH_IMAGE004
,其中,
Figure 210029DEST_PATH_IMAGE005
对所述兼容性评分函数
Figure 891546DEST_PATH_IMAGE006
进行归一化,以获得所述注意力图
Figure 456782DEST_PATH_IMAGE008
,所述注意力图
Figure 514737DEST_PATH_IMAGE009
中的第
Figure 245932DEST_PATH_IMAGE010
个元素为
Figure 334236DEST_PATH_IMAGE011
,其中,
Figure 885303DEST_PATH_IMAGE012
使所述注意力图
Figure 481370DEST_PATH_IMAGE013
对所述第一局部特征中的每个像素位置的局部特征向量
Figure 302957DEST_PATH_IMAGE014
进行加权,以获得所述注意力加权特征
Figure 591856DEST_PATH_IMAGE015
,其中,
Figure 630220DEST_PATH_IMAGE016
所述全局特征的特征向量为
Figure 265862DEST_PATH_IMAGE017
,所述第一局部特征的局部特征向量为
Figure 706071DEST_PATH_IMAGE018
Figure 634713DEST_PATH_IMAGE019
,所述
Figure 724154DEST_PATH_IMAGE014
为所述第一局部特征向量中的第
Figure 396444DEST_PATH_IMAGE010
个像素位置的输出激活向量,
Figure 691159DEST_PATH_IMAGE020
为像素位置的数量,
Figure 823325DEST_PATH_IMAGE021
为学习与所述第一输入图象类别相关的权重向量。
优选地,使所述注意力分类网络和聚类网络共享相同的特征提取参数。
一种注意力融合互信息的图像分类装置,其特征在于,包括:CNN模块、不变信息聚类模块、注意力估算模块、注意力加权模块、线性分类器,
所述CNN 模块为双输入CNN 模块,以分别接收属于同一类别的第一输入图像和第二输入
图像,用于提取所述第一输入图像的第一全局特征、第二输入图像的第二全局特征和第一输
入图像的第一局部特征,并将所述第一全局特征和第二全局特征转换为与类标签对应的第一
语义概率和第二语义概率,
所述注意力估算模块用于根据所述第一全局特征和所述第一局部特征获取所述第一局部特征的注意力图,
所述注意力加权模块通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
所述线性分类器根据所述注意力加权特征进行所述第一输入图像的分类,并获取交叉熵损失,
所述不变信息聚类模块根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取聚类网络的不变信息聚类损失,
构建注意力融合互信息的图像分类网络,所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络,其中,所述注意力融合互信息的图像分类网络根据所述交叉熵损失和所述不变信息聚类损失进行训练,以对所述第一输入图像进行分类预测,所述CNN模块、所述注意力估计模块、所述注意力加权模块和所述线性分类器构成所述注意力分类网络,所述CNN模块和所述不变信息聚类模块构成所述聚类网络。
优选地,所述的图像分类装置还包括所述第二输入图像获取模块,用于将所述第一输入图像进行随机扰动转换,以获得所述第二输入图像,所述第一输入图像为待分类图像,
所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种,
优选地,所述CNN模块包括第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层,所述图像分类网络还包括第三完全卷积层,
所述第一卷积层用于接收所述第一输入图像和第二输入图像,以将从所述第一输入图像和第二输入图像中提取的特征输入至所述第二卷积层,所述第二卷积层输出所述第一输入图像的第一局部特征,所述第三卷积层与所述第二卷积层的输出相连,以将所述第二卷积层输出的特征转换后传输至所述第一完全卷积层,所述第一完全卷积层分别输出所述第一全局特征和第二全局特征,
所述第二完全卷积根据所述第一全局特征和第二全局特征转换为与类标签对应的第一语义概率和第二语义概率,
所述第三完全卷积层用将所述注意力加权特征换成相对于所述注意力加权特征更抽象的特征后再传输至所述线性分类器中分类。
优选地,所述注意力图
Figure 367439DEST_PATH_IMAGE022
的计算公式为:
Figure 312261DEST_PATH_IMAGE012
所述注意力加权特征
Figure 461483DEST_PATH_IMAGE023
的计算公式为:
Figure 764550DEST_PATH_IMAGE024
所述全局特征的特征向量为
Figure 999223DEST_PATH_IMAGE025
,所述第一局部特征的局部特征向量为
Figure 278894DEST_PATH_IMAGE026
Figure 61385DEST_PATH_IMAGE027
,所述
Figure 33889DEST_PATH_IMAGE028
为所述第一局部特征向量中的第
Figure 287016DEST_PATH_IMAGE029
个像素位置的输出激活向量,
Figure 871843DEST_PATH_IMAGE020
为像素位置的数量,
Figure 526816DEST_PATH_IMAGE030
为学习与对象类别相关的权重向量,
Figure 607904DEST_PATH_IMAGE031
为兼容性评分函数,
Figure 380950DEST_PATH_IMAGE032
,以及
Figure 205687DEST_PATH_IMAGE033
一种计算机可读存储介质,其特征在于,所述可读存储介质上存储的计算机程序被处理器执行时实现如上述任意一项所述图像分类方法。
本发明的有益效果为:本发明提供的所述图像分类方法中,我们将注意力分类网络与最大化互信息的聚类网络集成在一起构成分类网络,以提高分类网络的性能和获得良好的特性,在所述分类网络中,所述注意力分类网络用作提取区分零件特征的过滤器,所述聚类模块充当半监督学习指导,并利用语义相似性内部类来提高分类性能,此外所述分类网络可以使用没有任何类别标签的数据训练网络,适应于数据集比较小的图像细粒度分类以及有利于提高分类的准确性。
附图说明
图1为依据本发明提供的注意力融合互信息的图像分类网络框图;
图2为依据本发明提供的所述分类网络的注意力图的可视化图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所产生的所有其他实施例,都属于本发明保护的范围。此外需要说明的是,在具体实施方式这一项内容中“所述…”是仅指本发明的中的技术属于或特征。
在本发明实施例中提供的注意力融合互信息的图像分类方法主要包括以下步骤步骤1至步骤5,但是在依据本发明的其它实施例中,下列各个步骤的先后顺序不局限于本实施例中所示的。
步骤1:获取属于同一类别的第一输入图像和第二输入图像,并将所述第一输入图像和第二输入图像输入至训练好的注意力融合互信息的图像分类网络中。
根据所述第一输入图像获取所述第二输入图像,所述第一输入图像为待分类图像,所述第二输入图像为所述第一输入图像通过随机扰动转换后获得的图片,所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种。
步骤2:分别提取所述第一输入图像和第二输入图像的全局特征,并将所述第一输入图像的第一全局特征和所述第二输入图像的第二全局特征转换为与类标签对应的第一语义概率和第二语义概率。
步骤3:提取所述第一输入图像的第一局部特征,并根据所述第一全局特征和所述第一局部特征估计所述第一局部特征的注意力图,并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
步骤4:将所述加权特征输入至线性分类器中进行分类,并获取所述线性分类器的交叉熵损失。
步骤5:根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取不变信息聚类损失,
步骤6:根据所述交叉熵损失和不变信息聚类损失训练所述注意力融合互信息的图像分类网络,以进行所述第一输入图像的分类预测。
在进行步骤2之前,还需先构建如图1所示的注意力融合互信息的图像分类网络,所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络,所述注意力类网络和聚类网络共用CNN模块提取二者所需要的特征参数,所述注意力类网络和聚类网络共享相同的特征提取参数。此外,在本发明实施例提供的所述图像分类方法中,在获取所述交叉熵损失后,将所述交叉熵损失反向传播至所述注意力分类网络中,以训练所述注意力分类网络,以及在获取所述不变信息聚类损失后,将所述不变信息聚类损失反向传播至所述聚类网络中,以训练所述聚类网络。而在依据本发明的其它实施例中,也可以先将所述交叉熵损失和不变信息聚类损失融合后,即将二者进行加权后获得的总损失传播到所述图像分类网络。
如图1所示,所述注意力融合互信息的图像分类网络,其特征在于,包括:CNN模块、不变信息聚类模块、注意力估算模块、注意力加权模块、线性分类器。所述CNN模块为双输入CNN模块,以分别接收属于同一类别的第一输入图像和第二输入图像,用于提取所述第一输入图像和第二输入图像的全局特征和第一输入图像的第一局部特征,所述注意力估算模块用于根据所述第一全局特征和所述第一局部特征获取所述第一局部特征的注意力图,所述注意力加权模块通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,所述线性分类器根据所述注意力加权特征进行所述第一输入图像的分类,并获取交叉熵损失,所述不变信息聚类模块根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取聚类网络的不变信息聚类损失。其中,所述注意力融合互信息的图像分类网络根据所述交叉熵损失和所述不变信息聚类损失进行训练,以对所述第一输入图像进行分类预测。所述CNN模块、所述注意力估计模块、所述注意力加权模块和所述线性分类器构成所述注意力分类网络,所述CNN模块和所述不变信息聚类模块构成所述聚类网络。所述的图像分类装置还包括所述第二输入图像获取模块(图1中未画出),用于将所述第一输入图
Figure 246324DEST_PATH_IMAGE034
像进行随机扰动转换,以获得所述第二输入图像
Figure 734199DEST_PATH_IMAGE035
,所述第一输入图像为待分类图像,所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种。如图1所示,所述CNN模块包括第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层,所述图像分类网络还包括第三完全卷积层。所述第一卷积层用于接收所述第一输入图像和第二输入图像,以将从所述第一输入图像和第二输入图像中提取的特征输入至所述第二卷积层,所述第二卷积层输出所述第一输入图像的第一局部特征,所述第三卷积层与所述第二卷积层的输出相连,以将所述第二卷积层输出的特征转换后传输至所述第一完全卷积层,所述第一完全卷积层分别输出所述第一全局特征和第二全局特征。所述第二完全卷积根据所述第一全局特征和第二全局特征转换为与类标签对应的第一语义概率和第二语义概率。所述第三完全卷积层用将所述注意力加权特征换成成相对于所述注意力加权特征更抽象的特征后再传输至所述线性分类器中分类。
需要说明的是在图1中为了便于展示所述分类方法的分类过程示意了两个第一卷积层、两个第二卷积层、两个第三卷积层、两个第一完全卷积层、两个第二完全卷积层,但实际上所述分类网络仅仅包括一个第一卷积层、一个第二卷积层、一个第三卷积层、一个第一完全卷积层、一个第二完全卷积层。所述第一输入图像依次经过所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层转换后获得第一语义概率后,再使第二输入图图像依次通过所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层转换后获得第二语义概率,即在图1中,上一层的所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层是所述分类网络真正包含的,而下一层的所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层是为了便于示意分类方法画出的示意模块,并非真实存在的。
本发明的所述注意力分类网络基于加强全局特征向量与局部特征向量之间的兼容性进行特征提取和分类。让我们将所述第一全局特征的特征向量表示为
Figure 493077DEST_PATH_IMAGE036
,将所述第一局部特征向量表示为
Figure 121504DEST_PATH_IMAGE037
。然后我们得到
Figure 721375DEST_PATH_IMAGE038
。在此,每个
Figure 941004DEST_PATH_IMAGE039
是第一局部特征的第
Figure 124861DEST_PATH_IMAGE040
个像素位置(共有
Figure 556979DEST_PATH_IMAGE041
个像素位置)输出激活向量。基于注意力分类网络通过限制分类器仅使用局部特征向量的集合来工作,该集合由兼容性评分选择和加权,因此我们需要先定义兼容性评分函数。
我们在所述注意力估计模块中采用加法运算使所述第一局部特征中的每个像素位置的输出激活向量
Figure 808094DEST_PATH_IMAGE039
和全局特征
Figure 401886DEST_PATH_IMAGE036
组合在一起,然后学习从结果描述符到兼容性评分的单个全连接层映射,以定义兼容性评分函数
Figure 73039DEST_PATH_IMAGE042
,使得
Figure 607051DEST_PATH_IMAGE043
,其中,
Figure 414470DEST_PATH_IMAGE044
。在这里,权重向量
Figure 241480DEST_PATH_IMAGE045
可以解释为学习与第一输入图像类别相关的通用特征集。如果
Figure 635815DEST_PATH_IMAGE036
Figure 409736DEST_PATH_IMAGE039
的维数不同,要学习一个线性函数,将
Figure 133978DEST_PATH_IMAGE039
映射到
Figure 69573DEST_PATH_IMAGE036
的维数,得到
Figure 1802DEST_PATH_IMAGE046
。这样,对于所述第一局部特征的局部特征层,容易获得兼容性分数集
Figure 313835DEST_PATH_IMAGE047
,其中
Figure 95846DEST_PATH_IMAGE048
是图像特征在
Figure 766124DEST_PATH_IMAGE039
Figure 899165DEST_PATH_IMAGE036
的维数的线性映射下的局部特征。为了获得最终的注意力图,
然后在所述注意力估计模块中,我们通过Softmax操作对兼容性分数进行归一化,以获得所述注意力图
Figure 749309DEST_PATH_IMAGE049
,其中:
Figure 949609DEST_PATH_IMAGE050
在所述注意力加权模块中,注意力图
Figure 227006DEST_PATH_IMAGE051
用于加权选择每个像素位置的特征向量。我们得到了所述注意力加权特征的特征向量
Figure 581764DEST_PATH_IMAGE052
。 在仅使用一个本地层的情况下,将
Figure 297916DEST_PATH_IMAGE023
用作所述线性分类器分类的最终图像特征。在使用一个以上的局部层的情况下,我们将多个所述注意力加权特征的特征向量连接起来,然后将其输入到最终的线性分类器中,并计算获取所述线性分类器分类的交叉熵损失,以将所述交叉熵损失方向传播至所述注意力分类网络中训练所述注意力分类网络。
所述聚类网络为不变信息聚类网络,下面我们将具体阐述以下本发明提供的不变信息聚类聚类网络的如何根据所述第一语义概率和第二语义概率获得所述第一输入图像
Figure 290405DEST_PATH_IMAGE053
和第二输入图像
Figure 801021DEST_PATH_IMAGE054
的最大互信息。
假设
Figure 908655DEST_PATH_IMAGE053
Figure 602066DEST_PATH_IMAGE054
是为所述第一输入图像和第二输入图像,不变信息聚类可以形式化为最大化样本对投影之间的互信息:
Figure 213176DEST_PATH_IMAGE055
Figure 894693DEST_PATH_IMAGE056
是一个输出容量较小的网络(通常称为“瓶颈”)时,最大化编码变量之间的互信息可以学习特征表示
Figure 522246DEST_PATH_IMAGE057
,该表示可以保留
Figure 517884DEST_PATH_IMAGE034
Figure 983500DEST_PATH_IMAGE058
之间的共同点,同时丢弃了特定于实例的详细信息。
Figure 304760DEST_PATH_IMAGE059
为输出空间,
Figure 419609DEST_PATH_IMAGE060
,这是一个有限的类标签集合。
分类网络
Figure 953358DEST_PATH_IMAGE061
以Softmax层结尾,因此输出
Figure 335798DEST_PATH_IMAGE062
可解释为离散随机变量
Figure 329424DEST_PATH_IMAGE063
Figure 102208DEST_PATH_IMAGE064
类上的分布,表示为
Figure 705228DEST_PATH_IMAGE065
。我们首先使用所述分类网络和第一输入图像
Figure 207753DEST_PATH_IMAGE034
和第二输入图像
Figure 665341DEST_PATH_IMAGE058
计算对应的类别分配变量
Figure 456580DEST_PATH_IMAGE063
Figure 394449DEST_PATH_IMAGE066
。所述输入图像包含相同的对象,变量
Figure 987366DEST_PATH_IMAGE063
与配对变量
Figure 290172DEST_PATH_IMAGE066
应该具有很强的统计关系,在数据集上被边缘化之后,联合概率分布由
Figure 365444DEST_PATH_IMAGE067
的矩阵
Figure 546152DEST_PATH_IMAGE068
给出,其中
Figure 960952DEST_PATH_IMAGE068
Figure 762555DEST_PATH_IMAGE069
行和
Figure 997227DEST_PATH_IMAGE070
列的元素构成
Figure 778364DEST_PATH_IMAGE071
Figure 313250DEST_PATH_IMAGE072
边际
Figure 223438DEST_PATH_IMAGE073
Figure 243609DEST_PATH_IMAGE074
可以通过对矩阵
Figure 530233DEST_PATH_IMAGE075
的行和列求和而获得。对于每个样本对
Figure 654047DEST_PATH_IMAGE076
,都有
Figure 298917DEST_PATH_IMAGE077
,考虑对称问题,
Figure 508182DEST_PATH_IMAGE078
使用
Figure 129656DEST_PATH_IMAGE079
对称化。因此所述不变信息的聚类网络的目标函数可以通过将矩阵
Figure 373556DEST_PATH_IMAGE078
插入到互信息表达式中来计算,从而获得所述最大化的互信息
Figure 127010DEST_PATH_IMAGE080
,其结果为:
Figure 885888DEST_PATH_IMAGE081
由于不变信息聚类的目标是最大化互信息
Figure 45474DEST_PATH_IMAGE082
,使用随机梯度下降优化方法形成端到端的训练过程,因此不变信息聚类损失
Figure 645344DEST_PATH_IMAGE083
的计算公式如下被表述为:
Figure 68236DEST_PATH_IMAGE084
本发明还提供了一种如图所述的所述图像分类装置,还提供了一种计算机可读存储介质,所述可读存储介质上存储的计算机程序被处理器执行时实现本发明提供的意一项所述图像分类方法。
为了证明本发明提供的图像分类方法和图像分类装置的有效性,我们将本发明提供的所述图像分类网络模型在细粒度数据集Caltech-UCSD Birds(CUB-200-2011)上进行评估。我们以错误率作为模型评价的指标,以CUB-200-2011数据集用作评估数据集,其包含200类的11788张鸟类图片,其中5994张训练集,5794张测试集,将本发明提供的分类网络模型与几个基线模型进行对比,对比的结果如表1所示。其中,所述基线模型为:VGG模型,其是基础的深度网络分类模型;GOOGLE-GAP模型,其通过激活输出学习注意力机制,并用于指导模型的训练;GOOGLE-GAP模型,其的基础模型是GoogleNet;RN-34模型,其通过从教师模型到学生模型迁移注意力来提高模型性能,以及其基础模型是ResNet;LPA模型,其通过结合全局特征和局部特征计算注意力模型。
表1
Figure DEST_PATH_IMAGE085
评估结果表明,同样是基于VGG的结构,本发明提供的分类网络模型比原始VGG模型和LPA模型性能分别提升10.14%和2.3%,与GoogleNet结构相比,该模型比GOOGLE-GAP模型提升5%,与ResNet结构相比,该模型比RN-34模型性能提高2%。
此外,图如2所示,其为本发明提供的图像分类网络中的注意力图的可视化图,可以看到注意力分类网络起到把关注点集中到目标上同时抑制不重要的背景信息,在第10层学习到的注意力可以基本包含目标的全局信息,而第13层学习到的注意力主要集中在有判别性的头部和脖子部分信息。
由上可见,本发明提供的所述图像分类方法中,我们将注意力分类网络与最大化互信息的聚类网络集成在一起构成分类网络,以提高分类网络的性能和获得良好的特性,在所述分类网络中,所述注意力分类网络用作提取区分零件特征的过滤器,所述聚类模块充当半监督学习指导,并利用语义相似性内部类来提高分类性能,此外所述分类网络可以使用没有任何类别标签的数据训练网络,适应于数据集比较小的图像细粒度分类以及有利于提高分类的准确性。
我依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种注意力融合互信息的图像分类方法,其特征在于,包括:
获取属于同一类别的第一输入图像和第二输入图像,
将所述第一输入图像和第二输入图像输入至训练好的注意力融合互信息的图像分类网络中,
分别提取所述第一输入图像和第二输入图像的全局特征,并将所述第一输入图像的第一全局特征和所述第二输入图像的第二全局特征转换为与类标签对应的第一语义概率和第二语义概率,
提取所述第一输入图像的第一局部特征,并根据所述第一全局特征和所述第一局部特征估计所述第一局部特征的注意力图,并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
将所述加权特征输入至线性分类器中进行分类,并获取所述线性分类器的交叉熵损失,
根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取不变信息聚类损失,
根据所述交叉熵损失和不变信息聚类损失训练所述注意力融合互信息的图像分类网络,以进行所述第一输入图像的分类预测。
2.根据权利要求1 所述的图像分类方法,其特征在于,还包括构建注意力融合互信息的
图像分类网络,所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络,根
据所述交叉熵损失和不变信息聚类损失训练所述注意力融合互信息的图像分类网络的步骤包
括:
在获取所述交叉熵损失后,将所述交叉熵损失反向传播至所述注意力分类网络中,以训
练所述注意力分类网络,
在获取所述不变信息聚类损失后,将所述不变信息聚类损失反向传播至所述聚类网络中,
以训练所述聚类网络。
3.根据权利要求1所述图像分类方法,其特征在于,根据所述第一输入图像获取所述第二输入图像,所述第一输入图像为待分类图像,所述第二输入图像为所述第一输入图像通过随机扰动转换后获得的图片,
所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更改颜色饱和度中的一种或多种。
4.根据权利要求1所述的图像分类方法,其特征在于,根据所述第一全局特征和所述第一输入图像的第一局部特征获取所述第一局部特征的注意力图, 并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征的步骤包括:
采用加法运算使所述第一局部特征中的每个像素位置的输出激活向量
Figure DEST_PATH_IMAGE001
和全局特征
Figure DEST_PATH_IMAGE002
组合在一起,然后学习从结果描述符到兼容性评分的单个全连接层映射,以定义兼容性评分函数
Figure DEST_PATH_IMAGE003
,使得
Figure DEST_PATH_IMAGE004
,其中,
Figure DEST_PATH_IMAGE005
对所述兼容性评分函数
Figure 183514DEST_PATH_IMAGE003
进行归一化,以获得所述注意力图
Figure DEST_PATH_IMAGE006
,所述注意力图
Figure DEST_PATH_IMAGE007
中的第
Figure DEST_PATH_IMAGE008
个元素为
Figure DEST_PATH_IMAGE009
,其中,
Figure DEST_PATH_IMAGE010
使所述注意力图
Figure 302253DEST_PATH_IMAGE006
对所述第一局部特征中的每个像素位置的输出激活向量
Figure 973668DEST_PATH_IMAGE001
进行加权,以获得所述注意力加权特征
Figure DEST_PATH_IMAGE011
,其中,
Figure DEST_PATH_IMAGE012
所述全局特征的特征向量为
Figure 444577DEST_PATH_IMAGE002
,所述第一局部特征的局部特征向量为
Figure DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
,所述
Figure 868736DEST_PATH_IMAGE001
为所述第一局部特征向量中的第
Figure 320227DEST_PATH_IMAGE008
个像素位置的输出激活向量,
Figure DEST_PATH_IMAGE015
为像素位置的数量,
Figure DEST_PATH_IMAGE016
为学习与所述第一输入图象类别相关的权重向量。
5.根据权利要求2所述的图像分类方法,其特征在于,使所述注意力分类网络和聚类网络共享相同的特征提取参数。
6.一种注意力融合互信息的图像分类装置,其特征在于,包括:CNN模块、不变信息聚类模块、注意力估算模块、注意力加权模块、线性分类器,
所述CNN 模块为双输入CNN 模块,以分别接收属于同一类别的第一输入图像和第二输入
图像,用于提取所述第一输入图像的第一全局特征、第二输入图像的第二全局特征和第一输
入图像的第一局部特征,并将所述第一全局特征和第二全局特征转换为与类标签对应的第一
语义概率和第二语义概率,
所述注意力估算模块用于根据所述第一全局特征和所述第一局部特征获取所述第一局部
特征的注意力图,
所述注意力加权模块通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
所述线性分类器根据所述注意力加权特征进行所述第一输入图像的分类,并获取交叉熵损失,
所述不变信息聚类模块根据所述第一语义概率和第二语义概率计算所述第一输入图像和
第二输入图像的互信息,并根据最大化的所述互信息获取聚类网络的不变信息聚类损失,
构建注意力融合互信息的图像分类网络,所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络,其中,所述注意力融合互信息的图像分类网络根据所述交叉熵损失和所述不变信息聚类损失进行训练,以对所述第一输入图像进行分类预测,所述CNN模块、所述注意力估计模块、所述注意力加权模块和所述线性分类器构成注意力分类网络,所述CNN模块和所述不变信息聚类模块构成所述聚类网络。
7.根据权利要求6所述的图像分类装置,其特征在于,还包括所述第二输入图像获取模块,用于将所述第一输入图像进行随机扰动转换,以获得所述第二输入图像,所述第一输入图像为待分类图像,
所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更改颜色饱和度中的一种或多种。
8.根据权利要求7所述的图像分类装置,其特征在于,
所述CNN模块包括第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层,所述图像分类网络还包括第三完全卷积层,
所述第一卷积层用于接收所述第一输入图像和第二输入图像,以将从所述第一输入图像和第二输入图像中提取的特征输入至所述第二卷积层,所述第二卷积层输出所述第一输入图像的第一局部特征,所述第三卷积层与所述第二卷积层的输出相连,以将所述第二卷积层输出的特征转换后传输至所述第一完全卷积层,所述第一完全卷积层分别输出所述第一全局特征和第二全局特征,
所述第二完全卷积根据所述第一全局特征和第二全局特征转换为与类标签对应的第一语义概率和第二语义概率,
所述第三完全卷积层用将所述注意力加权特征换成相对于所述注意力加权特征更抽象的特征后再传输至所述线性分类器中分类。
9.根据权利要求8所述的图像分类装置,其特征在于:所述注意力图
Figure 400309DEST_PATH_IMAGE006
的计算公式为:
Figure DEST_PATH_IMAGE017
所述注意力加权特征
Figure 284695DEST_PATH_IMAGE011
的计算公式为:
Figure DEST_PATH_IMAGE018
所述全局特征的特征向量为
Figure 641989DEST_PATH_IMAGE002
,所述第一局部特征的局部特征向量为
Figure 228829DEST_PATH_IMAGE013
Figure 576633DEST_PATH_IMAGE014
,所述
Figure 399796DEST_PATH_IMAGE001
为所述第一局部特征向量中的第
Figure 516657DEST_PATH_IMAGE008
个像素位置的输出激活向量,
Figure DEST_PATH_IMAGE019
为像素位置的数量,
Figure 634917DEST_PATH_IMAGE016
为学习与对象类别相关的权重向量,
Figure DEST_PATH_IMAGE020
为兼容性评分函数,
Figure DEST_PATH_IMAGE021
,以及
Figure DEST_PATH_IMAGE022
10.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储的计算机程序被处理器执行时实现如权利要求1至5中任意一项所述图像分类方法。
CN202010710654.9A 2020-07-22 2020-07-22 注意力融合互信息的图像分类方法、装置及存储介质 Active CN111738355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010710654.9A CN111738355B (zh) 2020-07-22 2020-07-22 注意力融合互信息的图像分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010710654.9A CN111738355B (zh) 2020-07-22 2020-07-22 注意力融合互信息的图像分类方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111738355A CN111738355A (zh) 2020-10-02
CN111738355B true CN111738355B (zh) 2020-12-01

Family

ID=72657257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010710654.9A Active CN111738355B (zh) 2020-07-22 2020-07-22 注意力融合互信息的图像分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111738355B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016293B (zh) * 2020-10-22 2021-01-19 浙江大学 一种基于多实例协同对抗训练的远程监督关系抽取方法
CN112529878B (zh) * 2020-12-15 2024-04-02 西安交通大学 一种基于多视图半监督的淋巴结的分类方法、系统及设备
CN113378792B (zh) * 2021-07-09 2022-08-02 合肥工业大学 融合全局和局部信息的弱监督宫颈细胞图像分析方法
CN115564992A (zh) * 2022-09-26 2023-01-03 北京百度网讯科技有限公司 图像分类方法和图像分类模型的训练方法
CN115631388B (zh) * 2022-12-21 2023-03-17 第六镜科技(成都)有限公司 图像分类方法、装置、电子设备及存储介质
CN116109877B (zh) * 2023-04-07 2023-06-20 中国科学技术大学 组合式零样本图像分类方法、系统、设备及存储介质
CN117036788B (zh) * 2023-07-21 2024-04-02 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG192175A1 (en) * 2011-01-28 2013-08-30 Agency Science Tech & Res A method and system for detecting attention
CA3122686C (en) * 2018-12-11 2023-10-24 Exxonmobil Upstream Research Company Automated reservoir modeling using deep generative networks
CN111325318B (zh) * 2019-02-01 2023-11-24 北京地平线机器人技术研发有限公司 神经网络的训练方法、神经网络的训练装置和电子设备
US10510002B1 (en) * 2019-02-14 2019-12-17 Capital One Services, Llc Stochastic gradient boosting for deep neural networks
CN110472653B (zh) * 2019-07-01 2021-09-21 浙江大学 一种基于最大化区域互信息的语义分割方法
CN110796026A (zh) * 2019-10-10 2020-02-14 湖北工业大学 一种基于全局特征拼接的行人重识别方法
CN111191791B (zh) * 2019-12-02 2023-09-29 腾讯云计算(北京)有限责任公司 基于机器学习模型的图片分类方法、装置及设备

Also Published As

Publication number Publication date
CN111738355A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111738355B (zh) 注意力融合互信息的图像分类方法、装置及存储介质
Sincan et al. Autsl: A large scale multi-modal turkish sign language dataset and baseline methods
Yan et al. Triplet adversarial domain adaptation for pixel-level classification of VHR remote sensing images
He et al. Skip-connected covariance network for remote sensing scene classification
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN106649542B (zh) 用于视觉问答的系统和方法
Shi et al. Branch feature fusion convolution network for remote sensing scene classification
Yang et al. Show, attend, and translate: Unsupervised image translation with self-regularization and attention
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
CN105808752B (zh) 一种基于cca和2pknn的自动图像标注方法
CN107169485A (zh) 一种数学公式识别方法和装置
CN104517097A (zh) 一种基于kinect的运动人体姿态识别方法
CN112801236B (zh) 图像识别模型的迁移方法、装置、设备及存储介质
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN113822264A (zh) 一种文本识别方法、装置、计算机设备和存储介质
CN104616005A (zh) 一种领域自适应的人脸表情分析方法
CN110263855A (zh) 一种利用共基胶囊投影进行图像分类的方法
CN113516142A (zh) 文本图像匹配方法、装置、设备及存储介质
CN110851627B (zh) 一种用于描述全日面图像中太阳黑子群的方法
CN115546553A (zh) 一种基于动态特征抽取和属性修正的零样本分类方法
Li et al. KBHN: A knowledge-aware bi-hypergraph network based on visual-knowledge features fusion for teaching image annotation
Sajid et al. Facial asymmetry-based feature extraction for different applications: a review complemented by new advances
CN111242114A (zh) 文字识别方法及装置
Hu et al. Accurate structured-text spotting for arithmetical exercise correction
CN113688864B (zh) 一种基于分裂注意力的人-物交互关系分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant