CN111738355A - 注意力融合互信息的图像分类方法、装置及存储介质 - Google Patents
注意力融合互信息的图像分类方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111738355A CN111738355A CN202010710654.9A CN202010710654A CN111738355A CN 111738355 A CN111738355 A CN 111738355A CN 202010710654 A CN202010710654 A CN 202010710654A CN 111738355 A CN111738355 A CN 111738355A
- Authority
- CN
- China
- Prior art keywords
- attention
- input image
- feature
- classification
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2451—Classification techniques relating to the decision surface linear, e.g. hyperplane
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一注意力融合互信息的图像分类方法、装置及存储介质,在所述图像分类方法中,我们将注意力分类网络与最大化互信息的聚类网络集成在一起构成所述图像分类网络,以提高分类网络的性能和获得良好的特性,在所述分类网络中,所述注意力分类网络用作提取区分零件特征的过滤器,所述聚类模块充当半监督学习指导,并利用语义相似性内部类来提高分类性能,此外所述分类网络可以使用没有任何类别标签的数据训练网络,适应于数据集比较小的图像细粒度分类以及有利于提高分类的准确性。
Description
技术领域
本发明属于计算机图像识别技术领域,具体是涉及一种注意力融合互信息的图像分类方法、装置及存储介质。
背景技术
随着深度学习的发展,细粒度的图像分类备受关注。但是,这仍然是一个非常具有挑战性的问题,因为相同子类别中的对象可能呈现较大的外观变化,而来自不同子类别的对象可能呈现出更多相似的外观。图像分类中的传统问题,例如比例尺和视角的变化,复杂的背景和遮挡,由于标记细粒图像的成本大幅增加而变得更加难以处理。相比于通用的图像分类任务,细粒度图像分类拥有的数据集非常少。
一个好的模型应该能够发现并代表子类别中的细微视觉差异。为了获得目标局部特征表示,许多作品都引用了人工标注的边界框。由于大量的人力投入使部件的定义和标注既昂贵又主观,因此使用分类标签学习弱监督部件模型的方法取得了重大进展。这些方法通常由两个阶段组成,包括局部定位和细粒度特征学习。局部定位阶段旨在找到有判别性的部件,这通常被称为部件注意力学习阶段。研究人员提出作为多注意卷积神经网络(MA-CNN)进行细粒度识别,并在许多细粒度分类数据集中取得可喜的结果。但是,用于训练通道注意模型的监督信息是通过对所有训练数据集的峰值响应进行聚类来进行的,这会受到图像中对象的某些特定模式的频率影响。
发明内容
有鉴于此,本发明提供了一种注意力融合互信息的图像分类方法、装置及存储介质,以解决现有技术提供的分类网络准确性不高以及需要较多数据集的问题。
一种注意力融合互信息的图像分类方法,包括:
获取属于同一类别的第一输入图像和第二输入图像,
将所述第一输入图像和第二输入图像输入至训练好的注意力融合互信息的图像分类网络中,
分别提取所述第一输入图像和第二输入图像的全局特征,并将所述第一输入图像的第一全局特征和所述第二输入图像的第二全局特征转换为与类标签对应的第一语义概率和第二语义概率,
提取所述第一输入图像的第一局部特征,并根据所述第一全局特征和所述第一局部特征估计所述所述第一局部特征的注意力图,并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
将所述加权特征输入至线性分类器中进行分类,并获取所述线性分类器的交叉熵损失,
根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取不变信息聚类损失,
根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络,以进行所述第一输入图像的分类预测。
优选地,还包括构建注意力融合互信息的图像分类网络,所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络,根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络的步骤包括:
在获取所述交叉熵损失后,将所述交叉熵损失反向传播至所述注意力分类网络中,以训练所述注意力分类网络,
在获取所述不变信息聚类损失后,将所述不变信息聚类损失反向传播至所述聚类网络中,以训练所述聚类网络。
优选地,根据所述第一输入图像获取所述第二输入图像,所述第一输入图像为待分类图像,所述第二输入图像为所述第一输入图像通过随机扰动转换后获得的图片,
所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种。
优选地,根据所述第一全局特征和所述第一输入图像的第一局部特征获取所述所述第一局部特征的注意力度, 并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征的步骤包括:
优选地,使所述分类网络和聚类网络共享相同的特征提取参数。
一种注意力融合互信息的图像分类装置,其特征在于,包括:CNN模块、不变信息聚类模块、注意力估算模块、注意力加权模块、线性分类器,
所述CNN模块为双输入CNN模块,以分别接收属于同一类别的第一输入图像和第二输入图像,用于提取所述第一输入图像和第二输入图像的全局特征和第一输入图像的第一局部特征,
所述注意力估算模块用于根据所述第一全局特征和所述第一全局特征获取所述所述第一局部特征的注意力图,
所述注意力加权模块通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
所述线性分类器根据所述注意力加权特征进行所述第一输入图像的分类,并获取交叉熵损失,
所述不变信息聚类模块根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取聚类网络的不变息聚类损失,
其中,所述注意力融合互信息的图像分类网络根据所述交叉熵损失和所述不变信息聚类损失进行训练,以对所述第一输入图像进行分类预测,
所述CNN模块、所述注意力估计模块、所述注意力加权模块和所述线性分类器构成所述注意力分类网络,所述CNN模块和所述不变信息聚类模块构成所述聚类网络。
优选地,所述的图像分类装置还包括所述第二输入图像获取模块,用于将所述第一输入图像进行随机扰动转换,以获得所述第二输入图像,所述第一输入图像为待分类图像,
所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种,
优选地,所述CNN模块包括第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层,所述图像分类网络还包括第三完全卷积层,
所述第一卷积层用于接收所述第一输入图像和第二输入图像,以将从所述第一输入图像和第二输入图像中提取的特征输入至所述第二卷积层,所述第二卷积层输出所述第一输入图像的第一局部特征,所述第三卷积层与所述第二卷积层的输出相连,以将所述第二卷积层输出的特征转换后传输至所述第一完全卷积层,所述第一完全卷积层分别输出所述第一全局特征和第二全局特征,
所述第二完全卷积根据所述第一全局特征和第二全局特征转换为与类标签对应的第一语义概率和第二语义概率,
所述第三完全卷积层用将所述注意力加权特征换成成相对于所述注意力加权特征更抽象的特征后再传输至所述线性分类器中分类。
一种计算机可读存储介质,其特征在于,所述可读存储介质上存储的计算机程序被处理器执行时实现如上述任意一项所述图像分类方法。
本发明的有益效果为:本发明提供的所述图像分类方法中,我们将注意力分类网络与最大化互信息的聚类网络集成在一起构成分类网络,以提高分类网络的性能和获得良好的特性,在所述分类网络中,所述注意力分类网络用作提取区分零件特征的过滤器,所述聚类模块充当半监督学习指导,并利用语义相似性内部类来提高分类性能,此外所述分类网络可以使用没有任何类别标签的数据训练网络,适应于数据集比较小的图像细粒度分类以及有利于提高分类的准确性。
附图说明
图1为依据本发明提供的注意力融合互信息的图像分类网络框图;
图2为依据本发明提供的所述分类网络的注意力图的可视化图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所产生的所有其他实施例,都属于本发明保护的范围。此外需要说明的是,在具体实施方式这一项内容中“所述…”是仅指本发明的中的技术属于或特征。
在本发明实施例中提供的注意力融合互信息的图像分类方法主要包括以下步骤步骤1至步骤5,但是在依据本发明的其它实施例中,下列各个步骤的先后顺序不局限于本实施例中所示的。
步骤1:获取属于同一类别的第一输入图像和第二输入图像,并将所述第一输入图像和第二输入图像输入至训练好的注意力融合互信息的图像分类网络中。
根据所述第一输入图像获取所述第二输入图像,所述第一输入图像为待分类图像,所述第二输入图像为所述第一输入图像通过随机扰动转换后获得的图片,所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种。
步骤2:分别提取所述第一输入图像和第二输入图像的全局特征,并将所述第一输入图像的第一全局特征和所述第二输入图像的第二全局特征转换为与类标签对应的第一语义概率和第二语义概率。
步骤3:提取所述第一输入图像的第一局部特征,并根据所述第一全局特征和所述第一局部特征估计所述所述第一局部特征的注意力图,并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
步骤4:将所述加权特征输入至线性分类器中进行分类,并获取所述线性分类器的交叉熵损失。
步骤5:根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取不变信息聚类损失,
步骤6:根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络,以进行所述第一输入图像的分类预测。
在进行步骤2之前,还需先构建如图1所示的注意力融合互信息的图像分类网络,所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络,所述注意力类网络和聚类网络共用CNN模块提取二者所需要的特征参数,所述注意力类网络和聚类网络共享相同的特征提取参数。此外,在本发明实施例提供的所述图像分类方法中,在获取所述交叉熵损失后,将所述交叉熵损失反向传播至所述注意力分类网络中,以训练所述注意力分类网络,以及在获取所述不变信息聚类损失后,将所述不变信息聚类损失反向传播至所述聚类网络中,以训练所述聚类网络。而在依据本发明的其它实施例中,也可以先将所述交叉熵损失和不变聚类损失融合后,即将二者进行加权后获得的总损失传播到所述图像分类网络。
如图1所示,所述注意力融合互信息的图像分类网络,其特征在于,包括:CNN模块、不变信息聚类模块、注意力估算模块、注意力加权模块、线性分类器。所述CNN模块为双输入CNN模块,以分别接收属于同一类别的第一输入图像和第二输入图像,用于提取所述第一输入图像和第二输入图像的全局特征和第一输入图像的第一局部特征,所述注意力估算模块用于根据所述第一全局特征和所述第一全局特征获取所述所述第一局部特征的注意力图,所述注意力加权模块通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,所述线性分类器根据所述注意力加权特征进行所述第一输入图像的分类,并获取交叉熵损失,所述不变信息聚类模块根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取聚类网络的不变息聚类损失。其中,所述注意力融合互信息的图像分类网络根据所述交叉熵损失和所述不变信息聚类损失进行训练,以对所述第一输入图像进行分类预测。所述CNN模块、所述注意力估计模块、所述注意力加权模块和所述线性分类器构成所述注意力分类网络,所述CNN模块和所述不变信息聚类模块构成所述聚类网络。所述的图像分类装置还包括所述第二输入图像获取模块(图1中未画出),用于将所述第一输入图像进行随机扰动转换,以获得所述第二输入图像,所述第一输入图像为待分类图像,所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更该颜色饱和度中的一种或多种。如图1所示,所述CNN模块包括第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层,所述图像分类网络还包括第三完全卷积层。所述第一卷积层用于接收所述第一输入图像和第二输入图像,以将从所述第一输入图像和第二输入图像中提取的特征输入至所述第二卷积层,所述第二卷积层输出所述第一输入图像的第一局部特征,所述第三卷积层与所述第二卷积层的输出相连,以将所述第二卷积层输出的特征转换后传输至所述第一完全卷积层,所述第一完全卷积层分别输出所述第一全局特征和第二全局特征。所述第二完全卷积根据所述第一全局特征和第二全局特征转换为与类标签对应的第一语义概率和第二语义概率。所述第三完全卷积层用将所述注意力加权特征换成成相对于所述注意力加权特征更抽象的特征后再传输至所述线性分类器中分类。
需要说明的是在图1中为了便于展示所述分类方法的分类过程示意了两个第一卷积层、两个第二卷积层、两个第三卷积层、两个第一完全卷积层、两个第二完全卷积层,但实际上所述分类网络仅仅包括一个第一卷积层、一个第二卷积层、一个第三卷积层、一个第一完全卷积层、一个第二完全卷积层。所述第一输入图像依次经过所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层转换后获得第一语义概率后,再使第二输入图图像依次通过所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层转换后获得第二语义概率,即在图1中,上一层的所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层是所述分类网络真正包含的,而下一层的所述第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层是为了便于示意分类方法画出的示意模块,并非真实存在的。
本发明的所述注意力分类网络基于加强全局特征向量与局部特征向量之间的兼容性进行特征提取和分类。让我们将所述第一全局特征的特征向量表示为,将所述第一局部特征向量表示为。然后我们得到。在此,每个是第一局部特征的第个空间位置(共有个空间位置)输出激活向量。基于注意力分类网络通过限制分类器仅使用局部特征向量的集合来工作,该集合由兼容性评分选择和加权,因此我们需要先定义兼容性评分函数。
我们在所述注意力估计模块中采用加法运算使所述第一局部特征中的每个像素位置的局部特征向量和全局特征组合在一起,然后学习从结果描述符到兼容性评分的单个全连接层映射,以定义兼容性评分函数,使得,其中,。在这里,权重向量可以解释为学习与第一输入图像类别相关的通用特征集。如果和的维数不同,要学习一个线性函数,将映射到的维数,得到。这样,对于所述第一局部特征的局部特征层,容易获得兼容性分数集,其中是图像特征在到的维数的线性映射下的局部特征。为了获得最终的注意力图,
在所述注意力加权模块中,注意力图用于加权选择每个像素位置的特征向量。我们得到了所述注意力加权特征的特征向量。 在仅使用一个本地层的情况下,将用作所述线性分类器分类的最终图像特征。在使用一个以上的局部层的情况下,我们将多个所述注意力加权特征的特征向量连接起来,然后将其输入到最终的线性分类器中,并计算获取所述线性分类器分类的交叉熵损失,以将所述交叉熵损失方向传播至所述注意力分类网络中训练所述注意力分类网络。
分类网络以Softmax层结尾,因此输出可解释为离散随机变量在类上的分布,表示为。我们首先使用所述分类网络和第一输入图像和第二输入图像计算对应的类别分配变量和。所述输入图像包含相同的对象,变量与配对变量应该具有很强的统计关系,在数据集上被边缘化之后,联合概率分布由的矩阵给出,其中 的行和列的元素构成。
边际和可以通过对矩阵的行和列求和而获得。对于每个样本对,都有,考虑对称问题,使用对称化。因此所述不变信息的聚类网络的目标函数可以通过将矩阵插入到互信息表达式中来计算,从而获得所述最大化的互信息,其结果为:
本发明还提供了一种如图所述的所述图像分类装置,还提供了一种计算机可读存储介质,所述可读存储介质上存储的计算机程序被处理器执行时实现本发明提供的意一项所述图像分类方法。
为了证明本发明提供的图像分类方法和图像分类装置的有效性,我们将本发明提供的所述图像分类网络模型在细粒度数据集Caltech-UCSD Birds(CUB-200-2011)上进行评估。我们以错误率作为模型评价的指标,以CUB-200-2011数据集用作评估数据集,其包含200类的11788张鸟类图片,其中5994张训练集,5794张测试集,将本发明提供的分类网络模型与几个基线模型进行对比,对比的结果如表1所示。其中,所述基线模型为:VGG模型,其是基础的深度网络分类模型;GOOGLE-GAP模型,其通过激活输出学习注意力机制,并用于指导模型的训练;GOOGLE-GAP模型,其的基础模型是GoogleNet;RN-34模型,其通过从教师模型到学生模型迁移注意力来提高模型性能,以及其基础模型是ResNet;LPA模型,其通过结合全局特征和局部特征计算注意力模型。
表1
评估结果表明,同样是基于VGG的结构,本发明提供的分类网络模型比原始VGG模型和LPA模型性能分别提升10.14%和2.3%,与GoogleNet结构相比,该模型比GOOGLE-GAP模型提升5%,与ResNet结构相比,该模型比RN-34模型性能提高2%。
此外,图如2所示,其为本发明提供的图像分类网络中的注意力图的可视化图,可以看到注意力分类网络起到把关注点集中到目标上同时抑制不重要的背景信息,在第10层学习到的注意力可以基本包含目标的全局信息,而第13层学习到的注意力主要集中在有判别性的头部和脖子部分信息。
由上可见,本发明提供的所述图像分类方法中,我们将注意力分类网络与最大化互信息的聚类网络集成在一起构成分类网络,以提高分类网络的性能和获得良好的特性,在所述分类网络中,所述注意力分类网络用作提取区分零件特征的过滤器,所述聚类模块充当半监督学习指导,并利用语义相似性内部类来提高分类性能,此外所述分类网络可以使用没有任何类别标签的数据训练网络,适应于数据集比较小的图像细粒度分类以及有利于提高分类的准确性。
我依照本发明的实施例如上文所述,这些实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施例。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种注意力融合互信息的图像分类方法,其特征在于,包括:
获取属于同一类别的第一输入图像和第二输入图像,
将所述第一输入图像和第二输入图像输入至训练好的注意力融合互信息的图像分类网络中,
分别提取所述第一输入图像和第二输入图像的全局特征,并将所述第一输入图像的第一全局特征和所述第二输入图像的第二全局特征转换为与类标签对应的第一语义概率和第二语义概率,
提取所述第一输入图像的第一局部特征,并根据所述第一全局特征和所述第一局部特征估计所述所述第一局部特征的注意力图,并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
将所述加权特征输入至线性分类器中进行分类,并获取所述线性分类器的交叉熵损失,
根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取不变信息聚类损失,
根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络,以进行所述第一输入图像的分类预测。
2.根据权利要求1所述的图像分类方法,其特征在于,还包括构建注意力融合互信息的图像分类网络,所述注意力融合互信息的图像分类网络具有注意力分类网络和聚类网络,根据所述交叉熵损失和不变聚类损失训练所述注意力融合互信息的图像分类网络的步骤包括:
在获取所述交叉熵损失后,将所述交叉熵损失反向传播至所述注意力分类网络中,以训练所述注意力分类网络,
在获取所述不变信息聚类损失后,将所述不变信息聚类损失反向传播至所述聚类网络中,以训练所述聚类网络。
3.根据权利要求1所述图像分类方法,其特征在于,根据所述第一输入图像获取所述第二输入图像,所述第一输入图像为待分类图像,所述第二输入图像为所述第一输入图像通过随机扰动转换后获得的图片,
所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更改颜色饱和度中的一种或多种。
4.根据权利要求1所述的图像分类方法,其特征在于,根据所述第一全局特征和所述第一输入图像的第一局部特征获取所述所述第一局部特征的注意力度, 并通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征的步骤包括:
5.根据权利要求2所述的图像分类方法,其特征在于,使所述分类网络和聚类网络共享相同的特征提取参数。
6.一种注意力融合互信息的图像分类装置,其特征在于,包括:CNN模块、不变信息聚类模块、注意力估算模块、注意力加权模块、线性分类器,
所述CNN模块为双输入CNN模块,以分别接收属于同一类别的第一输入图像和第二输入图像,用于提取所述第一输入图像和第二输入图像的全局特征和第一输入图像的第一局部特征,
所述注意力估算模块用于根据所述第一全局特征和所述第一全局特征获取所述所述第一局部特征的注意力图,
所述注意力加权模块通过所述注意力图对所述第一局部特征进行加权,以获得注意力加权特征,
所述线性分类器根据所述注意力加权特征进行所述第一输入图像的分类,并获取交叉熵损失,
所述不变信息聚类模块根据所述第一语义概率和第二语义概率计算所述第一输入图像和第二输入图像的互信息,并根据最大化的所述互信息获取聚类网络的不变息聚类损失,
其中,所述注意力融合互信息的图像分类网络根据所述交叉熵损失和所述不变信息聚类损失进行训练,以对所述第一输入图像进行分类预测,
所述CNN模块、所述注意力估计模块、所述注意力加权模块和所述线性分类器构成所述注意力分类网络,所述CNN模块和所述不变信息聚类模块构成所述聚类网络。
7.根据权利要求6所述的图像分类装置,其特征在于,还包括所述第二输入图像获取模块,用于将所述第一输入图像进行随机扰动转换,以获得所述第二输入图像,所述第一输入图像为待分类图像,
所述随机扰动包括缩放、倾斜、旋转、翻转、更改对比度和、更改颜色饱和度中的一种或多种。
8.根据权利要求7所述的图像分类装置,其特征在于,
所述CNN模块包括第一卷积层、第二卷积层、第三卷积层、第一完全卷积层、第二完全卷积层,所述图像分类网络还包括第三完全卷积层,
所述第一卷积层用于接收所述第一输入图像和第二输入图像,以将从所述第一输入图像和第二输入图像中提取的特征输入至所述第二卷积层,所述第二卷积层输出所述第一输入图像的第一局部特征,所述第三卷积层与所述第二卷积层的输出相连,以将所述第二卷积层输出的特征转换后传输至所述第一完全卷积层,所述第一完全卷积层分别输出所述第一全局特征和第二全局特征,
所述第二完全卷积根据所述第一全局特征和第二全局特征转换为与类标签对应的第一语义概率和第二语义概率,
所述第三完全卷积层用将所述注意力加权特征换成成相对于所述注意力加权特征更抽象的特征后再传输至所述线性分类器中分类。
10.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储的计算机程序被处理器执行时实现如权利要求1至5中任意一项所述图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010710654.9A CN111738355B (zh) | 2020-07-22 | 2020-07-22 | 注意力融合互信息的图像分类方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010710654.9A CN111738355B (zh) | 2020-07-22 | 2020-07-22 | 注意力融合互信息的图像分类方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111738355A true CN111738355A (zh) | 2020-10-02 |
CN111738355B CN111738355B (zh) | 2020-12-01 |
Family
ID=72657257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010710654.9A Active CN111738355B (zh) | 2020-07-22 | 2020-07-22 | 注意力融合互信息的图像分类方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111738355B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016293A (zh) * | 2020-10-22 | 2020-12-01 | 浙江大学 | 一种基于多实例协同对抗训练的远程监督关系抽取方法 |
CN112529878A (zh) * | 2020-12-15 | 2021-03-19 | 西安交通大学 | 一种基于多视图半监督的淋巴结的分类方法、系统及设备 |
CN113378792A (zh) * | 2021-07-09 | 2021-09-10 | 合肥工业大学 | 融合全局和局部信息的弱监督宫颈细胞图像分析方法 |
CN115564992A (zh) * | 2022-09-26 | 2023-01-03 | 北京百度网讯科技有限公司 | 图像分类方法和图像分类模型的训练方法 |
CN115631388A (zh) * | 2022-12-21 | 2023-01-20 | 第六镜科技(成都)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN116109877A (zh) * | 2023-04-07 | 2023-05-12 | 中国科学技术大学 | 组合式零样本图像分类方法、系统、设备及存储介质 |
CN117036788A (zh) * | 2023-07-21 | 2023-11-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、训练图像分类模型的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130331727A1 (en) * | 2011-01-28 | 2013-12-12 | Agency For Science, Technology And Research | Method and system for detecting attention |
CN110472653A (zh) * | 2019-07-01 | 2019-11-19 | 浙江大学 | 一种基于最大化区域互信息的语义分割方法 |
US10510002B1 (en) * | 2019-02-14 | 2019-12-17 | Capital One Services, Llc | Stochastic gradient boosting for deep neural networks |
CN110796026A (zh) * | 2019-10-10 | 2020-02-14 | 湖北工业大学 | 一种基于全局特征拼接的行人重识别方法 |
CN111191791A (zh) * | 2019-12-02 | 2020-05-22 | 腾讯云计算(北京)有限责任公司 | 机器学习模型的应用方法、训练方法、装置、设备及介质 |
WO2020123101A1 (en) * | 2018-12-11 | 2020-06-18 | Exxonmobil Upstream Research Company | Automated reservoir modeling using deep generative networks |
CN111325318A (zh) * | 2019-02-01 | 2020-06-23 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、神经网络的训练装置和电子设备 |
-
2020
- 2020-07-22 CN CN202010710654.9A patent/CN111738355B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130331727A1 (en) * | 2011-01-28 | 2013-12-12 | Agency For Science, Technology And Research | Method and system for detecting attention |
WO2020123101A1 (en) * | 2018-12-11 | 2020-06-18 | Exxonmobil Upstream Research Company | Automated reservoir modeling using deep generative networks |
CN111325318A (zh) * | 2019-02-01 | 2020-06-23 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、神经网络的训练装置和电子设备 |
US10510002B1 (en) * | 2019-02-14 | 2019-12-17 | Capital One Services, Llc | Stochastic gradient boosting for deep neural networks |
CN110472653A (zh) * | 2019-07-01 | 2019-11-19 | 浙江大学 | 一种基于最大化区域互信息的语义分割方法 |
CN110796026A (zh) * | 2019-10-10 | 2020-02-14 | 湖北工业大学 | 一种基于全局特征拼接的行人重识别方法 |
CN111191791A (zh) * | 2019-12-02 | 2020-05-22 | 腾讯云计算(北京)有限责任公司 | 机器学习模型的应用方法、训练方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
BING LI ET AL: "Feature Extraction and Selection for Fault Diagnosis of Gear", 《ICSP2008 PROCEEDINGS》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016293A (zh) * | 2020-10-22 | 2020-12-01 | 浙江大学 | 一种基于多实例协同对抗训练的远程监督关系抽取方法 |
CN112529878A (zh) * | 2020-12-15 | 2021-03-19 | 西安交通大学 | 一种基于多视图半监督的淋巴结的分类方法、系统及设备 |
CN112529878B (zh) * | 2020-12-15 | 2024-04-02 | 西安交通大学 | 一种基于多视图半监督的淋巴结的分类方法、系统及设备 |
CN113378792A (zh) * | 2021-07-09 | 2021-09-10 | 合肥工业大学 | 融合全局和局部信息的弱监督宫颈细胞图像分析方法 |
CN113378792B (zh) * | 2021-07-09 | 2022-08-02 | 合肥工业大学 | 融合全局和局部信息的弱监督宫颈细胞图像分析方法 |
CN115564992A (zh) * | 2022-09-26 | 2023-01-03 | 北京百度网讯科技有限公司 | 图像分类方法和图像分类模型的训练方法 |
CN115631388A (zh) * | 2022-12-21 | 2023-01-20 | 第六镜科技(成都)有限公司 | 图像分类方法、装置、电子设备及存储介质 |
CN116109877A (zh) * | 2023-04-07 | 2023-05-12 | 中国科学技术大学 | 组合式零样本图像分类方法、系统、设备及存储介质 |
CN116109877B (zh) * | 2023-04-07 | 2023-06-20 | 中国科学技术大学 | 组合式零样本图像分类方法、系统、设备及存储介质 |
CN117036788A (zh) * | 2023-07-21 | 2023-11-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、训练图像分类模型的方法及装置 |
CN117036788B (zh) * | 2023-07-21 | 2024-04-02 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、训练图像分类模型的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111738355B (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111738355B (zh) | 注意力融合互信息的图像分类方法、装置及存储介质 | |
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
Yan et al. | Triplet adversarial domain adaptation for pixel-level classification of VHR remote sensing images | |
Sincan et al. | Autsl: A large scale multi-modal turkish sign language dataset and baseline methods | |
Han et al. | A unified metric learning-based framework for co-saliency detection | |
Chu et al. | Image style classification based on learnt deep correlation features | |
CN106649542B (zh) | 用于视觉问答的系统和方法 | |
Yang et al. | Show, attend, and translate: Unsupervised image translation with self-regularization and attention | |
CN106682696B (zh) | 基于在线示例分类器精化的多示例检测网络及其训练方法 | |
Delaitre et al. | Learning person-object interactions for action recognition in still images | |
CN106845430A (zh) | 基于加速区域卷积神经网络的行人检测与跟踪方法 | |
CN107169485A (zh) | 一种数学公式识别方法和装置 | |
CN106570521A (zh) | 多语言场景字符识别方法及识别系统 | |
CN112801236B (zh) | 图像识别模型的迁移方法、装置、设备及存储介质 | |
CN105574545B (zh) | 街道环境图像多视角语义切割方法及装置 | |
CN113822264A (zh) | 一种文本识别方法、装置、计算机设备和存储介质 | |
CN110263855A (zh) | 一种利用共基胶囊投影进行图像分类的方法 | |
CN113516142A (zh) | 文本图像匹配方法、装置、设备及存储介质 | |
CN110851627B (zh) | 一种用于描述全日面图像中太阳黑子群的方法 | |
CN115546553A (zh) | 一种基于动态特征抽取和属性修正的零样本分类方法 | |
KR102083786B1 (ko) | 문자열 식별 방법 및 장치, 그리고 이를 이용한 디스플레이 영상 식별 시스템 | |
Li et al. | KBHN: A knowledge-aware bi-hypergraph network based on visual-knowledge features fusion for teaching image annotation | |
Sajid et al. | Facial asymmetry-based feature extraction for different applications: a review complemented by new advances | |
CN111242114A (zh) | 文字识别方法及装置 | |
CN113688864B (zh) | 一种基于分裂注意力的人-物交互关系分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |