CN108229519A

CN108229519A - 图像分类的方法、装置及系统

Info

Publication number: CN108229519A
Application number: CN201710087002.2A
Authority: CN
Inventors: 王晓刚; 朱烽; 李鸿升; 欧阳万里
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-02-17
Filing date: 2017-02-17
Publication date: 2018-06-29
Anticipated expiration: 2037-02-17
Also published as: CN108229519B

Abstract

本申请公开了图像分类的方法、装置及系统，图像分类方法包括：提取图像的特征图；从特征图生成图像的分别用于多个标签的多个基本置信度得分；根据各标签的空间位置之间的关系调节基本置信度得分，其中，标签的空间位置为标签对应的对象在图像中的位置；以及根据经过调节的基本置信度得分确定与图像对应的描述信息。本申请实施例提供的图像分类的技术方案，考虑了标签之间的空间位置关系，更为充分的利用了图像中所包含的信息，并可以得到更加准确分类结果。

Description

图像分类的方法、装置及系统

技术领域

本申请涉及计算机视觉和图像分类领域，具体涉及图像分类的方法、装置及系统。

背景技术

随着计算机视觉技术的发展，图像分类已经得到了广泛应用。多标签图像分类是非常常见的一种视觉计算问题，其用于对单张图片自动生成包含多种标签的描述，例如，在一张包含复杂场景的图像中自动识别出其中的多种物体(例如，行人、动物、树木等)以及场景相关的描述(例如，蓝天、白云、日出等)。

目前用于多标签图像分类的方法主要分为两类，第一类方法将多标签图像分类问题分解为多个相互独立的单标签分类问题，并利用已有的单标签分类方法来实现图像分类；第二类方法考虑了类别标签之间的语义相关性，在预测多标签中的一个标签时，该类方法考虑了该标签与已经预测出的标签之间的相关性。

发明内容

本申请实施例提供了一种图像分类的技术方案。

本申请实施例的一方面公开了一种图像分类方法，包括：提取图像的特征图；从特征图生成图像的分别用于多个标签的多个基本置信度得分；根据各标签的空间位置之间的关系调节基本置信度得分，其中，标签的空间位置为标签对应的对象在图像中的位置；以及根据经过调节的基本置信度得分确定与图像对应的描述信息。

在本申请的一个实施例中，根据各标签的空间位置之间的关系调节基本置信度得分包括：基于特征图确定与每个标签的空间位置对应的注意力图，其中，注意力图表示与注意力图对应的标签和特征图中特征的相关程度的空间分布；根据各标签的注意力图之间的关系确定与多个标签中的每个标签分别对应的约束置信度得分；以及利用约束置信度得分调节基本置信度得分。

在本申请的一个实施例中，在根据各标签的注意力图之间的关系确定与多个标签中的每个标签分别对应的约束置信度得分之前，还包括：对特征图中的每个像素位置生成与各标签中的每个标签对应的空间置信度得分，空间置信度得分包含与标签中的每个标签在像素位置出现的可能性有关的信息；以及利用空间置信度得分修正标签的注意力图。

在本申请的一个实施例中，基于特征图确定与每个标签的空间位置对应的注意力图包括：将特征图输入至深度神经网络中的第一卷积层，并利用第一卷积层对特征图进行卷积操作以及对卷积操作结果进行用于模拟人的注意力特性的归一化操作，获得与各标签中的每个标签对应的注意力图。

在本申请的一个实施例中，对特征图中的每个像素位置生成与各标签中的每个标签对应的空间置信度得分包括：将特征图输入至深度神经网络中的第二卷积层，并利用第二卷积层对特征图中的每个像素位置生成与标签中的每个标签对应的空间置信度得分。

在本申请的一个实施例中，根据各标签的注意力图之间的关系确定与多个标签中的每个标签分别对应的约束置信度得分包括：通过利用深度神经网络中的第三卷积层对通过第一卷积层获得的注意力图进行卷积操作，获得与多个标签中的每个标签对应的约束置信度得分。

在本申请的一个实施例中，提取图像的特征图包括：通过利用深度神经网络中的第四卷积层对图像进行卷积操作，获得图像的特征图；以及从特征图生成图像的分别用于多个标签的多个基本置信度得分包括：通过利用深度神经网络中的全连接层来从第四卷积层接收特征图并对特征图进行特征全连接操作，获得与图像对应的各标签的基本置信度得分。

在本申请的一个实施例中，深度神经网络通过以下步骤预先训练而得：

通过深度神经网络获得训练图像的分类，并根据所获得的分类与训练图像的参考分类的差别来调节第四卷积层与全连接层的参数；

固定第四卷积层与全连接层的参数，通过深度神经网络获得训练图像的分类，并根据所获得的分类与训练图像的参考分类的差别来调节第一卷积层和第二卷积层的参数；

固定第一卷积层、第二卷积层、第四卷积层以及全连接层的参数，通过深度神经网络获得训练图像的分类，并根据所获得的分类与训练图像的参考分类的差别来调节第三卷积层的参数；以及

通过深度神经网络获得训练图像的分类，并根据所获得的分类与训练图像的参考分类的差别来调节第一卷积层、第二卷积层、第三卷积层、第四卷积层以及全连接层的参数。

在本申请的一个实施例中，利用约束置信度得分调节基本置信度得分包括：将基本置信度得分和约束置信度得分进行线性求和。

在本申请的一个实施例中，根据经过调节的基本置信度得分确定与图像对应的描述信息包括：选择具有高于预定值的经过调节的基本置信度得分的标签；以及根据所选择的标签确定与图像的对应的描述信息。

本申请实施例提供的图像分类的技术方案考虑了标签的空间位置之间的关系，利用各个标签空间位置件的约束关系来修正置信度得分，如此，在进行图像分类时更为充分地利用了图像中所包含的信息，并且可以获得更加准确的分类结果。

本申请实施例的另一方面公开了一种用于图像分类的装置，包括：特征图提取器，提取图像的特征图；基本置信度生成器，从特征图生成图像的分别用于多个标签的多个基本置信度得分；基本置信度调节器，根据各标签的空间位置之间的关系调节基本置信度得分，其中，标签的空间位置为标签对应的对象在图像中的位置；以及分类器，根据经过调节的基本置信度得分确定与图像对应的描述信息。

在本申请的一个实施例中，基本置信度调节器包括：注意力图生成器，基于特征图确定与每个标签的空间位置对应的注意力图，其中，注意力图表示与注意力图对应的标签和特征图中特征的相关程度的空间分布；约束置信度生成器，根据各标签的注意力图之间的关系确定与多个标签中的每个标签分别对应的约束置信度得分；以及基本置信度调节器，利用约束置信度得分调节基本置信度得分。

在本申请的一个实施例中，基本置信度调节器还包括：空间置信度生成器，对特征图中的每个像素位置生成与各标签中的每个标签对应的空间置信度得分，空间置信度得分包含与标签中的每个标签在像素位置出现的可能性有关的信息；以及注意力图修正器，利用空间置信度得分修正标签的注意力图。

在本申请的一个实施例中，注意力图生成器用于将特征图输入至深度神经网络中的第一卷积层，并利用第一卷积层对特征图进行卷积操作以及对卷积操作结果进行用于模拟人的注意力特性的归一化操作，获得与各标签中的每个标签对应的注意力图。

在本申请的一个实施例中，空间置信度生成器用于将特征图输入至深度神经网络中的第二卷积层，并利用第二卷积层对特征图中的每个像素位置生成与标签中的每个标签对应的空间置信度得分。

在本申请的一个实施例中，约束置信度生成器用于通过利用深度神经网络中的第三卷积层对通过第一卷积层获得的注意力图进行卷积操作，获得与多个标签中的每个标签对应的约束置信度得分。

在本申请的一个实施例中，特征图提取器用于通过利用深度神经网络中的第四卷积层对图像进行卷积操作，获得图像的特征图；以及基本置信度生成器用于通过利用深度神经网络中的全连接层来从第四卷积层接收特征图并对特征图进行特征全连接操作，获得与图像对应的各标签的基本置信度得分。

在本申请的一个实施例中，装置还包括：训练器，通过以下步骤训练获得深度神经网络：

在本申请的一个实施例中，基本置信度调节器用于将基本置信度得分和约束置信度得分进行线性求和。

在本申请的一个实施例中，分类器用于：选择具有高于预定值的经过调节的基本置信度得分的标签；以及根据所选择的标签确定与图像的对应的描述信息。

在本申请的一个实施例中，装置还包括：图像采集器，用于采集图像。

在本申请的一个实施例中，装置还包括：图像管理器，用于根据图像的分类管理图像。

本申请实施例的另一方面还公开了一种用于图像分类的系统，包括：存储器，存储可执行指令；一个或多个处理器，与存储器通信以执行可执行指令从而完成以下操作：提取图像的特征图；从特征图生成图像的分别用于多个标签的多个基本置信度得分；根据各标签的空间位置之间的关系调节基本置信度得分，其中，标签的空间位置为标签对应的对象在图像中的位置；以及根据经过调节的基本置信度得分确定与图像对应的描述信息。

本申请实施例的又一方面公开了非暂时性计算机存储介质，该介质存储计算机可读指令，当这些指令被执行时使处理器执行以下操作：提取图像的特征图；从特征图生成图像的分别用于多个标签的多个基本置信度得分；根据各标签的空间位置之间的关系调节基本置信度得分，其中，标签的空间位置为标签对应的对象在图像中的位置；以及根据经过调节的基本置信度得分确定与图像对应的描述信息。

附图说明

在下文中，参照附图描述本申请的示例性且非限制性的实施方式。这些附图仅为说明性的并且通常不代表精确的比例。不同附图中相同或相似的元件以相同的附图标记表示。

图1是示出了根据本申请实施方式的图像分类方法的构思的示意图；

图2是示出了根据本申请实施方式的图像分类方法1000的流程图；

图3是示出了根据本申请实施方式的用于实施图像分类方法1000的深度神经网络200的结构示意图；

图4是示出了根据本申请实施方式的用于调节基本置信度得分的流程图；

图5示出了根据本申请实施方式的修正前后的注意力图U；

图6是示出了根据本申请实施方式的用于图像分类的装置400的示意图；以及

图7是适合实施本申请实施例的计算机系统500的示意图。

具体实施方式

在下文中，将参照详细的说明及附图对本申请的实施方式进行详细的说明。

图1是示出了根据本申请实施方式的图像分类方法的构思的示意图。如图1中所示，根据本申请实施方式的图像分类方法通过链各个分支对图像进行分类，通过其中一个分支获得输入图像中多个标签的基本置信度得分，在另一个分支中获得各标签的注意力图，并利用注意力图对基本置信度得分进行修正，例如将标签“云”的置信度从0.803修正为0.880，最终通过经过修正的置信度得分获得图像的描述信息。其中，图像的标签表示图像中的物体、场景、或它们的特征，例如，图1中输入图像的标签有云、湖、海、岩石等。标签注意力图与所对应标签在图像中出现的位置有关。图1所示的两个分支可以通过深度学习网络(例如，图1中的第一深度学习网络和第二深度学习网络)来实现。通过上述图像分类方法的构思，可以将图像中对象的空间位置信息引入到图像分类过程中，充分利用图像中包含的信息，并提高分类准确率。下文将参照图1至图5详细说明根据本申请实施方式的图像分类方法。

图2是示出了根据本申请实施方式的图像分类方法1000的流程图。如图2所示，方法1000包括：步骤S1100，提取图像的特征图；步骤S1200，从特征图生成图像的分别用于多个标签的多个基本置信度得分；步骤S1300，根据各标签的空间位置之间的关系调节基本置信度得分，其中，标签的空间位置为标签对应的对象在图像中的位置；以及步骤S1400，根据经过调节的基本置信度得分确定与图像对应的描述信息。其中，标签的基本置信度得分与该标签出现在图像中的几率有关，例如，图像中包括一个标签的几率越大，则该标签的基本置信度越高。根据实施方式的图像分类方法，考虑了标签之间的空间位置关系，更为充分的利用了图像中所包含的信息，并可以得到更加准确分类结果。描述信息可以是图像的分类或属性，例如，可以将图片中出现的多种物体(例如，行人、动物、树木等)的标签作为图像的描述信息；可以将图片中与场景相关的标签(例如，蓝天、白云、日出等)作为图像的描述信息；或可以将与对于图像中一个特定的物体(例如，人，狗，猫等)属性描述(例如，男性、戴眼镜、长袖等)的标签作为图像的描述信息。

对于步骤S1100和S1200，可以使用多种已有的深度神经网络实现，例如，可以将图像输入到ResNet-101网络中进行特征提，并从所提取的特征图生成图像的至少一个标签的基本置信度得分。在本公开的一些实施方式中，方法1000可以通过一个整体深度神经网络形成，上述用于实施步骤S1100和S1200的网络(例如，ResNet-101网络)可以作为一个子网络集成在该整体深度神经网络，该子网络可以整体进行训练以减少训练成本，但本公开不限于此。

在本公开的实施方式中，方法1000也可以通过图3中所示的深度神经网络200实施，深度神经网络200至少包括第一卷积层210、第二卷积层220、第三卷积层230、第四卷积层240以及全连接层250。如图3所示，第四卷积层240可接收图像，并且可分别连接至全连接层250、第一卷积层210、第二卷积层220，第一卷积层210可与第三卷积层连接，第二卷积层220可以与第三卷积层230连接，其中，全连接层250、第一卷积层210与第二卷积层220并联。实现本申请的方法的深度神经网络可以通过训练集进行不断的训练，并在训练中逐渐提高分类的准确性。应注意，根据本申请实施方式的方法可以使用任意一种深度神经网络架构，例如，GoogleNet，VGG-16，ResNet-101等，但本申请不限于此。

在该实施方式中，步骤S1100通过深度神经网络200的多个第四卷积层实现，其中，第四卷积层240包括多个神经元，每个神经元会对图像中的特征做出响应，这些神经元响应的集合组成图像的特征图。

第四卷积层240对图像进行的操作可以使用如下计算描述：

其中，“I”表示输入到地四卷积层的图像，“X”表示图像的特征图，“θ_cnn”表示第四卷积层240的参数，该参数为第四卷积层240中每个卷积核的参数，每个卷积核表示为一个“高度×宽度×通道数”的三维矩阵，该矩阵中的每一个元素都是需要训练学习的参数，其可以通过利用训练图像集训练深度神经网络200来确定，“M”和“N”表示特征的空间分辨率，“D”表示特征图的通道数。公式(1)表示通过第四卷积层240对图像I的操作(例如，卷积操作)获得图像I的特征图X。

在获得图像的特征图X之后，在步骤S1200中，可以从特征图生成图像I的分别用于多个标签的多个基本置信度得分。步骤S1200可以通过深度神经网络200中的全连接层250实现，全连接层250通过特征全连接操作将特征图X中的特征进行整合，例如，进行加权相加，从而获得图像I的至少一个标签的基本置信度得分，其中，加权相加中的权重通过利用训练图像集训练深度神经网络200来确定。全连接层250对特征图X进行的操作可以使用如下计算描述：

其中，为一个向量，其包含了图像I的至少一个标签的基本置信度得分，θ_cls表示全连接层250的参数，C表示所有可能的标签的总个数。例如，对于一个图像，可能的标签为人、蓝天和日出，则中可以包括人、蓝天和日出三个标签，而可以为[0.8,0.4,0.6]，即表示与人、蓝天和日出三个标签对应的基本置信度得分分别为0.8、0.4、0.6。

在获得与图像对应的分别用于多个标签的多个基本置信度得分之后，在步骤S1300中，根据各标签的空间位置之间的关系调节基本置信度得分，其中，标签的空间位置为标签对应的对象在图像中的位置。通常，图像中的多个对象会存在一定的空间关系，比如，太阳出现在大海之上的几率较大，人出现在沙滩上的几率比出现在天空中的几率大，所以可以根据标签的空间位置之间的关系来调节基本置信度以提高准确率，例如，当同时存在分别与沙滩、天空和人对应的标签时，可以将天空位置处于人对应标签的几率调低，在沙滩位置处将与人对应的标签的几率调高。

在本公开的实施方式中，如图4所示，根据各标签的空间位置之间的关系调节基本置信度得分可以包括：步骤S1310，基于特征图确定与每个标签的空间位置对应的注意力图，其中，注意力图表示与注意力图对应的标签和特征图中特征的相关程度的空间分布；步骤S1320，根据各标签的注意力图之间的关系确定与多个标签中的每个标签分别对应的约束置信度得分；以及步骤S1330，利用约束置信度得分调节基本置信度得分。注意力图反应了标签的空间位置，所以注意力图之间的关系反应了标签的空间位置之间的关系，因此，通过注意力图之间的关系生成与至少一个标签中的每个标签对应的约束置信度得分并使用该约束置信度得分对基本置信度得分进行调节，即，利用标签的空间位置之间的关系来修正基本置信度，这将标签的空间位置关系引入到分类过程中，充分利用了图像中包含的信息，并能够提高分类准确性。

在步骤S1310中，可以基于在步骤S1310中得到的特征图来获得与每个标签对应的注意力图以表示标签的空间位置，每个注意力图表示其对应的标签与特征图中特征的相关程度的空间分布，注意力图可以表示成与特征图具有相同尺寸的矩阵，并且该矩阵中每个点的数值可以表示该点处标签与特征图中特征的相关程度，相关程度越高，则该数值越大，例如，标签“日出”与特征图中和太阳有关的特征相关程度较高，则所述矩阵在与太阳对应的区域处具有较高的值，即，标签的注意力图与标签所对应的对象在图像中的位置有关。应理解的是，注意力图也可以表示成与特征图具有不同尺寸的矩阵，只要该矩阵可以表示标签与特征图中特征的相关程度的空间分布即可。可以利用深度神经网络从特征图获得与每个标签对应的注意力图，例如，可以利用深度神经网络中的多个卷积层对特征图进行卷积操作以获得与每个标签对应的注意力图，但本公开不限于此。

在本公开的实施方式中，步骤S1310可以通过如图3中所示的深度神经网络200中的多个第一卷积层210实施，例如，可以将从第四卷积层240得到的特征图输入到多个第一卷积层210中，然后输出与每个标签对应的注意力图，第一卷积层210可以包括用于不同标签的神经元，这些神经元可以对特征图中的不同特征产生不同的响应，这些响应的集合可以构成注意力图。例如，第一卷积层210中的用于标签“日出”的神经元可以对特征图中与太阳有关的特征产生较大的响应值，这样得到的与标签“日出”对应的注意力图在与太阳对应的位置处会具有较大的值，从而可以表明标签“日出”在特征图中的空间位置。第一卷积层210对应特征图X的操作可以使用如下计算描述：

其中，“Z”表示注意力图，该注意力图Z包括多个通道，每个通道对应一个标签，所以注意力图Z可以包括与每个标签对应的注意力图，f_att可以使用例如三层第一卷积层210来实现，θ_att为第一卷积层210的参数，该参数可为第一卷积层210中每个卷积核的参数，每个卷积核表示为一个“高度×宽度×通道数”的三维矩阵，该矩阵中的每一个元素都是需要训练学习的参数，其可以通过利用训练图像集训练深度神经网络200来确定。在一些实施方式中，还可以对注意力图Z中与每个标签对应的注意力图进行用于模拟人的注意力特性的归一化处理，例如，通过以下计算进行归一化：

其中，和分别表示注意力中(i,j)坐标处的对应于标签l的经归一化和未经归一化的注意力值，A表示的集合。

在获得注意力图Z或经归一化后的注意力图A之后，在步骤S1320中，可以根据各标签的注意力图之间的关系确定与多个标签中的每个标签分别对应的约束置信度得分。标签的注意力图之间的关系例如可以是一个标签的注意力图中注意力值较高的区域与另一标签的注意力图中注意力值较高的区域的位置关系。约束置信度得分表示用于对标签的基本置信度得分进行调整的数值，例如，在对基本置信度进行调整的过程中能，可将一个标签的基本置信度得分和约束置信度的和作为调整后的标签置信度，通过一个标签的约束置信度可以将该标签的置信度调高或调低。根据标签的注意力图之间的关系生成与多个标签中的每个标签对应的约束置信度得分可以通过深度神经网络实施，但本公开不限于此。

在本公开的实施方式中，步骤S1320可以通过深度神经网络200中的多个第三卷积层230实施。例如，可以将注意力图Z或经归一化后的注意力图A输入到第三卷积层230中，通过第三卷积层230对注意力图Z或经归一化后的注意力图A进行卷积操作来获得每个标签的约束置信度得分。在该步骤中，由于注意力图Z或经归一化后的注意力图A包含了与每个标签对应的注意力图，第三卷积层230可以通过注意力图Z或经归一化后的注意力图A或每个标签的注意力图之间的关系。第三卷积层230中的神经元会对不同的注意力图之间的关系产生不同的响应，通过这些响应可以获得与每个标签对应的约束置信度得分。以经归一化后的注意力图A为例，第三卷积层230对经归一化后的注意力图A的操作可以由以下计算描述：

为一个向量，其包含了每个标签的约束置信度得分，例如，对于一个图像，可能的标签为人、蓝天和日出，则可以为[0.2,0.1,0.2]，即表示与人、蓝天和日出三个标签对应的约束置信度得分分别为0.2、0.1、0.2。f_sr表示第三卷积层230对经归一化后的注意力图A进行的操作，在本实施方式中，f_sr可以通过三层第三卷积层230实现，但本公开不限于此。θ_sr为第三卷积层230的参数，该参数可为第三卷积层230中每个卷积核的参数，每个卷积核表示为一个“高度×宽度×通道数”的三维矩阵，该矩阵中的每一个元素都是需要训练学习的参数，其可以通过利用训练图像集训练深度神经网络200来确定。

在现有的两类图像分类方法中，仅通过利用图像中的语义特征来预测图像的标签，而没有利用图像中对象之间的空间位置关系。而在步骤S1300中，由于在获得约束置信度的过程中考虑了标签的注意力图之间的关系，即，考虑的标签的空间位置之间的关系，所以图像中对象之间的空间位置关系得到了利用，这样的空间位置关系有助于更准确的确定图像的标签，进而改进图像分类的准确性。

在本公开的实施方式中，在步骤S1320之前，还可以对每个标签的注意力图进行修正，例如，该修正过程可以包括：对特征图中的每个像素位置生成与标签中的每个标签对应的空间置信度得分，空间置信度得分包含与标签中的每个标签在像素位置出现的可能性有关的信息；以及利用空间置信度得分修正标签的注意力图。在特征图中一个像素位置处的、与标签对应的空间置信度得分可以表示该标签出现在该特征图中的该一个像素位置处的可能性，即，一个标签的空间置信度得分整体反映了该一个标签出现在图像中的可能性。对特征图中的每个像素位置生成与每个标签对应的空间置信度得分指的是在特征图中的每个像素位置处生成每个标签在该像素位置处出现的可能性。而利用空间置信度得分修正标签的注意力图相当于将标签出现的可能性引入到注意力图中，这样注意力图即包括了标签的空间位置信息，又包括了标签出现的可能性信息，有助于利用图像中的更多信息进行图像分类。每个标签的空间置信度得分例如可以通过深度神经网络对特征图进行卷积操作来获得，但本公开不限于此。

在本公开的实施方式中，对特征图中的每个像素位置生成与标签中的每个标签对应的空间置信度得分可以通过以下计算实施：

其中，“conv1”可以通过深度神经网络200中的第二卷积层220实现，θ_conv1为第二卷积层220的参数，该参数可为第二卷积层220中每个卷积核的参数，每个卷积核表示为一个“高度×宽度×通道数”的三维矩阵，该矩阵中的每一个元素都是需要训练学习的参数，其可以通过利用训练图像集训练深度神经网络200来确定。公式(6)表示将特征图X输入至第二卷积层220中，然后第二卷积层220中的神经元根据特征图X中每个点的特征对特征图X中每个点产生响应，根据这些响应生成每个标签的空间置信度得分，空间置信度得分S中包含特征图X中每个点的每个标签的空间置信度得分。

在获得每个标签的空间置信度得分之后，可以利用该空间置信度得分对每个标签的注意力图进行修正。例如，将一个标签的注意力图中某个位置处的值调高或调低。例如，对于一个标签“日出”，其注意力图中的中间区域具有较高的值，但是与该中间区域对应的标签“日出”的空间置信度得分较低，则可以调低该中间区域的与标签“日出”对应的注意力值。对特征图中的每个像素位置生成与每个标签对应的空间置信度得分指的是在特征图中的每个像素位置处生成每个标签在该位置处出现的可能性。而利用空间置信度得分修正标签的注意力图相当于将标签出现的可能性引入到注意力图中，这样注意力图即包括了标签的空间位置信息，又包括了标签出现的可能性信息，有助于利用图像中的更多信息进行图像分类。

利用该空间置信度得分对每个标签的注意力图进行修正可以通过以下计算实施：

其中，U表示经过修正的注意力图，U包括C个通道，每个通道对应一个标签，即U包括每个标签的经过修正的注意力图，其可以将空间置信度得分转换为概率。“°”操作符表示将两个三维矩阵(即，σ(S)和A)对应位置相乘。通过上述操作，标签出现的可能性信息被引入到注意力图中。应理解，虽然公式(7)是通过σ(S)和A对应位置相乘的方式获得经过修正的注意力图U，但是本申请不限于此，例如，也可以通过σ(S)和A点对点相加、A与S点对点相乘、A与S点对点相加等方式获得经过修正的注意力图U。

图5示出了根据本申请实施方式的修正前后的注意力图U，图5中示出了原始输入图像(左上)，以及与其对应的三组注意力图，该三组主力图中的每一组包括修正前和修正后的注意力图，该三组注意力图分别对应图像的三个标签“男性”、“帽子”和“T恤”，而这三个标签的参考置信度(即，标签分类的正确答案)分别为0.82、0.07和0.02，即，标签“男性”出现在图像中的可能性有82％，而标签“帽子”和“T恤”现在图像中的可能性分别为7％和2％。在图5中，标签“帽子”的注意力图为例，修正前的注意力图在人物的头部位置具有较高的值，然而，在实际情况中，该图像中并没有出现帽子，而经过上述方法修正后的注意力，由于引入了特征图中每个像素位置处各标签的置信度信息，将与标签“帽子”对应的注意力图中值压低，所以修正后的注意力图相较于修正前在人物的头部具有较低的值。而在与标签“男性”对应的注意力图中，由于实际情况中，男性标签出现在图像中的可能较高，所以修正前和修正后的注意力图都在人物喉结处具有较高的值。由此可见，经过上述方法修正后的注意力图有利于提高图像分类的准确率。在步骤S1320中可以使用经过修正的注意力图U替换注意图A。即，每个标签的约束置信度得分通过以下计算获得：

在本实施方式中，经过修正的注意力图中既包含了标签的空间位置信息，又包含了标签出现的可能性信息。通常，标签之间存在相关性，例如，标签“蓝天”和标签“白云”一起出现的概率比较大，而标签“轮船”与标签“沙漠”一起出现的概率则较小，该相关性可以通过标签出现的可能性信息来反映，例如，对于一个图像，标签“轮船”的出现几率较高，而标签“沙漠”出现几率较低。所以在本实施方式的步骤S1320中，既考虑了标签空间位置之间的关系，又考虑了标签之间的相关性，所以可以更加充分的利用图像中所包含的信息，在考虑标签空间关系的基础上，进一步提高图像分类的准确性。另外，在步骤S1320中除了使用经过修正的注意力图U替换注意图A外，还可以利用空间置信度得分S替换注意力图A，即，将公式(8)中的U替换为S。

在步骤S1330中，可以利用约束置信度得分调节基本置信度得分，例如，根据约束置信度得分将基本置信度得分调低或调高。

在本公开实施方式中，利用约束置信度得分调节基本置信度得分可以包括：将基本置信度得分和约束置信度得分进行线性求和。例如，可以线性求和可以表示为：

其中，表示经过调节的基本置信度得分，其可以是向量，例如，对于一个图像，可能的标签为人、蓝天和日出，则可以为[0.3,0.5,0.4]，即表示与人、蓝天和日出三个标签对应的经过调节的基本置信度得分分别为0.3、0.5、0.4。“α”用于对约束置信度得分和基本置信度得分进行加权，“α”可以预先设定或通过对深度神经网络的预训练获得，但本公开不限于此。

在步骤S1400中，可以根据经过调节的基本置信度得分确定与图像对应的描述信息。图像的描述信息可以与标签对应，即，每个标签对应图像的一个描述信息，可以将经过调节的基本置信度较高的标签确定为图像的描述信息，进而将该标签对应的分类确定为图像的描述信息。在本公开的实施方式中，根据经过调节的基本置信度得分确定与图像对应的描述信息包括：选择具有高于预定值的经过调节的基本置信度得分的标签；以及根据所选择的标签确定与图像的对应的描述信息。可以预先设定一个预定值，根据该预定值选择标签，例如，在经过调节的基本置信度得分为[0.2,0.5,0.4](分别对应人、蓝天和日出)以及预定值为0.3的情况下，可以将标签“蓝天”和“日出”选出，然后将蓝天和日出确定为图像的描述信息。

在本公开的实施方式中，深度神经网络200的第一卷积层210、第二卷积层220、第三卷积层230、第四卷积层240和全连接层250可以各自具有不同的层数，并且每层中的卷积核大小和数量也可以不同，它们的参数可以通过利用训练图像集来训练获得，在训练过程中，各卷积层的参数得到了不同的更新和修正。例如，训练图像集可以包括训练图像和与训练图像对应的参考标签。可以先通过深度神经网络200获得每个训练图像的标签然后通过将标签与参考标签y比较，根据标签与参考标签y之间的差别调整第四卷积层240与全连接层250的参数，然后重复获得标签、根据差别调整参数的过程，直到标签与参考标签y之间的差别不再减小，其中，标签y可以是与标签相同尺寸的向量。标签与参考标签y之间的差别可以通过损失函数F_loss获得，即

其中，C表示所有可能的标签的总个数，l表示所有可能的标签中的一个标签。

在确定第四卷积层240与全连接层250的参数后，可以固定第四卷积层240与全连接层250的参数，通过深度神经网络200获得每个训练图像的标签然后通过将标签与参考标签y比较，根据标签与参考标签y之间的差别调整第一卷积层210和第二卷积层220的参数，然后重复获得标签、根据差别调整参数的过程，直到标签与参考标签y之间的差别不再减小。

在确定第一卷积层210和第二卷积层220的参数后，可以固定第一卷积层210和第二卷积层220的参数以及第四卷积层240与全连接层250的参数，通过深度神经网络200获得每个训练图像的标签然后通过将标签与参考标签y比较，根据标签与参考标签y之间的差别调整第三卷积层230的参数，然后重复获得标签、根据差别调整参数的过程，直到标签与参考标签y之间的差别不再减小。

在确定第三卷积层230的参数后，可以通过深度神经网络200获得训练图像的分类，并根据所获得的分类与训练图像的参考分类的差别来调节第一卷积层210、第二卷积层220、第三卷积层230、第四卷积层240以及全连接层250等层的参数，然后通过将标签与参考标签y比较，根据标签与参考标签y之间的差别调整第三卷积层230的参数，然后重复获得标签、根据差别调整参数的过程，直到标签与参考标签y之间的差别不再减小。从而最终确定第一卷积层210、第二卷积层220、第三卷积层230、第四卷积层240以及全连接层250的参数。如上所述的逐层训练方法可以使得整个神经网络有效的收敛到一个较好的局部最优解。另外，除了上述训练方法，还可以随机初始化所有神经网络层，并同时训练所有层。

根据本公开的实施方式的图像分类方法考虑图像中包含对象的空间位置以及对象间的相关性，相比于现有的图像分类方法，本公开的图像分类方法不仅对图像中的信息进行了更加充分的利用，而且可以得到更为准确的分类结果。

根据本申请实施方式的方法可以应用于需要对输入图像生成多标签描述的使用场景。例如，用于识别出图片中出现的多种物体(例如，行人、动物、树木等)；估计图片中与场景相关的标签(例如，蓝天、白云、日出等)；对于一个特定的物体(例如，人，狗，猫等)，生成对该物体的属性描述(例如，男性、戴眼镜、长袖等)。根据本申请实施方式的方法还可以用于对互联网上的大量图像数据进行自动标注，从而帮助图像理解、图像检索、大规模图像数据挖掘等。

图6示出了根据本申请实施方式的用于图像分类的装置400的示意图。该装置400包括：特征图提取器410，提取图像的特征图；基本置信度生成器420，从特征图生成图像的分别用于多个标签的多个基本置信度得分；基本置信度调节器430，根据各标签的空间位置之间的关系调节基本置信度得分，其中，标签的空间位置为标签对应的对象在图像中的位置；以及分类器440，根据经过调节的基本置信度得分确定与图像对应的描述信息。

在一个实施方式中，基本置信度调节器430包括：基于特征图确定与每个标签的空间位置对应的注意力图，其中，注意力图表示与注意力图对应的标签和特征图中特征的相关程度的空间分布；约束置信度生成器，根据各标签的注意力图之间的关系确定与多个标签中的每个标签分别对应的约束置信度得分；以及基本置信度调节器，利用约束置信度得分调节基本置信度得分。

在一个实施方式中，基本置信度调节器430还包括：空间置信度生成器，对特征图中的每个像素位置生成与各标签中的每个标签对应的空间置信度得分，空间置信度得分包含与标签中的每个标签在像素位置出现的可能性有关的信息；以及注意力图修正器，利用空间置信度得分修正标签的注意力图。

在一个实施方式中，注意力图生成器用于将特征图输入至深度神经网络中的第一卷积层，并利用第一卷积层对特征图进行卷积操作以及对卷积操作结果进行用于模拟人的注意力特性的归一化操作，获得与各标签中的每个标签对应的注意力图。

在一个实施方式中，空间置信度生成器用于将特征图输入至深度神经网络中的第二卷积层，并利用第二卷积层对特征图中的每个像素位置生成与标签中的每个标签对应的空间置信度得分。

在一个实施方式中，约束置信度生成器用于通过利用深度神经网络中的第三卷积层对通过第一卷积层获得的注意力图进行卷积操作，获得与多个标签中的每个标签对应的约束置信度得分。

在一个实施方式中，特征图提取器410用于通过利用深度神经网络中的第四卷积层对图像进行卷积操作，获得图像的特征图；以及基本置信度生成器420用于通过利用深度神经网络中的全连接层来从第四卷积层接收特征图并对特征图进行特征全连接操作，获得与图像对应的各标签的基本置信度得分。

在一个实施方式中，装置400还包括训练器，通过以下步骤训练获得深度神经网络：

在一个实施方式中，基本置信度调节器用于将基本置信度得分和约束置信度得分进行线性求和。

在一个实施方式中，分类器440用于：选择具有高于预定值的经过调节的基本置信度得分的标签；以及根据所选择的标签确定与图像的对应的描述信息。

在一个实施方式中，用于图像分类的装置400包括图像采集器，其用于采集所述图像。图像采集器可以是手机上的相机模块，通过图像采集器采集的图片可以通过利用前述特征图提取器410、基本置信度生成器420、基本置信度调节器430、以及分类器440等进行分类，以获得所采集图像的多标签。

在一个实施方式中，用于图像分类的装置400包括图像管理器，其用于根据所述图像的分类管理所述图像。例如，图像管理器可以从多张经过分类的图像中选择处包含标签“山”的图像并将这些图像存储在同一目录中。

如本领域普通技术人员所理解的，上述用于图像分类的装置400可使用集成电路(IC)的形式实施，该集成电路包括但不限于数字信号处理器、图形处理集成电路、影像处理集成电路以及音频处理集成电路等。本领域普通技术人员在本申请所提供的教导下可以知晓通过使用何种硬件或软件的形式来实施用于图像分类的装置400。例如，可采用存储有计算机可执行指令的存储介质的形式来实施本申请，该计算机可执行指令分别实现上述用于图像分类的装置400，从而通过计算机运行而实现它们各自的上述功能。也可采用计算机系统来实施本申请的用于图像分类的装置400，其中该计算机系统中包括存储有计算机可执行指令的存储器以及与存储器通信的处理器，处理器运行该可执行指令从而实现以上参照图6所描述的用于图像分类的装置400所具备的功能。

现参照图7，其示出了适合实施本申请实施例的计算机系统500的结构示意图。计算机系统500可包括处理单元(如中央处理单元(CPU)501，图像处理单元(GPU)等)，其可根据存储在只读存储器(ROM)502中的程序或从存储部分508加载至随机存取存储器(RAM)803中的程序而执行各种适当的动作和过程。在RAM 503中，还可存储有系统500操作所需要的各种程序和数据。CPU 501、ROM 502和RAM 503通过总线504彼此连接。输入/输出I/O接口505也与总线504连接。

以下为可与I/O接口505连接的部件：包括键盘、鼠标等的输入部分506；包括阴极射线管CRT、液晶显示设备LCD和扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括网络接口卡(如LAN卡和调制解调器等)的通信部分509。通信部分509可通过诸如因特网等网络执行通信处理。根据需要，驱动器510也可与I/O接口505连接。如磁盘、光盘、磁光盘、半导体存储器等的可拆卸介质511可安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本申请的实施方式所涉及的单元或模块可通过软件或硬件实施。所描述的单元或模块也可设置在处理器中。这些单元或模块的名称不应被视为限制这些单元或模块。

以上描述仅为本申请的示例性实施方式及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不背离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像分类方法，包括：

提取图像的特征图；

从所述特征图生成所述图像的分别用于多个标签的多个基本置信度得分；

根据各所述标签的空间位置之间的关系调节所述基本置信度得分，其中，所述标签的空间位置为所述标签对应的对象在所述图像中的位置；以及

根据经过调节的所述基本置信度得分确定与所述图像对应的描述信息。

2.如权利要求1所述的方法，其中，根据各所述标签的空间位置之间的关系调节所述基本置信度得分包括：

基于所述特征图确定与每个所述标签的空间位置对应的注意力图，其中，所述注意力图表示与所述注意力图对应的所述标签和所述特征图中特征的相关程度的空间分布；

根据各所述标签的注意力图之间的关系确定与所述多个标签中的每个标签分别对应的约束置信度得分；以及

利用所述约束置信度得分调节所述基本置信度得分。

3.如权利要求2所述的方法，其中，在根据各所述标签的注意力图之间的关系确定与所述多个标签中的每个标签分别对应的约束置信度得分之前，还包括：

对所述特征图中的每个像素位置生成与各所述标签中的每个标签对应的空间置信度得分，所述空间置信度得分包含与所述标签中的每个标签在所述像素位置出现的可能性有关的信息；以及

利用所述空间置信度得分修正所述标签的注意力图。

4.如权利要求2或3所述的方法，基于所述特征图确定与每个所述标签的空间位置对应的注意力图包括：

将所述特征图输入至深度神经网络中的第一卷积层，并利用所述第一卷积层对所述特征图进行卷积操作以及对卷积操作结果进行用于模拟人的注意力特性的归一化操作，获得与各所述标签中的每个标签对应的注意力图。

5.如权利要求4所述的方法，其中，对所述特征图中的每个像素位置生成与各所述标签中的每个标签对应的空间置信度得分包括：

将所述特征图输入至所述深度神经网络中的第二卷积层，并利用所述第二卷积层对所述特征图中的每个像素位置生成与所述标签中的每个标签对应的空间置信度得分。

6.一种用于图像分类的装置，包括：

特征图提取器，提取图像的特征图；

基本置信度生成模器，从所述特征图生成所述图像的分别用于多个标签的多个基本置信度得分；

基本置信度调节器，根据各所述标签的空间位置之间的关系调节所述基本置信度得分，其中，所述标签的空间位置为所述标签对应的对象在所述图像中的位置；以及

分类器，根据经过调节的所述基本置信度得分确定与所述图像对应的描述信息。

7.如权利要求6所述的装置，其中，所述基本置信度调节器包括：

注意力图生成器，基于所述特征图确定与每个所述标签的空间位置对应的注意力图，其中，所述注意力图表示与所述注意力图对应的所述标签和所述特征图中特征的相关程度的空间分布；

约束置信度生成器，根据各所述标签的注意力图之间的关系确定与所述多个标签中的每个标签分别对应的约束置信度得分；以及

基本置信度调节器，利用所述约束置信度得分调节所述基本置信度得分。

8.如权利要求7所述的装置，其中，所述基本置信度调节器还包括：

空间置信度生成器，对所述特征图中的每个像素位置生成与各所述标签中的每个标签对应的空间置信度得分，所述空间置信度得分包含与所述标签中的每个标签在所述像素位置出现的可能性有关的信息；以及

注意力图修正器，利用所述空间置信度得分修正所述标签的注意力图。

9.如权利要求7或8所述的装置，其中，所述注意力图生成器用于将所述特征图输入至深度神经网络中的第一卷积层，并利用所述第一卷积层对所述特征图进行卷积操作以及对卷积操作结果进行用于模拟人的注意力特性的归一化操作，获得与各所述标签中的每个标签对应的注意力图。

10.一种用于图像分类的系统，包括：

存储器，存储可执行指令；

一个或多个处理器，与存储器通信以执行可执行指令从而完成以下操作：

提取图像的特征图；