CN109522970B

CN109522970B - 图像分类方法、装置及系统

Info

Publication number: CN109522970B
Application number: CN201811448812.7A
Authority: CN
Inventors: 魏秀参; 宋恺涛
Original assignee: Xuzhou Kuangshi Data Technology Co ltd; Nanjing Kuangyun Technology Co ltd; Beijing Kuangshi Technology Co Ltd
Current assignee: Xuzhou Kuangshi Data Technology Co ltd; Nanjing Kuangyun Technology Co ltd; Beijing Kuangshi Technology Co Ltd
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2021-05-04
Anticipated expiration: 2038-11-28
Also published as: CN109522970A

Abstract

本发明提供了一种图像分类方法、装置及系统，涉及图像处理技术领域，该方法包括：获取待处理的目标图像；其中，目标图像中包含有待分类的目标对象；对目标图像进行特征初步提取，得到目标图像的初步特征；按照预设的掩码算法对初步特征进行至少一次掩码计算，并根据各次计算结果确定关键特征；其中，关键特征与目标对象的可判别部件相关；基于关键特征对目标对象进行分类识别，得到分类识别结果。本发明能够较好地提升图像分类的精确度。

Description

图像分类方法、装置及系统

技术领域

本发明涉及图像处理技术领域，尤其是涉及一种图像分类方法、装置及系统。

背景技术

伴随着深度学习(Deep Learning)的发展，计算机视觉在人工智能领域中逐渐扮演一个重要的角色。其中，目标识别任务虽然取得了较大进展，但仍然存在很多问题。

以细粒度分类(fine-grained recognition)任务为例，其主要是在类间方差大且类内方差小的数据分布中去精确识别物体类别的标签。具体而言，对图像进行细粒度分类的主要目的是区分同一物体大类下的物体子类，例如识别鸟的不同种类或车的不同车型等。通常情况下，类内差异远小于类间差异，因而用于识别类内差异的细粒度图像分类的难度远高于用于识别类间差异的传统图像分类，诸如，区分不同品种的猫的难度高于区分猫与狗的难度。现有的细粒度分类任务的识别准确度仍旧不佳，如何精确地识别物体类别还是现有的细粒度分类任务中亟需解决的主要问题。

发明内容

有鉴于此，本发明的目的在于提供一种图像分类方法、装置及系统，能够较为精确地识别图像中的物体类别，有助于提升细粒度分类任务的精确度。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种图像分类方法，包括：获取待处理的目标图像；其中，所述目标图像中包含有待分类的目标对象；对所述目标图像进行特征初步提取，得到所述目标图像的初步特征；按照预设的掩码算法对所述初步特征进行至少一次掩码计算，并根据各次计算结果确定关键特征；其中，所述关键特征与所述目标对象的可判别部件相关；基于所述关键特征对所述目标对象进行分类识别，得到分类识别结果。

进一步，所述对所述目标图像进行特征初步提取，得到所述目标图像的初步特征的步骤，包括：通过卷积神经网络对所述目标图像进行特征初步提取，得到所述目标图像的初步特征。

进一步，所述按照预设的掩码算法对所述初步特征进行至少一次掩码计算，并根据各次计算结果确定关键特征的步骤，包括：将所述初步特征输入至掩码注意力网络；其中，所述掩码注意力网络包括一个或多个运算网络层；通过所述掩码注意力网络中的各所述运算网络层按照预设的掩码算法对所述初步特征分别进行掩码计算，并根据各所述运算网络层的计算结果确定关键特征；其中，不同的所述运算网络层所确定的关键特征不同。

进一步，所述运算网络层包括第一运算网络层；所述掩码注意力网络包括L个依次连接的第一运算网络层；其中，L为预设的不小于1的自然数；所述通过所述掩码注意力网络中的各所述运算网络层按照预设的掩码算法对所述初步特征分别进行掩码计算的步骤，包括：通过第l个所述第一运算网络层对接收的初步特征进行第一注意力计算，得到所述初步特征中各特征块对应的第一注意力反馈值，并输出所述第一注意力反馈值最大的特征块；以及，对所述初步特征中的所述第一注意力反馈值最大的特征块进行掩码处理，并输出经掩码处理的初步特征；其中，l的值从1依次取至 L。

进一步，所述通过第l个所述第一运算网络层对接收的初步特征进行注意力计算，得到所述初步特征中各特征块对应的第一注意力反馈值的步骤，包括：通过第l个所述第一运算网络层按照以下公式进行第一注意力计算，得到接收的所述初步特征中各特征块对应的第一注意力反馈值：

其中，

表示第l个所述第一运算网络层接收的初步特征中第i个特征块x_i的第一注意力反馈值；M1_i∈{0，-∞}表示第一掩码矩阵M1的第i个元素；

表示第l个所述第一运算网络层的第一学习参数；

表示第l个所述第一运算网络层的第二学习参数；g(·)表征激活函数；n为第l个所述第一运算网络层接收的所述初步特征中特征块的总个数；x_j表示第l个第一运算网络层接收的初步特征中第j个特征块；M1_j表示第一掩码矩阵M1的第j个元素。

进一步，所述根据各所述运算网络层的计算结果确定关键特征的步骤，包括：将第l个所述第一运算网络层中输出的所述第一注意力反馈值最大的特征块确定为第l个所述第一运算网络层选取的关键图像特征；将所有的所述第一运算网络层选取的关键图像特征均确定为所述目标图像的关键特征。

进一步，所述运算网络层还包括第二运算网络层；所述掩码注意力网络还包括L个第二运算网络组；其中，第l个所述第一运算网络层的输出端还与第l个所述第二运算网络组的输入端相连；且每个所述第二运算网络组包括H个依次连接的第二运算网络层；其中，H为预设的不小于1的自然数；所述通过所述掩码注意力网络中的各所述运算网络层按照预设的掩码算法对所述初步特征分别进行掩码计算的步骤，还包括：获取各所述可判别部件对应的文本特征；将各所述文本特征和第l个所述第一运算网络层输出的所述第一注意力反馈值最大的特征块均输入至所述第l个第二运算网络组中，通过所述第l个第二运算网络组中的第h个第二运算网络层对接收的文本特征和特征块进行注意力计算，得到各所述文本特征对应的第二注意力反馈值；以及，对第二注意力反馈值低于预设反馈值的文本特征进行掩码处理，并输出经掩码处理后的文本特征以及其余未经掩码处理的文本特征；其中，h的值从1依次取至H。

进一步，所述获取所述可判别部件对应的文本特征的步骤，包括：获取各所述可判别部件对应的文本；通过LSTM网络将各所述可判别部件对应的文本均转换为向量形式的文本特征。

进一步，所述通过所述第l个第二运算网络组合中的第h个第二运算网络层对接收的文本特征和初步特征进行注意力计算，得到各所述文本特征对应的第二注意力反馈值的步骤，包括：通过所述第l个第二运算网络组合中的第h个第二运算网络层按照以下公式计算得到接收的各所述文本特征对应的第二注意力反馈值：

其中，

表示所述第l个第二运算网络组合中的第h个所述第二运算网络层接收的第k个文本特征w_k的第二注意力反馈值；p_i表示第l个所述第一运算网络层确定的第一注意力反馈值最大的初步特征；

表示所述第l 个第二运算网络组合中的第h个所述第二运算网络层的第三学习参数； M2_k∈{0，-∞}表示第二掩码矩阵M2的第k个元素；γ表示预设反馈值；⊙表示为点积操作；w_j表示第l个第二运算网络组合中的第h个第二运算网络层接收的第j个文本特征；M2_j表示第二码矩阵M2的第j个元素。

进一步，所述根据各所述运算网络层的计算结果从所述初步特征中选取关键特征的步骤，包括：将第l个所述第一运算网络层输出的所述第一注意力反馈值最大的特征块确定为第l个所述第一运算网络层选取的关键图像特征；以及，将第l个所述第二运算网络组合中未经掩码处理的文本特征确定为第l个所述第二运算网络层选取的关键文本特征；将第l个所述第一运算网络层选取的关键图像特征和第l个所述第二运算网络层选取的关键文本特征进行拼接，得到第l个联合特征；将所有的所述联合特征均确定为所述目标图像的关键特征。

进一步，所述基于所述关键特征对所述目标对象进行分类识别，得到分类识别结果的步骤，包括：通过分类网络基于所述关键特征对所述目标对象进行分类识别，得到分类识别结果；其中，所述分类网络包括依次连接的全连接层和softmax函数运算层。

第二方面，本发明实施例还提供一种图像分类装置，包括：图像获取模块，用于获取待处理的目标图像；其中，所述目标图像中包含有待分类的目标对象；特征提取模块，用于对所述目标图像进行特征初步提取，得到所述目标图像的初步特征；特征选取模块，用于按照预设的掩码算法对所述初步特征进行至少一次掩码计算，并根据各次计算结果从所述初步特征中选取关键特征；其中，不同次的所述计算结果确定的关键特征不同，且所述关键特征与所述目标对象的可判别部件相关；分类识别模块，用于基于所述关键特征对所述目标对象进行分类识别，得到分类识别结果。

第三方面，本发明实施例提供了一种图像分类系统，所述系统包括：图像采集装置、处理器和存储装置；所述图像采集装置，用于采集目标图像；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。

本发明实施例提供了一种图像分类方法、装置及系统，首先对目标图像进行特征初步提取，得到目标图像的初步特征，然后可以按照预设的掩码算法对初步特征进行至少一次掩码计算，并根据各次计算结果确定关键特征(与目标图像中待分类的目标对象的可判别部件相关)；然后基于关键特征对目标对象进行分类识别，可以得到分类识别结果。这种方式可以通过掩码计算确定与目标对象的可判别部件相关的关键特征，从而基于关键特征进行分类识别，能够较为精确地识别图像中的物体类别，有助于提升细粒度分类任务的精确度。

本发明实施例的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明实施例的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图；

图2示出了本发明实施例所提供的一种图像分类方法流程图；

图3示出了本发明实施例所提供的一种图像分类模型的结构示意图；

图4示出了本发明实施例所提供的一种第一运算网络层的计算示意图；

图5示出了本发明实施例所提供的另一种图像分类模型的结构示意图；

图6示出了本发明实施例所提供的一种第二运算网络层的计算示意图；

图7示出了本发明实施例所提供的一种图像分类模型的原理图；

图8示出了本发明实施例所提供的一种图像分类装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有技术难以较为精确地识别图像中的物体类别，为改善此问题，本发明实施例提供的一种图像分类方法、装置及系统，该技术可应用于诸如细粒度分类任务等任何类型的图像分类任务，以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的一种图像分类方法、装置及系统的示例电子设备100。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108 以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列 (FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/ 或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM) 和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的图像分类方法、装置及系统的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机等智能终端。

实施例二：

参见图2所示的一种图像分类方法流程图，该方法可由前述实施例提供的电子设备执行，该方法具体包括如下步骤：

步骤S202，获取待处理的目标图像；其中，目标图像中包含有待分类的目标对象。诸如，该目标图像中可以包含有待识别具体品种的鸟或猫等动物，或者该目标图像中包含有待识别具体车型的车辆等。

步骤S204，对目标图像进行特征初步提取，得到目标图像的初步特征。该初步特征又可理解为目标图像经特征初步提取得到的全图特征，具体可包含多个特征块，特征块也可理解为局部特征。

诸如，可以通过卷积神经网络(Convolutional Neural Networks,CNN) 对目标图像进行特征初步提取，得到目标图像的初步特征。卷积神经网络与普通神经网络的主要区别在于，卷积神经网络包含了由卷积层和子采样层构成的特征抽取器，可用于较好地提取图像特征。在具体应用时，可采用诸如AlexNet、GoogLeNet或者VGGNet等卷积神经网络结构实现，目标图像的图像尺度以及卷积神经网络结构可根据需要而灵活设置，在此不进行限制。

步骤S206，按照预设的掩码算法对初步特征进行至少一次掩码计算，并根据各次计算结果确定关键特征；其中，关键特征与目标对象的可判别部件相关。其中，可判别部件也即目标对象区别于其它类别的部件，诸如，鸟的腿部、鸟的喙部、鸟的羽毛等均可作为区分不同品种的鸟的可判别部件；猫的眼睛、猫的尾巴、猫的耳朵等可作为区分不同品种的猫的可判别部件。

在一种实施方式中，可以按照预设的掩码算法对初步特征中所包含的特征块先后进行多次掩码计算，前一次的掩码计算结果可以对后一次的掩码计算结果有所影响。如，前一次的掩码计算结果确定了关键特征A之后，后一次的掩码计算结果可确定与关键特征A不同的关键特征B，也即，不同次的计算结果确定的关键特征不同。本实施例提及的掩码算法可根据需要而自行设置，掩码算法的主要目的是通过计算结果判断初步特征中所包含的哪些特征块需要被掩码，哪些特征块不需要被掩码，从而最终确定与目标对象的可判别部件相关的关键特征。在具体实施时，本实施例所指的“掩码”可以是将特征块的特征值设定为诸如0等指定值，相当于将需要被掩码的特征块进行掩盖。该关键特征可以是从初步特征中直接选取的与可判别部件相关的图像特征块，也可以是借助初步特征找寻的与可判别部件相关的其它模式的特征，诸如，与初步特征中的图像特征块可表征的目标对象的可判别部件相关的文本特征，或者是图像特征块与文本特征进行拼接后的联合特征等。为便于理解，在一种具体实施方式中，掩码计算可以为通过预设的掩码注意力网络计算初步特征的注意力反馈值，并根据注意力反馈值的大小确定初步特征中被掩码的特征块。诸如，在一些掩码算法中，注意力反馈值最大的特征块需要被掩码，而一些掩码算法中，注意力反馈值符合预设阈值范围内的特征块需要被掩码。其中，注意力反馈值可体现出特征块对分类结果的影响程度。

步骤S208，基于关键特征对目标对象进行分类识别，得到分类识别结果。诸如，可以采用深度学习领域中的分类网络实现。一种具体的实施方式中，该分类网络可以包括依次连接的全连接层和softmax函数运算层。

本发明实施例提供的上述图像分类方法，首先对目标图像进行特征初步提取，得到目标图像的初步特征，然后可以按照预设的掩码算法对初步特征进行至少一次掩码计算，并根据各次计算结果确定关键特征(与目标图像中待分类的目标对象的可判别部件相关)；然后基于关键特征对目标对象进行分类识别，可以得到分类识别结果。这种方式可以通过掩码计算确定与目标对象的可判别部件相关的关键特征，从而基于关键特征进行分类识别，能够较为精确地识别图像中的物体类别，有助于提升细粒度分类任务的精确度。

在具体实施时，可以预先构建图像分类模型，通过图像分类模型基于上述图像分类方法实现，参见图3所示的一种图像分类模型的结构示意图，示意出该图像分类模型包括依次连接的特征提取网络、掩码注意力网络和分类网络。其中，特征提取网络可以为包含有多个卷积层的卷积神经网络，诸如，可以选用VGG卷积神经网络或者其它经典的卷积神经网络实现。掩码注意力网络主要用于对特征提取网络输出的初步特征进行掩码计算，并确定关键特征；分类网络主要用于对掩码注意力网络输出的关键特征进行分类识别，最终得到分类识别结果。具体实现时，掩码注意力网络主要是在注意力网络的基础上增加掩码运算，以通过注意力计算以及特征掩码的方式识别可判别部件。基于此，本实施例提供的图像分类模型又可称为掩码注意力模型，该图像分类模型具有较好的扩展性和通用性，因此又可称为膨胀掩码注意力模型。为便于理解，以下首先对图像分类模型中的掩码注意力网络进行较为详细的说明。

本实施例给出了一种采用掩码注意力网络确定关键特征的具体实施方式，也即上述步骤S206的具体执行方式可以为：首先将初步特征输入至掩码注意力网络；其中，掩码注意力网络包括一个或多个运算网络层；然后通过掩码注意力网络中的各运算网络层按照预设的掩码算法对初步特征分别进行掩码计算，并根据各运算网络层的计算结果确定关键特征；其中，不同的运算网络层所确定的关键特征不同。

在一种实施方式中，运算网络层包括第一运算网络层；掩码注意力网络包括L个依次连接的第一运算网络层；其中，L为预设的不小于1的自然数。基于此，上述通过掩码注意力网络中的各运算网络层按照预设的掩码算法对初步特征分别进行掩码计算的步骤，具体可以包括：通过第l个第一运算网络层对接收的初步特征进行第一注意力计算，得到初步特征中各特征块对应的第一注意力反馈值，并输出所述第一注意力反馈值最大的特征块；以及，对初步特征中第一注意力反馈值最大的特征块进行掩码处理，并输出经掩码处理后的初步特征；其中，l的值从1依次取至L。也即，对于每个第一运算网络层，都执行上述步骤。在实际应用中，如果l的值大于 1，则第l个第一运算网络层接收的初步特征是由第l-1个第一运算网络层输出的经掩码处理后的初步特征；如果l的值等于1，则第l个第一运算网络层接收的初步特征是由特征提取网络输出的初步特征。

上述每个第一运算网络层均经过掩码计算得到一个第一注意力反馈值最大的特征块，本实施例中，如果图像分类模型仅是基于视觉域(图像) 对目标对象进行分类，则可以将第l个第一运算网络层输出的第一注意力反馈值最大的特征块确定为第l个第一运算网络层选取的关键图像特征；将所有的第一运算网络层选取的关键图像特征均确定为目标图像的关键特征。

因此，L个第一运算网络层一共可以得到L个基于视觉域的图像关键特征。同时，由于第l个第一运算网络层接收的初步特征是由第l-1个第一运算网络层输出的经掩码处理后的初步特征，因此第l个第一运算网络层仅能基于其余未经第l-1个第一运算网络层进行掩码处理的特征块进行计算，得到第l个第一运算网络层选取的关键特征，这种掩码方式可以使得不同的第一运算网络选取的关键特征不同。

为便于理解，可以参见图4所示的一种第一运算网络层的计算示意图，象征性示意出了两个第一运算网络层(PMA1-1和PMA1-2)的计算结果；如图，假设初始特征共包括10个特征块(X₁至X₁₀)，X₁至X₁₀经过前一个第一运算网络层PMA1-1,得到各特征块对应的第一注意力反馈值，在图4 中以颜色的深浅(由于图4为灰度图，具体而言是以灰色深度来表征)来表征第一注意力反馈值的大小，其中，颜色越浅表明特征块对应的第一注意力反馈值越大。由图4中可见，PMA1-1计算得到的特征块X₆的注意力反馈值最大；基于此，PMA1-1将特征块X₆输出，应当注意的是，PMA1-1 虽将特征块X₆输出，但初步特征中仍旧包含特征块X₆，也即初步特征仍旧是由X₁至X₁₀构成，因此还要对初步特征中的特征块X₆进行掩码处理，然后将经掩码处理后的初步特征输给后一个第一运算网络层PMA1-2，由 PMA1-2再分别计算10个特征块X₁至X₁₀的第一注意力反馈值。由于X₆已进行掩码处理，与其它特征相比，PMA1-2不会再对其进行正常的掩码计算，从图4的计算结果可看出X₆在PMA1-2的计算结果中对应的第一注意力反馈值的颜色最深，也即经掩码后的X₆在PMA1-2的计算结果中必然不属于第一注意力反馈值最大的特征，从而可确保PMA1-2能够找出与X₆不同的关键特征。或者，也可以理解为PMA1-2仅从除X₆之外的其余特征块中选取第一注意力反馈值最大的特征块。如图4所示，PMA1-2计算得到的特征块X₉的注意力反馈值最大。

假设特征提取网络从目标图像中提取的特征X∈R^14×14×512，其中，14*14 为图像特征的空间尺度，则n＝14*14。此时提取的特征块序列可表示为 X_n＝{x₁,…,x_n}，其中x_i表示第i个特征块。可以理解的是，以上仅为示例，在实际应用中，图像特征的空间尺度可灵活设置，n的值根据实际图像情况不同而不同。

本实施例给出了一种通过第l个第一运算网络层对接收的初步特征进行注意力计算，得到初步特征中各特征块对应的第一注意力反馈值的具体实施方式，诸如，通过第l个第一运算网络层按照以下公式进行第一注意力计算，得到接收的初步特征中各特征块对应的第一注意力反馈值：

其中，

表示第l个第一运算网络层接收的初步特征中第i个特征块x_i的第一注意力反馈值；M1_i∈{0，-∞}表示第一掩码矩阵M1的第i个元素；

表示第l个第一运算网络层的第一学习参数；

表示第l个第一运算网络层的第二学习参数；g(·)表征激活函数；n为第l个第一运算网络层接收的初步特征中特征块的总个数；x_j表示第l个所述第一运算网络层接收的初步特征中第j个特征块；M1_j表示第一掩码矩阵M1的第j个元素。其中，

和

均可通过网络模型的训练而习得，在实际应用中，可以通过弱监督 (weaksupervised)/无监督(unsupervised)的方式训练习得。

通过公式

可以看出，各层第一运算网络层在计算过程中，会令其它第一运算网络层中计算得到的第一注意力反馈值最大的特征块对应的第一注意力反馈值最小(负无穷)，从而确保不同的第一运算网络层所得到的第一注意力反馈值最大的特征块都是不同的。

如果图像分类模型中的掩码注意力网络仅包含第一运算网络层，并将所有第一运算网络层选取的第一注意力反馈值最大的特征块确定为目标图像的关键特征，则可以称该图像分类模型是针对视觉域的膨胀掩码注意力模型。其中，第一注意力反馈值可反映出特征块对于目标对象分类的影响比例，第一注意力反馈值越高，第一注意力反馈值对应的特征块对目标对象的分类识别结果的影响越大。通过这种原理，即可识别并提取出目标对象的可判别部件。诸如，将第l个所述第一运算网络层确定的第一注意力反馈值最大的特征块(也即，关键特征)表征为p_i，则通过包含有L个第一运算网络层的掩码注意力网络最终提取出的关键特征为{p ₁,…p _L}。之后即可通过分类网络基于关键特征进行分类识别，具体实施时，可以使分类网络仅基于关键特征识别，也可以使分类网络基于关键特征以及其它特征(诸如，目标图像的全局特征)进行拼接，综合作为用于分类网络对目标对象进行预测的特征。

以上图像分类模型仅基于视觉域对目标对象进行分类识别，可以理解为单模态识别，也即仅基于图像信息对目标对象进行分类识别。在此基础上，考虑到单独使用图像信息的上界有限，本实施例还提供了一种多模态分类识别的方式，通过引入多模态信息来增强特征表示，以进一步提升分类识别的准确率。在一种实施方式中，可以基于文本信息和图像信息两种模态信息进行分类识别，详细说明如下：

在另一种实施方式中，在上述掩码注意力模块仅包含第一运算网络层的图像分类模型的基础上，本实施例中的运算网络层还包括第二运算网络层；掩码注意力网络还包括L个第二运算网络组；其中，第l个第一运算网络层的输出端还与第l个第二运算网络组的输入端相连；且每个第二运算网络组包括H个依次连接的第二运算网络层；其中，H为预设的不小于1的自然数。

为便于理解，本实施例提供了参见图5所示的另一种图像分类模型的结构示意图，图5在图3的基础上，清楚的示意了LSTM网络、掩码注意力网络中的第一运算网络层，以及包含有多个第二运算网络层的第二运算网络组。可以理解的是，图5仅简单示意出了3个第一运算网络层和3个第二运算网络组，且在每个第二运算网络组中都简单示意出2个第二运算网络层。其中，第一运算网络层的输出均对应一个第二运算网络组，在实际应用中，第一运算网络层的输出实质可以与第二运算网络组中的每个第二运算网络层分别相连。为避免线路复杂而使图5难以直观理解，因此在图5中并未示意出第一运算网络层与和其对应的第二运算网络组中各第二运算网络层的具体连接线，仅是象征性示意出第一运算网络层与和其对应的第二运算网络组相连。如图5所示，图像分类模型中的运算网络层形成了堆叠多层次结构，在实际应用中，下层网络可为上层网络提供掩码。在具体应用中，每层网络的掩码均可由底层网络学习得出。

上述获取可判别部件对应的文本特征的步骤，可以包括：获取各可判别部件对应的文本；通过LSTM(long-short term memory，长短期记忆)网络将各可判别部件对应的文本均转换为向量形式的文本特征。诸如，将“长尾”“红冠”“白胸”“黑点背”“黑色鸟嘴”等表征可判别部件的文本压缩成诸如512维向量所表示成的特征，也可以理解为，本实施例中采用LSTM 网络将文本抽象成特征语义。

上述通过掩码注意力网络中的各运算网络层按照预设的掩码算法对初步特征分别进行掩码计算的步骤，还包括：获取各可判别部件对应的文本特征；将各文本特征和第l个第一运算网络层输出的第一注意力反馈值最大的特征块均输入至第l个第二运算网络组中，通过第l个第二运算网络组中的第h个第二运算网络层对接收的文本特征和特征块进行注意力计算，得到各文本特征对应的第二注意力反馈值；以及，对第二注意力反馈值低于预设反馈值的文本特征进行掩码处理，并输出经掩码处理后的文本特征以及其余未经掩码处理的文本特征；其中，h的值从1依次取至H。

为便于理解，可以参见图6所示的一种第二运算网络层的计算示意图，象征性示意出了两个第二运算网络层(PMA2-1和PMA2-2)的计算结果；如图，假设将10个文本特征W₁至W₁₀经过前一个第一运算网络层PMA2-1, 得到各文本特征对应的第二注意力反馈值，在图6中以颜色的深浅来表征第二注意力反馈值的大小，其中，颜色越浅表明文本特征对应的第一注意力反馈值越大；反之，颜色越深表明文本特征对应的第二注意力反馈值越小。由图6中可见，PMA2-1计算得到的文本特征W₁、W₂和W₃的注意力反馈值均小于预设阈值(颜色最深)，基于此，PMA2-1对文本特征W₁、 W₂和W₃进行掩码处理，然后将经掩码处理后的文本特征以及其余未经掩码处理的文本特征均输给后一个第二运算网络层PMA1-2，由PMA2-2再分别计算10个文本特征W₁至W₁₀的第二注意力反馈值。由于W₁、W₂和W₃已进行掩码处理，PMA2-2不会再对其进行正常的掩码计算，可以理解为 PMA2-2仅从除W₁、W₂和W₃之外的其余文本特征中选取第一注意力反馈值小于预设阈值的文本特征。如图6所示，PMA2-2计算得到的W₄、W₈、W₉和W₁₀的第二注意力反馈值低于预设阈值(颜色最深)，并对W₄、W₈、W₉和W₁₀掩码处理。具体可以理解为，PMA2-1选取的关键文本特征为W₄至W₁₀，PMA2-1选取的关键文本特征为W₅、W₆和W₇。其中，图6中所示的查询向量具体可以理解为该第二运算网络层所连接的第一运算网络层选取的第一注意力反馈值最大的特征块(也即，关键图像特征)。通过这种方式，借助关键图像特征可找到与可判别部件具有高相关性的关键文本特征，从而建立了不同域之间(视觉域和文本域)的关联。

在本实施例中，可以结合视觉域(图像)以及文字域(文本)综合确定关键特征，关键特征可以包含关键图像特征和关键文本特征，诸如，可以将第l个第一运算网络层输出的第一注意力反馈值最大的特征块确定为第l个第一运算网络层选取的关键图像特征；以及，将第l个第二运算网络组合中未经掩码处理的文本特征确定为第l个第二运算网络层选取的关键文本特征；将第l个第一运算网络层选取的关键图像特征和第l个第二运算网络层选取的关键文本特征进行拼接，得到第l个联合特征；并将所有的联合特征均确定为目标图像的关键特征。如果图像分类模型中的掩码注意力网络包含第一运算网络层和第二运算网络层，则可以称该图像分类模型是可用于多模态分析的膨胀掩码注意力模型。

进一步，本实施例给出了一种通过第l个第二运算网络组合中的第h 个第二运算网络层对接收的文本特征和初步特征进行注意力计算，得到各文本特征对应的第二注意力反馈值的具体实施方式，诸如，可以通过第l 个第二运算网络组合中的第h个第二运算网络层按照以下公式计算得到接收的各文本特征对应的第二注意力反馈值：

其中，

表示第l个第二运算网络组合中的第h个第二运算网络层接收的第k个文本特征w_k的第二注意力反馈值；p_i表示第l个第一运算网络层确定的第一注意力反馈值最大的初步特征；

表示第l个第二运算网络组合中的第h个第二运算网络层的第三学习参数；M2_k∈{0，-∞}表示第二掩码矩阵M2的第k个元素；γ表示预设反馈值；⊙表示为点积操作。在实际应用中，γ可根据需要而设置，诸如，γ＝0.1；w_j所述第l个第二运算网络组合中的第h个所述第二运算网络层接收的第j个文本特征；M2_j表示第二掩码矩阵M2的第j个元素。

通过

可以看出，各层第二运算网络层在计算过程中，会令计算得到的第二注意力反馈值低于预设反馈值的文本特征进行掩码 (也即，令第二注意力反馈值为负无穷)，最终筛选得到高于预设反馈值的文本特征。

在实际应用中，如图4和图6所示的掩码算法还可根据实际需要而灵活变更，图4和图6仅是本实施例给出的一种具体的实现方式，不应当被视为限制。

为了便于理解，可结合图7对目标图像(包含的目标对象为鸟)中的鸟的品种类别进行识别为例进行示意性说明，如图7所示，鸟儿图像首先输入至CNN网络进行特征提取，得到初始特征，然后将初始特征输入至第一运算网络层PMA1进行一次掩码计算，得到第一注意力反馈值最大的特征块；如图7中显示PMA1计算得到的第一注意力反馈值最大的特征块表征该鸟的头部图像，将该特征块作为第一个PMA1选取的关键图像特征，输入给与第一运算网络层PMA1相连的第二运算网络层PMA2，由PMA2 再基于关键图像特征和LSTM网络输出的文本特征进行掩码计算，确定关键文本特征，最后再将关键文本特征输出给分类网络进行分类预测。为了清楚示意，图7中设置了两个分类网络，第一分类网络仅用于根据PMA1 输出的关键图像特征进行分类预测，用于表征单模态预测，第二分类网络用于根据PMA1输出的关键图像特征和PMA2输出的关键文本特征综合进行分类预测，用于表征多模态预测。如图7所示，第二个PMA1选取的第一注意力反馈值最大的特征块表征该鸟的身体图像，第三个PMA1选取的第一注意力反馈值最大的特征块表征该鸟的尾部图像。各PMA1和PMA2 的具体掩码计算方式在此不再赘述。

综上所述，采用本实施例提供的上述图像训练方法，能够得到较为精确的细粒度分类识别结果。以鸟类为目标对象进行验证，本实施例提供的图像分类方法相比于其它图像分类方法，识别准确度(Accuracy)已经明显优于其它模型。诸如，在同一预设的鸟类数据集上采用各类图像分类方法进行验证，采用本实施例提供的图像分类方法得到的两种图像分类模型 PMA_PL(仅应用于视觉域)和PMA_PL+JRL(视觉域和文本域)的识别准确度基本高于现有的其它模型。具体而言，PMA_PL已经超越了所有使用带有监督信息的系统，提升在0.8-5.9个精度点；而相比于使用不带监督信息的系统而言，PMA_PL也可以超越绝大部分系统。而PMA_PL+JRL则可以达到88的精度。对比于使用额外信息的系统(诸如，在识别过程中结合有外部文本信息)，依然可以超过1.0-2.5个精度点。这些数据均可有效证明本实施例采用的图像分类方法可以取得更好的精度。

具体可参见表1所示的不同方法的识别精度列表：

表1 此外，再以花类数据集为例进行验证，验证结果如表2所示：

表2

表2同样证明了采用本实施例提供的图像分类方法得到的两种图像分类模型PMA_PL(仅应用于视觉域)和PMA_PL+JRL(视觉域和文本域)的识别准确度基本高于现有的其它模型。其中PMA_PL+JRL能够超过之前的方法 1.36-9.9的精度点。

通过上述两个数据集的验证结果，均可证明本实施例提出的图像分类方法能够较为精确地识别图像中的物体类别，可有效提升细粒度分类任务的精确度。

实施例三：

对于实施例二中所提供的图像分类方法，本发明实施例提供了一种图像分类装置，参见图8所示的一种图像分类装置的结构框图，该装置包括以下模块：

图像获取模块802，用于获取待处理的目标图像；其中，目标图像中包含有待分类的目标对象；

特征提取模块804，用于对目标图像进行特征初步提取，得到目标图像的初步特征；

特征选取模块806，用于按照预设的掩码算法对初步特征进行至少一次掩码计算，并根据各次计算结果从初步特征中选取关键特征；其中，不同次的计算结果确定的关键特征不同，且关键特征与目标对象的可判别部件相关；

分类识别模块808，用于基于关键特征对目标对象进行分类识别，得到分类识别结果。

本发明实施例提供的上述图像分类装置，可以通过掩码计算确定与目标对象的可判别部件相关的关键特征，从而基于关键特征进行分类识别，能够较为精确地识别图像中的物体类别，有助于提升细粒度分类任务的精确度。

在一种实施方式中，上述特征提取模块804用于通过卷积神经网络对目标图像进行特征初步提取，得到目标图像的初步特征。

在一种实施方式中，上述特征选取模块806用于将初步特征输入至掩码注意力网络；其中，掩码注意力网络包括一个或多个运算网络层；通过掩码注意力网络中的各运算网络层按照预设的掩码算法对初步特征分别进行掩码计算，并根据各运算网络层的计算结果确定关键特征；其中，不同的运算网络层所确定的关键特征不同。

在一种实施方式中，运算网络层包括第一运算网络层；掩码注意力网络包括L个依次连接的第一运算网络层；其中，L为预设的不小于1的自然数；上述特征选取模块806进一步用于通过第l个第一运算网络层对接收的初步特征进行第一注意力计算，得到初步特征中各特征块对应的第一注意力反馈值，并输出第一注意力反馈值最大的特征块；以及，对初步特征中的第一注意力反馈值最大的特征块进行掩码处理，并输出经掩码处理后的初步特征；其中，l的值从1依次取至L。

在一种具体实施方式中，上述特征选取模块806进一步用于通过第l 个第一运算网络层按照以下公式进行第一注意力计算，得到接收的初步特征中各特征块对应的第一注意力反馈值：

其中，

表示第l个第一运算网络层的第一学习参数；

表示第l个第一运算网络层的第二学习参数；g(·)表征激活函数；n为第l个第一运算网络层接收的初步特征中特征块的总个数；x_j表示第l个所述第一运算网络层接收的初步特征中第j个特征块；M1_j表示第一掩码矩阵M1的第j个元素。

在一种具体实施方式中，上述特征选取模块806进一步用于将第l个第一运算网络层中输出的第一注意力反馈值最大的特征块确定为第l个第一运算网络层选取的关键图像特征；将所有的第一运算网络层选取的关键图像特征均确定为目标图像的关键特征。

在另一种实施方式中，运算网络层除了包括第一运算网络层之外，还包括第二运算网络层；掩码注意力网络还包括L个第二运算网络组；其中，第l个第一运算网络层的输出端还与第l个第二运算网络组的输入端相连；且每个第二运算网络组包括H个依次连接的第二运算网络层；其中，H为预设的不小于1的自然数。

在一种具体实施方式中，上述特征选取模块806进一步用于获取各可判别部件对应的文本特征；将各文本特征和第l个第一运算网络层输出的所述第一注意力反馈值最大的特征块均输入至第l个第二运算网络组中，通过第l个第二运算网络组中的第h个第二运算网络层对接收的文本特征和特征块进行注意力计算，得到各文本特征对应的第二注意力反馈值；以及，对第二注意力反馈值低于预设反馈值的文本特征进行掩码处理，并输出经掩码处理后的文本特征以及其余未经掩码处理的文本特征；其中，h的值从1 依次取至H。

在一种具体实施方式中，上述特征选取模块806进一步用于获取各可判别部件对应的文本；通过LSTM网络将各可判别部件对应的文本均转换为向量形式的文本特征。

在一种具体实施方式中，上述特征选取模块806进一步用于通过第l 个第二运算网络组合中的第h个第二运算网络层按照以下公式计算得到接收的各文本特征对应的第二注意力反馈值：

其中，

表示第l个第二运算网络组合中的第h个第二运算网络层的第三学习参数；M2_k∈{0，-∞}表示第二掩码矩阵M2的第k个元素；γ表示预设反馈值；⊙表示为点积操作；w_j所述第 l个第二运算网络组合中的第h个所述第二运算网络层接收的第j个文本特征；M2_j表示第二掩码矩阵M2的第j个元素。

在一种具体实施方式中，上述特征选取模块806进一步用于将第l个第一运算网络层中输出的第一注意力反馈值最大的特征块确定为第l个第一运算网络层选取的关键图像特征；以及，将第l个第二运算网络组合中未经掩码处理的文本特征确定为第l个第二运算网络层选取的关键文本特征；将第l个第一运算网络层选取的关键图像特征和第l个第二运算网络层选取的关键文本特征进行拼接，得到第l个联合特征；将所有的联合特征均确定为目标图像的关键特征。

在一种实施方式中，上述分类识别模块808用于：通过分类网络基于关键特征对目标对象进行分类识别，得到分类识别结果；其中，分类网络包括依次连接的全连接层和softmax函数运算层。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例五：

对应于前述实施例所提供的方法和装置，本发明实施例还提供了一种图像分类系统，该系统包括图像采集装置、处理器和存储装置；图像采集装置，用于采集目标图像；存储装置上存储有计算机程序，计算机程序在被处理器运行时执行如实施例二提供的任一项的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统具体工作过程，可以参考前述实施例中的对应过程，在此不再赘述。

进一步，本实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述实施例二提供的任一项所述的方法的步骤。

本发明实施例所提供的图像分类方法、装置及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像分类方法，其特征在于，包括：

获取待处理的目标图像；其中，所述目标图像中包含有待分类的目标对象；

对所述目标图像进行特征初步提取，得到所述目标图像的初步特征；

按照预设的掩码算法对所述初步特征进行至少一次掩码计算，并根据各次计算结果确定关键特征；其中，所述关键特征与所述目标对象的可判别部件相关；其中，所述掩码计算为通过预设的掩码注意力网络计算初步特征的注意力反馈值，并根据注意力反馈值的大小确定所述初步特征中被掩码的特征块；

基于所述关键特征对所述目标对象进行分类识别，得到分类识别结果；

所述按照预设的掩码算法对所述初步特征进行至少一次掩码计算，并根据各次计算结果确定关键特征的步骤，包括：

将所述初步特征输入至掩码注意力网络；其中，所述掩码注意力网络包括一个或多个运算网络层；

通过所述掩码注意力网络中的各所述运算网络层按照预设的掩码算法对所述初步特征分别进行掩码计算，并根据各所述运算网络层的计算结果确定关键特征；其中，不同的所述运算网络层所确定的关键特征不同。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标图像进行特征初步提取，得到所述目标图像的初步特征的步骤，包括：

通过卷积神经网络对所述目标图像进行特征初步提取，得到所述目标图像的初步特征。

3.根据权利要求1所述的方法，其特征在于，所述运算网络层包括第一运算网络层；所述掩码注意力网络包括L个依次连接的第一运算网络层；其中，L为预设的不小于1的自然数；

所述通过所述掩码注意力网络中的各所述运算网络层按照预设的掩码算法对所述初步特征分别进行掩码计算的步骤，包括：

通过第l个所述第一运算网络层对接收的初步特征进行第一注意力计算，得到所述初步特征中各特征块对应的第一注意力反馈值，并输出所述第一注意力反馈值最大的特征块；以及，对所述初步特征中的所述第一注意力反馈值最大的特征块进行掩码处理，并输出经掩码处理后的初步特征；其中，l的值从1依次取至L。

4.根据权利要求3所述的方法，其特征在于，所述通过第l个所述第一运算网络层对接收的初步特征进行注意力计算，得到所述初步特征中各特征块对应的第一注意力反馈值的步骤，包括：

通过第l个所述第一运算网络层按照以下公式进行第一注意力计算，得到接收的所述初步特征中各特征块对应的第一注意力反馈值：

其中，

表示第l个所述第一运算网络层的第一学习参数；

表示第l个所述第一运算网络层的第二学习参数；g(·)表征激活函数；n为第l个所述第一运算网络层接收的所述初步特征中特征块的总个数；x_j表示第l个所述第一运算网络层接收的初步特征中第j个特征块；M1_j表示第一掩码矩阵M1的第j个元素。

5.根据权利要求3所述的方法，其特征在于，所述根据各所述运算网络层的计算结果确定关键特征的步骤，包括：

将第l个所述第一运算网络层中输出的所述第一注意力反馈值最大的特征块确定为第l个所述第一运算网络层选取的关键图像特征；

将所有的所述第一运算网络层选取的关键图像特征均确定为所述目标图像的关键特征。

6.根据权利要求3所述的方法，其特征在于，所述运算网络层还包括第二运算网络层；所述掩码注意力网络还包括L个第二运算网络组；其中，第l个所述第一运算网络层的输出端还与第l个所述第二运算网络组的输入端相连；且每个所述第二运算网络组包括H个依次连接的第二运算网络层；其中，H为预设的不小于1的自然数；

所述通过所述掩码注意力网络中的各所述运算网络层按照预设的掩码算法对所述初步特征分别进行掩码计算的步骤，还包括：

获取各所述可判别部件对应的文本特征；

将各所述文本特征和第l个所述第一运算网络层输出的所述第一注意力反馈值最大的特征块均输入至第l个所述第二运算网络组中，通过第l个所述第二运算网络组中的第h个第二运算网络层对接收的文本特征和特征块进行注意力计算，得到各所述文本特征对应的第二注意力反馈值；以及，对第二注意力反馈值低于预设反馈值的文本特征进行掩码处理，并输出经掩码处理后的文本特征以及其余未经掩码处理的文本特征；其中，h的值从1依次取至H。

7.根据权利要求6所述的方法，其特征在于，所述获取各所述可判别部件对应的文本特征的步骤，包括：

获取各所述可判别部件对应的文本；

通过LSTM网络将各所述可判别部件对应的文本均转换为向量形式的文本特征。

8.根据权利要求6所述的方法，其特征在于，所述通过第l个所述第二运算网络组合中的第h个第二运算网络层对接收的文本特征和特征块进行注意力计算，得到各所述文本特征对应的第二注意力反馈值的步骤，包括：

通过第l个所述第二运算网络组合中的第h个第二运算网络层按照以下公式计算得到接收的各所述文本特征对应的第二注意力反馈值：

其中，

表示第l个所述第二运算网络组合中的第h个所述第二运算网络层接收的第k个文本特征w_k的第二注意力反馈值；p_i表示第l个所述第一运算网络层确定的第一注意力反馈值最大的初步特征；

表示第l个所述第二运算网络组合中的第h个所述第二运算网络层的第三学习参数；M2_k∈{0，-∞}表示第二掩码矩阵M2的第k个元素；γ表示预设反馈值；⊙表示为点积操作；w_j表示第l个所述第二运算网络组合中的第h个所述第二运算网络层接收的第j个文本特征；M2_j表示第二码矩阵M2的第j个元素。

9.根据权利要求6所述的方法，其特征在于，所述根据各所述运算网络层的计算结果确定关键特征根据各所述运算网络层的计算结果从所述初步特征中选取关键特征的步骤，包括：

将第l个所述第一运算网络层输出的所述第一注意力反馈值最大的特征块确定为第l个所述第一运算网络层选取的关键图像特征；

将第l个所述第二运算网络组合中未经掩码处理的文本特征确定为第l个所述第二运算网络层选取的关键文本特征；

将第l个所述第一运算网络层选取的关键图像特征和第l个所述第二运算网络层选取的关键文本特征进行拼接，得到第l个联合特征；

将所有的所述联合特征均确定为所述目标图像的关键特征。

10.根据权利要求1所述的方法，其特征在于，所述基于所述关键特征对所述目标对象进行分类识别，得到分类识别结果的步骤，包括：

通过分类网络基于所述关键特征对所述目标对象进行分类识别，得到分类识别结果；其中，所述分类网络包括依次连接的全连接层和softmax函数运算层。

11.一种图像分类装置，其特征在于，包括：

图像获取模块，用于获取待处理的目标图像；其中，所述目标图像中包含有待分类的目标对象；

特征提取模块，用于对所述目标图像进行特征初步提取，得到所述目标图像的初步特征；

特征选取模块，用于按照预设的掩码算法对所述初步特征进行至少一次掩码计算，并根据各次计算结果从所述初步特征中选取关键特征；其中，不同次的所述计算结果确定的关键特征不同，且所述关键特征与所述目标对象的可判别部件相关；其中，所述掩码计算为通过预设的掩码注意力网络计算初步特征的注意力反馈值，并根据注意力反馈值的大小确定所述初步特征中被掩码的特征块；

分类识别模块，用于基于所述关键特征对所述目标对象进行分类识别，得到分类识别结果；

所述特征选取模块用于将初步特征输入至掩码注意力网络；其中，掩码注意力网络包括一个或多个运算网络层；通过掩码注意力网络中的各运算网络层按照预设的掩码算法对初步特征分别进行掩码计算，并根据各运算网络层的计算结果确定关键特征；其中，不同的运算网络层所确定的关键特征不同。

12.一种图像分类系统，其特征在于，所述系统包括：图像采集装置、处理器和存储装置；

所述图像采集装置，用于采集目标图像；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至10任一项所述方法的步骤。