CN115331048B

CN115331048B - 图像分类方法、装置、设备以及存储介质

Info

Publication number: CN115331048B
Application number: CN202210907494.6A
Authority: CN
Inventors: 辛颖; 薛松; 冯原; 李超; 张滨; 王云浩; 韩树民
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2023-06-27
Anticipated expiration: 2042-07-29
Also published as: US20240037911A1; CN115331048A

Abstract

本公开提供了一种图像分类方法、装置、设备以及存储介质。涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域，可应用于图像分类等场景。具体实现方案为：通过第一网络模型提取目标图像的第一图像特征，第一网络模型包括卷积神经网络模块；通过第二网络模型提取目标图像的第二图像特征，第二网络模型包括深度自注意力变换网络(Transformer)模块；对第一图像特征和第二图像特征进行融合处理，得到待识别目标特征；基于待识别目标特征对目标图像进行分类。根据本公开的技术方案，能提高图像的分类准确率。

Description

图像分类方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域，可应用于图像分类等场景。

背景技术

图像分类是计算机视觉领域一个重要的研究方向。随着深度学习的发展，图像分类在计算机视觉领域得到了广泛的应用，如安防领域的人脸识别和智能视频分析、交通领域的交通场景识别、互联网领域的基于内容的图像检索和相册自动归类、医学领域的图像识别等。相关技术中，图像分类方法大多是通过传统的机器学习方法或者卷积神经网络方法进行图像分类，分类准确率较低。

发明内容

本公开提供了一种图像分类方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种图像分类方法，包括：

通过第一网络模型提取目标图像的第一图像特征，第一网络模型包括卷积神经网络模块；

通过第二网络模型提取目标图像的第二图像特征，第二网络模型包括深度自注意力变换网络(Transformer)模块；

对第一图像特征和第二图像特征进行融合处理，得到待识别目标特征；

基于待识别目标特征对目标图像进行分类。

根据本公开的第二方面，提供了一种图像分类装置，包括：

第一获取模块，用于通过第一网络模型提取目标图像的第一图像特征，第一网络模型包括卷积神经网络模块；

第二获取模块，用于通过第二网络模型提取目标图像的第二图像特征，第二网络模型包括Transformer模块；

特征融合模块，用于对第一图像特征和第二图像特征进行融合处理，得到待识别目标特征；

分类模块，用于基于待识别目标特征对目标图像进行分类。

根据本公开的第三方面，提供了一种电子设备，包括：

处理器；以及

与该处理器通信连接的存储器；其中，

该存储器存储有可被该处理器执行的指令，该指令被该处理器执行，以使该处理器能够执行上述第一方面所提供的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行上述第一方面所提供的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现上述第一方面所提供的方法。

本公开实施例，能提高图像的分类准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的图像分类方法的流程示意图；

图2是根据本公开实施例的特征融合的过程示意图；

图3是根据本公开实施例的图像分类模型的结构示意图；

图4是根据本公开实施例的图像分类的总体流程示意图；

图5是根据本公开实施例的图像分类装置的组成示意图；

图6是根据本公开实施例的图像分类场景的示意图；

图7是用来实现本公开实施例的图像分类方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书实施例和权利要求书及上述附图中的术语"第一"、"第二"和"第三"等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语"包括"和"具有"以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本公开实施例提供了一种图像分类方法，该图像分类方法可以应用于图像分类装置，该图像分类装置可位于电子设备上，该电子设备包括但不限于固定设备和/或移动设备。例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于车载终端、导航设备、手机、平板电脑等。在一些可能的实现方式中，该图像分类方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，该图像分类方法包括：

S101：通过第一网络模型提取目标图像的第一图像特征，第一网络模型包括卷积神经网络模块；

S102：通过第二网络模型提取目标图像的第二图像特征，第二网络模型包括Transformer模块；

S103：对第一图像特征和第二图像特征进行融合处理，得到待识别目标特征；

S104：基于待识别目标特征对目标图像进行分类。

本公开实施例中，第一网络模型和第二网络模型均可位于图像分类模型中。该图像分类模型是用于对图像进行分类的模型。

本公开实施例中，第一网络模型包括卷积神经网络模块。本公开不对卷积神经网络模块包括的卷积层的个数进行限定。第一网络模型可以是基于卷积神经网络的模型。

这里，卷积神经网络模块可以是由卷积操作、池化操作以及激活函数组成的模块，负责提取图像的特征。一个图像矩阵经过一个卷积核的卷积操作后,得到了另一个矩阵，这个矩阵叫做特征映射(feature map)。每一个卷积核都可以提取特定的特征，不同的卷积核提取不同的特征。

本公开实施例中，第二网络模型包括Transformer模块。本公开不对Transformer模块包括的网络层的个数进行限定。第二网络模型可以是基于自注意力机制的深度神经网络，如Transformer网络。

这里，Transformer模块是由自注意力(self-attention)组成的模块，Transformer模块的优势在于利用注意力的方式来捕获全局的上下文信息，对目标建立起远距离的依赖，从而提取出更强有力的特征。因此，Transformer模块可以很好地提取图像的全局特征。

本公开实施例中，待识别目标特征可以是输入至图像分类模型的分类器的特征，以供分类器基于该待识别目标特征识别出目标图像的类别。

本公开实施例中，目标图像的类别，可以是目标图像中包括的对象的类别。这里，对象包括但不限于动物、植物、车辆、建筑物、行人等。

本公开实施例中，图像类别的划分可根据待识别对象进行划分。以对象为动物为例，类别包括但不限于猫、狗、鱼、鸟、虫等。以对象为车辆为例，类别包括但不限于私家车、公交车、救护车、出租车、校车等。

需要说明的是，通过S101～S103得到待识别目标特征后，除了可基于待识别目标特征进行图像分类，还可基于待识别目标特征进行物体检测、图像分割、关键点检测、物体跟踪等处理。

本公开所述的图像分类方法，可应用于安防领域的人脸识别和智能视频分析、交通领域的交通场景识别、互联网领域的基于内容的图像检索和相册自动归类、医学领域的图像识别等。

本公开实施例所述的技术方案，通过第一网络模型提取目标图像的第一图像特征；通过第二网络模型提取目标图像的第二图像特征；对第一图像特征和第二图像特征进行融合处理，得到待识别目标特征；基于待识别目标特征对目标图像进行分类；通过对卷积神经网络模块提取的第一图像特征与Transformer模块提取的第二图像特征进行融合，得到待识别目标特征，从而使得待识别目标特征既包含全局特征又包含局部特征，提升了图像分类的准确率。

在一些实施例中，S103，包括：

S103a、将第一图像特征与第二图像特征通过第一融合方式进行特征融合，得到第三图像特征；

S103b、将第二图像特征与第一图像特征通过第二融合方式进行特征融合，得到第四图像特征；

S103c、将第三图像特征与第四图像特征通过第三融合方式进行特征融合，得到待识别目标特征。

这里，第一融合方式是指将图像中相同位置上的特征通过相加的方式融合。

这里，第二融合方式是指将图像中目标位置上的特征通过相加的方式融合。这里，目标位置可以是预先指定的位置。比如，以图像的中点为中心，一定半径范围内的区域都设置为目标位置。又比如，从图像中选取N个位置，将N个位置确定为目标位置，N为正整数。再比如，从图像中确定目标对象所在区域，将目标对象所在区域确定为目标位置。

这里，第三融合方式是指将不同来源的图像特征(如第一图像特征和第二图像特征)通过叠加的方式融合。

图2示出了特征融合的流程示意图，如图2所示，

表示由第一网络模型提出的第一图像特征，/>

表示由第二网络模型提取的第二图像特征。f₁(x)表示第一种融合方式，f₂(x)表示第二种融合方式，f₃(x)表示第三种融合方式。F1表示将第一图像特征与第二图像特征通过第一融合方式进行特征融合，得到的第三图像特征。F2表示将第二图像特征与第一图像特征通过第二融合方式进行特征融合，得到第四图像特征。F3表示将第一图像特征/>

与第三图像特征F1通过第三融合方式进行特征融合后得到的第一目标特征。F4表示将第二图像特征/>

与第四图像特征F2通过第三融合方式进行特征融合后得到的第二目标特征。F5表示将第一目标特征与第二目标特征通过第三融合方式进行特征融合后得到的待识别目标特征。

举例来说，

其中，在f₁(x)中，X_i、Y_i表示每个输入的通道，K_i表示X_i的通道数，K_i+c表示Y_i的通道数。

举例来说，

其中，在f₂(x)中，X_i、Y_i表示每个输入的通道，K_i表示X_i的通道数，K_i+c表示Y_i的通道数。

举例来说，

其中，在f₃(x)中，X_i、Y_i表示每个输入的通道，K_i表示X_i的通道数，K_i表示Y_i的通道数。

需要说明的是，上述f₁(x)、f₂(x)和f₃(x)仅仅是示意性的，而非限制性的。本领域技术人员可以基于上述公式的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

从图2可以看出，第一融合方式是特征之间数值的相加。第二融合方式也是特征之间数值的相加。第三融合方式是特征的连接，特征之间不进行相加，而是以一种堆叠的方式增加了特征图的数量。如此，充分利用不同架构提取的特征进行融合，提高了图像的特征表达能力。

如此，使得确定出的待识别目标特征既包含全局特征又包含局部特征，有助于提升图像分类的准确率。

在一些实施例中，S103a，包括：以第一图像特征为基准，将目标图像的相同位置处的第二图像特征与第一图像特征相加，得到第三图像特征。

这里，相同位置可以是相对于目标图像上的任意一个位置而言的。

举例来说，若第一网络模型提取的图像上第一位置(x1，y1)的第一图像特征记为特征a1，第二网络模型提取的图像上第一位置(x1，y1)的第二图像特征记为特征b1，则第一网络模型可将特征a1与特征b1之和确定为第一位置(x1，y1)上的第三图像特征。同理，图像上任意位置(xi，yi)的第三图像特征，等于第一网络模型提取的图像上第一位置(xi，yi)的第一图像特征ai，与第二网络模型提取的图像上第一位置(xi，yi)的第二图像特征bi之和。

如图2所示，图2中F1表示将图像的第一图像特征与图像的第二图像特征通过第一融合方式进行特征融合后得到的第三图像特征。

如此，能使第一网络模型提取的第一图像特征，能不断地融合第二网络模型提取的第二图像特征，使得提取的第一图像特征既有卷积神经网络提取的局部特征，又融合了Transformer提取的全局特征，从而提升了模型的分类准确率。

在一些实施例中，S103b，包括：以第二图像特征为基准，将目标图像的目标位置处的第二图像特征与第一图像特征相加，得到第四图像特征。

举例来说，若第二网络模型提取的图像目标位置(x2’,y2’)上的第二图像特征记为特征b2’，第一网络模型提取的图像目标位置(x2’,y2’)上的第一图像特征记为特征a2’，则第二网络模型可将特征b2’与特征a2’之和确定为目标位置(x2’,y2’)上第四图像特征。同理，图像上任意位置(xi’,yi’)的第四图像特征，等于第二网络模型提取的图像上第一位置(xi’,yi’)的第二图像特征bi’，与第一网络模型提取的图像上第一位置(xi,yi)的第一图像特征ai’之和。

如图2所示，图2中F2表示将图像的第一图像特征与图像的第二图像特征通过第二融合方式进行特征融合后得到的第四图像特征。

如此，能使第二网络模型提取的第二图像特征，能不断地融合第一网络模型提取的第一图像特征，使得提取的第二图像特征既有Transformer提取的全局特征，又融合了卷积神经网络提取的局部特征，从而提升了模型的分类准确率。

在一些实施例中，S103c，包括：将第一图像特征与第三图像特征进行特征堆叠，得到第一目标特征；将第二图像特征与第四图像特征进行特征堆叠，得到第二目标特征；将第一目标特征与第二目标特征进行特征堆叠，得到待识别目标特征。

这里，第一目标特征可以理解为第一网络模型最后输出的从目标图像提取的第一图像特征。

举例来说，若第一网络模型包括两个卷积层，第一个卷积层提取的图像第一位置(x1,y1)上的第一图像特征(记为特征a1)，第二网络模型提取的图像第一位置(x1,y1)上的第二图像特征(记为特征b1)，则第一网络模型将特征a1与特征b1之和，确定为第一位置(x1,y1)上的第三图像特征。那么，将第三图像特征输入第二个卷积层，输出第一图像特征(记为特征a2)，则第一目标特征a可以是特征a2与特征a1+特征b1的叠加。在第一目标特征a中，特征a2可以位于特征a1+特征b1的前面，特征a2还可以位于特征a1+特征b1的后面。本公开不对特征的排序顺序进行限定。

这里，第二目标特征可以理解为第二网络模型最后输出的从目标图像提取的第二图像特征。

举例来说，若第二网络模型包括两个Transformer模块，第一个Transformer提取的图像的第一位置(x1,y1)上的第二图像特征(记为特征b1)，第一网络模型提取的图像的第一位置(x1,y1)上的第一图像特征记为(特征a1)，则第二网络模型将特征b1与特征a1之和，确定为第一位置(x1,y1)上的第四图像特征。那么，将第四图像特征输入第二个Transformer模块，输出的第二图像特征(记为特征b2)，则第二目标特征b可以是特征b2与特征b1+特征a1的叠加。在第二目标特征b中，特征b2可以位于特征b1+特征a1的前面，特征b2还可以位于特征b1+特征a1的后面。本公开不对特征的排序顺序进行限定。

如此，使得确定出的待识别目标特征既有Transformer提取的全局特征，又融合了卷积神经网络提取的局部特征，从而提升了模型的分类准确率。

在一些实施例中，将第一目标特征与第二目标特征进行特征堆叠，得到待识别目标特征，包括：将通过第一网络模型的第m个卷积层确定的第一目标特征，与通过第二网络模型的第n个网络层确定的第二目标特征进行特征融合，得到第k个目标特征；其中，m、n和k均为大于等于1的正整数；将第k个目标特征分别输入第一网络模型的第m+1个卷积层和第二网络模型的第n+1个网络层，得到通过第一网络模型的第m+1个卷积层输出的第一目标特征，以及通过第二网络模型的第n+1个网络层输出的第二目标特征；将第一目标特征，与第二目标特征进行特征融合，得到第k+1个目标特征；将第k+1个目标特征确定为待识别目标特征。

这里，m的值、n的值和k的值，可根据需求如速度需求或精度需求进行设定。

如此，能够提供待识别目标特征的准确率，从而有助于提高模型的分类准确率。

在一些实施例中，该图像分类方法还可包括：获取指示信息，该指示信息用于指示目标图像的检测类别；基于指示信息确定第一网络模型的第一运行层数和第二网络模型的第二运行层数；基于第一运行层数和第二运行层数确定m的值、n的值和k的值。

这里，图像分类模型包括第一网络模型和第二网络模型。第一网络模型包括P个检测分支，支持P种类别的检测，不同检测分支对应的运行层数不同。第二网络模型包括Q个检测分支，支持Q种类别的检测，不同检测分支对应的运行层数不同。示例性的，检测分支1用于支持类别1的检测，需要第一网络模型的运行层数为m1，需要第二网络模型的运行层数为n1，目标特征的求取次数为k1；检测分支2用于支持类别2的检测，需要第一网络模型的运行层数为m2，需要第二网络模型的运行层数为n2，目标特征的求取次数为k2。

这里，指示信息可以是由用户通过用户界面接口输入的针对图像分类模型的指示信息。实际应用中，电子设备通过用户界面接口向用户展示图像分类模型支持的多个检测类别，以供用户从该多个检测类别中指定一个或多个检测类别。进一步地，指示信息还可包括资源指示信息，该资源指示信息用于指示图像分类模型训练或检测时所需要的资源的信息。该资源指示信息包括下述至少之一资源的指示信息：中央处理器(Central ProcessingUnit，CPU)、内存、图形处理器(Graphics Processing Unit，GPU)。可以理解，在一些实施方式中，在指示信息未携带有资源指示信息的情况下，电子设备自动为图像分类模型确定资源指示信息。

本公开实施例中，图像分类模型可以是根据预置模型训练得到的模型。比如，预置模型可以是区域卷积神经网络(Region Convolutional Neural Network，RCNN)模型。又比如，预置模型可以是全卷积网络(Fully Convolutional Network，FCN)模型。再比如，预置模型可以是基于YOLOV3(You Only Look Once Version3)算法的模型。以上仅为示例性说明，不作为对预置模型全部可能的类型的限定，只是这里不做穷举。需要说明的是，本公开实施例对如何训练得到图像分类模型不做限定。

如此，可通过选择检测类别控制图像分类模型的检测与输出，实现了图像分类模型所支持的检测的多样性。

在一些实施例中，将第一图像特征与第二图像特征通过第一融合方式进行特征融合，得到第三图像特征，包括：将第一网络模型的第j个卷积层输出的第一图像特征和第二网络模型的第i个网络层输出的第二图像特征，输入第一网络模型的第j+1个卷积层，得到第一网络模型的第j+1个卷积层输出的第一图像特征；其中，i和j均为大于等于1的正整数；根据第一网络模型的第j+1个卷积层输出的第一图像特征，确定第三图像特征。

在一些实施方式中，将第一网络模型的第j+1个卷积层输出的第一图像特征，作为第三图像特征。

在一些实施方式中，仅将第一网络模型的第j+1个卷积层输出的第一图像特征，与第二网络模型的第i个网络层输出的第二图像特征，通过第一融合方式进行特征融合，得到第三图像特征。

在一些实施方式中，先将第二网络模型的第i个网络层输出的第二图像特征，分别与第一网络模型的每个卷积层输出的第一图像特征进行特征融合，最后将第一网络模型的第j+1个卷积层输出的第一图像特征与第二网络模型的第i个网络层输出的第二图像特征，通过第一融合方式进行特征融合，得到第三图像特征。

在一些实施例中，将第二图像特征与第一图像特征通过第二融合方式进行特征融合，得到第四图像特征，包括：将第二网络模型的第q个网络层输出的第二图像特征，和第一网络模型的第p个卷积层输出的第一图像特征，输入第二网络模型的第q+1个网络层，得到第二网络模型的第q+1个网络层输出的第二图像特征；其中，p和q均为大于等于1的正整数；根据第二网络模型的第q+1个网络层输出的第二图像特征，确定第四图像特征。

在一些实施方式中，将第二网络模型的第q+1个网络层输出的第二图像特征，作为第四图像特征。

在一些实施方式中，仅将第二网络模型的第q+1个网络层输出的第二图像特征，与第一网络模型的第p个卷积层输出的第一图像特征，通过第二融合方式进行特征融合，得到的第四图像特征。

在一些实施方式中，先将第一网络模型的第p个卷积层输出的第一图像特征，分别与第二网络模型的每个网络层输出的第二图像特征进行特征融合，最后将第二网络模型的第q+1个网络层输出的第二图像特征与第一网络模型的第p个卷积层输出的第一图像特征，通过第二融合方式进行特征融合，得到的第四图像特征。

如此，能使第二网络模型提取的第二图像特征，能不断地融合第一网络模型提取的第一图像特征，使得提取的第二图像特征既有卷积神经网络提取的局部特征，又融合了Transformer提取的全局特征，从而提升了模型的分类准确率。

图3示出了图像分类模型的结构示意图，如图3所示，图像输入网络结构后，卷积神经网络模块和Transformer模块分别提取图像特征，然后将特征输入至特征融合模块进行特征融合，融合后的特征继续输入卷积神经网络模块和Transformer模块，进行下一层的特征提取，直到将融合后得到的目标特征输入至线性分类器(SoftMax)，由线性分类器对图像进行分类。整个过程中，卷积神经网络模块得到的特征与Transformer模块得到的特征都在不断地融合，使得整个网络既有卷积神经网络提取的局部特征，又融合了Transformer模块提取的全局特征，提升了模型的分类准确率。

应理解，图3所示的结构示意图仅仅是示意性而非限制性的，本领域技术人员可以基于图3的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

图4示出了图像分类的总体流程示意图，如图4所示，将图像输入图像分类模型，图像分类模型中卷积神经网络模块和Transformer模块分别提取图像特征，然后将特征输入至特征融合模块进行特征融合，并将融合后的特征继续输入卷积神经网络模块和Transformer模块，进行下一层的特征提取，直到将最后融合后得到的目标特征输入至分类器，进而由分类器对图像进行分类，输出各个类别的预测值。整个过程中，卷积神经网络模块得到的特征与Transformer模块得到的特征都在不断地融合，使得整个网络既有卷积神经网络提取的局部特征，又融合了Transformer模块提取的全局特征，提升了模型的分类准确率。

应理解，图4所示的总体流程图仅仅是示意性而非限制性的，本领域技术人员可以基于图4的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例公开了一种图像分类装置，如图5所示，该图像分类装置可以包括：第一获取模块501，用于通过第一网络模型提取目标图像的第一图像特征，第一网络模型包括卷积神经网络模块；第二获取模块502，用于通过第二网络模型提取目标图像的第二图像特征，第二网络模型包括Transformer模块；特征融合模块503，用于对第一图像特征和第二图像特征进行融合处理，得到待识别目标特征；分类模块504，用于基于待识别目标特征对目标图像进行分类。

在一些实施例中，该特征融合模块503，包括：第一融合子模块，用于将第一图像特征与第二图像特征通过第一融合方式进行特征融合，得到第三图像特征；第二融合子模块，用于将第二图像特征与第一图像特征通过第二融合方式进行特征融合，得到第四图像特征；第三融合子模块，用于将第三图像特征与第四图像特征通过第三融合方式进行特征融合，得到待识别目标特征。

在一些实施例中，该第一融合子模块，用于：以第一图像特征为基准，将目标图像的相同位置处的第二图像特征与第一图像特征相加，得到第三图像特征。

在一些实施例中，该第二融合子模块，用于：以第二图像特征为基准，将目标图像的目标位置处的第一图像特征与第二图像特征相加，得到第四图像特征。

在一些实施例中，该第三融合子模块，用于：将第三图像特征与第一图像特征进行特征堆叠，得到第一目标特征；将第四图像特征与第二图像特征进行特征堆叠，得到第二目标特征；将第一目标特征与第二目标特征进行特征堆叠，得到待识别目标特征。

在一些实施例中，该第一融合子模块，还用于：将第一网络模型的第j个卷积层输出的第一图像特征，和第二网络模型的第i个网络层输出的第二图像特征，输入第一网络模型的第j+1个卷积层，得到第一网络模型的第j+1个卷积层输出的第一图像特征；其中，i和j均为大于等于1的正整数；根据第一图像特征，确定第三图像特征。

在一些实施例中，该第二融合子模块，还用于：将第二网络模型的第q个网络层输出的第二图像特征，和第一网络模型的第p个卷积层输出的第一图像特征，输入第二网络模型的第q+1个网络层，得到第二网络模型的第q+1个网络层输出的第二图像特征，其中，p和q均为大于等于1的正整数；根据第二图像特征，确定第四图像特征。

在一些实施例中，该第三融合子模块，还用于：将通过第一网络模型的第m个卷积层确定的第一目标特征，与通过第二网络模型的第n个网络层确定的第二目标特征进行特征融合，得到第k个目标特征；其中，m、n和k均为大于等于1的正整数；将第k个目标特征分别输入第一网络模型的第m+1个卷积层和第二网络模型的第n+1个网络层，得到通过第一网络模型的第m+1个卷积层输出的第一目标特征，以及通过第二网络模型的第n+1个网络层输出的第二目标特征；将第一目标特征，与第二目标特征进行特征融合，得到第k+1个目标特征；根据第k+1个目标特征确定待识别目标特征。

在一些实施例中，该图像分类装置，还包括：第三获取模块505(图中未示出)，用于获取指示信息，该指示信息用于指示目标图像的检测类别；第一确定模块506(图中未示出)，用于基于指示信息确定第一网络模型的第一运行层数和第二网络模型的第二运行层数；第二确定模块507(图中未示出)，用于基于第一运行层数和第二运行层数确定m的值、n的值和k的值。

本领域技术人员应当理解，本公开实施例的图像分类装置中各处理模块的功能，可参照前述的图像分类方法的相关描述而理解，本公开实施例的图像分类装置中各处理模块，可通过实现本公开实施例所述的功能的模拟电路而实现，也可以通过执行本公开实施例所述的功能的软件在电子设备上的运行而实现。

本公开实施例的图像分类装置，能提高图像分类的准确率。

图6示出了图像分类的场景示意图，从图6可以看出，电子设备如云服务器接收来自各终端导入的待检测图像；利用图像分类模型对接收到的待检测图像进行检测，输出针对该待检测图像的图像分类结果。电子设备还接收来自各终端发送的指示信息，该指示信息中包括待检测类别；基于指示信息指示的待检测类别，确定图像分类模型包括的第一网络模型和第二网络模型的运行层数。

本公开不对终端、电子设备的个数进行限定，实际应用中可包括多个终端、多个电子设备。

应理解，图6所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图6的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(Read-OnlyMemory，ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RandomAccess Memory，RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(Input/Output，I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如图像分类方法。例如，在一些实施例中，图像分类方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的图像分类方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像分类方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application-Specific Standard Products，ASSP)、芯片上系统的系统(System on Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像分类方法，包括：

通过第一网络模型提取目标图像的第一图像特征，所述第一网络模型包括卷积神经网络模块；

通过第二网络模型提取所述目标图像的第二图像特征，所述第二网络模型包括深度自注意力变换网络Transformer模块；

对所述第一图像特征和所述第二图像特征进行融合处理，得到待识别目标特征；

基于所述待识别目标特征对所述目标图像进行分类；

其中，对所述第一图像特征和所述第二图像特征进行融合处理，得到待识别目标特征，包括：

将所述第一图像特征与所述第二图像特征通过第一融合方式进行特征融合，得到第三图像特征；

将所述第二图像特征与所述第一图像特征通过第二融合方式进行特征融合，得到第四图像特征；

将所述第三图像特征与所述第四图像特征通过第三融合方式进行特征融合，得到所述待识别目标特征；

其中，所述将所述第三图像特征与所述第四图像特征通过第三融合方式进行特征融合，得到所述待识别目标特征，包括：

将所述第三图像特征与所述第一图像特征进行特征堆叠，得到第一目标特征；

将所述第四图像特征与所述第二图像特征进行特征堆叠，得到第二目标特征；

将所述第一目标特征与所述第二目标特征进行特征堆叠，得到所述待识别目标特征；

所述将所述第一目标特征与所述第二目标特征进行特征堆叠，得到所述待识别目标特征，包括：

将通过所述第一网络模型的第m个卷积层确定的第一目标特征，与通过所述第二网络模型的第n个网络层确定的第二目标特征进行特征融合，得到第k个目标特征；其中，所述m、所述n和所述k均为大于等于1的正整数；

将所述第k个目标特征分别输入所述第一网络模型的第m+1个卷积层和所述第二网络模型的第n+1个网络层，得到通过所述第一网络模型的第m+1个卷积层输出的所述第一目标特征，以及通过所述第二网络模型的第n+1个网络层输出的所述第二目标特征；

将所述第一目标特征与所述第二目标特征进行特征融合，得到第k+1个目标特征；

根据所述第k+1个目标特征确定所述待识别目标特征。

2.根据权利要求1所述的方法，其中，所述将所述第一图像特征与所述第二图像特征通过第一融合方式进行特征融合，得到第三图像特征，包括：

以所述第一图像特征为基准，将所述目标图像的相同位置处的所述第二图像特征与所述第一图像特征相加，得到所述第三图像特征。

3.根据权利要求1所述的方法，其中，所述将所述第二图像特征与所述第一图像特征通过第二融合方式进行特征融合，得到第四图像特征，包括：

以所述第二图像特征为基准，将所述目标图像的目标位置处的所述第一图像特征与所述第二图像特征相加，得到所述第四图像特征。

4.根据权利要求1所述的方法，所述方法还包括：

获取指示信息，所述指示信息用于指示所述目标图像的检测类别；

基于所述指示信息确定所述第一网络模型的第一运行层数和所述第二网络模型的第二运行层数；

基于所述第一运行层数和所述第二运行层数确定所述m的值、所述n的值和所述k的值。

5.根据权利要求1所述的方法，其中，所述将所述第一图像特征与所述第二图像特征通过第一融合方式进行特征融合，得到第三图像特征，包括：

将所述第一网络模型的第j个卷积层输出的第一图像特征，和所述第二网络模型的第i个网络层输出的第二图像特征，输入所述第一网络模型的第j+1个卷积层，得到所述第一网络模型的第j+1个卷积层输出的所述第一图像特征；其中，所述i和所述j均为大于等于1的正整数；

根据所述第一图像特征确定所述第三图像特征。

6.根据权利要求1所述的方法，其中，所述将所述第二图像特征与所述第一图像特征通过第二融合方式进行特征融合，得到第四图像特征，包括：

将所述第二网络模型的第q个网络层输出的第二图像特征，和所述第一网络模型的第p个卷积层输出的第一图像特征，输入所述第二网络模型的第q+1个网络层，得到所述第二网络模型的第q+1个网络层输出的所述第二图像特征，其中，所述p和所述q均为大于等于1的正整数；

根据所述第二图像特征确定所述第四图像特征。

7.一种图像分类装置，包括：

第一获取模块，用于通过第一网络模型提取目标图像的第一图像特征，所述第一网络模型包括卷积神经网络模块；

第二获取模块，用于通过第二网络模型提取所述目标图像的第二图像特征，所述第二网络模型包括深度自注意力变换网络Transformer模块；

特征融合模块，用于对所述第一图像特征和所述第二图像特征进行融合处理，得到待识别目标特征；

分类模块，用于基于所述待识别目标特征对所述目标图像进行分类；

其中，所述特征融合模块，包括：

第一融合子模块，用于将所述第一图像特征与所述第二图像特征通过第一融合方式进行特征融合，得到第三图像特征；

第二融合子模块，用于将所述第二图像特征与所述第一图像特征通过第二融合方式进行特征融合，得到第四图像特征；

第三融合子模块，用于将所述第三图像特征与所述第四图像特征通过第三融合方式进行特征融合，得到所述待识别目标特征；

所述第三融合子模块，用于：

所述第三融合子模块，还用于：

将所述第一目标特征，与所述第二目标特征进行特征融合，得到第k+1个目标特征；

根据所述第k+1个目标特征确定所述待识别目标特征。

8.根据权利要求7所述的装置，其中，所述第一融合子模块，用于：

9.根据权利要求7所述的装置，其中，所述第二融合子模块，用于：

10.根据权利要求7所述的装置，还包括：

第三获取模块，用于获取指示信息，所述指示信息用于指示所述目标图像的检测类别；

第一确定模块，用于基于所述指示信息确定所述第一网络模型的第一运行层数和所述第二网络模型的第二运行层数；

第二确定模块，用于基于所述第一运行层数和所述第二运行层数确定所述m的值、所述n的值和所述k的值。

11.根据权利要求7所述的装置，其中，所述第一融合子模块，还用于：

根据所述第一图像特征确定所述第三图像特征。

12.根据权利要求7所述的装置，其中，所述第二融合子模块，还用于：

根据所述第二图像特征，确定所述第四图像特征。

13.一种电子设备，包括：

处理器；以及

与所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令被所述处理器执行，以使所述处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。

15.一种计算机程序产品，包括存储在存储介质上的计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。