CN115761383A

CN115761383A - 一种图像分类方法、装置、电子设备及介质

Info

Publication number: CN115761383A
Application number: CN202310014977.8A
Authority: CN
Inventors: 张博; 潘霖; 卞豪; 李海峰
Original assignee: Beijing Deepctrl Co ltd
Current assignee: Beijing Deepctrl Co ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-03-07
Anticipated expiration: 2043-01-06
Also published as: CN115761383B

Abstract

本申请提供了一种图像分类方法、装置、电子设备及介质，所述方法包括：将目标图像输入至训练好的图像分类模型，通过所述图像分类模型，将所述目标图像进行缩放，得到目标图像的多个不同尺寸的图像；将多个不同尺寸的图像拼接为一个多尺度图像，提取出所述多尺度图像的原始图像特征张量；在空间维度上展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量；根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，并输出目标图像中每个目标物体的类别，从而能够精准的对大分辨率图像进行分类，识别精度高，分类效果好，图像分类模型的训练成本低。

Description

一种图像分类方法、装置、电子设备及介质

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种图像分类方法、装置、电子设备及介质。

背景技术

基于深度学习的图像分类技术，一般采用基于卷积神经网络的多层网络提取图像特征，在输出层使用全连接网络实现图像特征到分类标签的转换。训练数据一般采用固定大小的图像（如224x224x3），标注数据为全图分类标签（一个标量或多个标量）。预测阶段，需要将输入图片的尺寸缩放至固定大小（等于训练图片的尺寸），经过图像分类模型推理后得到分类标签。对于大分辨率图片，也可以按照训练图片的尺寸作为窗口，在原始的输入图片上进行滑动采样，得到一系列固定尺寸的小图片经模型推理得到一组分类值，在后处理中根据分类结果的分布与阈值进行全图分类的综合判定。

在现有技术中，图像分类模型训练过程使用的是小分辨率图片(224x224), 而实际预测时，面对大分辨率图像，对其中的小物体的识别与分类效果较差。若对图像直接进行缩放，图中的局部特征容易丢失或尺度过小无法识别；如果对输入图像做滑动窗口采样，一幅图会分成一组图片进行推理，计算量和计算时间会显著增加。此外，相同的卷积神经网络在图像的不同尺度上往往会提取出不同的特征结果，对图像多尺度特征的自适应提取是提高图像识别能力和识别精度的关键。传统的图像分类技术，一般采用对输入图片进行多次缩放，形成图像金字塔，从而多次推理得到多尺度的特征，这种情况对计算量的增加比较明显，推理延时也会显著增加，同时需要在后处理阶段，对不同尺度下输出的结果进行综合判定，往往需要人工设置一些阈值或规则，增加了端到端流程的复杂性。另一种方法是构建特征金字塔网络（FPN）,自适应的提取图像特征，这种方法通常将分类问题转化为了目标检测或目标分割问题，要求标注数据必须基于大分辨率图像上的区域标注，相比起小尺寸图像的分类标签，这种标注方法的成本更高，难以获取大量的训练数据。

发明内容

有鉴于此，本申请的目的在于提供一种图像分类方法、装置、电子设备及介质，能够精准的对大分辨率图像进行分类，识别精度高，分类效果好，图像分类模型的训练成本低。

本申请实施例提供的一种图像分类方法，包括：

将目标图像输入至训练好的图像分类模型，通过所述图像分类模型，将所述目标图像进行缩放，得到目标图像的多个不同尺寸的图像；

将多个不同尺寸的图像拼接为一个多尺度图像，提取出所述多尺度图像的原始图像特征张量；所述多尺度图像中包括多个不同尺寸图像的图像数据；

在空间维度上展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量；所述多尺度图像特征张量包括目标图像多个不同尺寸图像的图像特征，所述多尺度图像特征张量的空间维度为一维；

根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，并输出目标图像中每个目标物体的类别。

在一些实施例中，所述的图像分类方法，在空间维度上展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量，包括：

保持原始图像特征张量的通道维不变，按照任一空间维度分离原始图像特征张量，得到多尺度图像的特征张量分量；

将多尺度图像的特征张量分量拼接为目标图像的、扁平化的多尺度图像特征张量。

在一些实施例中，所述的图像分类方法中，根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，包括：

通过所述图像分类模型中的多头注意力单元，提取所述多尺度图像特征张量中多个不同尺寸图像的图像特征之间的注意力关系特征；

根据提取出的注意力关系特征，识别出目标图像中每个目标物体的类别。

在一些实施例中，所述的图像分类方法中的所述图像分类模型，是通过以下训练方法训练得到的：

通过样本图像中的局部图块对图像分类模型中的全卷积网络进行第一阶段训练，直至所述图像分类模型中的全卷积网络满足第一训练完成条件；所述局部图块中包括目标样本物体；

通过样本图像对图像分类模型进行第二阶段训练，直至所述图像分类模型满足第二训练完成条件。

在一些实施例中，所述的图像分类方法中，通过样本大图中的局部图块对图像分类模型中的全卷积网络进行第一阶段训练之前，所述训练方法还包括：

针对样本图像上的目标样本物体，使用标注框进行区域标注；其中每个标注框携带目标样本物体的类别标签；

根据所述标注框，提取出样本大图中的局部图块。

在一些实施例中，所述的图像分类方法中，根据所述标注框，提取出样本大图中的局部图块，包括：

按照多个预设缩放倍数对每个标注框进行缩放，扩展出该标注框对应的一组标注框；

按照扩展后的每个标注框，提取其中的图像区域并缩放为预设尺寸，生成样本图像的局部图块。

在一些实施例中，所述的图像分类方法中，通过样本图像对图像分类模型进行第二阶段训练，直至所述图像分类模型满足第二训练完成条件，包括：

重复以下第二阶段训练的训练过程，直至所述图像分类模型满足第二训练完成条件；

将多个不同尺寸的图像拼接为一个多尺度图像，提取出所述多尺度图像的原始图像特征张量；

根据样本图像中标注的每个目标样本物体的类别标签，判断所述图像分类模型是否满足第二训练完成条件。

在一些实施例中，还提供一种图像分类装置，包括：

缩放模块，用于将目标图像输入至训练好的图像分类模型，通过所述图像分类模型，将所述目标图像进行缩放，得到目标图像的多个不同尺寸的图像；

提取模块，用于将多个不同尺寸的图像拼接为一个多尺度图像，提取出所述多尺度图像的原始图像特征张量；所述多尺度图像中包括多个不同尺寸图像的图像数据；

展平模块，用于在空间维度上展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量；所述多尺度图像特征张量包括目标图像多个不同尺寸图像的图像特征，所述多尺度图像特征张量的空间维度为一维；

识别模块，用于根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，并输出目标图像中每个目标物体的类别。

在一些实施例中，还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行所述的图像分类方法的步骤。

在一些实施例中，还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行所述的图像分类方法的步骤。

本申请实施例提供一种图像分类方法、装置、电子设备及介质，所述方法将目标图像输入至训练好的图像分类模型，将目标图像输入至训练好的图像分类模型，通过所述图像分类模型，将所述目标图像进行缩放，得到目标图像的多个不同尺寸的图像；将多个不同尺寸的图像拼接为一个多尺度图像，提取出所述多尺度图像的原始图像特征张量；在空间维度下展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量；根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，并输出目标图像中每个目标物体的类别；通过图像多尺度特征的自适应提取提高图像识别能力和识别精度，而所述图像分类模型能够直接输出综合多尺度图像特征下的图像分类结果，无需在后处理阶段进行复杂的人工规则和阈值设定，降低了计算量和推理延迟；同时，在对图像进行缩放的同时将图像连接为同一输入张量，避免网络重复计算，进一步减少推理时间。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所述图像分类方法的方法流程图；

图2示出了本申请实施例所述图像分类模型的结构示意图；

图3示出了本申请实施例所述展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量的方法流程图；

图4示出了本申请实施例所述展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量的过程示意图；

图5示出了本申请实施例图像分类模型的训练方法的方法流程图；

图6示出了本申请实施例所述的图像分类装置的结构示意图；

图7示出了本申请实施例所述电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。

此外，现有技术中，图像分类模型中神经网络的设计，除了使用卷积神经网络外，基于多头注意力机制的Transformer架构，也可以作为图像分类模型的骨干网络。基于transformer的图像分类网络，除了上述神经网络模型一样，难以处理图像多尺度特征提取的问题外，对训练数据量的规模要求更多，训练成本更高。

基于此，本申请实施例提供一种图像分类方法、装置、电子设备及介质，所述方法将目标图像输入至训练好的图像分类模型，将目标图像输入至训练好的图像分类模型，通过所述图像分类模型，将所述目标图像进行缩放，得到目标图像的多个不同尺寸的图像；将多个不同尺寸的图像拼接为一个多尺度图像，提取出所述多尺度图像的原始图像特征张量；在空间维度下展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量；根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，并输出目标图像中每个目标物体的类别；通过图像多尺度特征的自适应提取提高图像识别能力和识别精度，而所述图像分类模型能够直接输出综合多尺度图像特征下的图像分类结果，无需在后处理阶段进行复杂的人工规则和阈值设定，降低了计算量和推理延迟；同时，在对图像进行缩放的同时将图像连接为同一输入张量，避免网络重复计算，进一步减少推理时间。

请参照图1，图1示出了本申请实施例所述图像分类方法的方法流程图；具体的，所述图像分类方法包括以下步骤S101-S104；

S101、将目标图像输入至训练好的图像分类模型，通过所述图像分类模型，将所述目标图像进行缩放，得到目标图像的多个不同尺寸的图像；

S102、将多个不同尺寸的图像拼接为一个多尺度图像，提取出所述多尺度图像的原始图像特征张量；所述多尺度图像中包括多个不同尺寸图像的图像数据；

S103、在空间维度上展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量；所述多尺度图像特征张量包括目标图像多个不同尺寸图像的图像特征，所述多尺度图像特征张量的空间维度为一维；

S104、根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，并输出目标图像中每个目标物体的类别。

在本申请实施例中，所述图像分类方法可以运行于终端设备或者是服务器；其中，终端设备可以为本地终端设备，当图像分类方法运行于服务器时，该图像分类方法则可以基于云交互系统来实现与执行，其中，云交互系统至少包括服务器和客户端设备（也即终端设备）。

具体的，以应用于终端设备为例，当图像分类方法运行于终端设备上时，图像分类方法用于识别出大分辨率图像中每一物体的类别。

本申请实施例提供一种图像分类方法，将目标图像输入至训练好的图像分类模型，将目标图像输入至训练好的图像分类模型，通过所述图像分类模型，将所述目标图像进行缩放，得到目标图像的多个不同尺寸的图像；将多个不同尺寸的图像拼接为一个多尺度图像，提取出所述多尺度图像的原始图像特征张量；在空间维度下展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量；根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，并输出目标图像中每个目标物体的类别；通过图像多尺度特征的自适应提取提高图像识别能力和识别精度，而所述图像分类模型能够直接输出综合多尺度图像特征下的图像分类结果，无需在后处理阶段进行复杂的人工规则和阈值设定，降低了计算量和推理延迟；同时，在对图像进行缩放的同时将图像连接为同一输入张量，避免网络重复计算，进一步减少推理时间。

在所述步骤S101中，将目标图像输入至训练好的图像分类模型，通过所述图像分类模型，将所述目标图像进行缩放，得到目标图像的多个不同尺寸的图像。

所述目标图像，为大分辨率图像，例如960x960的图像。所述大分辨率图像中包括至少一个待分类的小物体，即待分类的目标物体。由于图像分类模型训练过程使用的是小分辨率图片(224x224),实际预测时，面对大分辨率图像（960x960），对其中的小物体的识别与分类时，小物品的大小不符合全卷积网络的感受野，因此，识别效果较差。

将目标图像输入至训练好的图像分类模型，也就是说，所述目标图像的分类是通过图像分类模型实现的。

具体的，请参照图2，所述图像分类模型包括尺度变化单元201、全卷积网络202、扁平化串联单元203、多头注意力单元204、多层感知器单元205。

通过所述图像分类模型，将所述目标图像进行缩放，得到目标图像的多尺度图像；即，将所述目标图像进行缩放，得到多个预设尺寸的图像。

具体的，将目标图像输入到图像分类模型后，所述图像分类模型中的尺度变化单元将所述目标图像缩放为多个预设尺寸的图像。

这里，尺度变化单元可以设置不同的缩放比例和缩放数量。

示例性的，通过多尺度缩放单元，将960x960的目标图像缩放为三个尺寸的图像：960x960,640x640,480x480。

缩放得到的多个尺度的图像，用于输入至图像分类模型的全卷积网络，以使全卷积网络提取出目标图像的图像特征。

在所述步骤S102中，将多个不同尺寸的图像拼接为一个多尺度图像，提取出所述多尺度图像的原始图像特征张量，即，将多尺度图像输入到全卷积网络，全卷积网络提取出多尺度图像的原始图像特征张量。

由于所述多尺度图像中包括多个不同尺寸图像的图像数据，因此，将多尺度图像输入到全卷积网络，也就是一次性将多个不同尺寸图像的图像数据输入到了全卷积网络，避免网络重复计算，减少推理时间。

同样的，由于所述多尺度图像中包括多个不同尺寸图像的图像数据，所以，所述多尺度图像的原始图像特征张量中包括目标图像多个不同尺寸图像的图像特征。

本申请实施例中，所述全卷积网络，是基于样本大图中的局部图块预先单独训练的，从而提高全卷积网络提取原始图像特征张量的能力和精确度。

这里，全卷积网络可以使用VGG、resnet、mobilenet、alexnet等卷积神经网络结构。其中，resnet一般是优选项。

在所述步骤S103中，展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量；所述多尺度图像特征张量包括目标图像多个不同尺寸图像的图像特征；具体为：通过图像分类模型中的扁平化串联单元，展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量。

所述多尺度图像的原始图像特征张量中包括目标图像多个不同尺寸图像的图像特征，例如针对960x960的目标图像，将960x960,640x640,480x480三个尺寸的图像拼接后的得到的多尺度图像，其原始图像特征张量中同时包括960x960,640x640,480x480三个尺寸的图像的图像特征，并没有构建形成图像金字塔。同样的，展平后的多尺度图像特征张量也包括目标图像多个不同尺寸图像的图像特征。

具体的，请参照图3，在空间维度上展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量，包括以下步骤S301-S302；

S301、保持原始图像特征张量的通道维不变，按照任一空间维度分离原始图像特征张量，得到多尺度图像的特征张量分量；

S302、将多尺度图像的特征张量分量拼接为目标图像的、扁平化的多尺度图像特征张量。

这里，按照第一空间维度分离原始图像特征张量，得到多尺度图像的特征张量分量时，所述多尺度图像的特征张量分量中的第一维度为一维，第二维度保持不变，特征张量分量的空间维度为一维。所述扁平化特征张量的数目即为原始图像特征张量中第一维度的数目。

所述扁平化特征张量中第一维度为一维，第二维度为第二维度乘以扁平化特征张量的数目。

拼接每个扁平化特征张量，得到的多尺度图像特征张量的第一维度为一维，通道维与该图像的特征张量分量的通道维相同。

这里，卷积神经网络输出的特征张量维度(H,W,C)分别代表高度、宽度和通道三个维度，具体数值受网络结构参数决定。H,W维度即为空间维度，H,W维度取决于网络的降采样率，C维度取决于网络最后一层的通道数。

示例性的，所述第一维度为H维度（高度维度），第一维度为W维度（宽度维度）。

这里，图像分类模型的扁平化串联单元将全卷积网络输出的原始图像特征张量在二维平面上展平,通道维保持不变(HxWxC ->1xHWxC)，随后将原始图像特征张量拼接为一个完整的多尺度图像特征张量,作为Transformer输入的token embedding。也就是说，将该图像的特征张量分量拼接为扁平化特征张量的扁平化过程中，通道维(C)不受影响，只是将H，W的空间两维度展平，最终形成（1，HW,C）的扁平化多尺度图像特征张量。

需要说明的是，在此过程中需要保留多尺度图像特征张量对应于原始图像特征张量中的位置编码，作为transformer输入的positional embedding。

示例性的，请参照图4，图像的原始图像特征张量401的维度为18x6x1024（HxWxC）；按照H维将原始图像特征张量401进行分离，得到18个1x6x1024的特征张量分量402。

将18个1x6x1024的特征张量分量401的W首尾拼接，得到1x108x1024扁平化多尺度图像特征张量403。

在所述步骤S104中，根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，并输出目标图像中每个目标物体的类别。

这里，根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，包括：

这里，多头注意力单元基于Transformer Encoder结构，相比经典的VisionTransformer架构，可以使用更少的层数。该单元接受了扁平化串联单元输入的跨尺度连接的多尺度图像特征张量，能够学习不同尺度的图像特征间的注意力关系。

所述根据提取出的注意力关系特征，识别出目标图像中每个目标物体的类别，具体为：多层感知单元通过全连接网络与激活层函数，将多头注意力单元提取的多尺度图像特征张量映射为全图分类标签值。

在所述步骤S104中，输出目标图像中每个目标物体的类别，实际输出的为图像分类模型中预设类别标签的标签值，也即概率值。

本申请实施例所述的图像分类模型中，包括卷积神经网络和Transformer网络（多头注意力单元）；卷积神经网络实现对图像多个尺度的图像特征提取，Transformer网络实现对不同尺度图像特征的相互注意力关系提取，自适应的对大分辨率图像中的大小目标进行识别并分类；扁平化串联单元将不同尺度的图像特征在同一维度下展平和连接，通过Transformer 的注意力机制，自动的学习不同尺度特征的相互关系，从而使得图像分类模型能够直接输出综合多尺度特征下的分类结果，无需在后处理阶段进行复杂的人工规则和阈值设定。

请参照图5，图5示出了本申请实施例图像分类模型的训练方法的方法流程图；所述本申请实施例所述的图像分类方法中，所述图像分类模型，是通过以下训练方法训练得到的：

S501、通过样本图像中的局部图块对图像分类模型中的全卷积网络进行第一阶段训练，直至所述图像分类模型中的全卷积网络满足第一训练完成条件；所述局部图块中包括目标样本物体；

S502、通过样本图像对图像分类模型进行第二阶段训练，直至所述图像分类模型满足第二训练完成条件。

这里，所述第一训练完成条件包括：训练次数达到第一预设次数，或者，全卷积网络的局部图分类损失函数输出值符合第一预设阈值条件。

所述第二训练完成条件包括：训练次数达到第二预设次数，或者，图像分类模型的全图像分类损失函数输出值符合第二预设阈值条件。

也就是说，本申请实施例采用两阶段训练方法。第一阶段使用局部图块对全卷积网络进行训练；第二阶段使用大分辨率图像对Transformer单元和多层感知网络（输出层）进行训练。

其中，第一阶段针对全卷积网络的训练过程申请可以使用预训练模型，加速整个训练过程。

本申请实施例所述的图像分类方法，通过样本大图中的局部图块对图像分类模型中的全卷积网络进行第一阶段训练之前，所述训练方法还包括：

根据所述标注框，提取出样本大图中的局部图块。

本申请实施例中，根据所述标注框，提取出样本大图中的局部图块，包括：

也就是说，针对样本图像中的一个目标样本物体，提取出多个局部图块。而且，不同的局部图块尺寸相同，但是局部图块中目标样本物体的尺寸不同，这里，标注框进行缩放，以扩展出多个局部图块的目的一是丰富训练数据，二是尽可能使样本目标物品的至少一张图块中，物品的大小更为符合全卷积网络的感受野，提高图像分类模型预测精度。

本申请实施例中所述的图像分类方法，通过样本图像对图像分类模型进行第二阶段训练，直至所述图像分类模型满足第二训练完成条件，包括：

以下结合图2，按照顺序详细说明图像分类模型的训练过程。

数据标注，即针对样本图像上的目标样本物体，使用标注框进行区域标注；其中每个标注框携带目标样本物体的类别标签；具体的，在收集的大分辨率图像上使用矩形标注框进行区域标注，每个标注框带有一个类别标签。需要说明的是，本申请中的训练任务只是分类，而不需要给出目标的位置，所以标注时每个矩形框不需要精确的包含分类物体的边界，只需要近似包含即可。相比起目标检测任务，标注的质量要求较低，成本更低、标注速度更快。

训练数据生成，即按照多个预设缩放倍数对每个标注框进行缩放，扩展出该标注框对应的一组标注框；按照扩展后的每个标注框，提取其中的图像区域并缩放为预设尺寸，生成样本图像的局部图块；具体的，对每一个标注框，框中心不变，长宽乘以多个缩放系数，例如（1.2,1.4,1.6），生成一组标注框，标签保持不变。按照扩展后的每个标注框，提取其中的图像区域并缩放为固定尺寸（224x224），生成局部图块训练数据（每个局部图块带有一个标量分类标签）。同时将原图大图也缩放为固定尺寸（960x960），每个大图的标签是该图所有标注框的分类标签的集合，生成样本图像训练数据，即大图训练数据。

参照图2，通过样本图像中的局部图块206对图像分类模型中的全卷积网络202进行第一阶段训练，直至所述图像分类模型中的全卷积网络202满足第一训练完成条件；即通过局部图块训练数据，单独对全卷积网络202进行训练，训练目标为局部图块206的分类，这里，局部图分类损失函数208使用交叉熵损失函数；具体的，将局部图块206输入至全卷积网络202，全卷积网络202输出局部图块分类结果数据207；局部图块206的分类标签数据和局部图块分类结果数据207输入至局部图分类损失函数208，局部图分类损失函数208对全卷积网络202的分类结果进行评估。

请参照图2，通过样本图像209对图像分类模型进行第二阶段训练，直至所述图像分类模型满足第二训练完成条件；即将全卷积网络202的参数固定，使用大图训练数据训练全部网络。一幅样本图像209（大图）输入时，通过尺度变化单元201，将960x960的样本图像209缩放为三个：960x960,640x640,480x480，并通过padding将三幅图拼接为同一幅图(2080x960)，即多尺度图像210，输入到全卷积网络202，得到样本图像209的原始图像特征张量211。通过扁平化串联单元203将样本图像209的原始图像特征张量211在宽度与长度的维度上展平,得到多尺度图像特征张量212，输入到多头注意力单元204，对不同尺度下的图像特征的注意力关系进行学习与提取，并通过多层感知网络与sigmoid激活层（即多层感知器单元205），最终输出大图分类结果数据213，全图像损失函数214将大图分类结果数据213与大图的分类标签进行损失计算，全图像损失函数使用交叉熵损失函数。

基于同一发明构思，本申请实施例中还提供了与图像分类方法对应的图像分类装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述图像分类方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参照图6，图6示出了本申请实施例所述的图像分类装置的结构示意图；具体的，所述图像分类装置，包括：

缩放模块601，用于将目标图像输入至训练好的图像分类模型，通过所述图像分类模型，将所述目标图像进行缩放，得到目标图像的多个不同尺寸的图像；

提取模块602，用于将多个不同尺寸的图像拼接为一个多尺度图像，提取出所述多尺度图像的原始图像特征张量；所述多尺度图像中包括多个不同尺寸图像的图像数据；

展平模块603，用于在空间维度上展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量；所述多尺度图像特征张量包括目标图像多个不同尺寸图像的图像特征，所述多尺度图像特征张量的空间维度为一维；

识别模块604，用于根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，并输出目标图像中每个目标物体的类别。

本申请实施例提供一种图像分类装置，将目标图像输入至训练好的图像分类模型，将目标图像输入至训练好的图像分类模型，通过所述图像分类模型，将所述目标图像进行缩放，得到目标图像的多个不同尺寸的图像；将多个不同尺寸的图像拼接为一个多尺度图像，提取出所述多尺度图像的原始图像特征张量；在空间维度下展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量；根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，并输出目标图像中每个目标物体的类别；通过图像多尺度特征的自适应提取提高图像识别能力和识别精度，而所述图像分类模型能够直接输出综合多尺度图像特征下的图像分类结果，无需在后处理阶段进行复杂的人工规则和阈值设定，降低了计算量和推理延迟；同时，在对图像进行缩放的同时将图像连接为同一输入张量，避免网络重复计算，进一步减少推理时间。

在一些实施例中，所述的图像分类装置中的展平模块，在展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量时，具体用于：

在一些实施例中，所述的图像分类装置中的识别模块，在根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别时，具体用于：

在一些实施例中，所述的图像分类装置还包括训练模块；所述训练模块，具体用于通过通过以下训练方法训练得到的训练好的图像分类模型；

在一些实施例中，所述的图像分类装置中的训练模块，在通过样本大图中的局部图块对图像分类模型中的全卷积网络进行第一阶段训练之前，还用于：

根据所述标注框，提取出样本大图中的局部图块。

在一些实施例中，所述的图像分类装置中的训练模块，在根据所述标注框，提取出样本大图中的局部图块时，具体用于：

在一些实施例中，所述的图像分类装置中的训练模块，在通过样本图像对图像分类模型进行第二阶段训练，直至所述图像分类模型满足第二训练完成条件时，具体用于：

展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量；所述多尺度图像特征张量包括目标图像多个不同尺寸图像的图像特征，所述多尺度图像特征张量的空间维度为一维；

基于同一发明构思，本申请实施例中还提供了与图像分类方法对应的电子设备，由于本申请实施例中的电子设备解决问题的原理与本申请实施例上述图像分类方法相似，因此电子设备的实施可以参见方法的实施，重复之处不再赘述。

请参照图7，图7示出了本申请实施例所述电子设备的结构示意图，具体的，所述电子设备700，包括：处理器701、存储器702和总线，所述存储器702存储有所述处理器701可执行的机器可读指令，当电子设备700运行时，所述处理器701与所述存储器702之间通过总线通信，所述机器可读指令被所述处理器701执行时执行所述的图像分类方法的步骤。

基于同一发明构思，本申请实施例中还提供了与图像分类方法对应的计算机可读存储介质，由于本申请实施例中的计算机可读存储介质解决问题的原理与本申请实施例上述图像分类方法相似，因此计算机可读存储介质的实施可以参见方法的实施，重复之处不再赘述。

本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行所述的图像分类方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，平台服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的图像分类方法，其特征在于，在空间维度上展平所述多尺度图像的原始图像特征张量，得到目标图像的多尺度图像特征张量，包括：

3.根据权利要求1所述的图像分类方法，其特征在于，根据所述多尺度图像特征张量，识别出目标图像中每个目标物体的类别，包括：

4.根据权利要求1所述的图像分类方法，其特征在于，所述图像分类模型，是通过以下训练方法训练得到的：

5.根据权利要求4所述的图像分类方法，其特征在于，通过样本大图中的局部图块对图像分类模型中的全卷积网络进行第一阶段训练之前，所述训练方法还包括：

根据所述标注框，提取出样本大图中的局部图块。

6.根据权利要求5所述的图像分类方法，其特征在于，根据所述标注框，提取出样本大图中的局部图块，包括：

7.根据权利要求4所述的图像分类方法，其特征在于，通过样本图像对图像分类模型进行第二阶段训练，直至所述图像分类模型满足第二训练完成条件，包括：

8.一种图像分类装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任意一项所述的图像分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任意一项所述的图像分类方法的步骤。