CN117036832A

CN117036832A - 一种基于随机多尺度分块的图像分类方法、装置及介质

Info

Publication number: CN117036832A
Application number: CN202311294085.4A
Authority: CN
Inventors: 李少杰; 吴元锋; 陈耿; 于丽娟; 朱闻韬
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-10-09
Filing date: 2023-10-09
Publication date: 2023-11-10
Anticipated expiration: 2043-10-09
Also published as: CN117036832B

Abstract

本发明公开了一种基于随机多尺度分块的图像分类方法、装置及介质，包括：根据随机数对图像进行可变大小的切割，得到不同大小的图像块并记录其在图像中的位置坐标以及图像块的大小信息，从而获取图像块在图像中的位置编码以及对每个图像块大小进行编码；从图像中提取不同大小的图像块并进行像素编码；将相同大小图像块的编码向量分别组合成序列；将不同大小的序列添加图像块大小编码后分别先后输入第一Transformer编码器模块和第二Transformer编码器模块获得全局特征，再进行层归一化之后进行线性变换，得到最终的图像预测类别。本发明具有多尺度特征提取能力和数据的多样性，提高图像分类的准确性和泛化能力，减轻过拟合问题，更好地学习到数据的统计特性。

Description

一种基于随机多尺度分块的图像分类方法、装置及介质

技术领域

本发明涉及图像处理和人工智能技术领域，特别涉及一种基于随机多尺度分块的图像分类方法、装置及介质。

背景技术

Transformer是一种基于自注意力机制的神经网络模型，最初被提出用于自然语言处理任务，如机器翻译和文本生成。然而，随后发现 Transformer 也适用于其他领域，包括图像处理，它的注意力机制能够捕捉到图像中的上下文信息，有助于解决图像分类等问题。

ViT-Transformer架构是一种基于Transformer模型的图像分类方法，它将图像作为输入，并利用自注意力机制在图像特征提取和分类任务中取得了显著的成果。其中，图像分块编码技术在ViT-Transformer架构中扮演了重要的角色。图像分块编码技术在传统的Transformer模型中，输入是文本序列。而在ViT-Transformer架构中，为了处理图像数据，需要将图像分块编码为序列形式。这一过程主要包括将输入图像分成多个块，通常，这些块按照规则的网格划分；提取每个图像块的特征表示并转化为嵌入向量；为了保留图像中的位置信息，需要为每个图像块添加位置编码，这些位置编码可以是固定的、可学习的或通过其他方式生成。基于ViT-Transformer架构的图像分块编码技术通过将图像分块并序列化，利用Transformer模型的全局上下文理解能力和高效的并行计算特性，在图像分类任务中取得了卓越的表现。该技术的应用为图像处理领域带来了新的机遇，值得进一步深入研究和探索。

固定大小图像分块在Transformer模型中存在一些缺点。在固定图像块大小的情况下，较大的物体或细节可能被拆分成多个图像块进行处理，导致某些关键信息丢失。在实际图像中，物体的尺寸和比例可能会有很大的变化。固定大小不能很好地适应这种变化，可能导致对不同尺寸物体的表示不准确。使用随机多尺度图像分块可以更好地适应不同尺寸的物体和图像。这样可以保留更多的细节信息，并减少信息损失，还能引入更多的多样性，从而让模型见识到不同尺度的物体和图像。这有助于提高模型对不同尺度物体的泛化能力。使用随机多尺度图像分块可以增加数据的多样性，有助于减轻过拟合问题，模型可以更好地学习到数据的统计特性。

发明内容

鉴于现有技术的不足，本发明的目的在于提供一种基于随机多尺度分块的图像分类方法、装置及介质，用于增强模型的适应性和泛化能力，以更好地提高图像分类任务的性能。

本发明的目的是通过以下技术方案来实现的：一种基于随机多尺度分块的图像分类方法，包括以下步骤：

（1）设置随机种子并生成随机数，根据生成的随机数对图像进行可变大小的切割，得到不同大小的图像块，并记录其在图像中的位置坐标以及图像块的大小信息；

（2）根据图像块在图像中的位置坐标以及图像块的大小信息，获取图像块在图像中的位置编码以及对每个图像块大小进行编码；从图像中提取不同大小的图像块并进行像素编码；将相同大小图像块的编码向量分别组合成序列，得到不同大小的编码序列；

（3）将不同大小的序列添加图像块大小编码后分别输入第一Transformer编码器模块，将输出的不同大小的特征编码通过插值操作调整到相同的特征维度，通过拼接并排序将它们组合成一个序列，再添加位置编码并进行层归一化后，再用第二Transformer编码器模块进行处理获得全局特征；

（4）全局特征进行层归一化之后进行线性变换，得到最终的图像预测类别。

进一步地，所述步骤（1）包括以下子步骤：

（1.1）获取图像，其中图像的大小为N × N，设定最小图像块的宽度n和高度n，计算按滑动窗口n ×n进行切割切出图像块的总数量；用一个宽高均为N/n的二维张量seq_2d来表示切割顺序；用一个与seq_2d形状相同且元素值全为0的张量seq_2d_flag，用于表示图像块是否已经被选择，元素值为1表示已经被选择，为0表示还未被选择；

（1.2）获取张量seq_2d_flag中所有非0元素的索引，设置随机种子并生成随机数，根据生成的随机数选择一个索引作为当前图像块的左上角位置，图像块大小为2n × 2n，4n × 4n，…，an ×an中的一个，其中a不大于64，计算图像块右下角的位置，判断右下角的位置是否超出图像区域，并且判断从左上角到右下角形成的图像块是否全部未被选择，也就是seq_2d_flag中相应位置的值是否全部为0；若右下角的位置未超出图像区域并且图像块全部未被选择，则更新seq_2d_flag相应位置的值为1，并将图像块的位置和大小信息记录下来；否则重新执行步骤（1.2）；

（1.3）重复步骤（1.2），直至从图像中切有P种不同大小的图像块，每种图像块数量分别为N₁、N₂、……N_p，P种图像块的数量与大小的乘积之和等于图像大小。

进一步地，重复步骤（1.2）和步骤（1.3），获得M种随机分块方式。

进一步地，所述从图像中提取不同大小的图像块并进行像素编码具体为：

根据步骤（1）中得到不同大小的图像块及其位置坐标和大小信息，从图像中逐个提取图像块，将图像块的所有像素展平成一维向量；将每个图像块对应的向量通过线性变换映射到指定维度大小的向量，对每个图像块进行编码表示；将相同大小图像块的编码向量分别组合成序列，得到不同大小的图像块编码序列。

进一步地，所述获取图像块在图像中的位置编码具体为：

根据每个图像块的位置坐标，计算图像块在图像中对应的行列坐标信息，调整位置嵌入的范围并使用sin和cos函数生成嵌入部分，再将它们拼接在一起，得到图像块的位置编码。

进一步地，所述对每个图像块大小进行编码具体为：

根据每个图像块的大小信息，调整图像块大小嵌入的范围并使用sin和cos函数生成嵌入部分，再将它们拼接在一起，得到图像块大小编码。

进一步地，所述将图像块的所有像素展平成一维向量具体为：所述图像有RGB三个通道，an ×an的图像块展平得到维度为1×3(an)²的向量；

所述将每个图像块对应的向量通过线性变换映射到指定维度大小的向量具体为：将维度为1 × 3(an)²的向量映射到256×a。

一种基于随机多尺度分块的图像分类装置，包括：

随机多尺度分块模块，用于设置随机种子并生成随机数，根据生成的随机数对图像进行可变大小的切割，得到不同大小的图像块，并记录其在图像中的位置坐标以及图像块的大小信息；

编码模块，用于根据图像块在图像中的位置坐标以及图像块的大小信息，获取图像块在图像中的位置编码以及对每个图像块大小进行编码；从图像中提取不同大小的图像块并进行像素编码；将相同大小图像块的编码向量分别组合成序列，得到不同大小的编码序列；

Transformer编码器模块，用于将不同大小的序列添加图像块大小编码后分别输入第一Transformer编码器模块，将输出的不同大小的特征编码通过插值操作调整到相同的特征维度，通过拼接并排序将它们组合成一个序列，再添加位置编码并进行层归一化后，再用第二Transformer编码器模块进行处理获得全局特征；

全连接层模块，用于将全局特征进行层归一化之后进行线性变换，得到最终的图像预测类别。

一种基于随机多尺度分块的图像分类装置，包括一个或多个处理器，用于实现上述的一种基于随机多尺度分块的图像分类方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的一种基于随机多尺度分块的图像分类方法。

本发明的有益效果是：本发明采用不同尺度的图像块进行编码和处理，通过使用多尺度的图像块，可以捕捉到不同层次的特征信息，从而更好地理解图像的内容和结构。此外通过引入随机数，使得每次切割图像都会得到不同位置的图像块，可以增加数据的多样性和随机性。这种随机多尺度分块的Transformer模型图像分类方法，在处理不同尺寸和复杂度的图像时具有优势，并且可以提高分类的准确性和泛化能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中一种随机多尺度图像分块的切分示意图；

图2为本发明的一种基于随机多尺度分块的图像分类方法的流程图；

图3为本发明的一种基于随机多尺度分块的图像分类方法的结构示意图；

图4为本发明的一种硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

本实施例以自然图像分类为例，图像大小均为256 × 256，该数据为已经由专业标注工程师标注过的60000张自然图像，其中有50000张训练数据和10000张测试数据，分为10个类别包括飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车，每类6000张。利用本发明的一种基于随机多尺度分块的图像分类方法进行图像分类，如图2和图3所示，具体包括以下步骤：

步骤S1：如图1所示，对所有图像进行处理，设定要切割的最小图像块的大小为8× 8，计算按滑动窗口8 × 8进行切割，每张图像可以切出图像块的总数量为1024，用一个大小为32 × 32的二维张量seq_2d来表示切割顺序。用一个大小为32 × 32全0张量seq_2d_flag表示图像块是否已经被选择。获取张量seq_2d_flag中所有非0元素的索引，设置随机种子，根据生成的随机数选择一个索引作为当前图像块的左上角位置，图像块大小为16× 16和32× 32中的一种，计算图像块右下角的位置，判断右下角的位置是否超出图像区域，并且判断从左上角到右下角对应到seq_2d_flag中的区域是否全为0。若满足上述判断条件，则更新seq_2d_flag相应位置的值为1，并记录图像块的位置和大小。当记录下来的3种不同大小的图像块达到设定数量为止。重新创建seq_2d_flag张量，持续上述分块操作直至获得1000种这样的随机分块方式。

步骤S2：根据步骤S1中记录下的图像块位置和大小信息，选择其中一种随机分块方式，从图像中逐个提取图像块，其中获得8 × 8图像块344个，16× 16图像块86个，32× 32图像块21个。将对应的图像块的所有像素展平成一维向量，8× 8的图像块变成了维度为1 × 192的向量，其他同理。将每个图像块对应的向量通过线性变换映射到指定维度大小的向量(维度192映射到256，768映射到512，3072映射到1024)，每个图像块都有一个唯一的编码表示。将相同大小图像块的编码向量组合成序列，得到不同大小的序列(344×256、86×512和21×1024)。确定每个图像块的位置信息，通过计算图像块在原图中对应的行列坐标和大小信息，分别调整位置和大小嵌入的范围并使用sin和cos函数生成嵌入部分，再将它们拼接在一起，实现了图像块的位置和大小的编码。

步骤S3：将S2步骤中得到的不同大小的图像块编码序列添加图像块大小编码后，分别输入第一Transformer编码器模块（本实施例中第一Transformer编码器模块层数为4层），该编码器模块可以是多层自注意力机制和前馈神经网络的组合。每层编码器模块会对序列进行处理，并输出一个新的序列作为下一层编码器模块的输入。对获得的不同大小的特征编码进行插值操作，将它们调整到相同的特征维度(两个序列中256和512插值到1024)，确保它们可以进行拼接操作，按照它们在原图中的顺序进行排序并添加位置编码，形成一个新的编码序列大小为451×1024，对新的编码序列进行层归一化操作，层归一化后的序列输入第二Transformer编码器模块（本实施例中第二Transformer编码器模块层数为8层）进行处理，以此来增加模型的深度和表达能力，最后获得全局特征表示451×1024的特征向量。

其中，第一Transformer编码器模块主要负责对不同大小的图像块编码序列进行处理，并逐渐提取出更具表达能力的特征编码。而第二Transformer编码器模块则对经过插值和排序后的特征编码序列进行进一步的处理，以获得全局特征表示。第一Transformer编码器模块层数一般小于等于6层，第二Transformer编码器模块层数一般为6层至12层中的一种。第二Transformer编码器模块比第一Transformer编码器模块具有更深层次，可以通过增加模型的深度和表达能力来提高整体性能。

步骤S4：全局特征451×1024的特征向量进行层归一化之后求均值得到大小为1×1024特征向量，然后进行线性变换，将其映射到最终的分类结果的维度空间1×10，向量1×10为最终的分类预测结果。

与前述的一种基于随机多尺度分块的图像分类方法的实施例相对应，本发明还提供了一种基于随机多尺度分块的图像分类装置的实施例。

参见图4，本发明实施例提供的一种基于随机多尺度分块的图像分类装置，包括一个或多个处理器，用于实现上述实施例中的一种基于随机多尺度分块的图像分类方法。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本发明的一种基于随机多尺度分块的图像分类装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明的一种基于随机多尺度分块的图像分类装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于随机多尺度分块的图像分类方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种基于随机多尺度分块的图像分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于随机多尺度分块的图像分类方法，其特征在于，所述步骤（1）包括以下子步骤：

（1.1）获取图像，其中图像的大小为N × N，设定最小图像块的宽度n和高度n，计算按滑动窗口n × n进行切割切出图像块的总数量；用一个宽高均为N/n的二维张量seq_2d来表示切割顺序；用一个与seq_2d形状相同且元素值全为0的张量seq_2d_flag，用于表示图像块是否已经被选择，元素值为1表示已经被选择，为0表示还未被选择；

（1.2）获取张量seq_2d_flag中所有非0元素的索引，设置随机种子并生成随机数，根据生成的随机数选择一个索引作为当前图像块的左上角位置，图像块大小为2n × 2n，4n ×4n，…，an × an中的一个，其中a不大于64，计算图像块右下角的位置，判断右下角的位置是否超出图像区域，并且判断从左上角到右下角形成的图像块是否全部未被选择，也就是seq_2d_flag中相应位置的值是否全部为0；若右下角的位置未超出图像区域并且图像块全部未被选择，则更新seq_2d_flag相应位置的值为1，并将图像块的位置和大小信息记录下来；否则重新执行步骤（1.2）；

3.根据权利要求2所述的一种基于随机多尺度分块的图像分类方法，其特征在于，重复步骤（1.2）和步骤（1.3），获得M种随机分块方式。

4.根据权利要求1所述的一种基于随机多尺度分块的图像分类方法，其特征在于，所述从图像中提取不同大小的图像块并进行像素编码具体为：

5.根据权利要求1所述的一种基于随机多尺度分块的图像分类方法，其特征在于，所述获取图像块在图像中的位置编码具体为：

6.根据权利要求1所述的一种基于随机多尺度分块的图像分类方法，其特征在于，所述对每个图像块大小进行编码具体为：

7.根据权利要求4所述的一种基于随机多尺度分块的图像分类方法，其特征在于，所述将图像块的所有像素展平成一维向量具体为：所述图像有RGB三个通道， an ×an的图像块展平得到维度为1×3(an)²的向量；

8.一种基于随机多尺度分块的图像分类装置，其特征在于，包括：

9.一种基于随机多尺度分块的图像分类装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-7中任一项所述的一种基于随机多尺度分块的图像分类方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，用于实现权利要求1-7中任一项所述的一种基于随机多尺度分块的图像分类方法。