CN117597703A

CN117597703A - 用于图像分析的多尺度变换器

Info

Publication number: CN117597703A
Application number: CN202180100108.6A
Authority: CN
Inventors: 柯均洁; 杨峰; Q·王; Y·王; P·米兰法尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-07-01
Filing date: 2021-07-01
Publication date: 2024-02-23
Also published as: US20240119555A1; WO2023277919A1; US11887270B2; EP4136613A1; US20230222623A1

Abstract

该技术采用了可用于各种成像应用的基于图像块的多尺度变换器(300)。这避免了对图像固定输入大小的约束，并有效地预测了原生分辨率图像的质量。将原生分辨率图像(304)转换为多尺度表示(302)，使得变换器的自注意力机制能够捕获关于细粒度详细图像块和粗粒度全局图像块的信息。空间嵌入(316)用于将图像块位置映射到固定网格，其中每个尺度的图像块位置被散列到相同网格。采用单独的尺度嵌入(318)在多尺度表示中区分不同尺度的图像块。执行自注意力(508)以创建最终图像表示。在一些情况下，在执行自注意力之前，系统可以将可学习分类标记(322)预置到输入标记的集合中。

Description

用于图像分析的多尺度变换器

背景技术

图像分析被用于许多不同类型的应用。某些类型的图像分析，诸如图像质量评估(image quality assessment,IQA)，可以量化图像的感知质量。其他类型的图像分析可以用于分类图像的方面，诸如出现在图像内的对象。此类分析可以包括使用卷积神经网络(CNN)分析图像。然而，此类方法可能会受到固定大小输入要求的限制，以用于训练具有小批量(batch)的模型。调整大小或裁剪以使图像符合给定大小(具有关联的纵横比(aspectratio))，可能会影响图像合成、引入失真或其他伪影，从而改变图像的质量。解决此类技术问题的尝试可能会引发其他问题，诸如需要大量数据存储、需要调整大小和智能分组，或者通常使得大型数据集上的训练变得不切实际。

发明内容

技术的各方面采用基于图像块(patch)的多尺度变换器(multi-scaleTransformer)，其可用于IQA和其他成像应用(imaging application)。下面详细讨论的这种方法避免了对图像固定输入大小的限制，并有效地预测原生分辨率图像的质量。该方法将原生分辨率图像转换为多尺度表示，使得变换器的自注意力(self-attention)机制能够捕获细粒度(fine-grained)详细图像块和粗粒度(coarse-grained)全局图像块两者的信息。自注意力可以关注整个输入序列，因此它可以有效地捕获不同粒度的图像质量。采用基于散列的二维空间嵌入(embedding)，其将图像块位置映射到固定网格，以有效地处理具有任意纵横比和分辨率的图像。此外，由于每个尺度上的图像块位置被散列到相同网格，因此它在不同尺度上对齐空间上紧密的图像块，使得变换器模型可以在多个尺度上利用信息。除了空间嵌入外，还引入了一种独立的尺度嵌入，以帮助变换器区分多尺度表示中的不同尺度的图像块。所公开技术的各种实施方式可以解决技术问题，诸如由于需要改变输入图像的纵横比和/或分辨率而导致的效率较低的图像分析。所公开的方法还可以使得能够在更大范围的不同图像(即，不仅仅是已经符合特定纵横比的图像)上进行更好的图像分析。

根据该技术的一个方面，提供了一种用于处理图像的方法。所述方法包括：通过一个或多个处理器构造原生分辨率图像的多尺度表示，所述多尺度表示包括原生分辨率图像和保持纵横比(aspect ratio preserving)的调整大小的变体(variant)的集合；通过一个或多个处理器对与原生分辨率图像或保持纵横比的调整大小的变体的集合中的一个的相应区域相关联的每个图像块的对应空间嵌入进行编码，从而形成空间编码图像块的集合；通过一个或多个处理器将尺度嵌入的集合应用于空间编码的图像块的集合，以捕获与原生分辨率图像和纵横比调整大小的变体的集合相关联的尺度信息，从而形成输入标记(token)的集合；以及通过一个或多个处理器根据变换器编码器模块对输入标记的集合执行自注意力以创建最终图像表示。

在一个示例中，最终图像表示对应于原生分辨率图像的预测的质量得分。构造多尺度表示可以包括将原生分辨率图像和每个保持纵横比的调整大小的变体中的每一个分割成固定大小的图像块，其中每个图像块表示原生分辨率图像或保持纵横比的调整大小的变体中的一个的不同区域。

在另一示例中，对对应空间嵌入进行编码包括对可学习嵌入的网格内的每个图像块的图像块位置进行散列。在进一步的示例中，形成每个保持纵横比的调整大小的变体，使得变体的纵横比根据原生分辨率图像的较长边调整大小。多尺度表示可以包括具有高度H、宽度W和一个或多个通道C的原生分辨率图像，并且使用高斯核(Gaussian kernel)导出保持纵横比的调整大小的变体的集合，其中，每个通道表示原生分辨率图像的颜色分量。

在又一示例中，为了跨尺度对齐空间编码的图像块的集合，所有尺度的图像块位置被映射到相同网格。在进一步的示例中，所述方法还包括：在自注意力之前，将可学习分类标记预置到输入标记的集合。

在另一示例中，对输入标记的集合执行自注意力包括对输入标记的集合执行多头自注意力，包括：对输入标记的集合执行第一归一化以生成第一归一化的集合；对第一归一化的集合执行多头自注意力操作；对多头自注意力操作的输出执行第二归一化以生成第二归一化；以及对第二归一化执行多层感知器处理以创建最终图像表示。在这种情况下，可以对被添加到输入标记的集合的残差连接的多头自注意力操作的输出执行第二归一化。可以通过将第二归一化的输入添加到多层感知器处理的输出来获得最终图像表示。

在又一示例中，所述方法还包括在选择的图像数据集上预训练变换器编码器模块的变换器。可以基于跨原生分辨率图像和保持纵横比的调整大小的变体的集合的平均分辨率选择图像块的大小。在此，图像块的大小可以进一步基于图像块被映射到的可学习嵌入的网格的大小。

根据该技术的另一方面，一种图像处理系统包括被配置为存储图像的存储器和可操作地耦合到存储器的一个或多个处理器。所述一个或多个处理器被配置为：构造原生分辨率图像的多尺度表示，所述多尺度表示包括原生分辨率图像和保持纵横比的调整大小的变体的集合；对与原生分辨率图像或保持纵横比的调整大小的变体的集合中的一个的相应区域相关联的每个图像块的对应空间嵌入进行编码，从而形成空间编码图像块的集合；将尺度嵌入的集合应用于空间编码图像块的集合，以捕获与原生分辨率图像和纵横比调整大小的变体的集合相关联的尺度信息，从而形成输入标记的集合；以及采用变换器编码器模块对输入标记的集合执行自注意力以创建最终图像表示。

在一个示例中，处理器还被配置为在存储器中存储最终图像表示、原生分辨率图像或保持纵横比的调整大小的变体的集合中的至少一个。最终图像表示可以对应于原生分辨率图像的预测的质量得分。构造多尺度表示可以包括将原生分辨率图像和每个保持纵横比的调整大小的变体中的每一个分割成固定大小的图像块，其中每个图像块表示原生分辨率图像或保持纵横比的调整大小的变体中的一个的不同区域。对对应空间嵌入进行编码包括对可学习嵌入的网格内的每个图像块的图像块位置进行散列。一个或多个处理器还可以被配置为：在自注意力之前，将可学习分类标记预置到输入标记的集合。

在又一示例中，对输入标记的集合执行自注意力包括对输入标记的集合执行多头自注意力，包括：对输入标记的集合执行第一归一化以生成第一归一化的集合；对第一归一化的集合执行多头自注意力操作；对多头自注意力操作的输出执行第二归一化以生成第二归一化；以及对第二归一化执行多层感知器处理以创建最终图像表示。

附图说明

图1示出了使用裁剪或调整大小的图像的示例基于CNN的模型。

图2示出了根据本技术的各方面的示例多尺度图像表示。

图3示出了根据本技术的各方面的用于图像质量评估的多尺度变换器的示例模型概述。

图4A-图4C示出了根据本技术的各方面的具有保持的纵横比的多分辨率图像表示。

图4D-G示出了根据本技术的各方面的模型形成阶段。

图5A示出了根据本技术的各方面的示例变换器编码器。

图5B图解地示出了根据本技术的各方面的多头自注意力的特征。

图6示出了根据本技术的各方面的对多尺度构图(multi-scale composition)的原始图像和调整大小的图像的注意力的示例。

图7A-图7C示出了根据本技术的各方面的学习的HSE余弦相似性的可视化。

图8A-图8D示出了根据本技术的各方面的多尺度表示中的每个图像的可视化。

图9A-图9B示出了用于本技术的各方面的系统。

图10示出了根据本技术的各方面的方法。

具体实施方式

概述

基于图像块的多尺度变换器被配置为构造一个多尺度图像表示作为输入。此表示包括原生分辨率图像和保持纵横比(ARP)的调整大小的变体的集合。如下文进一步讨论的，每个图像被分割成固定大小的图像块，这些图像块由图像块编码模块嵌入。为了捕获图像的二维结构并处理不同纵横比的图像，通过在可学习嵌入的网格内对图像块位置进行散列来对空间嵌入进行编码。引入尺度嵌入来获取尺度信息。变换器编码器接收输入标记并执行多头自注意力。可以通过向序列添加分类标记来预测输出，以表示整个多尺度输入，并使用对应的变换器输出作为最终表示。

尽管主要参考图像质量分析(IQA)来描述说明书，但是应当理解，所公开的技术不限于这样的应用，而是具有广泛的适用性。例如，可以使用该技术的应用包括IQA、图像分类、任务需要学习图像的表示的图像表示学习以及多模态学习(文本和图像两者)。在训练基于图像块的多尺度变换器以预测质量得分的实施方式中，预测的质量得分可以进一步用于图像排序、图像推荐和不良图像滤波等应用。该技术也适用于IQA中的子任务，诸如估计图像的一些技术属性(例如，亮度、对比度、压缩率)。使用本文讨论的方法的图像分类可以涉及例如一般对象分类任务，以及不应调整图像大小的生物学或医学中的分类。

通过能够以其原始纵横比处理图像，当与现有系统相比时，本文描述的变换器可以在广泛的图像分析任务上实现优异的结果(例如，通过与变换器输出的精度相关的度量来测量)。

图1示出了示例方法100，其中基于CNN的模型用于图像质量评估。如图所示，在基于CNN的模型中，需要将全尺寸(full-size)输入图像102调整大小或裁剪为固定形状104以用于批量训练。然而，此类预处理可以改变图像纵横比和/或构图，其可以不利地影响图像质量。相反，如图2的视图200所示，基于图像块的多尺度变换器方法可以将全尺寸图像202处理为详细视图，并从调整大小的图像204₁,...,204_k的集合提取多尺度特征。

总体架构

图3提供了根据本技术的各方面的多尺度变换器的模型概述的图示300，其可用于例如图像质量评估。如302所示，构造多尺度图像表示作为变换器编码器的输入。该表示包括原生分辨率图像(304)及其ARP调整大小的变体(306₁,...,306_k)。在该示例中，每个图像304和306被分割成固定大小的图像块308，其被图像块编码模块310嵌入以形成多尺度图像块嵌入集312。为了捕获图像的2D结构并处理不同纵横比的图像，通过在可学习嵌入的网格内将图像块位置(i,j)散列到(t_i,t_j)来对空间嵌入进行编码，如G x.G阵列314中所示，并且在多尺度图像块嵌入集312上方示出所得到的嵌入的集合316。引入尺度嵌入的集合318以捕获尺度信息。变换器编码器模块320获取所得到的输入标记集并执行多头自注意力。为了获得图像的输出(例如，图像质量的预测或图像的分类)，分类标记(classificationtoken)[CLS]322可以被应用于序列以表示整个多尺度输入。对应的变换器输出可以被用作与原生分辨率图像相关联的最终表示，诸如质量得分或分类(未示出)。下面将详细描述该模型的各方面。

更具体地，创建输入图像的多尺度表示，其中包含原生分辨率图像及其ARP调整大小的变体。如图4A的示例400所示，尽管可以有三个、四个或更多的调整大小的变体，但是存在两个调整大小的变体。可以形成调整大小的变体，使得根据原始图像的较长边调整纵横比的大小(即，如图所示将较长边固定到L_i)。

将不同尺度的图像划分成固定大小的图像块，并送入模型。图4B示出了视图410，其中图像块412按每个图像显示为不同的框。由于图像块来自不同分辨率的图像，因此系统有效地将多纵横比多尺度输入编码成标记的序列(图3中的框312、316和318)，捕获像素、空间和尺度信息。图像块编码模块(图3中的310)对从多尺度表示提取的图像块进行编码。基于散列的空间嵌入模块对每个图像块的2D空间位置进行编码。并且可学习尺度嵌入对不同尺度进行编码。在将多尺度输入编码成标记序列之后，系统可以预置额外的可学习“分类标记”[CLS](参见图3的322)。在这种情况下，变换器编码器输出处的CLS标记状态用作最终图像表示。可以添加全连接层以预测图像质量得分。标记是固定大小的向量。最终的输入标记包括尺度、空间信息和图像块信息。

多尺度图像块嵌入

图像质量可能受到局部细节和全局构图的影响。为了同时获取全局和局部信息，该技术使用多尺度表示对输入图像进行建模。不同尺度的图像块使得变换器能够在多个尺度和空间位置上聚合信息。在一个示例中，多尺度输入由具有高度H、宽度W、通道C的全尺寸图像和使用高斯核的全尺寸图像的ARP调整大小的图像的序列组成。每个通道表示图像的一个颜色分量。例如，当输入图像为RGB格式时，它有3个通道。灰度图像只有1个通道，RGBA图像有4个通道(RGB+alpha)。对于RGB图像，每个像素由像素强度的三个[0,255]值表示，每个值分别表示R通道、G通道、B通道值。因此，高度H和宽度W的RGB图像可以由形状矩阵[H,W,3]表示。

在此，调整大小的图像具有高度h_k、宽度w_k和通道C，其中k＝1,...,K，其中K是每个输入的调整大小的变体的总数。为了对齐调整大小的图像以获得一致的全局视图中，对于每个调整大小的变体，较长边长度被固定为L_k。调整大小因子α_k可以被定义为：

α_k＝ L_k/max (H,W), 其中，h_k＝ α_kH, w_k ＝ α_kW (1)

根据一个场景，对于如何构图调整大小的变体可能没有限制，只要在训练和测试过程中长度一致即可。

图4C示出了视图420，其示出了原始分辨率图像的嵌入的“裁剪”(图像块)422以及调整大小的图像(K＝2)的裁剪424₁和424₂。这些形成模型的图像块像素嵌入部分。一旦预处理完成，裁剪被输入到图像块编码模块(图3中的310)。

在多尺度表示中，从每个图像中提取大小为P的方形图像块(裁剪)。例如，图像块尺寸P可以是16x16、32x32、64x64或更大或更小的大小。对于宽度或高度不是P的倍数的图像，可以相应地用零填充图像。图像块由图像块编码模块将每个图像块编码为D维嵌入。在此，D是变换器中使用的潜在标记大小。虽然可以使用线性投影对图像块进行编码，但是在一种情况下，可以采用5层ResNet类型的卷积神经网络，其中具有大小为D的全连接层作为图像块编码器模块，以学习输入图像块的更好表示。当在诸如ILSVRC-2012ImageNet的ImageNet大尺度视觉识别挑战(ILSVRC)上进行预训练时，利用几个卷积层(例如，多达5层)对图像块进行编码可能比线性投影执行得更好。由于图像块编码模块是轻量级的，并且在大小P较小的所有输入图像块上共享，因此它只添加了少量的参数。例如，下表显示了使用AVA数据集的具有不同图像块编码模块的模型的参数总数的示例。在此，对于32x32图像块尺寸，2层卷积相对于线性投影增加了100万(1M)个参数，而5层ResNet增加了500万(5M)个参数。例如，Spearman(斯皮尔曼)等级相关(Spearman rank ordered correlation,SRCC)、Pearson(皮尔逊)线性相关(Pearson linear correlation,PLCC)、2层卷积可以使用ResNet的根(7x7卷积，然后是3x3卷积)。对于5层ResNet，在2层(简单)卷积的顶部上堆叠残差块。

	#参数	SRCC	PLCC
				线性投影	22M	0.703	0.716
2层卷积	23M	0.717	0.731
				5层ResNet	27M	0.726	0.738

表0：AVA数据集上不同图像块编码模块的比较

将图像块编码模块的图像块嵌入输出的序列拼接在一起，以形成输入图像的多尺度嵌入序列。原始图像和调整大小的图像的图像块数量可以被分别计算为N＝HW＝P²和n_k＝h_kw_k/P²。因此，每个图像的图像块数量可能不同。

由于每个输入图像具有不同的分辨率和纵横比，因此每个输入的H和W不同，因此N和n_k不同。为了在训练期间获得固定长度的输入，编码的图像块标记可以被零填充或剪切到相同长度。可以附接输入掩码以指示有效输入，将在变换器中用于执行掩蔽自注意力。需要注意，填充操作不会改变输入，因为在多头注意力中，通过掩蔽填充标记会忽略它们。

如上所述，对于每个调整大小的变体，较长边长度被固定为L_k。因此，并且系统可以安全地填充到m_k。对于原生分辨率图像，系统可以简单地将序列填充或剪切到固定长度l。因为序列长度可以是任意的，所以在单输入评估过程中填充不是必要的。

基于散列的2D空间嵌入

空间位置嵌入有利于在1D序列输入中注入对2D图像结构的感知。固定长度位置嵌入为每个输入位置指定嵌入；但是，对于图像块数量不同的可变输入分辨率，这会失败，因此序列中的每个图像块可能来自图像中的任意位置。此外，独立定位的位置嵌入模型不能从不同尺度对齐空间紧密图像块。鉴于此，该技术的各方面被配置为满足以下要求。首先，在不同纵横比和输入分辨率下有效地对图像块空间信息进行编码。第二，不同尺度的空间紧密图像块应具有紧密空间嵌入。第三，嵌入应高效且易于实现，并且对于变换器注意力是非侵入性。在此，相对于需要改变变换器注意力部分的相对位置嵌入方法，非侵入性意味着系统不需要改变变换器注意力实施方式。

鉴于上述情况，提供了基于散列的2D空间嵌入(HSE)，其中位于行i、列j处的图像块被散列到G x G网格中的对应元素(参见图3中的314)。图4D中的视图430示出了图像块的输入裁剪如何被散列或以其他方式被映射到G x G网格中的对应元素。例如，可以使用查找表来实现散列。

网格中的每个元素都是D维嵌入。HSE由可学习矩阵定义。假设输入分辨率为H x W。输入图像将被划分为/>图像块。对于位置(i,j)处的图像块，其空间嵌入由T中位置(t_i,t_j)处的元素定义，其中：

如图3所示，将D维空间嵌入逐元素地添加到图像块嵌入。图4E的视图440示出了应用于每个分辨率的裁剪的图像块像素嵌入442、444₁和444₂的空间嵌入。

对于快速查找，系统可以简单地将(t_i t_j)四舍五入到最接近的整数。HSE不需要对变换器注意力模块进行任何改变。此外，t_i和t_j的计算以及查找都是轻量级的，并且易于实现，不需要不必要的计算资源。

为了跨尺度对齐图像块，将所有尺度的图像块位置映射到相同网格T。因此，位于图像中较近但不同尺度的图像块将被映射到T中的空间紧密嵌入，因为i和H以及j和W与调整大小因子α成比例地改变。这实现了在多尺度表示的不同图像上的空间对齐。

对于选择散列网格大小G，表达性和可训练性之间存在权衡。较小的G(例如，4或更小)可能会导致图像块之间的碰撞过多，这使得模型无法区分空间紧密图像块。较大的G(例如，100或更大)可能会消耗大量存储器资源，并且可能需要更多不同的分辨率进行训练。较大的G意味着散列更稀疏，因此需要更多不同的分辨率进行训练，否则一些位置可能没有足够的数据来学习良好的表示。对于可学习T，合适的经验法则是让网格大小乘以图像块的数量P大致等于平均分辨率，因此G x G x P x P＝H x W。对于不同数据集的平均分辨率约为450x 500、图像块尺寸为32，网格大小可能在10到15之间。在一个场景中，根据其中粗略位置信息充足的一个IQA设置，发现一旦G足够大，改变G只会导致较小的性能差异。因此，在一个示例中，G可以在5-15之间，例如10，尽管可以采用更大或更小的G值。

尺度嵌入

由于相同的散列矩阵可以重用于所有图像，HSE不会区分不同尺度的图像块。因此，引入附加尺度嵌入(SCE)，以帮助模型有效地区分不同尺度的信息以及更好地利用跨尺度信息。换句话说，SCE在多尺度表示中标记图像块来自哪个输入尺度。图4F的视图450示出了应用于空间嵌入和442、444₁和444₂的尺度嵌入452、454₁和454₂以及每个分辨率的裁剪的图像块像素嵌入442、444₁和444₂。如上所述，为了在训练期间获得固定长度的输入，编码的图像块标记可以被零填充到相同长度。这在图4G的视图460中示出，使用零填充块462、464₁和464₂。

SCE被定义为具有K尺度调整大小的变体的输入图像的可学习尺度嵌入在空间嵌入之后，第一个元素/>被逐元素地添加到原生分辨率图像的所有D维图像块嵌入中。/>也被逐元素地添加到以尺度k调整大小的图像的所有图像块嵌入中。

预训练和微调

在一个示例中，变换器模型在大型数据集(例如，具有百万或更多图像的数据集，诸如ImageNet)上预先训练，并在下游任务上微调。在预训练期间，系统可以保持随机裁剪作为增强，以生成不同大小的图像。然而，系统可能会跳过调整大小，为具有不同分辨率和纵横比的输入初始化模型，而不是进行方形大小调整(square resizing)。可以在预训练中使用诸如RandAugment和mixup的增强。例如，对于增强操作池，RandAugment从池中随机选择N，并按幅度M依次应用它(N、M是可配置的)。Mixup是一种数据增强技术，其从训练数据中生成随机图像对的加权组合。其他合适的预训练数据集包括ImageNet21k、JFT-300M和OpenImage。

当对IQA任务进行微调时，系统不需要调整或裁剪输入图像以保持图像构图和纵横比，从而使模型在处理开始时具有未修改的输入图像。在一个场景中，微调中使用的唯一增强是随机水平翻转。在此，对于每个训练图像，系统可以随机地以概率p水平翻转它，其中p可以是0.5(或更多或更少)。对于评估，该方法可以直接应用于原始图像，而无需聚合多个增强(例如，多裁剪采样)。

当对IQA数据集(可能包括标有对应IQA测量/得分的图像)进行微调时，可以使用回归损失(诸如单一平均主观得分(mean opinion score,MOS)的L1损失和推土机距离(Earth Mover Distance,EMD)损失)来预测质量得分分布：

其中，p是归一化得分分布以及CDF_p(m)是累积分布函数EMD损失对评级和预测之间的分布距离进行惩罚。在此，r是超参数，用于选择r-norm(r-归一化)分布距离。例如，r可以被设置为2，用于以CDF之间的欧氏距离进行惩罚。

当系统被训练以执行其他图像分析任务时，可以使用其他训练数据集和损失函数(或目标函数)。例如，对于分类任务，可以使用包括多个图像输入和表示图像的特定类别的对应标签的分类数据集来训练变换器。可以利用诸如交叉熵损失的合适的损失函数来训练这种场景下的变换器。将理解，如前所述，变换器可以被用于其他图像分析任务，并且任何合适的数据集和/或损失函数可以被用于训练变换器以执行图像分析任务。

变换器编码器

图5A中示出了示例变换器编码器500。如图所示，嵌入的多尺度表示502被输入到转换编码器块504。转换编码器块504包括以下层：第一层归一化506、多头自注意力(MSA)层508、第二层归一化510和多层感知器(MLP)层512。如箭头514和516所示，在层之间添加残差连接。

多尺度图像块被编码为其中k＝0...K，其是尺度索引，并且n是尺度中的图像块索引。k＝0表示全尺寸图像。K是可调参数。将基于散列的2D空间嵌入(HSE)和尺度嵌入(SCE)添加到图像块嵌入中，形成多尺度表示输入。可学习[类]标记嵌入可以预置在嵌入的标记序列(x_class)中。变换器编码器可以被公式化为：

z₀＝[x_class；E_p+E_HSE+E_SCE] (5)

z′_q＝MSA(LN(z_q-1))+z_q-1，q＝1…L (6)

z_q＝MLP(LN(z′_q))+z′_q，q＝1…L (7)

E_p是图像块嵌入。E_HSE和E_SCE分别是空间嵌入和尺度嵌入。l是原始分辨率的图像块数量。m₁...m_K是调整大小的变体的图像块数量。z₀是变换器编码器的输入。z_q是每个变换器层的输出，以及L是变换器层的总数。

在微调中使用较大的l可以提高模型的性能。由于大分辨率图像比低分辨率图像具有更多的图像块，当l太小时，一些较大的图像可能会被截断，从而降低模型性能。例如，l可以被选择为128、256或512或更多或更少。

结合图5B的实施例520讨论自注意力及其多头版本、多头自注意力(multi-headself-attention，MSA)。假设输入序列由表示，向量Q、K和V分别是其查询(Q)、键(K)和值(V)表示。Q、K和V分别通过利用可学习矩阵U_q，U_k，/>对输入序列进行投影来生成。D_h是Q，K，V的内维数。然后使用注意力权重/>计算V上的加权和，注意力权重是Q和K之间的成对相似度。

Q＝zU_q，K＝zU_k，V＝zU_v (9)

SA(z)＝AV (11)

MSA是自注意力的扩展，其中s个自注意力操作(头)是并行进行的。所有头的输出拼接在一起，然后利用可学习矩阵投影到最终输出。D_h可以被设置为D/s，以保持每个s的计算和参数数量不变。这将导致：

MSA(z)＝[SA₁(z)；...；SA_s(z)]U_M (12)

在批处理训练中，输入掩码用于指示有效输入并忽略填充标记。如图5B中的块526所示，在块528执行softmax功能之前，在注意力权重上添加掩码。在公式10中的softmax步骤之前，通过将对应元素设置为-inf(负无穷大)，无效位置上的注意力权重接近于零。在一个示例中，考虑到在通过所有层在标记上混合注意力，注意力权重在所有头上求平均值，然后递归相乘。因此，图5B表示公式(10)和(11)。MatMul块522表示矩阵乘法(公式10中的QK^T)。块524处的尺度表示在(公式10)中按照的缩放。块526处的掩码操作将需要忽略的元素设置为-inf(参见下面的公式14)。Softmax块528将/>的输出归一化为概率分布。最后的MatMul块530是公式11中的AV乘法。

注意力掩码可以构造为其中：如果注意力

然后，掩码的自注意力权重矩阵可以计算为：

示例实施方式

在一个示例中，多尺度表示被构造为原生分辨率图像，并且使用两个ARP调整大小的图像，其中L₁＝224和L₂。因此，尺度的数量是K＝3。图像块尺寸P＝32。变换器输入标记的维度为D＝384，这也是像素图像块嵌入、HSE和SCE的维度。HSE网格尺寸被设置为G＝10。采用了具有轻量级参数(例如，384隐藏尺寸、14层、1152MLP尺寸和6个头)的变换器，以使得模型尺寸与ResNet-50相当。最终模型的总参数约为2700万。

在此示例中，使用Adam，其中β1＝0.9；β2＝0.999，批量大小为4096，权重衰减为0.1，余弦学习率从0.001开始衰减，MST-IQA模型在ImageNet上进行了300次的训练。在训练中，最大图像块数量被设置为从全尺寸图像l到512。对于微调，SGD与动量以及从0.0002、0.002、0.0001、0.12衰减的余弦学习率一起分别用于PaQ-2-PiQ、KonIQ-10k、SPAQ和AVA上10、30、30和20次。对于AVA，批量大小被设置为512，对于KonIQ-10k，批量大小被设置为96，对于其他，批量大小被设置为128。对于AVA，我们使用r＝2的EMD损失。对于其他数据集，L1被用于损失。

模型可以在一个或多个张量处理单元(TPU)上训练。所有结果可以在10次运行中取平均值。报告SRCC、PLCC和对应的标准偏差(std)。下表1示出了PaQ-2-PiQ全尺寸验证和测试集的结果，图6的视图600以图形方式示出了原始图像和调整大小的图像的注意力。视图600的表中的最后一行(全尺寸,384,224)示出了表1的测试集结果。图右侧的图像是输出标记到多尺度表示(原始分辨率图像和两个ARP调整大小的变体)的注意力的可视化。本文的图像被调整大小以适应网格，模型输入是3种不同分辨率。该模型在高分辨率图像中聚焦细节，在低分辨率图像中聚焦全局。这示出该模型学习不同粒度下的图像质量。表2示出了KonIQ-10k数据集的结果。表3示出了SPAQ数据集的结果。表4示出了AVA数据集的结果。

表1：PaQ-2-PiQ全尺寸验证集和测试集

SRCC	PLCC
		0.909	0.923

表2：KonIQ-10k数据集的结果

SRCC	PLCC
		0.917	0.921

表3：SPAQ数据集的结果

分类精度	均方误差	SRCC	PLCC
				0.815	0.242	0.726	0.738

表4：AVA数据集的结果

可以使用消融(ablation)来评估基于散列的空间嵌入(HSE)和尺度嵌入(SCE)的有效性。下表5显示了AVA上的空间嵌入的消融研究。

表5：AVA上的空间嵌入的消融研究结果

对于“固定长度(无HSE)”，输入被视为固定长度序列，并为每个位置分配可学习嵌入。如此处所示，添加和不添加(“w/o嵌入”)空间嵌入之间存在很大差距。即使是固定长度序列也不如HSE令人满意。这是因为两个原因。首先，输入具有不同的纵横比。因此，序列中的每个图像块可以来自图像的不同位置。固定位置嵌入无法捕获此改变。其次，由于每个位置都是独立建模的，因此没有跨尺度信息，这意味着模型无法在多尺度表示中定位不同尺度的空间紧密图像块。此外，固定长度方法是不灵活的，因为固定长度的空间嵌入不能容易地应用于具有更多图像块的大图像。相反，HSE在任何情况下都是有意义的。

在图7A的视图700(G＝10)、图7B的视图710(G＝5)和图7C的视图720(G＝15)中提供了学习的HSE余弦相似性的可视化。如这些视图所示，空间紧密位置的HSE更相似(较浅的阴影或颜色，或者在相同的一般位置更亮)，并且它很好地对应于2D结构。例如，底部HSE在底部最亮。这示出HSE可以有效地捕捉图像的2D结构。

表6显示，与不添加SCE相比，添加SCE可以进一步提高性能。该表示出，SCE有助于模型独立于空间信息捕获尺度信息。

尺度嵌入	SRCC	PLCC
			w/o嵌入	0.717	0.729
具有嵌入	0.726	0.738

表6：AVA上尺度嵌入的消融研究结果

可以采用不同的设计来对图像块进行编码，包括线性投影和少量卷积层。如表7所示，使用简单的基于卷积的图像块编码模块可以提高性能。对于简单的conv，使用ResNet的根(7x7的conv，然后3x3的conv)。对于5层ResNet，将残差块堆叠在简单卷积的顶部。添加更多的卷积层可能具有递减的回报，并且可以看出，5层的ResNet可以为图像块提供令人满意的表示。

表7：AVA数据集上不同图像块编码模块的比较

表8中显示了对图像块尺寸的影响的评估。在此，消融是在不同的图像块大小P上进行的。从这个结果的集合中可以看出，大小P＝32的图像块具有最有效的性能。

图像块尺寸	16	32	48	64
					SRCC	0.715	0.726	0.713	0.705
PLCC	0.729	0.738	0.727	0.719

表8：AVA数据集上不同图像块尺寸的比较

图10.从输出标记到多尺度表示的注意力的可视化。“输入”列显示输入图像。“Attn Full”显示了全尺寸图像的注意力。“Attn L＝384”和“Attn L＝224”显示了ARP调整大小的图像的注意力。请注意，在此的图像被调整大小以适应网格，模型输入是3种不同的分辨率。

为了理解系统如何使用自注意力整合不同尺度上的信息，可以为多尺度表示进行从输出标记到每个图像的平均注意力权重的可视化。这方面的示例分别在图8A-D的视图800、810、820和830中给出。在这些示例中，考虑到通过所有层的标记之间的混合注意力，注意力权重在所有头上取平均值，然后递归相乘。

可以采用TPU、CPU或其他计算架构来实现根据本文公开的特征的基于图像块的多尺度变换器。一个示例计算体系结构如图9A和图9B所示。特别地，图9A和图9B分别是示例系统900的示意图和功能图，该示例系统900包括经由网络连接的多个计算设备和数据库。例如，计算设备902可以是基于云的服务器系统。数据库904、906和908可以分别存储例如原始全尺寸图像、多尺度表示和/或变换器模块(诸如变换器编码模块、图像块编码模块等)。服务器系统可以经由网络910访问数据库。客户端设备可以包括台式计算机912和膝上型或平板PC 914中的一个或多个，例如用于提供原始图像和/或用于查看输出可视化。

如图9B所示，计算设备902和912-914中的每一个都可以包括一个或多个处理器、存储器、数据和指令。存储器存储由一个或多个处理器可访问的信息，包括可以由处理器执行或以其他方式使用的指令和数据(例如，模型)。存储器可以是能够存储处理器可访问的信息的任何类型，包括计算设备可读介质。存储器是非暂时性介质，诸如硬盘驱动器、存储卡、光盘、固态等。系统可以包括上述的不同组合，从而将指令和数据的不同部分存储在不同类型的介质上。指令可以是由处理器直接执行(诸如机器代码)或间接执行(诸如脚本)的任何指令的集合。例如，指令可以作为计算设备代码存储在计算设备可读介质上。对此，术语“指令”、“模块”和“程序”在本文中可以互换使用。指令可以以目标代码格式存储以用于处理器直接处理，或者以任何其他计算设备语言存储，包括按需解释或预先编译的独立源代码模块的脚本或集合。

处理器可以是任何常规处理器，诸如市售的CPU、TPU、图形处理单元(GPU)等。可替换地，每个处理器可以是专用设备，诸如ASIC或其他基于硬件的处理器。尽管图9B在功能上示出了给定计算设备的处理器、存储器和其他元件在相同块内，但这些设备实际上可以包括多个处理器、计算设备或存储器，这些处理器、计算设备或存储器可以被存储或不被存储在相同物理外壳内。类似地，存储器可以是硬盘驱动器或位于不同于处理器的外壳的外壳中的其他存储介质，例如位于服务器902的云计算系统中。相应地，对处理器或计算设备的引用将被理解为包括对可以并行操作或不并行操作的处理器、计算设备或存储器的集合的引用。

输入数据，诸如一个或多个原始的全尺寸图像，可以由变换器模块操作以生成一个或多个多尺度表示、图像质量评估数据等。客户端设备可以在各种应用或其他程序中利用这些信息来执行图像排序、图像推荐、图像分类和/或不良图像过滤。

计算设备可以包括通常与诸如上述处理器和存储器的计算设备结合使用的所有组件，以及用于接收来自用户的输入并向用户呈现信息(例如，文本、图像和/或其他图形元素)的用户接口子系统。用户接口子系统可以包括一个或多个用户输入(例如，至少一个面向相机的正面(用户)、鼠标、键盘、触摸屏和/或麦克风)和一个或多个显示设备(例如，具有屏幕的监视器或可操作显示信息(例如，文本、图像和/或其他图形元素)的任何其他电气设备)。诸如扬声器的其他输出设备也可以向用户提供信息。

用户相关计算设备(例如，912-914)可以经由一个或多个网络(诸如网络910)与后端计算系统(例如，服务器902)通信。网络910和中间节点可以包括各种配置和协议，包括诸如Bluetooth^TM的短程通信协议、Bluetooth LE^TM、互联网、万维网、内联网、虚拟专用网络、广域网、本地网络、使用一个或多个公司专有的通信协议的专用网络、以太网、WiFi和HTTP以及上述的各种组合。这种通信可以由能够向其他计算设备(诸如调制解调器和无线接口)发送数据和从其他计算设备发送数据的任何设备来促进。

在一个示例中，计算设备902可以包括具有多个计算设备的一个或多个服务器计算设备，例如，负载平衡服务器场或云计算系统，其与网络的不同节点交换信息，用于从其他计算设备接收、处理数据以及向其他计算设备发送数据。例如，计算设备902可以包括能够经由网络910与计算设备912-914中的任何一个通信的一个或多个服务器计算设备。

从变换器模块、模块本身、多尺度表示等导出的图像质量评估信息或其他数据可以由服务器与一个或多个客户端计算设备共享。可替换地或附加地，客户端设备可以维护它们自己的数据库、变换器模块等。

图10示出了根据该技术的各方面的用于处理图像的方法1000。该方法包括：在块1002，构造原生分辨率图像的多尺度表示。多尺度表示包括原生分辨率图像和保持纵横比的调整大小的变体的集合。在块1004，该方法包括对与原生分辨率图像或保持纵横比的调整大小的变体的集合中的一个的相应区域相关联的每个图像块的对应空间嵌入进行编码，从而形成空间编码图像块的集合。在块1006，该方法包括将尺度嵌入的集合应用于空间编码的图像块的集合，以捕获与原生分辨率图像和纵横比调整大小的变体的集合相关联的尺度信息，从而形成输入标记的集合。并且在块1008，该方法包括根据变换器编码器模块对输入标记的集合执行自注意力以创建最终图像表示。

本文讨论的基于图像块的多尺度变换器方法由于许多原因是有利的，并且具有广泛的适用性。例如，该技术可用于的应用包括IQA、图像分类、任务需要学习图像表示的图像表示学习以及多模态学习(文本和图像)。预测的质量得分可以进一步用于图像排序、图像推荐和不良图像过滤等应用中。该技术也适用于IQA中的子任务，诸如估计图像的一些技术属性(例如，亮度、对比度、压缩率)。使用本文所讨论的方法的图像分类可以涉及例如一般对象分类任务，以及生物学或医学中的分类，其中图像不应该被调整大小。该系统可以将文本和图像表示为标记，并执行多模态学习。

尽管已经参考特定实施例描述了本文中的技术，但是应当理解，这些实施例仅仅是本技术的原理和应用的说明。因此，应当理解，在不脱离所附权利要求所限定的本技术的精神和范围的情况下，可以对说明性实施例进行许多修改，并且可以设计其他布置。

Claims

1.一种用于处理图像的方法，所述方法包括：

通过一个或多个处理器构造原生分辨率图像的多尺度表示，所述多尺度表示包括原生分辨率图像和保持纵横比的调整大小的变体的集合；

通过所述一个或多个处理器对与原生分辨率图像或保持纵横比的调整大小的变体的集合中的一个的相应区域相关联的每个图像块的对应空间嵌入进行编码，从而形成空间编码图像块的集合；

通过所述一个或多个处理器将尺度嵌入的集合应用于空间编码的图像块的集合，以捕获与原生分辨率图像和纵横比调整大小的变体的集合相关联的尺度信息，从而形成输入标记的集合；以及

通过所述一个或多个处理器根据变换器编码器模块对输入标记的集合执行自注意力以创建最终图像表示。

2.根据权利要求1所述的方法，其中，最终图像表示对应于原生分辨率图像的预测的质量得分。

3.根据权利要求1或2所述的方法，其中，构造多尺度表示包括将原生分辨率图像和每个保持纵横比的调整大小的变体中的每一个分割成固定大小的图像块，其中每个图像块表示原生分辨率图像或保持纵横比的调整大小的变体中的一个的不同区域。

4.根据前述权利要求中任一项所述的方法，其中，对对应空间嵌入进行编码包括对可学习嵌入的网格内的每个图像块的图像块位置进行散列。

5.根据前述权利要求中任一项所述的方法，其中，形成每个保持纵横比的调整大小的变体，使得变体的纵横比根据原生分辨率图像的较长边调整大小。

6.根据前述权利要求中任一项所述的方法，其中，多尺度表示包括具有高度H、宽度W和一个或多个通道C的原生分辨率图像，并且使用高斯核导出保持纵横比的调整大小的变体的集合，其中，每个通道表示原生分辨率图像的颜色分量。

7.根据前述权利要求中任一项所述的方法，其中，为了跨尺度对齐空间编码的图像块的集合，将所有尺度的图像块位置映射到相同网格。

8.根据前述权利要求中任一项所述的方法，还包括，在自注意力之前，将可学习分类标记预置到输入标记的集合。

9.根据前述权利要求中任一项所述的方法，其中，对输入标记的集合执行自注意力包括对输入标记的集合执行多头自注意力，包括：

对输入标记的集合执行第一归一化以生成第一归一化的集合；

对第一归一化的集合执行多头自注意力操作；

对多头自注意力操作的输出执行第二归一化以生成第二归一化；以及

对第二归一化执行多层感知器处理以创建最终图像表示。

10.根据权利要求9所述的方法，其中，对添加到输入标记的集合的残差连接的多头自注意力操作的输出执行第二归一化。

11.根据权利要求10所述的方法，其中，通过将第二归一化的输入添加到多层感知器处理的输出来获得最终图像表示。

12.根据前述权利要求中任一项所述的方法，还包括在选择的图像数据集上预训练变换器编码器模块的变换器。

13.根据前述权利要求中任一项所述的方法，其中，基于跨原生分辨率图像和保持纵横比的调整大小的变体的集合的平均分辨率选择图像块的大小。

14.根据权利要求13所述的方法，其中，图像块的大小进一步基于图像块被映射到的可学习嵌入的网格的大小。

15.一种图像处理系统，包括：

存储器，被配置为存储图像；以及

可操作地耦合到存储器的一个或多个处理器，所述一个或多个处理器被配置为：

构造原生分辨率图像的多尺度表示，所述多尺度表示包括原生分辨率图像和保持纵横比的调整大小的变体的集合；

对与原生分辨率图像或保持纵横比的调整大小的变体的集合中的一个的相应区域相关联的每个图像块的对应空间嵌入进行编码，从而形成空间编码图像块的集合；

将尺度嵌入的集合应用于空间编码的图像块的集合，以捕获与原生分辨率图像和纵横比调整大小的变体的集合相关联的尺度信息，从而形成输入标记的集合；以及

采用变换器编码器模块对输入标记的集合执行自注意力以创建最终图像表示。

16.根据权利要求15所述的图像处理系统，其中，所述一个或多个处理器还被配置为在存储器中存储最终图像表示、原生分辨率图像或保持纵横比的调整大小的变体的集合中的至少一个。

17.根据权利要求15或16所述的图像处理系统，其中，最终图像表示对应于原生分辨率图像的预测的质量得分。

18.根据权利要求15至17中的任一项所述的图像处理系统，其中，构造多尺度表示包括将原生分辨率图像和每个保持纵横比的调整大小的变体中的每一个分割成固定大小的图像块，其中每个图像块表示原生分辨率图像或保持纵横比的调整大小的变体中的一个的不同区域。

19.根据权利要求15至18中的任一项所述的图像处理系统，其中，对对应空间嵌入进行编码包括对可学习嵌入的网格内的每个图像块的图像块位置进行散列。

20.根据权利要求15至19中的任一项所述的图像处理系统，其中，所述一个或多个处理器还被配置为：在自注意力之前，将可学习分类标记预置到输入标记的集合。

21.根据权利要求16至20中的任一项所述的图像处理系统，其中，对输入标记的集合执行自注意力包括对输入标记的集合执行多头自注意力，包括：

对第一归一化的集合执行多头自注意力操作；

对第二归一化执行多层感知器处理以创建最终图像表示。