CN114761968B

CN114761968B - 用于频域静态通道滤波的方法、系统和存储介质

Info

Publication number: CN114761968B
Application number: CN202080079299.8A
Authority: CN
Inventors: 许凯; 孙飞; 秦明海; 陈彦光
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-12-31
Filing date: 2020-12-16
Publication date: 2023-04-28
Anticipated expiration: 2040-12-16
Also published as: CN114761968A; WO2021138059A1; US20210201538A1; US11403782B2

Abstract

本公开提供了一种用于频域静态通道滤波的方法、系统和存储介质。该方法包括：解码图像数据集的图像以生成图像数据集的频域表示；丢弃频域表示的图像数据集的每个图像的一个或多个特定频率通道的系数值，丢弃的系数值包括色度分量的一些但不是全部频率通道的系数值和亮度分量的至少一些通道的系数值；以及将频域表示的图像数据集传输到一个或多个专用处理器。本公开的方法和系统可以使滤波后的图像数据集能够绕过第一层输入到学习模型的第二层，或者可以使学习模型能够设计为具有减小尺寸的第一层。这可以实现诸如减少机器学习训练和推理计算的计算开销和时间、减少输入到学习模型中的图像数据量以及减少收敛时间等优点。

Description

用于频域静态通道滤波的方法、系统和存储介质

背景技术

许多形式的信息，例如音频和图像，可以转换为其在频域中的各种表示，然后通过逆变换转换回其原始表示。信息的频域表示在数据处理中有许多应用。例如，图像编码算法通常通过将图像数据转换为频域表示来压缩图像数据，因为通过对频域数据进行操作的算法可以很容易地实现图像数据大小的缩减。

在空间域中表示的图像数据可以在各种颜色空间中表示，通常包括RGB颜色空间和YCbCr颜色空间。在RGB颜色空间中，图像数据被分离成红色分量、绿色分量和蓝色分量；在YCbCr颜色空间中，图像数据被分离成一个亮度分量(luma component)和两个色度分量(chroma component)。数字图像数据可以容易地表示在这些颜色空间中的一种；例如，常用的用于视频的MPEG编码器采用YCbCr。此外，类似地，常用的用于图像的JPEG编码器采用YCbCr作为通过应用离散余弦变换(“discrete cosine transform，DCT”)将图像数据从在RGB中的空间域表示转换为频域表示的中间步骤。

在使用基于图像的学习模型的机器学习设置中，训练和推理数据集可以是压缩图像的现成数据集，但也可以是由诸如摄像机之类的图像捕获设备捕获的原始的未压缩图像。在为对海量数据集进行机器学习计算而实现的系统中，计算资源可以分布在例如云计算系统中的网络上，以最大限度地提高计算能力和可用性。由于未压缩图像无法通过网络进行传输以及训练和推理计算，以这种方式配置的机器学习系统也依赖于图像进入频域的变换和离开频域的逆变换，以便压缩图像数据集以实现最佳传输、存储和计算。

在机器学习环境中，将图像数据集转换到频域通常有助于通过应用起源于例如基于频率滤波的原理来确定上下文信息，例如图像数据的相对重要性。然而，目前，频域中的图像表示的编码和用于训练和推理计算的频域中的图像表示的推导过程(derivation)之间不存在通道(pipeline)。在机器学习的进一步应用中，通过利用频域中的图像编码可以实现更高的计算效率。

附图说明

参考附图对具体实施方式部分进行阐述。在附图中，参考编号最左边的数字表示参考编号首次出现的附图。在不同的附图中使用相同的参考编号表示相似或相同的条目或特征。

图1A示出了根据本公开实施例的被配置为执行训练和推理计算的系统的系统架构。

图1B示出了根据图1A的示例提供的专用处理器。

图2A、2B和2C示出了根据本公开实施例的要输入给学习模型以进行训练和推理的图像数据集的预处理和增强(augmentation)过程的流程图。

图3A、3B和3C示出了根据本公开实施例对DCT块执行静态通道滤波(staticchannel filtering)。

图3D、3E和3F示出了根据本公开实施例的示例性的静态通道滤波，该静态通道滤波丢弃除Y、Cb和Cr DCT块中的每一个的最低频率通道之外的所有通道，并进一步将权重应用于其中保存图像数据的通道。

图4示出了根据本公开实施例的托管(hosting)学习模型的云计算系统的架构图。

图5示出了用于实现本文描述的用于学习模型的频域的静态通道滤波的过程和方法的示例系统。

具体实施方式

本文讨论的系统和方法旨在实现用于学习模型的数据滤波，更具体地说，对在频域中表示的用于模型训练和推理计算的图像数据集执行静态通道滤波。

根据本公开的示例性实施例，学习模型可以是可由计算系统的一个或多个处理器执行的定义计算算法，该算法可用于执行包括处理具有各种参数的输入和输出结果的任务。例如，学习模型可以是诸如深度神经网络的分层模型，其可以具有全连接的结构，可以具有诸如卷积神经网络(“convolutional neural network，CNN”)的前馈结构，可以具有诸如递归神经网络(“recurrent neural network，RNN”)的反向传播结构，或者可以具有适合于特定任务的计算的其他架构。例如，任务可以包括分类、聚类、匹配、回归等。

任务可以为功能的执行提供输出，例如识别图像和/或视频中的实体；将图像和/或视频中识别的实体与其他图像和/或视频匹配；实时提供图像、视频和/或音频的注释或转录；诸如此类。

云计算系统可以提供托管(hosting)计算资源的服务器集合，以提供分布式计算、并行计算、物理或虚拟计算资源的可用性的改进，诸如此类益处。在云计算系统中实现的数据中心可以托管学习模型，以为使用学习模型的计算应用提供这些益处。

云计算系统可以连接到各种终端设备，这些终端设备收集要输入到学习模型以训练学习模型和/或与各种计算任务相关联的数据，以及执行这些任务所需的结果输出。终端设备可以通过云计算系统的边缘节点连接到云计算系统。边缘节点可以是为连接到云计算系统的其他节点提供向外连接(outbound connection)的任何服务器，因此边缘节点可以划分云计算系统的网络的逻辑边缘，而不一定是物理边缘。此外，边缘节点可以是基于边缘的逻辑节点，部署有云计算系统的非集中式计算资源，例如，子云(cloudlet)、雾节点(fognode)等。

终端设备可以负责多种类型的任务，这些任务涉及多种类型的输入数据。例如，终端设备可以是收集静止图像、视频和其他类型的数据的安全摄像机，其连接到云计算系统的边缘节点，该边缘节点可以对由这些安全摄像机监视的地点进行实时安全监控，并将每种类型的数据实时发送到云计算系统，以执行与实时安全监控相关的各种任务。根据另一个示例，终端设备可以是运动中的智能车辆，其在运动期间收集静止图像、视频和其他类型的数据，并连接到路边网络基础设施，该基础设施用作云计算系统的边缘节点，该云计算系统执行智能交通的实时监控，并将每种类型的数据实时发送到云计算系统，以执行与实时交通监控相关的各种任务。

这些不同类型的输入可能都需要通过学习模型进行计算。由于深度学习中使用的图像数据集的文件非常大，因此图像数据集的加载和计算可能会产生巨大的计算开销。

在连接到云计算系统的物联网网络中，大量任务和与之相关的数据集合会从边缘设备传送到云计算系统进行处理。物联网网络的边缘设备可能在地理上远离云计算系统的计算资源，从而导致任务和相关数据传输的网络延迟。与云计算系统相比，边缘设备的计算资源规格(包括处理能力、存储和存储器)相对较低，这也导致它们之间的计算能力存在相对差异。可以在学习模型上实现各种架构设计，以解决网络延迟和计算能力的差异，从而提高完成任务的响应时间和效率。

例如，如果将在边缘设备上收集的本地的大量数据交付给云计算系统，以通过在云计算系统上执行的学习模型进行计算，可能会导致无法忍受的延迟。此外，原始、未压缩格式的图像对于机器学习计算来说效率极低，因为其包含的数据比压缩图像多出许多倍，对于机器学习训练和推理的目的来说，这些数据往往是多余的。因此，在将图像用于训练和推理数据集之前，希望对在图像捕获设备上捕获的图像进行压缩。

众所周知，可通过诸如傅里叶变换的变换算法将数据转换为频率表示，并通过诸如离散余弦变换(“discrete cosine transform，DCT”)的傅里叶相关算法将图像数据从空间域表示(即图像像素数据)转换为频域表示。逆离散余弦变换(“inverse discretecosine transform，IDCT”)还可以用于将图像数据的频域表示变换回空间域表示。常见的图像压缩格式(如JPEG)利用DCT将原始图像转换为频域表示，并按频率选择性地丢弃图像数据。基于DCT的图像编码器以压缩格式保存图像，压缩格式的图像无法用于计算直到被解码为重建图像。然而，重建图像仍被表示在频域中，必须经过IDCT以返回到空间域表示。

目前，模型训练和推理的实现基于假设图像数据集以空间域表示被输入到学习模型。在图像的空间域表示中，图像数据由像素表示，其中，名义上，无论是通过人类观看者还是通过学习模型，对图像的感知或处理来说，任何一个像素都与其他任何一个像素一样重要。即使在某些像素对图像的感知或处理没有显著贡献的情况下，这些缺乏重要性的像素也通常无法事先确定，并且这些缺乏重要性的像素需从语义上确定。一些学习模型会对图像数据集的各个图像的内容进行语义分析，但这种分析会带来相应的计算成本。

因此，相比在语义上确定图像数据的重要性，代替地，可在图像数据集的频域表示中丢弃图像数据。尽管图像数据的特定频率不一定表示图像数据的重要性或缺乏重要性，但是图像数据的特定频率可以作为通过语义确定的图像数据重要性的近似或代替。

例如，在常见摄影图像的频域表示中，预期最低频率通道(lowest-frequencychannel)比较高的频率通道(higher-frequency channel)具有更高的系数值，预期较高的频率通道具有较低的系数值。和一般理解相关的是，从图像中丢弃较高的频率通道的系数值对人类观看者对图像的感知影响最小，因此，从图像中丢弃较高的频率通道的系数值也对通过学习模型利用图像进行训练和推理计算的影响最小。因此，可以增强(emphasize)来自图像数据集的较低的频率通道。

可选地，基于图像中的边缘(edge)和细节(fine detail)对应于图像中较高的频率通道的一般理解，在学习模型基于图像数据集中的边缘和细节执行训练和推理计算的情况下，可增强来自图像数据集的较高的频率通道。

通过这些和类似的原理，本公开的示例性实施例提供了对转换为频域表示的图像数据集执行的静态通道滤波，使得图像数据集的被认为对学习模型进行的训练和推理计算无关紧要的图像数据能够被丢弃，在出现数据传输瓶颈或计算密集型计算之前，图像数据集已转换为频域表示，这有助于静态通道滤波。

图1A示出了根据本公开的示例性实施例的配置为执行训练和推理计算的系统100的系统架构。

根据本公开的示例性实施例提供的系统100包括一个或多个通用处理器102和一个或多个专用处理器104。通用处理器102和专用处理器104可以是物理的，也可以是虚拟的和/或分布式的。通用处理器102和专用处理器104可以执行存储在计算机可读存储介质上的一个或多个指令，如下文所述，以使通用处理器102或专用处理器104执行各种功能。专用处理器104可以是具有硬件或软件元件的计算设备，其有助于神经网络计算任务(例如，训练和推理计算)的计算。例如，专用处理器104可以是加速器，例如，神经网络处理单元(“Neural Network Processing Unit，NPU”)、图形处理单元(“Graphic Processing Unit，GPU”)、张量处理单元(“Tensor Processing Unit，TPU”)、使用现场可编程门阵列(“fieldprogrammable gate array，FPGA”)和专用集成电路(“application specific integratedcircuit，ASIC”)的各种实现，等等。为了便于诸如训练和推理的任务的计算，专用处理器104例如可以实现为用于计算诸如矩阵运算和向量运算的数学运算的引擎。

系统100还包括通过系统总线108与通用处理器102和专用处理器104通信耦合的系统存储器106。系统存储器106可以是物理的，也可以是虚拟的和/或分布式的。取决于系统100的具体配置和类型，系统存储器106可以是易失性的(例如RAM)、非易失性的(例如ROM)、闪存、微型硬盘驱动器、存储卡等，或者上述的一些组合。

系统总线108可在通用处理器102和系统存储器106之间、在专用处理器104和系统存储器106之间以及在通用处理器102和专用处理器104之间传输数据。此外，数据总线110可以在通用处理器102和专用处理器104之间传输数据。例如，数据总线110可以是外围组件互连高速(“Peripheral Component Interconnect Express，PCIe”)连接、相干加速器处理器接口(“Coherent Accelerator Processor Interface，CAPI”)连接等。

图1B示出了示例性的专用处理器104，其包括任意数量的核112。专用处理器104的处理能力可分布在各个核112上。每个核112包括本地存储器114，本地存储器114例如用于批量标准化或量化的常量缓冲器，以用于专用计算的执行，本地存储器114可包含诸如模型权重或数据结构的预初始化数据。每个核112还可以被配置为执行在核112的本地存储器118上预初始化的一组或多组计算机可执行的加速引擎模块(acceleration enginemodule)116，这些模块可以由核112执行，包括由多个核112并行执行，以执行或加速例如矩阵乘法或矩阵转置的算术运算、例如卷积的函数运算、例如卷积层的池化、插值、或感兴趣区域操作的特殊定义的操作(specially defined operation)、数据操作。每个核112还包括指令定序器120，其从指令缓冲器122接收指令并且对接收的指令进行排序。一些核112(例如四个)可通过数据总线124(例如单向环总线)进行通信。各个核112的软件驱动器可通过命令处理器接口126发送可执行命令以控制每个核112的操作并同步它们的操作。

诸如加速器之类的专用处理器104越来越多地被设计用于更大的计算能力和工作负载。具体而言，在本公开的示例性实施例的训练和推理计算的环境中，专用处理器104尤其被设计处理基于海量图像数据集的此类计算。因此，专用计算的系统架构越来越受到系统总线108或诸如PCIe或CAPI连接的数据总线110的数据带宽的限制：当前技术下的系统总线108和数据总线110无法以与计算速度和输出的期望速率相称的速率传输数据。在没有对系统总线108和数据总线110本身进行改进的情况下，希望利用减少通过系统总线108或数据总线110传输的数据量来缓解该瓶颈。

根据本公开的示例性实施例，图像数据集可以以各种可能的格式通过数据总线110被传输到专用处理器104。例如，图像数据集可以作为在RGB颜色空间的空间域中表示的未压缩位图(bitmap)图像来传输。然而，未压缩图像通常需要过多的总线带宽才能传输到专用处理器104。此外，为了对使用频域表示的未压缩图像执行训练和推理计算，专用处理器104可能需要编解码器，实现该编解码器的编码器和解码器存储在专用处理器104的专用存储器上，并在训练和推理计算期间由专用处理器104执行实现该编码器和解码器，以便推导(derive)出未压缩图像的频域表示。这将进一步转移(divert)训练和推理计算的计算资源。

此外，即使图像数据集的图像以压缩格式传输到专用处理器104，图像数据集的压缩图像仍将包括在对应的未压缩图片中找到的所有像素的图像数据。在执行涉及图像的训练和推理计算时，通常并非图像的所有图像数据都与计算相关。为了说明的目的，例如，众所周知，在以频域表示的方式处理数据时，可使用高通滤波器或低通滤波器来分别减少或移除低频数据或高频数据。

因此，本公开的示例性实施例提出了在将图像数据集传输到专用处理器进行训练和推理计算之前，在频域中过滤图像数据集的图像数据的方法，从而减少要传输的图像数据量。

图2A、2B和2C示出了根据本公开的示例性实施例的要输入给学习模型以进行训练和推理的图像数据集的预处理和增强(augmentation)过程200的流程图。

在过程200的步骤之前，图像数据集的图像已经由图像捕获设备以原始图像格式捕获。例如，图像捕获设备可以是安全摄像机或智能车辆的摄像机。图像捕获设备可以以静止图像或视频的形式捕获构成图像数据集的图像。图像捕获设备还可以通过将捕获的图像转换为其频域表示的编解码器的编码模式，将捕获的图像编码为压缩格式。

根据本公开的示例性实施例，图像捕获设备可以通过数据总线连接、光数据连接、或适合于传输图像的其他连接，与用于执行图像解码、预处理和增强操作的计算设备连接，或者图像捕获设备可以通过有线网络连接或无线网络连接与此类计算设备连接。例如，计算设备可以是个人计算系统、计算系统集群、云计算系统的服务器(例如边缘服务器)、智能设备(例如车辆或电器)的嵌入式计算系统等。根据本公开的示例性实施例，示例性的计算设备还可用于根据各自的计算能力，使用图像数据集执行后续的训练和推理计算。在本公开的示例性实施例中，计算设备可不用于执行训练和推理计算，但通过适当的连接(例如有线网络连接或无线网络连接)连接到可用于执行训练和推理计算的附加计算设备。在任何情况下，至少，过程200的每个步骤都可以由本文所述的计算设备执行。

可选地，根据本公开的其他示例性实施例，图像数据集的各个图像可以来自一个或多个预编译的图像数据集，而不是由图像捕获设备捕获的原始图像。根据这样的示例性实施例，以这种方式获得的图像数据集可已经由统一的编解码器编码成压缩格式，以便于后续的预处理和增强步骤。这些图像数据集可存储在各种存储设备上，例如，根据本公开的示例性实施例的计算设备的非易失性存储设备，以及本公开所定义的通用计算机可读存储介质。

通常，过程200的步骤可由通用处理器102或专用处理器104执行。应当理解，在执行过程200期间的任何时刻，可以将图像数据集的图像从通用处理器102传输到专用处理器104；过程200的在传输之前发生的那些步骤可以由通用处理器102执行，而过程200的在传输之后发生的那些步骤可以由专用处理器104执行。因此，例如，传输发生在步骤204之后和步骤206之前(或者，如果步骤206没有发生，则传输发生在步骤208之前)，由此步骤204以及更早的步骤由通用处理器102执行，步骤204之后的每个步骤由专用处理器104执行。可选地，传输在步骤210之后和步骤212之前发生。

在步骤202，获得图像数据集的压缩图像并将其输入给解码器。

根据本公开的示例性实施例，压缩图像通过DCT已被转换为频域表示，并且随后已被编码为压缩格式。

在步骤204，解码器将压缩图像解码为图像数据集的频域表示。

例如，解码器可以对压缩图像应用熵解码和去量化。然而，解码器并不就此将IDCT应用于压缩图像以将压缩图像返回到其空间域表示。在这个阶段，频域表示的解码图像可以通过DCT块(即，系数阵列)表示，并且具有通道尺寸(channel size)n、维度高度(dimensions height)H和维度宽度(dimensions width)W。此外，图像的分量可以通过单独的DCT块表示。例如，根据JPEG编解码器的实现，在被转换为频域表示之前，可以将图像转换为其在YCbCr颜色空间中的表示，使得亮度分量(Y)与色度分量(Cb和Cr)分离。亮度分量和色度分量中的每一个都可以通过单独的DCT块在频域中表示。

在步骤206，对频域表示的图像数据集执行增强操作。

为了简明起见，下面参考步骤212更详细地描述数据增强操作。已增强的图像数据集可用于学习模型的训练计算。然而，根据本公开的示例性实施例，可以假设学习模型需要具有高度h和宽度w的统一维度的图像数据集，并且在过程200的这个阶段，已增强的图像数据集可能尚未在所有图像上具有这样的统一维度。因此，根据本公开的示例性实施例，在步骤206之后的已增强的图像数据集还不可以用于学习模型的训练计算。可选地，步骤206执行的增强操作不影响图像数据集的图像维度。可选地，根据本公开的示例性实施例，可以不执行步骤206，作为替代，在通过至少一些(例如，下面参考步骤212所述的)后续预处理操作修改图像数据集的维度之后，执行增强操作。

图像数据集的增强可指对数据集中的图像的数据执行的任何类型的操作以在图像数据集中生成附加图像。例如，在可以在图像的任何或所有颜色通道中调整图像的大小、旋转、重塑、裁剪、重新缩放，还可以在图像的任何方向上移动一定数量的像素、在亮度或对比度上作出改变、或在任何方向上翻转，或者本领域技术人员已知的其他此类操作。此外，对图像的操作可以是仅适用于频域表示的操作，例如，对其应用频率抖动(frequencyjitter)。因此，增强操作后的图像数据集可包含通过上述任何操作或其组合以及本领域技术人员已知的任何其他适当操作从图像数据集的其他图像推导出的一些图像。

通常可以执行训练计算以基于损失函数训练学习模型，以学习用于计算一个或多个任务的特征嵌入。例如，任务可包括分类、聚类、匹配、回归等。对于本领域技术人员来说，执行此类训练计算是众所周知的，并且无需在此重复。

在步骤208，基于大小调整因子对频域表示的图像数据集执行大小调整操作。

根据本公开的示例性实施例，可以对图像数据集执行若干预处理操作，以使图像数据集的每个图像具有统一的维度：高度h和宽度w，该统一的高度h和宽度w小于学习模型所要求的原始高度H和宽度W。这些预处理操作之一可以是如本文所述的大小调整操作。这些预处理操作中的另一个可以是参考以下步骤210所述的重塑操作。这些预处理操作中的另一个可以是参考以下步骤214所述的裁剪操作。

可以根据适用于图像的频域表示(例如，DCT块)的任何已知的大小调整算法，对图像数据集的图像进行大小调整。例如，可以应用大小调整混合算法(“hybrid resizingalgorithm，HRA”)。通常，具有高度H和宽度W的维度的图像的第一DCT块可以调整大小为具有高度h＝H×P/L和宽度w＝W×Q/M的维度的图像的第二DCT块。P/L和Q/M是要调整大小的图像的高度和宽度的相应调整因子。P、Q、L和M可以是整数，并且L和M可以是预设值。

由于图像由DCT块组成，这可以通过将每个DCT块(即系数阵列)从维度N_h×N_w转换为维度K_h×K_w来实现，其中N_h和N_w分别是转换前DCT块的维度的整数高度和整数宽度，K_h和K_w分别是转换后DCT块的维度的整数高度和整数宽度。为了与整体图像的大小调整因子一致，转换应将DCT块从维度LN_h×MN_w重采样为维度PN_h×QN_w，首先根据需要在两个相邻侧面(side)或所有四个侧面填充图像，使其与LN_h×MN_w(已知的维度值)成比例。

因此，通过高度重采样因子r_h＝H/(LN_h)和宽度重采样因子r_w＝W/(MN_w)对DCT块进行重采样，使得r_h(LN_h)(P/L)＝K_h以及r_w(MN_w)(Q/M)＝K_w。因此，对于HRA计算，P被推导为P＝K_h(N_hr_h)以及Q＝K_w(N_wr_w)。

因此，通过将HRA应用于具有通道尺寸n、高度维度H和宽度维度W的第一DCT块(n，H，W)，将第一DCT块调整大小为具有通道尺寸n、高度H×P/L和宽度W×Q/M的第二DCT块(n，H×P/L，W×Q/M)。

在步骤210，基于重塑因子对频域表示的图像数据集执行重塑操作。

由于图像被表示在频域而不是空间域中，预处理操作不是去除像素信息，因此如果预处理操作以常规方式应用于DCT块，则预处理操作不容易适用于频率信息。例如，由于图像可以由多个DCT块组成，每个DCT块表示图像的分量(例如Y、Cb和Cr分量)，因此分别预处理每个DCT块可能无法有效地保留相关联的图像数据。因此，希望在保持频域表示的同时，生成图像的单个表示。

因此，根据本公开的示例性实施例，为了对频域表示的图像进行预处理，可以对图像进行重塑，使得图像的每个分量中相同频率的所有图像数据聚合在同一通道中。为了实现这一点，可以进一步将已调整大小的图像(n，H×P/L，W×Q/M)重塑为具有通道尺寸n×N_h×N_w、高度H×P/L/N_h和宽度W×Q/M/N_w的重塑图像(n×N_h×N_w，H×P/L/N_h，W×Q/M/N_w)。

因此，通过各自的重塑因子减小每个图像的高度和宽度，而每个通道尺寸通过相同的重塑因子在二个维度成比例地增加，从而产生秩(rank)为2的N_h×N_w矩阵的张量。然后将秩为2的张量降为秩为1的张量，秩为1的张量具有相同的通道数，但维度降低了。通道的数量可以与每个块的DCT系数的数量相同。

接下来，可以按频率对降维张量进行聚合以产生秩为2的聚合张量，秩为2的聚合张量的每个通道包含相同频率的所有图像数据。聚合张量的通道数量可以等于原始DCT块中的系数数量。该重塑操作使得能够针对Y、Cb和Cr分量中的每一个在图像的频率通道上一致地执行后续的裁剪步骤214。

在步骤212，对频域表示的图像数据集执行增强操作。

根据本公开的示例实施例，执行增强操作可以通过将频域表示的图像从H×W图像重塑为三维的(H/N)×(W/N)×(N/N)维度的张量。

根据本公开的示例性实施例，增强操作可以是翻转操作，可以以与在空间域中对图像表示执行的方式类似的方式对张量执行翻转操作，其中可对张量中的值进行跨轴镜像，以生成相同维度的新张量。

根据本公开的示例性实施例，增强操作可以是旋转操作，可以以与在空间域中对图像表示执行的方式类似的方式对张量执行旋转操作，其中可将张量中的值旋转到任何合适的方向，以生成相同维度的新张量。

根据本公开的示例性实施例，增强操作可以是(在随机位置的，任意次数的)裁剪操作，可以以与在空间域中对图像表示执行的方式类似的方式对张量执行裁剪操作，其中，可将张量中的值裁剪为任何合适的子集，以生成更小维度的新张量。

根据本公开的示例性实施例，增强操作可以是噪声注入操作，可以以与在空间域中对图像表示执行的颜色抖动(color jitter)的方式类似的方式对张量执行噪声注入操作，其中可向张量的每个值添加随机值以生成相同维度的新张量。

根据本公开的示例性实施例，增强操作可以是通道重新加权操作，可以通过将每个通道系数乘以加权因子来对空间域中的图像表示执行通道重新加权操作。加权因子可以从0到1(包含1)，也可以从0到大于1的值。可出于各种目的确定加权因子，例如图像的某些分辨率应被加强(emphasize)和/或不加强(deemphasize)：举例说明，在图像数据集的图像以JPEG格式压缩，并且在JPEG编码器设置的质量因子已知的情况下，可基于质量因子确定压缩图像中加强和不加强的频率。因此，可以设置加权因子，以将质量因子支持的(favor)的频率加权高于质量因子不支持(disfavor)的频率。

根据本公开的示例性实施例，其他增强操作可以是对频域中的图像表示或其张量的任何操作，其分别生成从原始图像或张量数据推导出的任意新图像或张量。

目前，已增强的图像数据集可用于学习模型的训练计算。

在步骤214，对频域表示的图像数据集执行裁剪操作。

经过重塑的图像数据集的图像现在可以直接被裁剪为如学习模型的输入所需的维度h×w。根据本公开的示例性实施例，可以按照如下所述来确定裁剪的位置。

在步骤208的执行期间，在图像的所有四个侧面(side)上被填充的情况下，裁剪操作可以是在图像的所有四个侧面上执行的中心裁剪。

在步骤208的执行期间，在图像在右下部分被填充的情况下，裁剪操作可以是在图像的左上边缘上执行的角裁剪。

在步骤216，将频域表示的图像数据集输入到学习模型中。

图像数据集可被输入给学习模型以用于训练或推理计算，而且图像数据集不需要先经过IDCT处理来将其返回到空间域的表示方式。如下所述，本公开的示例性实施例可以使输入直接连接到比第一层更深的层。如本领域技术人员所知的，通过频域表示的图像数据集，可以更有效地执行机器学习推理计算。

除了上述步骤之外，在步骤218，对频域表示的图像数据集执行静态通道滤波操作。

应当理解，虽然图2A中过程200中的步骤218的位置(placement)示出了相对于过程200的其他步骤，执行步骤218的一个可能时机，但是在过程200期间，可以在相对于过程200的其他步骤的任何位置执行步骤218，包括：如图2B所示，在过程200的对图像数据集进行解码之后的每个步骤之前(即，在步骤204之后)执行步骤218；以及如图2C所示，在过程200的将图像数据集输入学习模型之前的每个步骤之后(即，在除步骤216之外的每个步骤之后)执行步骤218。

通常，过程200的每个步骤可以在通用处理器102或专用处理器104上执行。此外，由于需要在执行在专用处理器104上执行的任何步骤之前，通过系统总线108或数据总线110将图像数据集从通用处理器102传输到专用处理器104，因此通常，在专用处理器104上执行的过程200的每个步骤可以比在通用处理器102上执行的过程200的所有步骤都要迟，

因此，根据本公开的示例性实施例，步骤218可以在通用处理器102执行的过程200的每个其他步骤之后执行，和在专用处理器104执行的过程200的每个其他步骤之前执行。例如，在步骤208和步骤210在通用处理器102执行并且至少步骤212在专用处理器104执行的情况下，可以在步骤210和步骤212之间并且在图像数据集被传输到专用处理器104之前执行步骤218。在步骤208、步骤210和步骤212在通用处理器102执行并且至少步骤214在专用处理器104执行的情况下，可以在步骤212和步骤214之间并且在图像数据集被传输到专用处理器104之前执行步骤218。在步骤208、步骤210、步骤212和步骤214在通用处理器102上执行的情况下，可以在步骤214之后并且图像数据集被传输到专用处理器104之前执行步骤218。在所有情况下，以如下所述的方式在将图像数据集传输到专用处理器104之前执行步骤218可以实现上述提及的减少要传输的图像数据量的目标。

根据本公开的示例性实施例，静态通道滤波操作可以指对在频域中表示的图像数据执行的操作。具体而言，如上所述，在频域中表示的图像数据可以通过具有通道尺寸n、维度高度H和维度宽度W的DCT块(即系数阵列)来表示。例如，根据DCT的一种常见实现，DCT块的维度为8×8。

基于各种编解码器的实现，在频域中表示的图像数据可以是在各种颜色空间中原始图像的表示。例如，基于JPEG编解码器的实现，在频域中表示的图像数据可以是在YCbCr颜色空间中原始图像的表示。而且，Y(亮度)分量以及Cb和Cr(色度)分量中的每一个都具有单独的空间域表示，因此，Y(亮度)分量以及Cb和Cr(色度)分量中的每一个都可以具有作为DCT块的单独的频域表示。(图像的亮度分量和色度分量可以交替地称为图像的亮度通道和色度通道；为了在本公开的上下文中更清楚，本公开中的“通道”指的是其他类型的“通道”，在本文中，它们被称为亮度分量和色度分量。)

基于各种编解码器的实现，可以按照从DCT块的左上角到DCT块的右下角增加频率的顺序来组织DCT块中的系数。根据本公开的示例性实施例，在频域中的图像数据可以通过三个维度为8×8的DCT块表示，每个DCT块包含64个通道，一个图像总共包括192个通道。例如，包括三个DCT块的一组DCT块可以分别是图像的Y分量的表示、图像的Cb分量的表示和图像的Cr分量的表示。

如上所述，可以对包括三个DCT块的一组DCT块执行静态通道滤波操作。静态通道滤波操作可通过丢弃三个DCT块中每一个DCT块的特定系数的值进行定义，其中，根据如本文所述的为模型训练和推理计算而量身定制的标准来预设其值被丢弃的系数。三个DCT块的192个通道中的任意数目的通道都可以丢弃它们的系数值。例如，丢弃系数值可以意味着，将系数值设置为0或以其他方式最小化系数值的比特长度，以便减少由三个DCT块表示的图像数据的体积。

根据本公开的示例性实施例，执行训练和推理计算的学习模型需要将在频域中表示的图像数据的某些频率通道输入到学习模型中，或者，在这些训练和推理计算中，学习模型会加强在频域中表示的图像数据的某些频率通道，相反，训练和推理计算可能不需要其他不被需要或不被加强的通道。

例如，在常见摄影图像的频域表示中，预期最低频率通道比较高的频率通道具有更高的系数值，并且预期较高的频率通道具有较低的系数值。这与从图像中丢弃较高的频率通道的系数值对人类观看者对图像的感知影响最小的一般理解相关，因此，预期从图像中丢弃较高的频率通道的系数值也可以对通过学习模型利用图像进行训练和推理计算的影响最小。据此，可以加强来自图像数据集的较低的频率通道。

可选地，基于图像中的边缘和细节对应于图像中的较高的频率通道的一般理解，在学习模型是基于图像数据集中的边缘和细节执行训练和推理计算的情况下，可以加强来自图像数据集中的较高的频率通道。

因此，根据本公开的示例性实施例，学习模型可以具有第一层，该第一层需要或加强在频域中表示的图像数据的某些频率通道。例如，学习模型的第一层可以是神经网络的输入层。输入层可以接收输入图像数据集的值(例如，根据本公开的示例性实施例的DCT块的系数)，并且不对这些值执行计算，而是通过连接将这些值传递到第二层。如本文所述，神经网络的第二层和更高层通常执行训练和计算推理。可以对从第一层到第二层的连接进行加权，从而通过提高特定频率通道的系数值的权重和降低其他特定频率通道的系数值的权重来实现对在频域中表示的图像数据的特定频率通道的要求或加强。在所有频率通道的系数值中，一些预计不会对训练和推理计算做出很大贡献的数字最有可能被降低权重到可忽略的程度。

因此，根据本公开的示例性实施例，对在频域中表示的图像数据集执行静态通道滤波可能会导致通过学习模型的第一层到第二层的连接已经被降低权重的系数值被丢弃。因此，可以基于学习模型的设计知识，包括例如学习模型的第一层到第二层的连接的加权知识，指定那些在静态通道滤波中要丢弃系数值的特定频率通道。可选地，可以基于静态通道滤波来设计学习模型的第一层，使得第一层采用较少的系数值作为输入，而忽略已知在静态通道滤波期间已被丢弃的系数值。

此外，在频域中表示的图像数据是在YCbCr颜色空间中的原始图像的表示的情况下，可以基于色度子采样率(chroma subsampling rate)来指定将在静态通道滤波中保留系数值的通道数。如在诸如JPEG编解码器之类的编解码器中实现的，色度子采样提供了各种比率，通过这些比率，色度分量中的图像数据相对于亮度分量中的图像数据保持在较小的比例。正如色度子采样反映一种普遍的理解，即丢弃色度分量中的图像数据比丢弃亮度分量中相同比例的图像数据对人类观看者的图像感知的影响更小，通过这些比率，静态通道滤波还可以指定亮度分量的频率通道中要保留的比例高于色度分量的频率通道(根据本公开的示例性实施例，尽管色度子采样率指像素的比率，我们对频率通道应用相似的比率)。

例如，基于色度子采样率4:1:1，静态通道滤波器是当对Cb分量保留一个频率通道和对Cr分量保留一个频率通道时，对Y分量保留四个频率通道。因此，例如，执行静态通道滤波是丢弃Y分量中除16个频率通道之外(例如，16个最低频率通道、16个最高频率通道、或通过其他标准选择的16个频率通道)的所有频率通道；丢弃Cb分量的除4个频率通道外(例如，4个最低频率通道、4个最高频率通道、或由其他标准选择的4个频率通道)的所有频率通道；以及丢弃Cr分量的除4个频率通道(例如，4个最低频率通道、4个最高频率通道、或由其他标准选择的4个频率通道)之外的所有频率通道。因此，举例来说，可以从亮度分量和色度分量中丢弃168个频率通道，在Y分量、Cb分量和Cr分量之间保留下24个频率通道。还应理解，保留的通道数量不必为24个；例如，保持上述4:1:1的比率，保留的通道数量可以是6、12、18等。

例如，基于色度子采样率4:2:2，静态通道滤波器当对Cb分量保留两个频率通道和对Cr分量保留两个频率通道时，为Y分量保留四个频率通道。因此，例如，可以执行静态通道滤波，以丢弃Y分量的除12个频率通道(例如，12个最低频率通道、12个最高频率通道、或由其他标准选择的12个特定通道)之外的所有频率通道；丢弃Cb分量的除6个频率通道(例如，6个最低频率通道、6个最高频率通道、或由其他标准选择的6个特定通道)外的所有频率通道；以及丢弃Cr分量的除6个频率通道(例如，6个最低频率通道、6个最高频率通道、或由其他标准选择的6个特定通道)之外的所有频率通道。

此外，在保留图像数据的那些通道中，静态通道滤波还可以基于如上所述的各种原理，对静态确定的通道应用权重，降低某些通道的权重和/或提高某些通道的权重。

图3A、3B和3C示出了根据本公开的示例性实施例的对DCT块执行的静态通道滤波。图3A示出了丢弃DCT块的除最低频率通道之外的所有频率通道。图3B示出了丢弃DCT块的除最高频率通道之外的所有频率通道。图3C示出了丢弃DCT块的除通过其他标准选择的某些特定通道外的所有频率通道。

图3D、3E和3F示出了示例性的静态通道滤波，该静态通道滤波丢弃除Y、Cb和CrDCT块中的每一个DCT块的最低频率通道之外的所有频率通道，并进一步向其中保存图像数据的通道应用权重。图3A、3B和3C中每个框中所示的数字代表系数，与图3A、3B和3C相比，在图3D、3E和3F中每个方框中所示的数字仅代表每个通道的静态标识符。例如，DCT块的最低频率通道可以被标识为图3D和3E中编号为0到15的占据DCT块的左上角的那些通道，(如图3F所示，这些通道可以占据DCT块的三角形区域)。在图3D和3E中，每个框的阴影表示每个对应通道对于特定目的的训练和推理计算的重要性的实验确定的概率，即，其中阴影最深的框表示概率为1或接近1，阴影最浅的框表示概率接近0。在图3F中，突出显示了用于静态通道滤波器的通道静态选择(在图3F中，阴影的深度没有意义)。

如上所述，可以基于色度子采样率的比率来确定保留的通道的数量。例如，保留在Y、Cb和Cr DCT块中的通道的数量可以与如上所述的比率成比例。可选地，根据其各自的权重，保留的通道的数量可以与如上所述的比率成比例。

此外，如上所述，在本公开的一些示例实施例中，在执行步骤218之前，至少执行步骤210和步骤212。也就是说，图像数据集的每个图像的高度和宽度通过塑形因子减小，而每个通道的尺寸通过相同的塑形因子成比例地增大。每个DCT块被减少到一个通道，使得同一图像的DCT块之间的频率一致，64个通道中的每个通道都有一个系数。因此，在步骤210和步骤212之后执行的静态通道滤波可以丢弃聚合张量的通道的系数值，而不是DCT块的系数值。

此外，如上所述，在本公开的一些示例实施例中，在执行步骤218之前，至少执行步骤214。也就是说，表示频域中的图像的聚合张量的至少一些通道通过裁剪被移除。因此，与在步骤214之前执行的静态通道滤波相比，在步骤214之后执行的静态通道滤波可能需要丢弃更少的聚合张量的系数值或DCT块的系数值，因为一些通道通过裁剪已被移除。

因此，作为对在频域中表示的图像数据集执行静态通道滤波的结果，可以绕过将输入系数值通过加权连接(weighted connection)传递到第二层的第一层，从而允许通过直接输入到比第一层更深的层(例如第二层)中来执行步骤216。因此，尽管第一层通常是输入层，但第二层在此可以是输入层。可选地，基于在静态通道滤波期间丢弃的系数值来减小第一层的尺寸，使得第一层不接受已丢弃的系数值的输入。在任何一种情况下，已丢弃的系数值都不需要被降低权重值，从而降低了机器学习的训练和推理计算的计算开销和耗时，降低了输入到学习模型中的图像数据量以及学习模型的收敛时间。

图4示出了根据本公开的示例性实施例的托管学习模型的云计算系统400的架构图。如上所述，虽然根据本公开的示例性实施例的示例性计算设备可用于使用图像数据集执行后续的训练和推理计算，但在其他情况下，通过网络连接进行通信的附加计算设备可用于执行训练和推理计算。因此，图4示出了如上所述的计算设备的一些可能实施例的架构。

云计算系统400通过网络402的由物理或虚拟网络连接的物理或虚拟服务器节点404(1)、404(2)、……、404(N)(其中任何未指定的服务器节点可称为服务器节点404)来实现。而且，网络402终止于位于网络402的物理和/或逻辑边缘的物理或虚拟边缘节点406(1)、406(2)、……、406(N)(其中任何未指定的边缘节点被称为边缘节点406)。边缘节点406(1)至406(N)可以连接到任意数量的终端设备408(1)、408(2)、……、408(N)(其中任何未指定的终端设备可称为终端设备408)。作为一种示例，终端设备408(例如，终端设备408(1))可以收集从任意数量的传感器410(1)、410(2)、……、410(N)捕获的数据，其中传感器可以是例如用于收集图像数据(例如，静止图像、视频帧等)的图像捕获设备。

在云计算系统400上实现的学习模型414可以存储在数据中心418的物理或虚拟存储器416(“数据中心存储器”)上，并且学习模型414可以被加载到数据中心418的物理或虚拟存储器420(“数据中心存储器”)中，以便数据中心418的一个或多个物理或虚拟处理器422(“数据中心处理器”)使用学习模型414执行训练和/或推理计算，以对与神经网络计算任务相关的输入数据集进行计算。数据中心处理器422可以是促进神经网络计算任务的计算的专用计算设备。例如，数据中心处理器422可以是如上所述的一个或多个专用处理器104，包括诸如神经网络处理单元(“Neural Network Processing Unit，NPU”)、图形处理单元(“Graphics Processing Unit，GPU”)、张量处理单元(“Tensor Processing Unit，TPU”)等的加速器。

根据本公开的示例性实施例，如上所述的计算设备可以是服务器节点404、边缘节点406或终端设备408中的任何一个，并且，可以将在终端设备408捕获的图像数据集加载到终端设备408的物理或虚拟存储器424(“终端存储器”)，以便终端设备408的一个或多个物理或虚拟处理器426(“终端处理器”)执行如上所述的编码、预处理和/或增强操作。可选地，在终端设备408捕获的图像数据集可以被传输到任何边缘节点406，并加载到边缘节点406的物理或虚拟存储器428(“边缘存储器”)中，以便边缘节点406的一个或多个物理或虚拟处理器430(“边缘处理器”)执行如上所述的编码、预处理和/或增强操作。可选地，在终端设备408捕获的图像数据集可以被传输到任何服务器节点404，并加载到云计算系统400的物理或虚拟存储器424(“云存储器”)中，以便云计算系统400的一个或多个物理或虚拟处理器426(“云处理器”)执行如上所述的编码、预处理和/或增强操作。可选地，图像数据集可以来自一个或多个预编译的图像数据集，而不是被捕获的，并且只要它们被压缩为统一格式，就不需要进行压缩。通常，如果是根据本公开的示例性实施例捕获和压缩图像数据集的图像，则可以在任何终端设备408而不是其他设备处对其进行压缩，以最小化传输的数据。

根据本公开的实施例，已经预处理和/或已经增强的图像数据集可以被传输到一个或多个服务器节点404，并被云计算网络400用于基于学习模型414执行训练和/或推理计算。一般来说，训练和推理计算可能会消耗大量计算资源。因此，希望在可能的情况下通过例如在上文提及的参考图2A、2B和2C所述的输入图像数据集时，绕过学习模型的第一层来减少计算，避免在输入学习模型之前将解码图像数据转换为空域表示的冗余操作。本公开的示例实施例可以通过在频域中执行预处理和增强操作，然后在没有解码器对图像数据集执行IDCT的情况下，将已预处理和已增强的图像数据集输入学习模型，实现这样的目标。

图5示出了用于实现本文描述的并用于学习模型的频域的静态通道滤波的过程和方法的示例系统500。

本文描述的技术和机制可以由系统500的多个实例以及任何其他计算设备、系统和/或环境来实现。系统500可以是分布式系统，其包括：多个物理联网的计算机或web服务器、物理或虚拟集群、计算云、或提供本领域技术人员所知的物理或虚拟计算资源的其他联网计算架构。系统500的示例包括学习系统，例如，上文描述的图4的云计算系统。图5所示的系统500只是系统的一个示例，并不旨在对用于执行上述过程和/或程序的任何计算设备的使用范围或功能提出任何限制。可能适合与所述实施例一起使用的其他已知计算设备、系统、环境和/或配置包括，但不限于，个人计算机、服务器计算机、手持式或笔记本电脑设备、多处理器系统、基于微处理器的系统、机顶盒、游戏机、可编程的消费类电子产品、网络PC、小型计算机、大型计算机、包括上述任何系统或设备的分布式计算环境、使用现场可编程门阵列(“field programmable gate array，FPGA”)和专用集成电路(“applicationspecific integrated circuit，ASIC”)的实现，等等。

系统500包括一个或多个处理器502以及通信耦合到处理器502的系统存储器504。处理器502和系统存储器504可以是物理的，也可以是虚拟的和/或分布式的。处理器502可以执行一个或多个模块和/或过程，以使处理器502执行各种功能。在一些实施例中，处理器502可包括中央处理单元(“central processing unit，CPU”)、GPU、NPU、TPU、其任何组合，或本领域已知的其他处理单元或组件。此外，每个处理器502可以拥有自己的本地存储器，本地存储还可以存储程序模块、程序数据、和/或一个或多个操作系统。

根据系统500的准确配置和类型，系统存储器504可以是易失性的(例如RAM)、非易失性的(例如ROM)、闪存、微型硬盘驱动器、存储卡等，或者它们的一些组合。系统存储器504可包括可由处理器502执行的一个或多个计算机可执行模块506。模块506可以作为数据处理平台的服务托管在网络上，数据处理平台可以在与系统500分离的系统上实现。

模块506可以包括，但不限于，数据集获取模块508、解码模块510、选择性增强模块512、大小调整模块514、塑形模块516、增强模块518、裁剪模块520、模型输入模块522、数据传输模块524和通道滤波模块526。

数据集获取模块508可被配置为如上文参考图2A、2B和2C所述的，获取图像数据集的压缩图像，并将图像输入解码器。

解码模块510可被配置为如上文参考图2A、2B和2C所述的，将压缩图像解码为图像数据集的频域表示。

选择性增强模块512可被配置为如上文参考图2A、2B和2C所述的，在随后描述的模块执行预处理操作之前，对频域表示的图像数据集执行增强操作。

大小调整模块514可被配置为如上文参考图2A、2B和2C所述的，基于大小调整因子对频域表示的图像数据集执行大小调整操作。

重塑模块516可被配置为如上文参考图2A、2B和2C所述的，基于重塑因子对频域表示的图像数据集执行重塑操作。

增强模块518可以被配置为如上文参考图2A、2B和2C所述的，在随后描述的模块执行预处理操作之前，对频域表示的图像数据集执行增强操作。

裁剪模块520可被配置为如上文参考图2A、2B和2C所述的，对频域表示的图像数据集执行裁剪操作。

模型输入模块522可以被配置为如上文参考图2A、2B和2C所述的，将频域表示的图像数据集输入到学习模型中。

数据传输模块524可以被配置为如上文参考图1所述的，将频域表示的图像数据集传输到一个或多个专用处理器。

通道滤波模块526可以被配置为如上文参考图3A、3B和3C所述的，对频域表示的图像数据集执行静态通道滤波操作。

系统500还可以包括输入/输出(“I/O”)接口540和通信模块550，以允许系统500通过网络与其他系统和设备进行通信，例如与如上文所述的边缘节点和终端设备进行通信。网络可以包括因特网、有线媒介(例如有线网络或直接接线连接)和无线媒介(例如声学、射频(“radio frequency，RF”)、红外和其他无线媒介)。

如上文所述的方法的一些或所有操作可以通过执行存储在计算机可读存储介质上的计算机可读指令来执行，如下文所定义的。在说明书和权利要求书中使用的术语“计算机可读指令”包括例程、应用、应用模块、程序模块、程序、组件、数据结构、算法等。计算机可读指令可以在各种系统配置上实现，包括单处理器系统或多处理器系统、小型计算机、大型计算机、个人计算机、手持计算设备、基于微处理器的系统、可编程的消费类电子产品、及其组合等。

计算机可读存储介质可以包括易失性存储器(例如随机存取存储器(“random-access memory，RAM”))和/或非易失性存储器(例如只读存储器(“read-only memory，ROM”)、闪存等)。计算机可读存储介质还可以包括附加的可移动存储器和/或不可移动存储器，包括但不限于，闪存、磁存储器、光存储器和/或磁带存储器，它们可以提供计算机可读指令、数据结构、程序模块等的非易失性存储。

非暂时性计算机可读存储介质是计算机可读介质的示例。计算机可读介质包括至少两种类型的计算机可读介质，即计算机可读存储介质和通信介质。计算机可读存储介质包括易失性和非易失性、可移动和不可移动介质，这些介质在用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何过程或技术中实现。计算机可读存储介质包括但不限于，相变存储器(“phase change memory，PRAM”)、静态随机存取存储器(“static random-access memory，SRAM”)、动态随机存取存储器(“dynamic random-access memory，DRAM”)、其他类型的随机存取存储器(“random-access memory，RAM”)、只读存储器(“read-only memory，ROM”)、电可擦除可编程只读存储器(“electricallyerasable programmable read-only memory，EEPROM”)、闪存或其他存储技术，光盘只读存储器(“compact disk read-only memory，CD-ROM”)、数字多功能盘(“digital versatiledisk，DVD”)或其他光学存储器、盒式磁带、磁带、磁盘存储器或其他磁存储设备，或可用于存储信息以供计算设备访问的任何其他非传输介质。相比之下，通信介质可以在调制数据信号(例如载波)或其他传输机制中体现计算机可读指令、数据结构、程序模块或其他数据。如本文所定义，计算机可读存储介质不包括通信介质。

存储在一个或多个非暂时性计算机可读存储介质上的计算机可读指令，当由一个或多个处理器执行时，该计算机可读指令可执行上文参考图1-5所述的操作。通常，计算机可读指令包括执行特定功能或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。描述操作的顺序不旨在被解释为限制，并且任何数量的所述操作可以以任何顺序和/或并行地组合以实现过程。

通过上述技术解决方案，本公开提供了对转换为频域表示的图像数据集进行静态通道滤波，从而可以减少通过系统总线和数据总线传输到专用处理器的图像数据量。在静态通道滤波中，可以基于学习模型设计的知识(包括例如学习模型的第一层到第二层的连接的加权知识)来指定在静态通道滤波中要丢弃系数值的那些特定频率通道。可选地，可以基于静态通道滤波来设计学习模型的第一层，使得第一层采用较少的系数值作为输入，而忽略已知在静态通道滤波期间已经丢弃的系数值。在图像数据集被传输到专用处理器之前的任何时间点对其执行静态通道滤波可以使经过滤波的图像数据集能够绕过第一层输入到学习模型的第二层，或者可以使学习模型能够被设计为具有尺寸减小的第一层。这可以实现诸如减少机器学习训练和推理计算的计算开销和耗时、减少输入到学习模型的图像数据量以及减少学习模型的收敛时间等益处。

示例权利要求

A.一种方法，包括：解码图像数据集的图像以生成所述图像数据集的频域表示；丢弃频域表示的图像数据集的每个图像的一个或多个特定频率通道的系数值；以及将频域表示的图像数据集传输到一个或多个专用处理器。

B.如段落A所述的方法，其中，其系数值被丢弃的所述频率通道包括下述之一：每个图像的每个DCT块的最高频率通道(highest-frequency channels)或每个图像的每个DCT块的最低频率通道(lowest-frequency channels)。

C.如段落A所述的方法，其中，其系数值被丢弃的所述频率通道包括每个图像的每个DCT块的任意频率通道。

D.如段落A所述的方法，其中，其系数值被丢弃的频率通道包括下述之一：聚合张量的最高频率通道或所述聚合张量的最低频率通道，所述聚合张量通过对每个图像执行大小调整操作和重塑操作而生成。

E.如段落A所述的方法，其中，其系数值被丢弃的频率通道包括聚合张量的任意频率通道，所述聚合张量通过对所述图像执行大小调整操作和重塑操作而生成。

F.如段落A所述的方法，其中，其系数值被丢弃的频率通道包括的每个图像的色度分量的通道多于包括的每个图像的亮度分量的通道。

G.如段落A所述的方法，其中，在对所述图像数据集的每个图像执行大小调整操作、重塑操作和裁剪操作之前，丢弃该图像的一个或多个频率通道的系数值。

H.如段落A所述的方法，其中，至少在对所述图像数据集的每个图像执行大小调整操作和重塑操作之后，丢弃该图像的一个或多个频率通道的系数值。

I.如段落H所述的方法，其中，进一步地在对所述图像数据集的每个图像执行裁剪操作之后，丢弃该图像的一个或多个频率通道的系数值。

J.如段落A所述的方法，其中，所述方法还包括：将所述图像数据集输入到比学习模型的第一层更深的所述学习模型的层中。

K.如段落A所述的方法，其中，所述方法还包括：将所述图像数据集输入到学习模型的第一层，所述第一层没有将其系数值被丢弃的所述频率通道作为输入。

L.一种系统，包括：一个或多个处理器；以及存储器，所述存储器与所述一个或多个处理器通信耦合，所述存储器存储可由所述一个或多个处理器执行的计算机可执行模块，当所述一个或多个处理器执行所述计算机可执行模块时，所述计算机可执行模块执行相关操作，所述计算机可执行模块包括：解码模块，被配置为解码图像数据集的图像以生成所述图像数据集的频域表示；通道滤波模块，被配置为丢弃频域表示的所述图像数据集的每个图像的一个或多个特定频率通道的系数值；以及数据传输模块，被配置为将频域表示的所述图像数据集传输到一个或多个专用处理器。

M.如段落L所述的系统，其中，所述通道滤波模块被配置为丢弃频率通道的系数值，所述频率通道包括下述之一：每个图像的每个DCT块的最高频率通道或每个图像的每个DCT块的最低频率通道。

N.如段落L所述的系统，其中，所述通道滤波模块被配置为丢弃频率通道的系数值，所述频率通道包括每个图像的每个DCT块的任意频率通道。

O.如段落L所述的系统，其中，所述通道滤波模块被配置为丢弃频率通道的系数值，所述频率通道包括下述之一：聚合张量的最高频率通道或所述聚合张量的最低频率通道，所述聚合张量通过对每个图像执行大小调整操作和重塑操作而生成。

P.如段落L所述的系统，其中，所述通道滤波模块被配置为丢弃频率通道的系数值，所述频率通道包括聚合张量的任意频率通道，所述聚合张量通过对所述图像执行大小调整操作和重塑操作而生成。

Q.如段落L所述的系统，其中，所述通道滤波模块被配置为丢弃频率通道的系数值，所述被丢弃系数值的频率通道包括的每个图像的色度分量的通道多于包括的每个图像的亮度分量的通道。

R.如段落L所述的系统，其中，所述通道滤波模块被配置为在大小调整模块对所述图像数据集的每个图像执行大小调整操作、重塑模块对所述图像执行重塑操作和裁剪模块对所述图像执行裁剪操作之前，丢弃所述图像的一个或多个频率通道的系数值。

S.如段落L所述的系统，其中，所述通道滤波模块被配置为至少在大小调整模块对所述图像数据集的每个图像执行大小调整操作和重塑模块对所述图像执行重塑操作之后，丢弃所述图像的一个或多个频率通道的系数值。

T.如段落S所述的系统，其中，所述通道滤波模块被配置为进一步地在裁剪模块对所述图像数据集的每个图像执行裁剪操作之后，丢弃所述图像的一个或多个频率通道的系数值。

U.如段落L所述的系统，其中，所述系统还包括：模型输入模块被配置为将所述图像数据集输入到比学习模型的第一层更深的所述学习模型的层中。

V.如段落L所述的系统，其中，所述系统还包括：模型输入模块被配置为将所述图像数据集输入到学习模型的第一层，所述第一层没有将其系数值被丢弃的所述频率通道作为输入。

W.一种计算机可读存储介质，其存储可由一个或多个处理器执行的计算机可读指令，当所述一个或多个处理器执行所述计算机可读指令时，使得所述一个或多个处理器执行操作，所述操作包括：解码图像数据集的图像以生成所述图像数据集的频域表示；丢弃频域表示的所述图像数据集的每个图像的一个或多个特定频率通道的系数值；以及将频域表示的所述图像数据集传输到一个或多个专用处理器。

X.如段落W所述的计算机可读存储介质，其中，其系数值被丢弃的所述频率通道包括下述之一：每个图像的每个DCT块的最高频率通道或每个图像的每个DCT块的最低频率通道。

Y.如段落W所述的计算机可读存储介质，其中，其系数值被丢弃的频率通道包括每个图像的每个DCT块的任意频率通道。

Z.如段落W所述的计算机可读存储介质，其中，其系数值被丢弃的频率通道包括下述之一：聚合张量的最高频率通道或所述聚合张量的最低频率通道，所述聚合张量通过对每个图像执行大小调整操作和重塑操作而生成。

AA.如段落W所述的计算机可读存储介质，其中，其系数值被丢弃的频率通道包括聚合张量的任意频率通道，所述聚合张量通过对所述图像执行大小调整操作和重塑操作而生成。

BB.如段落W所述的计算机可读存储介质，其中，其系数值被丢弃的频率通道包括的每个图像的色度分量的通道多于包括的每个图像的亮度分量的通道。

CC.如段落W所述的计算机可读存储介质，其中，在对所述图像数据集的每个图像执行大小调整操作、重塑操作和裁剪操作之前，丢弃所述图像的一个或多个频率通道的系数值。

DD.如段落W所述的计算机可读存储介质，其中，至少在对所述图像数据集的每个图像执行大小调整操作和重塑操作之后，丢弃所述图像的一个或多个频率通道的系数值。

EE.如段落DD所述的计算机可读存储介质，其中，进一步地在对所述图像数据集的每个图像执行裁剪操作之后，丢弃所述图像的一个或多个频率通道的系数值。

FF.如段落W所述的计算机可读存储介质，其中，所述操作还包括：将所述图像数据集输入到比学习模型的第一层更深的所述学习模型的层中。

GG.如段落W所述的计算机可读存储介质，其中，所述操作还包括：将所述图像数据集输入到学习模型的第一层，所述第一层未将其系数值被丢弃的所述频率通道作为输入。

尽管已经以特定于结构特征和/或方法行为的语言描述了本主题，但是应当理解，所附权利要求中定义的本主题不一定限于所描述的特定特征或行为。相反，特体特征和行为被公开为实现权利要求的示例形式。

Claims

1.一种用于频域静态通道滤波的方法，包括：

解码图像数据集的图像以生成所述图像数据集的频域表示；

丢弃频域表示的所述图像数据集的每个图像的一个或多个特定频率通道的系数值，所述丢弃的系数值包括色度分量的一些但不是全部频率通道的系数值和亮度分量的至少一些通道的系数值；以及

将频域表示的所述图像数据集传输到一个或多个专用处理器，所述一个或多个专用处理器用于基于频域表示的所述图像数据集进行学习模型的推理或训练。

2.根据权利要求1所述的方法，其中，其系数值被丢弃的所述频率通道包括下述之一：每个图像的每个离散余弦变换块的最高频率通道或每个图像的每个离散余弦变换块的最低频率通道。

3.根据权利要求1所述的方法，其中，其系数值被丢弃的所述频率通道包括的每个图像的色度分量的通道多于包括的每个图像的亮度分量的通道。

4.根据权利要求1所述的方法，其中，在对所述图像数据集的每个图像执行大小调整操作、重塑操作和裁剪操作之前，丢弃所述图像的所述一个或多个频率通道的系数值。

5.根据权利要求1所述的方法，其中，在对所述图像数据集的每个图像执行大小调整操作和重塑操作之后且在对所述图像执行裁剪操作之前，丢弃所述图像的所述一个或多个频率通道的系数值。

6.根据权利要求1所述的方法，其中，所述方法还包括：

将所述图像数据集输入到比所述学习模型的第一层更深的所述学习模型的层中。

7.根据权利要求1所述的方法，其中，所述方法还包括：

将所述图像数据集输入到所述学习模型的第一层，所述第一层未将其系数值被丢弃的所述频率通道作为输入。

8.一种用于频域静态通道滤波的系统，包括：

一个或多个处理器；以及

存储器，所述存储器与所述一个或多个处理器通信耦合，所述存储器存储可由所述一个或多个处理器执行的计算机可执行模块，当所述一个或多个处理器执行所述计算机可执行模块时，所述计算机可执行模块执行相关操作，所述计算机可执行模块包括：

解码模块，被配置为解码图像数据集的图像以生成所述图像数据集的频域表示；

通道滤波模块，被配置为丢弃频域表示的所述图像数据集的每个图像的一个或多个特定频率通道的系数值，所述丢弃的系数值包括色度分量的一些但不是全部频率通道的系数值和亮度分量的至少一些通道的系数值；以及

数据传输模块，被配置为将频域表示的所述图像数据集传输到一个或多个专用处理器，所述一个或多个专用处理器用于基于频域表示的所述图像数据集进行学习模型的推理或训练。

9.根据权利要求8所述的系统，其中，所述通道滤波模块被配置为丢弃频率通道的系数值，所述频率通道包括下述之一：每个图像的每个离散余弦变换块的最高频率通道或每个图像的每个离散余弦变换块的最低频率通道。

10.根据权利要求8所述的系统，其中，所述通道滤波模块被配置为丢弃频率通道的系数值，其系数值被丢弃的所述频率通道包括的每个图像的色度分量的通道多于包括的每个图像的亮度分量的通道。

11.根据权利要求8所述的系统，其中，所述通道滤波模块被配置为在大小调整模块对所述图像数据集的每个图像执行大小调整操作、重塑模块对所述图像执行重塑操作和裁剪模块对所述图像执行裁剪操作之前，丢弃所述图像的所述一个或多个频率通道的系数值。

12.根据权利要求8所述的系统，其中，所述通道滤波模块被配置为至少在大小调整模块对所述图像数据集的每个图像执行大小调整操作和重塑模块对所述图像执行重塑操作之后，丢弃所述图像的所述一个或多个频率通道的系数值。

13.根据权利要求8所述的系统，其中，所述系统还包括：

模型输入模块，被配置为将所述图像数据集输入到比学习模型的第一层更深的所述学习模型的层中。

14.根据权利要求8所述的系统，其中，所述系统还包括：

模型输入模块，被配置为将所述图像数据集输入到学习模型的第一层，所述第一层未将其系数值被丢弃的所述频率通道作为输入。

15.一种计算机可读存储介质，其存储可由一个或多个处理器执行的计算机可读指令，当所述一个或多个处理器执行所述计算机可读指令时，使得所述一个或多个处理器执行操作，所述操作包括：

解码图像数据集的图像以生成所述图像数据集的频域表示；

16.根据权利要求15所述的计算机可读存储介质，其中，其系数值被丢弃的所述频率通道包括下述之一：每个图像的每个离散余弦变换块的最高频率通道或每个图像的每个离散余弦变换块的最低频率通道。

17.根据权利要求15所述的计算机可读存储介质，其中，其系数值被丢弃的所述频率通道包括的每个图像的色度分量的通道多于包括的每个图像的亮度分量的通道。

18.根据权利要求15所述的计算机可读存储介质，其中，至少在对所述图像数据集的每个图像执行大小调整操作和重塑操作之后，丢弃所述图像的所述一个或多个频率通道的系数值。

19.根据权利要求15所述的计算机可读存储介质，其中，所述操作还包括：

将所述图像数据集输入到比学习模型的第一层更深的所述学习模型的层中。

20.根据权利要求15所述的计算机可读存储介质，其中，所述操作还包括：

将所述图像数据集输入到学习模型的第一层，所述第一层未将其系数值被丢弃的所述频率通道作为输入。