CN113450421A

CN113450421A - 一种基于增强深度学习的无人机侦察图像压缩与解压方法

Info

Publication number: CN113450421A
Application number: CN202110804961.8A
Authority: CN
Inventors: 潘阳; 施晓东; 吴凯迪; 朱江; 钱诗君; 孙镱诚; 张凤静; 张旭东; 孙丁永; 曲炎林; 韦涛; 褚耀; 李伟; 高瀚远
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-09-28
Anticipated expiration: 2041-07-16
Also published as: CN113450421B

Abstract

本发明提供了一种基于增强深度学习的无人机侦察图像压缩与解压方法，以解决网络通信资源受限场景下无人机侦察图像压缩技术效率低导致数据传输效率低，速度慢的技术问题。本发明通过构建用于编码器和解码器的深度卷积网络和用于内容加权量化器、二值化器的自注意力机制网络，基于图像样本训练数据和数据增强技术对网络进行训练，并进一步根据模型的损失函数更新可训练参数得到最终的无人机侦察图像压缩模型。通过本发明方法，可以更大幅地压缩无人机侦察原始图像，加快数据的传输速度和效率，适应网络通信资源受限的实际应用场景。

Description

一种基于增强深度学习的无人机侦察图像压缩与解压方法

技术领域

本发明属于无人机侦察领域、图像处理与模式识别技术领域，具体涉及一种基于增强深度学习的无人机侦察图像压缩与解压方法。

背景技术

无人机具有体积小和重量轻的特点，使得其机动能力强、便于使用，在侦察领域具有广泛应用。无人机主要存储和传输图像形式的侦察数据，由于无人机体积小和重量轻的特点，使得其存储空间受限，并且在山地、丛林、高原等复杂环境下工作时，无人机通信带宽有限，因此对于无人机侦察图像数据进行压缩非常必要。

图像压缩技术能够减少图像的冗余信息，以较低的比特率存储或传输图像。无人机侦察影像具有局部相似的特点，相邻图像块或者像素之间具有很强的相关性，从统计的角度来说，这些相关性会存在大量的冗余信息。深度学习模型是目前最好的处理图像数据的机器学习模型，其在图像识别，目标检测与跟踪，图像分割等图像处理任务中有非常好的效果。深度学习的基本思路是通过一个多层的神经网络建模一组多层数据驱动的非线性变换，在这个过程中图像逐渐由像素表示转为语义表示。基于深度学习模型的图像压缩编码方法研究思路就是希望在图像编码阶段得到图像的语义表示；在图像的解码阶段再通过语义表示恢复图像的像素表示。在图像存储和传输时只需保留图像的语义表示，这样能在最大程度上压缩图像的所占的空间。在无人机平台下，如何利用其有限的存储资源和有限的通信带宽资源，实时地存储和传输无人机侦察图像，是当前无人机侦察领域的技术瓶颈之一。为了解决这一问题需要对无人机侦察图像进行压缩。

现有的图像压缩标准中(如JPEG、JPEG2000和BPG等)的编码器和解码器是分开优化的。在编码阶段，首先对图像执行一个线性变换，然后利用量化和无损熵编码来最小化压缩率。在解码阶段，通过设计了译码算法和逆变换，使失真率最小化。然而，这类图像压缩方法往往存在压缩伪影，特别是在低压缩率的情况下。为了解决这个问题，研究人员先后提出了几种改进的传统的方法和基于深度CNN模型的方法。Jiang等人提出了一个ComCNN，用于在传统编解码器codec(例如，JPEG、JPEG2000和BPG)对图像进行编码之前，对图像进行预处理，以及一个RecCNN，用于对传统codec的解码结果进行后处理。

目前，基于深度学习的图像压缩的理论和方法仍然在不断发展中，现有的图像压方法主要存在如下两种问题。其一，图像的上下文信息在图像的编码和解码中没有得到充分地利用。其二，现有的图像压缩技术的各个模块是相互独立的，缺乏一个端到端的系统，不能够在训练的过程中同时优化图像压缩的编码器、量化器和解码器，从而导致对图像的压缩能力有限。

发明内容

发明目的：本发明面向无人机侦察图像传输，提出一种基于自注意力增强的深度学习无人机侦察图像压缩与解压方法，能够适应带宽受限的通信条件，为无人机侦察提供高效可靠的图像数据压缩传输支撑。

实现本发明目的的技术解决方案为：构建用于编码器和解码器的深度卷积网络和用于内容加权量化器、二值化器的自注意力机制网络，基于无人机侦察图像样本训练数据和数据增强技术对网络进行训练，并进一步根据模型的损失函数更新可训练参数得到最终的无人机侦察图像压缩模型。将编码器、量化器和二值化器部署在无人机平台，解码器部署在服务器，无人机向服务器传输侦察图像经过编码器、量化器和二值化器处理后得到的二进制码流，服务器端解码器解码获得重建后的侦察图像。大幅压缩无人机侦察原始图像，加快无人机侦察图像数据的传输速度和效率。

本发明方法具体包括如下步骤：

步骤1、构建用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的主体框架；

步骤2、构建用于内容加权的量化器的自注意力机制网络Att，并对用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的可训练参数做初始化；

步骤3、基于CNN1、CNN2和Att构建图像压缩与解压模型，输入一批用于训练模型参数的无人机侦察图像，把图像分成适合编码器输入的图像块，同时利用数据增强技术扩充训练样本；

步骤4、用于编码器的深度卷积网络CNN1根据输入的图像块，计算得到图像块的语义特征F(x)和初步编码E(x)；

步骤5、量化器根据图像块的语义特征F(x)，通过自注意力机制网络Att计算得到二值化器所需要的分配策略M(Q(P(x)))；

步骤6、二值化器根据初步编码和分配策略计算得到二进制码流；

步骤7、用于解码器的深度卷积网络CNN2根据二进制码流计算得到重建后的无人机侦察图像；

步骤8、根据输入的无人机侦察图像、二进制码流和重建后的无人机侦察图像，计算模型的损失函数，用于更新模型(即CNN1、CNN2和Att网络)的可训练参数，从而完成一次模型训练；

步骤9、转至步骤3，直至训练收敛，得到最终的无人机侦察图像压缩与解压模型；

步骤10、在测试阶段将用于编码器的深度卷积网络CNN1、用于内容加权的量化器的自注意力机制网络Att和二值化器部署在无人机平台，用于解码器的深度卷积网络CNN2部署在服务器，无人机向服务器传输侦察原始图像，侦察原始图像经过编码器、量化器和二值化器后得到的二进制码流，二进制码流输入服务器端的解码器后获得重建后的侦察图像。

步骤1中，用于编码器的深度卷积网络CNN1包括卷积层Conv、下采样层Down-sampling by 2和稠密链接层Dense Block；

用于编码器的深度卷积网络CNN1的输入是待压缩的图像块，输出是待压缩的图像块的语义特征F(x)和初步编码E(x)。

步骤1中，用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的主体框架成镜像结构，其中CNN1中的采样为下采样，CNN2的采样为上采样；用于解码器的深度卷积网络CNN2的输入是二进制码流，输出是解压后的图像。

步骤1中，用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2隐藏层的激活函数采用GeLU函数，用于编码器的深度卷积网络CNN1的最后一层的激活函数是Sigmoid函数；采用He Initialization方法对用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的可训练参数做初始化。

步骤2中，所述自注意力机制网络Att的输入是图像的高层语义，输出是高层语义所对应的概率分布；

所述自注意力机制网络Att包括N个自注意力编码层，自注意力编码层用于建模上下文关系；

自注意力编码层的各个模块含义如下：Q表示查询对象；K表示查询键值；V表示内容；A表示注意力，如果Q，K，V来自于同一组对象，A称为自注意力，它们之间的关系数学描述如下：

其中T表示矩阵转置；τ表示规范化系数，是一个超参数，其取值通常跟Q,K的维度有关。

步骤3中，所述利用数据增强技术扩充训练样本，包括：在[-20°，20°]的角度范围内对图像随机旋转；分别以0.5的概率调整训练图像的亮度、对比度、饱和度；以0.5的概率进行水平翻转。

步骤5中，量化器的大小与编码器的输出一致，取值范围是(0,1)；量化器以编码器的语义特征函数F(x)作为输入，然后通过N个自注意力编码层产生输出p＝P(x)；

令h×w表示语义特征函数F(x)的输出大小，h和w分别表示高度和宽度，n表示语义特征函数F(x)的数目；将p中的每个元素量化为不大于n的整数，然后生成一个大小为n×h×w的重要性掩码，给定p中的一个元素p_ij，从量化器到重要性映射Q(·)定义为：

其中，L∈{16,32}是重要性等级；n mod L＝0，mod表示两数相除的余数；每一个重要性等级对应的比特数为n/L；由于p_ij∈(0,1)，因此Q(p_ij)只有L个不同的数值，即0,1,…,L-1；注意到当Q(p_ij)＝0时，其所对应位置不需要分配比特数，其全部信息都可以在解码阶段通过其上下文信息重建。从这个角度看，重要性特征函数不仅可以作为熵率估计的替代方法，而且可以自然地考虑上下文信息。

有了Q(p_ij)之后，重要性掩码m_kij通过下式计算：

其中m_kij的下表的取值范围分别为k∈{1,2,…,n}，i∈{1,2,…,h}，j∈{1,2,…,w}；M_k(·)表示第k个语义特征函数F(x)所对应的掩码函数。

步骤6包括：编码器的最后一层的激活函数是Sigmoid函数，则编码器的输出e＝E(x)的取值范围是[0,1]；令e_ijk表示e中的元素，则二值器函数B(·)定义为：

基于掩码函数和二值器函数，对于输入图像x的最终压缩编码结果c表示为：

c＝M(p)⊙B(e),

其中⊙表示元素级的点积运算；p＝P(x)表示输入图像在自注意力层的输出；M(p)≡m_kij表示掩码器的输出；注意到这个编码中考虑到内容重要性，故而B(e)中所有掩码取值为0的比特可以被移除。因此，对于每一个位置只需要Q(p_ij)n/L比特，而不是n比特。

步骤8包括：模型的目标函数L定义如下：

其中，x表示单张输入图像；X表示输入图像的集合；L_D(c,x)表示失真率损失函数；L_R(x)表示压缩率损失函数，λ表示折衷参数；失真率损失函数用于度量输入图像和重建图像之间的扭曲程度，定义如下：

其中D(c)表示解码器基于压缩编码c重建后的图像；

压缩率损失函数定义为：

其中p_ij∈P(x)表示自注意力编码层产生的输出；r表示超参数，用于控制压缩率；

采用带冲量的随机梯度下降算法Adam作为模型的优化器，设置Adam的超参数β₁、β₂和ε，采用可变的学习率

公式为：

其中，t表示训练步长数；d＝d(x)+d(p)表示模型输出的维数，d(x)表示图像的维度，d(p)表示图像编码的维度；w_s表示预热步长数。

本发明与现有技术相比，显著优点是：

(1)用于内容加权的量化器的自注意力机制网络Att，采用双向注意力机制对图像高层语义之间的上下文关系建模，引入2D的位置Embedding，增强图像高层语义之间的位置关系；

(2)对部分输入无人机侦察图像块采取了随机旋转操作，模仿无人机的不同视角，以提高数据集的丰富性，从而提高模型的压缩效率；

(3)模型的目标函数采用压缩率和失真率加权的损失函数，采用的带冲量的随机梯度下降算法Adam作为模型的优化器，提高学习效率；

(4)提供完整的无人机侦察图像压缩、解压缩处理方法和部署方案，端到端优化图像的压缩与解压缩过程，提高无人机侦察图像数据实时传输的效率。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明方法应用场景示意图。

图2是图像压缩与解压缩处理方法的流程示意图。

图3是深度学习模型结构示意图。

图4是用于编码器和解码器的CNN的体系结构示意图。

图5是基于自注意力机制的量化器示意图。

具体实施方式

本申请实施例公开了一种基于自注意力机制增强的深度学习(请参考图3)无人机侦察图像压缩与解压缩方法。请参考图1，图1示出了本申请实施例提供的图像压缩与解压缩处理方法的应用场景示意图。如图2所示，包括如下步骤：

步骤1、构建用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的主体框架，具体包括每一层的输入输出维数、卷积核数、通道数、下采样算子和上采样算子、网络层数等网络超参数，并对网络的可训练参数做初始化；

如图4所示，CNN1表示编码器所对应的神经网络，其中Conv表示卷积模块，其后的参数|3x3|表示卷积核的大小，对于Conv的其它参数64x3、128x256、256x320、Mx512、512xM、nxa、nxn、nx(n+a)、n(2n+a)、256x896、128x256、64x224、3x16，其中x左边的数值表示通道数，右边的数值表示步长，M、n和a是可调的参数，用于控制模块的复杂度；Down-samplingby 2表示2倍下采样模块；Up-sampling by 2表示2倍上采样模块；为了防止梯度消失问题，还引入了Dense Block。图3中“|”后面的数值64、128表示Dense Block的参数；CNN1的输入是待压缩的图像块，输出是该图像块的语义特征F(x)和初步编码E(x)。CNN2表示解码器所对应的神经网络，CNN2是CNN1的一个镜像结构，这种镜像结构的设计有利于图像的压缩和解压缩。需要说明的是，为了使输入图像和输出图像的大小保持一致，CNN1中的下采样倍率和CNN2中的上采样倍率需要保持一致；并且在上采样模块Up-sampling中，还需要“depth-to-space”产生特征图。最后一个卷积模块带有三个滤波器分别对应解压图像的RGB空间。CNN2的输入是二进制码流，输出是解压后的图像。编码器CNN1和解码器CNN2神经网络隐藏层的激活函数采用GeLU函数，编码器CNN1的最后一层的激活函数是Sigmoid函数。采用HeInitialization方法对网络的可训练参数做初始化。

步骤2、构建用于内容加权的量化器的自注意力机制网络Att的体系结构。具体包括输入输出维数、Query、Key、Value、位置Embedding、网络层数等网络超参数，并对网络的可训练参数做初始化；

如图5所示，Att的输入是图像的语义特征函数F(x)的输出，输出是高层语义特征函数输出所对应的概率分布。Att由N个自注意力编码层(Self-attention EncodingLayer)构成。自注意力编码层的主要作用是为了建模上下文关系。Att网络的可训练参数做初始化方法同上。自注意力编码层的各个符号含义如下：E_p表示位置嵌入，用于保持图像各像素之间的位置关系；

表示两个矩阵、向量或者张量对应元素的求和；Q表示查询对象；K表示查询键值；V表示内容；A表示注意力，如果Q，K，V来自于同一组对象，A称为自注意力，它们之间的关系数学描述如下：

Att能识别图像不同区域的平滑程度，有利于比特数分配和压缩率控制。

图5中的Add&Norm模块表示残差连接和规范化操作；Position-wise FFN表示位置方向上的前馈神经网络。

步骤3、输入一批用于训练模型参数的无人机侦察图像，通过采样或者分割等技术把图像分成适合编码器输入的图像块，同时利用数据增强技术扩充训练样本，以增强模型泛化能力。采用的主要数据增强方法可以有：在[-20°,20°]的角度范围内对图像随机旋转；分别以0.5的概率调整训练图像的亮度、对比度、饱和度等参数；以0.5的概率进行水平翻转。

步骤4、编码器所对应的卷积网络CNN1根据输入的图像块，计算得到图像块的语义特征F(x)和初步编码E(x)；

步骤5、量化器根据图像块的语义特征F(x)，通过自注意力机制网络Att计算得到二值化器所需要的分配策略M(Q(P(x)))。量化后的编码长度是一个空间不变量，还需要熵编码(Entropy Coding)操作进行进一步压缩。事实上，图像不同区域的信息的压缩难度应该是不同的。平滑的区域比那些有突出物体或者丰富纹理的区域要容易压缩。因此平滑的区域应该分得较少的比特数，而那些有突出物体或者丰富纹理的区域应该分得较多的比特数。

因此本申请实施例提出一种基于自注意力机制增强的内容加权的重要性量化器，用于比特数分配和压缩率控制。这个映射的输出只有一个通道，它的大小与编码器的输出一致，取值范围是(0,1)。它以编码器的中间特征函数F(x)作为输入，然后通过N个自注意力编码层产生输出p＝P(x)。

令h×w表示特征函数P(x)的输出大小，n表示编码器网络输出的特征函数的数目。为了指导比特数的分配，首先将p中的每个元素量化为不大于n的整数，然后生成一个大小为n×h×w的重要性掩码。给定p中的一个元素p_ij，从量化器到重要性映射定义为：

其中，L∈{16,32}是重要性等级；n mod L＝0，其中mod表示两数相除的余数。每一个重要性等级对应的比特数为n/L。由于p_ij∈(0,1)，因此Q(p_ij)只有L个不同的数值，即0,1,…,L-1。注意到当Q(p_ij)＝0时，其所对应位置不需要分配比特数，其全部信息都可以在解码阶段通过其上下文信息重建。从这个角度看，重要性特征函数不仅可以作为熵率估计的替代方法，而且可以自然地考虑上下文信息。

有了Q(p_ij)之后，重要性掩码可以通过下式计算：

输入图像x的最终编码结果c可表示为：

c＝M(p)⊙B(e),

其中⊙表示元素级的点积运算。注意到这个编码中考虑到内容重要性，故而B(e)中所有掩码取值为0的比特可以被移除。因此，对于每一个位置只需要Q(p_ij)n/L比特，而不是n比特。

类似于二值化器函数，量化函数和掩码函数使得m关于p的梯度也几乎处处为0。为了解决这个问题，首先把量化函数和掩码函数合并重写为：

其中ceiling函数表示去上整。类似于二值化器的梯度，m关于p的梯度可以写为：

步骤6、二值化器根据编码器输出的初步编码E(x)和量化器输出的分配策略M(Q(P(x)))计算得到二进制码流c。由于编码器的最后一层的激活函数是Sigmoid函数，因此编码器的输出e＝E(x)的取值范围是[0,1]。令e_kij表示e中的元素，则二值化器可定义为：

然而这样的二值器函数B(e_kij)的导数，除了在e_kij＝0.5处导数值为∞，其它情况下导数值都为0。这样使得网络在训练过程中，二值器之前的所有层的参数都不能得到更新。

这里通过引入代理函数

来逼近B(·)。在前向传播的过程中不使用代理函数，代理函数

只是在反向传播的时候使用。受BNN的启发，这里设计了一种分段线性函数

作为B(·)的近似：

这样便可以得到有效的梯度信息：

步骤7、解码器对应的卷积网络CNN2根据输入的二进制码流c计算得到重建后的无人机侦察图像

步骤8、根据输入图像x，二进制码流c，以及重建图像

计算模型的损失函数，用于更新整个模型的可训练参数，从而完成一次网络训练。一般来说，本发明所提出的内容加权图像压缩可以被定义为一个速率失真优化问题。这里的优化目标是最小化失真损失和速率损失的组合。为了平衡失真率和压缩率，引入了一个折衷参数λ。模型的目标函数定义如下：

其中，L_D(c,x)表示失真率损失函数；L_R(x)表示压缩率损失函数。失真率损失函数用于度量输入图像和重建图像之间的扭曲程度，其定义如下：

压缩率损失函数用于度量图像压缩后的编码长度。本发明提出的修剪后的二进制编码

可以作为压缩率损失函数，但是由于量化函数Q(·)的导数问题使得直接采用

作为压缩率损失函数会带来训练困难的问题。因此，这里把Q(p)放松到其连续形式p＝P(x)，并引入一个阈值r用于控制压缩率。压缩率损失函数定义为：

得益于松弛后的压缩率损失函数，整个基于内容加权的图像压缩模型的梯度是可以直接计算的，因此整个压缩系统可以用端到端的方式训练。这里采用的带冲量的随机梯度下降算法Adam作为模型的优化器，相关的超参数设置为β₁＝0.9，β₂＝0.98，ε＝10^-9。采用可变的学习率

其公式为：

其中，t表示训练步长数；d＝d(x)+d(p)表示模型输出的维数；w_s＝20000表示预热步长数。从上式可以看出，在预热步长以内，学习率随着步长的增加而线性增加；超过预热步长以后，学习率随着步长的平方根的倒数等比例减少。

步骤9、转至步骤3，直至训练收敛，得到最终的无人机侦察图像压缩模型；

步骤10、在测试阶段，编码器、量化器和二值化器部署在无人机上，解码器部署在服务器上，无人机向服务器传输侦察原始图像经过编码器、量化器和二值化器后得到的二进制码流，服务器端的解码器解码后就能获得重建后的侦察图像。

本申请实施例提出了一种基于深度学习模型的直接从输入图像到重建图像的端到端的图像压缩模型。由于图像不同位置的比特率是由图像的局部内容决定的。本申请实施例在这一思想的启发下提出了一种基于自注意力机制的内容敏感的比特率分配策略，即一种可学习的量化器。针对量化器和二值化器的离散值问题，通过引入代理函数对反向传播的二值运算进行逼近，使其具有可微性。这样传统图像压缩的编码器、量化器和解码器就可以融合在一个统一的深度学习框架之内，并可以联合起来一起优化，从而构建一个端到端的图像压缩与解压缩系统。本申请实施例提出的基于深度学习的图像压缩与解压缩方法的研究，能显著降低无人机侦察影像的数据大小，压缩过的图像能适用于无人机平台的据存储和传输，同时解压缩后的图像能保持较高的精度。

本发明提供了一种基于增强深度学习的无人机侦察图像压缩与解压方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于增强深度学习的无人机侦察图像压缩与解压方法，其特征在于，包括如下步骤：

步骤3、基于CNN1、CNN2和Att构建图像压缩与解压模型，输入用于训练模型参数的无人机侦察图像，把图像分成适合编码器输入的图像块，同时利用数据增强技术扩充训练样本；

步骤8、根据输入的无人机侦察图像、二进制码流和重建后的无人机侦察图像，计算模型的损失函数，用于更新模型的可训练参数，从而完成一次模型训练；

2.根据权利要求1所述的方法，其特征在于，步骤1中，用于编码器的深度卷积网络CNN1包括卷积层Conv、下采样层Down-sampling by 2和稠密链接层Dense Block；

3.根据权利要求2所述的方法，其特征在于，步骤1中，用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的主体框架成镜像结构，其中CNN1中的采样为下采样，CNN2的采样为上采样；用于解码器的深度卷积网络CNN2的输入是二进制码流，输出是解压后的图像。

4.根据权利要求3所述的方法，其特征在于，步骤1中，用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2隐藏层的激活函数采用GeLU函数，用于编码器的深度卷积网络CNN1的最后一层的激活函数是Sigmoid函数；采用He Initialization方法对用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的可训练参数做初始化。

5.根据权利要求4所述的方法，其特征在于，步骤2中，所述自注意力机制网络Att的输入是图像的高层语义，输出是高层语义所对应的概率分布；

其中T表示矩阵转置；τ表示规范化系数。

6.根据权利要求5所述的方法，其特征在于，步骤3中，所述利用数据增强技术扩充训练样本，包括：在[-20°，20°]的角度范围内对图像随机旋转；分别以0.5的概率调整训练图像的亮度、对比度、饱和度；以0.5的概率进行水平翻转。

7.根据权利要求6所述的方法，其特征在于，步骤5中，量化器的大小与编码器的输出一致，取值范围是(0,1)；量化器以编码器的语义特征函数F(x)作为输入，然后通过N个自注意力编码层产生输出p＝P(x)；

其中，L∈{16,32}是重要性等级；n mod L＝0，mod表示两数相除的余数；每一个重要性等级对应的比特数为n/L；由于p_ij∈(0,1)，因此Q(p_ij)只有L个不同的数值，即0,1,…,L-1；

重要性掩码m_kij通过下式计算：

8.根据权利要求7所述的方法，其特征在于，步骤6包括：编码器的最后一层的激活函数是Sigmoid函数，则编码器的输出e＝E(x)的取值范围是[0,1]；令e_ijk表示e中的元素，则二值器函数B(·)定义为：

c＝M(p)⊙B(e),

其中⊙表示元素级的点积运算；p＝P(x)表示输入图像在自注意力层的输出；M(p)≡m_kij表示掩码器的输出。

9.根据权利要求8所述的方法，其特征在于，步骤8包括：模型的目标函数L定义如下：

其中D(c)表示解码器基于压缩编码c重建后的图像；

压缩率损失函数定义为：

公式为：