CN113450421A - 一种基于增强深度学习的无人机侦察图像压缩与解压方法 - Google Patents

一种基于增强深度学习的无人机侦察图像压缩与解压方法 Download PDF

Info

Publication number
CN113450421A
CN113450421A CN202110804961.8A CN202110804961A CN113450421A CN 113450421 A CN113450421 A CN 113450421A CN 202110804961 A CN202110804961 A CN 202110804961A CN 113450421 A CN113450421 A CN 113450421A
Authority
CN
China
Prior art keywords
image
encoder
aerial vehicle
unmanned aerial
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110804961.8A
Other languages
English (en)
Other versions
CN113450421B (zh
Inventor
潘阳
施晓东
吴凯迪
朱江
钱诗君
孙镱诚
张凤静
张旭东
孙丁永
曲炎林
韦涛
褚耀
李伟
高瀚远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202110804961.8A priority Critical patent/CN113450421B/zh
Publication of CN113450421A publication Critical patent/CN113450421A/zh
Application granted granted Critical
Publication of CN113450421B publication Critical patent/CN113450421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种基于增强深度学习的无人机侦察图像压缩与解压方法,以解决网络通信资源受限场景下无人机侦察图像压缩技术效率低导致数据传输效率低,速度慢的技术问题。本发明通过构建用于编码器和解码器的深度卷积网络和用于内容加权量化器、二值化器的自注意力机制网络,基于图像样本训练数据和数据增强技术对网络进行训练,并进一步根据模型的损失函数更新可训练参数得到最终的无人机侦察图像压缩模型。通过本发明方法,可以更大幅地压缩无人机侦察原始图像,加快数据的传输速度和效率,适应网络通信资源受限的实际应用场景。

Description

一种基于增强深度学习的无人机侦察图像压缩与解压方法
技术领域
本发明属于无人机侦察领域、图像处理与模式识别技术领域,具体涉及一种基于增强深度学习的无人机侦察图像压缩与解压方法。
背景技术
无人机具有体积小和重量轻的特点,使得其机动能力强、便于使用,在侦察领域具有广泛应用。无人机主要存储和传输图像形式的侦察数据,由于无人机体积小和重量轻的特点,使得其存储空间受限,并且在山地、丛林、高原等复杂环境下工作时,无人机通信带宽有限,因此对于无人机侦察图像数据进行压缩非常必要。
图像压缩技术能够减少图像的冗余信息,以较低的比特率存储或传输图像。无人机侦察影像具有局部相似的特点,相邻图像块或者像素之间具有很强的相关性,从统计的角度来说,这些相关性会存在大量的冗余信息。深度学习模型是目前最好的处理图像数据的机器学习模型,其在图像识别,目标检测与跟踪,图像分割等图像处理任务中有非常好的效果。深度学习的基本思路是通过一个多层的神经网络建模一组多层数据驱动的非线性变换,在这个过程中图像逐渐由像素表示转为语义表示。基于深度学习模型的图像压缩编码方法研究思路就是希望在图像编码阶段得到图像的语义表示;在图像的解码阶段再通过语义表示恢复图像的像素表示。在图像存储和传输时只需保留图像的语义表示,这样能在最大程度上压缩图像的所占的空间。在无人机平台下,如何利用其有限的存储资源和有限的通信带宽资源,实时地存储和传输无人机侦察图像,是当前无人机侦察领域的技术瓶颈之一。为了解决这一问题需要对无人机侦察图像进行压缩。
现有的图像压缩标准中(如JPEG、JPEG2000和BPG等)的编码器和解码器是分开优化的。在编码阶段,首先对图像执行一个线性变换,然后利用量化和无损熵编码来最小化压缩率。在解码阶段,通过设计了译码算法和逆变换,使失真率最小化。然而,这类图像压缩方法往往存在压缩伪影,特别是在低压缩率的情况下。为了解决这个问题,研究人员先后提出了几种改进的传统的方法和基于深度CNN模型的方法。Jiang等人提出了一个ComCNN,用于在传统编解码器codec(例如,JPEG、JPEG2000和BPG)对图像进行编码之前,对图像进行预处理,以及一个RecCNN,用于对传统codec的解码结果进行后处理。
目前,基于深度学习的图像压缩的理论和方法仍然在不断发展中,现有的图像压方法主要存在如下两种问题。其一,图像的上下文信息在图像的编码和解码中没有得到充分地利用。其二,现有的图像压缩技术的各个模块是相互独立的,缺乏一个端到端的系统,不能够在训练的过程中同时优化图像压缩的编码器、量化器和解码器,从而导致对图像的压缩能力有限。
发明内容
发明目的:本发明面向无人机侦察图像传输,提出一种基于自注意力增强的深度学习无人机侦察图像压缩与解压方法,能够适应带宽受限的通信条件,为无人机侦察提供高效可靠的图像数据压缩传输支撑。
实现本发明目的的技术解决方案为:构建用于编码器和解码器的深度卷积网络和用于内容加权量化器、二值化器的自注意力机制网络,基于无人机侦察图像样本训练数据和数据增强技术对网络进行训练,并进一步根据模型的损失函数更新可训练参数得到最终的无人机侦察图像压缩模型。将编码器、量化器和二值化器部署在无人机平台,解码器部署在服务器,无人机向服务器传输侦察图像经过编码器、量化器和二值化器处理后得到的二进制码流,服务器端解码器解码获得重建后的侦察图像。大幅压缩无人机侦察原始图像,加快无人机侦察图像数据的传输速度和效率。
本发明方法具体包括如下步骤:
步骤1、构建用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的主体框架;
步骤2、构建用于内容加权的量化器的自注意力机制网络Att,并对用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的可训练参数做初始化;
步骤3、基于CNN1、CNN2和Att构建图像压缩与解压模型,输入一批用于训练模型参数的无人机侦察图像,把图像分成适合编码器输入的图像块,同时利用数据增强技术扩充训练样本;
步骤4、用于编码器的深度卷积网络CNN1根据输入的图像块,计算得到图像块的语义特征F(x)和初步编码E(x);
步骤5、量化器根据图像块的语义特征F(x),通过自注意力机制网络Att计算得到二值化器所需要的分配策略M(Q(P(x)));
步骤6、二值化器根据初步编码和分配策略计算得到二进制码流;
步骤7、用于解码器的深度卷积网络CNN2根据二进制码流计算得到重建后的无人机侦察图像;
步骤8、根据输入的无人机侦察图像、二进制码流和重建后的无人机侦察图像,计算模型的损失函数,用于更新模型(即CNN1、CNN2和Att网络)的可训练参数,从而完成一次模型训练;
步骤9、转至步骤3,直至训练收敛,得到最终的无人机侦察图像压缩与解压模型;
步骤10、在测试阶段将用于编码器的深度卷积网络CNN1、用于内容加权的量化器的自注意力机制网络Att和二值化器部署在无人机平台,用于解码器的深度卷积网络CNN2部署在服务器,无人机向服务器传输侦察原始图像,侦察原始图像经过编码器、量化器和二值化器后得到的二进制码流,二进制码流输入服务器端的解码器后获得重建后的侦察图像。
步骤1中,用于编码器的深度卷积网络CNN1包括卷积层Conv、下采样层Down-sampling by 2和稠密链接层Dense Block;
用于编码器的深度卷积网络CNN1的输入是待压缩的图像块,输出是待压缩的图像块的语义特征F(x)和初步编码E(x)。
步骤1中,用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的主体框架成镜像结构,其中CNN1中的采样为下采样,CNN2的采样为上采样;用于解码器的深度卷积网络CNN2的输入是二进制码流,输出是解压后的图像。
步骤1中,用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2隐藏层的激活函数采用GeLU函数,用于编码器的深度卷积网络CNN1的最后一层的激活函数是Sigmoid函数;采用He Initialization方法对用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的可训练参数做初始化。
步骤2中,所述自注意力机制网络Att的输入是图像的高层语义,输出是高层语义所对应的概率分布;
所述自注意力机制网络Att包括N个自注意力编码层,自注意力编码层用于建模上下文关系;
自注意力编码层的各个模块含义如下:Q表示查询对象;K表示查询键值;V表示内容;A表示注意力,如果Q,K,V来自于同一组对象,A称为自注意力,它们之间的关系数学描述如下:
Figure BDA0003166140690000041
其中T表示矩阵转置;τ表示规范化系数,是一个超参数,其取值通常跟Q,K的维度有关。
步骤3中,所述利用数据增强技术扩充训练样本,包括:在[-20°,20°]的角度范围内对图像随机旋转;分别以0.5的概率调整训练图像的亮度、对比度、饱和度;以0.5的概率进行水平翻转。
步骤5中,量化器的大小与编码器的输出一致,取值范围是(0,1);量化器以编码器的语义特征函数F(x)作为输入,然后通过N个自注意力编码层产生输出p=P(x);
令h×w表示语义特征函数F(x)的输出大小,h和w分别表示高度和宽度,n表示语义特征函数F(x)的数目;将p中的每个元素量化为不大于n的整数,然后生成一个大小为n×h×w的重要性掩码,给定p中的一个元素pij,从量化器到重要性映射Q(·)定义为:
Figure BDA0003166140690000042
其中,L∈{16,32}是重要性等级;n mod L=0,mod表示两数相除的余数;每一个重要性等级对应的比特数为n/L;由于pij∈(0,1),因此Q(pij)只有L个不同的数值,即0,1,…,L-1;注意到当Q(pij)=0时,其所对应位置不需要分配比特数,其全部信息都可以在解码阶段通过其上下文信息重建。从这个角度看,重要性特征函数不仅可以作为熵率估计的替代方法,而且可以自然地考虑上下文信息。
有了Q(pij)之后,重要性掩码mkij通过下式计算:
Figure BDA0003166140690000051
其中mkij的下表的取值范围分别为k∈{1,2,…,n},i∈{1,2,…,h},j∈{1,2,…,w};Mk(·)表示第k个语义特征函数F(x)所对应的掩码函数。
步骤6包括:编码器的最后一层的激活函数是Sigmoid函数,则编码器的输出e=E(x)的取值范围是[0,1];令eijk表示e中的元素,则二值器函数B(·)定义为:
Figure BDA0003166140690000052
基于掩码函数和二值器函数,对于输入图像x的最终压缩编码结果c表示为:
c=M(p)⊙B(e),
其中⊙表示元素级的点积运算;p=P(x)表示输入图像在自注意力层的输出;M(p)≡mkij表示掩码器的输出;注意到这个编码中考虑到内容重要性,故而B(e)中所有掩码取值为0的比特可以被移除。因此,对于每一个位置只需要Q(pij)n/L比特,而不是n比特。
步骤8包括:模型的目标函数L定义如下:
Figure BDA0003166140690000053
其中,x表示单张输入图像;X表示输入图像的集合;LD(c,x)表示失真率损失函数;LR(x)表示压缩率损失函数,λ表示折衷参数;失真率损失函数用于度量输入图像和重建图像之间的扭曲程度,定义如下:
Figure BDA0003166140690000054
其中D(c)表示解码器基于压缩编码c重建后的图像;
压缩率损失函数定义为:
Figure BDA0003166140690000061
其中pij∈P(x)表示自注意力编码层产生的输出;r表示超参数,用于控制压缩率;
采用带冲量的随机梯度下降算法Adam作为模型的优化器,设置Adam的超参数β1、β2和ε,采用可变的学习率
Figure BDA0003166140690000063
公式为:
Figure BDA0003166140690000062
其中,t表示训练步长数;d=d(x)+d(p)表示模型输出的维数,d(x)表示图像的维度,d(p)表示图像编码的维度;ws表示预热步长数。
本发明与现有技术相比,显著优点是:
(1)用于内容加权的量化器的自注意力机制网络Att,采用双向注意力机制对图像高层语义之间的上下文关系建模,引入2D的位置Embedding,增强图像高层语义之间的位置关系;
(2)对部分输入无人机侦察图像块采取了随机旋转操作,模仿无人机的不同视角,以提高数据集的丰富性,从而提高模型的压缩效率;
(3)模型的目标函数采用压缩率和失真率加权的损失函数,采用的带冲量的随机梯度下降算法Adam作为模型的优化器,提高学习效率;
(4)提供完整的无人机侦察图像压缩、解压缩处理方法和部署方案,端到端优化图像的压缩与解压缩过程,提高无人机侦察图像数据实时传输的效率。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明方法应用场景示意图。
图2是图像压缩与解压缩处理方法的流程示意图。
图3是深度学习模型结构示意图。
图4是用于编码器和解码器的CNN的体系结构示意图。
图5是基于自注意力机制的量化器示意图。
具体实施方式
本申请实施例公开了一种基于自注意力机制增强的深度学习(请参考图3)无人机侦察图像压缩与解压缩方法。请参考图1,图1示出了本申请实施例提供的图像压缩与解压缩处理方法的应用场景示意图。如图2所示,包括如下步骤:
步骤1、构建用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的主体框架,具体包括每一层的输入输出维数、卷积核数、通道数、下采样算子和上采样算子、网络层数等网络超参数,并对网络的可训练参数做初始化;
如图4所示,CNN1表示编码器所对应的神经网络,其中Conv表示卷积模块,其后的参数|3x3|表示卷积核的大小,对于Conv的其它参数64x3、128x256、256x320、Mx512、512xM、nxa、nxn、nx(n+a)、n(2n+a)、256x896、128x256、64x224、3x16,其中x左边的数值表示通道数,右边的数值表示步长,M、n和a是可调的参数,用于控制模块的复杂度;Down-samplingby 2表示2倍下采样模块;Up-sampling by 2表示2倍上采样模块;为了防止梯度消失问题,还引入了Dense Block。图3中“|”后面的数值64、128表示Dense Block的参数;CNN1的输入是待压缩的图像块,输出是该图像块的语义特征F(x)和初步编码E(x)。CNN2表示解码器所对应的神经网络,CNN2是CNN1的一个镜像结构,这种镜像结构的设计有利于图像的压缩和解压缩。需要说明的是,为了使输入图像和输出图像的大小保持一致,CNN1中的下采样倍率和CNN2中的上采样倍率需要保持一致;并且在上采样模块Up-sampling中,还需要“depth-to-space”产生特征图。最后一个卷积模块带有三个滤波器分别对应解压图像的RGB空间。CNN2的输入是二进制码流,输出是解压后的图像。编码器CNN1和解码器CNN2神经网络隐藏层的激活函数采用GeLU函数,编码器CNN1的最后一层的激活函数是Sigmoid函数。采用HeInitialization方法对网络的可训练参数做初始化。
步骤2、构建用于内容加权的量化器的自注意力机制网络Att的体系结构。具体包括输入输出维数、Query、Key、Value、位置Embedding、网络层数等网络超参数,并对网络的可训练参数做初始化;
如图5所示,Att的输入是图像的语义特征函数F(x)的输出,输出是高层语义特征函数输出所对应的概率分布。Att由N个自注意力编码层(Self-attention EncodingLayer)构成。自注意力编码层的主要作用是为了建模上下文关系。Att网络的可训练参数做初始化方法同上。自注意力编码层的各个符号含义如下:Ep表示位置嵌入,用于保持图像各像素之间的位置关系;
Figure BDA0003166140690000081
表示两个矩阵、向量或者张量对应元素的求和;Q表示查询对象;K表示查询键值;V表示内容;A表示注意力,如果Q,K,V来自于同一组对象,A称为自注意力,它们之间的关系数学描述如下:
Figure BDA0003166140690000082
Att能识别图像不同区域的平滑程度,有利于比特数分配和压缩率控制。
图5中的Add&Norm模块表示残差连接和规范化操作;Position-wise FFN表示位置方向上的前馈神经网络。
步骤3、输入一批用于训练模型参数的无人机侦察图像,通过采样或者分割等技术把图像分成适合编码器输入的图像块,同时利用数据增强技术扩充训练样本,以增强模型泛化能力。采用的主要数据增强方法可以有:在[-20°,20°]的角度范围内对图像随机旋转;分别以0.5的概率调整训练图像的亮度、对比度、饱和度等参数;以0.5的概率进行水平翻转。
步骤4、编码器所对应的卷积网络CNN1根据输入的图像块,计算得到图像块的语义特征F(x)和初步编码E(x);
步骤5、量化器根据图像块的语义特征F(x),通过自注意力机制网络Att计算得到二值化器所需要的分配策略M(Q(P(x)))。量化后的编码长度是一个空间不变量,还需要熵编码(Entropy Coding)操作进行进一步压缩。事实上,图像不同区域的信息的压缩难度应该是不同的。平滑的区域比那些有突出物体或者丰富纹理的区域要容易压缩。因此平滑的区域应该分得较少的比特数,而那些有突出物体或者丰富纹理的区域应该分得较多的比特数。
因此本申请实施例提出一种基于自注意力机制增强的内容加权的重要性量化器,用于比特数分配和压缩率控制。这个映射的输出只有一个通道,它的大小与编码器的输出一致,取值范围是(0,1)。它以编码器的中间特征函数F(x)作为输入,然后通过N个自注意力编码层产生输出p=P(x)。
令h×w表示特征函数P(x)的输出大小,n表示编码器网络输出的特征函数的数目。为了指导比特数的分配,首先将p中的每个元素量化为不大于n的整数,然后生成一个大小为n×h×w的重要性掩码。给定p中的一个元素pij,从量化器到重要性映射定义为:
Figure BDA0003166140690000091
其中,L∈{16,32}是重要性等级;n mod L=0,其中mod表示两数相除的余数。每一个重要性等级对应的比特数为n/L。由于pij∈(0,1),因此Q(pij)只有L个不同的数值,即0,1,…,L-1。注意到当Q(pij)=0时,其所对应位置不需要分配比特数,其全部信息都可以在解码阶段通过其上下文信息重建。从这个角度看,重要性特征函数不仅可以作为熵率估计的替代方法,而且可以自然地考虑上下文信息。
有了Q(pij)之后,重要性掩码可以通过下式计算:
Figure BDA0003166140690000092
输入图像x的最终编码结果c可表示为:
c=M(p)⊙B(e),
其中⊙表示元素级的点积运算。注意到这个编码中考虑到内容重要性,故而B(e)中所有掩码取值为0的比特可以被移除。因此,对于每一个位置只需要Q(pij)n/L比特,而不是n比特。
类似于二值化器函数,量化函数和掩码函数使得m关于p的梯度也几乎处处为0。为了解决这个问题,首先把量化函数和掩码函数合并重写为:
Figure BDA0003166140690000093
其中ceiling函数表示去上整。类似于二值化器的梯度,m关于p的梯度可以写为:
Figure BDA0003166140690000101
步骤6、二值化器根据编码器输出的初步编码E(x)和量化器输出的分配策略M(Q(P(x)))计算得到二进制码流c。由于编码器的最后一层的激活函数是Sigmoid函数,因此编码器的输出e=E(x)的取值范围是[0,1]。令ekij表示e中的元素,则二值化器可定义为:
Figure BDA0003166140690000102
然而这样的二值器函数B(ekij)的导数,除了在ekij=0.5处导数值为∞,其它情况下导数值都为0。这样使得网络在训练过程中,二值器之前的所有层的参数都不能得到更新。
这里通过引入代理函数
Figure BDA0003166140690000103
来逼近B(·)。在前向传播的过程中不使用代理函数,代理函数
Figure BDA0003166140690000104
只是在反向传播的时候使用。受BNN的启发,这里设计了一种分段线性函数
Figure BDA0003166140690000105
作为B(·)的近似:
Figure BDA0003166140690000106
这样便可以得到有效的梯度信息:
Figure BDA0003166140690000107
步骤7、解码器对应的卷积网络CNN2根据输入的二进制码流c计算得到重建后的无人机侦察图像
Figure BDA0003166140690000108
步骤8、根据输入图像x,二进制码流c,以及重建图像
Figure BDA0003166140690000109
计算模型的损失函数,用于更新整个模型的可训练参数,从而完成一次网络训练。一般来说,本发明所提出的内容加权图像压缩可以被定义为一个速率失真优化问题。这里的优化目标是最小化失真损失和速率损失的组合。为了平衡失真率和压缩率,引入了一个折衷参数λ。模型的目标函数定义如下:
Figure BDA0003166140690000111
其中,LD(c,x)表示失真率损失函数;LR(x)表示压缩率损失函数。失真率损失函数用于度量输入图像和重建图像之间的扭曲程度,其定义如下:
Figure BDA0003166140690000112
压缩率损失函数用于度量图像压缩后的编码长度。本发明提出的修剪后的二进制编码
Figure BDA0003166140690000113
可以作为压缩率损失函数,但是由于量化函数Q(·)的导数问题使得直接采用
Figure BDA0003166140690000114
作为压缩率损失函数会带来训练困难的问题。因此,这里把Q(p)放松到其连续形式p=P(x),并引入一个阈值r用于控制压缩率。压缩率损失函数定义为:
Figure BDA0003166140690000115
得益于松弛后的压缩率损失函数,整个基于内容加权的图像压缩模型的梯度是可以直接计算的,因此整个压缩系统可以用端到端的方式训练。这里采用的带冲量的随机梯度下降算法Adam作为模型的优化器,相关的超参数设置为β1=0.9,β2=0.98,ε=10-9。采用可变的学习率
Figure BDA0003166140690000116
其公式为:
Figure BDA0003166140690000117
其中,t表示训练步长数;d=d(x)+d(p)表示模型输出的维数;ws=20000表示预热步长数。从上式可以看出,在预热步长以内,学习率随着步长的增加而线性增加;超过预热步长以后,学习率随着步长的平方根的倒数等比例减少。
步骤9、转至步骤3,直至训练收敛,得到最终的无人机侦察图像压缩模型;
步骤10、在测试阶段,编码器、量化器和二值化器部署在无人机上,解码器部署在服务器上,无人机向服务器传输侦察原始图像经过编码器、量化器和二值化器后得到的二进制码流,服务器端的解码器解码后就能获得重建后的侦察图像。
本申请实施例提出了一种基于深度学习模型的直接从输入图像到重建图像的端到端的图像压缩模型。由于图像不同位置的比特率是由图像的局部内容决定的。本申请实施例在这一思想的启发下提出了一种基于自注意力机制的内容敏感的比特率分配策略,即一种可学习的量化器。针对量化器和二值化器的离散值问题,通过引入代理函数对反向传播的二值运算进行逼近,使其具有可微性。这样传统图像压缩的编码器、量化器和解码器就可以融合在一个统一的深度学习框架之内,并可以联合起来一起优化,从而构建一个端到端的图像压缩与解压缩系统。本申请实施例提出的基于深度学习的图像压缩与解压缩方法的研究,能显著降低无人机侦察影像的数据大小,压缩过的图像能适用于无人机平台的据存储和传输,同时解压缩后的图像能保持较高的精度。
本发明提供了一种基于增强深度学习的无人机侦察图像压缩与解压方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (9)

1.一种基于增强深度学习的无人机侦察图像压缩与解压方法,其特征在于,包括如下步骤:
步骤1、构建用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的主体框架;
步骤2、构建用于内容加权的量化器的自注意力机制网络Att,并对用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的可训练参数做初始化;
步骤3、基于CNN1、CNN2和Att构建图像压缩与解压模型,输入用于训练模型参数的无人机侦察图像,把图像分成适合编码器输入的图像块,同时利用数据增强技术扩充训练样本;
步骤4、用于编码器的深度卷积网络CNN1根据输入的图像块,计算得到图像块的语义特征F(x)和初步编码E(x);
步骤5、量化器根据图像块的语义特征F(x),通过自注意力机制网络Att计算得到二值化器所需要的分配策略M(Q(P(x)));
步骤6、二值化器根据初步编码和分配策略计算得到二进制码流;
步骤7、用于解码器的深度卷积网络CNN2根据二进制码流计算得到重建后的无人机侦察图像;
步骤8、根据输入的无人机侦察图像、二进制码流和重建后的无人机侦察图像,计算模型的损失函数,用于更新模型的可训练参数,从而完成一次模型训练;
步骤9、转至步骤3,直至训练收敛,得到最终的无人机侦察图像压缩与解压模型;
步骤10、在测试阶段将用于编码器的深度卷积网络CNN1、用于内容加权的量化器的自注意力机制网络Att和二值化器部署在无人机平台,用于解码器的深度卷积网络CNN2部署在服务器,无人机向服务器传输侦察原始图像,侦察原始图像经过编码器、量化器和二值化器后得到的二进制码流,二进制码流输入服务器端的解码器后获得重建后的侦察图像。
2.根据权利要求1所述的方法,其特征在于,步骤1中,用于编码器的深度卷积网络CNN1包括卷积层Conv、下采样层Down-sampling by 2和稠密链接层Dense Block;
用于编码器的深度卷积网络CNN1的输入是待压缩的图像块,输出是待压缩的图像块的语义特征F(x)和初步编码E(x)。
3.根据权利要求2所述的方法,其特征在于,步骤1中,用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的主体框架成镜像结构,其中CNN1中的采样为下采样,CNN2的采样为上采样;用于解码器的深度卷积网络CNN2的输入是二进制码流,输出是解压后的图像。
4.根据权利要求3所述的方法,其特征在于,步骤1中,用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2隐藏层的激活函数采用GeLU函数,用于编码器的深度卷积网络CNN1的最后一层的激活函数是Sigmoid函数;采用He Initialization方法对用于编码器的深度卷积网络CNN1和用于解码器的深度卷积网络CNN2的可训练参数做初始化。
5.根据权利要求4所述的方法,其特征在于,步骤2中,所述自注意力机制网络Att的输入是图像的高层语义,输出是高层语义所对应的概率分布;
所述自注意力机制网络Att包括N个自注意力编码层,自注意力编码层用于建模上下文关系;
自注意力编码层的各个模块含义如下:Q表示查询对象;K表示查询键值;V表示内容;A表示注意力,如果Q,K,V来自于同一组对象,A称为自注意力,它们之间的关系数学描述如下:
Figure FDA0003166140680000021
其中T表示矩阵转置;τ表示规范化系数。
6.根据权利要求5所述的方法,其特征在于,步骤3中,所述利用数据增强技术扩充训练样本,包括:在[-20°,20°]的角度范围内对图像随机旋转;分别以0.5的概率调整训练图像的亮度、对比度、饱和度;以0.5的概率进行水平翻转。
7.根据权利要求6所述的方法,其特征在于,步骤5中,量化器的大小与编码器的输出一致,取值范围是(0,1);量化器以编码器的语义特征函数F(x)作为输入,然后通过N个自注意力编码层产生输出p=P(x);
令h×w表示语义特征函数F(x)的输出大小,h和w分别表示高度和宽度,n表示语义特征函数F(x)的数目;将p中的每个元素量化为不大于n的整数,然后生成一个大小为n×h×w的重要性掩码,给定p中的一个元素pij,从量化器到重要性映射Q(·)定义为:
Figure FDA0003166140680000031
其中,L∈{16,32}是重要性等级;n mod L=0,mod表示两数相除的余数;每一个重要性等级对应的比特数为n/L;由于pij∈(0,1),因此Q(pij)只有L个不同的数值,即0,1,…,L-1;
重要性掩码mkij通过下式计算:
Figure FDA0003166140680000032
其中mkij的下表的取值范围分别为k∈{1,2,…,n},i∈{1,2,…,h},j∈{1,2,…,w};Mk(·)表示第k个语义特征函数F(x)所对应的掩码函数。
8.根据权利要求7所述的方法,其特征在于,步骤6包括:编码器的最后一层的激活函数是Sigmoid函数,则编码器的输出e=E(x)的取值范围是[0,1];令eijk表示e中的元素,则二值器函数B(·)定义为:
Figure FDA0003166140680000033
基于掩码函数和二值器函数,对于输入图像x的最终压缩编码结果c表示为:
c=M(p)⊙B(e),
其中⊙表示元素级的点积运算;p=P(x)表示输入图像在自注意力层的输出;M(p)≡mkij表示掩码器的输出。
9.根据权利要求8所述的方法,其特征在于,步骤8包括:模型的目标函数L定义如下:
Figure FDA0003166140680000041
其中,x表示单张输入图像;X表示输入图像的集合;LD(c,x)表示失真率损失函数;LR(x)表示压缩率损失函数,λ表示折衷参数;失真率损失函数用于度量输入图像和重建图像之间的扭曲程度,定义如下:
Figure FDA0003166140680000042
其中D(c)表示解码器基于压缩编码c重建后的图像;
压缩率损失函数定义为:
Figure FDA0003166140680000043
其中pij∈P(x)表示自注意力编码层产生的输出;r表示超参数,用于控制压缩率;
采用带冲量的随机梯度下降算法Adam作为模型的优化器,设置Adam的超参数β1、β2和ε,采用可变的学习率
Figure FDA0003166140680000044
公式为:
Figure FDA0003166140680000045
其中,t表示训练步长数;d=d(x)+d(p)表示模型输出的维数,d(x)表示图像的维度,d(p)表示图像编码的维度;ws表示预热步长数。
CN202110804961.8A 2021-07-16 2021-07-16 一种基于增强深度学习的无人机侦察图像压缩与解压方法 Active CN113450421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110804961.8A CN113450421B (zh) 2021-07-16 2021-07-16 一种基于增强深度学习的无人机侦察图像压缩与解压方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110804961.8A CN113450421B (zh) 2021-07-16 2021-07-16 一种基于增强深度学习的无人机侦察图像压缩与解压方法

Publications (2)

Publication Number Publication Date
CN113450421A true CN113450421A (zh) 2021-09-28
CN113450421B CN113450421B (zh) 2022-07-01

Family

ID=77816420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110804961.8A Active CN113450421B (zh) 2021-07-16 2021-07-16 一种基于增强深度学习的无人机侦察图像压缩与解压方法

Country Status (1)

Country Link
CN (1) CN113450421B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115623207A (zh) * 2022-12-14 2023-01-17 鹏城实验室 一种基于多进多出技术的数据传输方法及相关设备
CN116208667A (zh) * 2023-01-18 2023-06-02 中国电子科技集团公司第二十八研究所 一种可变长高压缩的比特报文编解码方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377711A (zh) * 2019-07-01 2019-10-25 浙江大学 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
US10594338B1 (en) * 2019-03-18 2020-03-17 WaveOne Inc. Adaptive quantization
CN111080729A (zh) * 2019-12-24 2020-04-28 山东浪潮人工智能研究院有限公司 基于Attention机制的训练图片压缩网络的构建方法及系统
CN111683250A (zh) * 2020-05-13 2020-09-18 武汉大学 一种基于深度学习的生成式遥感图像压缩方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10594338B1 (en) * 2019-03-18 2020-03-17 WaveOne Inc. Adaptive quantization
CN110377711A (zh) * 2019-07-01 2019-10-25 浙江大学 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
CN111080729A (zh) * 2019-12-24 2020-04-28 山东浪潮人工智能研究院有限公司 基于Attention机制的训练图片压缩网络的构建方法及系统
CN111683250A (zh) * 2020-05-13 2020-09-18 武汉大学 一种基于深度学习的生成式遥感图像压缩方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115623207A (zh) * 2022-12-14 2023-01-17 鹏城实验室 一种基于多进多出技术的数据传输方法及相关设备
CN115623207B (zh) * 2022-12-14 2023-03-10 鹏城实验室 一种基于多进多出技术的数据传输方法及相关设备
CN116208667A (zh) * 2023-01-18 2023-06-02 中国电子科技集团公司第二十八研究所 一种可变长高压缩的比特报文编解码方法

Also Published As

Publication number Publication date
CN113450421B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
Toderici et al. Variable rate image compression with recurrent neural networks
Setyaningsih et al. Survey of hybrid image compression techniques
CN113450421B (zh) 一种基于增强深度学习的无人机侦察图像压缩与解压方法
CN113259665B (zh) 一种图像处理方法以及相关设备
US6885320B2 (en) Apparatus and method for selecting length of variable length coding bit stream using neural network
CN114581544A (zh) 图像压缩方法、计算机设备及计算机存储介质
CN111683250A (zh) 一种基于深度学习的生成式遥感图像压缩方法
Nair et al. Deep-learning with context sensitive quantization and interpolation for underwater image compression and quality image restoration
Kabir et al. Edge-based transformation and entropy coding for lossless image compression
CN116567240A (zh) 基于自适应通道和空间窗口熵模型的图像压缩方法及系统
CN111479286A (zh) 一种边缘计算系统减少通信流量的数据处理方法
Zhuang et al. A robustness and low bit-rate image compression network for underwater acoustic communication
Huang et al. Multi-channel multi-loss deep learning based compression model for color images
Yin et al. A co-prediction-based compression scheme for correlated images
Tzovaras et al. Use of nonlinear principal component analysis and vector quantization for image coding
CN114501031B (zh) 一种压缩编码、解压缩方法以及装置
Venkatraman et al. Object-based SAR image compression using vector quantization
Prantl Image compression overview
Vasuki et al. Image compression using lifting and vector quantization
Kountchev et al. Non-linear image representation based on IDP with NN
Krishnanaik et al. Implementation of wavelet transform, DPCM and neural network for image compression
CN115118972A (zh) 视频图像的编解码方法及相关设备
CN116912520A (zh) 基于空谱特征提取的高光谱端到端压缩方法
Shleymovich et al. Weight Model for Image Compression Method
CN117689742A (zh) 一种基于深度学习的多速率图像压缩传输方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant