CN113822954B - 一种面向资源约束下人机协同场景的深度学习图像编码方法 - Google Patents
一种面向资源约束下人机协同场景的深度学习图像编码方法 Download PDFInfo
- Publication number
- CN113822954B CN113822954B CN202111064444.8A CN202111064444A CN113822954B CN 113822954 B CN113822954 B CN 113822954B CN 202111064444 A CN202111064444 A CN 202111064444A CN 113822954 B CN113822954 B CN 113822954B
- Authority
- CN
- China
- Prior art keywords
- network
- image
- quality
- analysis
- compression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims abstract description 122
- 230000006835 compression Effects 0.000 claims abstract description 79
- 238000007906 compression Methods 0.000 claims abstract description 79
- 230000000007 visual effect Effects 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 230000005540 biological transmission Effects 0.000 claims description 25
- 238000012512 characterization method Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000012800 visualization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种面向资源约束下人机协同场景的深度学习图像编码方法,该方法将输入图像编码为包含可视分析层和高质量重建层的分层码流,通过自适应地传输与解码,大幅提高在能量有限和带宽有限的场景下人机协同图像应用的效率。包括以下步骤:1)搭建面向人机协同场景的深度图像编码网络框架;2)对于搭建好的深度图像编码网络框架,设置不同的损失函数权重参数,分步依次训练其中的可分析图像压缩网络和特征域分析网络、预览图像生成网络、特征残差压缩网络和高质量重建网络,获取满足不同压缩比的多个网络模型;3)使用得到的网络模型对测试图片进行编码,评估压缩码流的分析质量和重建质量,并测试在资源约束的人机协同场景下的应用效率。
Description
技术领域
本发明属于图像编码技术领域,具体涉及一种面向资源约束下人机协同场景的深度学习图像编码方法。
背景技术
随着城市的智能化发展,日益增长的图像应用需求以及图像分辨率的进一步提升使得原始图像数据量急剧增长。同时,由于近年来机器视觉分析技术的高速发展,基于深度学习的分类、检测等技术已经展现出相当优越的性能,图像应用的目标也不仅是满足人眼视觉的需求,更应考虑到机器视觉分析的质量和效率。因此,大数据时代下人机协同的图像应用对图像编解码系统提出了新的要求和挑战。
具体地,基于人机协同机制的图像应用有两个阶段:机器分析和人类决策。第一个阶段的目标是通过机器提供辅助人类后续判别的预筛选结果。考虑到系统资源的限制,前端设备采集到的图像应被压缩成一个低码率的数据流,满足在有限传输带宽下的实时传输,同时编码过程应具有较低的复杂度以节省计算能耗和运算时间。后端的机器分析算法能够基于这种轻量级的码流来提供分析结果,同时提供预览图像作为视觉反馈。如果检测到感兴趣目标,机器则对人发送提示信息。在第二阶段,根据机器提供的提示信息,人类利用预览图像或额外传输解码的高质量的图像进行观察,以判断其是否为真实的目标。因此,在人机混合机制对图像的两阶段处理流程中,存在三个需求:轻量化机器分析,预览图像生成和高质量图像重建。
在人机协同应用下,现有基于传统编码方案的两种实现框架,即压缩后分析(CTA)和分析后压缩(ATC),具有明显的局限性。在CTA框架下,首先在前端采用传统图像编码,而在后端,先对压缩数据流进行解码和重建,然后将机器分析算法应用于重建图像。然而,传统的图像编码方案侧重于在有限的码率下使人眼感知质量最优,然而从机器视觉质量的角度来看,这可能是高度次优的,因而基于重建图像的机器分析性能将受到影响。另外,压缩数据以码流的方式存储和传输,而现有的基于深度学习的机器分析任务需要在RGB图像上进行。因此必须要先解码重建才能执行后续处理,而解码将引入额外的处理时延,也需要额外的内存资源。
在ATC框架下,先对原始数据应用简单的机器分析算法,提取稀疏的描述特征,然后将该特征进行编码,作为除原始图像数据之外的额外信息进行传输。然而,这种预先提取的特征描述符往往只能适用于有限的应用场景,因为这些特征通常是专门针对特定的目标任务提取的。一旦分析任务改变,则必须获取额外的图像码流,进行解码重建,再执行分析算法。另外,由于特征码流是根据分析任务所提取的,因此仅基于特征码流是无法直接获得重建图像的。如果人类用户需要重建图像以用于观察,则需要额外传输一个完整的图像数据流,从而引入额外的传输开销和处理延迟。
发明内容
传统的图像编码方法将图像编码与图像分析任务看作两个独立的子任务,在人机协同领域下存在缺陷,本发明提供了一种面向资源约束下人机协同场景的深度学习图像编码方法。
本发明采用如下技术方案来实现的:
一种面向资源约束下人机协同场景的深度学习图像编码方法,包括以下步骤:
1)搭建面向人机协同场景的深度图像编码网络框架;
2)对于搭建好的深度图像编码网络框架,设置不同的损失函数权重参数,分步依次训练其中的可分析图像压缩网络和特征域分析网络、预览图像生成网络、特征残差压缩网络和高质量重建网络,获取满足不同压缩比的多个网络模型;
3)使用得到的网络模型对测试图片进行编码,评估压缩码流的分析质量和重建质量,并测试在资源约束的人机协同场景下的应用效率。
本发明进一步的改进在于,步骤1)的具体实现方法为:采用分层编码结构搭建深度图像编码网络框架,框架整体包括可视分析层和高质量重建层两个层次,由分析驱动的图像压缩模块、视觉驱动的特征残差压缩模块、可视化分析模块和高质量重建模块四个模块组成,其中共包含可分析图像压缩网络、特征域分析网络、预览图像生成网络、特征残差压缩网络、高质量重建网络五个不同的子网络;编码得到的分层压缩码流包含由分析驱动的图像压缩模块生成的可视分析层子码流和由视觉驱动的特征残差压缩模块生成的高质量重建层子码流。
本发明进一步的改进在于,步骤2)的具体实现方法如下:
201)设置损失权重参数
设置λ和μ两个初始的损失函数权重参数,其中λ控制可视分析层子码流的码率与机器分析质量的权重分配,μ控制高质量重建层子码流的码率与最终重建质量的权重分配;
202)训练可分析图像压缩网络和特征域分析网络
在上述步骤确定好权重参数λ后,使用损失函数对可分析图像压缩网络和特征域分析网络进行联合训练,其中/>表示输出向量与真实标签的交叉熵,采用信息熵I估计可视分析层子码流的压缩码率;
203)训练预览图像生成网络
在上述步骤得到可分析图像压缩网络和特征域分析网络的网络模型后,冻结其网络参数,使用损失函数Lp=d(x,p)单独对预览图像生成网络进行训练,最小化预览图像的重建损失;
204)训练特征残差压缩网络和高质量重建网络
在上述步骤得到可分析图像压缩网络、特征域分析网络和相应的预览图像生成网络的网络模型后,冻结这三个网络的参数,使用损失函数对特征残差压缩网络和高质量重建网络进行联合训练,其中第一项评估高质量图像的重建损失,第二项使用信息熵I估计高质量重建层子码流的压缩码率;
205)选取多种不同的λ和μ
根据设置的λ和μ,重复上述步骤,得到具有不同压缩比、不同分析质量、不同重建质量的多种深度图像编码网络模型,以满足不同的应用需求。
本发明进一步的改进在于,步骤3)的具体实现方法为:使用得到的多种网络模型在Kodak PhotoCD和ImageNet2012数据集上测试压缩码流的机器分析精度与速度、预览图像质量和高质量重建图像质量,并在能量有限和传输带宽有限的两种资源约束场景下,分别通过自适应传输和解码分层压缩码流,验证人机协同的应用效率。
本发明进一步的改进在于,可分析图像压缩网络是基于截断的MobilenetV2网络进行设计的,通过加入舍入层来权衡压缩网络的运算复杂度、输出特征图的稀疏性、机器分析质量和预览图像重建性能;在后端的可视化分析模块中,参考MobilenetV2的结构设计特征域分析网络,完成机器分析任务;预览图像生成网络采用与可分析图像压缩网络对称的结构,其中下采样卷积层被替换为上采样反卷积层、深度可分离卷积被替换为正常卷积层、ReLU6激活层被替换为PReLU激活层,完成预览图像可视化任务。
本发明进一步的改进在于,特征残差压缩网络采用了一种伪孪生网络结构,设计了两个具有相同架构而参数不同的变分自编码器,以分别提取预览图像与高质量图像的紧凑的特征表征,并修正基于分析特征重建的预览图像与面向人眼感知的高质量图像之间的特征空间差异,取两者最终输出特征的残差作为高质量重建层子码流。
本发明至少具有如下有益的技术效果:
本发明提供了一种面向资源约束下人机协同场景的深度学习图像编码方法,弥补了基于传统编码方案的实现框架中机器视觉质量低、传输开销和处理延迟高的问题。具体地,提出了一种深度图像编码网络框架,将编码与分析两个子任务融合处理,能够生成包含可视分析层子码流和高质量重建层子码流的分层压缩码流,通过自适应传输和解码相应的子码流,能够满足实时高精度机器分析、实时预览图像可视化和高质量图像重建的三种任务需求。在人机协同场景下,本发明能够在传输带宽有限和能量有限的条件下,在保证分析精度的同时,降低分析时延和传输开销。
进一步,本发明采用了基于深度学习的图像压缩技术,将图片从像素域转换到更加紧凑的表征特征域,相比于传统方法,可以以数据驱动的方式提供更加高效的像素域到特征域的转换矩阵,提高压缩效率;深度特征域的压缩码流也能够在不进行图像重建的情况下,直接被输入给机器分析网络,有效降低机器分析任务的处理时间。
进一步,本发明基于MobileNetV2设计可视分析层的主干网络,通过引入舍入层使得压缩网络的运算复杂度、输出特征图的稀疏性、机器分析质量和预览图像重建性能得到权衡,有效控制了图像压缩网络的计算复杂度和压缩效率,并将机器视觉质量引入了图像编码器的设计准则中,提高了压缩后图像的分析精度。
进一步,在构建特征残差压缩网络时,使用两个伪孪生的变分自编码器VAE将预览图像与原始图像变换到特征域,先对两者的特征空间差异进行了修正,再取特征域残差,能够获取更紧凑的残差特征图,使信息熵更小,降低传输码率。
进一步,通过设置多种损失函数权重参数从而控制压缩码率,得到能够实现不同分析质量和图像重建质量的多种网络模型参数,满足不同带宽条件和应用需求。
进一步,本发明在人机协同场景下,能够对海量的图片进行快速的机器分析,提取感兴趣图片;然后对感兴趣图片重建高质量版本,进行人工决策,提高图像分析的速度与精度。同时,由于只需传输感兴趣图片的高质量重建码流,也降低了平均码率。
综上所述,本发明面向传统图像编码方法在人机协同场景下的不足,对原始图像提取面向分析的中间特征图作为可视分析层,完成预览图像可视化与实时分析任务;对于一部分感兴趣的图片,再发送另一部分码流作为补充,在预览图像的基础上恢复其高质量版本。这样,本发明在整体水平上能够大大降低传输码率,而且对于人工需要的图片能够高效地恢复出高质量的图像,在资源受限、人机协同的场景中具有良好的应用价值。
附图说明
图1:本发明一种面向资源约束下人机协同场景的深度学习图像编码方法的流程图。
图2:本发明设计的具有分层编码结构的深度图像编码网络框架图。
图3:本发明使用的神经网络结构图,其中图3(a)~(e)分别是可分析图像压缩网络、特征域分析网络、预览图像生成网络、特征域残差压缩网络、高质量重建网络的网络结构图。
图4:本发明在权重参数λ=0.06时的预览图像重构示例。
图5:本发明与传统算法在不同码率下的分析性能比较图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
如图1所示,本发明提供了一种面向资源约束下人机协同场景的深度学习图像编码方法,包括从网络框架搭建、编解码模型分级训练、调整权重多种模型训练、模型性能评估的全流程。
在所述的步骤1)中,完成了对深度图像编码网络框架的搭建,图2展示了本发明的网络框架,整体分为可视分析层与高质量重建层两部分。在可视分析层中,在系统前端,分析驱动的图像压缩模块用来生成低复杂度、高压缩率的可视分析层子码流;在系统后端,将接收到的码流作为输入,经过可视分析模块,提供分析结果与相应的预览图像。在高质量重建层中,在系统前端经过特征残差压缩模块生成用于重建高质量图片的码流;在系统后端利用预览图像和这部分码流经过高质量重建模块共同生成高质量图片,以在不传输冗余信息的前提下,得到高清图片。
整个系统中包含五个网络,分别是:可分析图像压缩网络、特征域分析网络、预览图像生成网络、特征残差压缩网络、高质量重建网络,具体见图3。
图3.(a)中的可分析图像压缩网络由1个卷积层(Conv2d)、6个瓶颈块(Bottleneck)和一个舍入层(Rounding)组成。Bottleneck表示MobilenetV2中的反向残差块,为一个由一系列1×1卷积、深度可分离卷积和线性1×1卷积组成的序列,每层之间使用ReLU6激活。宽度乘数设置为1.4。网络结构中的每个块下的数字×n表示了描述了重复n次的相同模块序列。在每个bottleneck内部,第一层卷积具有长度为s的步长,而剩余的层步长均为1。在整个网络中,总共有3个下采样操作,步长均为2,因此输入的大小为h×w×3的RGB三通道图像x将被转换为一个大小为h/8×w/8×48的可视分析层特征最后,通过一个舍入层将特征压缩为离散的/>以保证其稀疏性。然后/>被一个熵编码器编码成码流,该码流即构成了可视分析层子码流。
注意到,可视分析层子码流是由经过量化的一组面向分析的中间特征图编码的。因此,机器分析算法可以直接基于这样的特征图进行,而不需要重建RGB图像。因此本发明提出了图3.(b)所示的特征域分析网络。首先,将中间特征图输入给共11个Bottleneck,然后采用步长为1的卷积层进行降维。最后采用平均池化层和一个卷积层来得到最终的分类向量在前端实现的可分析图像压缩网络和该特征域分析网络共同组成了一个类似于Mobilenetv2的网络架构,而中间的舍入层平衡了整个网络的压缩比和分析性能。
在图3.(c)所示的预览图像生成网络中,本发明在可分析图像压缩网络的基础上,提出了一种近似对称的网络结构。在深度图像编码中,对称结构有助于从压缩后的特征图重建原始图像。具体地,将可分析图像压缩网络中的下采样卷积层替换为上采样卷积层来恢复维数。同时,将Bottleneck中的深度可分离卷积替换为普通卷积。ReLU6激活替换为PReLU激活。因此,UpBottleneck块遵循Bottleneck的架构,而用上采样代替下采样,用普通卷积代替深度卷积,用PReLU代替ReLU6,可以有效地重建预览图像p。
基于恢复得到的预览图像,本发明设计了一种特征残差压缩网络来提取输入图像与其预览图像之间的残差信息,以恢复其在特征空间上的差异,如图3.(d)所示。特征残差压缩网络包含两个具有相同架构的VAE来分别提取预览图像和输入图像的表征特征图。该编码网络由4个卷积层和3个GDN层组成。其中,GDN是一种非线性变换。在神经网络中将其作为非线性激活层时有利于基于深度的图像压缩任务。将卷积层的通道设置为192,输出表征特征图的通道设置为320。一个VAE深度网络架构及其通过训练得到的相应的模型等价于提供了一种特征变换矩阵,其输出特征图体现了基于该变换的输入像素数值分布。因此,与直接的像素级残差压缩相比,表征特征图可以更紧凑,实现更高的压缩效率。
给定使用可视分析层子码流和其相应的生成网络得到的预览图像,高质量重建网络的结构如图3(e)所示。预览图像的表征特征图可以通过编码器Ep提取,其中Ep的网络结构和相应参数与前端实现的特征域残差压缩模块完全相同。因此,/>可以在后端生成且不会引入任何失真。那么原始输入图像x的表征特征图可以近似为/>即/>和量化后的残差特征图/>之和。/>中的量化误差导致了/>中的失真。最后,通过解码器网络,利用/>重构出高质量的图像。解码器D采用与Ep对称的网络结构。四个步长为2的反卷积层和三个iGDN层组成解码器网络。具体地,与编码器相比,Ep中相应的卷积被反卷积代替,GDN被iGDN代替。卷积宽度设置为192,而最后一层的输出通道宽度为3以恢复RGB通道的重建图像。
在所述的步骤2)中,将ImageNet2012数据集中的图片裁剪为224×224×3,设置初始的损失函数权重参数λ=1和μ=10,完成对系统模型的分步训练。
首先对可分析图像压缩网络与特征域分析网络联合训练,使用RMSProp优化器,学习率设置为10-4,考虑压缩码率对系统模型的限制,训练优化的目标函数为:
其中表示输出向量与真实标签的交叉熵,采用信息熵估计比特率,权重参数λ用于控制压缩码率与分析精度的权重。
训练好上述两个模型后,冻结其模型参数,采用Adam优化器进行预览图像生成网络的训练。学习率固定为10-5,定义预览图像生成网络的目标函数进行优化训练:
Lp=d(x,p)
函数表示两幅图片的L2误差,对于可视分析层码流,机器分析的准确性具有更高优先级,预览结果只是提供辅助性的视觉反馈,因此使用这种损失函数是合理的。
最后,对高质量重建层进行训练。训练时采用另一个Adam优化器,利用训练好的预览图像生成网络生成预览图像作为特征残差压缩网络的输入,端到端地训练特征残差压缩网络和高质量重建网络,损失函数为:
和第一种损失函数相似,第一项比较图像差异,计算重建图片与原始图片的L2误差,第二项使用比特率近似信息熵,参数μ用来控制码率与图像失真之间的权重。
考虑到信道多样性以及实际应用中图片质量要求的多样性,在λ的取值范围[0.1,1]和μ的取值范围[10,100]内,选取多种不同的码率权重参数λ和μ组合,重复上述训练,得到多种网络模型。
在所述的步骤3)中,通过测试集对模型进行性能评估。本发明是针对资源约束场景开发的人机协同深度学习图像编码方法,通过对比CTA框架中三种传统的图像编码方法JPEG、JPEG2000、BPG,分别评估了本发明在分析、预览、高质量重建方面的表现,最后评估了本发明在资源受限场景下的应用效率。
首先评估的是系统在机器分析方面的性能,使用的是ImageNet数据集中的验证集,包含50000张测试图片,分属于1000类。由于分析结果只通过可视分析层子码流处理得到,则系统的机器分析精度只与该层码率相关,因此分别测试各种方法在不同可视分析层码率下的分析精度,结果见图5,可以看到,本发明在Top1、Top5的精确度均有提升,而且在低码率情况下提升更大。此外,还测试了各个方法解码并分析一张图片需要的平均时间,用来代表后端接收到码流后得到结果的总处理时间,结果见表1,可以看到本发明的处理时间显著少于传统方法。说明本发明中的可视分析层子码流是专门为机器分析任务设计的,同时提高了机器分析的精确度和处理速度。
表1各方法解码并分析一张图片的平均处理时间比较
之后评估的是本发明在预览方面的性能。使用被广泛采用的Kodak PhotoCD无损数据集进行预览图像的重构,数据集中的图片尺寸为768×512×3,使用PSNR、MS-SSIM作为图像质量指标,结果见表2。为了直观地呈现预览图像的感知质量,图4展示了权重参数λ=0.06时的预览图像重构示例,可以看到输入图像的大体外观得到了恢复。由于分析和重构的优化目标不同,可视分析层的表征特征图是为机器分析任务而设计的,因此不可避免地会产生一些失真。然而,通常提供预览图像的分辨率较小,大部分细节信息的失真会被人类的视觉系统所忽略,因此这些预览的内容是可读的。
表2不同权重参数下分析码流码率以及预览图像质量变化
λ | Rate[bpp] | PSNR[dB] | MS-SSIM |
0.01 | 0.16 | 14.27 | 0.4748 |
0.05 | 0.32 | 16.08 | 0.5960 |
0.10 | 0.48 | 17.65 | 0.6897 |
0.15 | 0.68 | 17.56 | 0.7045 |
此外,测试了预览图像的语义保留能力,图像预览的目的是让用户对输入的图像内容有一个大致的了解;如果预览会引起误解,它们的价值就会降低,根据Google-AI的说法,机器分析可以看作人类视觉能力的延申,图片经过分类网络,语义也表现在分类向量中。通过计算原始图片与预览图像分类向量的L2误差,判定预览图像的语义变化。另外测试了预览图像分类结果与原始图像分类结果之间的召回率,以说明语义信息保留的程度。对比算法是Google-AI中的预训练分类器,Inception ResNet v2,具体结果见表3,可以看到本发明的L2误差明显更低,召回率更高。
表3两种方法在预览图像上语义保留效果比较
接下来评估的是本发明在高质量重建方面的性能。由于本发明训练了多种不同的网络模型,为了保证本发明和传统图像编码方法的公平比较,图片性能将在ImageNet 2012验证集上以一致的目标精度水平进行评估,结果见表4,可以看到在相同分类精度时,高质量重建层子码流的码率越大,重建图片的质量越高。即使不考虑分析精度的提高,本发明的方法在MS-SSIM方面的性能也优于JPEG2000。同时,在不同的目标精度下,通过提供不同质量的重建图像可以保持一致的总码率。在带宽受限的环境下,两个子码流之间可以实现不同的码率分配策略,以满足不同的分析和重构需求。
表4各方法在不同码流下图片重建效果对比
最后评估了本发明在资源有限的人机协同场景下的应用效率,分别针对带宽有限、能量有限的场景进行了测试。
一方面,针对带宽受限的场景,从ImageNet测试集中选择10000张图片,选取4个类别定义为感兴趣图片,对所有的图片进行压缩传输,在系统后端完成解码与分析,为了量化评估传输延迟,假设传输比特率为200Mbps。选择上述CTA框架下的三种编解码方法JPEG、JPEG2000、BPG作比较,分别进行实验,各方法压缩传输的文件总大小、传输延时、分析性能见表5,可以看到本发明传输延时仅有0.953s,而传统方法最小的传输延迟也有3.605s,但是这些方法的分析精度却基本相同。考虑到本发明的分级传输框架,系统后端机器分析任务只依赖可视分析层子码流完成,仅需要0.941s的时延,而对于142张感兴趣图片仅需要0.012s来传输高质量重建层子码流,以得到高质量图片来提供给后端人员进行精确判断。综合来看,本发明可以传输更少的压缩码率达到与传统方法相同的分析精度,在保证延时要求的前提下,更适合带宽受限的场景。
表5各方法在带宽性能方面的比较
另一方面,针对能量受限的场景,与带宽受限场景设置类似,从ImageNet测试集中选择5000张图片,选取4个类别定义为感兴趣图片,对所有图片进行压缩传输。假定前端设备通信模块的发射功率P是23dBm,最大传输码率C为500Mbps,传输数据的大小F可以实验获得,由此可以计算传输功耗:
同样使用上述三种传统方法完成对比实验,在一块CPU(Intel Xeon CPU E5-2630v4@2.20GHz,256GB of RAM)上完成编码任务,用编码时间近似衡量前端设备编码的能量损耗,结果见表6。可以看到,针对可视分析层子码流,本发明需要的平均编码时间为0.0382s;对于机器分析得到的259张感兴趣图片,平均每张图片需要0.2876s来编码高质量码流。然而从总编码时间来看,本发明所需的265s是最少的。此外,本发明的传输功耗是0.0464J,在各种方法中也是最少的,但是分析精度大体相同。综合来看,在保证精确度的前提下,本发明的能量损耗最少,更适合能量受限的场景。
表6各方法在能量损耗性能方面的对比
/>
Claims (4)
1.一种面向资源约束下人机协同场景的深度学习图像编码方法,其特征在于,包括以下步骤:
1)搭建面向人机协同场景的深度图像编码网络框架;具体实现方法为:采用分层编码结构搭建深度图像编码网络框架,框架整体包括可视分析层和高质量重建层两个层次,由分析驱动的图像压缩模块、视觉驱动的特征残差压缩模块、可视化分析模块和高质量重建模块四个模块组成,其中共包含可分析图像压缩网络、特征域分析网络、预览图像生成网络、特征残差压缩网络、高质量重建网络五个不同的子网络;编码得到的分层压缩码流包含由分析驱动的图像压缩模块生成的可视分析层子码流和由视觉驱动的特征残差压缩模块生成的高质量重建层子码流;
2)对于搭建好的深度图像编码网络框架,设置不同的损失函数权重参数,分步依次训练其中的可分析图像压缩网络和特征域分析网络、预览图像生成网络、特征残差压缩网络和高质量重建网络,获取满足不同压缩比的多个网络模型;具体实现方法如下:
201)设置损失权重参数
设置λ和μ两个初始的损失函数权重参数,其中λ控制可视分析层子码流的码率与机器分析质量的权重分配,μ控制高质量重建层子码流的码率与最终重建质量的权重分配;
202)训练可分析图像压缩网络和特征域分析网络
在上述步骤确定好权重参数λ后,使用损失函数对可分析图像压缩网络和特征域分析网络进行联合训练,其中/>表示输出向量与真实标签的交叉熵,采用信息熵I估计可视分析层子码流的压缩码率;
203)训练预览图像生成网络
在上述步骤得到可分析图像压缩网络和特征域分析网络的网络模型后,冻结其网络参数,使用损失函数Lp=d(x,p)单独对预览图像生成网络进行训练,最小化预览图像的重建损失;
204)训练特征残差压缩网络和高质量重建网络
在上述步骤得到可分析图像压缩网络、特征域分析网络和相应的预览图像生成网络的网络模型后,冻结这三个网络的参数,使用损失函数对特征残差压缩网络和高质量重建网络进行联合训练,其中第一项评估高质量图像的重建损失,第二项使用信息熵I估计高质量重建层子码流的压缩码率;
205)选取多种不同的λ和μ
根据设置的λ和μ,重复上述步骤,得到具有不同压缩比、不同分析质量、不同重建质量的多种深度图像编码网络模型,以满足不同的应用需求;
3)使用得到的网络模型对测试图片进行编码,评估压缩码流的分析质量和重建质量,并测试在资源约束的人机协同场景下的应用效率。
2.根据权利要求1所述的一种面向资源约束下人机协同场景的深度学习图像编码方法,其特征在于,步骤3)的具体实现方法为:使用得到的多种网络模型在Kodak PhotoCD和ImageNet2012数据集上测试压缩码流的机器分析精度与速度、预览图像质量和高质量重建图像质量,并在能量有限和传输带宽有限的两种资源约束场景下,分别通过自适应传输和解码分层压缩码流,验证人机协同的应用效率。
3.根据权利要求1所述的一种面向资源约束下人机协同场景的深度学习图像编码方法,其特征在于,可分析图像压缩网络是基于截断的MobilenetV2网络进行设计的,通过加入舍入层来权衡压缩网络的运算复杂度、输出特征图的稀疏性、机器分析质量和预览图像重建性能;在后端的可视化分析模块中,参考MobilenetV2的结构设计特征域分析网络,完成机器分析任务;预览图像生成网络采用与可分析图像压缩网络对称的结构,其中下采样卷积层被替换为上采样反卷积层、深度可分离卷积被替换为正常卷积层、ReLU6激活层被替换为PReLU激活层,完成预览图像可视化任务。
4.根据权利要求1所述的一种面向资源约束下人机协同场景的深度学习图像编码方法,其特征在于,特征残差压缩网络采用了一种伪孪生网络结构,设计了两个具有相同架构而参数不同的变分自编码器,以分别提取预览图像与高质量图像的紧凑的特征表征,并修正基于分析特征重建的预览图像与面向人眼感知的高质量图像之间的特征空间差异,取两者最终输出特征的残差作为高质量重建层子码流。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111064444.8A CN113822954B (zh) | 2021-09-10 | 2021-09-10 | 一种面向资源约束下人机协同场景的深度学习图像编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111064444.8A CN113822954B (zh) | 2021-09-10 | 2021-09-10 | 一种面向资源约束下人机协同场景的深度学习图像编码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113822954A CN113822954A (zh) | 2021-12-21 |
CN113822954B true CN113822954B (zh) | 2024-04-02 |
Family
ID=78921968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111064444.8A Active CN113822954B (zh) | 2021-09-10 | 2021-09-10 | 一种面向资源约束下人机协同场景的深度学习图像编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822954B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115115890B (zh) * | 2022-07-17 | 2024-03-19 | 西北工业大学 | 一种基于自动化机器学习的轻量化高速公路团雾分类方法 |
CN117649387A (zh) * | 2023-11-30 | 2024-03-05 | 中科海拓(无锡)科技有限公司 | 一种适用于带有表面复杂纹理物体的缺陷检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325794A (zh) * | 2020-02-23 | 2020-06-23 | 哈尔滨工业大学 | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 |
CN111968044A (zh) * | 2020-07-16 | 2020-11-20 | 中国科学院沈阳自动化研究所 | 基于Retinex和深度学习的低照度图像增强方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10332639B2 (en) * | 2017-05-02 | 2019-06-25 | James Paul Smurro | Cognitive collaboration with neurosynaptic imaging networks, augmented medical intelligence and cybernetic workflow streams |
-
2021
- 2021-09-10 CN CN202111064444.8A patent/CN113822954B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325794A (zh) * | 2020-02-23 | 2020-06-23 | 哈尔滨工业大学 | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 |
CN111968044A (zh) * | 2020-07-16 | 2020-11-20 | 中国科学院沈阳自动化研究所 | 基于Retinex和深度学习的低照度图像增强方法 |
Non-Patent Citations (1)
Title |
---|
姚桐 ; 于雪媛 ; 王越 ; 唐云龙 ; .改进SSD无人机航拍小目标识别.舰船电子工程.2020,(09),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113822954A (zh) | 2021-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110139109B (zh) | 图像的编码方法及相应终端 | |
CN113822954B (zh) | 一种面向资源约束下人机协同场景的深度学习图像编码方法 | |
CN110225341A (zh) | 一种任务驱动的码流结构化图像编码方法 | |
CN111709896B (zh) | 一种将ldr视频映射为hdr视频的方法和设备 | |
CN107690070B (zh) | 基于无反馈码率控制的分布式视频压缩感知系统及方法 | |
CN110852964A (zh) | 一种基于深度学习的图像比特增强方法 | |
CN113822147B (zh) | 一种协同机器语义任务的深度压缩方法 | |
CN112004085A (zh) | 一种场景语义分割结果指导下的视频编码方法 | |
CN113554720A (zh) | 一种基于多方向卷积神经网络的多光谱图像压缩方法及系统 | |
CN114445292A (zh) | 一种多阶段渐进式水下图像增强方法 | |
CN108900838A (zh) | 一种基于hdr-vdp-2失真准则的率失真优化方法 | |
CN112734867A (zh) | 一种基于空谱特征分离提取的多光谱图像压缩方法及系统 | |
CN111667406B (zh) | 一种基于时域相关性的视频图像超分辨率重建方法 | |
CN115955563A (zh) | 一种星地联合多光谱遥感影像压缩方法及系统 | |
CN110677644B (zh) | 一种视频编码、解码方法及视频编码帧内预测器 | |
CN114494569A (zh) | 基于轻量级神经网络和残差流式传输的云渲染方法和装置 | |
CN113938254A (zh) | 一种基于注意力机制的分层信源信道联合编码传输系统及其传输方法 | |
CN116896638A (zh) | 一种面向输电运检场景的数据压缩编码技术 | |
CN116416216A (zh) | 基于自监督特征提取的质量评价方法、存储介质及终端 | |
CN116309171A (zh) | 一种输电线路监控图像增强方法和装置 | |
CN114549673B (zh) | 一种基于学习频域信息预处理图像的图像压缩方法 | |
Huang et al. | Multi-channel multi-loss deep learning based compression model for color images | |
CN115460415A (zh) | 一种面向人机混合视觉的视频压缩方法 | |
CN113194312B (zh) | 结合视觉显著性的行星科学探测图像自适应量化编码系统 | |
CN117615148B (zh) | 一种基于多尺度框架的端到端特征图分层压缩方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |