CN110290387B - 一种基于生成模型的图像压缩方法 - Google Patents
一种基于生成模型的图像压缩方法 Download PDFInfo
- Publication number
- CN110290387B CN110290387B CN201910413811.7A CN201910413811A CN110290387B CN 110290387 B CN110290387 B CN 110290387B CN 201910413811 A CN201910413811 A CN 201910413811A CN 110290387 B CN110290387 B CN 110290387B
- Authority
- CN
- China
- Prior art keywords
- image
- bit stream
- compression
- network
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/149—Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/48—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Abstract
本发明公开了一种基于生成模型的图像压缩方法及系统,将目标图像输入变分自动编码器,在所述变分自动编码器的输出端得到隐特征编码比特流;将目标图像经形状提取得到形状图像,所述形状图像经边缘下采样和有损压缩后,得到压缩比特流;将所述隐特征编码比特流以及压缩比特流进行解码还原,并同时输入到生成式对抗网络中,得到目标重建图像。本发明提出的方法能使得图像在压缩时具有视觉特征可分析性,以特征流取代原始图像进行传输极大的节省了码率,生成模型的应用提升了主观质量。与传统编码器相比,提出方法能在更低的码率下得到更高的压缩重建主观质量。
Description
技术领域
本发明属于数字信号处理领域,用于图像压缩方法。主要涉及一套基于生成模型与边缘图像的图像压缩技术框架。
背景技术
生成模型是使用无监督学习方法学习数据分布的有效方式,它对联合概率进行建模,从统计的角度表示数据分布情况。近年流行的生成模型主要分为三种方法:变分自动编码器(Variational autoencoder,VAE)、生成式对抗网络(Generative Adversarial Nets,GAN)和自回归模型(Autoregressive Model,AR)。
VAE的网络结包括编码网络和解码网络。编码网络可以将输入的高维数据x编码为低维的隐编码z,其中
z~Q(z|x)=N(0,I)
其解码网络则将z通过p(x|z)实现图像重建。
GAN是主要用于学习复杂数据分布数据模型,成功的应用于图像在不同域之间的转化,如用于从草图到图像的合成。GAN网络的生成器可以实现类解码器的作用。传统VAE-GAN将VAE编码得到的隐编码作为GAN网络的输入条件,用成对的数据集进行端到端的训练,可以实现原图到隐编码,再从隐编码与另一特征图实现图像重建的过程。
超分辨率技术对图像视频压缩有着重要的意义,在对传输存储要求极高时,可以传输前预先压缩,传输完毕后再由解码端通过超分辨率重建技术复原出原始图像序列,极大减少存储所需空间及传输所需带宽。常见的超分辨重建技术主要分为基于插值、基于重构、基于学习三种。基于深度学习的超分辨率重建技术旨在利用多层非线性变换提取数据高层抽象特征,得到低分辨率与高分辨率之间的映射关系,如拥有三层卷积网络的SRCNN,利用卷积残差网络的EDSR。DBPN设计了迭代式上下采样(iterative up anddownsampling)达到了现有技术的水平。
发明内容
本发明的目的是通过以下技术方案实现的。
本发明要解决的技术问题是如何利用视觉特征提升图像压缩性能与压缩重建的主观质量。针对这一问题,本发明提出了一个基于生成模型的新型的图像压缩框架。利用生成方法和图像处理技术,将原图转换为一个低维的特征隐编码与对应的边缘图像,并采取了将下采样与屏幕视频编码器结合实现边缘图像的极致压缩,并用超分辨率模型与生成对抗网络保证了重建质量。
根据本发明的一个方面,提供了一种基于生成模型的图像压缩方法,包括如下步骤:将目标图像输入变分自动编码器,在所述变分自动编码器的输出端得到隐特征编码比特流;将目标图像经形状提取得到形状图像,所述形状图像经下采样和有损压缩后,得到压缩比特流;将所述隐特征编码比特流以及压缩比特流进行解码还原,并同时输入到生成式对抗网络中,得到目标重建图像。
优选的,进一步包括:所述压缩比特流解码还原后进行上采样,然后再输入到生成式对抗网络中。
优选的,所述形状图像包括以下图像中的一种:边缘图像、草图、轮廓图。
优选的,所述形状提取的方法为以下方法中的一种:基于HED模型的方法或者基于边缘提取方法。
优选的,所述隐特征编码比特流的长度根据图像颜色纹理信息复杂程度确定。
优选的,所述有损压缩为HEVC-SCC压缩。
优选的,所述下采样的方法与倍数根据图像重建时使用的超分辨率模型确定。
优选的,所述超分辨率模型为DBPN超分辨率模型,训练时需根据形状结构特征来确定目标函数,所述解码时对所述形状图像选择使用BCE函数来进行重建。
优选的,所述DBPN超分辨率模型的损失函数为:
其中,xi表示输入的训练数据,yi为对应的真实标签,σ(xi)表示模型输出数据。
优选的,所述变分自动编码器为包括5个残差块的残差网络,所述生成式对抗网络包括生成器和鉴别器,所述生成器采用U-Net网络,鉴别器采用patchGAN鉴别器。
本发明的优点在于:本发明可以集成到图像压缩传输系统中,重建图像具有特征可分析性,其极致压缩也可以显著提高压缩性能,节约传输带宽。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1:本发明基于生成模型的图像压缩方法及系统原理示意图;
图2:本发明的cVAE-GAN网络结构图;
图3:本发明的生成网络重建效果图;
图4:本发明的4倍DBPN超分辨模型使用不同损失函数结果对比示意图;
图5:本发明的不同方式图像压缩指数与主观质量对比示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例公开了一种基于生成模型的图像压缩框架,目的在于解决当前传统编码器在极端压缩时表现出来的重建图像主观质量不佳的问题。该方法通过一、利用深度学习与图像处理技术,获取在原图像对应的边缘图像。二、通过下采样与屏幕视频编码器对边缘图像实现极致压缩。三、将原图像输入到变分自动编码器中得到表达图像颜色纹理特征的隐编码。四、使用超分辨模型重建边缘图,并与隐编码一同作为生成器的输入,得到压缩重建图像。
如图1所示,在本发明的压缩框架中,传输内容是两个分离的比特流。一个是由VAE输出的隐特征编码,另一个是边缘图像经由传统编码器编码得到的比特流。传输完成后,在接收端将两个流解码还原,边缘图像作为边缘形状特征、隐编码作为颜色纹理特征输入到GAN的生成网络中,得到目标重建图像。在具体方案中为压缩任务设计改进的cVAE-GAN模型以及为进一步节省码率而设计改进的超分辨率模型如下。
1、Improved cVAE-GAN网络
本发明设计改进了cVAE-GAN网络作为预训练网络,网络的结构如图2所示。本发明采用端到端的训练方式,目标是得到与输入图像高度相似的输出图像。对于输入图像A,编码器将图像编码成一个潜在的分布z,
z~Enc(A)=Q(z|A)
输入图像A对应的边缘图像为B,训练时需要提供成对的数据集(A,B)。GAN网络由生成器和鉴别器组成,B与z作为GAN网络生成器的输入,生成器完成(B,z)到A的映射。GAN网络的目标是通过训练使得鉴别器能够成为辨别真实图像与生成图像的最佳分类器,同时鼓励生成器产生的图像能尽可能的符合真实的数据分布。VAE为GAN提供了隐编码z作为输入,因此GAN网络的目标是最大值最小化函数如下:
为了提高压缩前后的客观与主观一致性,目标函数中加入了生成图像与原图的L1损失:
隐编码z是对E(A)的结果采样得到的,我们使得E(A)具有高斯分布,以增强训练的稳定性与压缩的自适应性,实施方案时可以使用符合高斯分布的新特征数据作对颜色纹理的调整。目标函数加入KL散度来约束隐编码的分布:
其中,KL散度的公式为:
从VAE对原始图像A编码结果采样得到的z出发,经过生成器得到了新的图像此时A与应具有高度的相似性,使用同一编码器对其编码得到的颜色纹理特征编码也应该基本一致,即为了使隐编码z能够尽可能准确的表达给定图像的颜色和纹理特征并且能被网络有效使用,本发明针对隐编码设计了新的损失项:
该损失项使训练得到的隐编码能够与特定的图像内容具有一一对应的关系,即给定图像能得到该图的特征编码,给定相似的特征编码,就能得到相应的特定图像,使得生成方法更好的应用于压缩与解压缩。
用λ表达各项在总损失函数中的系数,整个网络的目标函数为:
VAE部分只保留编码器,使用了有5个残差块的残差网络。生成器使用U-Net网络,鉴别器采用了patchGAN鉴别器的结构。由VAE对图像编码得到的隐编码z转化为一个三维的张量再作为输入联接到生成器的输入端。对于特定的应用,隐编码的维度需要根据图像特征与语义复杂程度来判定。对于本发明中的应用实例edge2shoes与edge2handbags数据集,最佳特征表示维度为8。
本发明网络应用实例的重建训练效果如图3所示。
2、下采样与超分辨率网络
在本发明中,图像压缩后表现为颜色纹理特征隐编码与边缘图两个部分,主要的传输代价来自对边缘图的传输。为达到节省码率的目的,边缘图的占用空间需要进一步的被压缩。本发明中具体为对边缘图进行高倍下采样作为传统编码器压缩的预处理环节,在接收端再使用超分辨模型进行边缘图重建。方案实例中采用了目前性能最好的DBPN(DeepBack-Projection Networks)超分辨率模型为基础,并改进其损失函数,使其适用于本发明的压缩框架。针对边缘图像素的稀疏性与二值化特征,本发明采用二值交叉熵取代原L1函数作为模型的损失函数:
其中,xi表示输入的训练数据,yi为对应的真实标签,σ(xi)表示模型输出数据。使用BCE Loss有效的重建了边缘图像,本发明实例中应用了4倍上采样,边缘图重建效果如图4所示。
3、应用实施方案
本发明中的方案应用需要两个阶段:预训练阶段与应用阶段。预训练时需要准备成对的数据集,包括原图与对应的边缘图像。对选定的图像集,对其进行边缘提取从而制作对应的边缘图像集。在本发明中选用Holistically-Nested Edge Detection(HED)网络提取边缘并用去除小联通分量算法处理得到。训练Improved cVAE-GAN网络与下采样与超分辨率网络至最优。在应用阶段,解耦训练好的网络模型,颜色纹理特征隐编码由编码器编码得到,边缘图经下采样与传统编码器实现压缩,本实例中采用HEVC-HM有损压缩边缘图。传输到接收端后,首先用训练好的超分辨模型重建边缘图,再将隐编码与边缘图输入生成器,实现原始图像的压缩重建,从而实现整个压缩、传输、解压缩的过程。
本发明在压缩为极低码率时,压缩性能在节省码率与主观质量两个方面与传统编码器如JPEG,JPEG2000,HEVC相比具有明显的优越性,对比效果如图5所示。
可见,本发明提出的方法能使得图像在压缩时具有视觉特征可分析性,以特征流取代原始图像进行传输极大的节省了码率,生成模型的应用提升了主观质量。与传统编码器相比,提出方法能在更低的码率下得到更高的压缩重建主观质量。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (4)
1.一种基于生成模型的图像压缩方法,其特征在于,包括如下步骤:
将目标图像输入变分自动编码器,在所述变分自动编码器的输出端得到隐特征编码比特流;
将目标图像经边缘提取得到边缘图像,所述边缘图像经下采样和有损压缩后,得到压缩比特流;
将所述隐特征编码比特流以及压缩比特流进行解码还原,并同时输入到生成式对抗网络中,得到目标重建图像。
2.根据权利要求1所述的方法,其特征在于,进一步包括:
所述压缩比特流解码还原后进行上采样,然后再输入到生成式对抗网络中。
3.根据权利要求1所述的方法,其特征在于,
所述有损压缩为HEVC-SCC压缩。
4.根据权利要求1所述的方法,其特征在于,
所述变分自动编码器为包括5个残差块的残差网络,所述生成式对抗网络包括生成器和鉴别器,所述生成器采用U-Net网络,鉴别器采用patchGAN鉴别器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910413811.7A CN110290387B (zh) | 2019-05-17 | 2019-05-17 | 一种基于生成模型的图像压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910413811.7A CN110290387B (zh) | 2019-05-17 | 2019-05-17 | 一种基于生成模型的图像压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110290387A CN110290387A (zh) | 2019-09-27 |
CN110290387B true CN110290387B (zh) | 2021-05-04 |
Family
ID=68002032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910413811.7A Active CN110290387B (zh) | 2019-05-17 | 2019-05-17 | 一种基于生成模型的图像压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110290387B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930337B (zh) * | 2019-11-29 | 2022-05-31 | 北京理工大学 | 一种基于深度学习的医学影像增强方法 |
CN111104997B (zh) * | 2019-12-25 | 2023-05-23 | 青岛创新奇智科技集团股份有限公司 | 一种基于深度学习的商品二维码生成方法及系统 |
KR102346705B1 (ko) * | 2020-02-24 | 2022-01-03 | 군산대학교산학협력단 | 이미지 데이터베이스 생성 방법 및 이미지 데이터 검색 방법 |
CN111640075A (zh) * | 2020-05-23 | 2020-09-08 | 西北工业大学 | 一种基于生成对抗网络的水下图像去遮挡方法 |
SG10202005064VA (en) * | 2020-05-29 | 2021-12-30 | Yitu Pte Ltd | A decoder training method, a high-resolution face image generation method, a device and a computer device |
CN112258486B (zh) * | 2020-10-28 | 2023-04-07 | 汕头大学 | 基于进化神经架构搜索的眼底图像视网膜血管分割方法 |
CN114245126B (zh) * | 2021-11-26 | 2022-10-14 | 电子科技大学 | 一种纹理协同的深度特征图压缩方法 |
CN116095183A (zh) * | 2022-03-14 | 2023-05-09 | 华为技术有限公司 | 一种数据压缩方法以及相关设备 |
CN115052147B (zh) * | 2022-04-26 | 2023-04-18 | 中国传媒大学 | 基于生成模型的人体视频压缩方法、系统 |
CN115860054B (zh) * | 2022-07-21 | 2023-09-26 | 广州工商学院 | 基于生成对抗网络的稀疏码本多址编解码系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107123151A (zh) * | 2017-04-28 | 2017-09-01 | 深圳市唯特视科技有限公司 | 一种基于变分自动编码器和生成对抗网络的图像转化方法 |
JP6318211B2 (ja) * | 2016-10-03 | 2018-04-25 | 株式会社Preferred Networks | データ圧縮装置、データ再現装置、データ圧縮方法、データ再現方法及びデータ転送方法 |
CN108520503A (zh) * | 2018-04-13 | 2018-09-11 | 湘潭大学 | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 |
-
2019
- 2019-05-17 CN CN201910413811.7A patent/CN110290387B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6318211B2 (ja) * | 2016-10-03 | 2018-04-25 | 株式会社Preferred Networks | データ圧縮装置、データ再現装置、データ圧縮方法、データ再現方法及びデータ転送方法 |
CN107123151A (zh) * | 2017-04-28 | 2017-09-01 | 深圳市唯特视科技有限公司 | 一种基于变分自动编码器和生成对抗网络的图像转化方法 |
CN108520503A (zh) * | 2018-04-13 | 2018-09-11 | 湘潭大学 | 一种基于自编码器和生成对抗网络修复人脸缺损图像的方法 |
Non-Patent Citations (2)
Title |
---|
Enhanced Image Decoding via Edge-Preserving Generative Adversarial Networks;Qi Mao等;《2018 IEEE International Conference on Multimedia and Expo (ICME)》;20180727;全文 * |
生成式对抗网络研究综述;罗佳等;《仪器仪表学报》;20190315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110290387A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110290387B (zh) | 一种基于生成模型的图像压缩方法 | |
Rippel et al. | Real-time adaptive image compression | |
Hu et al. | Towards coding for human and machine vision: A scalable image coding approach | |
US8223837B2 (en) | Learning-based image compression | |
CN109996073B (zh) | 一种图像压缩方法、系统、可读存储介质及计算机设备 | |
CN103607591A (zh) | 结合超分辨率重建的图像压缩方法 | |
CN111630570A (zh) | 图像处理方法、设备及计算机可读存储介质 | |
CN105430416A (zh) | 一种基于自适应稀疏域编码的指纹图像压缩方法 | |
Fu et al. | An extended hybrid image compression based on soft-to-hard quantification | |
Abd-Alzhra et al. | Image compression using deep learning: methods and techniques | |
CN114373023A (zh) | 一种基于点的点云几何有损压缩重建装置与方法 | |
Chen et al. | A new image codec paradigm for human and machine uses | |
Duan et al. | Jpd-se: High-level semantics for joint perception-distortion enhancement in image compression | |
CN115361556A (zh) | 一种基于自适应的高效视频压缩算法及其系统 | |
CN115239563A (zh) | 一种基于神经网络的点云属性有损压缩装置及方法 | |
Zhang et al. | Global Priors with Anchored-stripe Attention and MultiScale Convolution for Remote Sensing Images Compression | |
Jia et al. | Deep convolutional network based image quality enhancement for low bit rate image compression | |
CN115358954B (zh) | 一种注意力引导的特征压缩方法 | |
Nguyen et al. | Adaptive lossless data hiding scheme for SMVQ-compressed images using SOC coding | |
CN115052147B (zh) | 基于生成模型的人体视频压缩方法、系统 | |
CN117528085B (zh) | 一种基于智能特征聚类的视频压缩编码方法 | |
Shinde et al. | Image Compression of Handwritten Devanagari Text Documents Using a Convolutional Autoencoder | |
Yagnasree et al. | Image compression using neural networks | |
KR20030063850A (ko) | 문자와 이미지가 포함된 문서의 압축, 복원 시스템 및방법 | |
JP5351094B2 (ja) | 画像符号化方法,画像符号化装置および画像符号化プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |