CN111787323A - 一种基于对抗学习的可变比特率生成式压缩方法 - Google Patents

一种基于对抗学习的可变比特率生成式压缩方法 Download PDF

Info

Publication number
CN111787323A
CN111787323A CN202010444527.9A CN202010444527A CN111787323A CN 111787323 A CN111787323 A CN 111787323A CN 202010444527 A CN202010444527 A CN 202010444527A CN 111787323 A CN111787323 A CN 111787323A
Authority
CN
China
Prior art keywords
image
compression
mask
function
characteristic diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010444527.9A
Other languages
English (en)
Other versions
CN111787323B (zh
Inventor
陶晓明
段一平
韩超诣
陆建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202010444527.9A priority Critical patent/CN111787323B/zh
Publication of CN111787323A publication Critical patent/CN111787323A/zh
Priority to US17/327,895 priority patent/US11153566B1/en
Application granted granted Critical
Publication of CN111787323B publication Critical patent/CN111787323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/147Data rate or code amount at the encoder output according to rate distortion criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/154Measured or subjectively estimated visual quality after decoding, e.g. measurement of distortion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/184Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being bits, e.g. of the compressed video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/42Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于对抗学习的可变比特率生成式压缩方法,属于通信与数字图像处理的交叉技术领域。对编解码全卷积网络特征图的方差进行量化,实现训练单一生成式模型进行可变比特率压缩。实现步骤为:通过图像采集设备,构造训练和测试数据集;构建基于自编码器结构的生成式压缩网络;根据率失真误差计算单元,交替训练生成式网络;根据目标压缩率,计算掩膜阈值;基于特征图通道冗余指标和阈值,计算掩膜;掩膜和特征图的无损压缩与编码。本发明只训练单一模型,但能够产生不同比特率的压缩结果,在0.1bpp以下的极限压缩率上,重建图像的主观质量和语义信息保存均有良好效果。

Description

一种基于对抗学习的可变比特率生成式压缩方法
技术领域
本发明提供了一种数据驱动的可变比特率生成式压缩方法,属于通信与数字图像处理的交叉技术领域。
背景技术
图像是多媒体数据中极为重要的组成部分,然而受限于通信带宽和存储设备容量,原始图像数据需要经过特定的压缩之后进行传播与存储。进入信息化时代依赖,随着传感器分辨率和互联网规模的极速发展,当前可获取的图像数据量呈现前所未有的爆炸式增长趋势,远远超过通信带宽和存储容量的增幅。与此同时,现有图像压缩标准的发展显得相当迟缓,受限于图像信息熵与目前的压缩编码方式,图像压缩技术显然已经进入瓶颈阶段。
当前通用图像有损压缩框架采用基于变换的编码方式,编码部分包括变换、量化、熵编码三个重要的组成模块。通用图像编码标准例如JPEG,JPEG2000,BPG等均采用预先定义的通用变换基,如DCT,wavelet等。近年来随着机器学习技术的发展,基于学习的有损图像压缩方法逐渐兴起,相对于已有压缩技术来说,基于学习的方法针对特定数据库进行自适应学习得到变换基,可以获得更高的压缩比。基于学习的图像压缩方法不需要进行人工设计图像变换基,而是采用端到端训练的方法直接优化图像压缩的率失真曲线,在多个公开数据集上都已经取得了更优于JPEG2000甚至BPG的效果。
另一方面,基于学习的图像压缩算法不仅仅只关注于图像的PSNR指标,也可以在优化目标中加入更符合人眼主观感受的SSIM、MS-SSIM等指标,这类方法可以称为面向主观感受的图像压缩。在此类方法中,基于生成对抗网络GAN的技术表现最为突出,生成式网络能够产生和自然图像分布更为接近的重建图像,因此更符合主观感受,并且由于其生成式模型的本质,可以在极少量的信息下较好的完成重构过程,生成式压缩在极低码率下的重建效果显著优于现有压缩算法。
虽然在效果上相对于传统编码技术有所提升,基于学习的压缩方法由于需要训练,往往只能进行单一比特率的压缩,为了进行可变比特率的压缩,已有的方法需要针对每种预设的压缩率训练不同的模型,或者在已有模型上进行微调,或者训练渐进式编码的网络等等。这类方法需要训练更多的模型,带来复杂度、时间和参数量的巨大开销。而像已有压缩标准一样改变量化方式,对于基于学习的方法来说会产生不可预知的性能损失。
针对上述问题,本发明提出了一种基于通道冗余消除的可变比特率生成式图像压缩系统。本发明采用编解码全卷积网络,采用生成对抗的训练方法,利用特征图(变换后的输出)通道之间的冗余性能够反映图像本身复杂度的特性,对特征图的方差进行量化,从而实现训练单一网络而进行可变比特率压缩的效果。并且通过计算特征图方差的L1范数来估计压缩后数据的熵率,从而将特征图方差的分布转变为拉普拉斯分布,通过对此分布进行估计,本发明可以针对特定压缩率,自适应调整超参数,免去手动调整量化间隔的步骤。本发明只训练单一模型,但能够产生不同比特率的压缩结果,且结果明显优于现有训练多个模型的压缩方法与通用压缩标准,能够在0.1bpp以下的极限压缩率上,其主观质量和语义信息的保存均达到大幅度提升。
发明内容
本发明针对基于自编码器的生成式压缩系统,提出基于通道冗余的可变比特率压缩,不需要更改网络结构与进行多次训练,并且性能明显优于针对每个压缩率均重新进行训练的现有方法。
本发明提供了一种可变比特率的生成式压缩系统,技术思路是:经过编码器变换之后的特征图,通道之间的相关性可以度量其熵率大小,根据通道相关性计算掩膜,并据此对方差进行量化,可以实现可变比特率的压缩。并且在训练过程中显式加入通道相关性的L1范数作为熵率的估计,可以促使通道相关性呈现稀疏分布,使其能够被指数分布高精确度的建模,从而得到掩膜和最终熵率之间的关系,针对指定的压缩率,不需进行手动阈值调整,而是直接计算确定阈值大小,得到对应输出。参照附图1,具体步骤为:
在计算机中依次按如下步骤实现的:
步骤(1),通过图像采集设备,构造训练和测试数据集;
步骤(2),构建基于自编码器结构的生成式压缩网络;生成式压缩网络全部采用卷积层和反卷积层,实现输入原始图像—压缩编码结果—重建图像的转换,基于自编码器结构的生成式压缩网络;
步骤(3),在图像采集设备收集的训练数据上,训练步骤(2)构建的生成式压缩网络;整个编码器和解码器训练的目标为率失真优化函数,多尺度鉴别器的目标为区分真实图像和重建图像,多尺度鉴别器与解码器交替训练;
步骤(4),根据目标比特率,计算需要采取的特征图相关性的阈值。
步骤(5),基于特征图通道冗余指标的掩膜计算,在训练完成之后,原始网络结构能够用来进行图像压缩,输出单一压缩率的结果;
步骤(6),掩膜和特征图的无损压缩与解码;用自适应算术编码分别进一步压缩二进制掩膜和对应的特征图;
步骤2包括如下步骤,步骤(2.1),编码器E;基于学习的编码器,将原始图像映射到低维度特征空间中,编码器采用参数化的全卷积网络架构,输入原始图像x经过编码器得到降采样之后的特征图w=E(x);编码器由若干降采样卷积模块和残差模块组成,调整下采样的倍率与输出特征图的通道数目;
x:(向量),代表待压缩的原始图像,三维(彩色图像)或二维(灰度图像);
w:(向量),代表原始图像通过编码器得到的特征图,包括空间(二维)和通道(一维);
E:编码器,将原始图像x变换为特征图w。
步骤(2.2),量化器Q将编码器输出的特征图进行量化,对编码器输出的特征图,采用标量量化函数,对每个特征图上元素独立进行;由于量化操作本身不可导,在反向传播中采用近似函数逼近的方法,而正向传播依然使用原始量化,分别称为软量化和硬量化;正向传播执行硬量化函数Q(.):
Figure BDA0002505254260000031
wn ij:(标量),代表特征图向量w第n个通道(i,j)处的值,i,j为空间位置坐标,上标n代表通道第n个通道;
Figure BDA0002505254260000032
(标量):代表第k个量化电平;
L:代表量化电平总个数;
Q(.):硬量化函数;
Figure BDA0002505254260000033
软量化函数;
σ:软量化函数中的温度因子;τ:(标量),软量化函数中的电平平移值
exp():代表指数函数;
Figure BDA0002505254260000034
经硬量化函数量化后的特征图向量;
其中wn ij代表特征图上的元素,特征图即为原始图像经过编码器之后的结果: w=E(x),i,j为空间位置坐标,
Figure BDA0002505254260000035
代表量化中心点,τ为常量,将量化后数值统一平移至非负数;反向传播采用软量化函数
Figure BDA0002505254260000036
Figure BDA0002505254260000037
其中σ为温度因子,当σ→∞时,软量化函数蜕变为硬量化函数;
步骤(2.3),解码器G,将量化后的特征图反变换到图像空间得到重建结果;解码器和编码器E采用对偶结构,由若干卷积模块,残差模块和反卷积模块组成;解码器将量化后的特征图上采样以恢复原始分辨率,并且采用较多的残差模块恢复图像细节部分;
G:解码器,将量化后的特征图解码为重建图像。
Ds:鉴别器,生成对抗网络中的鉴别器,用以判断重建图像真实性。下标s 代表尺度。
步骤(2.4),多尺度鉴别器D和编码器、解码器对抗训练,架构来自生成对抗网络,是生成式模型的重要组成部分,用以判断重建图像质量是否符合自然图像分布;多尺度的结构能够在不同尺度上约束重建图像,产生真实结果;解码器输出的重建图像与经过2倍、4倍降采样的图像一起输入多尺度鉴别器D;单个鉴别器由卷积模块组成,激活函数为LeakyRelu,最后一个卷积模块不采用任何激活函数。
步骤3包括如下步骤,
步骤(3.1),多尺度鉴别器,优化目标如下:
Figure BDA0002505254260000041
其中,
Figure BDA0002505254260000042
为量化后的特征图,
Figure BDA0002505254260000043
期望代表上式在空间位置上的平均;鉴别器的目标是尽可能区分原始图像和重建图像,用以度量真实图像和重建图像的概率分布距离;多尺度鉴别器D由三个相同网络结构的鉴别器组成,记为D1,D2,D3
步骤(3.2),解码器的误差函数包括两部分,即熵率估计和失真、率失真函数的总体形式为:
Figure BDA0002505254260000044
Figure BDA0002505254260000045
为度量原始图像与重建图像失真的指标,由三部分组成:均方误差、感知误差以及鉴别器误差;总失真误差为三部分加权之和,表达式为:
Figure BDA0002505254260000051
感知误差LFM,定义为原始图像和重建图像的高层特征之间的L1距离,高层特征用多尺度鉴别器的各层卷积模块输出表示,总的感知误差为不同卷积模块特征距离的加权和;R(.):熵率估计函数,估计给定变量的熵
L(.,.):计算原始图像与重建图像误差的函数
λ:率失真函数的平衡因子,调节输出的码率
LMSE:均方根误差函数,计算两个输入之间的欧式距离
λFM:感知误差,定义为原始图像和重建图像的高层特征之间的L1距离
λMSE,λFM,λGAN:不同损失函数的权重因子
C:特征图的通道总数
ρw:特征图各通道数值的方差
ρij:(标量),ρw空间坐标(i,j)处的取值
Ω(.):计算特征图的掩膜
I(.):示性函数
熵率估计R(w)定义为特征图通道相关性的L1范数:R(w)=||ρw||1,通道相关性ρw即特征图各通道数值的方差,计算为:
Figure BDA0002505254260000052
整个训练过程按如下步骤进行:
(a)初始化网络所有参数,确定所有超参数的值;
(b)随机挑选一张训练集数据,计算解码器误差;
(c)随机挑选一张训练集数据,计算多尺度鉴别器误差;
(d)判断是否达到完成条件,是则输出,否则更新模型参数,返回(b);
4、根据权利要求1所述的一种基于对抗学习的可变比特率生成式压缩方法,其特征在于,步骤6包括如下步骤,
基于掩膜的压缩通过对特征图的处理实现可变比特率的压缩,输出不同大小的重建图像;根据特征图通道的相关性计算掩膜,然后将其作为指标函数对特征图的方差进行量化;掩膜计算方法为,将特征图通道数均匀划分为若干组,在每组内,根据特征相关性大小产生二进制的掩膜:
Ω(w)=I(ρw≥t) 。
5、根据权利要求1所述的一种基于对抗学习的可变比特率生成式压缩方法,其特征在于,步骤4包括如下步骤,
编码过程中,首先压缩二进制掩膜,对每个掩膜独立采用自适应算数编码进行无损熵编码,得到输出码流;对特征图的压缩同样采用自适应算数编码进行,不同的是只完整保存特征图的第一个通道,对其他通道,只传输未被掩膜覆盖的区域,整个扫描过程采用光栅扫描顺序;
解码过程中,首先由二进制比特流恢复掩膜信息与特征图,然后按照与编码过程相同的扫描顺序恢复掩膜的二维结构;特征图结构的恢复与编码过程对偶,在整个过程完成之后,被掩膜覆盖区域的值由第一个通道相同位置的值给出。
6、根据权利要求1所述的一种基于对抗学习的可变比特率生成式压缩方法,其特征在于,步骤5包括如下步骤,
β:拉普拉斯分布的参数
t:特征图相关性的阈值
Z:原始图像x的空间大小
N0:特征图w的空间大小
率失真优化中的熵率估计采用通道相关性的L1范数,加入目标函数对通道相关性ρw产生稀疏约束,从贝叶斯最大后验概率估计的角度,ρw满足拉普拉斯分布,
P(t;β)=βe-βt
在给定阈值t下,未被掩膜覆盖的位置比例为e-βt,经过压缩之后比特率为:
(Ce-βt+1-e-βt)N0log2(L)/Z
其中,N0为特征图尺寸,Z为原始图像尺寸,L为量化电平个数,选取基准点进行测量;若阈值为0和t0时,重建图像的比特率分别为Ri,Rf,则阈值t 和目标比特率Rt满足:
Figure BDA0002505254260000071
在模型训练完成之后,变比特率生成式压缩系统的工作模式为:
(a)、给定待处理的图像以及目标压缩率;
(b)、选取基准点,得到Ri,Rf,从待处理图像或者训练集得到;
(c)、根据目标压缩率计算掩膜阈值t;
(d)、根据阈值计算掩膜,进行基于掩膜的自适应算术编码,得到比特流;
(e)、在解码端恢复比特流,通过解码器重建原始图像。
附图说明
图1基于学习的可变比特率生成式压缩系统框图。
图2生成式压缩网络结构框图。
图3残差模块和卷积模块组成架构。
图4率失真误差计算单元框图。
图5基于掩膜的特征图压缩单元框图。
具体实施方式
本发明提供了一种可变比特率的生成式压缩系统,技术思路是:经过编码器变换之后的特征图,通道之间的相关性可以度量其熵率大小,根据通道相关性计算掩膜,并据此对方差进行量化,可以实现可变比特率的压缩。并且在训练过程中显式加入通道相关性的L1范数作为熵率的估计,可以促使通道相关性呈现稀疏分布,使其能够被指数分布高精确度的建模,从而得到掩膜和最终熵率之间的关系,针对指定的压缩率,不需进行手动阈值调整,而是直接计算确定阈值大小,得到对应输出。参照附图1,具体步骤为:
步骤(1),通过图像采集设备,构造训练和测试数据集。基于学习的图像压缩属于无监督学习,需要大量原始图像进行训练以及测试,为保证模型的性能,采集的数据以高分辨为标准,并且能够集中反映某特定场景,可以从互联网上爬取,或者采用公开数据集。例如, Cityscapes数据集,街景数据集,包括2975张训练图像,500张验证图像,和1525张测试图像,图像尺寸统一为1024*2048px;ADE20k数据集,包括20210张训练图像,2000张测试图像,图像尺寸变化较大。为便于处理,在使用过程中,统一将图像宽度缩放至固定值。
步骤(2),构建基于自编码器结构的生成式压缩网络。生成式压缩网络全部采用卷积层和反卷积层,实现输入原始图像—压缩编码结果—重建图像的转换,整体架构参照图2,图3。其中卷积模块、残差模块和反卷积模块的参数表示规则为:
cksd-C:卷积模块,卷积核大小kxk,步长为d,输出通道数C
dC:卷积模块,卷积核大小3x3,步长为2,输出通道数C
RC:残差模块,卷积核大小3x3,步长为1,通道数C
uC:反卷积模块,卷积核3x3,步长为2,通道数C
基于自编码器结构的生成式压缩网络,具体包括:
步骤(2.1),编码器E。数字化的自然图像,其维度与传感器采样点数直接相关,高分辨率的自然图像本身数据维度较高,但特定类型的图像分布在原始空间的某种低维度流形中。基于学习的编码器,将原始图像映射到低维度特征空间中,以减少需要传输的数据量。编码器采用参数化的全卷积网络架构,输入原始图像x经过编码器得到降采样之后的特征图w=E(x)。编码器由若干降采样卷积模块和残差模块组成,通过调整下采样的倍率与输出特征图的通道数目,能够控制系统产生的压缩率的上限。激活函数为Relu,最后一个卷积模块不采用任何激活函数。编码器将原始图像下采样16倍,并且采用5个残差模块,具体参数为:c7s1-60, d120,d240,R250x5,d480,d960,c3s1-C。其中最后一个卷积模块的参数C表示特征图w的通道数目。
步骤(2.2),量化器Q。。其作用为将编码器输出的特征图进行量化,是有损编码中直接导致信息损失的部分。对编码器输出的特征图,采用标量量化函数,对每个特征图上元素独立进行。由于量化操作本身不可导,在反向传播中采用近似函数逼近的方法,而正向传播依然使用原始量化,分别称为软量化和硬量化。正向传播执行硬量化函数Q(.):
Figure BDA0002505254260000091
其中wij代表特征图上的元素,特征图即为原始图像经过编码器之后的结果:w=E(x), i,j为空间位置坐标,
Figure BDA0002505254260000092
代表量化中心点,τ为常量,将量化后数值统一平移至非负数,避免零值的出现。由于特征图数值近似满足拉普拉斯分布,此操作能够避免量化后特征图过于稀疏,从而加速训练过程中网络的收敛速度。反向传播采用软量化函数
Figure BDA0002505254260000094
Figure BDA0002505254260000093
其中σ为温度因子,当σ→∞时,软量化函数蜕变为硬量化函数。这里选取温度因子为 10e6。量化器中心点选取为{-2,-1,0,1,2},τ选取为3。
步骤(2.3),解码器G,将量化后的特征图反变换到图像空间得到重建结果。解码器和编码器E采用对偶结构,由若干卷积模块,残差模块和反卷积模块组成。解码器将量化后的特征图上采样以恢复原始分辨率,采用较多的残差模块恢复图像细节部分。解码器将量化后的特征图上采样16倍以恢复原始分辨率,并且采用9个残差模块。除却最后一个反卷积模块采用激活函数tanh,将重建图像的值映射到-1~1以外,其余模块激活函数均采用Relu。具体参数为:c3s1-960,R960x9,u480,u120,u60,c7s1-3。
步骤(2.4),多尺度鉴别器D,D,和编码器、解码器对抗训练,其架构来自生成对抗网络,是生成式模型的重要组成部分,用以判断重建图像质量是否符合自然图像分布。多尺度的结构能够在不同尺度上约束重建图像,产生更为真实的结果。解码器输出的重建图像与经过2 倍、4倍降采样的图像一起输入多尺度鉴别器D,其由三个相同网络结构的鉴别器组成,记为D1,D2,D3。单个鉴别器由卷积模块组成,激活函数为LeakyRelu,最后一个卷积模块不采用任何激活函数。网络具体参数为:c4s2-64,c4s2-128,c4s2-256,c4s2-512,c4s1-1。
步骤(2.5)(可选),其他感知网络。例如分类问题常用网络VGG。不参与系统训练过程,旨在为原始图像和重建图像提供在像素空间之外,其他特征空间上的距离。相对于像素空间的L1,L2距离,感知网络特征空间上的距离更能代表主观感知误差,避免重建图像模糊的出现。
步骤(3),在图像采集设备收集的训练数据上,训练步骤(2)构建的生成式网络。整个编码器和解码器训练的目标为率失真优化函数,而多尺度鉴别器的目标为尽可能区分真实图像和重建图像,多尺度鉴别器与解码器交替训练。误差函数包括:
步骤(3.1),多尺度鉴别器,其优化目标如下:
Figure BDA0002505254260000101
其中,
Figure BDA0002505254260000102
为量化后的特征图,
Figure BDA0002505254260000103
期望代表上式在空间位置上的平均。鉴别器的目标是尽可能区分原始图像和重建图像,用以度量真实图像和重建图像的概率分布距离,其主要作用是充当另一种感知误差,迫使解码器重建图像与真实图像一致。
步骤(3.2),与此同时,解码器的误差函数包括两部分,即熵率估计和失真,具体形式为:
Figure BDA0002505254260000104
其中
Figure BDA0002505254260000105
为度量原始图像与重建图像失真的指标,由三部分组成:均方误差(像素级误差),感知误差(特征匹配误差),以及鉴别器误差(对抗误差)。总失真误差为三部分加权之和,其表达式为:
Figure BDA0002505254260000106
感知误差LFM,定义为原始图像和重建图像的高层特征之间的L1距离,高层特征用多尺度鉴别器的各层卷积模块输出表示,总的感知误差为不同卷积模块特征距离的加权和。具体参数为λMSE=λFM=10,λGAN=1。
熵率估计R(w)定义为特征图通道相关性的L1范数:R(w)=||ρw||1,通道相关性ρ即特征图各通道数值的方差,计算为:
Figure BDA0002505254260000107
整个训练过程按如下步骤进行:
(a)初始化网络所有参数,确定所有超参数的值
(b)随机挑选一张训练集数据,计算解码器误差
(c)随机挑选一张训练集数据,计算多尺度鉴别器误差
(d)判断是否达到完成条件,是则输出,否则更新模型参数,返回(b)。
优化器为ADAM,初始学习率为0.0002。
步骤(4),基于特征图通道冗余指标的掩膜计算。在训练完成之后,原始网络结构能够用来进行图像压缩,但只能输出单一压缩率的结果。基于掩膜的压缩通过对特征图的进一步处理实现可变比特率的压缩,输出不同大小的重建图像。首先根据特征图通道的相关性计算掩膜,然后将其作为指标函数对特征图的方差进行量化。掩膜计算方法为,将特征图通道数均匀划分为若干组,在每组内,根据特征相关性大小产生二进制的掩膜:
Ω(w)=I(ρw≥t)
步骤(5),掩膜和特征图的无损压缩与解码。用自适应算术编码分别进一步压缩二进制掩膜和对应的特征图,参见附图5。
编码过程中,首先压缩二进制掩膜,对每个掩膜独立采用自适应算数编码进行无损熵编码,得到输出码流。对特征图的压缩同样采用自适应算数编码进行,不同的是只完整保存特征图的第一个通道,对其他通道,只传输未被掩膜覆盖的区域,整个扫描过程采用光栅扫描顺序。自适应算数编码的参数中,掩膜的符号个数为2,特征图的符号个数为5。
解码过程中,首先由二进制比特流恢复掩膜信息与特征图,然后按照与编码过程相同的扫描顺序恢复掩膜的二维结构。特征图结构的恢复与编码过程对偶,在整个过程完成之后,被掩膜覆盖区域的值由第一个通道相同位置的值给出。
步骤(6),阈值计算。率失真优化中的熵率估计采用通道相关性的L1范数,是LASSO算子的一种,将其加入目标函数会对通道相关性ρw产生稀疏约束,从贝叶斯最大后验概率估计的角度,实则迫使ρw满足拉普拉斯分布:
P(t;β)=βe-βt
在给定阈值t下,未被掩膜覆盖的位置比例为e-βt,经过压缩之后比特率为:
(Ce-βt+1-e-βt)N0log2(L)/Z
其中,N0为特征图尺寸,Z为原始图像尺寸,L为量化电平个数。为了确定上述分布中的未知参数,需选取基准点进行测量。若阈值为0和t0时,重建图像的比特率分别为Ri,Rf,则阈值t和目标比特率Rt满足:
Figure BDA0002505254260000111
因此,在模型训练完成之后,可变比特率生成式压缩系统的工作模式为:
(a).给定待处理的图像以及目标压缩率
(b).选取基准点,得到Ri,Rf,可以从待处理图像或者训练集得到
(c).根据目标压缩率计算掩膜阈值t
(d).根据阈值计算掩膜,进行基于掩膜的自适应算术编码,得到比特流
(e).在解码端恢复比特流,通过解码器重建原始图像。

Claims (6)

1.一种基于对抗学习的可变比特率生成式压缩方法,其特征在于,是在计算机中依次按如下步骤实现的:
步骤(1),通过图像采集设备,构造训练和测试数据集;
步骤(2),构建基于自编码器结构的生成式压缩网络;生成式压缩网络全部采用卷积层和反卷积层,实现输入原始图像—压缩编码结果—重建图像的转换,基于自编码器结构的生成式压缩网络;
步骤(3),在图像采集设备收集的训练数据上,训练步骤(2)构建的生成式压缩网络;整个编码器和解码器训练的目标为率失真优化函数,多尺度鉴别器的目标为区分真实图像和重建图像,多尺度鉴别器与解码器交替训练;
步骤(4),根据目标比特率,计算需要采取的特征图相关性的阈值;
步骤(5),基于特征图通道冗余指标的掩膜计算,在训练完成之后,原始网络结构能够用来进行图像压缩,输出单一压缩率的结果;
步骤(6),掩膜和特征图的无损压缩与解码;用自适应算术编码分别进一步压缩二进制掩膜和对应的特征图。
2.根据权利要求1所述的一种基于对抗学习的可变比特率生成式压缩方法,其特征在于,步骤2包括如下步骤,步骤(2.1),编码器E;基于学习的编码器,将原始图像映射到低维度特征空间中,编码器采用参数化的全卷积网络架构,输入原始图像x经过编码器得到降采样之后的特征图w=E(x);编码器由若干降采样卷积模块和残差模块组成,调整下采样的倍率与输出特征图的通道数目;
x代表待压缩的原始图像;
w代表原始图像通过编码器得到的特征图;
E:编码器,将原始图像x变换为特征图w;
步骤(2.2),量化器Q将编码器输出的特征图进行量化,对编码器输出的特征图,采用标量量化函数,对每个特征图上元素独立进行;由于量化操作本身不可导,在反向传播中采用近似函数逼近的方法,而正向传播依然使用原始量化,分别称为软量化和硬量化;正向传播执行硬量化函数Q(.):
Figure FDA0002505254250000021
wn ij:(标量),代表特征图向量w第n个通道(i,j)处的值,i,j为空间位置坐标,上标n代表通道第n个通道;
ζk(标量):代表第k个量化电平;
L:代表量化电平总个数;
Q(.):硬量化函数;
Figure FDA0002505254250000022
软量化函数;
σ:软量化函数中的温度因子;
τ:(标量),软量化函数中的电平平移值;
exp():代表指数函数;
Figure FDA0002505254250000023
经硬量化函数量化后的特征图向量;
其中wn ij代表特征图上的元素,特征图即为原始图像经过编码器之后的结果:w=E(x),i,j为空间位置坐标,ζk∈{ζ1,…,ζL}代表量化中心点,τ为常量,将量化后数值统一平移至非负数;反向传播采用软量化函数
Figure FDA0002505254250000024
Figure FDA0002505254250000025
其中σ为温度因子,当σ→∞时,软量化函数蜕变为硬量化函数;
步骤(2.3),解码器G,将量化后的特征图反变换到图像空间得到重建结果;解码器和编码器E采用对偶结构,由若干卷积模块,残差模块和反卷积模块组成;解码器将量化后的特征图上采样以恢复原始分辨率,并且采用较多的残差模块恢复图像细节部分;
G:解码器,将量化后的特征图解码为重建图像;
Ds:鉴别器,生成对抗网络中的鉴别器,用以判断重建图像真实性;下标s代表尺度;
步骤(2.4),多尺度鉴别器D和编码器、解码器对抗训练,架构用以判断重建图像质量是否符合自然图像分布;多尺度的结构能够在不同尺度上约束重建图像,产生真实结果;解码器输出的重建图像与经过2倍、4倍降采样的图像一起输入多尺度鉴别器D;单个鉴别器由卷积模块组成,激活函数为Leaky Relu,最后一个卷积模块不采用任何激活函数。
3.根据权利要求1所述的一种基于对抗学习的可变比特率生成式压缩方法,其特征在于,步骤3包括如下步骤,
步骤(3.1),多尺度鉴别器,优化目标如下:
Figure FDA0002505254250000031
其中,
Figure FDA0002505254250000032
为量化后的特征图,
Figure FDA0002505254250000033
期望代表上式在空间位置上的平均;鉴别器的目标是尽可能区分原始图像和重建图像,用以度量真实图像和重建图像的概率分布距离;多尺度鉴别器D由三个相同网络结构的鉴别器组成,记为D1,D2,D3
步骤(3.2),解码器的误差函数包括两部分,即熵率估计和失真、率失真函数的总体形式为:
Figure FDA0002505254250000034
Figure FDA0002505254250000035
为度量原始图像与重建图像失真的指标,由三部分组成:均方误差、感知误差以及鉴别器误差;总失真误差为三部分加权之和,表达式为:
Figure FDA0002505254250000041
感知误差LFM,定义为原始图像和重建图像的高层特征之间的L1距离,高层特征用多尺度鉴别器的各层卷积模块输出表示,总的感知误差为不同卷积模块特征距离的加权和;R(.):熵率估计函数,估计给定变量的熵
L(.,.):计算原始图像与重建图像误差的函数;
λ:率失真函数的平衡因子,调节输出的码率;
LMSE:均方根误差函数,计算两个输入之间的欧式距离;
λFM:感知误差,定义为原始图像和重建图像的高层特征之间的L1距离;
λMSE,λFM,λGAN:不同损失函数的权重因子;
C:特征图的通道总数;
ρw:特征图各通道数值的方差;
ρij:(标量),ρw空间坐标(i,j)处的取值;
Ω(.):计算特征图的掩膜;
I(.):示性函数;
熵率估计R(w)定义为特征图通道相关性的L1范数:R(w)=||ρw||1,通道相关性ρw即特征图各通道数值的方差,计算为:
Figure FDA0002505254250000042
整个训练过程按如下步骤进行:
(a)初始化网络所有参数,确定所有超参数的值;
(b)随机挑选一张训练集数据,计算解码器误差;
(c)随机挑选一张训练集数据,计算多尺度鉴别器误差;
(d)判断是否达到完成条件,是则输出,否则更新模型参数,返回(b)。
4.根据权利要求1所述的一种基于对抗学习的可变比特率生成式压缩方法,其特征在于,
步骤4包括如下步骤,
编码过程中,首先压缩二进制掩膜,对每个掩膜独立采用自适应算数编码进行无损熵编码,得到输出码流;对特征图的压缩同样采用自适应算数编码进行,不同的是只完整保存特征图的第一个通道,对其他通道,只传输未被掩膜覆盖的区域,整个扫描过程采用光栅扫描顺序;
解码过程中,首先由二进制比特流恢复掩膜信息与特征图,然后按照与编码过程相同的扫描顺序恢复掩膜的二维结构;特征图结构的恢复与编码过程对偶,在整个过程完成之后,被掩膜覆盖区域的值由第一个通道相同位置的值给出。
5.根据权利要求1所述的一种基于对抗学习的可变比特率生成式压缩方法,其特征在于,步骤5包括如下步骤,
β:拉普拉斯分布的参数
t:特征图相关性的阈值
Z:原始图像x的空间大小
N0:特征图w的空间大小
率失真优化中的熵率估计采用通道相关性的L1范数,加入目标函数对通道相关性ρw产生稀疏约束,从贝叶斯最大后验概率估计的角度,ρw满足拉普拉斯分布,
P(t;β)=βe-βt
在给定阈值t下,未被掩膜覆盖的位置比例为e-βt,经过压缩之后比特率为:
(Ce-βt+1-e-βt)N0log2(L)/Z
其中,N0为特征图尺寸,Z为原始图像尺寸,L为量化电平个数,选取基准点进行测量;若阈值为0和t0时,重建图像的比特率分别为Ri,Rf,则阈值t和目标比特率Rt满足:
Figure FDA0002505254250000061
在模型训练完成之后,变比特率生成式压缩系统的工作模式为:
(a)、给定待处理的图像以及目标压缩率;
(b)、选取基准点,得到Ri,Rf,从待处理图像或者训练集得到;
(c)、根据目标压缩率计算掩膜阈值t;
(d)、根据阈值计算掩膜,进行基于掩膜的自适应算术编码,得到比特流;
(e)、在解码端恢复比特流,通过解码器重建原始图像。
6.根据权利要求1所述的一种基于对抗学习的可变比特率生成式压缩方法,其特征在于,步骤6包括如下步骤,
基于掩膜的压缩通过对特征图的处理实现可变比特率的压缩,输出不同大小的重建图像;根据特征图通道的相关性计算掩膜,然后将其作为指标函数对特征图的方差进行量化;掩膜计算方法为,将特征图通道数均匀划分为若干组,在每组内,根据特征相关性大小产生二进制的掩膜:
Ω(w)=I(ρw≥t)。
CN202010444527.9A 2020-05-23 2020-05-23 一种基于对抗学习的可变比特率生成式压缩方法 Active CN111787323B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010444527.9A CN111787323B (zh) 2020-05-23 2020-05-23 一种基于对抗学习的可变比特率生成式压缩方法
US17/327,895 US11153566B1 (en) 2020-05-23 2021-05-24 Variable bit rate generative compression method based on adversarial learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010444527.9A CN111787323B (zh) 2020-05-23 2020-05-23 一种基于对抗学习的可变比特率生成式压缩方法

Publications (2)

Publication Number Publication Date
CN111787323A true CN111787323A (zh) 2020-10-16
CN111787323B CN111787323B (zh) 2021-09-03

Family

ID=72753263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010444527.9A Active CN111787323B (zh) 2020-05-23 2020-05-23 一种基于对抗学习的可变比特率生成式压缩方法

Country Status (2)

Country Link
US (1) US11153566B1 (zh)
CN (1) CN111787323B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766467A (zh) * 2021-04-06 2021-05-07 深圳市一心视觉科技有限公司 基于卷积神经网络模型的图像识别方法
CN112883982A (zh) * 2021-01-08 2021-06-01 西北工业大学 一种面向神经网络稀疏特征的数据去零编码及封装方法
CN113079377A (zh) * 2021-04-01 2021-07-06 中国科学技术大学 一种深度图像/视频压缩网络的训练方法
CN113538693A (zh) * 2021-07-06 2021-10-22 太原理工大学 一种基于深度学习的微波乳腺图像重建方法
CN113747163A (zh) * 2021-08-17 2021-12-03 上海交通大学 基于上下文重组建模的图像编码、解码方法及压缩方法
CN113823296A (zh) * 2021-06-15 2021-12-21 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN114201118A (zh) * 2022-02-15 2022-03-18 北京中科开迪软件有限公司 一种基于光盘库的存储方法及系统
CN114664395A (zh) * 2022-03-25 2022-06-24 上海交通大学 基于神经网络和贝叶斯优化的热辐射材料设计方法及系统
WO2022179509A1 (zh) * 2021-02-25 2022-09-01 华为技术有限公司 音视频或图像分层压缩方法和装置
WO2022205890A1 (zh) * 2021-03-30 2022-10-06 中国电信股份有限公司 图像特征的传输方法、装置和系统
CN115272140A (zh) * 2022-09-29 2022-11-01 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 红外图像量化和增强方法、系统及存储介质
WO2023001089A1 (en) * 2021-07-20 2023-01-26 Versitech Limited Generative adversarial network-based lossless image compression model for cross-sectional imaging
WO2023112785A1 (ja) * 2021-12-14 2023-06-22 ソニーグループ株式会社 送信装置、受信装置、送信方法及び受信方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11948271B2 (en) * 2020-12-23 2024-04-02 Netflix, Inc. Machine learning techniques for video downsampling
CN114449345B (zh) * 2022-02-08 2023-06-23 腾讯科技(深圳)有限公司 视频处理方法、装置、设备及存储介质
CN114970598B (zh) * 2022-02-24 2024-04-30 清华大学 机械健康状态监测方法及装置
WO2023165596A1 (en) * 2022-03-03 2023-09-07 Beijing Bytedance Network Technology Co., Ltd. Method, apparatus, and medium for visual data processing
CN114422606B (zh) * 2022-03-15 2022-06-28 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 联邦学习的通信开销压缩方法、装置、设备及介质
CN114821100B (zh) * 2022-04-13 2024-03-26 桂林电子科技大学 基于结构组稀疏网络的图像压缩感知重建方法
CN114913072A (zh) * 2022-05-16 2022-08-16 中国第一汽车股份有限公司 图像的处理方法、装置、存储介质和处理器
CN115239674B (zh) * 2022-07-29 2023-06-23 中国人民解放军总医院第一医学中心 基于多尺度判别的计算机血管造影成像合成方法
EP4357765A4 (en) * 2022-08-30 2024-05-08 Contemporary Amperex Technology Co Ltd ERROR DETECTION METHOD AND APPARATUS AND COMPUTER-READABLE STORAGE MEDIUM
CN117939167A (zh) * 2022-10-14 2024-04-26 维沃移动通信有限公司 特征图处理方法、装置及设备
CN115733673B (zh) * 2022-11-04 2024-04-12 中国人民解放军海军工程大学 一种基于多尺度残差分类器的数据异常检测方法
CN116112694B (zh) * 2022-12-09 2023-12-15 无锡天宸嘉航科技有限公司 一种应用于模型训练的视频数据编码方法及系统
CN115776571B (zh) * 2023-02-10 2023-04-28 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种图像压缩方法、装置、设备及存储介质
CN115866253B (zh) * 2023-02-27 2023-06-06 鹏城实验室 一种基于自调制的通道间变换方法、装置、终端及介质
CN116600119B (zh) * 2023-07-18 2023-11-03 腾讯科技(深圳)有限公司 视频编码、解码方法、装置、计算机设备和存储介质
CN116614637B (zh) * 2023-07-19 2023-09-12 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备以及可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101297555A (zh) * 2005-09-29 2008-10-29 汤姆森研究基金有限公司 用于受限可变比特率视频编码的方法和装置
CN101478697A (zh) * 2009-01-20 2009-07-08 中国测绘科学研究院 影像有损压缩质量评价方法
CN103686172A (zh) * 2013-12-20 2014-03-26 电子科技大学 低延迟视频编码可变比特率码率控制方法
US20180152715A1 (en) * 2016-11-25 2018-05-31 Canon Kabushiki Kaisha Method and system for determining encoding parameters of video sources in large scale video surveillance systems
CN108337515A (zh) * 2018-01-19 2018-07-27 浙江大华技术股份有限公司 一种视频编码方法及装置
CN108737826A (zh) * 2017-04-18 2018-11-02 中兴通讯股份有限公司 一种视频编码的方法和装置
CN109040763A (zh) * 2018-08-07 2018-12-18 北京飞搜科技有限公司 一种基于生成式对抗网络的图像压缩方法及系统
CN109949317A (zh) * 2019-03-06 2019-06-28 东南大学 基于逐步对抗学习的半监督图像实例分割方法
CN110225350A (zh) * 2019-05-30 2019-09-10 西安电子科技大学 基于生成式对抗网络的自然图像压缩方法
CN110427867A (zh) * 2019-07-30 2019-11-08 华中科技大学 基于残差注意力机制的面部表情识别方法及系统
CN111083482A (zh) * 2019-12-31 2020-04-28 合肥图鸭信息科技有限公司 一种视频压缩网络训练方法、装置及终端设备
CN111145276A (zh) * 2019-12-18 2020-05-12 河南大学 基于深度学习和分布式信源编码的高光谱图像压缩方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909459B2 (en) * 2016-06-09 2021-02-02 Cognizant Technology Solutions U.S. Corporation Content embedding using deep metric learning algorithms
US11190784B2 (en) * 2017-07-06 2021-11-30 Samsung Electronics Co., Ltd. Method for encoding/decoding image and device therefor
WO2019009449A1 (ko) * 2017-07-06 2019-01-10 삼성전자 주식회사 영상을 부호화/복호화 하는 방법 및 그 장치
US10455261B2 (en) * 2017-08-15 2019-10-22 Nokia Solutions And Networks Oy Signaling scheme for improved video streaming
US10979718B2 (en) * 2017-09-01 2021-04-13 Apple Inc. Machine learning video processing systems and methods
US10721471B2 (en) * 2017-10-26 2020-07-21 Intel Corporation Deep learning based quantization parameter estimation for video encoding
WO2019108888A1 (en) * 2017-11-30 2019-06-06 The Research Foundation For The State University Of New York SYSTEM AND METHOD TO QUANTIFY TUMOR-INFILTRATING LYMPHOCYTES (TILs) FOR CLINICAL PATHOLOGY ANALYSIS
WO2019111013A1 (en) * 2017-12-06 2019-06-13 V-Nova International Ltd Method and apparatus for decoding a received set of encoded data
US11216698B2 (en) * 2018-02-16 2022-01-04 Spirent Communications, Inc. Training a non-reference video scoring system with full reference video scores
US10846531B2 (en) * 2018-09-20 2020-11-24 The Boeing Company Image-based anomaly detection for aerial inspection using self-supervised learning
WO2020080045A1 (ja) * 2018-10-15 2020-04-23 パナソニックIpマネジメント株式会社 物体認識方法、車両制御方法、情報表示方法、および物体認識装置
US11405695B2 (en) * 2019-04-08 2022-08-02 Spirent Communications, Inc. Training an encrypted video stream network scoring system with non-reference video scores
US11902705B2 (en) * 2019-09-03 2024-02-13 Nvidia Corporation Video prediction using one or more neural networks
US11526734B2 (en) * 2019-09-25 2022-12-13 Qualcomm Incorporated Method and apparatus for recurrent auto-encoding
US20210117480A1 (en) * 2019-10-18 2021-04-22 Nbcuniversal Media, Llc Artificial intelligence-assisted content source identification
KR20210067788A (ko) * 2019-11-29 2021-06-08 삼성전자주식회사 전자 장치, 시스템 및 그 제어 방법
WO2021118270A1 (en) * 2019-12-11 2021-06-17 Samsung Electronics Co., Ltd. Method and electronic device for deblurring blurred image
US20200267396A1 (en) * 2020-05-07 2020-08-20 Intel Corporation Human visual system adaptive video coding

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101297555A (zh) * 2005-09-29 2008-10-29 汤姆森研究基金有限公司 用于受限可变比特率视频编码的方法和装置
CN101478697A (zh) * 2009-01-20 2009-07-08 中国测绘科学研究院 影像有损压缩质量评价方法
CN103686172A (zh) * 2013-12-20 2014-03-26 电子科技大学 低延迟视频编码可变比特率码率控制方法
US20180152715A1 (en) * 2016-11-25 2018-05-31 Canon Kabushiki Kaisha Method and system for determining encoding parameters of video sources in large scale video surveillance systems
CN108737826A (zh) * 2017-04-18 2018-11-02 中兴通讯股份有限公司 一种视频编码的方法和装置
CN108337515A (zh) * 2018-01-19 2018-07-27 浙江大华技术股份有限公司 一种视频编码方法及装置
CN109040763A (zh) * 2018-08-07 2018-12-18 北京飞搜科技有限公司 一种基于生成式对抗网络的图像压缩方法及系统
CN109949317A (zh) * 2019-03-06 2019-06-28 东南大学 基于逐步对抗学习的半监督图像实例分割方法
CN110225350A (zh) * 2019-05-30 2019-09-10 西安电子科技大学 基于生成式对抗网络的自然图像压缩方法
CN110427867A (zh) * 2019-07-30 2019-11-08 华中科技大学 基于残差注意力机制的面部表情识别方法及系统
CN111145276A (zh) * 2019-12-18 2020-05-12 河南大学 基于深度学习和分布式信源编码的高光谱图像压缩方法
CN111083482A (zh) * 2019-12-31 2020-04-28 合肥图鸭信息科技有限公司 一种视频压缩网络训练方法、装置及终端设备

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883982A (zh) * 2021-01-08 2021-06-01 西北工业大学 一种面向神经网络稀疏特征的数据去零编码及封装方法
CN112883982B (zh) * 2021-01-08 2023-04-18 西北工业大学 一种面向神经网络稀疏特征的数据去零编码及封装方法
WO2022179509A1 (zh) * 2021-02-25 2022-09-01 华为技术有限公司 音视频或图像分层压缩方法和装置
WO2022205890A1 (zh) * 2021-03-30 2022-10-06 中国电信股份有限公司 图像特征的传输方法、装置和系统
CN113079377A (zh) * 2021-04-01 2021-07-06 中国科学技术大学 一种深度图像/视频压缩网络的训练方法
CN112766467B (zh) * 2021-04-06 2021-08-20 深圳市一心视觉科技有限公司 基于卷积神经网络模型的图像识别方法
CN112766467A (zh) * 2021-04-06 2021-05-07 深圳市一心视觉科技有限公司 基于卷积神经网络模型的图像识别方法
CN113823296A (zh) * 2021-06-15 2021-12-21 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN113538693A (zh) * 2021-07-06 2021-10-22 太原理工大学 一种基于深度学习的微波乳腺图像重建方法
WO2023001089A1 (en) * 2021-07-20 2023-01-26 Versitech Limited Generative adversarial network-based lossless image compression model for cross-sectional imaging
CN113747163A (zh) * 2021-08-17 2021-12-03 上海交通大学 基于上下文重组建模的图像编码、解码方法及压缩方法
CN113747163B (zh) * 2021-08-17 2023-09-26 上海交通大学 基于上下文重组建模的图像编码、解码方法及压缩方法
WO2023112785A1 (ja) * 2021-12-14 2023-06-22 ソニーグループ株式会社 送信装置、受信装置、送信方法及び受信方法
CN114201118A (zh) * 2022-02-15 2022-03-18 北京中科开迪软件有限公司 一种基于光盘库的存储方法及系统
CN114664395A (zh) * 2022-03-25 2022-06-24 上海交通大学 基于神经网络和贝叶斯优化的热辐射材料设计方法及系统
CN115272140B (zh) * 2022-09-29 2023-01-17 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 红外图像量化和增强方法、系统及存储介质
CN115272140A (zh) * 2022-09-29 2022-11-01 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 红外图像量化和增强方法、系统及存储介质

Also Published As

Publication number Publication date
US11153566B1 (en) 2021-10-19
CN111787323B (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN111787323B (zh) 一种基于对抗学习的可变比特率生成式压缩方法
Mentzer et al. Conditional probability models for deep image compression
JP7236873B2 (ja) オートエンコーダ装置、データ処理システム、データ処理方法及びプログラム
Cai et al. Efficient variable rate image compression with multi-scale decomposition network
US20230300354A1 (en) Method and System for Image Compressing and Coding with Deep Learning
JP2004532577A (ja) 非直交基本関数を用いて色画像を効率的に符号化する方法および装置
CN113259676A (zh) 一种基于深度学习的图像压缩方法和装置
CN114581544A (zh) 图像压缩方法、计算机设备及计算机存储介质
CN110753225A (zh) 一种视频压缩方法、装置及终端设备
CN114449276B (zh) 一种基于学习的超先验边信息补偿图像压缩方法
CN111163314A (zh) 一种图像压缩方法及系统
CN113747163A (zh) 基于上下文重组建模的图像编码、解码方法及压缩方法
Han et al. Toward variable-rate generative compression by reducing the channel redundancy
CN114792347A (zh) 一种基于多尺度空间和上下文信息融合的图像压缩方法
Ebrahimi-Moghadam et al. Matching pursuit-based region-of-interest image coding
CN111163320A (zh) 一种视频压缩方法及系统
CN111161363A (zh) 一种图像编码模型训练方法及装置
Kozhemiakin et al. An approach to prediction and providing of compression ratio for DCT-based coder applied to multichannel remote sensing data
CN115665413A (zh) 图像压缩最优量化参数的估计方法
Zhuang et al. A robustness and low bit-rate image compression network for underwater acoustic communication
Gray et al. Image compression and tree-structured vector quantization
Dardouri et al. A neural network approach for joint optimization of predictors in lifting-based image coders
CN114708343A (zh) 基于图字典学习的三维点云编解码方法、压缩方法及装置
Flamich et al. Compression without quantization
Dong et al. Wavelet-Like Transform-Based Technology in Response to the Call for Proposals on Neural Network-Based Image Coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant