CN115002482B - 使用结构性保持运动估计的端到端视频压缩方法及系统 - Google Patents
使用结构性保持运动估计的端到端视频压缩方法及系统 Download PDFInfo
- Publication number
- CN115002482B CN115002482B CN202210449954.5A CN202210449954A CN115002482B CN 115002482 B CN115002482 B CN 115002482B CN 202210449954 A CN202210449954 A CN 202210449954A CN 115002482 B CN115002482 B CN 115002482B
- Authority
- CN
- China
- Prior art keywords
- motion
- previous frame
- motion field
- module
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006835 compression Effects 0.000 title claims abstract description 53
- 238000007906 compression Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 4
- 238000013527 convolutional neural network Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 12
- 238000012360 testing method Methods 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000002470 solid-phase micro-extraction Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开一种使用结构性保持运动估计的端到端视频压缩方法,应用于视频数据处理领域,针对现有技术难以进行运动估计的问题;本发明利用编码器侧的参考帧,有效地检索丢失的信息,可以提高当前帧的压缩性能。具体的:提取当前帧特征与已解码的前一帧特征之间的主运动场,以及当前帧特征与原始的前一帧特征之间的辅助运动场;然后提出了一个融合模块,将这两个运动场融合,形成最终待传输的能够保持结构性的运动场,以最大限度发挥卷积神经网络的结构性优势;利用传输的运动场和解码的前一帧特征来预测和增强当前的特征。
Description
技术领域
本发明属于视频数据处理领域,特别涉及一种视频压缩技术。
背景技术
视频数据的传输是导致互联网拥堵的重要原因之一。因此,有效的压缩方案一直是降低传输和存储成本的高需求。在过去的几十年里,研究人员先后开发了一些列视频编码标准,包括H.264/AVC、H.265/HEVC和H.266/VVC等。这些方案采用人工设计的模块来减少时空冗余,并实现了良好的压缩性能。
如当下被广泛应用的标准H.265/HEVC,其框架包括如下几个模块:变换、量化、熵编码、帧内预测、帧间预测以及环路滤波。帧内预测的主要功能是去除图像的空间相关性,通过编码后的重构信息块来预测当前像素块以去除空间冗余信息,提高图像的压缩效率。帧间预测的主要功能是去除时间相关性,通过将已编码的图像作为当前帧的参考图像,来获取各个块的运动信息,从而去除时间冗余,提高压缩效率。变换量化的作用是通过对残差数据去除频域相关性,对数据进行有损压缩。变换编码将图像从时域信号变换至频域,将能量集中至低频区域。量化模块可以减小图像编码的动态范围。熵编码模块将编码控制数据、量化变换系数、帧内预测数据、运动数据、滤波器控制数据编码为二进制进行存储和传输。熵编码模块的输出数据即是原始视频压缩后的码流。环路滤波的作用主要是去除编解码过程中所产生的噪声,主要包括去块滤波器(DBF)和样点自适应补偿滤波(SAO)。 DBF的主要作用是去方块效应,而SAO的主要作用是去除振铃效应。
目前,深度神经网络在数据压缩领域具有广泛的应用空间,最近基于深度学习的视频压缩方案的性能突破验证了这一事实。然而现存的大多数方法都忽略了编码端的上一帧的作用,仅仅使用已解码的上一帧作为参考,参考帧的信息失真将导致当前帧的压缩性能下降。
相关现有技术如下:
北京市商汤科技开发有限公司鲁国、欧阳万里、张小云、蔡春磊、徐东和高志勇的发明《视频压缩处理方法及装置、电子设备及存储介质》,公开号为:CN109451308A。
在该方案中,他们将传统视频压缩方案中的各个模块替换成神经网络,以一种端到端的方式进行联合优化,但像素域的运动补偿会难以避免的带来压缩伪影,而特征域的处理才能充分发挥机器学习的优势,因此该方法的性能有限。
北京航空航天大学胡智昊的发明《一种基于深度学习特征空间的视频压缩方法》,公开号为:CN113298894A。
在该方案中,他们首次将可变形卷积应用到视频压缩领域,并在特征域进行一系列的操作,充分利用了特征域所包含的丰富信息,实现了较大的性能突破。但该方案忽略了编码端上一时刻帧的作用,同时使用Non-local模块的后处理操作也极大的增加了模型的复杂度,这将会给编解码速度带来极大的挑战。
综上,数字视频是人类获取信息、感知世界最重要的多媒体载体之一。但未压缩的视频会产生巨大的数据量。因此,在带宽和存储有限的网络中传输视频时,采用视频压缩技术来显著地节省编码比特率是很有必要的。然而,对于一般的视频压缩方法而言,他们仅使用已解码的前一个帧作为参考。众所周知,视频编解码器是具有有损性的,因此被解码的帧与相应的原始帧并不完全相同,若仅用它继续作为参考帧,将难以避免的出现找不到对应点,以至于难以进行运动估计的情况。并且这会导致运动域缺乏结构性,与传统的编解码方案不同,卷积神经网络能发挥最大作用的前提是保证特征的结构统一性。但值得一提的是,这些丢失的细节可以在它们相应的原始帧中找到,因此通过附加的信息来帮助更好的运动估计是急需解决的。然而,使用更多的信息也是一个巨大的挑战,因为它可能会带来额外的信息传输和比特率提高。
发明内容
为解决上述技术问题,本发明提出一种结构性保持的运动估计方法,来提高视频压缩的性能。一方面,通过提出的结构性保持运动域生成模块,将编码端的上一帧充分考虑进来,因为其带有丰富的未失真像素信息,这将有利于当前帧的运动估计;另一方面,使用一个预测增强模块来进一步提高运动补偿的性能。
本发明采用的技术方案之一为:一种使用结构性保持运动估计的端到端视频压缩方法,包括:
S1、提取待编码的当前帧、原始的前一帧以及经解码处理的前一帧各自的特征;
S2、根据步骤S1提取的待编码的当前帧的特征与经解码处理的前一帧的特征,计算得到主运动场;
S3、根据步骤S1提取的待编码的当前帧的特征与原始的前一帧的特征,计算得到辅运动场;
S4、对步骤S2的主运动场和S3的辅运动场进行融合,得到结构性保持的运动场;
S5、对步骤S4得到的运动场进行压缩,得到重构运动场;
S6、根据重构运动场与经解码处理的前一帧的特征生成预测特征,并优化预测特征;
S7、计算经编码处理的当前帧的特征与预测特征之间的残差;
S8、根据残差与预测特征,得到重建特征;
S9、根据重建特征对当前帧进行重建。
本发明采用的技术方案之二为:一种使用结构性保持运动估计的端到端视频压缩系统,包括:特征提取模块、结构性保持运动估计模块、运动压缩模块、运动补偿和预测增强模块、残差压缩模块、重建模块;
特征提取模块的输入为当前帧、解码后的前一帧、解码前的前一帧,特征提取模块的输出为当前帧特征、解码后的前一帧特征、解码后的前一帧特征;
结构性保持运动估计模块根据输入的当前帧特征、解码后的前一帧特征、解码后的前一帧特征,提取运动场;
运动压缩模块将输入的运动场进行压缩,从而输出重构运动场;
运动补偿和增强模块根据输入的重构运动场与解码后的前一帧特征,生成预测特征;
残差压缩模块对当前帧特征与预测特征之间的残差进行压缩;
重建模块根据输入的压缩后的残差、预测特征,得到重建后的当前帧。
本发明的有益效果:充分挖掘编码端的上一时刻帧的作用,以此作为辅助信息来帮助当前帧的运动估计。具体地说,由于存在失真,在解码帧中丢失的细节信息可以在编码器侧相应的原始帧中找到。利用编码器侧的参考帧,有效地检索丢失的信息,可以维持运动场以及残差信息的结构性,最大限度的发挥卷积神经网络的结构性学习和表征能力,提高当前帧的压缩性能。本发明提出了一种结构性保持运动估计网络(SPM-Net),提取当前帧特征与已解码的前一帧特征之间的主运动场,以及当前帧特征与原始的前一帧特征之间的辅助运动场。然后提出了一个融合模块,将这两个运动场融合,形成最终待传输的能够保持结构性的运动场。此外,提出了一种运动补偿和预测增强网络(MCPE-Net),利用传输的运动场和解码的前一帧特征来预测和增强当前的特征。在该网络中,预测特征也得到了增强,以获得更好的帧重构效果。
附图说明
图1为本发明方法的整体框图;
图2为本发明的融合模块示意图;
图3为本发明的运动补偿模块与增强模块的结合示意图;
图4为背景技术中“公开号为:CN113298894A”的专利申请中的示意图;
图5为本发明实施例提供的比特率-失真曲线;
其中,(a)为测试集为HEVC Class B时本发明方法与现有技术的PSNR对比,(b) 为测试集为HEVC Class C时本发明方法与现有技术的PSNR对比,(c)为测试集为HEVC ClassD时本发明方法与现有技术的PSNR对比,(d)为测试集为HEVC Class B时本发明方法与现有技术的MS-SSIM对比,(e)为测试集为HEVC Class C时本发明方法与现有技术的MS-SSIM对比,(f)为测试集为HEVC Class D时本发明方法与现有技术的MS-SSIM 对比,(g)为测试集为HEVC Class E时本发明方法与现有技术的PSNR对比,(h)为测试集为UVG时本发明方法与现有技术的PSNR对比,(i)为测试集为MCL-JVC时本发明方法与现有技术的PSNR对比,(j)为测试集为HEVC Class E时本发明方法与现有技术的 MS-SSIM对比,(k)为测试集为UVG时本发明方法与现有技术的MS-SSIM对比,(l)为测试集为MCL-JVC时本发明方法与现有技术的MS-SSIM对比。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,首先对以下技术术语进行说明:
H.264/AVC:是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)联合组成的联合视频组(JVT,Joint Video Team)提出的高度压缩数字视频编解码器标准。
H.265/HEVC:是继H.264之后所制定的新的视频编码标准,保留了原有的H.264编码标准的某些技术,同时对一些技术加以改进。使用的新技术用以改善码流、编码质量、延时和算法复杂度之间的关系,以求达到最优化设置。
H.266/VVC:最新一代视频编码标准,在H.265的基础上进一步提高了压缩效率。
end-to-end:指整个模型可以通过统一的损失函数进行端到端的优化。
I帧,Intra-coded picture(帧内编码图像帧):不参考其他图像帧,只利用本帧的信息进行编码。
P帧,Predictive-coded picture(预测编码图像帧):利用之前的I帧或P帧,采用运动预测的方式进行帧间预测编码。
GOP,Group of pictures(图像组):指两个I帧之间的距离。
LDP,Low Delay P:只有第一帧是I帧编码,而其他的都是P帧编码。
Peak Signal to Noise Ratio(PSNR):峰值信噪比,一种评价图像的客观标准。
structural similarity(SSIM):结构相似性,是一种全参考的图像质量评价指标,它分别从亮度、对比度、结构三方面度量图像相似性。
BDBR(Bit Delta of Bit Rate):使用相同PSNR或SSIM时的平均位变化。
以下结合附图对本发明的内容进行阐述:
本发明的整体框架如图1所示,设X={X1,X2,…,Xt-1,Xt,…}是一个视频序列中的某个GOP(Group Of Pictures,图像组)。在LDP(Low Delay P,低延迟P帧)编码模式下,X1是一个关键帧(I帧),其他帧都是前向帧(P帧)。Xt是在当前时刻要编码的帧。本发明的目标是使用前面的帧作为参考,并使用尽可能低的比特数,以获得更高质量的重构帧在本发明的方法中,/>和Xt-1都被用作运动估计的参考。该框架由7个模块组成:特征提取(FeatureExtraction)、结构性保持运动估计网络(SPM-Net)、运动压缩(Motion Compression)、运动补偿和预测增强网络(MCPE-Net)、残差压缩(Residual Compression)、重建网络(Recon-Net)和熵编码(Entropy Coding)。熵编码主要应用于本发明的运动压缩(MotionCompression)和残差压缩(Residual Compression)中。
本发明的工作原理为:本发明通过特征提取模块将当前帧、解码后的前一帧和编码器侧的原始前一帧映射到各自的特征空间,提取的三个特征依次为Ft、Ft-1。然后将这三个特征输入到结构性保持运动估计网络(SPM-Net)中,以计算运动场θt。然后通过运动压缩模块将运动场θt进行压缩,发送到解码器侧,形成相应的重构运动场/>此外,利用运动补偿和预测增强网络(MCPE-Net),借助/>和/>生成预测特征/>然后,通过残差压缩模块将Ft和/>之间的残差Rt送至解码端,再与/>相加形成重建特征/>最后,使用一个重建网络(Recon-Net)来重建当前的帧/>
结构性保持运动估计模块(SPM-Net,Structure-Preserving Motion estimationNetwork):如图1所示,该网络包括三个部分:主运动场计算、辅助运动场计算、运动场融合。
首先通过一个轻量级网络生成主运动场△main:
其中,Conv3×3代表卷积核尺寸为3×3的卷积操作,ReLU代表激活函数,C()代表通道级的拼接操作,表示从后往前的顺序操作,比如△main这个公式就是:先拼接,然后经过第一个卷积,再经过一个ReLU激活函数,最后经过第二个卷积。这里的轻量级网络结构具体包括:2层3×3卷积与中间的ReLU激活函数。
同时通过一个相同的轻量级网络生成辅助运动场△aux:
融合模块(Fusion Module)结构如图2所示,包括:2层3×3卷积一层线性层的自适应网络、包括2层3×3卷积加Sigmoid激活函数的轻量网络、包括2层3×3卷积的针对Δmain的卷积操作、以及用于融合的3×3卷积;其中2层3×3卷积和一层线性层(Linear)的自适应网络是用来生成自适应卷积核的,达到从空间上融合的作用;2层3×3卷积加Sigmoid 激活函数的轻量网络用于从通道层面上融合。主运动场分别在空间层面和通道层面上与辅助运动场深度融合。
在空间层面上,通过提取△aux中的空间信息,本发明设计了一个自适应网络来预测卷积核:
其中Linear表示一个线性层,(·)n表示n个模块的串行级联,这里的n=2。之后将这些卷积核分别用于针对△main的卷积操作中:
其中Convk代表使用预测卷积核的卷积操作,这里的Conv代表卷积操作,而下标的k 代表使用的卷积核是由2层3×3卷积和一层线性层的自适应网络生成的。
在通道层面,首先利用轻量级网络获得通道注意力权值:
之后由权重和主运动场相乘得到△c:
最后本发明将△s和△c融合,以达到在空间层面和通道层面融合运动场的作用θt=△main+Conv3×3(△s+△c)。
运动补偿和预测增强网络(MCPE-Net,Motion Compensation and PredictionEnhancement Network):如图3所示,首先借助可变形卷积在和/>的指导下生成初始预测特征/>用于可变形卷积的偏移表示为:/>其中“G”代表可变形卷积中的通道组,“H”和“W”分别代表特征图的高和宽,“3×3”代表每个点有 9个方向的偏移。之后,初始预测特征计算如下:
由于可变形卷积DCN(Deformable Convolution Networks)在处理大的平坦区域时不是很有效,而且由于帧的连续性,中仍然有一些有用的信息可以在被使用。因此,本发明使用与图4相似的结构来细化/>具体结构见图3中/>之后的处理结构,具体的:使用作为辅助信息,加入了空间注意力机制与通道注意力机制,然后采用加法模块对空间注意力机制与通道注意力机制的输出进行融合,得到增强后的预测特征;其中空间注意力机制结构为:包括2层3×3卷积一层线性层的自适应网络、2层3×3卷积;通道注意力机制的结构为:包括2层3×3卷积加Sigmoid激活函数的轻量网络、乘法模块。如图3所示,在空间层面:
在通道层面:
最后生成了增强后的预测特征:
图4为背景技术中“公开号为:CN113298894A”的专利申请中的已知技术。
本发明使用Vimeo-90k作为训练集,并将图像的分辨率从448×256随机切割到256×256。本发明使用HEVC,UVG,MCL-JCV作为测试集。HEVC数据集(B类、C类、D类、E类) 包含16个视频,分辨率从416×240到1920×1080。UVG数据集包含7个视频,分辨率为 1920x1080。MCL-JCV数据集由30个1080p的视频序列组成。
本发明设置了四个λ值(MSE:256、512、1024、2048;MS-SSIM:8、16、32、64)来拟合速率失真的权衡。对于每个λ值,本发明使用损失函数L=λD+R以端到端方式对模型训练80轮。当使用MS-SSIM来度量性能时,本发明进一步使用MS-SSIM损失函数,从第80 轮开始继续进行优化,以达到最佳性能。本发明将batch size设置为4,并使用Adam优化器。整个模型由pytorch实现,并在NVIDIA RTX 3090GPU上完成训练。
为了验证本发明的方法可以作为视频压缩框架中的插件单元广泛使用,将本发明的方法从FVC移植到DCVC(Deep Contextual Video Compression,发表于NIPS2021)。DCVC是一个基于条件编码的框架,旨在基于运动估计和补偿生成准确的上下文信息。上下文被认为是时间先验,它被用于指导熵编码。如图5所示,其中SPME(FVC*)和SPME(DCVC) 为本发明的方法,分别表示在两个不同的基线上做的实验,其他模块的结构与DCVC模块相同。
为了验证本发明提出的方法的有效性,本发明将模型的测试结果与传统方法H.265、基线方法FVC、DCVC进行了比较。对于H.265,本发明使用基于深度学习的方法DVC-Pro 中的相同指令,以medium模式执行FFmpegX265压缩软件。对于帧内编码,本发明直接使用现有的深度图像压缩模型cheng-2020anchor和hyperprior来实现,其质量水平对应四个λ值分别设置为3、4、5和6。对于FVC,考虑到复杂度和公平的比较,本发明复现了没有多帧特征融合模块的模型,称为FVC*。按照基于深度学习的方法DVC-Pro和基线方法FVC,本发明将HEVC、UVG和MCL-JCV数据集的GOP大小分别设置为10、12和 12。
图5显示了这些方法在HEVC、UVG和MCL-JCV数据集上的速率失真曲线。图5中(a) -(l)每个子图中均标注了采用的数据集;图5中横坐标为bpp(bit per pixel),表示比特率;纵坐标为PSNR或MS-SSIM,均表示重建帧的质量,PSNR、MS-SSIM是不同的衡量方式。
从图5可以发现,在PSNR和MS-SSIM方面,本发明的方法在所有比特率范围内都优于基线FVC*。表1给出了BDBR值与H.265在PSNR方面的比较结果。本发明的模型在这些数据集上获得了约14.75%的收益,而FVC*只能获得约4.76%的收益。而对于DCVC,它可以实现26.82%的码率下降,但如果加上本发明的方法,就可以实现30.41%的码率下降。这表明,本发明提出的方法有利于在特征空间中的压缩方案。
表1各个方法对比H.265的码率节省
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (7)
1.一种使用结构性保持运动估计的端到端视频压缩方法,其特征在于,包括:
S1、提取待编码的当前帧、原始的前一帧以及经解码处理后的前一帧各自的特征;
S2、根据步骤S1提取的当前帧的特征与经解码处理后的前一帧的特征,计算得到主运动场;
S3、根据步骤S1提取的当前帧的特征与原始的前一帧的特征,计算得到辅运动场;
S4、对步骤S2的主运动场和S3的辅运动场进行融合,得到结构性保持的运动场;步骤S4具体为:主运动场分别在空间层面和通道层面上与辅助运动场深度融合,空间层面,表达式为:
θt=Δmain+Conv3×3(Δs+Δc)
其中,θt表示结构性保持的运动场,Δmain表示主运动场,Conv3×3代表卷积核尺寸为3×3的卷积操作,Convk代表使用预测卷积核的卷积操作,预测卷积核通过提取辅运动场的空间信息得到,/>y表示由辅助运动场得到的通道注意力权值;
S5、对步骤S4得到的运动场进行压缩,得到重构运动场;
S6、根据重构运动场与经解码处理的前一帧的特征生成初始预测特征,并优化得到增强预测特征;
S7、计算当前帧的特征与增强预测特征之间的残差;
S8、根据残差与增强预测特征,得到重建特征;
S9、根据重建特征对当前帧进行重建。
2.根据权利要求1所述的一种使用结构性保持运动估计的端到端视频压缩方法,其特征在于,预测卷积核表达式为:
其中,Linear表示一个线性层,(·)n表示n个模块的串行级联,Δaux表示辅运动场。
3.根据权利要求2所述的一种使用结构性保持运动估计的端到端视频压缩方法,其特征在于,步骤S6具体为:
S61、根据结构性保持的运动场,计算用于可变形卷积的偏移Ot;
S62、根据Ot与经解码处理的前一帧的特征,得到初始预测特征
S63、在空间层面对进行增强;
S64、在通道层面对进行增强;
S65、根据步骤S62、S63、S64的结果,得到增强预测特征,计算式为:
其中,表示增强预测特征,/>表示在通道层面对/>进行增强的结果,/>表示在空间层面对/>进行增强的结果。
4.根据权利要求3所述的一种使用结构性保持运动估计的端到端视频压缩方法,其特征在于,的计算式为:/>
5.根据权利要求3所述的一种使用结构性保持运动估计的端到端视频压缩方法,其特征在于,的计算式为/>
6.一种使用结构性保持运动估计的端到端视频压缩系统,其特征在于,包括:特征提取模块、结构性保持运动估计模块、运动压缩模块、运动补偿和预测增强模块、残差压缩模块、重建模块;
特征提取模块的输入为待编码的当前帧、原始的前一帧以及经解码处理的前一帧,特征提取模块的输出为待编码的当前帧、原始的前一帧以及经解码处理的前一帧各自的特征;
结构性保持运动估计模块根据输入的待编码的当前帧、原始的前一帧以及经解码处理的前一帧各自的特征,提取运动场;具体的:结构性保持运动估计模块包括了三个部分:主运动场计算单元、辅运动场计算单元、运动场融合单元;其中,主运动场计算单元使用当前帧的特征与经解码处理后的前一帧的特征计算得到主运动场,辅运动场计算单元使用当前帧的特征与原始的前一帧的特征计算得到辅运动场;运动场融合单元包括三个融合过程,第一个融合是从空间层面融合主运动场与辅运动场,第二个融合是通道层面融合主运动场与辅运动场,第三个融合是对空间层面融合后的结果与通道层面的融合结果进行再次融合,最后得到结构性保持的运动场;
运动压缩模块将输入的运动场进行压缩,从而输出重构运动场;
运动补偿和增强模块根据输入的重构运动场与经解码处理的前一帧的特征,生成预测特征;
残差压缩模块对当前帧特征与预测特征之间的残差进行压缩;
重建模块根据输入的压缩后的残差、预测特征,得到重建后的当前帧。
7.根据权利要求6所述的一种使用结构性保持运动估计的端到端视频压缩系统,其特征在于,运动补偿和增强模块,包括:初始预测特征生成单元、空间层面增强单元、通道层面增强单元、融合单元;
初始预测特征生成单元包括可变形卷积,根据输入的结构性保持的运动场与经解码处理的前一帧的特征,生成初始预测特征;
所述空间层面增强单元包括自适应网络与2层卷积,根据输入的初始预测特征与经解码处理的前一帧的特征,输出空间层面增强信息;
所述通道层面增强单元包括轻量网络,根据输入的初始预测特征、经解码处理的前一帧的特征,输出通道层面增强信息;
所述融合单元输入为初始预测特征、空间层面增强信息以及通道层面增强信息,得到增强后的预测特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210449954.5A CN115002482B (zh) | 2022-04-27 | 2022-04-27 | 使用结构性保持运动估计的端到端视频压缩方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210449954.5A CN115002482B (zh) | 2022-04-27 | 2022-04-27 | 使用结构性保持运动估计的端到端视频压缩方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115002482A CN115002482A (zh) | 2022-09-02 |
CN115002482B true CN115002482B (zh) | 2024-04-16 |
Family
ID=83024833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210449954.5A Active CN115002482B (zh) | 2022-04-27 | 2022-04-27 | 使用结构性保持运动估计的端到端视频压缩方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115002482B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115529457B (zh) * | 2022-09-05 | 2024-05-14 | 清华大学 | 基于深度学习的视频压缩方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1934867A (zh) * | 2004-03-02 | 2007-03-21 | 汤姆森许可贸易公司 | 采用分级时间分析的图像序列编码和解码方法 |
CN101272498A (zh) * | 2008-05-14 | 2008-09-24 | 杭州华三通信技术有限公司 | 一种视频编码方法及视频编码装置 |
CN104718756A (zh) * | 2013-01-30 | 2015-06-17 | 英特尔公司 | 用于下一代视频译码的、利用经修改的参考的内容自适应预测性图片和功能预测性图片 |
EP3087745A1 (en) * | 2013-12-27 | 2016-11-02 | Intel Corporation | Content adaptive dominant motion compensated prediction for next generation video coding |
WO2017092072A1 (zh) * | 2015-12-04 | 2017-06-08 | 中国矿业大学 | 一种分布式视频编码框架 |
CN111726623A (zh) * | 2020-05-26 | 2020-09-29 | 上海交通大学 | 提升空间可分级编码视频在丢包网络中重建质量的方法 |
CN112218086A (zh) * | 2019-07-11 | 2021-01-12 | 中兴通讯股份有限公司 | 编码、解码方法、传输方法、编码、解码装置及系统 |
CN112970256A (zh) * | 2018-09-14 | 2021-06-15 | 皇家Kpn公司 | 基于经全局运动补偿的运动矢量的视频编码 |
CN113298894A (zh) * | 2021-05-19 | 2021-08-24 | 北京航空航天大学 | 一种基于深度学习特征空间的视频压缩方法 |
CN114022809A (zh) * | 2021-10-28 | 2022-02-08 | 三峡大学 | 基于改进自编码网络的视频运动放大方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100670495B1 (ko) * | 2004-12-20 | 2007-01-16 | 엘지전자 주식회사 | 동영상 압축 부호화 장치 및 방법 |
-
2022
- 2022-04-27 CN CN202210449954.5A patent/CN115002482B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1934867A (zh) * | 2004-03-02 | 2007-03-21 | 汤姆森许可贸易公司 | 采用分级时间分析的图像序列编码和解码方法 |
CN101272498A (zh) * | 2008-05-14 | 2008-09-24 | 杭州华三通信技术有限公司 | 一种视频编码方法及视频编码装置 |
CN104718756A (zh) * | 2013-01-30 | 2015-06-17 | 英特尔公司 | 用于下一代视频译码的、利用经修改的参考的内容自适应预测性图片和功能预测性图片 |
EP3087745A1 (en) * | 2013-12-27 | 2016-11-02 | Intel Corporation | Content adaptive dominant motion compensated prediction for next generation video coding |
WO2017092072A1 (zh) * | 2015-12-04 | 2017-06-08 | 中国矿业大学 | 一种分布式视频编码框架 |
CN112970256A (zh) * | 2018-09-14 | 2021-06-15 | 皇家Kpn公司 | 基于经全局运动补偿的运动矢量的视频编码 |
CN112218086A (zh) * | 2019-07-11 | 2021-01-12 | 中兴通讯股份有限公司 | 编码、解码方法、传输方法、编码、解码装置及系统 |
CN111726623A (zh) * | 2020-05-26 | 2020-09-29 | 上海交通大学 | 提升空间可分级编码视频在丢包网络中重建质量的方法 |
CN113298894A (zh) * | 2021-05-19 | 2021-08-24 | 北京航空航天大学 | 一种基于深度学习特征空间的视频压缩方法 |
CN114022809A (zh) * | 2021-10-28 | 2022-02-08 | 三峡大学 | 基于改进自编码网络的视频运动放大方法 |
Non-Patent Citations (1)
Title |
---|
FVC: A New Framework towards Deep Video Compression in Feature Space;Zhihao Hu 等;《 CVPR2021 》;20210520;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115002482A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107197260B (zh) | 基于卷积神经网络的视频编码后置滤波方法 | |
US8582904B2 (en) | Method of second order prediction and video encoder and decoder using the same | |
TWI626842B (zh) | Motion picture coding device and its operation method | |
CN103959774B (zh) | 用于高效视频编码的运动信息的有效存储 | |
CN107027029A (zh) | 基于帧率变换的高性能视频编码改进方法 | |
JP4685849B2 (ja) | スケーラブルビデオコーディング及びデコーディング方法、並びにその装置 | |
JP2007503776A (ja) | インター符号化に使われる参照画像数を最小化するための方法および装置 | |
JP2006519564A (ja) | ビデオ符号化 | |
EP1999958A2 (en) | Method of reducing computations in intra-prediction and mode decision processes in a digital video encoder | |
CN106961610B (zh) | 一种结合超分辨率重建的超高清视频新型压缩框架 | |
US20140241422A1 (en) | Method and apparatus for image encoding and decoding using adaptive quantization parameter differential | |
WO2021120614A1 (zh) | 二次编码优化方法 | |
CN108235025B (zh) | 自适应帧间参考结构的拉格朗日乘子优化方法 | |
EP4322523A1 (en) | Residual coding method and device, video coding method and device, and storage medium | |
Meng et al. | Enhancing quality for VVC compressed videos by jointly exploiting spatial details and temporal structure | |
CN115002482B (zh) | 使用结构性保持运动估计的端到端视频压缩方法及系统 | |
CN106412611A (zh) | 一种高效视频编码的复杂度控制方法 | |
CN102026001A (zh) | 基于运动信息的视频帧重要性评估方法 | |
CN115442618A (zh) | 基于神经网络的时域-空域自适应视频压缩 | |
KR20170114598A (ko) | 적응적 색상 순서에 따른 색상 성분 간 예측을 이용한 동영상 부호화 및 복호화 방법 및 장치 | |
CN114827616B (zh) | 一种基于时空信息平衡的压缩视频质量增强方法 | |
CN113055674A (zh) | 一种基于两阶段多帧协同的压缩视频质量增强方法 | |
Wang et al. | A low complexity compressed sensing-based codec for consumer depth video sensors | |
CN100586185C (zh) | 一种h.264视频降低分辨率转码的模式选择方法 | |
CN114793282A (zh) | 带有比特分配的基于神经网络的视频压缩 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |