CN117640943A - 一种基于视频技术的智能视频压缩方法和系统 - Google Patents
一种基于视频技术的智能视频压缩方法和系统 Download PDFInfo
- Publication number
- CN117640943A CN117640943A CN202311659730.8A CN202311659730A CN117640943A CN 117640943 A CN117640943 A CN 117640943A CN 202311659730 A CN202311659730 A CN 202311659730A CN 117640943 A CN117640943 A CN 117640943A
- Authority
- CN
- China
- Prior art keywords
- video
- frame
- network
- reconstructed
- key frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007906 compression Methods 0.000 title claims abstract description 83
- 230000006835 compression Effects 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000006870 function Effects 0.000 claims description 86
- 238000005457 optimization Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000008485 antagonism Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000008447 perception Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 9
- 238000013441 quality evaluation Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 4
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 8
- 230000004913 activation Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于视频技术的智能视频压缩方法和系统,包括:将输入的原始视频帧分为关键帧和非关键帧;将关键帧编码为低维的隐向量,解码为重建后的关键帧;估计非关键帧与相邻的关键帧之间的运动向量,生成预测后的非关键帧;将非关键帧与预测后的非关键帧之间的残差编码为低维的残差隐向量,解码为重建后的残差;将重建后的残差与预测后的非关键帧相加,得到重建后的非关键帧;判断重建后的视频帧与原始视频帧之间的真假程度;衡量重建后的视频帧与原始视频帧之间的像素级差异;优化平衡压缩后的视频码率和重建后的视频画质。本发明提供的基于视频技术的智能视频压缩方法和系统具有更高效、更灵活、更智能的优点。
Description
技术领域
本发明涉及视频压缩技术领域,尤其涉及一种基于视频技术的智能视频压缩方法和系统。
背景技术
视频压缩是指将视频数据的冗余部分去除,从而减少视频文件的大小,提高视频传输和存储的效率的技术。视频压缩技术通常包括编码和解码两个过程,分别对应于将原始视频数据转换为压缩格式和将压缩格式还原为原始视频数据的操作。视频压缩技术的核心是设计有效的编码和解码算法,以实现在保证一定画质的前提下,尽可能地降低视频码率。
近年来,基于人工智能的深度学习技术在图像处理、计算机视觉、自然语言处理等领域取得了突破性的成果,也引起了视频压缩领域研究者的广泛关注。基于深度学习的视频压缩方法主要有两种思路:一种是将深度学习网络作为混合编码框架中某个或多个模块的替代或补充;另一种是将整个视频压缩过程建模为一个端到端的深度学习网络。基于深度学习的方法可以自动地从大量数据中学习有效的视频表示和压缩策略,从而提高视频压缩的性能和适应性。
目前,主流的视频压缩技术是基于混合编码框架的方法。混合编码框架主要包括以下几个模块:帧内预测、帧间预测、变换、量化和熵编码。基于混合编码框架的方法虽然在过去几十年取得了显著的进步,但也存在一些局限性和挑战。一方面,混合编码框架中的各个模块都是基于人工设计和优化的,难以充分利用视频数据本身的特征和规律。另一方面,随着视频分辨率、帧率、动态范围等参数的不断提高,混合编码框架中的参数和复杂度也随之增加,导致编解码效率降低和硬件成本增加。因此,如何设计更高效、更灵活、更智能的视频压缩技术,是当前视频领域面临的重要问题。
因此,有必要提供一种新的基于视频技术的智能视频压缩方法和系统解决上述技术问题。
发明内容
本发明的一个目的在于提出一种基于视频技术的智能视频压缩方法和系统,本发明通过利用深度学习技术,实现端到端的视频压缩网络,从而自动地从大量数据中学习有效的视频表示和压缩策略。
根据本发明实施例的一种基于视频技术的智能视频压缩方法和系统,包括
S1、使用全参考图像质量评价指标将输入的原始视频帧分为关键帧和非关键帧;
作为本发明进一步的方案,所述全参考图像质量评价指标是结构相似性,简称SSIM;
所述S1具体包括:
S11、将输入的原始视频序列中的第一帧作为第一个关键帧;
S12、将每个后续的视频帧计算与前一个关键帧之间的SSIM值;
S13、SSIM值小于预先设定的阈值,视频帧作为下一个关键帧,SSIM值大于预先设定的阈值,视频帧作为非关键帧;
S14、重复S12和S13,直到所有的视频帧都被划分为关键帧或非关键帧;
所述全参考图像质量评价指标(SSIM)的计算公式为:
其中,x和y是两个待比较的图像信号,μx和μy是它们的均值,和/>是它们的方差,σxy是它们的协方差,c1和c2是两个常数,用于避免分母为零,SSIM的取值范围是[-1,1],其中1表示完全相同,-1表示完全不同。
S2、将每个关键帧使用编码器网络编码为低维的隐向量,并使用解码器网络解码为重建后的关键帧;
作为本发明进一步的方案,所述S2具体包括:
S21、将每个关键帧使用编码器网络编码为低维的隐向量;
S22、将每个隐向量使用瓶颈层进行量化或熵编码,得到压缩后的隐向量;
S23、将每个压缩后的隐向量,使用解码器网络解码为重建后的关键帧;
作为本发明进一步的方案,所述编码器网络和所述解码器网络之间设置有瓶颈层,用于实现有损压缩。
S3、将每个非关键帧使用运动估计网络估计与相邻的关键帧之间的运动向量,并使用运动补偿网络根据运动向量和相邻的关键帧生成预测后的非关键帧;
作为本发明进一步的方案,所述S3具体包括:
S31、将每个非关键帧使用运动估计网络估计与相邻的关键帧之间的运动向量,运动向量是一个与非关键帧大小相同的矩阵,每个元素表示对应像素点在两个帧之间的水平和垂直方向上的位移;
S32、将每个运动向量使用运动补偿网络根据和相邻的关键帧生成预测后的非关键帧,预测后的非关键帧是一个与非关键帧大小相同的矩阵,每个元素表示根据运动向量和关键帧插值得到的像素值。
S4、将每个非关键帧使用残差编码器网络与预测后的非关键帧之间的残差编码为低维的残差隐向量,并使用残差解码器网络解码为重建后的残差;
作为本发明进一步的方案,所述残差编码器网络和所述残差解码器网络之间设置有所述瓶颈层,用于实现有损压缩。
S5、将每个非关键帧使用融合网络将重建后的残差与预测后的非关键帧相加,得到重建后的非关键帧;
作为本发明进一步的方案,所述S5具体包括:
S51、将每个非关键帧使用融合网络将重建后的残差与预测后的非关键帧相加,得到重建后的非关键帧,重建后的非关键帧是一个与非关键帧大小相同的矩阵,每个元素表示根据重建后的残差和预测后的非关键帧相加得到的像素值;
S52、使用深度神经网络学习从重建后的残差和预测后的非关键帧到重建后的非关键帧的非线性映射。
S6、使用判别器网络判断重建后的视频帧与原始视频帧之间的真假程度,并提供对抗性损失,使得重建后的视频帧更接近原始视频帧;
作为本发明进一步的方案,所述S6具体包括:
S61、将每个原始视频帧和重建后的视频帧使用判别器网络来判断真假程度,判别器网络的输出是一个与视频帧大小相同的矩阵,每个元素表示对应像素点属于真实视频帧的概率;
S62、将每个判别器网络的输出使用对抗性损失函数来衡量与真实标签之间的差异;
S63、将每个对抗性损失函数的值使用优化算法更新判别器网络的参数,使得对抗性损失函数的值达到最小,即使得判别器网络能够更好地区分真实视频帧和重建视频帧;
所述对抗性损失函数利用二元交叉熵实现,计算公式为:
La(y,t)=-tlog(y)-(1-t)log(1-y)
其中,y是判别器网络的输出,t是真实标签,t=1表示真实视频帧,t=0表示重建视频帧。
S7、使用感知网络提取重建后的视频帧与原始视频帧之间的高层特征,并提供感知性损失,使得重建后的视频帧更保留原始视频帧的语义信息和视觉质量;
作为本发明进一步的方案,所述S7具体包括:
S71、将每个原始视频帧和重建后的视频帧使用感知网络来提取其高层特征,感知网络的输出是一个与视频帧大小不同的矩阵,每个元素表示对应区域的特征值;
S72、将每个感知网络的输出使用感知性损失函数衡量与原始视频帧的高层特征之间的差异;
S73、将每个感知性损失函数的值使用优化算法更新编码器网络和解码器网络的参数,使得感知性损失函数的值达到最小,即使得重建后的视频帧更保留原始视频帧的语义信息和视觉质量;
所述感知性损失函数利用均方误差法实现,计算公式为:
其中,N是感知网络输出矩阵中的元素个数,和/>是第n个元素的值;
所述优化算法利用随机梯度下降法实现,随机梯度下降的更新公式公式为:
其中,θt是编码器网络和解码器网络在第t次迭代时的参数,α是学习率,是感知性损失函数Lp关于参数θt的梯度。
S8、使用重建损失衡量重建后的视频帧与原始视频帧之间的像素级差异,使得重建后的视频帧更减少失真;
作为本发明进一步的方案,所述S8具体包括:
S81、将每个原始视频帧和重建后的视频帧使用重建损失函数来衡量之间的像素级差异,所述重建损失函数采用均方误差方法实现;
S82、将每个重建损失函数的值使用优化算法更新编码器网络和解码器网络的参数,使得重建损失函数的值达到最小,即使得重建后的视频帧更接近原始视频帧。
S9、使用率失真优化平衡压缩后的视频码率和重建后的视频画质,使得视频压缩的性能达到最优;
作为本发明进一步的方案,所述S9具体包括:
S91、将每个视频帧和重建后的视频帧,定义一个失真函数衡量其之间的画质差异,失真函数的值越小,表示重建后的视频画质越高;
S92、将每个视频帧和重建后的视频帧,定义一个码率函数来衡量之间的压缩比例,码率函数的值越小,表示压缩后的视频码率越低;
S93、将每个视频帧和重建后的视频帧,定义一个拉格朗日函数来平衡其之间的失真和码率,拉格朗日函数的值越小,表示视频压缩的性能越高;
S94、将每个拉格朗日函数的值,使用优化算法来更新编码器网络和解码器网络的参数,使得拉格朗日函数的值达到最小,即使得重建后的视频帧既减少失真又降低码率。
本发明提供了一种基于视频技术的智能视频压缩方法和系统,有益效果在于:通过使用编码器网络和解码器网络实现关键帧的压缩和重建,可以有效地降低关键帧的编码量,提高关键帧的画质,从而减少视频压缩的时间和空间开销,通过使用运动估计网络和运动补偿网络来实现非关键帧的预测和重建,可以有效地利用视频数据在时间上的冗余性,提高非关键帧的画质,从而减少视频压缩的失真和噪声,通过使用残差编码器网络和残差解码器网络来实现非关键帧的压缩和重建,可以有效地利用视频数据在空间上的相似性,提高非关键帧的画质,从而减少视频压缩的模糊和失真,通过使用融合网络来实现非关键帧的重建,可以有效地结合重建后的残差和预测后的非关键帧,提高非关键帧的画质,从而减少视频压缩的失真和噪声,通过使用判别器网络来实现视频压缩中的对抗性损失,可以有效地使得重建后的视频帧更接近原始视频帧,提高视频压缩的画质和逼真度,从而增强视频压缩的感知效果和用户体验,通过使用感知网络来实现视频压缩中的感知性损失,可以有效地使得重建后的视频帧更保留原始视频帧的语义信息和视觉质量,提高视频压缩的画质和质量,从而增强视频压缩的感知效果和用户体验,通过使用率失真优化来实现视频压缩中的率失真平衡,可以有效地平衡压缩后的视频码率和重建后的视频画质,提高视频压缩的效率和质量,从而达到最优的视频压缩性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提出的一种基于视频技术的智能视频压缩系统的结构框图;
图2为本发明提出的一种基于视频技术的智能视频压缩系统的有损压缩流程图;
图3为本发明提出的一种基于视频技术的智能视频压缩系统的优化部件结构框图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
参见图1-图3,本发明实施例提供的一种基于视频技术的智能视频压缩方法和系统包括:
S1、使用全参考图像质量评价指标将输入的原始视频帧分为关键帧和非关键帧;
本实施方式中,全参考图像质量评价指标是结构相似性,简称SSIM;
S1具体包括:
S11、将输入的原始视频序列中的第一帧作为第一个关键帧;
S12、将每个后续的视频帧计算与前一个关键帧之间的SSIM值;
S13、SSIM值小于预先设定的阈值,视频帧作为下一个关键帧,SSIM值大于预先设定的阈值,视频帧作为非关键帧;
S14、重复S12和S13,直到所有的视频帧都被划分为关键帧或非关键帧;
本实施方式中,所述全参考图像质量评价指标(SSIM)的计算公式为:
其中,x和y是两个待比较的图像信号,μx和μy是它们的均值,和/>是它们的方差,σxy是它们的协方差,c1和c2是两个常数,用于避免分母为零,SSIM的取值范围是[-1,1],其中1表示完全相同,-1表示完全不同。
S2、将每个关键帧使用编码器网络编码为低维的隐向量,并使用解码器网络解码为重建后的关键帧;
本实施方式中,S2具体包括:
S21、将每个关键帧使用编码器网络编码为低维的隐向量;
S22、将每个隐向量使用瓶颈层进行量化或熵编码,得到压缩后的隐向量;
S23、将每个压缩后的隐向量,使用解码器网络解码为重建后的关键帧;
通过这种方法,本发明可以实现关键帧的压缩和重建,从而减少关键帧的编码量,提高视频压缩的性能和画质。
S3、将每个非关键帧使用运动估计网络估计与相邻的关键帧之间的运动向量,并使用运动补偿网络根据运动向量和相邻的关键帧生成预测后的非关键帧;
本实施方式中,运动估计网络和运动补偿网络采用基于深度学习的光流方法,即使用深度神经网络估计两个相邻帧之间的光流进行实现;
本实施方式中,S3具体包括:
S31、将每个非关键帧使用运动估计网络估计与相邻的关键帧之间的运动向量,运动向量是一个与非关键帧大小相同的矩阵,每个元素表示对应像素点在两个帧之间的水平和垂直方向上的位移;
S32、将每个运动向量使用运动补偿网络根据和相邻的关键帧生成预测后的非关键帧,预测后的非关键帧是一个与非关键帧大小相同的矩阵,每个元素表示根据运动向量和关键帧插值得到的像素值。
S4、将每个非关键帧使用残差编码器网络与预测后的非关键帧之间的残差编码为低维的残差隐向量,并使用残差解码器网络解码为重建后的残差;
本实施方式中,残差编码器网络和残差解码器网络之间设置有瓶颈层,用于实现有损压缩。
S5、将每个非关键帧使用融合网络将重建后的残差与预测后的非关键帧相加,得到重建后的非关键帧;
本实施方式中,S5具体包括:
S51、将每个非关键帧使用融合网络将重建后的残差与预测后的非关键帧相加,得到重建后的非关键帧,重建后的非关键帧是一个与非关键帧大小相同的矩阵,每个元素表示根据重建后的残差和预测后的非关键帧相加得到的像素值;
S52、使用深度神经网络学习从重建后的残差和预测后的非关键帧到重建后的非关键帧的非线性映射。
S6、使用判别器网络判断重建后的视频帧与原始视频帧之间的真假程度,并提供对抗性损失,使得重建后的视频帧更接近原始视频帧;
本实施方式中,S6具体包括:
S61、将每个原始视频帧和重建后的视频帧使用判别器网络来判断真假程度,判别器网络的输出是一个与视频帧大小相同的矩阵,每个元素表示对应像素点属于真实视频帧的概率;
S62、将每个判别器网络的输出使用对抗性损失函数来衡量与真实标签之间的差异;
S63、将每个对抗性损失函数的值使用优化算法更新判别器网络的参数,使得对抗性损失函数的值达到最小,即使得判别器网络能够更好地区分真实视频帧和重建视频帧;
本实施方式中,所述对抗性损失函数利用二元交叉熵实现,计算公式为:
La(y,t)=-tlog(y)-(1-t)log(1-y)
其中,y是判别器网络的输出,t是真实标签,t=1表示真实视频帧,t=0表示重建视频帧。
S7、使用感知网络提取重建后的视频帧与原始视频帧之间的高层特征,并提供感知性损失,使得重建后的视频帧更保留原始视频帧的语义信息和视觉质量;
本实施方式中,S7具体包括:
S71、将每个原始视频帧和重建后的视频帧使用感知网络来提取其高层特征,感知网络的输出是一个与视频帧大小不同的矩阵,每个元素表示对应区域的特征值;
S72、将每个感知网络的输出使用感知性损失函数衡量与原始视频帧的高层特征之间的差异;
S73、将每个感知性损失函数的值使用优化算法更新编码器网络和解码器网络的参数,使得感知性损失函数的值达到最小,即使得重建后的视频帧更保留原始视频帧的语义信息和视觉质量;
本实施方式中,所述感知性损失函数利用均方误差法实现,计算公式为:
其中,N是感知网络输出矩阵中的元素个数,和/>是第n个元素的值;
所述优化算法利用随机梯度下降法实现,随机梯度下降的更新公式公式为:
其中,θt是编码器网络和解码器网络在第t次迭代时的参数,α是学习率,是感知性损失函数Lp关于参数θt的梯度。
S8、使用重建损失衡量重建后的视频帧与原始视频帧之间的像素级差异,使得重建后的视频帧更减少失真;
本实施方式中,S8具体包括:
S81、将每个原始视频帧和重建后的视频帧使用重建损失函数来衡量之间的像素级差异,重建损失函数采用均方误差方法实现;
S82、将每个重建损失函数的值使用优化算法更新编码器网络和解码器网络的参数,使得重建损失函数的值达到最小,即使得重建后的视频帧更接近原始视频帧。
S9、使用率失真优化平衡压缩后的视频码率和重建后的视频画质,使得视频压缩的性能达到最优。
本实施方式中,S9具体包括:
S91、将每个视频帧和重建后的视频帧,定义一个失真函数衡量其之间的画质差异,失真函数的值越小,表示重建后的视频画质越高;
S92、将每个视频帧和重建后的视频帧,定义一个码率函数来衡量之间的压缩比例,码率函数的值越小,表示压缩后的视频码率越低;
S93、将每个视频帧和重建后的视频帧,定义一个拉格朗日函数来平衡其之间的失真和码率,拉格朗日函数的值越小,表示视频压缩的性能越高;
S94、将每个拉格朗日函数的值,使用优化算法来更新编码器网络和解码器网络的参数,使得拉格朗日函数的值达到最小,即使得重建后的视频帧既减少失真又降低码率。
实施例:
S11、输入原始视频序列V={F1,F2,...,Fn},其中Fi表示第i帧,n表示总帧数,将第一帧F1作为第一个关键帧,即K1=F1,其中Ki表示第i个关键帧;
S12、对于每一个后续的视频帧Fi,计算其与前一个关键帧Kj之间的SSIM值,即SSIM(Fi,Kj),SSIM的计算公式如下:
其中,x和y是两个待比较的图像信号,μx和μy是它们的均值,和/>是它们的方差,σxy是它们的协方差,c1和c2是两个常数,用于避免分母为零,SSIM的取值范围是[-1,1],其中1表示完全相同,-1表示完全不同;
S13、如果SSIM(Fi,Kj)小于一个预先设定的阈值T,则将Fi作为下一个关键帧,即Kj+1=Fi;否则,将Fi作为非关键帧;
S14、重复S12和S13,直到所有的视频帧都被划分为关键帧或非关键帧;
S21、对于每一个关键帧Ki,使用一个编码器网络E将其编码为一个低维的隐向量zi,即zi=E(Ki),编码器网络E可以采用多层卷积神经网络,例如:
E(Ki)=Conv5(ReLU(Conv4(ReLU(Conv3(ReLU(Conv2(ReLU(Conv1(Ki)))))))))
其中,Convj表示第j个卷积层,ReLU表示线性整流单元激活函数;
S22、对于每一个隐向量zi,使用一个瓶颈层B将其进行量化或者熵编码,从而得到一个压缩后的隐向量即/>瓶颈层B可以采用以下方法之一:
量化方法:将隐向量zi中的每个元素四舍五入为最接近的整数值,即
熵编码方法:将隐向量zi中的每个元素根据其概率分布赋予一个不同长度的二进制编码,例如使用霍夫曼编码或者算术编码等方法;
S23、对于每一个压缩后的隐向量使用一个解码器网络D将其解码为一个重建后的关键帧/>即/>解码器网络D可以采用多层卷积神经网络,例如:
其中,ConvTj表示第j个转置卷积层,也称为反卷积层或上采样层,用于将低维的隐向量扩展为高维的输出数据;
S31、对于每一个非关键帧Fi,使用一个运动估计网络M来估计其与相邻的关键帧Kj之间的运动向量mi,即mi=M(Fi,Kj),运动向量mi是一个与非关键帧Fi大小相同的矩阵,每个元素表示对应像素点在两个帧之间的水平和垂直方向上的位移,运动估计网络M可以采用多层卷积神经网络,例如:
M(Fi,Kj)=Conv5(ReLU(Conv4(ReLU(Conv3(ReLU(Conv2(ReLU(Conv1(Fi,Kj)))))))))
其中,Convj表示第j个卷积层,ReLU表示线性整流单元激活函数,(Fi,Kj)表示将两个帧在通道维度上拼接起来作为输入;
S32、对于每一个运动向量mi,使用一个运动补偿网络C来根据其和相邻的关键帧Kj生成一个预测后的非关键帧即/>预测后的非关键帧/>是一个与非关键帧Fi大小相同的矩阵,每个元素表示根据运动向量和关键帧插值得到的像素值,运动补偿网络C可以采用多层卷积神经网络,例如:C(mi,Kj)=ConvT1(ReLU(ConvT2(ReLU(ConvT3(ReLU(ConvT4(ReLU(ConvT5(mi,Kj)))))))))
其中,ConvTj表示第j个转置卷积层,ReLU表示线性整流单元激活函数,(mi,Kj)表示将两个矩阵在通道维度上拼接起来作为输入;
S4、对于每一个非关键帧,使用一个残差编码器网络将其与预测后的非关键帧之间的残差编码为一个低维的残差隐向量,并使用一个残差解码器网络将其解码为一个重建后的残差,残差编码器网络和残差解码器网络也可以采用卷积神经网络或者其他深度神经网络结构,残差编码器网络和残差解码器网络之间也可以添加一个瓶颈层,用于对残差隐向量进行量化或者熵编码,从而实现有损压缩;
S51、对于每一个非关键帧Fi,使用一个融合网络G将重建后的残差与预测后的非关键帧/>相加,从而得到重建后的非关键帧/>即/>重建后的非关键帧/>是一个与非关键帧Fi大小相同的矩阵,每个元素表示根据重建后的残差和预测后的非关键帧相加得到的像素值,融合网络G可以采用加法操作将重建后的残差/>与预测后的非关键帧/>在像素级别上进行相加,即/>
S52、使用深度神经网络来学习从重建后的残差和预测后的非关键帧/>到重建后的非关键帧/>的非线性映射,例如:
其中,ConvTj表示第j个转置卷积层,ReLU表示线性整流单元激活函数,表示将两个矩阵在通道维度上拼接起来作为输入;
S61、对于每一个原始视频帧Fi和重建后的视频帧使用一个判别器网络D来判断其真假程度,即D(Fi)和/>判别器网络D的输出是一个与视频帧大小相同的矩阵,每个元素表示对应像素点属于真实视频帧的概率,判别器网络D可以采用多层全卷积神经网络,例如:
D(Fi)=Conv5(ReLU(Conv4(ReLU(Conv3(ReLU(Conv2(ReLU(Conv1(Fi)))))))))
其中,Convj表示第j个卷积层,ReLU表示线性整流单元激活函数;
S62、对于每一个判别器网络D的输出,使用一个对抗性损失函数La来衡量其与真实标签之间的差异,即La(D(Fi),1)和对抗性损失函数La可以采用二元交叉熵或者其他深度学习方法来实现,二元交叉熵的计算公式如下:
La(y,t)=-tlog(y)-(1-t)log(1-y)
其中,y是判别器网络的输出,t是真实标签,t=1表示真实视频帧,t=0表示重建视频帧;
S63、对于每一个对抗性损失函数La的值,使用一个优化算法来更新判别器网络D的参数,使得对抗性损失函数La的值达到最小,即使得判别器网络D能够更好地区分真实视频帧和重建视频帧,优化算法可以采用随机梯度下降方法来实现,随机梯度下降的更新公式如下:
其中,θt是判别器网络D在第t次迭代时的参数,α是学习率,是对抗性损失函数La关于参数θt的梯度;
S71、对于每一个原始视频帧Fi和重建后的视频帧使用一个感知网络P来提取其高层特征pi和/>即pi=P(Fi)和/>感知网络P的输出是一个与视频帧大小不同的矩阵,每个元素表示对应区域的特征值,感知网络P可以采用预训练的图像分类网络,例如:
P(Fi)=FC3(ReLU(FC2(ReLU(FC1(Flatten(Conv5(ReLU
(Conv4(ReLU(Conv3(ReLU(Conv2(ReLU(Conv1(Fi)))))))))))))))
其中,Convj表示第j个卷积层,FCj表示第j个全连接层,ReLU表示线性整流单元激活函数,Flatten表示将多维矩阵展平为一维向量;
S72、对于每一个感知网络P的输出,使用一个感知性损失函数Lp来衡量其与原始视频帧的高层特征之间的差异,即感知性损失函数Lp可以采用均方误差方法来实现,均方误差的计算公式如下:
其中,N是感知网络输出矩阵中的元素个数,和/>是第n个元素的值;
S73、对于每一个感知性损失函数Lp的值,使用一个优化算法来更新编码器网络和解码器网络的参数,使得感知性损失函数Lp的值达到最小,即使得重建后的视频帧更保留原始视频帧的语义信息和视觉质量,优化算法可以采用随机梯度下降方法来实现,随机梯度下降的更新公式如下:
其中,θt是编码器网络和解码器网络在第t次迭代时的参数,α是学习率,是感知性损失函数Lp关于参数θt的梯度;
S81、对于每一个原始视频帧Fi和重建后的视频帧使用一个重建损失函数Lr来衡量其之间的像素级差异,即/>重建损失函数Lr可以采用均方误差方法来实现,均方误差的计算公式如下:
其中,N是视频帧中的像素个数,和/>是第n个像素的值;
S82、对于每一个重建损失函数Lr的值,使用一个优化算法来更新编码器网络和解码器网络的参数,使得重建损失函数Lr的值达到最小,即使得重建后的视频帧更接近原始视频帧;
S91、对于每一个视频帧Fi和重建后的视频帧定义一个失真函数/>来衡量其之间的画质差异,例如使用均方误差或者感知性损失等方法,失真函数/>的值越小,表示重建后的视频画质越高;
S92、对于每一个视频帧Fi和重建后的视频帧定义一个码率函数/>来衡量其之间的压缩比例,例如使用熵编码或者量化等方法,码率函数/>的值越小,表示压缩后的视频码率越低;
S93、对于每一个视频帧Fi和重建后的视频帧定义一个拉格朗日函数来平衡其之间的失真和码率,即
其中,λ是一个拉格朗日乘子,用于控制失真和码率之间的权重,拉格朗日函数的值越小,表示视频压缩的性能越高;/>
S94、对于每一个拉格朗日函数的值,使用一个优化算法来更新编码器网络和解码器网络的参数,使得拉格朗日函数/>的值达到最小,即使得重建后的视频帧既减少失真又降低码率,优化算法可以采用随机梯度下降方法来实现,随机梯度下降的更新公式如下:
其中,θt是编码器网络和解码器网络在第t次迭代时的参数,α是学习率,是拉格朗日函数/>关于参数θt的梯度。
与相关技术相比较,本发明提供的基于视频技术的智能视频压缩方法和系统具有如下有益效果:
本发明提供一种基于视频技术的智能视频压缩方法和系统,通过使用编码器网络和解码器网络实现关键帧的压缩和重建,可以有效地降低关键帧的编码量,提高关键帧的画质,从而减少视频压缩的时间和空间开销,通过使用运动估计网络和运动补偿网络来实现非关键帧的预测和重建,可以有效地利用视频数据在时间上的冗余性,提高非关键帧的画质,从而减少视频压缩的失真和噪声,通过使用残差编码器网络和残差解码器网络来实现非关键帧的压缩和重建,可以有效地利用视频数据在空间上的相似性,提高非关键帧的画质,从而减少视频压缩的模糊和失真,通过使用融合网络来实现非关键帧的重建,可以有效地结合重建后的残差和预测后的非关键帧,提高非关键帧的画质,从而减少视频压缩的失真和噪声,通过使用判别器网络来实现视频压缩中的对抗性损失,可以有效地使得重建后的视频帧更接近原始视频帧,提高视频压缩的画质和逼真度,从而增强视频压缩的感知效果和用户体验,通过使用感知网络来实现视频压缩中的感知性损失,可以有效地使得重建后的视频帧更保留原始视频帧的语义信息和视觉质量,提高视频压缩的画质和质量,从而增强视频压缩的感知效果和用户体验,通过使用率失真优化来实现视频压缩中的率失真平衡,可以有效地平衡压缩后的视频码率和重建后的视频画质,提高视频压缩的效率和质量,从而达到最优的视频压缩性能。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种基于视频技术的智能视频压缩方法和系统,其特征在于,包括:
S1、使用全参考图像质量评价指标将输入的原始视频帧分为关键帧和非关键帧;
S2、将每个关键帧使用编码器网络编码为低维的隐向量,并使用解码器网络解码为重建后的关键帧;
S3、将每个非关键帧使用运动估计网络估计与相邻的关键帧之间的运动向量,并使用运动补偿网络根据运动向量和相邻的关键帧生成预测后的非关键帧;
S4、将每个非关键帧使用残差编码器网络与预测后的非关键帧之间的残差编码为低维的残差隐向量,并使用残差解码器网络解码为重建后的残差;
S5、将每个非关键帧使用融合网络将重建后的残差与预测后的非关键帧相加,得到重建后的非关键帧;
S6、使用判别器网络判断重建后的视频帧与原始视频帧之间的真假程度,并提供对抗性损失,使得重建后的视频帧更接近原始视频帧;
S7、使用感知网络提取重建后的视频帧与原始视频帧之间的高层特征,并提供感知性损失,使得重建后的视频帧更保留原始视频帧的语义信息和视觉质量;
S8、使用重建损失衡量重建后的视频帧与原始视频帧之间的像素级差异,使得重建后的视频帧更减少失真;
S9、使用率失真优化平衡压缩后的视频码率和重建后的视频画质,使得视频压缩的性能达到最优。
2.根据权利要求1所述的基于视频技术的智能视频压缩方法和系统,其特征在于,所述S1具体包括:
S11、将输入的原始视频序列中的第一帧作为第一个关键帧;
S12、将每个后续的视频帧计算与前一个关键帧之间的SSIM值;
S13、SSIM值小于预先设定的阈值,视频帧作为下一个关键帧,SSIM值大于预先设定的阈值,视频帧作为非关键帧;
S14、重复S12和S13,直到所有的视频帧都被划分为关键帧或非关键帧;
所述全参考图像质量评价指标(SSIM)的计算公式为:
其中,x和y是两个待比较的图像信号,μx和μy是它们的均值,和/>是它们的方差,σxy是它们的协方差,c1和c2是两个常数,用于避免分母为零,SSIM的取值范围是[-1,1],其中1表示完全相同,-1表示完全不同。
3.根据权利要求1所述的基于视频技术的智能视频压缩方法和系统,其特征在于,所述S2具体包括:
S21、将每个关键帧使用编码器网络编码为低维的隐向量;
S22、将每个隐向量使用瓶颈层进行量化或熵编码,得到压缩后的隐向量;
S23、将每个压缩后的隐向量,使用解码器网络解码为重建后的关键帧。
4.根据权利要求1所述的基于视频技术的智能视频压缩方法和系统,其特征在于,所述S3具体包括:
S31、将每个非关键帧使用运动估计网络估计与相邻的关键帧之间的运动向量;
S32、将每个运动向量使用运动补偿网络根据和相邻的关键帧生成预测后的非关键帧。
5.根据权利要求3所述的基于视频技术的智能视频压缩方法和系统,其特征在于,所述编码器网络和所述解码器网络之间设置有瓶颈层,用于实现有损压缩,所述残差编码器网络和所述残差解码器网络之间设置有所述瓶颈层,用于实现有损压缩。
6.根据权利要求1所述的基于视频技术的智能视频压缩方法和系统,其特征在于,所述S5具体包括:
S51、将每个非关键帧使用融合网络将重建后的残差与预测后的非关键帧相加,得到重建后的非关键帧;
S52、使用深度神经网络学习从重建后的残差和预测后的非关键帧到重建后的非关键帧的非线性映射。
7.根据权利要求1所述的基于视频技术的智能视频压缩方法和系统,其特征在于,所述S6具体包括:
S61、将每个原始视频帧和重建后的视频帧使用判别器网络来判断真假程度;
S62、将每个判别器网络的输出使用对抗性损失函数来衡量与真实标签之间的差异;
S63、将每个对抗性损失函数的值使用优化算法更新判别器网络的参数,使得对抗性损失函数的值达到最小,即使得判别器网络能够更好地区分真实视频帧和重建视频帧;
所述对抗性损失函数利用二元交叉熵实现,计算公式为:
La(y,t)=-tlog(y)-(1-t)log(1-y)
其中,y是判别器网络的输出,t是真实标签,t=1表示真实视频帧,t=0表示重建视频帧。
8.根据权利要求1所述的基于视频技术的智能视频压缩方法和系统,其特征在于,所述S7具体包括:
S71、将每个原始视频帧和重建后的视频帧使用感知网络来提取其高层特征;
S72、将每个感知网络的输出使用感知性损失函数衡量与原始视频帧的高层特征之间的差异;
S73、将每个感知性损失函数的值使用优化算法更新编码器网络和解码器网络的参数,使得感知性损失函数的值达到最小,即使得重建后的视频帧更保留原始视频帧的语义信息和视觉质量;
所述感知性损失函数利用均方误差法实现,计算公式为:
其中,N是感知网络输出矩阵中的元素个数,和/>是第n个元素的值;
所述优化算法利用随机梯度下降法实现,随机梯度下降的更新公式公式为:
其中,θt是编码器网络和解码器网络在第t次迭代时的参数,α是学习率,是感知性损失函数Lp关于参数θt的梯度。
9.根据权利要求1所述的基于视频技术的智能视频压缩方法和系统,其特征在于,所述S8具体包括:
S81、将每个原始视频帧和重建后的视频帧使用重建损失函数来衡量之间的像素级差异,所述重建损失函数采用均方误差方法实现;
S82、将每个重建损失函数的值使用优化算法更新编码器网络和解码器网络的参数,使得重建损失函数的值达到最小,即使得重建后的视频帧更接近原始视频帧。
10.根据权利要求1所述的基于视频技术的智能视频压缩方法和系统,其特征在于,所述S9具体包括:
S91、将每个视频帧和重建后的视频帧,定义一个失真函数衡量其之间的画质差异,失真函数的值越小,表示重建后的视频画质越高;
S92、将每个视频帧和重建后的视频帧,定义一个码率函数来衡量之间的压缩比例,码率函数的值越小,表示压缩后的视频码率越低;
S93、将每个视频帧和重建后的视频帧,定义一个拉格朗日函数来平衡其之间的失真和码率,拉格朗日函数的值越小,表示视频压缩的性能越高;
S94、将每个拉格朗日函数的值,使用优化算法来更新编码器网络和解码器网络的参数,使得拉格朗日函数的值达到最小,即使得重建后的视频帧既减少失真又降低码率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311659730.8A CN117640943A (zh) | 2023-12-06 | 2023-12-06 | 一种基于视频技术的智能视频压缩方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311659730.8A CN117640943A (zh) | 2023-12-06 | 2023-12-06 | 一种基于视频技术的智能视频压缩方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117640943A true CN117640943A (zh) | 2024-03-01 |
Family
ID=90030236
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311659730.8A Pending CN117640943A (zh) | 2023-12-06 | 2023-12-06 | 一种基于视频技术的智能视频压缩方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117640943A (zh) |
-
2023
- 2023-12-06 CN CN202311659730.8A patent/CN117640943A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | Energy compaction-based image compression using convolutional autoencoder | |
CN112203093B (zh) | 一种基于深度神经网络的信号处理方法 | |
CN116132671A (zh) | 点云压缩方法、编码器、解码器及存储介质 | |
CN112866694B (zh) | 联合非对称卷积块和条件上下文的智能图像压缩优化方法 | |
CN105430416B (zh) | 一种基于自适应稀疏域编码的指纹图像压缩方法 | |
CN111009018A (zh) | 基于深度神经网络的图像降维和重建方法 | |
CN110602494A (zh) | 基于深度学习的图像编码、解码系统及编码、解码方法 | |
CN114449276B (zh) | 一种基于学习的超先验边信息补偿图像压缩方法 | |
EP4205395A1 (en) | Encoding with signaling of feature map data | |
US20230353764A1 (en) | Method and apparatus for decoding with signaling of feature map data | |
Akbari et al. | Learned variable-rate image compression with residual divisive normalization | |
CN113822147A (zh) | 一种协同机器语义任务的深度压缩方法 | |
KR20230072487A (ko) | 분할 정보의 시그널링으로 디코딩 | |
CN116939226A (zh) | 一种面向低码率图像压缩的生成式残差修复方法及装置 | |
Fan et al. | D-dpcc: Deep dynamic point cloud compression via 3d motion prediction | |
CN116916036A (zh) | 视频压缩方法、装置及系统 | |
CN115278262A (zh) | 一种端到端智能视频编码方法及装置 | |
CN112702600B (zh) | 一种图像编解码神经网络分层定点化方法 | |
CN113068041B (zh) | 一种智能仿射运动补偿编码方法 | |
CN116567240A (zh) | 基于自适应通道和空间窗口熵模型的图像压缩方法及系统 | |
CN117640943A (zh) | 一种基于视频技术的智能视频压缩方法和系统 | |
Yin et al. | A co-prediction-based compression scheme for correlated images | |
Lu et al. | Image Compression Based on Mean Value Predictive Vector Quantization. | |
CN117615148B (zh) | 一种基于多尺度框架的端到端特征图分层压缩方法 | |
CN117915107B (zh) | 图像压缩系统、图像压缩方法、存储介质与芯片 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |