CN117939146A - 一种视频编码方法及系统 - Google Patents

一种视频编码方法及系统 Download PDF

Info

Publication number
CN117939146A
CN117939146A CN202410105013.9A CN202410105013A CN117939146A CN 117939146 A CN117939146 A CN 117939146A CN 202410105013 A CN202410105013 A CN 202410105013A CN 117939146 A CN117939146 A CN 117939146A
Authority
CN
China
Prior art keywords
frame
coding
information
resolution
video frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410105013.9A
Other languages
English (en)
Inventor
刘�东
卞逸凡
盛锡华
李礼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202410105013.9A priority Critical patent/CN117939146A/zh
Publication of CN117939146A publication Critical patent/CN117939146A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提供了一种基于学习的空域可伸缩视频编码方法及系统。在上述方法中,会对目标编码视频帧中分辨率较低的基本层视频编码帧进行基本层信息获取以得到第一层间信息。最后基于目标待编码帧以及上一帧重建视频帧进行编码,即可完成对视频帧的编码,得到第一码流。由于第一层间信息的编码分辨率与增强层码流的分辨率相同,因而增强层中高分辨率视频帧的编码可以结合基本层视频编码帧中的第一层间信息来进行编码,从而提升视频帧编码的性能,同时视频帧的编码还会进一步结合上一帧视频帧中的重建视频帧来进行编码,从而通过帧间信息以及层间信息的混合使用来进行视频帧的编码,视频编码性能得到了极大提高。

Description

一种视频编码方法及系统
技术领域
本申请涉及视频编码技术领域,特别是涉及一种视频编码方法及系统。
背景技术
视频编码是将视频信号压缩为数字数据的过程,以实现视频的存储、传输和处理。在视频编码的过程中,通常需要将同一视频不同分辨率下的数据编码为更为紧凑的码流,从而减小数据传输及存储的代价。现有的不同分辨率的视频编码方案通常是基于层的可伸缩视频编码方案,在基于层的编码方案中,码流会被定义为基本层以及多个增强层。其中,基本层用于提供基本的全局视频信息,而增强层则用于提供额外的编码信息来提供更高的视频质量。在将视频数据压缩为码流的编码方案中,视频数据的可伸缩性主要体现在时域、质量、空域三个维度。其中,空域的可伸缩性在于能够在不同的分辨率级别下将视频数据编码为相应的码流数据。
在目前的基于空域的视频编码方案中,通常都基于传统的视频编码标准来完成视频编码。视频编码标准是一组规范和算法,用于将视频信号进行数字压缩和编码,以便在存储和传输时占用更少的带宽和存储空间,同时保持较高的视频质量。现有基于空域的视频编码方案中通常基于H.264/AVC、H.265/HEVC等传统视频编码标准来进行视频编码,虽然此方式具有较好的交互兼容性,但传统的视频编码标准在处理多种分辨率以及高帧率的复杂场景时需要保证较高的比特率,因而其无法在低带宽的环境满足高质量高分辨率的处理需求,对视频数据的编码性能较低。
因此,如何解决现有技术中视频数据编码性能较低的问题,成为本领域技术人员急需解决的技术问题。
发明内容
基于上述问题,为了解决现有技术中视频数据编码性能较低的问题,本申请提供了一种视频编码方法及系统。
本申请实施例公开了如下技术方案:
第一方面,本申请公开了一种基于学习的空域可伸缩视频编码方法,应用于预设神经网络中,所述方法包括:
获取目标编码视频帧;所述目标编码视频帧中包括基本层视频编码帧和增强层视频编码帧;所述基本层视频编码帧的编码分辨率小于所述增强层视频编码帧的编码分辨率;所述基本层视频编码帧与所述增强层视频编码帧处于同一时域;
对所述基本层视频帧进行基本层信息获取,得到第一层间信息;所述第一层间信息的编码分辨率与所述增强层码视频编码帧的编码分辨率相同;所述第一层间信息包括:空域特征、预测运动信息以及层先验信息;
获取上一帧重建视频帧;
根据所述上一帧重建视频帧以及所述第一层间信息,对所述目标编码视频帧进行编码,得到第一码流。
可选的,所述根据所述上一帧重建视频帧以及所述第一层间信息,对所述目标编码视频帧进行编码,得到第一码流,具体包括:
根据所述目标编码视频帧、所述上一帧重建视频帧以及所述预测运动信息进行编解码重建,得到重建后的高分辨率运动信息;
基于所述重建后的高分辨率运动信息、所述空域特征以及所述上一帧重建视频帧中的时域特征进行上下文挖掘,生成多尺度混合上下文;
通过所述多尺度混合上下文、所述目标编码视频帧以及所述层先验信息对所述目标编码视频帧进行编码,得到第一码流。
可选的,所述根据所述目标编码视频帧、所述上一帧重建视频帧以及所述预测运动信息进行编解码重建,得到重建后的高分辨率运动信息,具体包括:
将所述目标编码视频帧和所述所述上一帧重建视频帧输入至预设光流网络中,得到高分辨率运动信息;所述高分辨运动信息的编码分辨率与所述增强层码视频编码帧的编码分辨率相同;
根据所述预测运动信息和所述高分辨率运动信息进行编码,得到所述高分辨率运动信息的码流;
基于所述预测运动信息对所述高分辨率运动信息的码流进行解码重建,得到所述重建后的高分辨率运动信息。
可选的,所述基于所述重建后的高分辨率运动信息、所述空域特征以及所述上一帧重建视频帧中的时域特征进行上下文挖掘,生成多尺度混合上下文,具体包括:
基于所述空域特征以及所述上一帧重建视频帧中的时域特征,确定多尺度空域特征以及多尺度时域特征;
对所述重建后的高分辨率运动信息进行下采样,得到多尺度运动信息;
基于所述多尺度运动信息对所述多尺度时域特征进行运动补偿,得到对齐后的多尺度时域特征;
根据所述多尺度空域特征与所述对齐后的多尺度时域特征,生成所述多尺度混合上下文。
可选的,所述通过所述多尺度混合上下文、所述目标编码视频帧以及所述层先验信息对所述目标编码视频帧进行编码,得到第一码流,具体包括:
根据所述层先验信息和预设层间先验熵模型,确定所述第一码流的概率分布参数;
基于所述第一码流的概率分布参数对所述目标编码视频帧进行编码,得到所述第一码流。
可选的,所述对所述基本层视频帧进行基本层信息获取,得到第一层间信息,具体包括:
对所述基本层视频编码帧进行编解码重建,得到第二层间信息;所述第二层间信息的编码分辨率低于所述增强层视频编码帧的编码分辨率;
对所述第二层间信息进行域变换处理,得到经过变换处理后的第二层间信息;
根据所述增强层视频编码帧的编码分辨率,对所述经过变换处理后的第二层间信息进行上采样,得到所述第一层间信息。
可选的,所述根据所述预测运动信息和所述高分辨率运动信息进行编码,得到所述高分辨率运动信息的码流,具体包括:
基于所述预测运动信息和预设运动熵模型,确定所述高分辨率运动信息的码流的概率分布参数;
根据所述高分辨率运动信息的码流的概率分布参数,确定所述高分辨率运动信息的码流。
可选的,所述根据所述空域特征与所述对齐后的多尺度时域特征,生成所述多尺度混合上下文,具体包括:
构建所述对齐后的多尺度时域特征和所述空域特征之间的特征权重图;
基于所述特征权重图,将所述对齐后的多尺度时域特征和所述空域特征进行特征融合,得到多尺度混合特征;
根据所述多尺度混合特征,生成所述多尺度混合上下文。
第二方面,本申请公开了一种基于学习的空域可伸缩视频编码系统,应用于预设神经网络中,所述系统包括:
第一获取模块,用于获取目标编码视频帧;所述目标编码视频帧中包括基本层视频编码帧和增强层视频编码帧;所述基本层视频编码帧的编码分辨率小于所述增强层视频编码帧的编码分辨率;所述基本层视频编码帧与所述增强层视频编码帧处于同一时域;
层间信息获取模块,用于对所述基本层视频帧进行基本层信息获取,得到第一层间信息;所述第一层间信息的编码分辨率与所述增强层码视频编码帧的编码分辨率相同;所述第一层间信息包括:空域特征、预测运动信息以及层先验信息;
第二获取模块,用于获取上一帧重建视频帧;
编码模块,用于根据所述上一帧重建视频帧以及所述第一层间信息,对所述目标编码视频帧进行编码,得到第一码流
可选的,所述编码模块,具体用于:
根据所述目标编码视频帧、所述上一帧重建视频帧以及所述预测运动信息进行编解码重建,得到重建后的高分辨率运动信息;
基于所述重建后的高分辨率运动信息、所述空域特征以及所述上一帧重建视频帧中的时域特征进行上下文挖掘,生成多尺度混合上下文;
通过所述多尺度混合上下文、所述目标编码视频帧以及所述层先验信息对所述目标编码视频帧进行编码,得到第一码流。
相较于现有技术,本申请具有以下有益效果:本申请提供了一种基于学习的空域可伸缩视频编码方法及系统。首先会获取目标编码视频帧;所述目标编码视频帧中包括基本层视频编码帧和增强层视频编码帧;所述基本层视频编码帧的编码分辨率小于所述增强层视频编码帧的编码分辨率;所述基本层视频编码帧与所述增强层视频编码帧处于同一时域;对所述基本层视频帧进行基本层信息获取,得到第一层间信息;所述第一层间信息的编码分辨率与所述增强层码视频编码帧的编码分辨率相同;所述第一层间信息包括:空域特征、预测运动信息以及层先验信息;获取上一帧重建视频帧;根据所述上一帧重建视频帧以及所述第一层间信息,对所述目标编码视频帧进行编码,得到第一码流。在上述方法中,会对目标编码视频帧中分辨率较低的基本层视频编码帧进行基本层信息获取以得到第一层间信息。第一层间信息内包括有与增强层的编码分辨率相同的空域特征、预测运动信息以及层先验信息。最后基于目标待编码帧以及上一帧重建视频帧进行编码,即可完成对视频帧的编码,得到第一码流。其中,由于第一层间信息的编码分辨率与增强层码流的分辨率相同,因而增强层中高分辨率视频帧的编码可以结合基本层视频编码帧中的第一层间信息来进行编码,从而提升视频帧编码的性能,同时视频帧的编码还会进一步结合上一帧视频帧中重建视频帧来进行编码,从而通过帧间信息以及层间信息的混合使用来进行视频帧的编码,视频编码性能得到了极大提高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于学习的空域可伸缩视频编码方法的流程示意图;
图2为本申请实施例提供的另一种基于学习的空域可伸缩视频编码方法的流程示意图;
图3为本申请实施例提供的一种基于学习的空域可伸缩视频编码方法的性能参数指标图;
图4为本申请实施例提供的一种基于学习的空域可伸缩视频编码系统的结构示意图。
具体实施方式
正如前文描述,在目前的基于空域的视频编码方案中,通常都基于传统的视频编码标准来完成视频编码。视频编码标准是一组规范和算法,用于将视频信号进行数字压缩和编码,以便在存储和传输时占用更少的带宽和存储空间,同时保持较高的视频质量。现有基于空域的视频编码方案中通常基于H.264/AVC、H.265/HEVC等传统视频编码标准来进行视频编码,虽然此方式具有较好的交互兼容性,但传统的视频编码标准在处理多种分辨率以及高帧率的复杂场景时需要保证较高的比特率,因而其无法在低带宽的环境满足高质量高分辨率的处理需求,对视频数据的编码性能较低。
因此,如何解决现有技术中视频数据编码性能较低的问题,成为本领域技术人员急需解决的技术问题。
为了解决上述问题,本申请提供了一种基于学习的空域可伸缩视频编码方法及系统,首先会获取目标编码视频帧;所述目标编码视频帧中包括基本层视频编码帧和增强层视频编码帧;所述基本层视频编码帧的编码分辨率小于所述增强层视频编码帧的编码分辨率;所述基本层视频编码帧与所述增强层视频编码帧处于同一时域;对所述基本层视频帧进行基本层信息获取,得到第一层间信息;所述第一层间信息的编码分辨率与所述增强层码视频编码帧的编码分辨率相同;所述第一层间信息包括:空域特征、预测运动信息以及层先验信息;获取上一帧重建视频帧;根据所述上一帧重建视频帧以及所述第一层间信息,对所述目标编码视频帧进行编码,得到第一码流。在上述方法中,会对目标编码视频帧中分辨率较低的基本层视频编码帧进行基本层信息获取以得到第一层间信息。第一层间信息内包括有与增强层的编码分辨率相同的空域特征、预测运动信息以及层先验信息。最后基于目标待编码帧以及上一帧重建视频帧进行编码,即可完成对视频帧的编码,得到第一码流。其中,由于第一层间信息的编码分辨率与增强层码流的分辨率相同,因而增强层中高分辨率视频帧的编码可以结合基本层视频编码帧中的第一层间信息来进行编码,从而提升视频帧编码的性能,同时视频帧的编码还会进一步结合上一帧视频帧中重建视频帧来进行编码,从而通过帧间信息以及层间信息的混合使用来进行视频帧的编码,视频编码性能得到了极大提高。性能为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图2为本申请提供的另一种视频编码方法的流程示意图,如图所示可知,对于视频帧的编码划分为基本层编码和增强层编码,在实际的应用场景中,增强层的编码分辨率往往要高于基本层的编码分辨率。图中,I1是一个经过基本层帧内编码器编码的帧,P1是一个经过增强层帧内编码器编码的帧,其参考了基本层的的I1。P2是一个经过基本层帧间编码器编码的帧,其参考了基本层的前一帧。B1是一个经过增强层帧间编码器编码的帧,其参考了基本层的当前帧和增强层的前一帧。由此可见,在本申请的所提供的视频编码方法中,对于增强层的编码会参考基本层内编码的帧以及上一帧增强层中的视频帧。而基本层的编码会参考基本层中的上一帧。
参见图1,该图为本申请实施例提供的一种视频编码方法的流程示意图,具体包括以下步骤:
S101:获取目标编码视频帧;所述目标编码视频帧中包括基本层视频编码帧和增强层视频编码帧;所述基本层视频编码帧的编码分辨率小于所述增强层视频编码帧的编码分辨率;所述基本层视频编码帧与所述增强层视频编码帧处于同一时域
在实际的应用场景中,对于视频的编码往往会涉及对基本层的编码和增强层的编码。基本层的编码用于创建一个基本的视频质量级别,通常包含较低的分辨率和比特率。而增强层的视频编码则会对基本层的视频进行进一步编码,以提高视频的质量或增加分辨率等方面的表现。增强层的编码通常依赖于基本层的信息,从而实现更高质量的视频传输。因此,在本申请获取的目标编码视频帧中,包括有基本层视频编码帧和增强层视频编码帧。两者处于同一时域中,且增强层视频编码帧的编码分辨率大于基本层视频编码帧的编码分辨率。
在本申请的基于学习的空域可伸缩视频编码方法中,整体的方法应用于预设神经网络的框架中。预设神经网络的参与能够在视频编码的过程中从目标编码视频数据中提取更多关键的特征,例如空域特征、残差信息等等。同时,预设神经网络的框架能够减少视频数据的存储及传输成本,从而提高整体的视频编码性能。
在传统的视频编码方案中,性能不同分辨率下的视频编码参考关系单一,且不能全局优化,在近些年发展迟缓,性能提升趋于饱和。在本申请中,为了进一步提高空域可伸缩视频编码的性能和性能,采用了基于神经网络学习的空域可伸缩视频编码。在编码高分辨的视频数据时,会将低分辨率的编码数据作层间参考,即使得高分辨率的增强层视频编码能够参考低分辨率的基本层视频编码帧中的信息,性能分辨率较高的增强层视频编码帧的编码借助于可学习的神经网络,充分结合层间信息和时域信息,从而提升了视频编码的性能。
性能S102:对所述基本层视频帧进行基本层信息获取,得到第一层间信息;所述第一层间信息的编码分辨率与所述增强层码视频编码帧的编码分辨率相同;所述第一层间信息包括:空域特征、预测运动信息以及层先验信息。
由上文可知,在本申请的视频编码方案中,增强层中高分率视频帧的编码能够基于低分辨率的基本层视频帧中编解码信息来完成自身的视频编码工作,从而提高视频编码的性能。因此,在得到目标编码视频帧后,会对其中的基本层视频帧进行基本层信息获取,以得到第一层间信息。其中,高分辨率的第一层间信息的编码分辨率与增强层码流的编码分辨率相同,因而在后续对目标编码视频帧中的增强层视频编码帧进行视频编码时,能够基于基本层视频帧中的第一层间信息来进行视频编码。
在第一层间信息中,包括有空域特征、预测运动信息以及先验信息。视频的空域特征指的是每一帧图像的空间分布、颜色分布等特征。在视频编码中,空域特征可以被用来进行帧间和帧内压缩。预测运动信息是指视频序列中相邻帧之间的运动特征。其用于辅助增强层视频编码帧中运动信息的编码。层先验信息是指对视频内容的统计特性和结构特征的预先了解。在视频编码中,充分利用先验信息对码流进行建模和压缩,可以提高编码性能,降低失真,并且减小码率。
具体的,上述通过基本层视频帧获取第一层间信息的过程通过以下三个步骤来实现:
步骤一、对所述基本层视频编码帧进行编解码重建,得到第二层间信息;所述第二层间信息的编码分辨率低于所述增强层视频编码帧的编码分辨率。
在基于基本层视频帧获取第一层间信息的过程中,首先会对基本层视频帧进行编解码重建,以得到第二层间信息。其中,第二层间信息的编码分辨率低于增强层码流的编码分辨率,包括有低分辨率运动信息、残差隐式表达以及基本层重建特征。
在对基本层视频帧进行编解码重建的过程中,会将基本层视频帧进行一次码流编码及解码。在编码的过程中,会对基本层视频帧的对应的基本层码流中的运动信息和残差信息进行编码,即将当前帧低分辨率的信息进行编码写入码流中,并对其进行解码,即可得到第二层间信息。
步骤二、对所述第二层间信息进行域变换处理,得到经过变换处理后的第二层间信息。
在得到的第二层间信息中,由于第二层间信息本质属于基本层中的信息特征,而针对于高分辨率部分的视频编码往往涉及其中增强层的视频编码。因此,第二层间信息与增强层中的信息往往存在着不同的语义和信息含量,因而需要对第二层间信息进行域变换处理,以将第二层间信息转换为适用于增强层中特征融合的特征域。其中,第二层间信息中的低分辨率运动信息在经过域变换处理后,会从两通道特征变换为多通道特征,而残差隐式表达和基本层重建特征则仅通过域变换处理进行非线性变化,其通道数并不改变。
步骤三、根据所述增强层视频编码帧的编码分辨率,对所述经过变换处理后的第二层间信息进行上采样,得到所述第一层间信息。
最后,基于增强层码流的编码分辨率,能够确定经过变换处理后的第二层间信息映射到增强层特征所需要的倍率,并对第二层间信息中的每一类特征信息进行数据上采样,即可得到第二层间信息在高分辨率下的表示,即第一层间信息。其中,上采样算法可以采用邻插值算法、双线性插值算法以及双三次插值等等,具体的上采样算法可以根据实际的应用场景变换,本实施例对此不作具体限定。
在实际的应用场景中,在通过对第二层间信息进行上采样得到第一层间信息的过程中,还能够通过精细化的残差对得到的第一层间信息进行精细化调整,从而提高第一层间信息的数据精确度。
S103:获取上一帧重建视频帧;
S104:根据所述上一帧重建视频帧以及所述第一层间信息,对所述目标编码视频帧进行编码,得到第一码流重建视频帧。
在得到第一层间信息后,对于目标编码视频帧的编码会根据上一帧视频帧与目标编码视频帧之间的帧间信息以及第一层间信息来对目标编码视频帧进行编码,旨在于通过帧间信息以及层间信息之间的结合使用来提高对目标编码视频帧的视频编码性能。具体的,根据上一帧视频帧以及第一层间信息对目标编码视频帧进行编码的过程通过以下三个步骤来实现:
步骤一、根据所述目标编码视频帧、所述上一帧重建视频帧以及所述预测运动信息进行编解码重建,得到重建后的高分辨率运动信息;
在基于上一帧视频帧以及第一层间信息对目标编码视频帧进行编码的过程中,首先会根据结合预测运动信息、目标编码视频帧以及上一帧视频帧进行编解码重建以得到重建后的高分辨率运动信息。
具体的,会先将目标编码视频帧和上一帧视频帧输入至预设光流网络中以生成与增强层编码分辨率相同的高分辨率运动信息。其中,光流网络是一种计算机视觉算法,用于估计图像中像素点的运动信息。在将目标编码视频帧和上一帧视频帧输入至预设光流网络中时,会输出对应的光流,即高分辨率运动信息。光流是指由于相机或物体的运动而造成的图像内物体表面上亮度模式的变化。光流网络的目标是通过分析图像中的像素之间的亮度变化来估计物体的运动方向和速度。
在得到高分辨率运动信息后,进一步根据第一层间信息中的预测运动信息以及该高分辨率运动信息进行编码,即可得到对应的高分辨运动信息的码流。最后对高分辨率运动信息的码流进行解码,即可得到重建后的高分辨率运动信息。具体的,在基于预测运动信息以及高分辨率运动进行编码的过程中,会将预测运动信息输入至预设运动熵模型中,从而确定高分辨率运动信息码流的概率的分布参数,进一步提高高分辨率运动信息编码的性能。
确定码流的概率分布参数时,预设运动熵模型和预测运动信息可以提供重要的辅助信息。运动熵模型通常是基于对数据在不同时间或空间上的变化进行建模,以提供数据的统计特性。预测运动信息则可以帮助推断数据在未来时间或空间上的走势,从而更精确地建立概率分布模型。具体地,预设的运动熵模型可以基于运动熵理论,包括对数据变化的频率和幅度等因素进行建模,以确定数据的概率分布特征。例如,如果我们知道数据在时间上的变化呈现出一定的周期性或趋势性,我们就可以利用这一信息来建立概率分布模型,进而确定码流的概率分布参数。而预测运动信息则可以通过运动预测算法等手段对数据未来的发展趋势进行预测,从而在确定码流的概率分布参数时提供更为准确的信息。基于预测的运动信息,可以更好地理解数据的演化规律,并据此建立更精准的概率分布模型。因此,通过预设运动熵模型和预测运动信息来确定码流的概率分布参数,可以帮更准确地理解数据的统计特性和发展趋势,从而选择合适的概率分布模型,并确定码流的概率分布参数,为数据的压缩编码提供更有效的支持。
步骤二、基于所述重建后的高分辨率运动信息、所述空域特征以及所述上一帧重建视频帧中的时域特征进行上下文挖掘,生成多尺度混合上下文;
在完成对于高分辨率运动信息的重建后,进一步基于重建后的高分辨率运动信息、空域特征以上一帧重建视频帧中的时域特征进行上下文挖掘,以生成多尺度混合上下文,从而实现通过帧间信息与层间信息之间的混合使用来提高视频编码的性能和性能。
在生成多尺度混合上下文的过程中,会先基于第一层间信息中的空域特征以及上一帧视频帧中的时域特征确定多尺度空域特征以及多尺度时域特征。在确定多尺度时域特征的过程中,可以先通过传统的图像处理方法例如卷积神经网络、多尺度滤波器等方式来获取目标编码视频帧中不同尺度的空域特征,然后利用光流估计等方式来提取上一帧视频帧与目标编码视频帧之间的时域特征,并对两者进行特征融合和提取,即可得到多尺度空域特征以及多尺度时域特征。
在此之后,需要进一步对重建后的高分辨运动信息进行下采样,得到多尺度运动信息,并通过该多尺度运动信息对多尺度时域特征进行运动补偿,从而生成对齐后的多尺度时域特征。多尺度的运动信息对应于不同空间尺度上的视频运动特征,这些多尺度的运动信息可以更全面地描述视频序列中的动态变化,对于一些需要考虑多尺度信息的视觉任务,如目标追踪、动作识别等具有重要意义。在对多尺度时域特征进行运动补偿的过程中,其通过将当前帧中的时域特征根据对应的运动矢量进行平移、插值等操作,将其对齐到参考帧的位置。这样可以消除由于物体运动引起的时域变形或模糊。
最后,通过多尺度空域特征以及对齐后的多尺度时域特征,即可生成多尺度混合上下文。在此过程中,通过多尺度空域特征以及对齐后的时域特征,可以构建相同尺度下空域特征与时域特征之间的特征权重图。通过对特征权重图进行特征融合,能够进一步得到多尺度混合特征,最后通过对多尺度混合特征进行上下文建模,即可得到最终的多尺度混合上下文。
具体的,在基于特征权重图进行特征融合的过程中,可以将对齐后的多尺度时域特征和多尺度空域特征进行加权融合,将与特征对应的权重图相乘,或按照权重进行加权求和的方式将两者进行融合,即可得到更为全面的多尺度混合特征。
步骤三、通过所述多尺度混合上下文、所述目标编码视频帧以及所述层先验信息对所述目标编码视频帧进行编码,得到第一码流。
最后,将上述步骤中结合基本层的层间信息以及帧间信息得到的多尺度上下文与目标编码视频帧以及第一层间信息中的先验信息进行结合编码,即可完成对目标编码视频帧的编码流程,得到第一码流。
在对目标编码视频帧进行编码的过程中,会根据层先验信息和预设层间先验熵模型来确定第一码流的概率分布参数,并基于第一码流的概率分布参数来对目标编码视频帧进行编码,从而得到第一码流。
在层先验信息中包括了每个层的出现概率、层间相关性质等等。通过层间先验熵模型,能够估计估计不同层之间的关系,并提供层间熵的估计。层间熵衡量了编码过程中一层与其他层之间的相关性和冗余程度。可以使用各种统计方法或模型,如高斯模型、条件熵模型等来建立预设层间先验熵模型,本实施例对于预设层间熵模型的预先设定的方式及类型不作具体限定。
参见图3,该图为本申请实施例提供的一种基于学习的空域可伸缩视频编码方法的性能参数指标图。
由图可见,相比于现有的SHVC(Scalable High Efficiency Video Coding,可伸缩高效视频编码方法)本发明取得了更好的编码性能。具体来说,不论是在RGB颜色空间还是YUV420颜色空间,不论采用PSNR作为失真指标还是MS-SSIM作为失真指标,在使用BD-Rate衡量编码增益时,实例1中描述的方案都超过了H.265/SHVC编码标准的参考软件SHM-12.4。
本实施例提供了一种基于学习的空域可伸缩视频编码方法首先会获取目标编码视频帧;所述目标编码视频帧中包括基本层视频编码帧和增强层视频编码帧;所述基本层视频编码帧的编码分辨率小于所述增强层视频编码帧的编码分辨率;所述基本层视频编码帧与所述增强层视频编码帧处于同一时域;对所述基本层视频帧进行基本层信息获取,得到第一层间信息;所述第一层间信息的编码分辨率与所述增强层码视频编码帧的编码分辨率相同;所述第一层间信息包括:空域特征、预测运动信息以及层先验信息;获取上一帧重建视频帧;根据所述上一帧重建视频帧以及所述第一层间信息,对所述目标编码视频帧进行编码,得到第一码流。在上述方法中,会对目标编码视频帧中分辨率较低的基本层视频编码帧进行基本层信息获取以得到第一层间信息。第一层间信息内包括有与增强层的编码分辨率相同的空域特征、预测运动信息以及层先验信息。最后基于目标待编码帧以及上一帧重建视频帧进行编码,即可完成对视频帧的编码,得到第一码流。其中,由于第一层间信息的编码分辨率与增强层码流的分辨率相同,因而增强层中高分辨率视频帧的编码可以结合基本层视频编码帧中的第一层间信息来进行编码,从而提升视频帧编码的性能,同时视频帧的编码还会进一步结合上一帧视频帧中重建视频帧来进行编码,从而通过帧间信息以及层间信息的混合使用来进行视频帧的编码,视频编码性能得到了极大提高。
下面对本申请实施例提供的一种基于学习的空域可伸缩视频编码系统进行介绍,下文描述的一种基于学习的空域可伸缩视频编码系统与上文描述的一种基于学习的空域可伸缩视频编码方法可相互对应参照。
参照图4,该图为本申请实施例提供的一种基于学习的空域可伸缩视频编码系统的结构示意图,具体包括以下模块:
第一获取模块100,用于获取目标编码视频帧;所述目标编码视频帧中包括基本层视频编码帧和增强层视频编码帧;所述基本层视频编码帧的编码分辨率小于所述增强层视频编码帧的编码分辨率;所述基本层视频编码帧与所述增强层视频编码帧处于同一时域;
层间信息获取模块200,用于对所述基本层视频帧进行基本层信息获取,得到第一层间信息;所述第一层间信息的编码分辨率与所述增强层码视频编码帧的编码分辨率相同;所述第一层间信息包括:空域特征、预测运动信息以及层先验信息;
第二获取模块300,用于获取上一帧重建视频帧;
编码模块400,用于根据所述上一帧重建视频帧以及所述第一层间信息,对所述目标编码视频帧进行编码,得到第一码流
可选的,所述编码模块400,具体用于:
根据所述目标编码视频帧、所述上一帧重建视频帧以及所述预测运动信息进行编解码重建,得到重建后的高分辨率运动信息;
基于所述重建后的高分辨率运动信息、所述空域特征以及所述上一帧重建视频帧中的时域特征进行上下文挖掘,生成多尺度混合上下文;
通过所述多尺度混合上下文、所述目标编码视频帧以及所述层先验信息对所述目标编码视频帧进行编码,得到第一码流。
可选的,所述编码模块500,具体用于:
将所述目标编码视频帧和所述所述上一帧重建视频帧输入至预设光流网络中,得到高分辨率运动信息;所述高分辨运动信息的编码分辨率与所述增强层码视频编码帧的编码分辨率相同;
根据所述预测运动信息和所述高分辨率运动信息进行编码,得到所述高分辨率运动信息的码流;
基于所述预测运动信息对所述高分辨率运动信息的码流进行解码重建,得到所述重建后的高分辨率运动信息。
可选的,所述编码模块500,具体用于:
基于所述空域特征以及所述上一帧重建视频帧中的时域特征,确定多尺度空域特征以及多尺度时域特征;
对所述重建后的高分辨率运动信息进行下采样,得到多尺度运动信息;
基于所述多尺度运动信息对所述多尺度时域特征进行运动补偿,得到对齐后的多尺度时域特征;
根据所述多尺度空域特征与所述对齐后的多尺度时域特征,生成所述多尺度混合上下文。
可选的,所述编码模块,具体用于:
根据所述层先验信息和预设层间先验熵模型,确定所述第一码流的概率分布参数;
基于所述第一码流的概率分布参数对所述目标编码视频帧进行编码,得到所述第一码流。
可选的,所述层间信息获取模块300,具体用于:
对所述基本层视频编码帧进行编解码重建,得到第二层间信息;所述第二层间信息的编码分辨率低于所述增强层视频编码帧的编码分辨率;
对所述第二层间信息进行域变换处理,得到经过变换处理后的第二层间信息;
根据所述增强层视频编码帧的编码分辨率,对所述经过变换处理后的第二层间信息进行上采样,得到所述第一层间信息。
可选的,所述编码模块500,具体用于:
基于所述预测运动信息和预设运动熵模型,确定所述高分辨率运动信息的码流的概率分布参数;
根据所述高分辨率运动信息的码流的概率分布参数,确定所述高分辨率运动信息的码流。
可选的,所述编码模块500,具体用于:
构建所述对齐后的多尺度时域特征和所述空域特征之间的特征权重图;
基于所述特征权重图,将所述对齐后的多尺度时域特征和所述空域特征进行特征融合,得到多尺度混合特征;
根据所述多尺度混合特征,生成所述多尺度混合上下文。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于方法装置、电子设备及车辆而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的方法装置、电子设备及车辆仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种基于学习的空域可伸缩视频编码方法,其特征在于,应用于预设神经网络中,所述方法包括:
获取目标编码视频帧;所述目标编码视频帧中包括基本层视频编码帧和增强层视频编码帧;所述基本层视频编码帧的编码分辨率小于所述增强层视频编码帧的编码分辨率;所述基本层视频编码帧与所述增强层视频编码帧处于同一时域;
对所述基本层视频帧进行基本层信息获取,得到第一层间信息;所述第一层间信息的编码分辨率与所述增强层码视频编码帧的编码分辨率相同;所述第一层间信息包括:空域特征、预测运动信息以及层先验信息;
获取上一帧重建视频帧;
根据所述上一帧重建视频帧以及所述第一层间信息,对所述目标编码视频帧进行编码,得到第一码流。
2.根据权利要求1所述的方法,其特征在于,所述根据所述上一帧重建视频帧以及所述第一层间信息,对所述目标编码视频帧进行编码,得到第一码流,具体包括:
根据所述目标编码视频帧、所述上一帧重建视频帧以及所述预测运动信息进行编解码重建,得到重建后的高分辨率运动信息;
基于所述重建后的高分辨率运动信息、所述空域特征以及所述上一帧重建视频帧中的时域特征进行上下文挖掘,生成多尺度混合上下文;
通过所述多尺度混合上下文、所述目标编码视频帧以及所述层先验信息对所述目标编码视频帧进行编码,得到第一码流。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标编码视频帧、所述上一帧重建视频帧以及所述预测运动信息进行编解码重建,得到重建后的高分辨率运动信息,具体包括:
将所述目标编码视频帧和所述上一帧重建视频帧输入至预设光流网络中,得到高分辨率运动信息;所述高分辨运动信息的编码分辨率与所述增强层视频编码帧的编码分辨率相同;
根据所述预测运动信息和所述高分辨率运动信息进行编码,得到所述高分辨率运动信息的码流;
基于所述预测运动信息对所述高分辨率运动信息的码流进行解码重建,得到所述重建后的高分辨率运动信息。
4.根据权利要求2所述的方法,其特征在于,所述基于所述重建后的高分辨率运动信息、所述空域特征以及所述上一帧重建视频帧中的时域特征进行上下文挖掘,生成多尺度混合上下文,具体包括:
基于所述空域特征以及所述上一帧重建视频帧中的时域特征,确定多尺度空域特征以及多尺度时域特征;
对所述重建后的高分辨率运动信息进行下采样,得到多尺度运动信息;
基于所述多尺度运动信息对所述多尺度时域特征进行运动补偿,得到对齐后的多尺度时域特征;
根据所述多尺度空域特征与所述对齐后的多尺度时域特征,生成所述多尺度混合上下文。
5.根据权利要求2所述的方法,其特征在于,所述通过所述多尺度混合上下文、所述目标编码视频帧以及所述层先验信息对所述目标编码视频帧进行编码,得到第一码流,具体包括:
根据所述层先验信息和预设层间先验熵模型,确定所述第一码流的概率分布参数;
基于所述第一码流的概率分布参数对所述目标编码视频帧进行编码,得到所述第一码流。
6.根据权利要求1所述的方法,其特征在于,所述对所述基本层视频帧进行基本层信息获取,得到第一层间信息,具体包括:
对所述基本层视频编码帧进行编解码重建,得到第二层间信息;所述第二层间信息的编码分辨率低于所述增强层视频编码帧的编码分辨率;
对所述第二层间信息进行域变换处理,得到经过变换处理后的第二层间信息;
根据所述增强层视频编码帧的编码分辨率,对所述经过变换处理后的第二层间信息进行上采样,得到所述第一层间信息。
7.根据权利要求3所述的方法,其特征在于,所述根据所述预测运动信息和所述高分辨率运动信息进行编码,得到所述高分辨率运动信息的码流,具体包括:
基于所述预测运动信息和预设运动熵模型,确定所述高分辨率运动信息的码流的概率分布参数;
根据所述高分辨率运动信息的码流的概率分布参数,确定所述高分辨率运动信息的码流。
8.根据权利要求4所述的方法,其特征在于,所述根据所述空域特征与所述对齐后的多尺度时域特征,生成所述多尺度混合上下文,具体包括:
构建所述对齐后的多尺度时域特征和所述空域特征之间的特征权重图;
基于所述特征权重图,将所述对齐后的多尺度时域特征和所述空域特征进行特征融合,得到多尺度混合特征;
根据所述多尺度混合特征,生成所述多尺度混合上下文。
9.一种基于学习的空域可伸缩视频编码系统,其特征在于,应用于预设神经网络中,所述系统包括:
第一获取模块,用于获取目标编码视频帧;所述目标编码视频帧中包括基本层视频编码帧和增强层视频编码帧;所述基本层视频编码帧的编码分辨率小于所述增强层视频编码帧的编码分辨率;所述基本层视频编码帧与所述增强层视频编码帧处于同一时域;
层间信息获取模块,用于对所述基本层视频帧进行基本层信息获取,得到第一层间信息;所述第一层间信息的编码分辨率与所述增强层码视频编码帧的编码分辨率相同;所述第一层间信息包括:空域特征、预测运动信息以及层先验信息;
第二获取模块,用于获取上一帧重建视频帧;
编码模块,用于根据所述上一帧重建视频帧以及所述第一层间信息,对所述目标编码视频帧进行编码,得到第一码流。
10.根据权利要求9所述的系统,其特征在于,所述编码模块,具体用于:
根据所述目标编码视频帧、所述上一帧重建视频帧以及所述预测运动信息进行编解码重建,得到重建后的高分辨率运动信息;
基于所述重建后的高分辨率运动信息、所述空域特征以及所述上一帧重建视频帧中的时域特征进行上下文挖掘,生成多尺度混合上下文;
通过所述多尺度混合上下文、所述目标编码视频帧以及所述层先验信息对所述目标编码视频帧进行编码,得到第一码流。
CN202410105013.9A 2024-01-25 2024-01-25 一种视频编码方法及系统 Pending CN117939146A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410105013.9A CN117939146A (zh) 2024-01-25 2024-01-25 一种视频编码方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410105013.9A CN117939146A (zh) 2024-01-25 2024-01-25 一种视频编码方法及系统

Publications (1)

Publication Number Publication Date
CN117939146A true CN117939146A (zh) 2024-04-26

Family

ID=90769920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410105013.9A Pending CN117939146A (zh) 2024-01-25 2024-01-25 一种视频编码方法及系统

Country Status (1)

Country Link
CN (1) CN117939146A (zh)

Similar Documents

Publication Publication Date Title
Hu et al. Improving deep video compression by resolution-adaptive flow coding
CN108012157B (zh) 用于视频编码分数像素插值的卷积神经网络的构建方法
CN108848380B (zh) 视频编码和解码方法、装置、计算机设备及存储介质
CN108769681B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
CN108833923B (zh) 视频编码、解码方法、装置、存储介质和计算机设备
US20180124414A1 (en) Video encoding using hierarchical algorithms
CN111464815B (zh) 一种基于神经网络的视频编码方法及系统
CN106060539B (zh) 一种低传输带宽的视频编码方法
US11206418B2 (en) Method of image encoding and facility for the implementation of the method
CN115606179A (zh) 用于使用学习的下采样特征进行图像和视频编码的基于学习的下采样的cnn滤波器
EP4365820A1 (en) Video super-resolution network, and video super-resolution, encoding and decoding processing method and device
Liu et al. End-to-end neural video coding using a compound spatiotemporal representation
CN115552905A (zh) 用于图像和视频编码的基于全局跳过连接的cnn滤波器
CN116916036A (zh) 视频压缩方法、装置及系统
CN112601095B (zh) 一种视频亮度和色度分数插值模型的创建方法及系统
CN112702607B (zh) 一种基于光流决策的智能视频压缩方法及装置
CN111080729B (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
JP2018524916A (ja) 拡張レイヤの現在ブロックの予測を求める方法および装置
CN111757126A (zh) 面向vr的实时图像压缩方法、系统和存储介质
CN117939146A (zh) 一种视频编码方法及系统
CN113747242B (zh) 图像处理方法、装置、电子设备及存储介质
US11259005B1 (en) Method for compressing light-field data
CN111901595B (zh) 一种基于深度神经网络的视频编码方法及装置、介质
CN113132732A (zh) 一种人机协同的视频编码方法及视频编码系统
CN116437102B (zh) 可学习通用视频编码方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination