CN114979672A - 视频编码方法、解码方法、电子设备及存储介质 - Google Patents

视频编码方法、解码方法、电子设备及存储介质 Download PDF

Info

Publication number
CN114979672A
CN114979672A CN202210716251.4A CN202210716251A CN114979672A CN 114979672 A CN114979672 A CN 114979672A CN 202210716251 A CN202210716251 A CN 202210716251A CN 114979672 A CN114979672 A CN 114979672A
Authority
CN
China
Prior art keywords
video frame
target
motion estimation
resolution
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210716251.4A
Other languages
English (en)
Inventor
陈柏林
王钊
叶琰
王诗淇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210716251.4A priority Critical patent/CN114979672A/zh
Publication of CN114979672A publication Critical patent/CN114979672A/zh
Priority to PCT/CN2023/101958 priority patent/WO2023246923A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/44Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请实施例提供了一种视频编码方法、解码方法及装置。视频编码方法包括:获取原始参考视频帧和待编码的原始目标视频帧;对原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与第一预设分辨率对应的特征提取网络对调整后目标视频帧进行特征提取,得到目标特征;分别编码原始参考视频帧和目标特征,得到视频比特流,以基于视频比特流进行视频帧重建,生成与原始目标视频帧具有相同分辨率的重建视频帧。本申请实施例,针对多种不同分辨率的原始目标视频帧,仅需要一套神经网络模型即可进行编解码操作,适用范围更广泛、操作过程更简单、便捷。

Description

视频编码方法、解码方法、电子设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种视频编码方法、解码方法、电子设备及存储介质。
背景技术
随着计算机技术的不断发展,人们的生活方式也发生了巨大变化。例如:在日常工作及生活中,人们对于视频会议、视频直播的需求不断增加。
视频编解码是实现视频会议、视频直播的关键所在。随着机器学习的不断发展,可采用基于深度视频生成的编解码方法进行视频(尤其是面部视频)的编解码操作,该方法主要通过神经网络模型,基于待编码帧的运动对参考帧进行形变,以得到待编码帧对应的重建帧。上述方法以端到端的方式进行了视频帧的编解码操作,实现了视频帧的重建。
上述基于深度视频生成的编解码方法,一套训练完成的完整神经网络模型,其通常只能用于对具有固定分辨率的待编码视频帧进行视频帧重建,而无法兼容多种不同分辨率。然而,实际应用过程中,由于网络带宽等因素的影响,待编码视频帧的分辨率可能有多种,而并非某一种固定分辨率。此时,只能针对每种分辨率训练一套对应的神经网络模型,再在应用阶段,根据待编码视频帧的实际分辨率加载对应网络模型,这样的操作复杂,非常不方便。
发明内容
有鉴于此,本申请实施例提供一种视频编码方法、解码方法、电子设备及存储介质,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种视频编码方法,包括:
获取原始参考视频帧和待编码的原始目标视频帧;
对所述原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与所述第一预设分辨率对应的特征提取网络对所述调整后目标视频帧进行特征提取,得到目标特征;
分别编码所述原始参考视频帧和所述目标特征,得到视频比特流,以基于所述视频比特流进行视频帧重建,生成与所述原始目标视频帧具有相同分辨率的重建视频帧。
根据本申请实施例的第二方面,提供了一种视频解码方法,包括:
获取视频比特流并解码,得到原始参考视频帧和目标特征;
对所述原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对所述调整后参考视频帧进行特征提取,得到参考特征;
通过运动估计网络,基于所述参考特征和所述目标特征进行运动估计,得到运动估计结果;
通过生成网络,基于所述运动估计结果和所述原始参考视频帧,生成与所述原始参考视频帧具有相同分辨率的重建视频帧。
根据本申请实施例的第三方面,提供了一种视频编码方法,包括:
获取原始参考视频帧和待编码的原始目标视频帧;
对所述原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与所述第一预设分辨率对应的特征提取网络对所述调整后目标视频帧进行特征提取,得到目标特征;
分别编码所述原始参考视频帧和所述目标特征,得到视频比特流,以使解码端设备解码所述视频比特流,得到原始参考视频帧和目标特征;对所述原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对所述调整后参考视频帧进行特征提取,得到参考特征;通过运动估计网络,基于所述参考特征和所述目标特征进行运动估计,得到运动估计结果;通过生成网络,基于所述运动估计结果和所述原始参考视频帧,生成与所述原始参考视频帧具有相同分辨率的重建视频帧。
根据本申请实施例的第四方面,提供了一种视频编码方法,包括:
获取视频采集设备采集到的原始视频片段;
从所述原始视频片段中确定原始参考视频帧和待编码的原始目标视频帧;
对所述原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与所述第一预设分辨率对应的特征提取网络对所述调整后目标视频帧进行特征提取,得到目标特征;
分别编码所述原始参考视频帧和所述目标特征,得到视频比特流;
将所述视频比特流发送至会议终端设备,以使所述会议终端设备基于所述视频比特流进行视频帧重建,生成与所述原始目标视频帧具有相同分辨率的重建视频帧并显示。
根据本申请实施例的第五方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面、第三方面或第四方面所述的视频编码方法对应的操作,或者,如第二方面所述的视频解码方法对应的操作。
根据本申请实施例的第六方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面、第三方面或第四方面所述的视频编码方法,或者,如第二方面所述的视频解码方法。
根据本申请实施例的第七方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如第一方面、第三方面或第四方面所述的视频编码方法对应的操作,或者,如第二方面所述的视频解码方法对应的操作。
根据本申请实施例提供的视频编码方法以及解码方法,在编码阶段,获取到待编码的原始目标视频帧之后,通过分辨率调整操作对原始目标视频帧进行了分辨率统一化,将原始目标视频帧转换为了具有固定分辨率(第一预设分辨率)的调整后目标视频帧,使得即使原始目标视频帧具有多样化的分辨率,最终输入至特征提取网络的仍是具有固定分辨率的视频帧,这样,无需训练多种针对不同分辨率的特征提取网络,而仅需要一个与第一预设分辨率对应的特征提取网络(用于对具有第一预设分辨率的视频帧进行特征提取的特征提取网络)即可实现多种不同分辨率原始目标视频帧的编码,适用范围更广泛,通用性更高,同时,操作更简单、便捷。另外,对应地,在解码阶段,对原始参考视频帧也进行了分辨率统一化,将原始参考视频帧转换为了具有固定分辨率的调整后参考视频帧,进而得到了具有固定分辨率的参考特征和目标特征,使得最终输入至运动估计网络和生成网络的也是具有固定分辨率的特征,进而仅需一个运动估计网络和一个生成网络即可实现各种不同分辨率目标视频帧场景下的解码。综上,本申请实施例,针对多种不同分辨率的原始目标视频帧,仅需要一套神经网络模型即可进行编解码操作,适用范围更广泛、操作过程更简单、便捷。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为基于深度视频生成的编解码方法的框架示意图;
图2为根据本申请实施例一的一种视频编码方法的步骤流程图;
图3为图2所示实施例中的一种场景示例的示意图;
图4为根据本申请实施例二的一种视频解码方法的步骤流程图;
图5为根据本申请实施例三的一种视频解码方法的步骤流程图;
图6为图5所示实施例中的一种场景示例的示意图;
图7为根据本申请实施例四的一种视频解码方法的步骤流程图;
图8为图7所示实施例中的一种场景示例的示意图;
图9为根据本申请实施例五的一种视频解码方法的步骤流程图;
图10为图9所示实施例中的一种场景示例的示意图;
图11为根据本申请实施例六的一种视频解码方法的步骤流程图;
图12为图11所示实施例中的一种场景示例的示意图;
图13为根据本申请实施例七的一种视频编码方法的步骤流程图;
图14为根据本申请实施例八的一种视频编码方法的步骤流程图;
图15为根据本申请实施例九的一种视频编码装置的结构框图;
图16为根据本申请实施例十的一种视频解码装置的结构框图;
图17为根据本申请实施例十一的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
参见图1,图1为基于深度视频生成的编解码方法的框架示意图。该方法的主要原理是基于待编码帧的运动对参考帧进行形变处理,以得到待编码帧对应的重建帧。下面结合图1对基于深度视频生成的编解码方法的基本框架进行说明:
第一步,编码阶段,编码器采用特征提取器提取待编码的目标面部视频帧的目标关键点信息,并对目标关键点信息编码;同时,采用传统的图像编码方法(如VVC、HEVC等)对参考面部视频帧进行编码。
第二步,解码阶段,解码器中的运动估计模块,通过关键点提取器提取参考面部视频帧的参考关键点信息;并基于参考关键点信息和目标关键点信息进行稠密运动估计,得到稠密运动估计图和遮挡图,其中,稠密运动估计图表征关键点信息表征的特征域中,目标面部视频帧与参考面部视频帧之间的相对运动关系;遮挡图表征目标面部视频帧中各像素点被遮挡的程度。
第三步,解码阶段,解码器中的生成模块基于稠密运动估计图对参考面部视频帧进行形变处理,得到形变处理结果,再将形变处理结果与遮挡图相乘,从而输出重建面部视频帧。
图1所示方法,是基于由特征提取器(特征提取模块)、运动估计模块以及生成模块组成的神经网络模型进行视频帧的编解码操作的,上述模型中各神经网络模块训练完成后,其内部参数及输入输出的数据分辨率尺寸则固定不变,因而在推理阶段,一套训练完成的神经网络模型只能用于对具有特定分辨率的待编码视频帧进行视频帧重建,而无法兼容多种不同分辨率。
然而,实际应用过程中,由于网络带宽等因素的影响,待编码视频帧的分辨率可能有多种,而并非某一种固定分辨率。此时,采用上述基于深度视频生成的编解码方法,只能针对每种分辨率训练一套对应的神经网络模型,再在推理阶段,根据待编码视频帧的实际分辨率加载对应模型,这样的操作复杂,非常不方便。
本申请实施例中,通过分辨率调整操作对原始目标视频帧进行了分辨率统一化,将原始目标视频帧转换为了具有特定分辨率的调整后目标视频帧,进而执行后续的特征提取等操作,以对下采样目标视频帧进行编解码,并最终输出与原始目标视频帧具有相同分辨率的重建视频帧。这样,即使原始目标视频帧具有多样化的分辨率,最终输入至特征提取网络、运动估计网络以及生成网络的数据仍具有固定的分辨率,因此,无需训练多种针对不同分辨率的神经网络,而仅需要一种神经网络即可实现多种不同分辨率原始目标视频帧的编码,适用范围更广泛,通用性更高,同时,操作更简单、便捷。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
实施例一
参照图2,图2为根据本申请实施例一的一种视频编码方法的步骤流程图。具体地,本实施例提供的视频编码方法包括以下步骤:
步骤202,获取原始参考视频帧和待编码的原始目标视频帧。
具体地,本申请中的原始参考视频帧和原始目标视频帧为具有相同分辨率的视频帧,并且,原始参考视频帧和原始目标视频帧均可以为面部视频帧。另外,本申请实施例中,对于原始参考视频帧及原始目标视频帧的分辨率大小不做限定。
进一步地,为了使得后续进行视频帧重建时,得到较高质量的重建视频帧,可以从同一视频片段中选取原始参考帧和待编码的原始目标视频帧,也就是说,本步骤中,可以获取源自于同一视频片段的原始参考视频帧和待编码的原始目标视频帧。
步骤204,对原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧。
具体地,本申请实施例中对于第一预设分辨率的具体数值不做限定,可以根据编解码设备的算力资源、网络状态以及编解码时效性等要求,自定义设定。
具体地,为了降低码率,可以将第一预设分辨率设定为较低的值,对应地,本步骤中,可以对原始目标视频帧进行下采样,从而得到具有第一预设分辨率的调整后目标视频帧。
可选地,在其中一些实施例中,可以通过如下方式得到调整后目标视频帧:基于原始目标视频帧的分辨率确定第一目标缩放因子;采用第一目标缩放因子对原始目标视频帧进行缩放处理,得到具有第一预设分辨率的调整后目标视频帧;其中,第一目标缩放因子,可以是基于原始目标视频帧的分辨率与第一预设分辨率之间的大小关系确定的,具体地,可以将原始目标视频帧的分辨率与第一预设分辨率的比值确定为第一目标缩放因子。
进一步地,针对原始目标视频帧可能出现的几种分辨率,可以预先计算出各分辨率对应的各缩放因子,放入第一缩放因子序列中,之后,在获取到原始目标视频帧之后,可以根据分辨率与缩放因子间的预设对应关系,从上述预设的第一缩放因子序列中,确定与原始目标视频帧的分辨率对应的第一目标缩放因子。
步骤206,通过与第一预设分辨率对应的特征提取网络对调整后目标视频帧进行特征提取,得到目标特征。
本申请实施例中,可以借助机器学习模型(特征提取网络)对调整后目标视频帧进行特征提取,从而得到目标特征。具体地:可以将调整后目标视频帧输入预先训练完成的特征提取网络中,以使特征提取网络输出调整后目标视频帧的目标特征。
本申请实施例中的特征提取网络为与第一预设分辨率对应的特征提取网络,也即:用于对具有第一预设分辨率的视频帧进行特征提取的网络模型。
目标特征可以为用于表征调整后目标视频帧的特征的信息。对于面部视频帧而言,目标特征具体可以为目标关键点特征,或者,目标紧凑特征,其中,目标关键点特征表征调整后目标视频帧中的预设关键点的特征信息;目标紧凑特征表征调整后目标视频帧中五官位置信息、姿态信息以及表情信息等关键信息。
本申请实施例中,对于特征提取网络的结构和参数不做限定,可以根据实际需要进行设定,例如:特征提取网络可以为基于卷积层和广义除法归一化层组合而成的U-Net网络,等等。
步骤208,分别编码原始参考视频帧和目标特征,得到视频比特流,以基于视频比特流进行视频帧重建,生成与原始目标视频帧具有相同分辨率的重建视频帧。
具体地,针对原始参考视频帧,可以采用相对较小的量化失真进行编码,编码过程保留原始参考视频帧的完整数据,例如:可以采用通用视频编码(VVC)的方式,对原始参考视频帧进行编码。针对目标特征,则可以通过量化及熵编码的方式,进行编码。
进一步的,在本申请一些实施例中,为了进一步降低视频编码的码率,可以对原始参考视频帧也进行分辨率调整,得到调整后参考视频帧,并对调整后参考视频帧进行特征提取,得到参考特征,再对目标特征和参考特征进行差分运算,对差分运算得到的差值进行编码以形成视频比特流。
与直接基于目标特征进行编码处理的方式相比,上述方式中,是基于目标特征与参考特征之间的差值进行编码处理,从而得到视频比特流的,显然,目标特征与参考特征之间的差值的数据量小于目标特征本身的数据量,因此,基于目标特征与参考特征之间的差值进行编码处理,可以有效降低视频编码的码率。
参见图3,图3为本申请实施例一对应的场景示意图,以下,将参考图3所示的示意图,以一个具体场景示例,对本申请实施例进行说明:
分别获取原始参考视频帧和待编码的原始目标视频帧,其中,原始参考视频帧和原始目标视频帧的分辨率均为:W×H(宽度方向上单位尺寸内包含的像素点为W个,高度方向上单位尺寸内包含的像素点为H个);从第一缩放因子序列s={s1、s2、s3、……、sn}中确定出第一目标缩放因子,进而基于第一目标缩放因子对原始目标视频帧进行下采样,得到具有W1×H1(第一预设分辨率)的调整后目标视频帧;并通过特征提取网络对调整后目标视频帧进行特征提取,得到目标特征;分别编码原始参考视频帧和目标特征,得到视频比特流,其中,采用熵编码的方式编码目标特征,采用VVC方式编码原始参考视频帧。
本申请实施例中,在编码阶段,获取到待编码的原始目标视频帧之后,通过分辨率调整操作对原始目标视频帧进行了分辨率统一化,将原始目标视频帧转换为了具有固定分辨率(第一预设分辨率)的调整后目标视频帧,使得即使原始目标视频帧具有多样化的分辨率,最终输入至特征提取网络的仍是具有固定分辨率的视频帧,这样,无需训练多种针对不同分辨率的特征提取网络,而仅需要一个与第一预设分辨率对应的特征提取网络(用于对具有第一预设分辨率的视频帧进行特征提取的特征提取网络)即可实现多种不同分辨率原始目标视频帧的编码,适用范围更广泛,通用性更高,同时,操作更简单、便捷。
本申请实施例一提供的视频编码方法,可以由视频编码端(编码器)执行,用于对具有不同分辨率的视频文件,尤其是面部视频文件进行编码,以实现对视频文件的数字带宽进行压缩。其可以适用于多种不同的场景,如:常规的涉及面部的、具有各种分辨率的视频游戏的存储和流式传输,具体地:可以通过本申请实施例提供的视频编码方法对游戏视频帧进行编码,形成对应的视频比特流,以在视频流服务或者其他类似的应用中存储和传输;又如:视频会议、视频直播等低延时场景,具体地:可以通过本申请实施例提供的视频编码方法对视频采集设备采集到的、具有各种分辨率的面部视频数据进行编码,形成对应的视频比特流,并发送至会议终端,通过会议终端对视频比特流进行解码从而得到对应的面部视频画面;还如:虚拟现实场景,可以通过本申请实施例提供的面部视频编码方法对视频采集设备采集到的、具有各种分辨率的面部视频数据进行编码,形成对应的视频比特流,并发送至虚拟现实相关设备(如VR虚拟眼镜等),通过VR设备对视频比特流进行解码从而得到对应的面部视频画面,并基于面部视频画面实现对应的VR功能,等等。
实施例二
参照图4,图4为根据本申请实施例二的一种视频解码方法的步骤流程图。具体地,本实施例提供的视频解码方法包括以下步骤:
步骤402,获取视频比特流并解码,得到原始参考视频帧和目标特征。
其中,目标特征为对调整后目标视频帧进行特征提取得到的,其中,调整后目标视频帧为对原始目标视频帧进行分辨率调整得到的具有第一预设分辨率的视频帧。
步骤404,对原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧。
本步骤中,对原始参考视频帧进行分辨率调整的具体方式,与实施例一步骤204中对原始目标视频帧进行分辨率调整的具体方式相同。具体地,可以对原始参考视频帧进行下采样,从而得到有第一预设分辨率的调整后参考视频帧。
步骤406,通过特征提取网络对调整后参考视频帧进行特征提取,得到参考特征。
本步骤中,得到参考特征的具体方式,可以参考实施例一步骤206中得到目标特征的具体方式,此处不再赘述。
步骤408,通过运动估计网络,基于参考特征和目标特征进行运动估计,得到运动估计结果。
具体地,一种方式中,可以基于参考特征和目标特征进行稀疏运动估计,得到稀疏运动估计图,并将得到的稀疏运动估计图直接作为运动估计结果。其中,稀疏运动估计图表征在预设的稀疏特征域中,参考特征对应的原始参考视频你与目标特征对应的原始目标视频帧之间的相对运动关系。
另一种方式中,也可以在得到稀疏运动估计图之后,基于稀疏运动估计图和初始参考视频帧生成的初始重建视频帧,再次进行稠密运动估计,从而得到稠密运动估计图和遮挡图,作为最终的运动估计结果;其中,稠密运动估计图表征在预设的稠密特征域中,原始目标视频帧与原始参考视频帧之间的相对运动关系;遮挡图表征原始目标视频帧中各像素点被遮挡的程度。
上述两种方式相比,第一种方式,计算过程简便,因此,计算效率较高,能够快速得到运动估计结果;第二种方式,得到的是在更为稠密的特征域中,原始目标视频帧与原始参考面部视频帧之间的相对运动关系,该相对运动关系相较于稀疏运动估计图表征的相对运动关系,则更为精准。
步骤410,通过生成网络,基于运动估计结果和原始参考视频帧,生成与原始参考视频帧具有相同分辨率的重建视频帧。
具体地,生成网络基于步骤408得到的运动估计结果对原始参考视频帧进行形变处理,得到形变处理结果,并基于上述形变处理结果输出重建视频帧。
本申请实施例中,在解码阶段,对原始参考视频帧也进行了分辨率统一化,将原始参考视频帧转换为了具有固定分辨率的调整后参考视频帧,进而得到了具有固定分辨率的参考特征和目标特征,使得最终输入至运动估计网络和生成网络的也是具有固定分辨率的特征,进而仅需一个运动估计网络和一个生成网络即可实现各种不同分辨率目标视频帧场景下的解码。本申请实施例,针对多种不同分辨率的原始目标视频帧,仅需要一套神经网络模型即可进行编解码操作,适用范围更广泛、操作过程更简单、便捷。
本实施例的视频解码方法可以由任意适当的具有数据能力的电子设备执行,包括但不限于:服务器、PC机等。
实施例三
参照图5,图5为根据本申请实施例三的一种视频解码方法的步骤流程图。具体地,本实施例提供的视频解码方法包括以下步骤:
步骤502,获取视频比特流并解码,得到原始参考视频帧和目标特征。
步骤504,对原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对调整后参考视频帧进行特征提取,得到参考特征。
具体地,例如,可以对原始参考视频帧进行下采样,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对调整后参考视频帧进行特征提取,得到参考特征。
步骤506,将参考特征和目标特征输入运动估计网络,通过运动估计网络进行运动估计,得到第一运动估计结果。
步骤508,对原始参考视频帧进行分辨率调整,得到具有第二预设分辨率的调整后参考视频帧。
本步骤中,可以对原始参考视频帧进行下采样,得到具有第二预设分辨率的调整后参考视频帧。
可选地,在其中一些实施例中,可以通过如下方式得到具有第二预设分辨率的调整后参考视频帧:基于原始参考视频帧的分辨率确定第二目标缩放因子;采用第二目标缩放因子对原始参考视频帧进行缩放处理,得到具有第二预设分辨率的调整后参考视频帧;其中,第二目标缩放因子,可以是基于原始参考视频帧的分辨率与第二预设分辨率之间的大小关系确定的,具体地,可以将原始参考视频帧的分辨率与第二预设分辨率的比值确定为第二目标缩放因子。
进一步地,针对原始参考视频帧可能出现的几种分辨率,可以预先计算出各分辨率对应的各缩放因子,放入第二缩放因子序列中,之后,在获取到原始参考视频帧之后,可以根据分辨率与缩放因子间的预设对应关系,从上述预设的第二缩放因子序列中,确定与原始参考视频帧的分辨率对应的第二目标缩放因子。
步骤510,将第一运动估计结果和具有第二预设分辨率的调整后参考视频帧输入生成网络,通过生成网络对具有第二预设分辨率的调整后参考视频帧进行形变处理,生成具有第二预设分辨率的过渡重建视频帧。
上述步骤508中的第二预设分辨率是根据第一预设分辨率以及生成网络的结构参数设定的。
具体地,在步骤506中得到的第一运动估计结果具有第一预设分辨率,另外,生成网络通常包括下采样子网络、形变子网络以及上采样子网络,在本步骤中,生成网络执行的具体操作是:先通过内部的下采样子网络对下采样参考视频帧进行下采样,得到第二下采样参考帧;再通过形变子网络参考第一运动估计结果,对第二下采样参考帧进行形变处理得到形变后参考帧,再通过上采样子网络对形变后参考帧进行上采样,从而将结果输出。为使得形变处理顺利执行,第二下采样参考帧与第一运动估计结果的分辨率应该相互匹配,也即:第二下采样参考帧与第一运动估计结果具有相同的分辨率(本申请实施例中均为第一预设分辨率)。因此,本申请实施例中,在设定第二预设分辨率时,可以使得通过下采样子网络对具有第二预设分辨率的下采样参考视频帧进行下采样之后,得到的第二下采样参考帧与第一运动估计结果的分辨率相匹配,均为第一预设分辨率。
步骤512,对过渡重建视频帧进行分辨率调整,得到与原始参考视频帧具有相同分辨率的重建视频帧。
通过生成网络生成的过渡重建视频帧具有第二预设分辨率,若第二预设分辨率为对原始参考视频帧进行下采样得到的,则为了得到与原始参考视频帧具有相同分辨率的重建视频帧,本步骤中则需要对过渡重建视频帧进行与步骤508相反的上采样操作。
具体地,可以通过如下方式进行本步骤中的上采样:将上述步骤508中的第二目标缩放因子的倒数确定为第三目标缩放因子;采用第三目标缩放因子对过渡重建视频帧进行下采样,得到与原始参考视频帧具有相同分辨率的重建视频帧。
参见图6,图6为本申请实施例三对应的场景示意图,以下,将参考图6所示的示意图,以一个具体场景示例,对本申请实施例进行说明:
对视频比特流解码,得到分辨率为W×H的原始参考视频帧和目标特征;对原始参考视频帧进行下采样,得到分辨率为W1×H1(第一预设分辨率)的调整后参考视频帧;并通过特征提取网络得到对应的参考特征;将参考特征和目标特征输入运动估计网络,得到第一运动估计结果;同时,从第二缩放因子序列x={x1、x2、x3……、xn}中确定出第二目标缩放因子对原始参考视频帧进行下采样,得到具有第二预设分辨率的调整后参考视频帧(图中未示出);通过生成网络,基于具有第二预设分辨率的调整后参考视频帧和第一运动估计结果,得到具有第二预设分辨率的过渡重建视频帧;从第三缩放因子序列1/x={1/x1、1/x2、1/x3……、1/xn}中确定出第三目标缩放因子对过渡重建视频帧进行上采样,得到分辨率为W×H的重建视频帧。
本申请实施例中,在解码阶段,对原始参考视频帧也进行了分辨率统一化,将原始参考视频帧转换为了具有固定分辨率的调整后参考视频帧,进而得到了具有固定分辨率的参考特征和目标特征,使得最终输入至运动估计网络和生成网络的也是具有固定分辨率的特征,进而仅需一个运动估计网络和一个生成网络即可实现各种不同分辨率目标视频帧场景下的解码。本申请实施例,针对多种不同分辨率的原始目标视频帧,仅需要一套神经网络模型即可进行编解码操作,适用范围更广泛、操作过程更简单、便捷。
另外,本申请实施例中,分辨率调整过程(上采样过程以及下采样过程)均是针对视频帧进行的,也即:都是在图像域而非特征域进行的,因此,有利于神经网络模型中的各网络学习到正确的运动信息等,进而提升视频帧重建的质量。
本实施例的视频解码方法可以由任意适当的具有数据能力的电子设备执行,包括但不限于:服务器、PC机等。
实施例四
参照图7,图7为根据本申请实施例四的一种视频解码方法的步骤流程图。具体地,本实施例提供的视频解码方法包括以下步骤:
步骤702,获取视频比特流并解码,得到原始参考视频帧和目标特征。
步骤704,对原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对调整后参考视频帧进行特征提取,得到参考特征。
具体地,本步骤中,可以对原始参考视频帧进下采样,得到具有第一预设分辨率的调整后参考视频帧。
步骤706,对参考特征和目标特征进行分辨率调整,得到调整后参考特征和调整后目标特征。
若步骤704中对原始参考视频帧进行了下采样,则本步骤中,对应地可以对参考特征和目标特征进行上采样,得到调整后参考特征和调整后目标特征。
步骤708,将调整后参考特征和调整后目标特征,输入运动估计网络,通过运动估计网络进行运动估计,得到第二运动估计结果。
步骤710,将第二运动估计结果和原始参考视频帧输入生成网络,通过生成网络,对原始参考视频帧进行形变处理,生成与原始参考视频帧具有相同分辨率的重建视频帧。
上述步骤706中分辨率调整时所采用的缩放因子(采样因子)是根据原始参考视频帧的分辨率、运动估计网络的结构参数以及生成网络的结构参数设定的。具体地,与步骤510类似,为使得生成网络中的形变处理顺利执行,通过运动估计网络,对根据上述采样因子得到的调整后参考特征和调整后目标特征进行运动估计之后,得到的第二运动估计结果经过下采样子网络的下采样操作之后,可以与原始参考视频帧的分辨率相同。
参见图8,图8为本申请实施例四对应的场景示意图,以下,将参考图8所示的示意图,以一个具体场景示例,对本申请实施例进行说明:
对视频比特流解码,得到分辨率为W×H的原始参考视频帧和目标特征;对原始参考视频帧进行下采样,得到分辨率为W1×H1(第一预设分辨率)的调整后参考视频帧;并通过特征提取网络得到对应的参考特征;从缩放因子序列x={x1、x2、x3……、xn}中确定出目标缩放因子对参考特征和目标特征进行上采样,得到调整后参考特征和调整后目标特征;通过运动估计网络,得到第二运动估计结果;再通过生成网络,基于第二运动估计结果和原始参考视频帧,生成与原始参考视频帧具有相同分辨率的重建视频帧。
本申请实施例中,在解码阶段,对原始参考视频帧也进行了分辨率统一化,将原始参考视频帧转换为了具有固定分辨率的调整后参考视频帧,进而得到了具有固定分辨率的参考特征和目标特征,使得最终输入至运动估计网络和生成网络的也是具有固定分辨率的特征,进而仅需一个运动估计网络和一个生成网络即可实现各种不同分辨率目标视频帧场景下的解码。本申请实施例,针对多种不同分辨率的原始目标视频帧,仅需要一套神经网络模型即可进行编解码操作,适用范围更广泛、操作过程更简单、便捷。
另外,本申请实施例中,在生成网络输出结果时候,并未对结果进行上采样或者下采样操作,因此,可以有效避免最终重建的视频帧中产生视觉伪影。
本实施例的视频解码方法可以由任意适当的具有数据能力的电子设备执行,包括但不限于:服务器、PC机等。
实施例五
参照图9,图9为根据本申请实施例五的一种视频解码方法的步骤流程图。具体地,本实施例提供的视频解码方法包括以下步骤:
步骤902,获取视频比特流并解码,得到原始参考视频帧和目标特征。
步骤904,对原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对调整后参考视频帧进行特征提取,得到参考特征。
具体地,本步骤中可以对原始参考视频帧进行下采样,得到具有第一预设分辨率的调整后参考视频帧。
步骤906,将参考特征和目标特征输入运动估计网络,通过运动估计网络进行运动估计,得到第一运动估计结果。
步骤908,对第一运动估计结果进行分辨率调整,得到第三运动估计结果。
若步骤904中对原始参考视频帧进行了下采样,则对应地,本步骤中,可以对第一运动估计结果进行上采样,得到第三运动估计结果。
步骤910,将第三运动估计结果和原始参考视频帧输入生成网络,通过生成网络,对原始参考视频帧进行形变处理,生成与原始参考视频帧具有相同分辨率的重建视频帧。
上述步骤908中分辨率调整时所采用的采样因子是根据原始参考视频帧的分辨率以及生成网络的结构参数设定的。具体地,为使得生成网络中的形变处理顺利执行,第三运动估计结果的分辨率,可以与原始参考视频帧经过下采样子网络的下采样操作之后的分辨率相匹配(相等)。
参见图10,图10为本申请实施例五对应的场景示意图,以下,将参考图10所示的示意图,以一个具体场景示例,对本申请实施例进行说明:
对视频比特流解码,得到分辨率为W×H的原始参考视频帧和目标特征;对原始参考视频帧进行下采样,得到分辨率为W1×H1(第一预设分辨率)的调整后参考视频帧;并通过特征提取网络得到对应的参考特征;对参考特征和目标特征进行运动估计,得到具有第一预设分辨率的第一运动估计结果;从缩放因子序列x={x1、x2、x3……、xn}中确定出目标缩放因子对第一运动估计结果进行上采样,得到第三运动估计结果;再通过生成网络,基于第三动估计结果和原始参考视频帧,生成与原始参考视频帧具有相同分辨率的重建视频帧。
本申请实施例中,在解码阶段,对原始参考视频帧也进行了分辨率统一化,将原始参考视频帧转换为了具有固定分辨率的调整后参考视频帧,进而得到了具有固定分辨率的参考特征和目标特征,使得最终输入至运动估计网络和生成网络的也是具有固定分辨率的特征,进而仅需一个运动估计网络和一个生成网络即可实现各种不同分辨率目标视频帧场景下的解码。本申请实施例,针对多种不同分辨率的原始目标视频帧,仅需要一套神经网络模型即可进行编解码操作,适用范围更广泛、操作过程更简单、便捷。
另外,本申请实施例中,在生成网络输出结果时候,并未对结果进行分辨率调整(上采样或者下采样操作),因此,可以有效避免最终重建的视频帧中产生视觉伪影。
本实施例的视频解码方法可以由任意适当的具有数据能力的电子设备执行,包括但不限于:服务器、PC机等。
实施例六
参照图11,图11为根据本申请实施例六的一种视频解码方法的步骤流程图。具体地,本实施例提供的视频解码方法包括以下步骤:
步骤1102,获取视频比特流并解码,得到原始参考视频帧和目标特征。
步骤1104,对原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对下采样参考视频帧进行特征提取,得到参考特征。
具体地,本步骤中可以对原始参考视频帧进行下采样,得到具有第一预设分辨率的调整后参考视频帧。
步骤1106,将参考特征和目标特征输入运动估计网络,通过运动估计网络进行运动估计,得到第一运动估计结果。
步骤1108,将原始参考视频帧和第一运动估计结果输入生成网络,通过下采样子网络对原始参考视频帧进行下采样得到第一下采样参考帧;通过下采样层对第一下采样参考帧进行下采样得到第二下采样参考帧;通过形变子网络对第二下采样参考帧进行形变处理得到形变后参考帧;通过上采层对形变后参考帧进行上采样得到第一上采样形变帧;通过上采样子网络对第一上采样形变帧进行上采样得到与原始参考视频帧具有相同分辨率的重建视频帧。
具体地,下采样层对第一下采样参考帧进行下采样时所采用的采样因子,与上采样层对第一上采样形变帧进行上采样时所采用的采样因子互为倒数,也就是说,假设下采样层对第一下采样参考帧进行下采样时所采用的采样因子为x1,则上采样层对第一上采样形变帧进行上采样时所采用的采样因子为1/x1
下采样层对第一下采样参考帧进行下采样时所采用的采样因子是根据原始参考视频帧的分辨率、第一预设分辨率以及生成网络的结构参数设定的。具体地,将原始参考视频帧输入至生成网络后,最终经过下采样层输出的第二下采样参考帧的分辨率为第一预设分辨率。
参见图12,图12为本申请实施例六对应的场景示意图,以下,将参考图12所示的示意图,以一个具体场景示例,对本申请实施例进行说明:
对视频比特流解码,得到分辨率为W×H的原始参考视频帧和目标特征;对原始参考视频帧进行下采样,得到分辨率为W1×H1(第一预设分辨率)的调整后参考视频帧;并通过特征提取网络得到对应的参考特征;对参考特征和目标特征进行运动估计,得到具有第一预设分辨率的第一运动估计结果;将原始参考视频帧和第一运动估计结果输入生成网络,生成网络中的下采样层从缩放因子序列1/x={1/x1、1/x2、1/x3……、1/xn}中确定出目标缩放因子对经过下采样子网络后得到的第一下采样参考帧进行再次下采样,得到第二下采样参考帧;形变子网络对第二下采样参考帧进行形变处理得到形变后参考帧;上采样层从缩放因子序列x={x1、x2、x3……、xn}中确定出目标缩放因子对形变后参考帧进行上采样得到第一上采样形变帧;通过上采样子网络对第一上采样形变帧再次进行上采样,最终得到与原始参考视频帧具有相同分辨率的重建视频帧。
本申请实施例中,在解码阶段,对原始参考视频帧也进行了分辨率统一化,将原始参考视频帧转换为了具有固定分辨率的调整后参考视频帧,进而得到了具有固定分辨率的参考特征和目标特征,使得最终输入至运动估计网络和生成网络的也是具有固定分辨率的特征,进而仅需一个运动估计网络和一个生成网络即可实现各种不同分辨率目标视频帧场景下的解码。本申请实施例,针对多种不同分辨率的原始目标视频帧,仅需要一套神经网络模型即可进行编解码操作,适用范围更广泛、操作过程更简单、便捷。
本实施例的视频解码方法可以由任意适当的具有数据能力的电子设备执行,包括但不限于:服务器、PC机等。
实施例七
参照图13,图13为根据本申请实施例七的一种视频编码方法的步骤流程图。具体地,本实施例提供的视频编码方法包括以下步骤:
步骤1302,获取原始参考视频帧和待编码的原始目标视频帧。
步骤1304,对原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与第一预设分辨率对应的特征提取网络对调整后目标视频帧进行特征提取,得到目标特征。
步骤1306,分别编码原始参考视频帧和目标特征,得到视频比特流,以使解码端设备解码视频比特流,得到原始参考视频帧和目标特征;对原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对调整后参考视频帧进行特征提取,得到参考特征;通过运动估计网络,基于参考特征和目标特征进行运动估计,得到运动估计结果;通过生成网络,基于运动估计结果和原始参考视频帧,生成与原始参考视频帧具有相同分辨率的重建视频帧。
本实施例的视频编码方法中,各步骤的具体实现方式,可以参考上述实施例二至实施例六中任一实施例中的对应步骤,在此不再赘述。
根据本申请实施例提供的视频编码方法,在编码阶段,获取到待编码的原始目标视频帧之后,通过分辨率调整操作对原始目标视频帧进行了分辨率统一化,将原始目标视频帧转换为了具有固定分辨率(第一预设分辨率)的调整后目标视频帧,使得即使原始目标视频帧具有多样化的分辨率,最终输入至特征提取网络的仍是具有固定分辨率的视频帧,这样,无需训练多种针对不同分辨率的特征提取网络,而仅需要一个与第一预设分辨率对应的特征提取网络(用于对具有第一预设分辨率的视频帧进行特征提取的特征提取网络)即可实现多种不同分辨率原始目标视频帧的编码,适用范围更广泛,通用性更高,同时,操作更简单、便捷。另外,对应地,在解码阶段,对原始参考视频帧也进行了分辨率统一化,将原始参考视频帧转换为了具有固定分辨率的调整后参考视频帧,进而得到了具有固定分辨率的参考特征和目标特征,使得最终输入至运动估计网络和生成网络的也是具有固定分辨率的特征,进而仅需一个运动估计网络和一个生成网络即可实现各种不同分辨率目标视频帧场景下的解码。综上,本申请实施例,针对多种不同分辨率的原始目标视频帧,仅需要一套神经网络模型即可进行编解码操作,适用范围更广泛、操作过程更简单、便捷。
实施例八
参照图14,图14为根据本申请实施例八的一种视频编码方法的步骤流程图。该视频编码方法的应用场景为:视频采集设备采集到会议视频,通过本实施例提供的视频编码方法进行视频编码,形成对应的视频比特流,并发送至会议终端,通过会议终端对视频比特流进行解码从而得到对应的会议视频画面并显示。
具体地,本实施例提供的视频编码方法包括以下步骤:
步骤1402,获取视频采集设备采集到的原始视频片段。
步骤1404,从原始视频片段中确定原始参考视频帧和待编码的原始目标视频帧。
步骤1406,对原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与第一预设分辨率对应的特征提取网络对调整后目标视频帧进行特征提取,得到目标特征。
步骤1408,分别编码原始参考视频帧和目标特征,得到视频比特流。
步骤1410,将视频比特流发送至会议终端设备,以使会议终端设备基于视频比特流进行视频帧重建,生成与原始目标视频帧具有相同分辨率的重建视频帧并显示。
实施例九
参见图15,图15为根据本申请实施例九的一种视频编码装置的结构框图。本申请实施例提供的视频编码装置包括:
原始视频帧获取模块1502,用于获取原始参考视频帧和待编码的原始目标视频帧;
目标特征得到模块1504,用于对原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与第一预设分辨率对应的特征提取网络对调整后目标视频帧进行特征提取,得到目标特征;
比特流得到模块1506,用于分别编码原始参考视频帧和目标特征,得到视频比特流,以基于视频比特流进行视频帧重建,生成与原始目标视频帧具有相同分辨率的重建视频帧。
可选地,在其中一些实施例中,目标特征得到模块1504,在执行对原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧的步骤时,具体用于:
基于原始目标视频帧的分辨率确定第一目标缩放因子;
采用第一目标缩放因子对原始目标视频帧进行缩放操作,得到具有第一预设分辨率的调整后目标视频帧。
可选地,在其中一些实施例中,目标特征得到模块1504,在执行基于原始目标视频帧的分辨率确定第一目标缩放因子的步骤时,具体用于:
根据分辨率与缩放因子间的预设对应关系,从预设的第一缩放因子序列中,确定与原始目标视频帧的分辨率对应的第一目标缩放因子。
本实施例的视频编码装置用于实现前述多个方法实施例中相应的视频编码方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的视频编码装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例十
参见图16,图16为根据本申请实施例十的一种视频解码装置的结构框图。本申请实施例提供的视频解码装置包括:
解码模块1602,用于获取视频比特流并解码,得到原始参考视频帧和目标特征;
参考特征得到模块1604,用于对原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对调整后参考视频帧进行特征提取,得到参考特征;
运动估计模块1606,用于通过运动估计网络,基于参考特征和目标特征进行运动估计,得到运动估计结果;
生成模块1608,用于通过生成网络,基于运动估计结果和原始参考视频帧,生成与原始参考视频帧具有相同分辨率的重建视频帧。
可选地,在其中一些实施例中,运动估计模块1606,具体用于:
将参考特征和目标特征输入运动估计网络,通过运动估计网络进行运动估计,得到第一运动估计结果;
生成模块1608,具体用于:对原始参考视频帧进行分辨率调整,得到具有第二预设分辨率的调整后参考视频帧;
将第一运动估计结果和具有第二预设分辨率的调整后参考视频帧输入生成网络,通过生成网络对具有第二预设分辨率的调整后参考视频帧进行形变处理,生成具有第二预设分辨率的过渡重建视频帧;
对过渡重建视频帧进行分辨率调整,得到与目标视频帧具有相同分辨率的重建视频帧。
可选地,在其中一些实施例中,运动估计模块1606,具体用于:
对参考特征和目标特征进行分辨率调整,得到调整后参考特征和调整后目标特征;
将调整后参考特征和调整后目标特征,输入运动估计网络,通过运动估计网络进行运动估计,得到第二运动估计结果;
生成模块1608,具体用于:将第二运动估计结果和原始参考视频帧输入生成网络,通过生成网络,对原始参考视频帧进行形变处理,生成与目标视频帧具有相同分辨率的重建视频帧。
可选地,在其中一些实施例中,运动估计模块1606,具体用于:
将参考特征和目标特征输入运动估计网络,通过运动估计网络进行运动估计,得到第一运动估计结果;
生成模块1608,具体用于:
对第一运动估计结果进行分辨率调整,得到第三运动估计结果;
将第三运动估计结果和原始参考视频帧输入生成网络,通过生成网络,对原始参考视频帧进行形变处理,生成与目标视频帧具有相同分辨率的重建视频帧。
可选地,在其中一些实施例中,生成模块包括:下采样子网络、下采样层、形变子网络、上采样层以及上采样子网络;
运动估计模块1606,具体用于:将参考特征和目标特征输入运动估计网络,通过运动估计网络进行运动估计,得到第一运动估计结果;
生成模块1608,具体用于:将原始参考视频帧和第一运动估计结果输入生成网络,通过下采样子网络对原始参考视频帧进行下采样得到第一下采样参考帧;通过下采样层对第一下采样参考帧进行下采样得到第二下采样参考帧;通过形变子网络对第二下采样参考帧进行形变处理得到形变后参考帧;通过上采样层对形变后参考帧进行上采样得到第一上采样形变帧;通过上采样子网络对第一上采样形变帧进行上采样得到与原始参考视频帧具有相同分辨率的重建视频帧。
本实施例的视频解码装置用于实现前述多个方法实施例中相应的视频解码方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的视频解码装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例十一
参照图17,示出了根据本申请实施例十一的一种电子设备的结构示意图,本申请具体实施例并不对电子设备的具体实现做限定。
如图17所示,该会议终端可以包括:处理器(processor)1702、通信接口(Communications Interface)1704、存储器(memory)1706、以及通信总线1708。
其中:
处理器1702、通信接口1704、以及存储器1706通过通信总线1708完成相互间的通信。
通信接口1704,用于与其它电子设备或服务器进行通信。
处理器1702,用于执行程序1710,具体可以执行上述视频编码方法,或者,视频解码方法实施例中的相关步骤。
具体地,程序1710可以包括程序代码,该程序代码包括计算机操作指令。
处理器1702可能是CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器1706,用于存放程序1710。存储器1706可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序1710具体可以用于使得处理器1702执行以下操作:获取原始参考视频帧和待编码的原始目标视频帧;对原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与第一预设分辨率对应的特征提取网络对调整后目标视频帧进行特征提取,得到目标特征;分别编码原始参考视频帧和目标特征,得到视频比特流,以基于视频比特流进行视频帧重建,生成与原始目标视频帧具有相同分辨率的重建视频帧。
或者,
程序1710具体可以用于使得处理器1702执行以下操作:获取视频比特流并解码,得到原始参考视频帧和目标特征;对原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对调整后参考视频帧进行特征提取,得到参考特征;通过运动估计网络,基于参考特征和目标特征进行运动估计,得到运动估计结果;通过生成网络,基于运动估计结果和原始参考视频帧,生成与原始参考视频帧具有相同分辨率的重建视频帧。
或者,
程序1710具体可以用于使得处理器1702执行以下操作:获取原始参考视频帧和待编码的原始目标视频帧;对原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与第一预设分辨率对应的特征提取网络对调整后目标视频帧进行特征提取,得到目标特征;分别编码原始参考视频帧和目标特征,得到视频比特流,以使解码端设备解码视频比特流,得到原始参考视频帧和目标特征;对原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对调整后参考视频帧进行特征提取,得到参考特征;通过运动估计网络,基于参考特征和目标特征进行运动估计,得到运动估计结果;通过生成网络,基于运动估计结果和原始参考视频帧,生成与原始参考视频帧具有相同分辨率的重建视频帧。
或者,
程序1710具体可以用于使得处理器1702执行以下操作:获取视频采集设备采集到的原始视频片段;从原始视频片段中确定原始参考视频帧和待编码的原始目标视频帧;对原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与第一预设分辨率对应的特征提取网络对调整后目标视频帧进行特征提取,得到目标特征;分别编码原始参考视频帧和目标特征,得到视频比特流;将视频比特流发送至会议终端设备,以使会议终端设备基于视频比特流进行视频帧重建,生成与原始目标视频帧具有相同分辨率的重建视频帧并显示。
程序1710中各步骤的具体实现可以参见上述视频编码方法,或者,视频解码方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,
在编码阶段,获取到待编码的原始目标视频帧之后,通过分辨率调整操作对原始目标视频帧进行了分辨率统一化,将原始目标视频帧转换为了具有固定分辨率(第一预设分辨率)的调整后目标视频帧,使得即使原始目标视频帧具有多样化的分辨率,最终输入至特征提取网络的仍是具有固定分辨率的视频帧,这样,无需训练多种针对不同分辨率的特征提取网络,而仅需要一个与第一预设分辨率对应的特征提取网络(用于对具有第一预设分辨率的视频帧进行特征提取的特征提取网络)即可实现多种不同分辨率原始目标视频帧的编码,适用范围更广泛,通用性更高,同时,操作更简单、便捷。另外,对应地,在解码阶段,对原始参考视频帧也进行了分辨率统一化,将原始参考视频帧转换为了具有固定分辨率的调整后参考视频帧,进而得到了具有固定分辨率的参考特征和目标特征,使得最终输入至运动估计网络和生成网络的也是具有固定分辨率的特征,进而仅需一个运动估计网络和一个生成网络即可实现各种不同分辨率目标视频帧场景下的解码。综上,本申请实施例,针对多种不同分辨率的原始目标视频帧,仅需要一套神经网络模型即可进行编解码操作,适用范围更广泛、操作过程更简单、便捷。
本申请实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令指示计算设备执行上述多个方法实施例中的任一方法对应的操作。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的视频编码方法,或者,视频解码方法。此外,当通用计算机访问用于实现在此示出的视频编码方法,或者,视频解码方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的视频编码方法,或者,视频解码方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

Claims (13)

1.一种视频编码方法,包括:
获取原始参考视频帧和待编码的原始目标视频帧;
对所述原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与所述第一预设分辨率对应的特征提取网络对所述调整后目标视频帧进行特征提取,得到目标特征;
分别编码所述原始参考视频帧和所述目标特征,得到视频比特流,以基于所述视频比特流进行视频帧重建,生成与所述原始目标视频帧具有相同分辨率的重建视频帧。
2.根据权利要求1所述的方法,其中,所述对所述原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧,包括:
基于所述原始目标视频帧的分辨率确定第一目标缩放因子;
采用所述第一目标缩放因子对所述原始目标视频帧进行缩放处理,得到具有第一预设分辨率的调整后目标视频帧。
3.根据权利要求2所述的方法,其中,所述基于所述原始目标视频帧的分辨率确定第一目标缩放因子,包括:
根据分辨率与缩放因子间的预设对应关系,从预设的第一缩放因子序列中,确定与所述原始目标视频帧的分辨率对应的第一目标缩放因子。
4.一种视频解码方法,包括:
获取视频比特流并解码,得到原始参考视频帧和目标特征;
对所述原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对所述调整后参考视频帧进行特征提取,得到参考特征;
通过运动估计网络,基于所述参考特征和所述目标特征进行运动估计,得到运动估计结果;
通过生成网络,基于所述运动估计结果和所述原始参考视频帧,生成与所述原始参考视频帧具有相同分辨率的重建视频帧。
5.根据权利要求4所述的方法,其中,所述通过运动估计网络,基于所述参考特征和所述目标特征进行运动估计,得到运动估计结果,包括:
将所述参考特征和所述目标特征输入运动估计网络,通过所述运动估计网络进行运动估计,得到第一运动估计结果;
所述通过生成网络,基于所述运动估计结果和所述原始参考视频帧,生成与所述目标视频帧具有相同分辨率的重建视频帧,包括:
对所述原始参考视频帧进行分辨率调整,得到具有第二预设分辨率的调整后参考视频帧;
将所述第一运动估计结果和所述具有第二预设分辨率的调整后参考视频帧输入生成网络,通过所述生成网络对所述具有第二预设分辨率的调整后参考视频帧进行形变处理,生成具有所述第二预设分辨率的过渡重建视频帧;
对所述过渡重建视频帧进行分辨率调整,得到与所述目标视频帧具有相同分辨率的重建视频帧。
6.根据权利要求4所述的方法,其中,所述通过运动估计网络,基于所述参考特征和所述目标特征进行运动估计,得到运动估计结果,包括:
对所述参考特征和所述目标特征进行分辨率调整,得到调整后参考特征和调整后目标特征;
将所述调整后参考特征和所述调整后目标特征,输入运动估计网络,通过所述运动估计网络进行运动估计,得到第二运动估计结果;
所述通过生成网络,基于所述运动估计结果和所述原始参考视频帧,生成与所述目标视频帧具有相同分辨率的重建视频帧,包括:
将所述第二运动估计结果和所述原始参考视频帧输入生成网络,通过所述生成网络,对所述原始参考视频帧进行形变处理,生成与所述目标视频帧具有相同分辨率的重建视频帧。
7.根据权利要求4所述的方法,其中,所述通过运动估计网络,基于所述参考特征和所述目标特征进行运动估计,得到运动估计结果,包括:
将所述参考特征和所述目标特征输入运动估计网络,通过所述运动估计网络进行运动估计,得到第一运动估计结果;
所述通过生成网络,基于所述运动估计结果和所述原始参考视频帧,生成与所述目标视频帧具有相同分辨率的重建视频帧,包括:
对所述第一运动估计结果进行分辨率调整,得到第三运动估计结果;
将所述第三运动估计结果和所述原始参考视频帧输入生成网络,通过所述生成网络,对所述原始参考视频帧进行形变处理,生成与所述目标视频帧具有相同分辨率的重建视频帧。
8.根据权利要求4所述的方法,其中,所述生成网络包括:下采样子网络、下采样层、形变子网络、上采样层以及上采样子网络;
所述通过运动估计网络,基于所述参考特征和所述目标特征进行运动估计,得到运动估计结果,包括:
将所述参考特征和所述目标特征输入运动估计网络,通过所述运动估计网络进行运动估计,得到第一运动估计结果;
所述通过生成网络,基于所述运动估计结果和所述原始参考视频帧,生成与所述目标视频帧具有相同分辨率的重建视频帧,包括:
将所述原始参考视频帧和所述第一运动估计结果输入生成网络,通过下采样子网络对所述原始参考视频帧进行下采样得到第一下采样参考帧;通过下采样层对所述第一下采样参考帧进行下采样得到第二下采样参考帧;通过形变子网络对所述第二下采样参考帧进行形变处理得到形变后参考帧;通过上采样层对所述形变后参考帧进行上采样得到第一上采样形变帧;通过上采样子网络对所述第一上采样形变帧进行上采样得到与所述目标视频帧具有相同分辨率的重建视频帧。
9.一种视频编码方法,包括:
获取原始参考视频帧和待编码的原始目标视频帧;
对所述原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与所述第一预设分辨率对应的特征提取网络对所述调整后目标视频帧进行特征提取,得到目标特征;
分别编码所述原始参考视频帧和所述目标特征,得到视频比特流,以使解码端设备解码所述视频比特流,得到原始参考视频帧和目标特征;对所述原始参考视频帧进行分辨率调整,得到具有第一预设分辨率的调整后参考视频帧;并通过特征提取网络对所述调整后参考视频帧进行特征提取,得到参考特征;通过运动估计网络,基于所述参考特征和所述目标特征进行运动估计,得到运动估计结果;通过生成网络,基于所述运动估计结果和所述原始参考视频帧,生成与所述原始参考视频帧具有相同分辨率的重建视频帧。
10.一种视频编码方法,包括:
获取视频采集设备采集到的原始视频片段;
从所述原始视频片段中确定原始参考视频帧和待编码的原始目标视频帧;
对所述原始目标视频帧进行分辨率调整,得到具有第一预设分辨率的调整后目标视频帧;并通过与所述第一预设分辨率对应的特征提取网络对所述调整后目标视频帧进行特征提取,得到目标特征;
分别编码所述原始参考视频帧和所述目标特征,得到视频比特流;
将所述视频比特流发送至会议终端设备,以使所述会议终端设备基于所述视频比特流进行视频帧重建,生成与所述原始目标视频帧具有相同分辨率的重建视频帧并显示。
11.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-3中任一项或如权利要求9或10所述的视频编码方法对应的操作,或者,如权利要求4-8中任一项所述的视频解码方法对应的操作。
12.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-3中任一项或如权利要求9或10所述的视频编码方法,或者,实现如权利要求4-8中任一项所述的视频解码方法。
13.一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如权利要求1-3中任一项或如权利要求9或10所述的视频编码方法对应的操作,或者,执行如权利要求4-8任一项所述的视频解码方法对应的操作。
CN202210716251.4A 2022-06-23 2022-06-23 视频编码方法、解码方法、电子设备及存储介质 Pending CN114979672A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210716251.4A CN114979672A (zh) 2022-06-23 2022-06-23 视频编码方法、解码方法、电子设备及存储介质
PCT/CN2023/101958 WO2023246923A1 (zh) 2022-06-23 2023-06-21 视频编码方法、解码方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210716251.4A CN114979672A (zh) 2022-06-23 2022-06-23 视频编码方法、解码方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114979672A true CN114979672A (zh) 2022-08-30

Family

ID=82965369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210716251.4A Pending CN114979672A (zh) 2022-06-23 2022-06-23 视频编码方法、解码方法、电子设备及存储介质

Country Status (2)

Country Link
CN (1) CN114979672A (zh)
WO (1) WO2023246923A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115209150A (zh) * 2022-09-16 2022-10-18 沐曦科技(成都)有限公司 一种视频编码参数获取方法、装置、网络模型及电子设备
WO2023246923A1 (zh) * 2022-06-23 2023-12-28 阿里巴巴(中国)有限公司 视频编码方法、解码方法、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108833923B (zh) * 2018-06-20 2022-03-29 腾讯科技(深圳)有限公司 视频编码、解码方法、装置、存储介质和计算机设备
CN109495746A (zh) * 2018-11-07 2019-03-19 建湖云飞数据科技有限公司 一种基于运动矢量调整的视频编码方法
CN110572673B (zh) * 2019-09-27 2024-04-09 腾讯科技(深圳)有限公司 视频编解码方法和装置、存储介质及电子装置
CN114979672A (zh) * 2022-06-23 2022-08-30 阿里巴巴(中国)有限公司 视频编码方法、解码方法、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023246923A1 (zh) * 2022-06-23 2023-12-28 阿里巴巴(中国)有限公司 视频编码方法、解码方法、电子设备及存储介质
CN115209150A (zh) * 2022-09-16 2022-10-18 沐曦科技(成都)有限公司 一种视频编码参数获取方法、装置、网络模型及电子设备
CN115209150B (zh) * 2022-09-16 2022-12-27 沐曦科技(成都)有限公司 一种视频编码参数获取方法、装置及电子设备

Also Published As

Publication number Publication date
WO2023246923A1 (zh) 2023-12-28

Similar Documents

Publication Publication Date Title
CN112991203B (zh) 图像处理方法、装置、电子设备及存储介质
CN111970513A (zh) 一种图像处理方法、装置、电子设备及存储介质
CN114979672A (zh) 视频编码方法、解码方法、电子设备及存储介质
CN109949222B (zh) 基于语义图的图像超分辨率重建方法
KR20210018668A (ko) 딥러닝 신경 네트워크를 사용하여 다운샘플링을 수행하는 이미지 처리 시스템 및 방법, 영상 스트리밍 서버 시스템
CN112053408B (zh) 基于深度学习的人脸图像压缩方法及装置
CN111586412B (zh) 高清视频处理方法、主设备、从设备和芯片系统
CN115409716B (zh) 视频处理方法、装置、存储介质及设备
EP4365820A1 (en) Video super-resolution network, and video super-resolution, encoding and decoding processing method and device
WO2023005740A1 (zh) 图像编码、解码、重建、分析方法、系统及电子设备
WO2022011571A1 (zh) 视频处理方法、装置、设备、解码器、系统及存储介质
WO2023005699A1 (zh) 视频增强网络训练方法、视频增强方法及装置
CN111510739A (zh) 一种视频传输方法及装置
CN114897189A (zh) 模型训练方法、视频编码方法及解码方法
CN114531561A (zh) 一种面部视频编码方法、解码方法及装置
WO2023143349A1 (zh) 一种面部视频编码方法、解码方法及装置
Tan et al. Image compression algorithms based on super-resolution reconstruction technology
CN111080729A (zh) 基于Attention机制的训练图片压缩网络的构建方法及系统
WO2023050720A1 (zh) 图像处理方法、图像处理装置、模型训练方法
CN113747242B (zh) 图像处理方法、装置、电子设备及存储介质
CN115665427A (zh) 直播数据的处理方法、装置及电子设备
CN113132732B (zh) 一种人机协同的视频编码方法及视频编码系统
CN114463453A (zh) 图像重建、编码解码方法、相关装置
CN110611821B (zh) 一种改善低码率视频编码器图像质量的技术方案
CN116781912B (zh) 视频传输方法、装置、计算机设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination