CN114897189A - 模型训练方法、视频编码方法及解码方法 - Google Patents
模型训练方法、视频编码方法及解码方法 Download PDFInfo
- Publication number
- CN114897189A CN114897189A CN202210716223.2A CN202210716223A CN114897189A CN 114897189 A CN114897189 A CN 114897189A CN 202210716223 A CN202210716223 A CN 202210716223A CN 114897189 A CN114897189 A CN 114897189A
- Authority
- CN
- China
- Prior art keywords
- coded
- sample frame
- frame
- video
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/44—Decoders specially adapted therefor, e.g. video decoders which are asymmetric with respect to the encoder
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请实施例提供了一种模型训练方法、视频编码方法及解码方法。模型训练方法包括:获取参考样本帧和多个连续的待编码样本帧;通过初始生成模型中的生成器对参考样本帧进行形变处理生成重建样本帧;将每个重建样本帧和对应的待编码样本帧输入初始生成模型中的第一鉴别器得到第一鉴别结果;按照时间戳先后顺序拼接各待编码样本帧得到拼接待编码样本帧,拼接各重建样本帧得到拼接重建样本帧;将拼接待编码样本帧和拼接重建样本帧输入初始生成模型中的第二鉴别器得到第二鉴别结果;基于第一鉴别结果和第二鉴别结果得到对抗损失值,基于对抗损失值训练初始生成模型。本申请使重建视频帧序列与待编码视频帧序列保持时间域上的一致性,提升重建质量。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种模型训练方法、视频编码方法及解码方法。
背景技术
视频编解码是实现视频会议、视频直播等的关键所在。随着机器学习的不断发展,可采用基于深度视频生成的编解码方法进行视频(尤其是面部视频)的编解码操作,该方法主要通过生成模型中的生成器这一神经网络模型,基于待编码帧的运动对参考帧进行形变,生成待编码帧对应的重建帧。
模型训练阶段,上述生成模型通常为由生成器和鉴别器组成的生成对抗网络。训练时,将待编码视频帧和生成器生成的重建视频帧输入鉴别器,由鉴别器进行真伪鉴别并输出鉴别结果,进而基于鉴别结果构建损失函数完成模型训练。
但是相关技术中,鉴别器进行真伪鉴别时,仅考虑重建视频帧与待编码视频帧在空间域方面的相似程度,也即:仅对比单个重建视频帧和对应的待编码视频帧间的相似程度。采用上述生成模型进行视频帧重建,最终得到的重建视频帧序列(重建视频片段)在视觉上通常存在闪烁及浮动伪影等现象,视频重建质量较差。
发明内容
有鉴于此,本申请实施例提供一种模型训练方法、视频编码方法及解码方法,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种模型训练方法,包括:
获取参考样本帧和多个连续的待编码样本帧;
通过初始生成模型中的生成器对所述参考样本帧进行形变处理,生成各待编码样本帧对应的重建样本帧;
将每个重建样本帧和对应的待编码样本帧输入所述初始生成模型中的第一鉴别器,得到第一鉴别结果;
按照时间戳先后顺序,拼接各待编码样本帧得到拼接待编码样本帧,以及拼接各重建样本帧得到拼接重建样本帧;将所述拼接待编码样本帧和所述拼接重建样本帧输入所述初始生成模型中的第二鉴别器,得到第二鉴别结果;
基于所述第一鉴别结果和所述第二鉴别结果得到对抗损失值,并基于所述对抗损失值训练所述初始生成模型,得到训练完成的生成模型。
根据本申请实施例的第二方面,提供了一种视频解码方法,包括:
获取视频比特流并解码,得到参考视频帧和待编码特征;
对所述参考视频帧进行特征提取,得到参考特征;并基于所述待编码特征和所述参考特征,进行运动估计,得到运动估计结果;
通过预先训练完成的生成模型中的生成器,基于所述运动估计结果,对所述参考视频帧进行形变处理,生成重建视频帧;
其中,所述生成模型通过上述第一方面所述的模型训练方法得到。
根据本申请实施例的第三方面,提供了一种视频解码方法,应用于会议终端设备,包括:
获取视频比特流并解码,得到参考视频帧和待编码特征;所述视频比特流为在获取到视频采集设备采集到的视频片段,并对所述视频片段中的待编码视频帧进行特征提取得到待编码特征之后,对所述待编码特征和所述视频片段中的参考视频帧进行编码得到的;
对所述参考视频帧进行特征提取,得到参考特征;并基于所述待编码特征和所述参考特征,进行运动估计,得到运动估计结果;
通过预先训练完成的生成模型中的生成器,基于所述运动估计结果,对所述参考视频帧进行形变处理,生成重建视频帧;
在显示界面中显示所述重建视频帧;
其中,所述生成模型通过上述第一方面所述的模型训练方法得到。
根据本申请实施例的第四方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的模型训练方法对应的操作,或者,如第二方面或第三方面所述的视频解码方法对应的操作。
根据本申请实施例的第五方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的模型训练方法,或者,如第二方面或第三方面所述的视频解码方法。
根据本申请实施例的第六方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如第一方面所述的模型训练方法对应的操作,或者,如第二方面或第三方面所述的视频解码方法对应的操作。
本申请实施例提供的模型训练方法,通过初始生成模型中的生成器生成了多个连续的待编码样本帧对应的重建样本帧,并且,在对单个重建样本帧和对应的待编码样本帧进行真伪鉴别的同时,还对由各重建样本帧按照时间戳顺序拼接而成的拼接重建样本帧,以及,由各待编码样本帧按照时间戳顺序拼接而成的拼接待编码样本帧进行了真伪鉴别,进而,同时基于单个样本帧间的鉴别结果(第一鉴别结果)以及拼接样本帧间的鉴别结果(第二鉴别结果)生成对抗损失值,以完成对初始生成模型的训练。也就是说,本申请实施例中,进行真伪鉴别时,不仅考虑了重建样本帧与待编码样本帧在空间域方面的相似程度,而且,还考虑到了重建样本帧与待编码样本帧在时间域方面的相似程度,即:通过对比拼接待编码样本帧和拼接参考样本帧间的相似程度,考虑了在时间域上,各连续重建样本帧之间是否具有各连续待编码样本帧之间所具有的连续关系。因此,基于上述鉴别结果进行模型训练,并基于训练完成的生成模型进行视频帧重建,可以使得重建视频帧序列与待编码视频帧序列保持在时间域上的一致性,改善闪烁及浮动伪影现象,提升视频重建的质量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为基于深度视频生成的编解码方法的框架示意图;
图2为根据本申请实施例一的一种模型训练方法的步骤流程图;
图3为图2所示实施例中生成模型的网络架构示意图;
图4为根据本申请实施例二的一种模型训练方法的步骤流程图;
图5为图4所示实施例中的一种场景示例的示意图;
图6为根据本申请实施例三的一种视频编码方法的步骤流程图;
图7为根据本申请实施例四的一种视频解码方法的步骤流程图;
图8为根据本申请实施例五的一种视频解码方法的步骤流程图;
图9为根据本申请实施例六的一种模型训练装置的结构框图;
图10为根据本申请实施例七的一种视频编码装置的结构框图;
图11为根据本申请实施例八的一种视频解码装置的结构框图;
图12为根据本申请实施例九的一种视频解码装置的结构框图;
图13为根据本申请实施例十的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
基于深度视频生成的编解码方法,主要原理是通过生成模型中的生成器基于待编码帧的运动对参考帧进行形变处理,以得到待编码帧对应的重建帧。参见图1,图1为基于深度视频生成的编解码方法中,模型训练阶段的框架示意图。其中,训练阶段,生成模型通常采用由生成器和空间鉴别器组成的生成对抗网络,在生成器得到重建帧之后,将重建帧和待编码帧输入空间鉴别器,由空间鉴别器进行真伪鉴别并输出空间鉴别结果,进而基于空间鉴别结果构建空间对抗损失函数完成模型训练。
下面结合图1对训练过程的基本框架进行说明:
第一步,编码阶段,编码器采用特征提取器提取待编码的单个目标面部视频帧的目标关键点信息,并对目标关键点信息编码;同时,采用传统的图像编码方法(如VVC、HEVC等)对参考面部视频帧进行编码。
第二步,解码阶段,解码器中的运动估计模型,通过关键点提取器提取参考面部视频帧的参考关键点信息;并基于参考关键点信息和目标关键点信息进行稠密运动估计,得到稠密运动估计图和遮挡图,其中,稠密运动估计图表征关键点信息表征的特征域中,目标面部视频帧与参考面部视频帧之间的相对运动关系;遮挡图表征目标面部视频帧中各像素点被遮挡的程度。
第三步,解码阶段,解码器中的生成模型内部的生成器基于稠密运动估计图对参考面部视频帧进行形变处理,得到形变处理结果,再将形变处理结果与遮挡图相乘,从而输出重建面部视频帧;同时,在生成器得到重建帧之后,将重建帧和待编码帧输入空间鉴别器,由空间鉴别器进行真伪鉴别并输出空间鉴别结果。
第四步,模型训练阶段,基于空间鉴别结果和目标面部视频帧生成空间对抗损失值,进而根据上述空间对抗损失值进行模型训练,得到训练完成的特征提取器(特征提取模型)、运动估计模型以及生成模型。
图1所示训练方法,空间鉴别器进行真伪鉴别时,仅考虑单个重建视频帧与对应的待编码视频帧在空间域方面的相似程度,也即:仅对比单个重建视频帧和对应的待编码视频帧间的相似程度。采用上述生成模型进行视频帧重建,最终得到的重建视频帧序列(重建视频片段)在视觉上通常存在闪烁及浮动伪影等现象,视频重建质量较差。
本申请实施例中,通过生成模型中的生成器生成了多个连续的待编码样本帧对应的重建样本帧,并且,在通过第一鉴别器(空间鉴别器)对单个重建样本帧和对应的待编码样本帧进行真伪鉴别的同时,还通过第二鉴别器(时间鉴别器)对由各重建样本帧按照时间戳顺序拼接而成的拼接重建样本帧,以及,由各待编码样本帧按照时间戳顺序拼接而成的拼接待编码样本帧进行了真伪鉴别,进而,同时基于单个样本帧间的鉴别结果(第一鉴别结果)以及拼接样本帧间的鉴别结果(第二鉴别结果)生成对抗损失值,以完成对初始生成模型的训练。也就是说,本申请实施例中,进行真伪鉴别时,不仅考虑了重建样本帧与待编码样本帧在空间域方面的相似程度,而且,还考虑到了重建样本帧与待编码样本帧在时间域方面的相似程度,即:通过对比拼接待编码样本帧和拼接参考样本帧间的相似程度,考虑了在时间域上,各连续重建样本帧之间是否具有各连续待编码样本帧之间所具有的连续关系。因此,基于上述鉴别结果进行模型训练,并基于训练完成的生成模型进行视频帧重建,可以使得重建视频帧序列与待编码视频帧序列保持在时间域上的一致性,改善闪烁及浮动伪影现象,提升视频重建的质量。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
实施例一
参照图2,图2为根据本申请实施例一的一种模型训练方法的步骤流程图。具体地,本实施例提供的模型训练方法包括以下步骤:
步骤202,获取参考样本帧和多个连续的待编码样本帧。
具体地,本申请实施例中的参考样本帧和各待编码样本帧可以为源自于同一视频样本的视频帧,进一步地,参考样本帧和各待编码样本帧均可以为面部视频帧。
步骤204,通过初始生成模型中的生成器对参考样本帧进行形变处理,生成各待编码样本帧对应的重建样本帧。
具体地,可以通过如下方式得到重建样本帧:
针对每个待编码样本帧,基于参考样本帧对该待编码样本帧进行运动估计,得到运动估计结果;将参考样本帧和运动估计结果输入初始模型中的生成器,得到该待编码样本帧对应的重建样本帧。其中,运动估计结果表征参考样本帧和该待编码样本帧在预设特征域中的相对运动关系。
进一步地,可以:提取参考样本帧的参考样本特征及各待编码样本帧的待编码样本特征;针对每个待编码样本帧,基于参考样本特征和该待编码样本帧的待编码样本特征进行运动估计得到运动估计结果;将参考样本帧和运动估计结果输入初始生成器,得到该待编码样本帧对应的重建样本帧。
步骤206,将每个重建样本帧和对应的待编码样本帧输入初始生成模型中的第一鉴别器,得到第一鉴别结果。
本申请实施例中的第一鉴别器也可称为空间鉴别器。具体地,针对某个重建样本帧和对应的待编码样本帧而言,将该两个样本帧输入至第一鉴别器之后,第一鉴别器分别提取该两个样本帧的特征,得到该两个样本帧各自的特征图(重建特征图和待编码特征图),进而通过对比上述两个特征图在空间域中的分布情况是否相似,得到表征该两个样本帧是否为相同样本帧(或者说,该两个样本帧是否足够相似)的第一输出结果,例如:第一输出结果为:1(真)表示该两个样本帧为相同样本帧;第一输出结果为:0(伪)表示该两个样本帧为不相同的样本帧。本申请实施例中,第一鉴别结果可以包括:经第一鉴别器提取到的重建样本帧的特征图(后续称为:重建样本帧的第一鉴别结果)、经第一鉴别器提取到的待编码样本帧的特征图(后续称为:待编码样本帧的第一鉴别结果),以及,上述第一输出结果。
步骤208,按照时间戳先后顺序,拼接各待编码样本帧得到拼接待编码样本帧,以及拼接各重建样本帧得到拼接重建样本帧;将拼接待编码样本帧和拼接重建样本帧输入初始生成模型中的第二鉴别器,得到第二鉴别结果。
本申请实施例中的第二鉴别器也可称为时间鉴别器。与第一鉴别器类似,对拼接重建样本帧和对应的拼接待编码样本帧而言,将该两个样本帧输入至第二鉴别器之后,第二鉴别器分别提取该两个样本帧的特征,得到该两个样本帧各自的特征图,进而通过对比上述两个特征图在空间域中的分布情况是否相似,得到表征该两个样本帧是否为相同样本帧(或者说,该两个样本帧是否足够相似)的第二输出结果。本申请实施例中,第二鉴别结果可以包括:经第二鉴别器提取到的拼接重建样本帧的特征图(后续称为:拼接重建样本帧的第二鉴别结果)、经第二鉴别器提取到的拼接待编码样本帧的特征图(后续称为:拼接待编码样本帧的第二鉴别结果),以及,上述第二输出结果。
在本申请实施例中,生成模型包括:生成器、第一鉴别器以及第二鉴别器,其中,第一鉴别器和第二鉴别器并联于生成器之后,以分别基于生成器输出的重建样本帧进行真伪鉴别。具体地,参见图3,图3为图2所示实施例中生成模型的网络架构示意图:
其中,生成器G包括编码部分和解码部分,将参考样本帧K和连续待编码样本帧I1、I2、……、In中的单个待编码样本帧Ii对应的运动估计结果输入生成器,通过生成器的编码部分和解码部分,最终可以输出待编码样本帧Ii对应的重建样本帧从而,最终得到重建样本帧:其中,i为大于或等于1,且小于或等于n的自然数。
空间鉴别器(第一鉴别器)Ds,位于生成器G之后,用于分别对单个重建样本帧和对应的待编码样本帧Ii进行真伪鉴别,以输出第一输出结果。时间鉴别器(第二鉴别器)Dt,位于生成器之后,与上述空间鉴别器Ds并行连接,用于对拼接待编码样本帧I1-n和拼接重建样本帧进行真伪鉴别,以输出第二输出结果。
步骤210,基于第一鉴别结果和第二鉴别结果得到对抗损失值,并基于对抗损失值训练初始生成模型,得到训练完成的生成模型。
可选地,在其中一些实施例中,对抗损失值可以包括:生成对抗损失值、空间对抗损失值以及时间对抗损失值;其中,各对抗损失值可以通过如下方式得到:
基于各重建样本帧的第一鉴别结果,得到生成对抗损失值;其中,各重建样本帧的第一鉴别结果之和越大,生成对抗损失值越小;
基于各重建样本帧的第一鉴别结果与对应的待编码样本帧的第一鉴别结果之间的差异值,得到空间对抗损失值;其中,各重建样本帧的第一鉴别结果与对应的待编码样本帧的第一鉴别结果之间的差异值越小,空间对抗损失值越小;
基于拼接待编码样本帧的第二鉴别结果和拼接重建样本帧的第二鉴别结果之间的差异值,得到时间对抗损失值。其中,拼接待编码样本帧的第二鉴别结果和拼接重建样本帧的第二鉴别结果之间的差异值越小,时间对抗损失值越小;
如上所述,其中,各重建样本帧的第一鉴别结果可以为经第一鉴别器提取到的各重建样本帧的特征图;待编码样本帧的第一鉴别结果可以为经第一鉴别器提取到的待编码样本帧的特征图;拼接待编码样本帧的第二鉴别结果可以为经第二鉴别器提取到的拼接待编码样本帧的特征图;拼接重建样本帧的第二鉴别结果可以为经第二鉴别器提取到的拼接重建样本帧的特征图。
进一步地,可以通过如下方式得到生成对抗损失值:
获取各重建样本帧的第一鉴别结果的概率分布,作为各重建样本帧的第一重建概率分布;并基于各重建样本帧的第一重建概率分布的期望值,得到生成对抗损失值;
通过如下方式得到空间对抗损失值:获取各待编码样本帧的第一鉴别结果的概率分布,作为各待编码样本帧的第一待编码概率分布;并基于各待编码样本帧的第一重建概率分布的期望值和各待编码样本帧的第一待编码概率分布的期望值之间的期望差值,得到空间对抗损失值;
通过如下方式得到时间对抗损失值:获取拼接重建样本帧的第二鉴别结果的概率分布,作为第二重建概率分布;获取拼接待编码样本帧的第二鉴别结果的概率分布,作为第二待编码概率分布;并基于第二重建概率分布的期望值与第二待编码概率分布的期望值之间的期望差值,得到时间对抗损失值。
具体地,对于生成对抗损失值而言,可以将各重建样本帧的第一重建概率分布的期望值之和,作为生成对抗损失值。上述期望值之和越大,生成对抗损失值越小。进一步地,上述生成对抗损失值可以通过如下等式表示:
其中,LG表示生成对抗损失值;表示重建样本帧的第一鉴别结果;表示的概率分布,也即:重建样本帧的第一重建概率分布;表示重建样本帧的第一重建概率分布的期望值;n为重建样本帧的总数量,也即:待编码样本帧的总数量。
进一步地,由于第一鉴别器和第二鉴别器通常均包含多个不同的操作层,因此,对于每个重建样本帧而言,可以分别计算第一鉴别器各操作层输出的鉴别结果(各操作层提取到的特征图)的概率分布对应的期望值,再对所有操作层的概率分布对应的期望值求和从而得到该重建样本帧的第一鉴别结果的概率分布对应的期望值,这样,可以提升重建视频帧的真实感。
具体地,可以通过下述等式表示:
对于空间对抗损失值而言,可以基于各重建样本帧的第一重建概率分布的期望值和各待编码样本帧的第一待编码概率分布的期望值之间的期望差值,得到空间对抗损失值。上述期望差值越大,空间对抗损失值越大。进一步地,上述空间对抗损失值可以通过如下等式表示:
与生成对抗损失值类似,进一步地,空间对抗损失值可以通过下述等式得到:
其中,Dsa(Ii)表示待编码样本帧Ii经过第一鉴别器的第a个操作层所输出的鉴别结果(所提取到的特征图);Pr[Dsa(Ii)]表示Dsa(Ii)的概率分布;表示Pr[Dsa(Ii)]的期望值;表示经过第一鉴别器的第a个操作层所输出的鉴别结果(所提取到的特征图);表示的概率分布;表示的期望值。
对于时间对抗损失值而言,第二重建概率分布的期望值和第二待编码概率分布的期望值之间的期望差值越大,时间对抗损失值越大。进一步地,上述时间对抗损失值可以通过如下等式表示:
其中,表示时间对抗损失值;表示拼接重建样本帧的第二鉴别结果;表示的概率分布;表示的期望值;Dt(I1-n)表示拼接待编码样本帧I1-n的第二鉴别结果;Pr[Dt(I1-n)]表示Dt(I1-n)的概率分布;表示Pr[Dt(I1-n)]的期望值。
与空间对抗损失值类似,进一步地,时间对抗损失值可以通过下述等式得到:
其中,表示拼接重建样本帧经过第二鉴别器的第a个操作层所输出的鉴别结果(所提取到的特征图);表示的概率分布的期望值;Dta(I1-n)表示拼接待编码样本帧I1-n经过第二鉴别器的第a个操作层所输出的鉴别结果(所提取到的特征图);表示Dta(I1-n)的概率分布的期望值。
可选地,在其中一些实施例中,在步骤210之前,方法还可以包括:基于各重建样本帧和各待编码样本帧,生成感知损失值;对应地,步骤210,可以包括:基于对抗损失值和感知损失值,训练初始生成模型,得到训练完成的生成模型。
可选地,在其中一些实施例中,步骤步骤204可以包括:
基于参考样本帧,对各待编码样本帧进行运动估计,得到各待编码样本帧的运动估计结果;
针对每个待编码样本帧,将参考样本帧和该待编码样本帧的运动估计结果输入初始生成模型中的生成器,通过生成器对参考样本帧进行形变处理,生成该待编码样本帧对应的重建样本帧;
对应地,在步骤210之前,还可以包括:
将各待编码样本帧分别输入至预先训练完成的运动预测模块,得到各待编码样本对应的真实运动结果;
基于各待编码样本帧的运动估计结果和真实运动结果之间的差值,生成光流损失值;
基于对抗损失值和感知损失值,训练初始生成模型,得到训练完成的生成模型,包括:
基于对抗损失值、感知损失值及光流损失值,训练初始生成模型,得到训练完成的生成模型。
具体地,上述实施例中,运动预测模型可以为预先训练完成的、用于获取输入的待编码样本帧与参考样本帧之间的相对运动关系(也即真实运动结果)的神经网络模型,本申请实施例中,对于预测模型的具体结构不做限定,例如:可以为端到端的空间金字塔网络(SpyNet),等等。
就光流损失值而言,各待编码样本帧的运动估计结果和真实运动结果之间的差值越大,则光流损失值越大。也就是说,光流损失值可以表征运动估计结果的准确性。因此,模型训练过程中,在考虑对抗损失值和感知损失值的基础上,进一步考虑光流损失值,可以对运动估计过程进行监督,从而使得基于训练完成的模型进行编解码操作,得到重建视频帧时,可以提升运动估计过程的准确性,进而进一步提升重建视频帧的质量。
可选地,在其中一些实施例中,基于各待编码样本帧的运动估计结果和真实运动结果之间的差值,生成光流损失值的过程,可以包括:
针对每个待编码样本帧,计算该待编码样本帧的运动估计结果和真实运动结果之间的差值,作为该待编码样本帧对应的运动差值;
计算各运动差值之和,作为光流损失值。
具体地,光流损失值可以通过如下等式计算得到:
本申请实施例提供的模型训练方法,通过初始生成模型中的生成器生成了多个连续的待编码样本帧对应的重建样本帧,并且,在对单个重建样本帧和对应的待编码样本帧进行真伪鉴别的同时,还对由各重建样本帧按照时间戳顺序拼接而成的拼接重建样本帧,以及,由各待编码样本帧按照时间戳顺序拼接而成的拼接待编码样本帧进行了真伪鉴别,进而,同时基于单个样本帧间的鉴别结果(第一鉴别结果)以及拼接样本帧间的鉴别结果(第二鉴别结果)生成对抗损失值,以完成对初始生成模型的训练。也就是说,本申请实施例中,进行真伪鉴别时,不仅考虑了重建样本帧与待编码样本帧在空间域方面的相似程度,而且,还考虑到了重建样本帧与待编码样本帧在时间域方面的相似程度,即:通过对比拼接待编码样本帧和拼接参考样本帧间的相似程度,考虑了在时间域上,各连续重建样本帧之间是否具有各连续待编码样本帧之间所具有的连续关系。因此,基于上述鉴别结果进行模型训练,并基于训练完成的生成模型进行视频帧重建,可以使得重建视频帧序列与待编码视频帧序列保持在时间域上的一致性,改善闪烁及浮动伪影现象,提升视频重建的质量。
本实施例的模型训练方法可以由任意适当的具有数据能力的电子设备执行,包括但不限于:服务器、PC机等。
实施例二
参照图4,图4为根据本申请实施例二的一种模型训练方法的步骤流程图。具体地,本实施例提供的模型训练方法包括以下步骤:
步骤402,获取参考样本帧和多个连续的待编码样本帧。
步骤404,通过初始特征提取模型,提取参考样本帧的参考样本特征及各待编码样本帧的待编码样本特征。
步骤406,针对每个待编码样本帧,通过初始运动估计模型,基于参考样本特征和该待编码样本帧的待编码样本特征进行运动估计得到运动估计结果;将参考样本帧和运动估计结果输入初始生成器,得到该待编码样本帧对应的重建样本帧。
步骤408,将每个重建样本帧和对应的待编码样本帧输入初始生成模型中的第一鉴别器,得到第一鉴别结果。
步骤410,按照时间戳先后顺序,拼接各待编码样本帧得到拼接待编码样本帧,以及拼接各重建样本帧得到拼接重建样本帧;将拼接待编码样本帧和拼接重建样本帧输入初始生成模型中的第二鉴别器,得到第二鉴别结果。
步骤412,基于对抗损失值训练初始特征提取模型、初始运动估计模型,以及初始生成模型,得到训练完成的特征提取模型、运动估计模型以及生成模型。
本申请实施例中,各步骤的具体实现方式可参见实施例二中的相应步骤部分,此处不再赘述。
参见图5,图5为本申请实施例一对应的场景示意图,以下,将参考图5所示的示意图,以一个具体场景示例,对本申请实施例进行说明:
获取参考样本帧K和多个连续的待编码样本帧I1、I2、……、In;通过初始特征提取模型,提取参考样本帧的参考样本特征及各待编码样本帧的待编码样本特征;针对每个待编码样本帧,通过初始运动估计模型,基于参考样本特征和该待编码样本帧的待编码样本特征进行运动估计得到运动估计结果;将参考样本帧K和运动估计结果输入初始生成器,得到该待编码样本帧对应的重建样本帧,进而通过生成器输出重建样本帧: 将每个重建样本帧和对应的待编码样本帧输入初始生成模型中的第一鉴别器,得到第一鉴别结果;按照时间戳先后顺序,拼接各待编码样本帧得到拼接待编码样本帧,以及拼接各重建样本帧得到拼接重建样本帧;将拼接待编码样本帧和拼接重建样本帧输入初始生成模型中的第二鉴别器,得到第二鉴别结果;基于对抗损失值训练初始特征提取模型、初始运动估计模型,以及初始生成模型,得到训练完成的特征提取模型、运动估计模型以及生成模型。
本申请实施例提供的模型训练方法,通过初始生成模型中的生成器生成了多个连续的待编码样本帧对应的重建样本帧,并且,在对单个重建样本帧和对应的待编码样本帧进行真伪鉴别的同时,还对由各重建样本帧按照时间戳顺序拼接而成的拼接重建样本帧,以及,由各待编码样本帧按照时间戳顺序拼接而成的拼接待编码样本帧进行了真伪鉴别,进而,同时基于单个样本帧间的鉴别结果(第一鉴别结果)以及拼接样本帧间的鉴别结果(第二鉴别结果)生成对抗损失值,以完成对初始生成模型的训练。也就是说,本申请实施例中,进行真伪鉴别时,不仅考虑了重建样本帧与待编码样本帧在空间域方面的相似程度,而且,还考虑到了重建样本帧与待编码样本帧在时间域方面的相似程度,即:通过对比拼接待编码样本帧和拼接参考样本帧间的相似程度,考虑了在时间域上,各连续重建样本帧之间是否具有各连续待编码样本帧之间所具有的连续关系。因此,基于上述鉴别结果进行模型训练,并基于训练完成的生成模型进行视频帧重建,可以使得重建视频帧序列与待编码视频帧序列保持在时间域上的一致性,改善闪烁及浮动伪影现象,提升视频重建的质量。
本实施例的模型训练方法可以由任意适当的具有数据能力的电子设备执行,包括但不限于:服务器、PC机等。
实施例三
参照图6,图6为根据本申请实施例三的一种视频编码方法的步骤流程图。具体地,本实施例提供的视频编码方法包括以下步骤:
步骤602,获取参考视频帧和待编码视频帧。
步骤604,通过预先训练完成的特征提取模型,对待编码视频帧进行特征提取,得到待编码特征。
其中,特征提取模型通过实施例二的模型训练方法得到。
步骤606,分别编码参考视频帧和待编码特征,得到比特流。
本实施例的视频编码方法可以由任意适当的具有数据能力的电子设备执行,包括但不限于:服务器、PC机等。
本申请实施例三提供的视频编码方法,可以由视频编码端(编码器)执行,用于对具有不同分辨率的视频文件,尤其是面部视频文件进行编码,以实现对视频文件的数字带宽进行压缩。其可以适用于多种不同的场景,如:常规的涉及面部的、具有各种分辨率的视频游戏的存储和流式传输,具体地:可以通过本申请实施例提供的视频编码方法对游戏视频帧进行编码,形成对应的视频比特流,以在视频流服务或者其他类似的应用中存储和传输;又如:视频会议、视频直播等低延时场景,具体地:可以通过本申请实施例提供的视频编码方法对视频采集设备采集到的、具有各种分辨率的面部视频数据进行编码,形成对应的视频比特流,并发送至会议终端,通过会议终端对视频比特流进行解码从而得到对应的面部视频画面;还如:虚拟现实场景,可以通过本申请实施例提供的面部视频编码方法对视频采集设备采集到的、具有各种分辨率的面部视频数据进行编码,形成对应的视频比特流,并发送至虚拟现实相关设备(如VR虚拟眼镜等),通过VR设备对视频比特流进行解码从而得到对应的面部视频画面,并基于面部视频画面实现对应的VR功能,等等。
实施例四
参照图7,图7为根据本申请实施例四的一种视频解码方法的步骤流程图。具体地,本实施例提供的视频解码方法包括以下步骤:
步骤702,获取视频比特流并解码,得到参考视频帧和待编码特征。
步骤704,对参考视频帧进行特征提取,得到参考特征;并基于待编码特征和参考特征,进行运动估计,得到运动估计结果。
步骤706,通过预先训练完成的生成模型中的生成器,基于运动估计结果,对参考视频帧进行形变处理,生成重建视频帧。
其中,生成模型通过上述第一方面或第二方面的模型训练方法得到。
本申请实施例提供的视频解码方法,生成模型是通过如下方式训练得到的:通过初始生成模型中的生成器生成了多个连续的待编码样本帧对应的重建样本帧,并且,在对单个重建样本帧和对应的待编码样本帧进行真伪鉴别的同时,还对由各重建样本帧按照时间戳顺序拼接而成的拼接重建样本帧,以及,由各待编码样本帧按照时间戳顺序拼接而成的拼接待编码样本帧进行了真伪鉴别,进而,同时基于单个样本帧间的鉴别结果(第一鉴别结果)以及拼接样本帧间的鉴别结果(第二鉴别结果)生成对抗损失值,以完成对初始生成模型的训练。也就是说,进行真伪鉴别时,不仅考虑了重建样本帧与待编码样本帧在空间域方面的相似程度,而且,还考虑到了重建样本帧与待编码样本帧在时间域方面的相似程度,即:通过对比拼接待编码样本帧和拼接参考样本帧间的相似程度,考虑了在时间域上,各连续重建样本帧之间是否具有各连续待编码样本帧之间所具有的连续关系。因此,基于上述鉴别结果进行模型训练,并基于训练完成的生成模型进行视频解码,得到重建视频帧,可以使得重建视频帧序列与待编码视频帧序列保持在时间域上的一致性,改善闪烁及浮动伪影现象,提升视频重建的质量。
本实施例的视频解码方法可以由任意适当的具有数据能力的电子设备执行,包括但不限于:服务器、PC机等。
实施例五
参照图8,图8为根据本申请实施例五的一种视频解码方法的步骤流程图。该视频解码方法的应用场景为:视频采集设备采集到会议视频片段;通过编码器对片段中的待编码视频帧进行特征提取得到待编码特征之后,对待编码特征和视频片段中的参考视频帧进行编码,得到视频比特流并发送至会议终端;通过会议终端对视频比特流进行解码从而得到对应的会议视频画面并显示。
具体地,本实施例提供的视频解码方法包括以下步骤:
步骤802,获取视频比特流并解码,得到参考视频帧和待编码特征;视频比特流为在获取到视频采集设备采集到的视频片段,并对视频片段中的待编码视频帧进行特征提取得到待编码特征之后,对待编码特征和视频片段中的参考视频帧进行编码得到的。
步骤804,对参考视频帧进行特征提取,得到参考特征;并基于待编码特征和参考特征,进行运动估计,得到运动估计结果。
步骤806,通过预先训练完成的生成模型中的生成器,基于运动估计结果,对参考视频帧进行形变处理,生成重建视频帧。
其中,生成模型通过上述第一方面或第二方面的模型训练方法得到。
步骤808,在显示界面中显示重建视频帧。
本申请实施例提供的视频解码方法,生成模型是通过如下方式训练得到的:通过初始生成模型中的生成器生成了多个连续的待编码样本帧对应的重建样本帧,并且,在对单个重建样本帧和对应的待编码样本帧进行真伪鉴别的同时,还对由各重建样本帧按照时间戳顺序拼接而成的拼接重建样本帧,以及,由各待编码样本帧按照时间戳顺序拼接而成的拼接待编码样本帧进行了真伪鉴别,进而,同时基于单个样本帧间的鉴别结果(第一鉴别结果)以及拼接样本帧间的鉴别结果(第二鉴别结果)生成对抗损失值,以完成对初始生成模型的训练。也就是说,本申请实施例中,进行真伪鉴别时,不仅考虑了重建样本帧与待编码样本帧在空间域方面的相似程度,而且,还考虑到了重建样本帧与待编码样本帧在时间域方面的相似程度,即:通过对比拼接待编码样本帧和拼接参考样本帧间的相似程度,考虑了在时间域上,各连续重建样本帧之间是否具有各连续待编码样本帧之间所具有的连续关系。因此,基于上述鉴别结果进行模型训练,并基于训练完成的生成模型进行视频帧重建,可以使得重建视频帧序列与待编码视频帧序列保持在时间域上的一致性,改善闪烁及浮动伪影现象,提升视频重建的质量。
本实施例的视频解码方法可以由任意适当的具有数据能力的电子设备执行,包括但不限于:服务器、PC机等。
实施例六
参照图9,图9为根据本申请实施例六的一种模型训练装置的结构框图。具体地,本实施例提供的模型训练装置包括:
样本帧获取模块902,用于获取参考样本帧和多个连续的待编码样本帧;
重建样本帧生成模块904,用于通过初始生成模型中的生成器对参考样本帧进行形变处理,生成各待编码样本帧对应的重建样本帧;
第一鉴别结果得到模块906,用于将每个重建样本帧和对应的待编码样本帧输入初始生成模型中的第一鉴别器,得到第一鉴别结果;
第二鉴别结果得到模块908,用于按照时间戳先后顺序,拼接各待编码样本帧得到拼接待编码样本帧,以及拼接各重建样本帧得到拼接重建样本帧;将拼接待编码样本帧和拼接重建样本帧输入初始生成模型中的第二鉴别器,得到第二鉴别结果;
训练模块910,用于基于第一鉴别结果和第二鉴别结果得到对抗损失值,并基于对抗损失值训练初始生成模型,得到训练完成的生成模型。
可选地,在其中一些实施例中,对抗损失值包括:生成对抗损失值、空间对抗损失值以及时间对抗损失值;
训练模块910,在执行基于第一鉴别结果和第二鉴别结果得到对抗损失值的步骤时,具体用于:
基于各重建样本帧的第一鉴别结果,得到生成对抗损失值;
基于各重建样本帧的第一鉴别结果与对应的待编码样本帧的第一鉴别结果之间的差异值,得到空间对抗损失值;
基于拼接待编码样本帧的第二鉴别结果和拼接重建样本帧的第二鉴别结果之间的差异值,得到时间对抗损失值。
可选地,在其中一些实施例中,训练模块910在执行基于各重建样本帧的第一鉴别结果,得到生成对抗损失值的步骤时,具体用于:
获取各重建样本帧的第一鉴别结果的概率分布,作为各重建样本帧的第一重建概率分布;并基于各重建样本帧的第一重建概率分布的期望值,得到生成对抗损失值;
训练模块910在执行基于各重建样本帧的第一鉴别结果与对应的待编码样本帧的第一鉴别结果之间的差异值,得到空间对抗损失值的步骤时,具体用于:
获取各待编码样本帧的第一鉴别结果的概率分布,作为各待编码样本帧的第一待编码概率分布;并基于各重建样本帧的第一重建概率分布的期望值和各待编码样本帧的第一待编码概率分布的期望值之间的期望差值,得到空间对抗损失值;
训练模块910在执行基于拼接待编码样本帧的第二鉴别结果和拼接重建样本帧的第二鉴别结果之间的差异值,得到时间对抗损失值的步骤时,具体用于:
获取拼接重建样本帧的第二鉴别结果的概率分布,作为第二重建概率分布;获取拼接待编码样本帧的第二鉴别结果的概率分布,作为第二待编码概率分布;并基于第二重建概率分布的期望值与第二待编码概率分布的期望值之间的期望差值,得到时间对抗损失值。
可选地,在其中一些实施例中,模型训练装置还包括:
感知损失值得到模块,用于在基于对抗损失值训练初始生成模型,得到训练完成的生成模型之前,基于各重建样本帧和各待编码样本帧,生成感知损失值;
训练模块910,在执行基于对抗损失值训练初始生成模型,得到训练完成的生成模型的步骤时,具体用于:
基于对抗损失值和感知损失值,训练初始生成模型,得到训练完成的生成模型。
可选地,在其中一些实施例中,重建样本帧生成模块904,具体用于:
基于参考样本帧,对各待编码样本帧进行运动估计,得到各待编码样本帧的运动估计结果;
针对每个待编码样本帧,将参考样本帧和该待编码样本帧的运动估计结果输入初始生成模型中的生成器,通过生成器对参考样本帧进行形变处理,生成该待编码样本帧对应的重建样本帧;
模型训练装置还包括:
光流损失值生成模块,用于在基于对抗损失值和感知损失值,训练初始生成模型,得到训练完成的生成模型之前,将各待编码样本帧分别输入至预先训练完成的运动预测模块,得到各待编码样本对应的真实运动结果;基于各待编码样本帧的运动估计结果和真实运动结果之间的差值,生成光流损失值;
训练模块910,在执行基于对抗损失值和感知损失值,训练初始生成模型,得到训练完成的生成模型的步骤时,具体用于:
基于对抗损失值、感知损失值及光流损失值,训练初始生成模型,得到训练完成的生成模型。
可选地,在其中一些实施例中,光流损失值生成模块在执行基于各待编码样本帧的运动估计结果和真实运动结果之间的差值,生成光流损失值的步骤时,具体用于:
针对每个待编码样本帧,计算该待编码样本帧的运动估计结果和真实运动结果之间的差值,作为该待编码样本帧对应的运动差值;
计算各运动差值之和,作为运动总差值;
计算运动总差值与待编码样本帧总数量的比值,作为光流损失值。
可选地,在其中一些实施例中,重建样本帧生成模块904,具体用于:
通过初始特征提取模型,提取参考样本帧的参考样本特征及各待编码样本帧的待编码样本特征;
针对每个待编码样本帧,通过初始运动估计模型,基于参考样本特征和该待编码样本帧的待编码样本特征进行运动估计得到运动估计结果;将参考样本帧和运动估计结果输入初始生成器,得到该待编码样本帧对应的重建样本帧;
训练模块910,在执行基于对抗损失值训练初始生成模型,得到训练完成的生成模型的步骤时,具体用于:
基于对抗损失值训练初始特征提取模型、初始运动估计模型,以及初始生成模型,得到训练完成的特征提取模型、运动估计模型以及生成模型。
本实施例的模型训练装置用于实现前述多个方法实施例中相应的模型训练方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的模型训练装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例七
参照图10,图10为根据本申请实施例七的一种视频编码装置的结构框图。具体地,本实施例提供的视频编码装置包括:
视频帧获取模块1002,用于获取参考视频帧和待编码视频帧;
待编码特征得到模块1004,用于通过预先训练完成的特征提取模型,对待编码视频帧进行特征提取,得到待编码特征;
编码模块1006,用于分别编码参考视频帧和待编码特征,得到比特流;
其中,特征提取模型通过实施例二的模型训练方法得到。
本实施例的视频编码装置用于实现前述多个方法实施例中相应的视频编码方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的视频编码装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例八
参照图11,图11为根据本申请实施例八的一种视频解码装置的结构框图。具体地,本实施例提供的视频解码装置包括:
第一解码模块1102,用于获取视频比特流并解码,得到参考视频帧和待编码特征;
第一运动估计模块1104,用于对参考视频帧进行特征提取,得到参考特征;并基于待编码特征和参考特征,进行运动估计,得到运动估计结果;
第一重建模块1106,用于通过预先训练完成的生成模型中的生成器,基于运动估计结果,对参考视频帧进行形变处理,生成重建视频帧;
其中,生成模型通过上述实施例一或实施例二的模型训练方法得到。
本实施例的视频解码装置用于实现前述多个方法实施例中相应的视频解码方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的视频解码装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例九
参照图12,图12为根据本申请实施例九的一种视频解码装置的结构框图。具体地,本实施例提供的视频解码装置包括:
第二解码模块1202,用于获取视频比特流并解码,得到参考视频帧和待编码特征;视频比特流为在获取到视频采集设备采集到的视频片段,并对视频片段中的待编码视频帧进行特征提取得到待编码特征之后,对待编码特征和视频片段中的参考视频帧进行编码得到的;
第二运动估计模块1204,用于对参考视频帧进行特征提取,得到参考特征;并基于待编码特征和参考特征,进行运动估计,得到运动估计结果;
第二重建模块1206,用于通过预先训练完成的生成模型中的生成器,基于运动估计结果,对参考视频帧进行形变处理,生成重建视频帧;
显示模块1208,用于在显示界面中显示重建视频帧;
其中,生成模型通过上述实施例一或实施例二的模型训练方法得到。
本实施例的视频解码装置用于实现前述多个方法实施例中相应的视频解码方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的视频解码装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例十
参照图13,示出了根据本申请实施例十的一种电子设备的结构示意图,本申请具体实施例并不对电子设备的具体实现做限定。
如图13所示,该会议终端可以包括:处理器(processor)1302、通信接口(Communications Interface)1304、存储器(memory)1306、以及通信总线1308。
其中:
处理器1302、通信接口1304、以及存储器1306通过通信总线1308完成相互间的通信。
通信接口1304,用于与其它电子设备或服务器进行通信。
处理器1302,用于执行程序1310,具体可以执行上述魔性训练方法,视频编码方法,或者,视频解码方法实施例中的相关步骤。
具体地,程序1310可以包括程序代码,该程序代码包括计算机操作指令。
处理器1302可能是CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器1306,用于存放程序1310。存储器1306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序1310具体可以用于使得处理器1302执行以下操作:获取参考样本帧和多个连续的待编码样本帧;通过初始生成模型中的生成器对参考样本帧进行形变处理,生成各待编码样本帧对应的重建样本帧;将每个重建样本帧和对应的待编码样本帧输入初始生成模型中的第一鉴别器,得到第一鉴别结果;按照时间戳先后顺序,拼接各待编码样本帧得到拼接待编码样本帧,以及拼接各重建样本帧得到拼接重建样本帧;将拼接待编码样本帧和拼接重建样本帧输入初始生成模型中的第二鉴别器,得到第二鉴别结果;基于第一鉴别结果和第二鉴别结果得到对抗损失值,并基于对抗损失值训练初始生成模型,得到训练完成的生成模型。
或者,
程序1310具体可以用于使得处理器1302执行以下操作:获取参考视频帧和待编码视频帧;通过预先训练完成的特征提取模型,对待编码视频帧进行特征提取,得到待编码特征;分别编码参考视频帧和待编码特征,得到比特流;其中,生成模型通过上述第二方面的模型训练方法得到。
或者,
程序1310具体可以用于使得处理器1302执行以下操作:获取视频比特流并解码,得到参考视频帧和待编码特征;对参考视频帧进行特征提取,得到参考特征;并基于待编码特征和参考特征,进行运动估计,得到运动估计结果;通过预先训练完成的生成模型中的生成器,基于运动估计结果,对参考视频帧进行形变处理,生成重建视频帧;其中,生成模型通过上述第一方面或第二方面的模型训练方法得到。
或者,
程序1310具体可以用于使得处理器1302执行以下操作:获取视频比特流并解码,得到参考视频帧和待编码特征;视频比特流为在获取到视频采集设备采集到的视频片段,并对视频片段中的待编码视频帧进行特征提取得到待编码特征之后,对待编码特征和视频片段中的参考视频帧进行编码得到的;对参考视频帧进行特征提取,得到参考特征;并基于待编码特征和参考特征,进行运动估计,得到运动估计结果;通过预先训练完成的生成模型中的生成器,基于运动估计结果,对参考视频帧进行形变处理,生成重建视频帧;在显示界面中显示重建视频帧;其中,生成模型通过上述第一方面或第二方面的模型训练方法得到。
程序1310中各步骤的具体实现可以参见上述模型训练方法,视频编码方法,或者,视频解码方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,通过初始生成模型中的生成器生成了多个连续的待编码样本帧对应的重建样本帧,并且,在对单个重建样本帧和对应的待编码样本帧进行真伪鉴别的同时,还对由各重建样本帧按照时间戳顺序拼接而成的拼接重建样本帧,以及,由各待编码样本帧按照时间戳顺序拼接而成的拼接待编码样本帧进行了真伪鉴别,进而,同时基于单个样本帧间的鉴别结果(第一鉴别结果)以及拼接样本帧间的鉴别结果(第二鉴别结果)生成对抗损失值,以完成对初始生成模型的训练。也就是说,本申请实施例中,进行真伪鉴别时,不仅考虑了重建样本帧与待编码样本帧在空间域方面的相似程度,而且,还考虑到了重建样本帧与待编码样本帧在时间域方面的相似程度,即:通过对比拼接待编码样本帧和拼接参考样本帧间的相似程度,考虑了在时间域上,各连续重建样本帧之间是否具有各连续待编码样本帧之间所具有的连续关系。因此,基于上述鉴别结果进行模型训练,并基于训练完成的生成模型进行视频帧重建,可以使得重建视频帧序列与待编码视频帧序列保持在时间域上的一致性,改善闪烁及浮动伪影现象,提升视频重建的质量。
本申请实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令指示计算设备执行上述多个方法实施例中的任一方法对应的操作。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的模型训练方法,视频编码方法,或者,视频解码方法。此外,当通用计算机访问用于实现在此示出的模型训练方法,视频编码方法,或者,视频解码方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的模型训练方法,视频编码方法,或者,视频解码方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。
Claims (13)
1.一种模型训练方法,包括:
获取参考样本帧和多个连续的待编码样本帧;
通过初始生成模型中的生成器对所述参考样本帧进行形变处理,生成各待编码样本帧对应的重建样本帧;
将每个重建样本帧和对应的待编码样本帧输入所述初始生成模型中的第一鉴别器,得到第一鉴别结果;
按照时间戳先后顺序,拼接各待编码样本帧得到拼接待编码样本帧,以及拼接各重建样本帧得到拼接重建样本帧;将所述拼接待编码样本帧和所述拼接重建样本帧输入所述初始生成模型中的第二鉴别器,得到第二鉴别结果;
基于所述第一鉴别结果和所述第二鉴别结果得到对抗损失值,并基于所述对抗损失值训练所述初始生成模型,得到训练完成的生成模型。
2.根据权利要求1所述的方法,其中,所述对抗损失值包括:生成对抗损失值、空间对抗损失值以及时间对抗损失值;
所述基于所述第一鉴别结果和所述第二鉴别结果得到对抗损失值,包括:
基于各重建样本帧的第一鉴别结果,得到生成对抗损失值;
基于各重建样本帧的第一鉴别结果与对应的待编码样本帧的第一鉴别结果之间的差异值,得到空间对抗损失值;
基于所述拼接待编码样本帧的第二鉴别结果和所述拼接重建样本帧的第二鉴别结果之间的差异值,得到时间对抗损失值。
3.根据权利要求2所述的方法,其中,所述基于各重建样本帧的第一鉴别结果,得到生成对抗损失值,包括:
获取各重建样本帧的第一鉴别结果的概率分布,作为各重建样本帧的第一重建概率分布;并基于所述各重建样本帧的第一重建概率分布的期望值,得到生成对抗损失值;
所述基于各重建样本帧的第一鉴别结果与对应的待编码样本帧的第一鉴别结果之间的差异值,得到空间对抗损失值,包括:
获取各待编码样本帧的第一鉴别结果的概率分布,作为各待编码样本帧的第一待编码概率分布;并基于所述各重建样本帧的第一重建概率分布的期望值和所述各待编码样本帧的第一待编码概率分布的期望值之间的期望差值,得到空间对抗损失值;
所述基于所述拼接待编码样本帧的第二鉴别结果和所述拼接重建样本帧的第二鉴别结果之间的差异值,得到时间对抗损失值,包括:
获取所述拼接重建样本帧的第二鉴别结果的概率分布,作为第二重建概率分布;获取所述拼接待编码样本帧的第二鉴别结果的概率分布,作为第二待编码概率分布;并基于所述第二重建概率分布的期望值与所述第二待编码概率分布的期望值之间的期望差值,得到时间对抗损失值。
4.根据权利要求1所述的方法,其中,在所述基于所述对抗损失值训练所述初始生成模型,得到训练完成的生成模型之前,所述方法还包括:
基于各重建样本帧和各待编码样本帧,生成感知损失值;
所述基于所述对抗损失值训练所述初始生成模型,得到训练完成的生成模型,包括:
基于所述对抗损失值和所述感知损失值,训练所述初始生成模型,得到训练完成的生成模型。
5.根据权利要求4所述的方法,其中,所述通过初始生成模型中的生成器对所述参考样本帧进行形变处理,生成各待编码样本帧对应的重建样本帧,包括:
基于所述参考样本帧,对各待编码样本帧进行运动估计,得到各待编码样本帧的运动估计结果;
针对每个待编码样本帧,将所述参考样本帧和该待编码样本帧的运动估计结果输入初始生成模型中的生成器,通过所述生成器对所述参考样本帧进行形变处理,生成该待编码样本帧对应的重建样本帧;
在所述基于所述对抗损失值和所述感知损失值,训练所述初始生成模型,得到训练完成的生成模型之前,所述方法还包括:
将各待编码样本帧分别输入至预先训练完成的运动预测模块,得到各待编码样本对应的真实运动结果;
基于各待编码样本帧的运动估计结果和真实运动结果之间的差值,生成光流损失值;
所述基于所述对抗损失值和所述感知损失值,训练所述初始生成模型,得到训练完成的生成模型,包括:
基于所述对抗损失值、所述感知损失值及所述光流损失值,训练所述初始生成模型,得到训练完成的生成模型。
6.根据权利要求5所述的方法,其中,所述基于各待编码样本帧的运动估计结果和真实运动结果之间的差值,生成光流损失值,包括:
针对每个待编码样本帧,计算该待编码样本帧的运动估计结果和真实运动结果之间的差值,作为该待编码样本帧对应的运动差值;
计算各运动差值之和,作为光流损失值。
7.根据权利要求1所述的方法,其中,所述通过初始生成模型中的生成器对所述参考样本帧进行形变处理,生成各待编码样本帧对应的重建样本帧,包括:
通过初始特征提取模型,提取所述参考样本帧的参考样本特征及各待编码样本帧的待编码样本特征;
针对每个待编码样本帧,通过初始运动估计模型,基于所述参考样本特征和该待编码样本帧的待编码样本特征进行运动估计得到运动估计结果;将所述参考样本帧和所述运动估计结果输入初始生成器,得到该待编码样本帧对应的重建样本帧;
所述基于所述对抗损失值训练所述初始生成模型,得到训练完成的生成模型,包括:
基于所述对抗损失值训练所述初始特征提取模型、所述初始运动估计模型,以及所述初始生成模型,得到训练完成的特征提取模型、运动估计模型以及生成模型。
8.一种视频编码方法,包括:
获取参考视频帧和待编码视频帧;
通过预先训练完成的特征提取模型,对所述待编码视频帧进行特征提取,得到待编码特征;
分别编码所述参考视频帧和所述待编码特征,得到比特流;
其中,所述特征提取模型通过权利要求7所述的模型训练方法得到。
9.一种视频解码方法,包括:
获取视频比特流并解码,得到参考视频帧和待编码特征;
对所述参考视频帧进行特征提取,得到参考特征;并基于所述待编码特征和所述参考特征,进行运动估计,得到运动估计结果;
通过预先训练完成的生成模型中的生成器,基于所述运动估计结果,对所述参考视频帧进行形变处理,生成重建视频帧;
其中,所述生成模型通过权利要求1-7任一项所述的模型训练方法得到。
10.一种视频解码方法,应用于会议终端设备,包括:
获取视频比特流并解码,得到参考视频帧和待编码特征;所述视频比特流为在获取到视频采集设备采集到的视频片段,并对所述视频片段中的待编码视频帧进行特征提取得到待编码特征之后,对所述待编码特征和所述视频片段中的参考视频帧进行编码得到的;
对所述参考视频帧进行特征提取,得到参考特征;并基于所述待编码特征和所述参考特征,进行运动估计,得到运动估计结果;
通过预先训练完成的生成模型中的生成器,基于所述运动估计结果,对所述参考视频帧进行形变处理,生成重建视频帧;
在显示界面中显示所述重建视频帧;
其中,所述生成模型通过权利要求1-7任一项所述的模型训练方法得到。
11.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的模型训练方法对应的操作,或者,如权利要求8所述的视频编码方法对应的操作,或者,如权利要求9或10所述的视频解码方法对应的操作。
12.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7中任一项所述的模型训练方法,或者,实现如权利要求8所述的视频编码方法,或者,如权利要求9或10所述的视频解码方法。
13.一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如权利要求1-7中任一项所述的模型训练方法对应的操作,或者,执行如权利要求8所述的视频编码方法对应的操作,或者,执行如权利要求9或10所述的视频解码方法对应的操作。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210716223.2A CN114897189A (zh) | 2022-06-23 | 2022-06-23 | 模型训练方法、视频编码方法及解码方法 |
PCT/CN2023/101961 WO2023246926A1 (zh) | 2022-06-23 | 2023-06-21 | 模型训练方法、视频编码方法及解码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210716223.2A CN114897189A (zh) | 2022-06-23 | 2022-06-23 | 模型训练方法、视频编码方法及解码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114897189A true CN114897189A (zh) | 2022-08-12 |
Family
ID=82728715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210716223.2A Pending CN114897189A (zh) | 2022-06-23 | 2022-06-23 | 模型训练方法、视频编码方法及解码方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114897189A (zh) |
WO (1) | WO2023246926A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023246926A1 (zh) * | 2022-06-23 | 2023-12-28 | 阿里巴巴(中国)有限公司 | 模型训练方法、视频编码方法及解码方法 |
CN117750021A (zh) * | 2024-02-19 | 2024-03-22 | 北京铁力山科技股份有限公司 | 一种视频压缩方法、装置、计算机设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11538143B2 (en) * | 2018-10-26 | 2022-12-27 | Nec Corporation | Fully convolutional transformer based generative adversarial networks |
US11037531B2 (en) * | 2019-10-24 | 2021-06-15 | Facebook Technologies, Llc | Neural reconstruction of sequential frames |
CN111901598B (zh) * | 2020-06-28 | 2023-10-13 | 华南理工大学 | 视频解码与编码的方法、装置、介质及电子设备 |
CN114897189A (zh) * | 2022-06-23 | 2022-08-12 | 阿里巴巴(中国)有限公司 | 模型训练方法、视频编码方法及解码方法 |
-
2022
- 2022-06-23 CN CN202210716223.2A patent/CN114897189A/zh active Pending
-
2023
- 2023-06-21 WO PCT/CN2023/101961 patent/WO2023246926A1/zh unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023246926A1 (zh) * | 2022-06-23 | 2023-12-28 | 阿里巴巴(中国)有限公司 | 模型训练方法、视频编码方法及解码方法 |
CN117750021A (zh) * | 2024-02-19 | 2024-03-22 | 北京铁力山科技股份有限公司 | 一种视频压缩方法、装置、计算机设备及存储介质 |
CN117750021B (zh) * | 2024-02-19 | 2024-04-30 | 北京铁力山科技股份有限公司 | 一种视频压缩方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023246926A1 (zh) | 2023-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI805784B (zh) | 提高影像品質的方法 | |
CN114897189A (zh) | 模型训练方法、视频编码方法及解码方法 | |
CN110310343B (zh) | 图像处理方法及装置 | |
CN111464815B (zh) | 一种基于神经网络的视频编码方法及系统 | |
CN116233445B (zh) | 视频的编解码处理方法、装置、计算机设备和存储介质 | |
CN112053408A (zh) | 基于深度学习的人脸图像压缩方法及装置 | |
CN114979672A (zh) | 视频编码方法、解码方法、电子设备及存储介质 | |
CN114374846A (zh) | 视频压缩方法、装置、设备及存储介质 | |
CN111726623A (zh) | 提升空间可分级编码视频在丢包网络中重建质量的方法 | |
CN114531561A (zh) | 一种面部视频编码方法、解码方法及装置 | |
EP4222958A1 (en) | A method and apparatus for encoding and decoding one or more views of a scene | |
WO2023143349A1 (zh) | 一种面部视频编码方法、解码方法及装置 | |
WO2023225808A1 (en) | Learned image compress ion and decompression using long and short attention module | |
CN115643406A (zh) | 视频解码方法、视频编码方法、装置、存储介质及设备 | |
KR20110071483A (ko) | 비트 심도 감소를 이용한 깊이 영상 처리 장치 및 방법 | |
CN115228081A (zh) | 虚拟场景切换方法及装置 | |
CN114694065A (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN116264606A (zh) | 用于处理视频的方法、设备和计算机程序产品 | |
Xie et al. | Just noticeable visual redundancy forecasting: a deep multimodal-driven approach | |
CN113573076A (zh) | 视频编码的方法和装置 | |
CN114205585A (zh) | 面部视频编码方法、解码方法及装置 | |
CN115150370B (zh) | 一种图像处理的方法 | |
WO2023133888A1 (zh) | 图像处理方法、装置、遥控设备、系统及存储介质 | |
WO2023143331A1 (zh) | 一种面部视频编码方法、解码方法及装置 | |
WO2023051705A1 (zh) | 视频通讯方法及装置、电子设备、计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |