CN112866697A

CN112866697A - 视频图像编解码方法、装置、电子设备及存储介质

Info

Publication number: CN112866697A
Application number: CN202011622613.0A
Authority: CN
Inventors: 林超逸; 陈方栋; 王莉
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-28
Anticipated expiration: 2040-12-31
Also published as: CN112866697B

Abstract

本申请实施例提供了视频图像编解码方法、装置、电子设备及存储介质，利用同位光流场，对两个关键帧进行运动补偿，直接生成插值后图像，与现有技术相比能够少压缩一个光流场，在降低计算量的同时，还能够节约运动信息压缩的码率，从而提升压缩的率失真性能。并且为了得到较高的残差压缩性能，利用质量修正网络，提升插值图像的质量；在做残差压缩前，利用特征变换将原始图和修正的插值图像进行特征变换，在变换域上计算残差并压缩，能够减少残差压缩的码率。

Description

视频图像编解码方法、装置、电子设备及存储介质

技术领域

本申请涉及数字信号处理技术领域，特别是涉及视频图像编解码方法、装置、电子设备及存储介质。

背景技术

目前，视频流量已达到整个互联网流量的80％，并且这一数值在未来很可能会进一步提升。因此，如何对视频进行高效的编解码，在给定带宽的情况下取得更好的视觉质量变得越发的关键。

传统视频编解码算法主要依赖于人工设计不同的模块，比如基于块的运动估计和DCT(Discrete Cosine Transform，离散余弦变换)矩阵，来减少视频序列中的冗余。其中，虽然每个模块都是精心设计的，但从整体上看，却并不是端到端的优化。为了能进一步提高视频编解码的性能，对整个系统进行端到端地优化是一个值得尝试的方向。

近年来，利用基于深度神经网络的Auto Encoder(自编码器)对图像进行编解码已经取得了较大的进展。甚至已在PSNR(Peak Signal to Noise Ratio，即峰值信噪比)指标上超过了传统编解码算法的性能。一个可能的解释是，在传统的视频编解码算法中，是没有端到端的优化和非线性的变换的，而基于端到端地训练以及深度学习引入的非线性变换，带来了性能增益。

目前端到端的视频编解码技术主要有三类：一是基于预测编码的视频编解码算法：利用神经网络将对应的模块(例如运动估计模块、预测模块等)替换，构成一个整体的视频编解码网络，并进行端到端地训练。二是基于插值的视频编解码算法：将视频编解码看成是插帧的过程，先压缩关键帧，随后利用双向的信息进行插帧。三是基于3D卷积的视频编解码算法：利用端到端图像压缩算法框架，在自编码器网络中将2D卷积替换成包含时域的3D卷积。

其中，基于插值的视频编解码算法中，端到端视频编解码算法的性能目前是最好的。这主要得益于该类算法能够有效地利用双向的信息，即利用两帧关键帧从前和从后分别预测当前帧，而其他框架的方法基本都是利用单向的信息。

目前，基于插值的视频编解码算法主要包括运动压缩和残差压缩两部分。大多数算法都会使用双光流场来对两个关键帧进行warping(运动补偿)操作，生成融合的预测信号。若不使用光流网络，直接利用关键帧生成预测信号，虽然可以省去运动压缩的码率，但生成的预测信号质量不高，会导致残差压缩性能降低。

相关技术中，基于插值的视频编解码算法，如图1所示，先利用光流网络计算两个关键帧到当前待编码帧的光流场f₁和f₂，然后利用warping操作，将关键帧warping到当前帧的位置上得到运动补偿w₁和w₂。再利用压缩网络对2个光流场，2个warping的关键帧和当前被编码帧的concatenate(连接)结果进行压缩。压缩的重建为2个重建的光流场

和

和一个权重系数

之后，利用重建的关键帧进行warping，并用权重系数对2个warping后的图像进行加权生成插值出的当前帧y_intrp。生成了插值的当前帧后，再利用一个压缩网络，对原始当前帧和插值的图像分别利用残差压缩网络的编码器进行卷积计算，得到潜在表达y和y_intrp。随后计算他们的残差r，并将残差编成码流。最终，利用解码的残差

和y_intrp，生成最终的当前帧的重建图

例如图2所示。

但是采用上述方法，在视频编解码过程中的码率很大。

发明内容

本申请实施例的目的在于提供一种视频图像编解码方法、装置、电子设备及存储介质，以实现降低视频编解码过程中的码率。具体技术方案如下：

第一方面，本申请实施例提供了一种视频图像编码方法，所述方法包括：

获取待编码图像组的第一关键帧及第二关键帧，对所述第一关键帧及所述第二关键帧进行编码，得到第一关键帧码流及第二关键帧码流；其中，所述待编码图像组中包括N帧视频帧，N为大于2的整数；

分别对所述第一关键帧码流及所述第二关键帧码流进行重建，得到第一重建帧及第二重建帧；

根据所述第一关键帧、所述第二关键帧及所述待编码图像组中的第i帧视频帧，确定所述第i帧视频帧的运动信息码流，其中，所述第i帧视频帧为所述待编码图像组中除所述第一关键帧及所述第二关键帧外的视频帧；

对所述第i帧视频帧的运动信息码流进行熵解码，并将熵解码后的第i帧视频帧的运动信息码流输入到运动压缩解码器网络，得到第i帧视频帧的同位光流场，其中，所述第i帧视频帧的同位光流场包括同时表示所述第i帧视频帧相对于第一关键帧及所述第二关键帧的运动信息，以及所述运动信息相对于第一关键帧或第二关键帧的权重；

根据所述第i帧视频帧的同位光流场，对所述第一重建帧及所述第二重建帧进行插值计算，得到第i帧视频帧的预测帧；

根据所述第i帧视频帧的预测帧及所述第i帧视频帧，确定所述第i帧视频帧的残差；

将所述第i帧视频帧的残差输入到残差压缩编码器网络进行编码，得到第i帧视频帧的残差码流，其中，所述待编码图像组编码后的码流包括所述第一关键帧码流、所述第二关键帧码流、所述第i帧视频帧的运动信息码流及所述第i帧视频帧的残差码流。

第二方面，本申请实施例提供了一种图像组解码方法，所述方法包括：

获取待解码图像组的码流，其中，所述待解码图像组的码流包括第一关键帧码流、第二关键帧码流、第i帧视频帧的运动信息码流及第i帧视频帧的残差码流，所述待解码图像组包括N帧视频帧，所述第一关键帧码流由所述待解码图像组的第一关键帧帧内编码得到、所述第二关键帧码流由所述待解码图像组的第二关键帧帧内编码得到，N为大于2的整数，所述第i帧视频帧为所述待解码图像组中除所述第一关键帧及所述第二关键帧外的视频帧；

分别对所述第一关键帧码流及所述第二关键帧码流进行解码，得到第一重建帧及第二重建帧；

对第i帧视频帧的残差码流进行熵解码，并将熵解码后的第i帧视频帧的残差码流输入到残差压缩解码器网络中进解码，得到第i帧视频帧的残差；

根据所述第i帧视频帧的预测帧及所述第i帧视频帧的残差，得到第i帧视频帧的重建帧。

第三方面，本申请实施例提供了一种图像组编码装置，所述装置包括：

关键帧编码模块，用于获取待编码图像组的第一关键帧及第二关键帧，对所述第一关键帧及所述第二关键帧进行编码，得到第一关键帧码流及第二关键帧码流；其中，所述待编码图像组中包括N帧视频帧，N为大于2的整数；

关键帧重建模块，用于分别对所述第一关键帧码流及所述第二关键帧码流进行重建，得到第一重建帧及第二重建帧；

运动信息编码模块，用于根据所述第一关键帧、所述第二关键帧及所述待编码图像组中的第i帧视频帧，确定所述第i帧视频帧的运动信息码流，其中，所述第i帧视频帧为所述待编码图像组中除所述第一关键帧及所述第二关键帧外的视频帧；

同位光流场确定模块，用于对所述第i帧视频帧的运动信息码流进行熵解码，并将熵解码后的第i帧视频帧的运动信息码流输入到运动压缩解码器网络，得到第i帧视频帧的同位光流场，其中，所述第i帧视频帧的同位光流场包括同时表示所述第i帧视频帧相对于第一关键帧及所述第二关键帧的运动信息，以及所述运动信息相对于第一关键帧或第二关键帧的权重；

预测帧确定模块，用于根据所述第i帧视频帧的同位光流场，对所述第一重建帧及所述第二重建帧进行插值计算，得到第i帧视频帧的预测帧；

残差确定模块，用于根据所述第i帧视频帧的预测帧及所述第i帧视频帧，确定所述第i帧视频帧的残差；

残差编码模块，用于将所述第i帧视频帧的残差输入到残差压缩编码器网络进行编码，得到第i帧视频帧的残差码流，其中，所述待编码图像组编码后的码流包括所述第一关键帧码流、所述第二关键帧码流、所述第i帧视频帧的运动信息码流及所述第i帧视频帧的残差码流。

第四方面，本申请实施例提供了一种图像组解码装置，所述装置包括：

码流获取模块，用于获取待解码图像组的码流，其中，所述待解码图像组的码流包括第一关键帧码流、第二关键帧码流、第i帧视频帧的运动信息码流及第i帧视频帧的残差码流，所述待解码图像组包括N帧视频帧，所述第一关键帧码流由所述待解码图像组的第一关键帧帧内编码得到、所述第二关键帧码流由所述待解码图像组的第二关键帧帧内编码得到，N为大于2的整数，所述第i帧视频帧为所述待解码图像组中除所述第一关键帧及所述第二关键帧外的视频帧；

关键帧重建模块，用于分别对所述第一关键帧码流及所述第二关键帧码流进行解码，得到第一重建帧及第二重建帧；

残差确定模块，用于对第i帧视频帧的残差码流进行熵解码，并将熵解码后的第i帧视频帧的残差码流输入到残差压缩解码器网络中进解码，得到第i帧视频帧的残差；

非关键帧重建模块，用于根据所述第i帧视频帧的预测帧及所述第i帧视频帧的残差，得到第i帧视频帧的重建帧。

第五方面，本申请实施例提供了一种电子设备，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现本申请中的任一视频图像编码方法或任一视频图像解码方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本申请中的任一视频图像编码方法或任一视频图像解码方法。

本申请实施例有益效果：

本申请实施例提供的视频图像编解码方法、装置、电子设备及存储介质，利用同位光流场，对两个关键帧进行运动补偿，直接生成插值后图像，与现有技术相比能够少压缩一个光流场，在降低计算量的同时，还能够节约运动信息压缩的码率，从而够提升压缩的率失真性能。此外为了得到较高的残差压缩性能，利用质量修正网络，提升插值图像的质量；在做残差压缩前，利用特征变换将原始图和修正的插值图像进行特征变换，在变换域上计算残差并压缩，能够进一步减少残差压缩的码率。当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为相关技术中视频图像编码的一种示意图；

图2为相关技术中残差压缩的一种示意图；

图3为本申请实施例的视频图像编码的一种示意图；

图4为本申请实施例的同位光流场差值可视化表示的一种示意图；

图5为本申请实施例的图像压缩网络的一种示意图；

图6a为本申请实施例的质量修正网络的一种示意图；

图6b为本申请实施例的质量修正网络中块内结构的一种示意图；

图7为本申请实施例的特征变换网络的一种示意图；

图8为本申请实施例的视频图像编码方法的一种示意图；

图9为本申请实施例中步骤S13的一种可能的实现方法的示意图；

图10为本申请实施例中步骤S16的一种可能的实现方法的示意图；

图11为本申请实施例的视频图像解码方法的一种示意图；

图12为本申请实施例中步骤S26的一种可能的实现方法的示意图；

图13为本申请实施例的电子设备的一种示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先，对本申请实施例中的术语进行解释：

关键帧(Key Frame)：基于插帧的端到端视频压缩方法，会将一个视频的所有帧按时间顺序分成多个组，每个组包含n帧图像。通常，每组的第一帧和最后一帧会被选择作为关键帧。关键帧的压缩常采用图像压缩的方式。图像压缩可以是传统的图像压缩(视频编码的all intra模式)，也可以是基于深度学习的图像压缩方法。

预测帧(Prediction Signal)：预测帧是指从已经编解码的帧中导出的帧，通过原始帧与预测帧之差获得残差，进而进行残差变换量化以及系数编码。在生成预测帧时，由于像素位置是离散的，因此需要通过插值运算来获取最终的预测帧。预测帧与原始帧越接近，两者相减得到的残差越小，编码压缩性能越高。

运动信息(Motion Information)：运动信息表示当前像素点与某个参考图像的对应的点的位置偏移。在基于深度学习的视频压缩算法中，该运动信息通常会使用光流场来表示。普通的光流场空间分辨率和图像的分辨率一致，但是有两个维度，分别用于表示水平方向和竖直方向的偏移。

运动压缩(Motion Compression)：为了在解码端也能给关键帧用上运动信息进行插值，需要将运动信息进行压缩。压缩的网络通常就是图像压缩网络，只是中间瓶颈层的通道数会进行微调。

残差压缩(Residual Compression)：为了利用上原始帧的信息，在生成预测帧后，通常会计算原始帧和预测帧的差值，作为残差信息进行编码。残差压缩的网络通常也采用图像压缩网络。残差压缩和运动压缩通常需要取一个平衡：如果运动压缩的码率大了，那么可能重建的运动信息更完整，生成的预测帧质量更好进而可以减少残差压缩的码率；反过来，若是运动压缩的码率小，那么生成的预测帧的质量可能就差，这也会导致残差压缩的码率增大。因此，如何取得平衡是一个需要考虑的点。

率失真原则(Rate-Distortion Optimized)：评价编码效率的有两大指标：码率和PSNR。比特流越小，则压缩率越大；PSNR越大，重建图像质量越好。在视频压缩中，希望码率尽可能的小且PSNR尽可能的大。

为了降低视频编解码过程中的计算量，本申请实施例提供了一种视频图像编码方法，其具体框架可以如图3所示，包括四部分：关键帧压缩、运动估计与压缩、插值与增强、特征变换与残差压缩；该视频图像编码方法包括：

将一个待编码的视频分成多个group(组)，每组包含N帧视频帧，以下一组视频帧帧称为一个视频段。针对每个视频段，分别执行如下操作：

1)将视频段的第一帧x₁和第N帧x_N作为关键帧，使用图像压缩的方法进行压缩，生成相应的码流和重建关键帧图像

和

此处可以采用任意的图像压缩方式，比如JPEG(Joint Photographic ExpertsGroup，联合图像专家组)，JPEG2000或BPG(Better Portable Graphics，更好的可移植图形)等，对关键帧进行图像压缩。也可以采用基于神经网络的图像压缩方式，一种实施方式中，可以使用图5所示的神经网络对关键帧进行图像压缩。其中，虚线表示带有上下采样卷积操作的残差连接，实线表示直接进行残差连接。3x3表示卷积的kernel size，N表示通道数，本实施例中使用/2表示二分之一下采样，*2表示2倍上采样。

2)针对视频段内的每一中间帧，在编第i帧x_i,1<i<N时，计算第一帧到第i帧的运动信息f_1→i和第N帧到第i帧的运动信息f_N→i。

运动信息的计算可以使用任意的光流估计算法，一种实施方式中，可以使用PWC(Pyramid、Warping、and Cost Volume)-Net网络进行运动估计，从而得到运动信息。

3)根据步骤2)计算出的运动信息，将关键帧分别进行运动补偿操作ω₁＝warp(x₁,f_1→i)和ω₂＝warp(x_N,f_N→i)，其中warp表示运动补偿操作。

运动补偿操作使用反向基于双线性插值的warping方法。

4)将x_i,ω₁,ω₂,f_1→i,f_N→i concatenate(连接)起来，作为运动压缩编码器的输入，进行运动压缩。运动压缩编码器的输出是包含了运动信息的码流m。

5)根据步骤4)生成的码流m，熵解码后送入运动压缩解码器，生成同位光流场F。

运动压缩网络可以包括运动压缩编码器网络及运动压缩解码器网络，运动压缩网络的结构可以如图5所示。

6)利用步骤5)的同位光流场F和步骤1)的重建关键帧

插值生成预测帧

假设给定关键帧x₁和x_N，以及相应的光流f_1→i和f_N→i，一种可能的插值方法为：

其中α是权重系数，可以预先设定也可以通过神经网络训练得到；w(x₁,f_1→i)表示warping操作，也即运动补偿。

Warping操作为：

ω[m,n]＝x[m+f_x[m,n],n+f_y[m,n]]

其中f表示光流。x[m,n]表示对输入图像x在坐标[m,n]上进行采样得到，采样的方式为双线性插值。

同位光流场插值方法的一种可能的可视化结果可以如图4所示，只需要一路光流即可进行双向插值，本领域技术人员可以理解的是，图4中的帧号仅为示意，实际情况中的帧号需要根据实际的编解码场景进行确定。其中，同位光流场F＝[f_x,f_y,f_z]是通过神经网络训练得到的，f_x,f_y与传统光流一样用于表示x方向和y方向的运动信息。与现有其他方案相比，不同之处在于该同位光流同时用于两个关键帧x₁和x_N。

图4同位光流场插值可视化表示，中间的图像表示待插值帧，灰点表示待插值点，灰色表示像素值。通过同位光流场，可以定位到两个关键帧对应的点(黑点和绿点)。由权重系数f_z来衡量两个点的权重，在实施例中假设黑点权重更大，因此最终插值出的点是灰点(更偏重于黑色)。

7)利用步骤6)的预测帧

以及步骤5)的同位光流场F和步骤1)的重建关键帧

送入质量修正网络，提升预测帧

的质量。质量修正网络的输出是

一种可能的质量修正网络的结构可以如图6a及图6b所示，其中，模块“3x3conv,64,2”中2表示卷积步长为2，对应2分之1上采样或下采样。

8)将原始中间帧x_i经过特征变换网络做特征变换得到y_i。将步骤7)的输出

经过特征变换网络做特征变换得到

计算他们的残差

一种可能的特征变换网络的结构可以如图7所示。

9)将步骤8)的残差R送至残差压缩网络的编码器，生成残差码流r。

一种可能的残差压缩网络的结构可以如图5所示。

本申请实施例中还提供了一种解码方法，包括：

A)对关键帧的码流进行熵解码，并生成关键帧图像

和

B)对运动信息的码流m进行熵解码，并用运动压缩解码器网络进行解码，生成同位光流场F。

C)利用步骤B)的同位光流场F和步骤A)的重建关键帧

插值生成预测帧

D)利用步骤C)的预测帧

以及步骤B)的同位光流场F和步骤A)的重建关键帧

送入质量修正网络，提升预测帧

的质量。质量修正网络的输出是

E)对残差码流r进行熵解码，并用残差压缩解码器网络进行解码，生成重建残差信号

F)将步骤E)的残差信号

与步骤D)的

求和，生成最终的重建图

在训练过程中，可以将运动压缩网络与质量修正网络作为一个整体网络进行训练，其中，运动压缩网络的运动压缩编码器的输入为x_i,ω₁,ω₂,f_1→i,f_N→i，输入为运动信息码流；运动压缩网络的运动压缩编码器的输入为熵解码后的运动信息码流，输出为同位光流场。

在上述整体网络训练完成后，固定上述整体网络的参数，并训练特征变换网络与残差压缩网络。此外，用于压缩关键帧的神经网络可以单独训练。各网络的具体训练方式可以参见相关技术中的训练方式，此处不做限定。

本申请实施例中，利用同位光流场的插值方法生成预测帧，仅利用一个3通道的同位光流场就能对两个关键帧进行插值生成预测帧，能有效的节省视频压缩中的运动压缩模块的码率消耗。同时，使用质量修正网络提升预测信号的质量，减少残差压缩模块所消耗的码率，能有效提升最终的残差压缩性能。利用同位光流场，对2个关键帧进行运动补偿，与现有技术相比能够少压缩一个光流场，在降低计算量的同时，还能够节约运动信息压缩的码率，从而还能够提升压缩的率失真性能。并且为了得到较高的残差压缩性能，利用质量修正网络，提升插值图像的质量；在做残差压缩前，利用特征变换将原始图和修正的插值图像进行特征变换，在变换域上计算残差并压缩，能够减少残差压缩的码率。

本申请实施例还提供了一种视频图像编码方法，参见图8，该方法包括：

S11，获取待编码图像组的第一关键帧及第二关键帧，对上述第一关键帧及上述第二关键帧进行编码，得到第一关键帧码流及第二关键帧码流；其中，上述待编码图像组中包括N帧视频帧，N为大于2的整数。

本申请实施例的视频图像编码方法可以通过电子设备实现，具体的，该电子设备可以为个人电脑、智能手机、平板电脑、硬盘录像机、摄像机等。

待编码图像组由待编码的视频分组得到，将待编码的视频分成多个组，每个分组称为一个图像组，待编码图像组为任意一个图像组，对每个图像组均可以执行与待编码图像组相同的操作，从而实现整个视频的编码。

第一关键帧及第二关键帧的选取方式可以参见相关技术中的关键帧选取方法，一个例子中第一关键帧为待编码图像组中的第一帧视频帧，第二关键帧为待编码图像组中的第N帧(最后一帧)视频帧，选取第一帧视频帧及第N帧视频帧作为关键帧。

第一关键帧及第二关键帧可以采用任意的图像压缩方式进行编码，一个例子中第一关键帧及第二关键帧可以采用帧内编码的方式进行编码，比如JPEG，JPEG2000或BPG等，对关键帧进行图像压缩。一种实施方式中，可以使用图5所示的网络对关键帧进行图像压缩。其中，虚线表示带有上下采样卷积操作的残差连接，实线表示直接进行残差连接。3x3表示卷积的kernel size，N表示通道数，本实施例中使用/2表示二分之一下采样，*2表示2倍上采样。在其他的例子中，也可以选取第一关键帧进行帧内编码，并基于第一关键帧对第二关键帧进行帧间编码；或选取第二关键帧进行帧内编码，并基于第二关键帧对第一关键帧进行帧间编码等，均在本申请的保护范围内。

S12，分别对上述第一关键帧码流及上述第二关键帧码流进行重建，得到第一重建帧及第二重建帧。

对第一关键帧码流进行重建，例如，进行熵解码或输入到环形滤波网络，得到第一重建帧(相当于上述实施例中的重建关键帧图像

)；对第二关键帧码流进行重建，例如，进行熵解码或输入到环形滤波网络，得到第二重建帧(相当于上述实施例中的重建关键帧图像

)。

S13，根据上述第一关键帧、上述第二关键帧及上述待编码图像组中的第i帧视频帧，确定上述第i帧视频帧的运动信息码流，其中，上述第i帧视频帧为上述待编码图像组中除上述第一关键帧及上述第二关键帧外的视频帧。

根据第一关键帧、第二关键帧及待编码图像组中的第i帧视频帧，通过运动压缩算法，得到包含了运动信息的运动信息码流。

S14，对上述第i帧视频帧的运动信息码流进行熵解码，并将熵解码后的第i帧视频帧的运动信息码流输入到运动压缩解码器网络，得到第i帧视频帧的同位光流场，其中，上述第i帧视频帧的同位光流场包括同时表示上述第i帧视频帧相对于第一关键帧及上述第二关键帧的运动信息，以及上述运动信息相对于第一关键帧或第二关键帧的权重。

第i帧视频帧的同位光流场能够同时表示第i帧视频帧相对于第一关键帧及第二关键帧的运动补偿。不同于现有技术中计算针对第一关键帧的运动补偿得到一光流场，再计算针对第二关键帧的运动补偿得到另一光流场，本申请中用一个同位光流场同时表示第i帧视频帧相对于第一关键帧及第二关键帧的运动补偿信息，。运动压缩网络可以包括运动压缩编码器网络及运动压缩解码器网络，一种可能的运动压缩网络的结构可以如图5所示。

本申请中的同位光流场有3维，其中两维是水平和竖直方向的运动信息，第三维是权重信息，也就是后面公式中的fz。一个例子中，同位光流场为F＝[f_x,f_y,f_z]，运动压缩编码器网络训练得到的，f_x,f_y分别用于表示x方向和y方向的运动信息，f_z表示权重系数，可以为动信息相对于第一关键帧的权重系数，也可以为动信息相对于第二关键帧的权重系数。

S15，根据上述第i帧视频帧的同位光流场，对上述第一重建帧及上述第二重建帧进行插值计算，得到第i帧视频帧的预测帧。

其中，

为第i帧视频帧的预测帧，α是权重系数，可以预先设定也可以通过神经网络训练得到；w(x₁,f_1→i)表示warping操作，也即运动补偿。

运动补偿为：ω[m,n]＝x[m+f_x[m,n],n+f_y[m,n]]

提出的同位光流场插值方法可视化结果见图4，只需要一路光流即可进行双向插值。其中，同位光流场F＝[f_x,f_y,f_z]是通过神经网络训练得到的，f_x,f_y与传统光流一样用于表示x方向和y方向的运动信息，f_z表示权重系数。与现有其他方案相比，不同之处在于该同位光流同时用于两个关键帧x₁和x_N。

一种实施方式中，上述根据上述第i帧视频帧的同位光流场，对上述第一重建帧及上述第二重建帧进行插值计算，得到第i帧视频帧的预测帧，包括：

根据如下公式，计算得到第i帧视频帧的预测帧：

其中，

表示第i帧视频帧的预测帧，x₁表示第一重建帧，x_N表示第二重建帧，所述第i帧视频帧的同位光流场为F＝[f_x,f_y,f_z]，f_x,f_y分别表示x方向与y方向的运动信息，f_xy表示由f_x和f_y构成的光流场，f_z表示第一重建帧的权重，w(x₁,f_xy)表示对第一重建帧的运动补偿，w(x_N,f_xy)表示对第二重建帧的运动补偿。

S16，根据上述第i帧视频帧的预测帧及上述第i帧视频帧，确定上述第i帧视频帧的残差。

根据第i帧视频帧的预测帧及第i帧视频帧，利用相关的残差计算方法，计算得到第i帧视频帧的残差。

S17，将上述第i帧视频帧的残差输入到残差压缩编码器网络进行编码，得到第i帧视频帧的残差码流，其中，上述待编码图像组编码后的码流包括上述第一关键帧码流、上述第二关键帧码流、上述第i帧视频帧的运动信息码流及上述第i帧视频帧的残差码流。

编码后的待编码图像组，第一关键帧通过第一关键帧码流表示，第二关键帧通过第二关键帧码流表示，第i帧视频帧通过i帧视频帧的运动信息码流及上述第i帧视频帧的残差码流表示。一种可能的残差压缩编码器网络的结构可以如图5所示。

本申请实施例中，利用同位光流场，对2个关键帧进行warping，直接生成插值后图像，与现有技术相比能够少压缩一个光流场，在降低计算量的同时，还能够节约运动信息压缩的码率，从而还能够提升压缩的率失真性能。

在一种可能的实施方式中，参见图9，上述根据上述第一关键帧、上述第二关键帧及上述待编码图像组中的第i帧视频帧，确定上述第i帧视频帧的运动信息码流，包括：

S131，计算上述第一关键帧到上述待编码图像组中的第i帧视频帧的运动信息，得到第i帧视频帧的第一运动信息。

运动信息的计算可以使用任意的光流估计算法，一种实施方式中，可以使用PWC-Net网络进行运动估计，从而得到运动信息。

第i帧视频帧的第一运动信息可以表示为f_1→i。

S132，根据上述第i帧视频帧的第一运动信息对上述第一关键帧进行运动补偿操作，得到第i帧视频帧的第一运动补偿。

运动补偿操作可以使用反向基于双线性插值的warping方法。第i帧视频帧的第一运动补偿可以表示为ω₁＝warp(x₁,f_1→i)。其中，warp表示运动补偿操作。

S133，计算上述第二关键帧到上述待编码图像组中的第i帧视频帧的运动信息，得到第i帧视频帧的第二运动信息。

第i帧视频帧的第二运动信息可以表示为f_N→i。

S134，根据上述第i帧视频帧的第二运动信息对上述第二关键帧进行运动补偿操作，得到第i帧视频帧的第二运动补偿。

第i帧视频帧的第二运动补偿可以表示为ω₂＝warp(x_N,f_N→i)。

S135，将上述第i帧视频帧、上述第i帧视频帧的第一运动补偿、上述第i帧视频帧第二运动补偿、上述第i帧视频帧第一运动信息及上述第i帧视频帧第二运动信息，输入到运动压缩编码器网络中进行运动压缩，得到第i帧视频帧的运动信息码流。

将x_i,ω₁,ω₂,f_1→i,f_N→iconcatenate(连接)起来，作为运动压缩编码器网络的输入，进行运动压缩，运动压缩编码器网络的输出是包含了运动信息的码流m。

在一种可能的实施方式中，参见图5，上述运动压缩编码器网络包括第一下采样模块、第一注意力模块、第二下采样模块、第二注意力模块、第三下采样模块、第一上采样模块和熵参数模块；其中，1×1、3×3及5×5均表示卷积的kernel size，N表示通道数，/2表示二分之一下采样，*2表示2倍上采样，Quantification表示量化操作，Arithmetic coder表示算术编码器，Arithmetic decoder表示算术解码器。本领域技术人员可以理解的是，图5中每个网络层的参数仅为示意，凡是在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

上述将上述第i帧视频帧、上述第i帧视频帧的第一运动补偿、上述第i帧视频帧第二运动补偿、上述第i帧视频帧第一运动信息及上述第i帧视频帧第二运动信息，输入到运动压缩编码器网络中进行运动压缩，得到第i帧视频帧的运动信息码流，包括：

步骤1，利用运动压缩编码器网络的第一下采样模块对上述第i帧视频帧、上述第i帧视频帧的第一运动补偿、上述第i帧视频帧第二运动补偿、上述第i帧视频帧第一运动信息及上述第i帧视频帧第二运动信息进行处理，得到第一下采样组合特征。

步骤2，利用上述第一注意力模块对上述第一下采样组合特征进行处理，得到第一注意力特征。

步骤3，利用上述第二下采样模块对上述第一注意力特征进行处理，得到第二下采样组合特征。

步骤4，利用上述第二注意力模块对上述第二下采样组合特征进行处理，得到第二注意力特征。

步骤5，对上述第二注意力特征进行量化，得到量化后的第二注意力特征；

步骤6，利用上述第三下采样模块对上述第二注意力特征进行处理，得到第三下采样组合特征。

步骤7，对上述第三下采样组合特征进行量化及熵编码，得到第三下采样组合特征码流。

步骤8，对上述第三下采样组合特征码流进行熵解码，得到第一熵解码特征。

步骤9，利用上述第一上采样模块对上述第一熵解码特征进行处理，得到第一上采样组合特征。

步骤10，利用上述熵参数模块对上述第一上采样组合特征及上述量化后的第二注意力特征进行处理，得到上述量化后的第二注意力特征的第一熵参数。

熵参数模块可以利用5×5mask，2N网络层对量化后的第二注意力特征进行维度变换，得到与第一上采样组合特征维度相同的特征，然后基于维度变换后的第二注意力特征及第一上采样组合特征，计算第二注意力特征每个元素的均值和标准差，从而得到第二注意力特征的熵参数(包括均值、方差)即第一熵参数。

步骤11，利用上述第一熵参数对上述量化后的第二注意力特征进行熵编码，得到第二注意力特征码流，其中，第i帧视频帧的运动信息码流包括第三下采样组合特征码流及第二注意力特征码流。

在一种可能的实施方式中，参见图5，上述运动压缩解码器网络包括第一上采样模块、熵参数模块、第三注意力模块、第二上采样模块、第四注意力模块及第三上采样模块。上述对上述第i帧视频帧的运动信息码流进行熵解码，并将熵解码后的第i帧视频帧的运动信息码流输入到运动压缩解码器网络，得到第i帧视频帧的同位光流场，包括：

步骤A，对上述第i帧视频帧的运动信息码流中的第三下采样组合特征码流进行熵解码，得到第一熵解码特征。

步骤B，利用上述第一上采样模块对上述第一熵解码特征进行处理，得到第一上采样组合特征。

步骤C，利用上述熵参数模块对上述第一上采样组合特征进行处理，得到第二熵参数。

解码过程中，熵参数模块5×5mask，2N网络层中第一次输入的特征可以为全零特征矩阵，从而计算得到特征矩阵第一行第一个元素，然后依次计算特征矩阵的各元素，最终得到第二熵参数。

步骤D，利用上述第二熵参数对上述第二注意力特征码流进行熵解码，得到第二熵解码特征。

步骤E，利用上述第三注意力模块对上述第二熵解码特征进行处理，得到第三注意力特征。

步骤F，利用上述第二上采样模块对上述第三注意力特征进行处理，得到第二采样组合特征。

步骤G，利用上述第四注意力模块对上述第二采样组合特征进行处理，得到第四注意力特征。

步骤H，利用第三上采样模块对上述第四注意力特征进行处理，得到第i帧视频帧的同位光流场。

在本申请实施例中给出了运动压缩编码器网络及运动压缩解码器网络的具体结构，以及编解码过程。一个例子中，还可以使用图5所示的神经网络对第一关键帧和/或第二关键帧进行压缩，其具体压缩过程可以参见同位光流场及运动信息码流的编解码过程，区别在于网络的输入和输出不同，例如，在对第一关键帧进行压缩时，输入第一关键帧。一个例子中，残差压缩编码器网络的结构与运动压缩编码器网络的结构相同，残差压缩解码器网络的结构与运动压缩解码器网络的结构相同，残差及残差码流编解码的具体过程可以参见同位光流场及运动信息码流的编解码过程，区别在于网络的输入和输出不同，例如，在对残差进行压缩时，输入残差。

在一种可能的实施方式中，参见图10，上述根据上述第i帧视频帧的预测帧及上述第i帧视频帧，确定上述第i帧视频帧的残差，包括：

S161，将上述第i帧视频帧的预测帧、上述第i帧视频帧的同位光流场、上述第一重建帧及上述第二重建帧，输入到质量修正网络进行质量修正，得到第i帧视频帧的修正帧。

将第i帧视频帧的预测帧

第i帧视频帧的同位光流场F、第i帧视频帧的的第一重建帧

第二重建帧

送入质量修正网络，提升预测帧

的质量。质量修正网络输出第i帧视频帧的修正帧表示为

一种可能的质量修正网络的结构可以如图6a及图6b所示。本领域技术人员可以理解的是，图6b中每个网络层的参数仅为示意，凡是在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

S162，将上述第i帧视频帧输入到特征变换网络进行特征变换，得到第i帧视频帧的第一变换帧。

S163，将上述第i帧视频帧的修正帧输入到上述特征变换网络进行特征变换，得到第i帧视频帧的第二变换帧。

一种可能的特征变换网络的结构可以如图7所示。

S164，计算上述第i帧视频帧的第一变换帧与上述第i帧视频帧的第二变换帧的残差，得到第i帧视频帧的残差。

计算第i帧视频帧的第一变换帧与第i帧视频帧的第二变换帧的残差：

其中，y_i为第i帧视频帧的第一变换帧，

为第i帧视频帧的第二变换帧，R为第i帧视频帧的残差。

在本申请实施例中，为了得到较高的残差压缩性能，利用质量修正网络，提升插值图像的质量；在做残差压缩前，利用特征变换将原始图和修正的插值图像进行特征变换，在变换域上计算残差并压缩，能够减少残差压缩的码率。

在一种可能的实施方式中，如图6a所示，上述质量修正网络为格型结构，包括横向网络1、横向网络2、横向网络3、横向网络4、横向网络5、横向网络6、横向网络7、横向网络8、下采样网络1、下采样网络2、上采样网络1、上采样网络2。

上述将上述第i帧视频帧的预测帧、上述第i帧视频帧的同位光流场、上述第一重建帧及上述第二重建帧，输入到质量修正网络进行质量修正，得到第i帧视频帧的修正帧，包括：

步骤一，利用质量修正网络的横向网络1对上述第i帧视频帧的预测帧、上述第i帧视频帧的同位光流场、上述第一重建帧及上述第二重建帧进行处理，得到第一综合特征。

步骤二，利用上述横向网络2对上述第一综合特征进行处理，得到第二综合特征。

步骤三，利用上述横向网络3对上述第二综合特征进行处理，得到第三综合特征。

步骤四，利用上述下采样网络1对上述第一综合特征进行处理，得到第一下采样特征。

步骤五，利用上述下采样网络2对上述第一下采样特征进行处理，得到第二下采样特征。

步骤六，利用上述横向网络6对上述第一下采样特征进行处理，得到第三下采样特征。

步骤七，利用上述横向网络7对上述第三下采样特征及上述第二下采样特征进行处理，得到第四下采样特征。

将第三下采样特征及第二下采样特征进行拼接，拼接的方式可以参见相关技术中的拼接方式，一个例子中，可以利用concat函数直接对各数据进行连接，例如，拼接得到的数据的维数为拼接前各数据的维数之和。在本申请实施例中，当需要对多个数据一起进行处理时，均可以采用拼接的方式将多个数据凭借为一个数据。

步骤八，利用上述横向网络8对上述第四下采样特征进行处理，得到第五下采样特征。

步骤九，利用上述上采样网络1对上述第四下采样特征进行处理，得到第一上采样特征。

步骤十，利用上述上采样网络2对上述第五下采样特征进行处理，得到第二上采样特征。

步骤十一，利用上述横向网络4对上述第一上采样特征及上述第三综合特征进行处理，得到第四综合特征。

步骤十二，利用上述横向网络5对上述第二上采样特征及上述第四综合特征进行处理，得到第i帧视频帧的修正帧。

在一种可能的实施方式中，如图7所示，上述特征变换网络包括第一卷积层、第一激活函数、第二卷积层、第二激活函数、第三卷积层及第三激活函数；上述将上述第i帧视频帧输入到特征变换网络进行特征变换，得到第i帧视频帧的第一变换帧，包括：

步骤a，利用特征变换网络的第一卷积层及第一激活函数对将上述第i帧视频帧进行处理，得到第一图像特征。

步骤b，利用上述特征变换网络的第二卷积层及第二激活函数对上述第一图像特征进行卷积处理，得到第二图像特征。

步骤c，利用上述特征变换网络的第三卷积层对上述第二图像特征进行处理，得到中间图像特征。

步骤d，利用上述特征变换网络的第三激活函数对上述中间图像特征及上述第一图像特征进行处理，得到第i帧视频帧的第一变换帧。

本申请实施例还提供了一种视频图像解码方法，参见图11，该方法包括：

S21，获取待解码图像组的码流，其中，上述待解码图像组的码流包括第一关键帧码流、第二关键帧码流、第i帧视频帧的运动信息码流及第i帧视频帧的残差码流，上述待解码图像组包括N帧视频帧，上述第一关键帧码流由上述待解码图像组的第一关键帧帧内编码得到、上述第二关键帧码流由上述待解码图像组的第二关键帧帧内编码得到，N为大于2的整数，上述第i帧视频帧为上述待解码图像组中除上述第一关键帧及上述第二关键帧外的视频帧。

S22，分别对上述第一关键帧码流及上述第二关键帧码流进行解码，得到第一重建帧及第二重建帧。

S23，对上述第i帧视频帧的运动信息码流进行熵解码，并将熵解码后的第i帧视频帧的运动信息码流输入到运动压缩解码器网络，得到第i帧视频帧的同位光流场，其中，上述第i帧视频帧的同位光流场包括同时表示上述第i帧视频帧相对于第一关键帧及上述第二关键帧的运动信息，以及上述运动信息相对于第一关键帧或第二关键帧的权重。

S24，根据上述第i帧视频帧的同位光流场，对上述第一重建帧及上述第二重建帧进行插值计算，得到第i帧视频帧的预测帧。

S25，对第i帧视频帧的残差码流进行熵解码，并将熵解码后的第i帧视频帧的残差码流输入到残差压缩解码器网络中进解码，得到第i帧视频帧的残差。

S26，根据上述第i帧视频帧的预测帧及上述第i帧视频帧的残差，得到第i帧视频帧的重建帧。

在一种可能的实施方式中，上述运动压缩解码器网络包括第一上采样模块、熵参数模块、第三注意力模块、第二上采样模块、第四注意力模块及第三上采样模块；上述对上述第i帧视频帧的运动信息码流进行熵解码，并将熵解码后的第i帧视频帧的运动信息码流输入到运动压缩解码器网络，得到第i帧视频帧的同位光流场，包括：

对上述第i帧视频帧的运动信息码流中的第三下采样组合特征码流进行熵解码，得到第一熵解码特征；

利用上述第一上采样模块对上述第一熵解码特征进行处理，得到第一上采样组合特征；

利用上述熵参数模块对上述第一上采样组合特征进行处理，得到第二熵参数；

利用上述第二熵参数对上述第i帧视频帧的运动信息码流中第二注意力特征码流进行熵解码，得到第二熵解码特征；

利用上述第三注意力模块对上述第二熵解码特征进行处理，得到第三注意力特征；

利用上述第二上采样模块对上述第三注意力特征进行处理，得到第二采样组合特征；

利用上述第四注意力模块对上述第二采样组合特征进行处理，得到第四注意力特征；

利用第三上采样模块对上述第四注意力特征进行处理，得到第i帧视频帧的同位光流场。

在一种可能的实施方式中，上述根据上述第i帧视频帧的同位光流场，对上述第一重建帧及上述第二重建帧进行插值计算，得到第i帧视频帧的预测帧，包括：

根据如下公式，计算得到第i帧视频帧的预测帧：

其中，

表示第i帧视频帧的预测帧，x₁表示第一重建帧，x_N表示第二重建帧，上述第i帧视频帧的同位光流场为F＝[f_x,f_y,f_z]，f_x,f_y分别表示x方向与y方向的运动信息，f_xy表示由f_x和f_y构成的光流场，f_z表示第一重建帧的权重，w(x₁,f_xy)表示对第一重建帧的运动补偿，w(x_N,f_xy)表示对第二重建帧的运动补偿。

在一种可能的实施方式中，参见图12，上述根据上述第i帧视频帧的预测帧及上述第i帧视频帧的残差，得到第i帧视频帧的重建帧，包括：

S261，将上述第i帧视频帧的预测帧、上述第i帧视频帧的同位光流场、上述第一重建帧及上述第二重建帧，输入到质量修正网络进行质量修正，得到第i帧视频帧的修正帧。

S262，根据上述第i帧视频帧的修正帧及上述第i帧视频帧的残差，得到第i帧视频帧的重建帧。

将第i帧视频帧的残差和第i帧视频帧的修正帧相加，得到第i帧视频帧的重建帧。

在本申请实施例中，利用质量修正网络进行质量修正，可以增加得到的重建帧的图像质量。

在一种可能的实施方式中，上述质量修正网络为格型结构，包括横向网络1、横向网络2、横向网络3、横向网络4、横向网络5、横向网络6、横向网络7、横向网络8、下采样网络1、下采样网络2、上采样网络1、上采样网络2；上述将上述第i帧视频帧的预测帧、上述第i帧视频帧的同位光流场、上述第一重建帧及上述第二重建帧，输入到质量修正网络进行质量修正，得到第i帧视频帧的修正帧，包括：利用质量修正网络的横向网络1对上述第i帧视频帧的预测帧、上述第i帧视频帧的同位光流场、上述第一重建帧及上述第二重建帧进行处理，得到第一综合特征；利用上述横向网络2对上述第一综合特征进行处理，得到第二综合特征；利用上述横向网络3对上述第二综合特征进行处理，得到第三综合特征；利用上述下采样网络1对上述第一综合特征进行处理，得到第一下采样特征；利用上述下采样网络2对上述第一下采样特征进行处理，得到第二下采样特征；利用上述横向网络6对上述第一下采样特征进行处理，得到第三下采样特征；利用上述横向网络7对上述第三下采样特征及上述第二下采样特征进行处理，得到第四下采样特征；利用上述横向网络8对上述第四下采样特征进行处理，得到第五下采样特征；利用上述上采样网络1对上述第四下采样特征进行处理，得到第一上采样特征；利用上述上采样网络2对上述第五下采样特征进行处理，得到第二上采样特征；利用上述横向网络4对上述第一上采样特征及上述第三综合特征进行处理，得到第四综合特征；利用上述横向网络5对上述第二上采样特征及上述第四综合特征进行处理，得到第i帧视频帧的修正帧。

本申请实施例中的视频图像解码方法为与上述视频图像编码方法所对应的解码方法，相关部分的描述参见上述视频图像编码方法即可。

本申请实施例还提供了一种视频图像编码装置，该装置包括：

关键帧编码模块，用于获取待编码图像组的第一关键帧及第二关键帧，对上述第一关键帧及上述第二关键帧进行编码，得到第一关键帧码流及第二关键帧码流；其中，上述待编码图像组中包括N帧视频帧，N为大于2的整数；

关键帧重建模块，用于分别对上述第一关键帧码流及上述第二关键帧码流进行重建，得到第一重建帧及第二重建帧；

运动信息编码模块，用于根据上述第一关键帧、上述第二关键帧及上述待编码图像组中的第i帧视频帧，确定上述第i帧视频帧的运动信息码流，其中，上述第i帧视频帧为上述待编码图像组中除上述第一关键帧及上述第二关键帧外的视频帧；

同位光流场确定模块，用于对上述第i帧视频帧的运动信息码流进行熵解码，并将熵解码后的第i帧视频帧的运动信息码流输入到运动压缩解码器网络，得到第i帧视频帧的同位光流场，其中，上述第i帧视频帧的同位光流场包括同时表示上述第i帧视频帧相对于第一关键帧及上述第二关键帧的运动信息，以及上述运动信息相对于第一关键帧或第二关键帧的权重；

预测帧确定模块，用于根据上述第i帧视频帧的同位光流场，对上述第一重建帧及上述第二重建帧进行插值计算，得到第i帧视频帧的预测帧；

残差确定模块，用于根据上述第i帧视频帧的预测帧及上述第i帧视频帧，确定上述第i帧视频帧的残差；

残差编码模块，用于将上述第i帧视频帧的残差输入到残差压缩编码器网络进行编码，得到第i帧视频帧的残差码流，其中，上述待编码图像组编码后的码流包括上述第一关键帧码流、上述第二关键帧码流、上述第i帧视频帧的运动信息码流及上述第i帧视频帧的残差码流。

在一种可能的实施方式中，上述运动信息编码模块，包括：

第一运动信息确定子模块，用于计算上述第一关键帧到上述待编码图像组中的第i帧视频帧的运动信息，得到第i帧视频帧的第一运动信息；

第一运动补偿确定子模块，用于根据上述第i帧视频帧的第一运动信息对上述第一关键帧进行运动补偿操作，得到第i帧视频帧的第一运动补偿；

第二运动信息确定子模块，用于计算上述第二关键帧到上述待编码图像组中的第i帧视频帧的运动信息，得到第i帧视频帧的第二运动信息；

第二运动补偿确定子模块，用于根据上述第i帧视频帧的第二运动信息对上述第二关键帧进行运动补偿操作，得到第i帧视频帧的第二运动补偿；

运动压缩子模块，用于将上述第i帧视频帧、上述第i帧视频帧的第一运动补偿、上述第i帧视频帧第二运动补偿、上述第i帧视频帧第一运动信息及上述第i帧视频帧第二运动信息，输入到运动压缩编码器网络中进行运动压缩，得到第i帧视频帧的运动信息码流。

在一种可能的实施方式中，上述运动压缩编码器网络包括第一下采样模块、第一注意力模块、第二下采样模块、第二注意力模块、第三下采样模块、第一上采样模块和熵参数模块；上述运动压缩子模块，具体用于：利用运动压缩编码器网络的第一下采样模块对上述第i帧视频帧、上述第i帧视频帧的第一运动补偿、上述第i帧视频帧第二运动补偿、上述第i帧视频帧第一运动信息及上述第i帧视频帧第二运动信息进行处理，得到第一下采样组合特征；利用上述第一注意力模块对上述第一下采样组合特征进行处理，得到第一注意力特征；利用上述第二下采样模块对上述第一注意力特征进行处理，得到第二下采样组合特征；利用上述第二注意力模块对上述第二下采样组合特征进行处理，得到第二注意力特征；对上述第二注意力特征进行量化，得到量化后的第二注意力特征；利用上述第三下采样模块对上述第二注意力特征进行处理，得到第三下采样组合特征；对上述第三下采样组合特征进行量化及熵编码，得到第三下采样组合特征码流；对上述第三下采样组合特征码流进行熵解码，得到第一熵解码特征；利用上述第一上采样模块对上述第一熵解码特征进行处理，得到第一上采样组合特征；利用上述熵参数模块对上述第一上采样组合特征及上述量化后的第二注意力特征进行处理，得到上述量化后的第二注意力特征的第一熵参数；利用上述第一熵参数对上述量化后的第二注意力特征进行熵编码，得到第二注意力特征码流，其中，第i帧视频帧的运动信息码流包括第三下采样组合特征码流及第二注意力特征码流。

在一种可能的实施方式中，上述运动压缩解码器网络包括第一上采样模块、熵参数模块、第三注意力模块、第二上采样模块、第四注意力模块及第三上采样模块；上述同位光流场确定模块，具体用于：对上述第i帧视频帧的运动信息码流中的第三下采样组合特征码流进行熵解码，得到第一熵解码特征；利用上述第一上采样模块对上述第一熵解码特征进行处理，得到第一上采样组合特征；利用上述熵参数模块对上述第一上采样组合特征进行处理，得到第二熵参数；利用上述第二熵参数对上述第二注意力特征码流进行熵解码，得到第二熵解码特征；利用上述第三注意力模块对上述第二熵解码特征进行处理，得到第三注意力特征；利用上述第二上采样模块对上述第三注意力特征进行处理，得到第二采样组合特征；利用上述第四注意力模块对上述第二采样组合特征进行处理，得到第四注意力特征；利用第三上采样模块对上述第四注意力特征进行处理，得到第i帧视频帧的同位光流场。

在一种可能的实施方式中，上述预测帧确定模块，具体用于：根据如下公式，计算得到第i帧视频帧的预测帧：

其中，

在一种可能的实施方式中，上述残差确定模块，包括：

质量修正子模块，用于将上述第i帧视频帧的预测帧、上述第i帧视频帧的同位光流场、上述第一重建帧及上述第二重建帧，输入到质量修正网络进行质量修正，得到第i帧视频帧的修正帧；

第一特征变换子模块，用于将上述第i帧视频帧输入到特征变换网络进行特征变换，得到第i帧视频帧的第一变换帧；

第二特征变换子模块，用于将上述第i帧视频帧的修正帧输入到上述特征变换网络进行特征变换，得到第i帧视频帧的第二变换帧；

残差计算子模块，用于计算上述第i帧视频帧的第一变换帧与上述第i帧视频帧的第二变换帧的残差，得到第i帧视频帧的残差。

在一种可能的实施方式中，上述质量修正网络为格型结构，包括横向网络1、横向网络2、横向网络3、横向网络4、横向网络5、横向网络6、横向网络7、横向网络8、下采样网络1、下采样网络2、上采样网络1、上采样网络2；上述质量修正子模块，具体用于：利用质量修正网络的横向网络1对上述第i帧视频帧的预测帧、上述第i帧视频帧的同位光流场、上述第一重建帧及上述第二重建帧进行处理，得到第一综合特征；利用上述横向网络2对上述第一综合特征进行处理，得到第二综合特征；利用上述横向网络3对上述第二综合特征进行处理，得到第三综合特征；利用上述下采样网络1对上述第一综合特征进行处理，得到第一下采样特征；利用上述下采样网络2对上述第一下采样特征进行处理，得到第二下采样特征；利用上述横向网络6对上述第一下采样特征进行处理，得到第三下采样特征；利用上述横向网络7对上述第三下采样特征及上述第二下采样特征进行处理，得到第四下采样特征；利用上述横向网络8对上述第四下采样特征进行处理，得到第五下采样特征；利用上述上采样网络1对上述第四下采样特征进行处理，得到第一上采样特征；利用上述上采样网络2对上述第五下采样特征进行处理，得到第二上采样特征；利用上述横向网络4对上述第一上采样特征及上述第三综合特征进行处理，得到第四综合特征；利用上述横向网络5对上述第二上采样特征及上述第四综合特征进行处理，得到第i帧视频帧的修正帧。

在一种可能的实施方式中，上述特征变换网络包括第一卷积层、第一激活函数、第二卷积层、第二激活函数、第三卷积层及第三激活函数；上述第一特征变换子模块，具体用于：利用特征变换网络的第一卷积层及第一激活函数对将上述第i帧视频帧进行处理，得到第一图像特征；利用上述特征变换网络的第二卷积层及第二激活函数对上述第一图像特征进行卷积处理，得到第二图像特征；利用上述特征变换网络的第三卷积层对上述第二图像特征进行处理，得到中间图像特征；利用上述特征变换网络的第三激活函数对上述中间图像特征及上述第一图像特征进行处理，得到第i帧视频帧的第一变换帧。

本申请实施例还提供了一种图像组解码装置，上述装置包括：

码流获取模块，用于获取待解码图像组的码流，其中，上述待解码图像组的码流包括第一关键帧码流、第二关键帧码流、第i帧视频帧的运动信息码流及第i帧视频帧的残差码流，上述待解码图像组包括N帧视频帧，上述第一关键帧码流由上述待解码图像组的第一关键帧帧内编码得到、上述第二关键帧码流由上述待解码图像组的第二关键帧帧内编码得到，N为大于2的整数，上述第i帧视频帧为上述待解码图像组中除上述第一关键帧及上述第二关键帧外的视频帧；

关键帧重建模块，用于分别对上述第一关键帧码流及上述第二关键帧码流进行解码，得到第一重建帧及第二重建帧；

非关键帧重建模块，用于根据上述第i帧视频帧的预测帧及上述第i帧视频帧的残差，得到第i帧视频帧的重建帧。

在一种可能的实施方式中，上述运动压缩解码器网络包括第一上采样模块、熵参数模块、第三注意力模块、第二上采样模块、第四注意力模块及第三上采样模块；上述对同位光流场确定模块，具体用于：对上述第i帧视频帧的运动信息码流中的第三下采样组合特征码流进行熵解码，得到第一熵解码特征；利用上述第一上采样模块对上述第一熵解码特征进行处理，得到第一上采样组合特征；利用上述熵参数模块对上述第一上采样组合特征进行处理，得到第二熵参数；利用上述第二熵参数对上述第i帧视频帧的运动信息码流中第二注意力特征码流进行熵解码，得到第二熵解码特征；利用上述第三注意力模块对上述第二熵解码特征进行处理，得到第三注意力特征；利用上述第二上采样模块对上述第三注意力特征进行处理，得到第二采样组合特征；利用上述第四注意力模块对上述第二采样组合特征进行处理，得到第四注意力特征；利用第三上采样模块对上述第四注意力特征进行处理，得到第i帧视频帧的同位光流场。

其中，

在一种可能的实施方式中，上述非关键帧重建模块，包括：

重建帧确定子模块，用于根据上述第i帧视频帧的修正帧及上述第i帧视频帧的残差，得到第i帧视频帧的重建帧。

在一种可能的实施方式中，上述质量修正网络为格型结构，包括横向网络1、横向网络2、横向网络3、横向网络4、横向网络5、横向网络6、横向网络7、横向网络8、下采样网络1、下采样网络2、上采样网络1、上采样网络2；上述将质量修正子模块，具体用于：利用质量修正网络的横向网络1对上述第i帧视频帧的预测帧、上述第i帧视频帧的同位光流场、上述第一重建帧及上述第二重建帧进行处理，得到第一综合特征；利用上述横向网络2对上述第一综合特征进行处理，得到第二综合特征；利用上述横向网络3对上述第二综合特征进行处理，得到第三综合特征；利用上述下采样网络1对上述第一综合特征进行处理，得到第一下采样特征；利用上述下采样网络2对上述第一下采样特征进行处理，得到第二下采样特征；利用上述横向网络6对上述第一下采样特征进行处理，得到第三下采样特征；利用上述横向网络7对上述第三下采样特征及上述第二下采样特征进行处理，得到第四下采样特征；利用上述横向网络8对上述第四下采样特征进行处理，得到第五下采样特征；利用上述上采样网络1对上述第四下采样特征进行处理，得到第一上采样特征；利用上述上采样网络2对上述第五下采样特征进行处理，得到第二上采样特征；利用上述横向网络4对上述第一上采样特征及上述第三综合特征进行处理，得到第四综合特征；利用上述横向网络5对上述第二上采样特征及上述第四综合特征进行处理，得到第i帧视频帧的修正帧。

本申请实施例还提供了一种电子设备，包括：处理器及存储器；

上述存储器，用于存放计算机程序；

上述处理器用于执行上述存储器存放的计算机程序时，实现上述任一视频图像编码方法或上述任一视频图像解码方法。

可选的，参见图13，本申请实施例的电子设备还包括通信接口102和通信总线104，其中，处理器101，通信接口102，存储器103通过通信总线104完成相互间的通信。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质内存储有计算机程序，上述计算机程序被处理器执行时实现上述任一视频图像编码方法或上述任一视频图像解码方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一视频图像编码方法或上述任一视频图像解码方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

需要说明的是，在本文中，各个可选方案中的技术特征只要不矛盾均可组合来形成方案，这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种视频图像编码方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一关键帧、所述第二关键帧及所述待编码图像组中的第i帧视频帧，确定所述第i帧视频帧的运动信息码流，包括：

计算所述第一关键帧到所述待编码图像组中的第i帧视频帧的运动信息，得到第i帧视频帧的第一运动信息；

根据所述第i帧视频帧的第一运动信息对所述第一关键帧进行运动补偿操作，得到第i帧视频帧的第一运动补偿；

计算所述第二关键帧到所述待编码图像组中的第i帧视频帧的运动信息，得到第i帧视频帧的第二运动信息；

根据所述第i帧视频帧的第二运动信息对所述第二关键帧进行运动补偿操作，得到第i帧视频帧的第二运动补偿；

将所述第i帧视频帧、所述第i帧视频帧的第一运动补偿、所述第i帧视频帧第二运动补偿、所述第i帧视频帧第一运动信息及所述第i帧视频帧第二运动信息，输入到运动压缩编码器网络中进行运动压缩，得到第i帧视频帧的运动信息码流。

3.根据权利要求2所述的方法，其特征在于，所述运动压缩编码器网络包括第一下采样模块、第一注意力模块、第二下采样模块、第二注意力模块、第三下采样模块、第一上采样模块和熵参数模块；

所述将所述第i帧视频帧、所述第i帧视频帧的第一运动补偿、所述第i帧视频帧第二运动补偿、所述第i帧视频帧第一运动信息及所述第i帧视频帧第二运动信息，输入到运动压缩编码器网络中进行运动压缩，得到第i帧视频帧的运动信息码流，包括：

利用运动压缩编码器网络的第一下采样模块对所述第i帧视频帧、所述第i帧视频帧的第一运动补偿、所述第i帧视频帧第二运动补偿、所述第i帧视频帧第一运动信息及所述第i帧视频帧第二运动信息进行处理，得到第一下采样组合特征；

利用所述第一注意力模块对所述第一下采样组合特征进行处理，得到第一注意力特征；

利用所述第二下采样模块对所述第一注意力特征进行处理，得到第二下采样组合特征；

利用所述第二注意力模块对所述第二下采样组合特征进行处理，得到第二注意力特征；

对所述第二注意力特征进行量化，得到量化后的第二注意力特征；

利用所述第三下采样模块对所述第二注意力特征进行处理，得到第三下采样组合特征；

对所述第三下采样组合特征进行量化及熵编码，得到第三下采样组合特征码流；

对所述第三下采样组合特征码流进行熵解码，得到第一熵解码特征；

利用所述第一上采样模块对所述第一熵解码特征进行处理，得到第一上采样组合特征；

利用所述熵参数模块对所述第一上采样组合特征及所述量化后的第二注意力特征进行处理，得到所述量化后的第二注意力特征的第一熵参数；

利用所述第一熵参数对所述量化后的第二注意力特征进行熵编码，得到第二注意力特征码流，其中，第i帧视频帧的运动信息码流包括第三下采样组合特征码流及第二注意力特征码流。

4.根据权利要求3所述的方法，其特征在于，所述运动压缩解码器网络包括第一上采样模块、熵参数模块、第三注意力模块、第二上采样模块、第四注意力模块及第三上采样模块；所述对所述第i帧视频帧的运动信息码流进行熵解码，并将熵解码后的第i帧视频帧的运动信息码流输入到运动压缩解码器网络，得到第i帧视频帧的同位光流场，包括：

对所述第i帧视频帧的运动信息码流中的第三下采样组合特征码流进行熵解码，得到第一熵解码特征；

利用所述熵参数模块对所述第一上采样组合特征进行处理，得到第二熵参数；

利用所述第二熵参数对所述第二注意力特征码流进行熵解码，得到第二熵解码特征；

利用所述第三注意力模块对所述第二熵解码特征进行处理，得到第三注意力特征；

利用所述第二上采样模块对所述第三注意力特征进行处理，得到第二采样组合特征；

利用所述第四注意力模块对所述第二采样组合特征进行处理，得到第四注意力特征；

利用第三上采样模块对所述第四注意力特征进行处理，得到第i帧视频帧的同位光流场。

5.根据权利要求1所述的方法，其特征在于，所述根据所述第i帧视频帧的同位光流场，对所述第一重建帧及所述第二重建帧进行插值计算，得到第i帧视频帧的预测帧，包括：

根据如下公式，计算得到第i帧视频帧的预测帧：

其中，

表示第i帧视频帧的预测帧，x₁表示第一重建帧，x_N表示第二重建帧，所述第i帧视频帧的同位光流场为F＝[f_x，f_y，f_z]，f_x，f_y分别表示x方向与y方向的运动信息，f_xy表示由f_x和f_y构成的光流场，f_z表示第一重建帧的权重，w(x₁，f_xy)表示对第一重建帧的运动补偿，w(x_N，f_xy)表示对第二重建帧的运动补偿。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第i帧视频帧的预测帧及所述第i帧视频帧，确定所述第i帧视频帧的残差，包括：

将所述第i帧视频帧的预测帧、所述第i帧视频帧的同位光流场、所述第一重建帧及所述第二重建帧，输入到质量修正网络进行质量修正，得到第i帧视频帧的修正帧；

将所述第i帧视频帧输入到特征变换网络进行特征变换，得到第i帧视频帧的第一变换帧；

将所述第i帧视频帧的修正帧输入到所述特征变换网络进行特征变换，得到第i帧视频帧的第二变换帧；

计算所述第i帧视频帧的第一变换帧与所述第i帧视频帧的第二变换帧的残差，得到第i帧视频帧的残差。

7.根据权利要求6所述的方法，其特征在于，所述质量修正网络为格型结构，包括横向网络1、横向网络2、横向网络3、横向网络4、横向网络5、横向网络6、横向网络7、横向网络8、下采样网络1、下采样网络2、上采样网络1、上采样网络2；所述将所述第i帧视频帧的预测帧、所述第i帧视频帧的同位光流场、所述第一重建帧及所述第二重建帧，输入到质量修正网络进行质量修正，得到第i帧视频帧的修正帧，包括：

利用质量修正网络的横向网络1对所述第i帧视频帧的预测帧、所述第i帧视频帧的同位光流场、所述第一重建帧及所述第二重建帧进行处理，得到第一综合特征；

利用所述横向网络2对所述第一综合特征进行处理，得到第二综合特征；

利用所述横向网络3对所述第二综合特征进行处理，得到第三综合特征；

利用所述下采样网络1对所述第一综合特征进行处理，得到第一下采样特征；

利用所述下采样网络2对所述第一下采样特征进行处理，得到第二下采样特征；

利用所述横向网络6对所述第一下采样特征进行处理，得到第三下采样特征；

利用所述横向网络7对所述第三下采样特征及所述第二下采样特征进行处理，得到第四下采样特征；

利用所述横向网络8对所述第四下采样特征进行处理，得到第五下采样特征；

利用所述上采样网络1对所述第四下采样特征进行处理，得到第一上采样特征；

利用所述上采样网络2对所述第五下采样特征进行处理，得到第二上采样特征；

利用所述横向网络4对所述第一上采样特征及所述第三综合特征进行处理，得到第四综合特征；

利用所述横向网络5对所述第二上采样特征及所述第四综合特征进行处理，得到第i帧视频帧的修正帧。

8.根据权利要求6所述的方法，其特征在于，所述特征变换网络包括第一卷积层、第一激活函数、第二卷积层、第二激活函数、第三卷积层及第三激活函数；所述将所述第i帧视频帧输入到特征变换网络进行特征变换，得到第i帧视频帧的第一变换帧，包括：

利用特征变换网络的第一卷积层及第一激活函数对将所述第i帧视频帧进行处理，得到第一图像特征；

利用所述特征变换网络的第二卷积层及第二激活函数对所述第一图像特征进行卷积处理，得到第二图像特征；

利用所述特征变换网络的第三卷积层对所述第二图像特征进行处理，得到中间图像特征；

利用所述特征变换网络的第三激活函数对所述中间图像特征及所述第一图像特征进行处理，得到第i帧视频帧的第一变换帧。

9.一种视频图像解码方法，其特征在于，所述方法包括：

10.根据权利要求9所述的方法，其特征在于，所述运动压缩解码器网络包括第一上采样模块、熵参数模块、第三注意力模块、第二上采样模块、第四注意力模块及第三上采样模块；所述对所述第i帧视频帧的运动信息码流进行熵解码，并将熵解码后的第i帧视频帧的运动信息码流输入到运动压缩解码器网络，得到第i帧视频帧的同位光流场，包括：

利用所述第二熵参数对所述第i帧视频帧的运动信息码流中第二注意力特征码流进行熵解码，得到第二熵解码特征；

11.根据权利要求9所述的方法，其特征在于，所述根据所述第i帧视频帧的同位光流场，对所述第一重建帧及所述第二重建帧进行插值计算，得到第i帧视频帧的预测帧，包括：

根据如下公式，计算得到第i帧视频帧的预测帧：

其中，

12.根据权利要求9所述的方法，其特征在于，所述根据所述第i帧视频帧的预测帧及所述第i帧视频帧的残差，得到第i帧视频帧的重建帧，包括：

根据所述第i帧视频帧的修正帧及所述第i帧视频帧的残差，得到第i帧视频帧的重建帧。

13.根据权利要求12所述的方法，其特征在于，所述质量修正网络为格型结构，包括横向网络1、横向网络2、横向网络3、横向网络4、横向网络5、横向网络6、横向网络7、横向网络8、下采样网络1、下采样网络2、上采样网络1、上采样网络2；所述将所述第i帧视频帧的预测帧、所述第i帧视频帧的同位光流场、所述第一重建帧及所述第二重建帧，输入到质量修正网络进行质量修正，得到第i帧视频帧的修正帧，包括：

14.一种视频图像编码装置，其特征在于，所述装置包括：

15.一种图像组解码装置，其特征在于，所述装置包括：

16.一种电子设备，其特征在于，包括处理器及存储器；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-13任一所述的方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-13任一所述的方法。