CN114745552A

CN114745552A - 视频编解码方法、视频编解码器和电子设备

Info

Publication number: CN114745552A
Application number: CN202210459495.9A
Authority: CN
Inventors: 沈鹏
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-12
Also published as: WO2023207872A1

Abstract

本申请公开了一种视频编解码方法、视频编解码器和电子设备，属于电子技术领域。该视频编解码方法包括：获取待编码的第一视频帧序列；将所述第一视频帧序列输入时序可逆神经网络，得到所述时序可逆神经网络正向输出的与第一预设分布对应的视频编码码流；在解码的情况下，将所述视频编码码流与第二预设分布输入至所述时序可逆神经网络中，得到所述时序可逆神经网络反向输出的第二视频帧序列。

Description

视频编解码方法、视频编解码器和电子设备

技术领域

本申请属于电子技术领域，具体涉及一种视频编解码方法、视频编解码器和电子设备。

背景技术

视频在日常生活中具有重要的作用，视频通话、短视频拍摄、视频观看等。随着网络技术的发展，海量的视频数据对视频的传输、存储以及处理带来了巨大挑战，视频编解码技术变得至关重要。通过编码技术可以对视频进行编码压缩，使其便于存储和传输等处理。解码是编码的逆过程，用于将编码后的数据再恢复成视频。

目前，视频编解码主要是通过H.264/H.265等标准编解码技术来实现。H.264/H.265标准编解码技术是先预测编码后的图像，然后再由原始图像与预测图像获得残差，再将残差变换、量化和熵编码形成码流。这种方式在采用较低的码率编码时，编码后的数据中信息过少，导致重建的视频与原始的视频相差较大，视频质量不好。

发明内容

本申请实施例的目的是提供一种视频编解码方法、视频编解码器和电子设备，能够解决编解码导致视频质量差的问题。

第一方面，本申请实施例提供了一种视频编解码方法，该方法包括：

获取待编码的第一视频帧序列；将所述第一视频帧序列输入时序可逆神经网络，得到所述时序可逆神经网络正向输出的与第一预设分布对应的视频编码码流；其中，所述第一预设分布包括所述第一视频帧序列中视频帧的高频特征编码的分布，所述视频编码码流包括所述第一视频帧序列中视频帧的低频特征编码；在解码的情况下，将所述视频编码码流与第二预设分布输入至所述时序可逆神经网络中，得到所述时序可逆神经网络反向输出的第二视频帧序列；其中，所述时序可逆神经网络在所述第二预设分布上采样得到高频特征编码，并结合所述高频特征编码与所述视频编码码流确定所述视频帧序列。

在本申请提供的上述技术方案中，将需要进行编码的视频输入到时序可逆神经网络中，时序可逆神经网络能够将视频中的高频特征学习为一个预设的分布，将与高频特征对应的低频特征映射到编码码流中。高频特征无需进行编码，可以使得编码码流的码率大大低于原始的视频，提高压缩率，实现对视频的压缩编码。

在解码时可以利用预设的分布，重新采样得到视频的高频特征，进而将高频特征与低码率的编码码流进行结合，还原出高分辨率的视频，避免视频编解码导致的失真。并且，与现有技术相比，本申请的技术方案无需计算编码前后图像的残差，也省去了对残差进行处理的过程，编码效率更高。同时，残差部分无需进行编码，也可以提高压缩率。

第二方面，本申请实施例提供了一种视频编解码器，包括：

第一获取模块，用于获取待编码的第一视频帧序列；第一编码模块，用于将所述第一视频帧序列输入时序可逆神经网络，得到所述时序可逆神经网络正向输出的与第一预设分布对应的视频编码码流；其中，所述第一预设分布包括所述第一视频帧序列中视频帧的高频特征编码的分布，所述视频编码码流包括所述第一视频帧序列中视频帧的低频特征编码；第一解码模块，用于在解码的情况下，将所述视频编码码流与第二预设分布输入至所述时序可逆神经网络中，得到所述时序可逆神经网络反向输出的第二视频帧序列；其中，所述时序可逆神经网络在所述第二预设分布上采样得到高频特征编码，并结合所述高频特征编码与所述视频编码码流确定所述视频帧序列。

在本申请提供的上述技术方案中，需要编码时，通过第一编码模块可以对第一获取模块中的视频帧序列进行编码，得到对应的编码码流。该第一编码模块能够将视频中的高频特征学习为一个预设的分布，将与高频特征对应的低频特征映射到编码码流中。高频特征无需进行编码，可以使得编码码流的码率大大低于原始的视频，提高压缩率，实现对视频的压缩编码。

在需要解码时，通过第一解码模块可以对要解码的视频编码码流进行解码，得到解码后的视频。该第一解码模块可以从预设的分布中采样，得到高频特征，结合该高频特征进行解码，可以还原出高分辨率的视频，提高视频的质量，避免视频编解码导致的失真。并且，本技术方案操作简单，解码效率高。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的视频编解码方法。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的视频编解码方法。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的视频编解码方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的视频编解码方法。

附图说明

图1是本申请实施例提供的视频编解码方法的流程图；

图2是本申请实施例提供的视频编解码方法中时序可逆神经网络的结构示意图之一；

图3是本申请实施例提供的视频编解码方法中时序可逆神经网络的结构示意图之二；

图4是本申请实施例提供的视频编解码方法中时序可逆神经网络的结构示意图之三；

图5是本申请实施例提供的视频编解码装置的结构示意图；

图6是本申请实施例提供的电子设备的结构示意图之一；

图7是本申请实施例提供的电子设备的结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频编解码方法、视频编解码器和电子设备进行详细地说明。

本实施例首先提供一种视频编解码方法。示例性的，该视频编解码方法可以应用于手机、平板电脑、个人计算机(personal computer，PC)、可穿戴电子设备(如智能手表)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、车载设备等电子设备中，本申请实施例对此不作任何限制。

视频在传输前需要先进行编码，将原始的视频信号编码为适合传输和保存的二进制码流，电子设备才能对其进行传输和保存。同样的，电子设备上的视频是以二进制码流的格式进行保存的，在播放视频时，还需要对该二进制码流进行解码，重建出视频进行播放。电子设备可以通过本实施例提供的视频编解码方法来实现上述编码或解码功能。

图1示出了本申请实施例提供的视频编解码方法的流程图。参考图1，该视频编解码方法中包括编码(步骤100和步骤200)和解码(步骤300)两个部分，本实施例中按照编码、解码的顺序对这两部分分别进行说明。但是，电子设备可以同时实现编码和解码、也可以单独只实现其中一个部分，本实施方式对此不作任何限定。

下面，对图1中的视频编解码方法的各个步骤进行详细的说明。

步骤100：获取待编码的第一视频帧序列。

一个视频帧为一幅图像，视频是连续的图像序列。帧率越大，视频中包含的帧数越多，视频画面越流畅。根据视频的帧率可以将该视频转换为时间上连续的多幅图像，即视频帧序列。为了便于区分，将编码过程中的视频对应的视频帧序列记为第一视频帧序列。示例性的，按照24FPS的帧率从获取的视频中截取图像，可以得到每秒钟24帧的第一视频帧序列。根据视频的时长可以确定第一视频帧序列中总共包括的帧数。第一视频帧序列中一共可以包括N个视频帧，N可以为正整数。

步骤200：将第一视频帧序列输入时序可逆神经网络，得到时序可逆神经网络正向输出的与第一预设分布对应的视频编码码流；其中，第一预设分布包括第一视频帧序列中视频帧的高频特征的分布，视频编码码流包括第一视频帧序列中视频帧的低频特征的编码。

该时序可逆神经网络可以包括可逆神经网络(Invertible Neural Networks，INN)，正向传播时可以对视频数据，即第一视频帧序列，进行编码，输出视频帧序列的编码码流。反向传播时也可以对编码码流进行解码，输出对应的视频帧序列。下面，先介绍通过该时序可逆神经网络对视频帧序列进行编码的过程。

具体的，将第一视频帧序列输入到时序可逆神经网络中，该时序可逆神经网络被训练为正向可以提取第一视频帧序列中每个视频帧的特征，确定视频帧中服从第一预设分布的高频特征，以及除该高频特征之外的低频特征。第一视频帧序列的编码码流中包括每个视频帧的低频特征的编码。而高频特征服从预设的分布(如第一预设分布)，因此可被丢弃，也就是说，编码码流中只包括原视频的低频信息，与原视频相比，码率大大降低，可以实现对原视频的压缩编码。与现有技术的编码方法相比，本实施例中的视频编解码方法不需要进行下采样处理，编码过程更加高效。

在训练时序可逆神经网络时可以设置该时序可逆神经网络要学习的第一预设分布，例如将第一预设分布可以设置为高斯分布、均匀分布、瑞丽分布等，本实施方式对此不作特殊限定。经过训练的时序可逆神经网络可以提取输入的视频中服从该第一预设分布的高频特征和不服从该第一预设分布的低频特征，进而输出低频特征的编码。高频特征指的是图像中颜色变化频率高的区域的信息，低频特征指的是颜色缓慢变化的区域的信息。

示例性的，该时序可逆神经网络由N个顺序相连的时序可逆单元构成，N为正整数。该时序可逆单元可以为可逆神经网络。一个时序可逆单元可用于对一个视频帧进行编码或解码，N个时序可逆单元可以并行对N个视频帧进行编码处理，能够可以提高编码效率。

具体的，将第一视频帧序列中的N个视频帧分别输入到N个时序可逆单元，得到每个时序可逆单元正向输出的与第一预设分布对应的编码码流。然后，将N个时序可逆单元正向输出的N段编码码流按照视频帧的顺序进行拼接，可以得到N个视频帧对应的视频编码码流。如果第一视频帧序列中的视频帧数量大于N，则可以分次输入时序可逆单元。例如，先将第一个到第N个视频帧分别输入到N个时序可逆单元，得到前N个视频帧的编码码流，然后再将第N+1到第N+N个视频帧输入到时序可逆单元，得到接下来的N个视频帧的编码码流，最后将所有的编码码流进行拼接，得到整体的视频编码码流。

示例性的，上述时序可逆单元可以包括时空长短期记忆网络(ST-LSTM)和可逆神经网络INN。本实施方式中，将时空长短期记忆网络与可逆神经网络进行结合，构建一种新的模型结构，即时序可逆神经网络。通过该时序可逆神经网络来对视频进行编码时，其中ST-LSTM可以提取视频的帧间特征，提高视频的编码的连续性；INN可以学习帧内的高频信息的分布，根据该分布信息输出编码码流，从而降低失真。

图2示出了一种时序可逆单元的结构图。如图2所示，该时序可逆单元包括ST-LSTM单元201、ST-LSTM单元202和INN单元203。举例来说，首先将视频帧序列中的第1个视频帧输入到该时序可逆单元中，进行编码处理。该时序可逆单元中的ST-LSTM单元201可以提取该第1个视频帧的帧间特征，与之前的视频帧的帧间特征进行合并，得到该第1个视频帧与之前的视频帧之间的帧间编码特征，并将该帧间编码特征传递给下一个(第2个)时序可逆单元，用于计算下一个视频帧的帧间编码特征。由于第1个视频帧之前没有其他视频帧，则可以将该时序可逆单元输入的之前的视频帧的帧间编码特征确定为0。也就是说，第一个时序可逆单元中ST-LSTM单元201可以提取第一个视频帧的帧间特征与0进行合并，合并的结果作为帧间编码特征输出至下一个时序可逆单元的ST-LSTM中。同时，该第一个时序可逆单元输出的帧间编码特征可以输入至INN单元203中，该INN单元203可以提取第一个视频帧中与第一预设分布对应的帧内特征，该帧内特征可以为第一个视频帧中的低频特征，再将该帧内特征与ST-LSTM单元201输出的帧间编码特征进行融合，将融合后的特征再映射为编码码流。

可见，每个时序可逆单元不仅能够基于视频帧的特征进行编码，还能够基于视频帧之间的帧间特征进行编码，可以使得编码码流不仅包含视频帧的信息，也能够包含视频帧之间的信息，能够提高编码的准确性。

由上可知，每个时序可逆单元的输入是一个视频帧，以及之前的视频帧之间的帧间编码特征，输出则是输入的该视频帧对应的编码码流，和该视频帧与之前的视频帧共同的帧间编码特征。

进而，对于视频帧序列中第i(i＝2,3,4，…，N-1,N)个视频帧来说，将该第i个视频帧，与第i-1个时序可逆单元输出的帧间编码特征输入到第i个时序可逆单元，可以得到第i个视频帧的编码码流，以及前i个视频帧之间的帧间编码特征。其中，第i-1个时序可逆单元输出的帧间编码特征为前i-1个视频帧之间的帧间编码特征。时序可逆单元的序号按照N层顺序相连的时序可逆单元的正向顺序进行排列，例如i为1时，指的是正向顺序排列的第1个时序可逆单元，第1个时序可逆单元输入的帧间编码特征为0，输出的帧间编码特征为第1个视频帧的帧间编码特征。可以理解的，正向顺序的第1个时序可逆单元为反向顺序的最后一个时序可逆单元。

举例来说，若视频帧序列为(T1,T2,T3,…TN)，将该视频帧序列中的视频帧T1至视频帧TN输入时序可逆神经网络中时，由每个时序可逆单元分别处理一个视频帧。如图3所示，将时序可逆单元301作为正向顺序的第一个时序可逆单元。将第一个视频帧T1，输入第一个时序可逆单元301，同时还需要将帧间编码特征F₀输入该时序可逆单元301中。该帧间编码特征F₀可以设置为0。该时序可逆单元301可以对该视频帧T1进行编码，输出该视频帧T1的编码码流S1以及前1帧视频帧的帧间编码特征F₁。该帧间编码特征F₁可以是在F₀的基础上与视频帧T1中的帧间特征进行合并，得到的特征。

同理的，视频帧序列中的第二个视频帧T2，可以输入第二个时序可逆单元302中，该时序可逆单元302可以提取视频帧T2的帧间特征，将该帧间特征与上一个时序可逆单元301输出的帧间编码特征F₁进行合并，输出合并后的帧间编码特征F₂。并且时序可逆单元302根据该帧间编码特征F₂对视频帧T2进行编码，输出该视频帧T2的编码码流S2。多个时序可逆单元依次对视频帧序列中的每个视频帧进行处理，得到第三个视频帧T3的编码码流S3以及前3个视频帧之间的帧间编码特征F₃、直到第N个视频帧TN的编码码流SN。第N个时序可逆单元304可以根据第N-1个时序可逆单元输出的帧间编码特征F_N-1来确定视频帧TN的帧间编码特征F_N，并基于该帧间编码特征F_N输出视频帧TN的编码码流SN。第N个视频帧TN为视频帧序列中的最后一个视频帧，第N个时序可逆单元304输出帧间编码特征F_N不参与其他视频帧的编码，因此帧间编码特征F_N无需输出。

示例性的，若视频帧序列中包括的视频帧数量大于N，可以将视频帧序列划分为多个部分，每个部分包括N帧。第一部分的N帧先输入到上述时序可逆神经网络中，则上述最后一个时序可逆单元输出的帧间编码特征F_N需要参与下一个部分的N帧的编码。因此，最后一个时序可逆单元可以输出F_N，该帧间编码特征F_N可以作为下一个部分N帧的第一个时序可逆单元的输入。也就是说，处理第二个部分时，可以将F₀替换为F_N，继续对该第二个部分进行编码。

通过N个时序可逆单元可以得到N个视频帧的编码码流，然后将该N个编码码流按照顺序进行拼接，即将编码码流S1、编码码流S2、编码码流S3直到编码码流SN拼接在一起，可以得到视频帧序列的完整的编码流，即视频编码码流。

示例性的，图4示出了时序可逆单元的另一种结构图。如图4所示，时序可逆单元包括帧间特征提取层401，特征提取层402，注意力机制层403和ST-LSTM层404。当第i个视频帧输入时序可逆单元后，由帧间特征提取层401提取该第i个视频帧的帧间特征f1，提取到的帧间特征f1经过注意力机制层403再次进行提取，得到提取后的帧间特征f2。注意力机制层403能够学习重要特征，增加重要特征的权重，从而使得重要的特征能够传递的时序更长。注意力机制层403输出的帧间特征f2与ST-LSTM层404中学习的前i-1个视频帧的帧间特征F_i-1进行累加，得到该时序可逆单元的帧间编码特征F_i。特征提取层402可以提取视频帧的帧内的特征，得到帧内特征。时序可逆单元还包括隐含层405和可逆神经网络层406。其中，该隐含层405可以根据提取的帧内特征确定第i个视频帧中服从第一预设分布的分布信息，得到的分布信息作为中间特征输入到可逆神经网络层406中。该可逆神经网络层406可以根据中间特征建立正向映射，得到该第i个视频帧的编码码流。

可逆神经网络层能够确定视频帧中服从预设分布的高频特征，以及不服从预设分布的低频特征，进而根据该低频特征将特征映射为编码码流。与现有技术的编码方法相比，不仅不需要进行下采样、编码器编码等处理，使得编码过程更加高效；还能够尽可能多的将原有视频帧的信息保留在编码码流中，避免编码的失真。又通过视频帧之间的帧间编码特征保留了帧间的细节，提高了编码的准备性。

可选的，帧间特征提取层401和特征提取层402可以为ResBlock。Res Block能够提高模型训练的效率，降低深度模型优化的难度。此外，帧间特征提取层401或特征提取层402也可以采用其他结构，例如Inception、Xception等，本实施方式对此不作特殊限定。

上述时序可逆神经网络在应用前，还需要进行训练。该时序可逆神经网络可以是基于样本视频和样本编码码流训练得到的。该样本编码码流可以通过对样本视频进行下采样处理和编码处理得到。具体的，训练的过程包括如下：

预先可以获取一定数量的视频，从每个视频中获取n帧，得到每个视频对应的视频帧序列T，作为样本视频。然后对该样本视频T进行下采样可以得到下采样的视频序列D。对样本视频进行下采样的方式可以包括丢点下采样、最近邻、双线性、区域、双三次、最大池化、平均池化等各种下采样方式；下采样倍率可以是大于等于1的数值，例如2、3等等；本实施例不限于此。

对样本视频进行下采样处理后，再对下采样得到视频序列D进行编码，得到编码后的样本编码码流。从而将高码率的样本视频转换为低码率的样本编码码流。可选的，通过x264、x265等编码方式可以对下采样的视频序列D进行编码。

然后，将样本视频输入时序可逆神经网络，时序可逆神经网络可以提取样本视频中的特征，并在确定服从第一预设分布的高频特征的情况下，正向输出预测码流。确定该预测码流与上述样本编码码流之间的第一损失，该第一损失为时序可逆神经网络的正向损失。并且，将时序可逆神经网络输出的预测码流再输入时序可逆神经网络，获得时序可逆神经网络反向输出的预测视频。时序可逆神经网络反向能够根据预测码流确定对应的低频特征，再在第二预设分布上采样得到高频特征，将低频特征与高频特征进行合并得到预测视频。确定该预测视频与样本视频之间的第二损失，基于该第一损失与该第二损失对时序可逆神经网络进行正向训练和反向训练。

示例性的，第一预设分布与第二预设分布为同类型的分布，以高斯分布为例。正向训练时，模型可以学习视频帧中服从高斯分布的特征，得到视频帧的分布特征，例如视频帧服从均值为1，方差为0.5的高斯分布。反向训练时，可以输入随机的高斯分布，例如输入均值为1，方差为0的高斯分布，模型可以在输入的高斯分布上采样，得到视频帧的特征。

示例性的，正向训练时，可以通过L1损失函数或L2损失函数来计算预测码流与样本视频的样本编码码流之间的损失。反向训练时，也可以通过L1损失函数或L2损失函数来计算预测视频与样本视频之间的损失。示例性的，将预测码流与样本视频的样本编码码流之间的损失记为loss1；预测视频与样本视频之间的损失记为loss2。此外，通过其他损失函数也可以计算损失loss1或损失loss2，例如VGG损失函数等，本实施方式不限于此。

计算得到样本视频对应的loss1与loss2后，可以计算时序可逆神经网络的总损失total loss。该时序可逆神经网络的总损失total loss为正向损失loss1与反向损失loss2之和。通过该总损失total loss调整时序可逆神经网络各个层的参数。可选的，调整参数的方法可以包括随机梯度下降法、牛顿法、自适应下降法等。通过多个样本视频对应的总损失对时序可逆神经网络进的参数进行反复调整。直到，时序可逆神经网络针对某个样本视频输出的预测码流与该样本视频对应的样本编码码流之间的正向的损失loss1与反向的损失loss2，得到的total loss符合预设条件为止，该时序可逆神经网络的正向训练与反向训练完成。上述预设条件可以是损失小于预设值，例如，损失小于0.2、0.3等，本实施方式不作特殊限定。

最后保存训练完成时的时序可逆神经网络，利用该训练完成的时序可逆神经网络对步骤100中的视频帧序列进行编码。通过同时对可逆神经网络进行正向训练与反向训练，能够提高训练效率，使得可逆神经网络正向能够进行编码，反向能够进行解码，实现视频的编解码。

并且，时序可逆神经网络在正向传递时通过中间隐含层可以学习视频帧的分布信息，在反向传递时通过该分布信息可以还原对应的视频帧。因此，在编解码过程中几乎没有损失，可以解决编解码而导致的视频失真的问题。

下面说明本实施例提供的视频的解码过程。如图1所示，该解码过程可以包括以下步骤：

步骤300：将视频编码码流与第二预设分布输入至时序可逆神经网络中，得到时序可逆神经网络反向输出的第二视频帧序列；其中，时序可逆神经网络在第二预设分布上采样得到高频特征，并结合高频特征与视频编码码流确定第二视频帧序列。

待解码的视频编码码流可以是磁盘或缓存中存储的视频数据，也可以其他电子设备传输过来的视频数据。

示例性的，时序可逆神经网络中可以包括多个顺序相连的时序可逆单元。每个时序可逆单元可以对视频编码码流中的一段码流进行处理，确定对应的视频帧，由多个时序可逆单元分别输出多个视频帧，该多个视频帧即为解码后的视频。

具体的，将视频编码码流按照预设大小划分为大小相同的N段编码码流。其中，预设大小为每个时序可逆单元能够输出的码流大小。每个时序可逆单元输出的码流大小可以相同。按照每个时序可逆单元输出的码流大小，将视频编码码流划分为大小相同的多段编码码流。然后将其中的N段编码码流按顺序排列输入到N个时序可逆单元中。同时将第二预设分布分布也输入这N个时序可逆单元中，得到每个时序可逆单元反向输出的解码帧。将N个时序可逆单元反向输出的N个解码帧进行合并，得到解码后的视频帧序列，即第二视频帧序列。

本实施方式中，通过该时序可逆单元来对视频进行解码，每个时序可逆单元可以负责对其中一段编码码流进行解码，多个时序可逆单元同时进行解码，可以提高解码效率。

该时序可逆单元的结构与训练过程可以参考上述实施方式，如图2、图3、图4等，此处不再赘述。举例来说，以图2的网络结构为例，将视频编码码流输入到该时序可逆单元中，该时序可逆单元由时空长短期记忆网络与可逆神经网络构成。输入的编码码流通过可逆神经网络映射为图像特征，并与可逆神经网络在第二预设分布上采样得到的高频特征进行合并。通过时空长短期记忆网络可以提取视频编码码流之间的帧间编码特征，将合并后的图像特征与帧间编码特征再次进行合并，得到最终的图像，即解码帧。

编码码流的帧间编码特征可以是该编码码流之前的其他编码码流之间的特征。例如，某个视频数据中包括两段编码码流，第一段编码码流之前没有其他视频数据，因此第一段编码码流的帧间编码特征可以为0。对于第二段编码码流来说，该帧间编码特征可以为第一段编码码流的帧间编码特征。预先可以确定起始的第一段编码码流对应的帧间编码特征，例如该帧间编码特征可以为0。

该时序可逆单元可以提取视频编码码流之间的帧间编码特征，基于帧间编码特征来恢复视频编码码流对应的视频，可以提高视频的连续性。

具体的，第一个时序可逆单元可以根据输入的第一段编码码流与输入的帧间编码特征，输出该第一段编码码流对应的视频帧和该第一段编码码流与之前的编码码流之间的帧间编码特征。若该第一段编码码流之前不存在其他编码码流，则该第一个时序可逆单元输入的帧间编码特征可以为0。需要理解的是，解码时时序可逆单元按照反向顺序排列，即第一个时序可逆单元为编码时的最后一个时序可逆单元。

综上，按照N层顺序相连的时序可逆单元的反向顺序，将第j段编码码流与第j-1个时序可逆单元输出的帧间编码特征输入第j个时序可逆单元，可以获得第j段编码码流对应的第j个解码帧，以及前j段编码码流之间的帧间编码特征；1＜j≤N。j为时序可逆单元的反向顺序的序号，反向顺序的第一个时序可逆单元输入的帧间编码特征为0。

参考图4，第j段编码码流输入到第j个时序可逆单元中后，第j个时序可逆单元中的可逆神经网络层406可以将该第j段编码码流映射为图像的特征。该特征输入隐含层405，该隐含层405可以根据第二预设分布采样，将采样得到的特征与可逆神经网络层406输入的特征进行合并，作为中间层特征。然后通过特征提取层402可以对中间层特征再次进行特征提取，得到帧内特征。该帧内特征再通过注意力机制层403进行加权，加权后的结果与ST-LSTM层第i-1个时序可逆单元输出的帧间编码特征进行合并，得到合并后的结果。合并后的结果中包含了帧间的特征，最后通过帧间特征提取层401对帧间的特征再次进行提取，得到最终的图像，即解码帧。

每个时序可逆单元不仅能够基于视频编码码流进行解码，还能够基于帧间编码特征进行解码，可以在编码后的视频帧中还原出更多细节，提高视频质量。其中长短期记忆网络可以提取各段编码码流之间的帧间编码特征，提高视频的连续性；可逆神经网络可以还原出各段编码码流对应的高频特征，根据该高频特征得到解码帧，从而减少损失的信息，降低失真。

进一步的，本申请实施例提供的视频编解码方法，执行主体可以为视频编解码器。本申请实施例中以视频编解码器执行视频编解码方法为例，说明本申请实施例提供的视频编解码器。

图5示出了本实施例提供的视频编解码器的结构示意图。如图5所示，视频编解码器500可以包括第一获取模块501、第一编码模块502和第一解码模块503。具体的，第一获取模块501可用于获取待编码的第一视频帧序列。第一编码模块502可用于将第一视频帧序列输入时序可逆神经网络，得到时序可逆神经网络正向输出的与第一预设分布对应的视频编码码流。其中，第一预设分布包括第一视频帧序列中视频帧的高频特征的分布，视频编码码流包括第一视频帧序列中视频帧的低频特征的编码。第一解码模块503可用于在解码的情况下，将视频编码码流与第二预设分布输入至时序可逆神经网络中，得到时序可逆神经网络反向输出的第二视频帧序列；其中，时序可逆神经网络在第二预设分布上采样得到高频特征，并结合高频特征与视频编码码流确定第二视频帧序列。

示例性的实施方式中，时序可逆神经网络包括N层顺序相连的时序可逆单元，N≥1；第一编码模块502具体可以包括:第一输入模块，用于将第一视频帧序列中的N个视频帧分别输入N个时序可逆单元，获得每个时序可逆单元正向输出的与第一预设分布对应的编码码流；第一拼接模块，用于将N个时序可逆单元正向输出的N段编码码流进行拼接，得到视频编码码流。

示例性的实施方式中，第一输入模块被配置为：按照N层顺序相连的时序可逆单元的正向顺序，将视频帧序列中的第i个视频帧与第i-1个时序可逆单元正向输出的帧间编码特征输入第i个时序可逆单元，获得第i个时序可逆单元正向输出的与第一预设分布对应的第i个视频帧的编码码流，与前i个视频帧之间的帧间编码特征。其中，1＜i≤N，正向顺序的第1个时序可逆单元输入的帧间编码特征为0。

示例性的实施方式中，该视频编解码器500还包括：第二获取模块，可用于获取样本视频，并对样本视频进行下采样处理和编码处理，得到样本视频的样本编码码流；第一预测模块，可用于将样本视频输入时序可逆神经网络，获得时序可逆神经网络正向输出的预测码流；时序可逆神经网络在样本视频中的高频特征编码符合第一预设分布的情况下，输出预测码流；第一确定模块，可用于确定预测码流与样本编码码流之间的第一损失；第二预测模块，具体用于将预测码流与第二预设分布输入时序可逆神经网络，获得时序可逆神经网络反向输出的预测视频；第二确定模块，可用于确定预测视频与样本视频之间的第二损失；第一训练模块，可用于基于第一损失与第二损失对时序可逆神经网络进行正向训练和反向训练。

示例性的实施方式中，第一解码模块503具体可以包括:第一划分模块，用于将视频编码码流按照预设大小划分为大小相同的N段编码码流；第二输入模块，用于将N段编码码流与第二预设分布分别输入N个时序可逆单元，得到每个时序可逆单元反向输出的解码帧；第一合并模块，用于将N个时序可逆单元反向输出的N个解码帧合并为第二视频帧序列。

示例性的实施方式中，第二输入模块具体被配置为：按照N层顺序相连的时序可逆单元的反向顺序，将第j段编码码流、第二预设分布与第j-1个时序可逆单元输出的帧间编码特征输入第j个时序可逆单元，获得第j段编码码流对应的第j个解码帧，以及前j段编码码流的帧间编码特征。其中，1＜j≤N，反向顺序的第1个时序可逆单元输入的帧间编码特征为0。

本实施方式中的视频编解码器，利用时空长短期记忆网络与可逆神经网络，构建一种新的模型结构，即时序可逆神经网络。通过该时序可逆神经网络来对视频进行编码或解码时，其中时空长短期记忆网络可以提取帧间编码特征，提高视频的连续性。可逆神经网络可以学习帧内的特征的分布，根据该分布信息进行编码，可以避免编解码对视频造成的失真，提高视频画面的质量。

本申请实施例中的视频编解码器可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频编解码器可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的视频编解码器能够实现如图1至图4的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图6所示，本申请实施例还提供一种电子设备600，包括处理器601和存储器602，存储器602上存储有可在处理器601上运行的程序或指令，该程序或指令被处理器601执行时实现上述视频编解码方法的实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述的移动电子设备和非移动电子设备。

图7为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备700包括但不限于：射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、以及处理器710等部件。

本领域技术人员可以理解，电子设备700还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图7中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

处理器710，用于执行：获取待编码的第一视频帧序列；将第一视频帧序列输入时序可逆神经网络，得到时序可逆神经网络正向输出的与第一预设分布对应的视频编码码流；其中，第一预设分布包括第一视频帧序列中视频帧的高频特征的分布，视频编码码流包括第一视频帧序列中视频帧的低频特征的编码；在解码的情况下，将视频编码码流与第二预设分布输入至时序可逆神经网络中，得到时序可逆神经网络反向输出的第二视频帧序列；其中，时序可逆神经网络在第二预设分布上采样得到高频特征，并结合高频特征与视频编码码流确定第二视频帧序列。

应理解的是，本申请实施例中，输入单元704可以包括图形处理器(GraphicsProcessing Unit，GPU)7041和麦克风7042，图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元706可包括显示面板7061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板7061。用户输入单元707包括触控面板7071以及其他输入设备7072中的至少一种。触控面板7071，也称为触摸屏。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器709可以包括易失性存储器或非易失性存储器，或者，存储器709可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器709包括但不限于这些和任意其它适合类型的存储器。

处理器710可包括一个或多个处理单元；可选的，处理器710集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器710中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频编解码方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频编解码方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述视频编解码方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频编解码方法，其特征在于，包括：

获取待编码的第一视频帧序列；

将所述第一视频帧序列输入时序可逆神经网络，得到所述时序可逆神经网络正向输出的与第一预设分布对应的视频编码码流；其中，所述第一预设分布包括所述第一视频帧序列中视频帧的高频特征的分布，所述视频编码码流包括所述第一视频帧序列中视频帧的低频特征的编码；

在解码的情况下，将所述视频编码码流与第二预设分布输入至所述时序可逆神经网络中，得到所述时序可逆神经网络反向输出的第二视频帧序列；其中，所述时序可逆神经网络在所述第二预设分布上采样得到高频特征，并结合所述高频特征与所述视频编码码流确定所述第二视频帧序列。

2.根据权利要求1所述的视频编解码方法，其特征在于，所述时序可逆神经网络包括N层顺序相连的时序可逆单元，N为正整数；所述将所述第一视频帧序列输入时序可逆神经网络，得到所述时序可逆神经网络正向输出的与第一预设分布对应的视频编码码流，包括：

将所述第一视频帧序列中的N个视频帧分别输入N个时序可逆单元，获得每个所述时序可逆单元正向输出的与所述第一预设分布对应的编码码流；

将N个所述时序可逆单元正向输出的N段编码码流进行拼接，得到所述视频编码码流。

3.根据权利要求2所述的视频编解码方法，其特征在于，将所述第一视频帧序列中的N个视频帧分别输入N个时序可逆单元，获得每个所述时序可逆单元正向输出的与所述第一预设分布对应的编码码流，包括：

按照所述N层顺序相连的时序可逆单元的正向顺序，将所述视频帧序列中的第i个视频帧与第i-1个时序可逆单元正向输出的帧间编码特征输入第i个所述时序可逆单元，获得第i个所述时序可逆单元正向输出的与所述第一预设分布对应的第i个视频帧的编码码流，与前i个视频帧之间的帧间编码特征；

其中，1＜i≤N，所述正向顺序的第1个所述时序可逆单元输入的帧间编码特征为0。

4.根据权利要求1所述的视频编解码方法，其特征在于，所述方法还包括：

获取样本视频，并对所述样本视频进行下采样处理和编码处理，得到所述样本视频的样本编码码流；

将所述样本视频输入所述时序可逆神经网络，获得所述时序可逆神经网络正向输出的预测码流；

所述时序可逆神经网络在所述样本视频中的高频特征符合所述第一预设分布的情况下，输出所述预测码流；

确定所述预测码流与所述样本编码码流之间的第一损失；

将所述预测码流与所述第二预设分布输入所述时序可逆神经网络，获得所述时序可逆神经网络反向输出的预测视频；

确定所述预测视频与所述样本视频之间的第二损失；

基于所述第一损失与所述第二损失对所述时序可逆神经网络进行正向训练和反向训练。

5.根据权利要求2所述的视频编解码方法，其特征在于，所述将所述视频编码码流与第二预设分布输入至所述时序可逆神经网络中，得到所述时序可逆神经网络反向输出的第二视频帧序列，包括：

将所述视频编码码流按照预设大小划分为大小相同的N段编码码流；

将所述N段编码码流与所述第二预设分布分别输入N个所述时序可逆单元，得到每个所述时序可逆单元反向输出的解码帧；

将N个所述时序可逆单元反向输出的N个所述解码帧合并为第二视频帧序列。

6.根据权利要求5所述的视频编解码方法，其特征在于，所述将所述N段编码码流与所述第二预设分布分别输入N个所述时序可逆单元，得到每个所述时序可逆单元反向输出的解码帧，包括：

按照所述N层顺序相连的时序可逆单元的反向顺序，将第j段编码码流、所述第二预设分布与第j-1个所述时序可逆单元输出的帧间编码特征输入第j个所述时序可逆单元，获得第j段编码码流对应的第j个解码帧，以及前j段编码码流的帧间编码特征；

其中，1＜j≤N，所述反向顺序的第1个所述时序可逆单元输入的帧间编码特征为0。

7.一种视频编解码器，其特征在于，包括:

第一获取模块，用于获取待编码的第一视频帧序列；

第一编码模块，用于将所述第一视频帧序列输入时序可逆神经网络，得到所述时序可逆神经网络正向输出的与第一预设分布对应的视频编码码流；其中，所述第一预设分布包括所述第一视频帧序列中视频帧的高频特征的分布，所述视频编码码流包括所述第一视频帧序列中视频帧的低频特征的编码；

第一解码模块，用于在解码的情况下，将所述视频编码码流与第二预设分布输入至所述时序可逆神经网络中，得到所述时序可逆神经网络反向输出的第二视频帧序列；其中，所述时序可逆神经网络在所述第二预设分布上采样得到高频特征，并结合所述高频特征与所述视频编码码流确定所述视频帧序列。

8.根据权利要求7所述的视频编解码器，其特征在于，所述时序可逆神经网络包括N层顺序相连的时序可逆单元，N为正整数；所述第一编码模块，包括:

第一输入模块，用于将所述第一视频帧序列中的N个视频帧分别输入N个时序可逆单元，获得每个所述时序可逆单元正向输出的与所述第一预设分布对应的编码码流；

第一拼接模块，用于将N个所述时序可逆单元正向输出的N段编码码流进行拼接，得到所述视频编码码流。

9.根据权利要求8所述的视频编解码器，其特征在于，所述第一输入模块被配置为：

10.根据权利要求7所述的视频编解码器，其特征在于，所述视频编解码器还包括：

第二获取模块，用于获取样本视频，并对所述样本视频进行下采样处理和编码处理，得到所述样本视频的样本编码码流；

第一预测模块，用于将所述样本视频输入所述时序可逆神经网络，获得所述时序可逆神经网络正向输出的预测码流；

所述时序可逆神经网络在所述样本视频中的高频特征编码符合所述第一预设分布的情况下，输出所述预测码流；

第一确定模块，用于确定所述预测码流与所述样本编码码流之间的第一损失；

第二预测模块，用于将所述预测码流与所述第二预设分布输入所述时序可逆神经网络，获得所述时序可逆神经网络反向输出的预测视频；

第二确定模块，用于确定所述预测视频与所述样本视频之间的第二损失；

第一训练模块，用于基于所述第一损失与所述第二损失对所述时序可逆神经网络进行正向训练和反向训练。

11.根据权利要求8所述视频编解码器，其特征在于，所述第一解码模块，包括:

第一划分模块，用于将所述视频编码码流按照预设大小划分为大小相同的N段编码码流；

第二输入模块，用于将所述N段编码码流与所述第二预设分布分别输入N个所述时序可逆单元，得到每个所述时序可逆单元反向输出的解码帧；

第一合并模块，用于将N个所述时序可逆单元反向输出的N个所述解码帧合并为第二视频帧序列。

12.根据权利要求11所述的视频编解码器，其特征在于，所述第二输入模块被配置为：

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-6任一项所述的视频编解码方法。

14.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-6任一项所述的视频编解码方法。