CN114173137A

CN114173137A - 视频编码方法、装置及电子设备

Info

Publication number: CN114173137A
Application number: CN202010950418.4A
Authority: CN
Inventors: 成超; 蔡媛; 樊鸿飞; 汪贤; 鲁方波
Original assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Current assignee: Beijing Kingsoft Cloud Network Technology Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2022-03-11

Abstract

本发明提供了一种视频编码方法、装置及电子设备，从待编码视频中提取预设帧数的视频帧序列；将该视频帧序列输入到预先训练的视频处理模型中，得到处理后的视频帧序列；其中，该视频处理模型用于对该视频帧序列进行去噪处理，该去噪处理的过程包括通过对视频帧图像的像素点进行重排列的方式进行下采样；对处理后的该视频帧序列进行编码压缩处理，得到压缩后的视频码流。本发明实施例通过预先训练去噪网络模型，并在对视频码流编码前利用该模型对视频码流进行预处理，可以节约因噪声信号消耗的编码码率带宽；并且，该去噪网络模型通过对视频帧图像的像素点进行重排列的方式进行下采样，实现了下采样过程中图像信息无损，提升了解码后的视频画质。

Description

视频编码方法、装置及电子设备

技术领域

本发明涉及视频处理技术领域，尤其是涉及一种视频编码方法、装置及电子设备。

背景技术

视频信息的传播往往需要一定的环节流程，例如：视频采集—编码—存储分发—解码—播放流程，其中，在编码过程中，编码码流中有一部分是被噪声信号所消耗，而噪声信号本身并不能给画面提供更多的信息，却会破坏画面的连贯性和语义完整性，且浪费编码码率带宽。

目前，对视频图像的预处理方法往往是聚焦于减弱视频画面中的噪声，从而达到码率节省的目的。其中，图像噪声可以分为很多类型，如高斯白噪声、压缩噪声(如振铃、块状噪声)等。而在真实自然图像里，噪声类型非常复杂，传统的图像处理去噪算法往往只针对于某种特定的噪声类型，使用条件较为理想化，去噪方式单一，去噪效果不佳，导致视频图像中的噪声信号消耗较多的编码码率。

整体而言，现有视频编码方式，因在编码前对视频图像的预处理中去噪效果较差，导致后期在对视频进行编码时，噪声信号浪费较多的编码码率带宽。

发明内容

有鉴于此，本发明的目的在于提供一种视频编码方法、装置及电子设备，可以提升编码前对视频图像的预处理中的去噪效果，进而节约因噪声信号消耗的编码码率带宽。

第一方面，本发明实施例提供了一种视频编码方法，包括：从待编码视频中提取预设帧数的视频帧序列；将该视频帧序列输入到预先训练的视频处理模型中，得到处理后的视频帧序列；其中，该视频处理模型用于对该视频帧序列进行去噪处理，在对该视频帧序列进行去噪处理时，通过对该视频帧序列中视频帧图像的像素点进行重排列的方式进行下采样；对处理后的该视频帧序列进行编码压缩处理，得到压缩后的视频码流。

在本发明较佳的实施例中，上述视频处理模型通过下述方式训练得到：获取预设的第一样本集；其中，该第一样本集包括高清视频帧序列，以及与该高清视频帧序列对应成对的低清视频帧序列，该低清视频帧序列中的低清视频帧由该高清视频帧序列中对应的高清视频帧，经过添加视频编码噪声后得到；将该第一样本集中的低清视频帧序列作为输入，将与该低清视频帧对应的高清视频帧序列作为期望输出，训练预设的神经网络模型，得到该视频处理模型。

在本发明较佳的实施例中，上述第一样本集中的视频帧图像对通过下述方式得到：获取原始图像；通过复制该原始图像，得到包含预设第一数量的该原始图像的图像序列；将该图像序列中除指定图像之外的图像进行图像变形处理；将图像变形处理后的该图像序列先后进行视频编码处理和视频解码处理，得到视频帧序列；其中，该视频帧序列中的每帧视频帧均包含视频编码噪声；从该视频帧序列中确定与该指定图像对应的目标视频帧；根据该指定图像和该目标视频帧得到视频帧图像对。

在本发明较佳的实施例中，上述根据该指定图像和该目标视频帧得到视频帧图像对的步骤，包括：将该指定图像确定为高清视频帧，将该目标视频帧确定为与该高清视频帧对应的低清视频帧，得到视频帧图像对。

在本发明较佳的实施例中，上述根据该指定图像和该目标视频帧得到视频帧图像对的步骤，包括：对该目标视频帧进行添加图像噪声的加噪处理；将该指定图像确定为高清视频帧，将加噪处理后的目标视频帧确定为与该高清视频帧对应的低清视频帧，得到视频帧图像对。

在本发明较佳的实施例中，上述对该目标视频帧进行添加图像噪声的加噪处理的步骤，包括：对该目标视频帧添加预设强度的高斯噪声或者JPEG压缩噪声。

在本发明较佳的实施例中，上述神经网络模型包括相同层数的下采样层和上采样层；该下采样层通过下述方式进行下采样处理：获取输入图像的第一特征矩阵(C，M，N)；其中，C为该输入图像的数量，M为该输入图像的像素点行数，N为该输入图像的像素点列数；根据预设下采样倍数S，对该第一特征矩阵(C，M，N)进行矩阵重划分操作，得到第一中间矩阵(C，M/S，S，N/S，S)；对该第一中间矩阵进行矩阵转置操作，得到第二中间矩阵(C，S，S，M/S，N/S)；对该第二中间矩阵进行矩阵重划分操作，得到该输入图像的第二特征矩阵(C*S*S，M/S，N/S)；其中，该第二特征矩阵(C*S*S，M/S，N/S)用于表示该输入图像的C*S*S个特征图。

在本发明较佳的实施例中，上述神经网络模型为预先训练的视频超分模型，该视频超分模型通过下述方式训练得到：获取预设的第二样本集，其中，该第二样本集包括样本高清图像，以及与该样本高清图像对应成对的样本低清图像；以该第二样本集中的样本低清图像作为输入，以与该样本低清图像对应的样本高清图像作为期望输出，训练预设的第二初始网络模型，得到该视频超分模型。

在本发明较佳的实施例中，上述第二样本集中的样本图像对通过下述方式获得：获取预设的高清图像；对该高清图像进行第一倍数的下采样处理，得到下采样图像；对该下采样图像进行该第一倍数的上采样处理，得到上采样图像；将该上采样图像确定为与该高清图像对应成对的低清图像，得到样本图像对。

在本发明较佳的实施例中，在上述对处理后的该视频帧序列进行编码压缩处理，得到压缩后的视频码流的步骤之前，该方法还包括：将该视频处理模型输出的视频帧序列，输入到预先训练的图像锐化模型，得到处理后的视频帧序列；其中，该图像锐化模型用于对该视频帧序列进行图像锐化处理。

第二方面，本发明实施例还提供了一种视频编码装置，包括：视频帧序列提取模块，用于从待编码视频中提取预设帧数的视频帧序列；去噪处理模块，用于将该视频帧序列输入到预先训练的视频处理模型中，得到处理后的视频帧序列；其中，该视频处理模型用于对该视频帧序列进行去噪处理，在对该视频帧序列进行去噪处理时，通过对该视频帧序列中视频帧图像的像素点进行重排列的方式进行下采样；编码压缩模块，用于对处理后的该视频帧序列进行编码压缩处理，得到压缩后的视频码流。

第三方面，本发明实施例还提供了一种电子设备，该电子设备包括处理器和存储器，该存储器存储有能够被该处理器执行的计算机可执行指令，该处理器执行该计算机可执行指令以实现上述视频编码方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述视频编码方法。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种视频编码方法、装置及电子设备，从待编码视频中提取预设帧数的视频帧序列；将该视频帧序列输入到预先训练的视频处理模型中，得到处理后的视频帧序列；其中，该视频处理模型用于对该视频帧序列进行去噪处理，该去噪处理的过程包括通过对视频帧图像的像素点进行重排列的方式进行下采样；对处理后的该视频帧序列进行编码压缩处理，得到压缩后的视频码流。该方式中，通过预先训练去噪网络模型，并在对视频码流编码前利用该去噪网络模型对视频码流进行预处理，可以节约因噪声信号消耗的编码码率带宽；并且，该去噪网络模型通过对视频帧图像的像素点进行重排列的方式进行下采样，保证了下采样过程中图像信息的无损，从而使提取到的图像特征具备更好的特征表达及处理能力，有助于提升视频图像的去噪效果，并提升解码后的视频画质。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种传统视频信息传播的流程示意图；

图2为本发明实施例提供的一种视频编码方法的流程示意图；

图3为本发明实施例提供的一种沙漏型采样结构的应用示意图；

图4为本发明实施例提供的一种结合本申请视频编码方法的视频信息传播的流程示意图；

图5为本发明实施例提供的一种可避免光晕效应的图像锐化的效果示意图；

图6为本发明实施例提供的一种训练视频处理模型的流程示意图；

图7为本发明实施例提供的一种对图像进行下采样的流程示意图；

图8为本发明实施例提供的一种对视频帧图像进行下采样的原理解释示意图；

图9为本发明实施例提供的一种视频编码装置的结构示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

图标：91-视频帧序列提取模块；92-去噪处理模块；93-编码压缩模块；101-处理器；102-存储器；103-总线；104-通信接口。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在实际操作中，视频信息的传播往往需要一定的环节流程，参见图1，所示为一种传统视频信息传播的流程示意图，在图1示出的实施方式中，该视频信息的传播包括下述环节：视频采集—编码—存储分发—解码—播放流程。

具体地，在采集端，相机通过光学与电子元件拍摄捕获到画面，并将它们做轻微的处理存储下来，成为原始视频YUV码流。然后，由于原始码流往往体积较大，不利于存储与网络分发，于是使用一系列视频编码技术对其进行编码压缩，从而在不明显降低画质的条件下大大降低视频码率；其中，视频文件具有压缩率高、体积小的特点，利于存储及网络传输，目前在网络上传输的视频的码率基本都是经过压缩的。视频到达播放端后，由编码器配套的解码器对视频进行解码，将压缩过的视频信息还原成能够被播放器播放的视频画面，从而呈现在观众眼前。此外，一段视频文件会因为不同的需求，可能在存储分发过程中经过二次或多次的编码。

目前，互联网对于存储分发具有相当高的要求，原因在于存储设备及网络带宽需要消耗大量资金，成为了互联网内容运营业务的主要成本构成部分之一。因此，当下迫切需要一些先进的编码技术，使得视频画面能够在维持其画面质量的条件下尽可能的降低编码码率。而为了实现保持画质降低码率的目的，当前有两种技术方向，概述如下：

其中一种方式是更新编码器。这里，编码器是码率压缩最为重要的技术手段，然而也是技术难度最高、研发周期最长的方法。并且，编码器是标准化的，需要与解码器形成一套统一的对偶流程才能投入到市面上使用。目前世界范围内流行的编码器有h.264、h.265，以及下一代编码器av1等。但是，自主研发编码器难度极高，且面临推广的压力，性价比很低。

另一种方式是进行图像处理。由于人眼神经对于图像的视觉感官是不一致的，也就是说，人眼对于图像中的跳变区域较为敏感，而对于平滑过渡的区域则相对不敏感。这里，上述跳变区域即在单位空间内像素值差距较大的地方，比如纹理、边缘、噪声区域等，或者在单位时间内前后差异较大的地方，比如运动、镜头切换等。这些区域占据了视频编码码流中的绝大部分码率，而在这些码率中，又有相当一部分是被噪声信号所消耗的。噪声信号本身并不能给画面提供更多的信息，反而会破坏画面的连贯性和语义完整性，且浪费编码码率带宽。然而，现有图像处理的方式极大依赖于传统图像处理方法的处理性能，而这类方法往往都不尽如人意，效果有限。

这样，考虑到现有视频编码方式，因在编码前对视频图像的预处理中去噪效果较差，导致后期在对视频进行编码时，噪声信号浪费较多的编码码率带宽的问题，本发明实施例提供的一种视频编码方法、装置及电子设备，该技术可以应用于对各类视频进行传输的场景当中。为便于对本实施例进行理解，首先对本发明实施例所公开的一种视频编码方法进行详细介绍。

参见图2，其为一种视频编码方法的流程示意图，由图2可见，该方法包括下述步骤：

步骤S202：从待编码视频中提取预设帧数的视频帧序列。

这里，待编码视频可以是由视频采集端采集输出的视频，也可以是旧有视频，并且，其可以是任意格式的视频，在此不作限定。

其中，上述预设帧数可以根据预先训练好的视频处理模型所输入视频片段的帧数确定。例如，假设该视频处理模型所输入的视频片段有5帧，则上述视频帧序列所包括的视频帧的帧数为5。这样，在利用视频处理模型对待编码视频进行去噪处理时，需要将该待编码视频通过抽取视频帧的方式，得到多个视频帧序列，进而以视频帧序列为对象进行处理，最终得到去噪处理后的视频。

步骤S204：将该视频帧序列输入到预先训练的视频处理模型中，得到处理后的视频帧序列；其中，该视频处理模型用于对该视频帧序列进行去噪处理，在对该视频帧序列进行去噪处理时，通过对该视频帧序列中视频帧图像的像素点进行重排列的方式进行下采样。

在提取视频帧序列之后，通过预先训练好的视频处理模型对该视频帧序列进行去噪处理。其中，该视频处理模型是一个深度学习模型，在其中一种可能的实施方式中，该视频处理模型具有若干个能够对图像进行缩小的下采样层结构，以及同等数量的能够对图像进行放大的上采样结构，也即，该视频处理模型的上采样结构和下采样结构构成一种沙漏型的网络结构(如图3所示)，这种网络结构能够在对图像进行处理的过程中，提取到图像的高维特征，具备更佳的特征表达及处理能力。

在本实施例中，该视频预处理模型在对视频帧序列进行去噪处理时，通过对该视频帧序列中视频帧图像的像素点进行重排列的方式进行下采样。在其中一种可能的实施方式中，可以通过reshape(矩阵重划分)操作对目标图像中的像素点进行提取并重新排列，从而实现图像的下采样。这里，reshape操作是基于reshape函数实现的，其中，reshape函数是可以将指定的矩阵变换成特定维数矩阵的一种函数，且矩阵中元素个数不变，reshape操作可以重新调整矩阵的行数、列数、维数。

相比于传统的下采样方式，传统下采样层在抽象化上层特征的同时，通常会丢失掉部分信息，这对于需要保持图像画质而言是非常不利的。而本申请中视频预处理模型的下采样方式，只需通过reshape(矩阵重划分)操作对目标图像中的像素点进行提取并重新排列，即可实现图像的下采样，一方面该方式不会丢弃图像信息，从而实现信息无损的下采样；另一方面，该方式不涉及计算的过程，提取像素点并重新排列并不占用运算资源，所以可以大大减少缩小目标图像尺寸的时间，并大大加快对图像进行去噪的速度。

这样，经过视频处理模型的处理，得到了去噪后的视频帧序列。

步骤S206：对处理后的该视频帧序列进行编码压缩处理，得到压缩后的视频码流。

这里，对去噪后的视频帧序列进行编码压缩的方式可以采用传统的编码方式，例如，H.261、H.263、H.264等编码方式。这样，通过对去噪后的视频帧序列进行编码压缩，即可得到压缩后的视频码流。

参见图4，其为一种结合本申请视频编码方法的视频信息传播的流程示意图，其中，在该视频信息传播过程中，在对视频进行编码压缩之前，预先对该待编码视频进行了去噪处理，通过深度学习处理的方式，以预先训练好的视频处理模型对待编码视频进行去噪，有效消除了视频中的噪声，从而可以节约因噪声信号消耗的编码码率带宽。经试验验证，本实施例提供的视频编码方式，能够在大大降低原始视频流码率的基础上提升画质，其中，使用H.264编码器并通过大规模真实数据进行基准测试，测试结果表明在略微提升视频画面质量的前提下节省了65.5％的编码码率。

在另一种可能的实施方式中，在上述对处理后的该视频帧序列进行编码压缩处理，得到压缩后的视频码流的步骤之前，还可以将该视频处理模型输出的视频帧序列，输入到预先训练的图像锐化模型，得到处理后的视频帧序列，然后再对得到的视频帧序列进行编码压缩处理。其中，该图像锐化模型用于对该视频帧序列进行图像锐化处理。

这里，考虑到一般的锐化方法容易在边缘处产生人眼不易觉察的光晕，而有时候这种光晕在经过编码器编解码后会被放大，人眼看上去就如同在边缘处蒙上了一层白边，为了抑制这种效应，本实施例中的图像锐化模型，通过深度学习，实现对输入图像进行区域分割，以获得人眼感兴趣的区域。

参见图5，其为一种可避免光晕效应的图像锐化的效果示意图，如图4中所示，图中明暗的程度代表了人眼对该区域的敏感程度，基于此可以得到人眼注意力mask，如图5中最右侧白色区域。这样，在人眼注意力以内的部分可使用一系列增强算法进行额外增强，而对区域外不受保护的地方，则可以在前述视频处理模型去噪处理的基础上使用其它滤波手段来进行去噪抑制。

这样，经过该图像锐化模型的处理，可以进一步抑制视频序列的噪声。这里，除了以上通过深度学习模型来抑制噪声、增强细节的方式之外，还可以配套一系列基于CPU/GPU计算的传统图像处理算法和深度学习算法，形成一套图像去噪增强解决方案，包括但不限于：图像锐化、去模糊、去抖动、去噪、对比度增强、HDR、人脸检测等，以在对视频进行编码压缩前进行去噪增强处理，提升去噪效果。

本发明实施例提供的一种视频编码方法，从待编码视频中提取预设帧数的视频帧序列；将该视频帧序列输入到预先训练的视频处理模型中，得到处理后的视频帧序列；其中，该视频处理模型用于对该视频帧序列进行去噪处理，该去噪处理的过程包括通过对视频帧图像的像素点进行重排列的方式进行下采样；对处理后的该视频帧序列进行编码压缩处理，得到压缩后的视频码流。该方式中，通过预先训练去噪网络模型，并在对视频码流编码前利用该去噪网络模型对视频码流进行预处理，可以节约因噪声信号消耗的编码码率带宽；并且，该去噪网络模型通过对视频帧图像的像素点进行重排列的方式进行下采样，保证了下采样过程中图像信息的无损，从而使提取到的图像特征具备更好的特征表达及处理能力，有助于提升视频图像的去噪效果，并提升解码后的视频画质。

在图2所示视频编码方法的基础上，本实施例针对上述视频处理模型的训练方式进行了详细描述。如图6所示，其为一种训练视频处理模型的流程示意图，由图6可见，该方式包括下述步骤：

步骤S602：获取预设的第一样本集；其中，该第一样本集包括高清视频帧序列，以及与该高清视频帧序列对应成对的低清视频帧序列，该低清视频帧序列中的低清视频帧由该高清视频帧序列中对应的高清视频帧，经过添加视频编码噪声后得到。

这里，该第一样本集用于训练预设的神经网络模型，得到所需的视频处理模型。由于在实际操作中，高清视频较难获得，而高清图像较容易获得，因此，本实施例提供了一种通过高清图像处理得到高清视频帧序列，进而根据该高清视频帧序列得到与之对应成对的低清视频帧序列的方式。

在其中一种可能的实施方式中，上述第一样本集中的视频帧图像对通过下述步骤11-16得到：

(11)获取原始图像。

这里，该原始图像可以是高清图像，也可以是普通图像，其中优选高清图像。

(12)通过复制该原始图像，得到包含预设第一数量的该原始图像的图像序列。

例如，对于原始图像A，通过复制该图像A共5次，则由复制得到的图像和该原始图像构成的图像序列有6张图像。

(13)将该图像序列中除指定图像之外的图像进行图像变形处理。

这里，该图像序列中的每一张图像可以看做是相同的，指定图像可以是该图像序列中的任一张图像。仍以上述例子说明，对于上述图像序列，假设指定图像为原始图像A，则将原始图像A之外的其它5张图像均进行图像变形处理，经变形处理之后，该原始图像A与图像序列中其它相邻的图像之间即存在差异像素点，从而使得该图像序列实现模拟原始图像中的物体移动或变形等动作。这里需要说明的是，一段视频通常展示的是一段有动作的画面，而非一段一直静止的画面。

(14)将图像变形处理后的该图像序列先后进行视频编码处理和视频解码处理，得到视频帧序列；其中，该视频帧序列中的每帧视频帧均包含视频编码噪声。

视频编码是一种视频压缩技术，由于视频编码处理的过程中会对视频进行压缩，因此视频编码处理的过程中会产生视频编码噪声，从而在对编码处理后的视频再进行解码得到视频帧序列之后，该视频帧序列中的每帧视频帧均包含视频编码噪声。

(15)从该视频帧序列中确定与该指定图像对应的目标视频帧。

这里，目标视频帧是与指定图像经过添加视频编码噪声后对应的视频帧，也即，对于指定图像A，当经过前述步骤的视频编码和解码处理之后，指定图像A对应的图像A’，即是目标视频帧。

(16)根据该指定图像和该目标视频帧得到视频帧图像对。

在其中一种可能的实施方式中，可以将该指定图像确定为高清视频帧，将该目标视频帧确定为与该高清视频帧对应的低清视频帧，得到视频帧图像对。对于上述例子，也即，图像A经过编码和解码处理之后对应的图像A’，其由于增加了编码噪声因而清晰度降低，这里，图像A相比图像A’清晰度更高，二者构成高清视频帧-低清视频帧的视频帧图像对。

在另一种可能的实施方式中，还可以对该目标视频帧进行添加图像噪声的加噪处理；例如，对该目标视频帧添加预设强度的高斯噪声或者JPEG压缩噪声，从而使得该低清图像更加低清；然后，将该指定图像确定为高清视频帧，将加噪处理后的目标视频帧确定为与该高清视频帧对应的低清视频帧，从而得到视频帧图像对。

在另一种可能的实施方式中，还可以对组成视频图像对中的高清视频帧进行图像锐化处理，例如，通过使用前述实施例中的图像锐化模型，对该高清视频帧进行可避免光晕效应的图像锐化处理，从而可以进一步提升该高清视频帧的清晰度。

这样，通过上述方式，可以获得多个视频帧图像对，进而，以这些视频帧图像对中的高清视频帧构建高清视频帧序列，并且，以这些视频帧图像对中的低清视频帧构建与该高清视频帧序列对应成对的低清视频帧序列。

步骤S604：将该第一样本集中的低清视频帧序列作为输入，将与该低清视频帧对应的高清视频帧序列作为期望输出，训练预设的神经网络模型，得到该视频处理模型。

这里，以前述步骤获得的高-低清视频帧序列对训练预设的神经网络模型，直至预设的终止条件，例如，训练达到预设时间，或者，迭代达到预设次数等等，从而得到所需视频处理模型，其中，该视频处理模型可以对输入的视频帧序列进行去噪处理。

在实际操作中，为了增强视频处理模型对图像的处理能力，还可以预先对上述神经网络模型进行预训练，例如，上述神经网络模型可以为预先训练的视频超分模型。

在其中一种可能的实施方式中，该视频超分模型可以通过下述步骤21-22训练得到：

(21)获取预设的第二样本集，其中，该第二样本集包括样本高清图像，以及与该样本高清图像对应成对的样本低清图像。

这里，该第二样本集中的样本图像对可以通过下述方式获得：

首先，获取预设的高清图像，并对该高清图像进行第一倍数(例如，2倍)的下采样处理(也即图像的长宽各缩小1/2)，得到下采样图像；然后，对该下采样图像进行该第一倍数(例如，2倍)的上采样处理，得到上采样图像；接着，将该上采样图像确定为与该高清图像对应成对的低清图像，从而得到样本图像对。

这里，对于高清图像B先进行下采样再进行上采样处理之后，虽然图像B的尺寸没有改变，但是其已经丢失掉了很多信息，从而变为了低清图像。

(22)以该第二样本集中的样本低清图像作为输入，以与该样本低清图像对应的样本高清图像作为期望输出，训练预设的第二初始网络模型，得到该视频超分模型。

这里，将上述样本低清图像输入到第二初始网络模型中，令输出图像逼近高清图像，以此来迭代学习网络参数；经过大量迭代，直至该网络模型无法学习到更多图像细节特征，即可终止学习迭代，从而得到具有超分辨率能力的视频超分模型，并以该视频超分模型作为训练上述视频处理模型的预训练模型。

本实施例详细介绍了前述视频编码方法中视频处理模型的训练方式，基于上述方式训练得到的视频处理模型，可以对编码压缩前的视频进行去噪处理，在压制噪声的同时还可以提升视频画质，同时大大降低了编码码率的消耗。

在图2示出的视频编码方法的基础上，本实施例重点描述了前述视频处理模型的下采样的具体实现过程。在本实施例中，该视频处理模型基于预设的神经网络模型训练得到，且该神经网络模型包括相同层数的下采样层和上采样层。

参见图7，其为一种对图像进行下采样的流程示意图，其中，该下采样的方式包括下述步骤：

步骤S702：获取输入图像的第一特征矩阵(C，M，N)；其中，C为该输入图像的数量，M为该输入图像的像素点行数，N为该输入图像的像素点列数。

这里，该第一特征矩阵(C，M，N)为三维矩阵。其中，输入图像的数量C可以为1或大于1的任意整数，若输入图像的数量C大于1，则各输入图像的像素点行数M相等，像素点列数N也相等。

步骤S704：根据预设下采样倍数S，对该第一特征矩阵(C，M，N)进行矩阵重划分操作，得到第一中间矩阵(C，M/S，S，N/S，S)。

例如，若下采样倍数S＝8，则可以根据该下采样倍数8对输入矩阵(C，M，N)进行reshape操作后，得到的第一中间矩阵为(C，M/8，8，N/8，8)。

步骤S706：对该第一中间矩阵进行矩阵转置操作，得到第二中间矩阵(C，S，S，M/S，N/S)。

这里，矩阵转置是矩阵的一种运算，通过矩阵转置将第一中间矩阵转置为第二中间矩阵，具体过程可以为：若第一中间矩阵为(C，M/S，S，N/S，S)，将第一中间矩阵的第3维转置到第2维，将第5维转置到第3维，第2维转置到第4维，第4维转置到第5维，第1维不变，通过上述过程，电子设备可以得到第二中间矩阵(C，S，S，M/S，N/S)。

步骤S708：对该第二中间矩阵进行矩阵重划分操作，得到该输入图像的第二特征矩阵(C*S*S，M/S，N/S)；其中，该第二特征矩阵(C*S*S，M/S，N/S)用于表示该输入图像的C*S*S个特征图。

这里，参见图8，为一种对视频帧图像进行下采样的原理解释示意图，其中，左侧的图像表示目标图像的特征矩阵(1，16，16)，右侧的4个图像表示4个特征图。若预设下采样倍数为2，则执行步骤S702～S708的过程如下：以左上角的像素点为起点为例，每隔预设下采样倍数减1个像素点(即每隔2-1＝1个像素点)提取一个像素点，将提取出的像素点组成一张特征图。以此类推，直至提取出所有的像素点为止，得到4个特征图，特征图的数量为预设下采样倍数的平方，在图8中，第一特征图的数量＝2^2＝4，最终效果如图3右侧的4个第一特征图。

本实施例提供了前述视频编码方法中视频处理模型的下采样方式，该方式可以实现图像信息无损的下采样，并且，该方式中提取像素点并对其重新排列并不占用运算资源，不涉及计算的过程，因而可以大大减少缩小目标图像尺寸的时间，并大大加快对图像进行去噪的速度。基于该视频处理模型可以对编码压缩前的视频进行去噪处理，在压制噪声的同时还可以提升视频画质，而且可以进一步提高去噪处理的效率。

对应于图2中所示的视频编码方法，本发明实施例还提供了一种视频编码装置，如图9所示，其为一种视频编码装置的结构示意图，由图9可见，该装置包括依次相连的视频帧序列提取模块91、去噪处理模块92和编码压缩模块93，其中，各个模块的功能如下：

视频帧序列提取模块91，用于从待编码视频中提取预设帧数的视频帧序列；

去噪处理模块92，用于将该视频帧序列输入到预先训练的视频处理模型中，得到处理后的视频帧序列；其中，该视频处理模型用于对该视频帧序列进行去噪处理，在对该视频帧序列进行去噪处理时，通过对该视频帧序列中视频帧图像的像素点进行重排列的方式进行下采样；

编码压缩模块93，用于对处理后的该视频帧序列进行编码压缩处理，得到压缩后的视频码流。

本发明实施例提供的一种视频编码装置，从待编码视频中提取预设帧数的视频帧序列；将该视频帧序列输入到预先训练的视频处理模型中，得到处理后的视频帧序列；其中，该视频处理模型用于对该视频帧序列进行去噪处理，该去噪处理的过程包括通过对视频帧图像的像素点进行重排列的方式进行下采样；对处理后的该视频帧序列进行编码压缩处理，得到压缩后的视频码流。该装置中，通过预先训练去噪网络模型，并在对视频码流编码前利用该去噪网络模型对视频码流进行预处理，可以节约因噪声信号消耗的编码码率带宽；并且，该去噪网络模型通过对视频帧图像的像素点进行重排列的方式进行下采样，保证了下采样过程中图像信息的无损，从而使提取到的图像特征具备更好的特征表达及处理能力，有助于提升视频图像的去噪效果，并提升解码后的视频画质。

在其中一种可能的实施方式中，上述视频处理模型通过下述方式训练得到：获取预设的第一样本集；其中，该第一样本集包括高清视频帧序列，以及与该高清视频帧序列对应成对的低清视频帧序列，该低清视频帧序列中的低清视频帧由该高清视频帧序列中对应的高清视频帧，经过添加视频编码噪声后得到；将该第一样本集中的低清视频帧序列作为输入，将与该低清视频帧对应的高清视频帧序列作为期望输出，训练预设的神经网络模型，得到该视频处理模型。

在另一种可能的实施方式中，上述第一样本集中的视频帧图像对通过下述方式得到：获取原始图像；通过复制该原始图像，得到包含预设第一数量的该原始图像的图像序列；将该图像序列中除指定图像之外的图像进行图像变形处理；将图像变形处理后的该图像序列先后进行视频编码处理和视频解码处理，得到视频帧序列；其中，该视频帧序列中的每帧视频帧均包含视频编码噪声；从该视频帧序列中确定与该指定图像对应的目标视频帧；根据该指定图像和该目标视频帧得到视频帧图像对。

在另一种可能的实施方式中，上述根据该指定图像和该目标视频帧得到视频帧图像对的步骤，包括：将该指定图像确定为高清视频帧，将该目标视频帧确定为与该高清视频帧对应的低清视频帧，得到视频帧图像对。

在另一种可能的实施方式中，上述根据该指定图像和该目标视频帧得到视频帧图像对的步骤，包括：对该目标视频帧进行添加图像噪声的加噪处理；将该指定图像确定为高清视频帧，将加噪处理后的目标视频帧确定为与该高清视频帧对应的低清视频帧，得到视频帧图像对。

在另一种可能的实施方式中，上述对该目标视频帧进行添加图像噪声的加噪处理的步骤，包括：对该目标视频帧添加预设强度的高斯噪声或者JPEG压缩噪声。

在另一种可能的实施方式中，上述神经网络模型包括相同层数的下采样层和上采样层；该下采样层通过下述方式进行下采样处理：获取输入图像的第一特征矩阵(C，M，N)；其中，C为该输入图像的数量，M为该输入图像的像素点行数，N为该输入图像的像素点列数；根据预设下采样倍数S，对该第一特征矩阵(C，M，N)进行矩阵重划分操作，得到第一中间矩阵(C，M/S，S，N/S，S)；对该第一中间矩阵进行矩阵转置操作，得到第二中间矩阵(C，S，S，M/S，N/S)；对该第二中间矩阵进行矩阵重划分操作，得到该输入图像的第二特征矩阵(C*S*S，M/S，N/S)；其中，该第二特征矩阵(C*S*S，M/S，N/S)用于表示该输入图像的C*S*S个特征图。

在另一种可能的实施方式中，上述神经网络模型为预先训练的视频超分模型，该视频超分模型通过下述方式训练得到：获取预设的第二样本集，其中，该第二样本集包括样本高清图像，以及与该样本高清图像对应成对的样本低清图像；以该第二样本集中的样本低清图像作为输入，以与该样本低清图像对应的样本高清图像作为期望输出，训练预设的第二初始网络模型，得到该视频超分模型。

在另一种可能的实施方式中，上述第二样本集中的样本图像对通过下述方式获得：获取预设的高清图像；对该高清图像进行第一倍数的下采样处理，得到下采样图像；对该下采样图像进行该第一倍数的上采样处理，得到上采样图像；将该上采样图像确定为与该高清图像对应成对的低清图像，得到样本图像对。

在另一种可能的实施方式中，该装置还包括图像锐化处理模块，用于将该视频处理模型输出的视频帧序列，输入到预先训练的图像锐化模型，得到处理后的视频帧序列；其中，该图像锐化模型用于对该视频帧序列进行图像锐化处理。

本发明实施例提供的视频编码装置，其实现原理及产生的技术效果和前述视频编码方法实施例相同，为简要描述，视频编码装置的实施例部分未提及之处，可参考前述视频编码方法实施例中相应内容。

本发明实施例还提供了一种电子设备，如图10所示，为该电子设备的结构示意图，其中，该电子设备包括处理器101和存储器102，该存储器102存储有能够被该处理器101执行的机器可执行指令，该处理器101执行该机器可执行指令以实现上述视频编码方法。

在图10示出的实施方式中，该电子设备还包括总线103和通信接口104，其中，处理器101、通信接口104和存储器102通过总线连接。

其中，存储器102可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口104(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器101可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器101中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器101可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器101读取存储器102中的信息，结合其硬件完成前述实施例的视频编码方法的步骤。

本发明实施例还提供了一种机器可读存储介质，该机器可读存储介质存储有机器可执行指令，该机器可执行指令在被处理器调用和执行时，该机器可执行指令促使处理器实现上述视频编码方法，具体实现可参见前述方法实施例，在此不再赘述。

本发明实施例所提供的视频编码方法、视频编码装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的视频编码方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频编码方法，其特征在于，包括：

从待编码视频中提取预设帧数的视频帧序列；

将所述视频帧序列输入到预先训练的视频处理模型中，得到处理后的视频帧序列；其中，所述视频处理模型用于对所述视频帧序列进行去噪处理，在对所述视频帧序列进行去噪处理时，通过对所述视频帧序列中视频帧图像的像素点进行重排列的方式进行下采样；

对处理后的所述视频帧序列进行编码压缩处理，得到压缩后的视频码流。

2.根据权利要求1所述的视频编码方法，其特征在于，所述视频处理模型通过下述方式训练得到：

获取预设的第一样本集；其中，所述第一样本集包括高清视频帧序列，以及与所述高清视频帧序列对应成对的低清视频帧序列，所述低清视频帧序列中的低清视频帧由所述高清视频帧序列中对应的高清视频帧，经过添加视频编码噪声后得到；

将所述第一样本集中的低清视频帧序列作为输入，将与所述低清视频帧对应的高清视频帧序列作为期望输出，训练预设的神经网络模型，得到所述视频处理模型。

3.根据权利要求2所述的视频编码方法，其特征在于，所述第一样本集中的视频帧图像对通过下述方式得到：

获取原始图像；

通过复制所述原始图像，得到包含预设第一数量的所述原始图像的图像序列；

将所述图像序列中除指定图像之外的图像进行图像变形处理；

将图像变形处理后的所述图像序列先后进行视频编码处理和视频解码处理，得到视频帧序列；其中，所述视频帧序列中的每帧视频帧均包含视频编码噪声；

从所述视频帧序列中确定与所述指定图像对应的目标视频帧；

根据所述指定图像和所述目标视频帧得到视频帧图像对。

4.根据权利要求3所述的视频编码方法，其特征在于，所述根据所述指定图像和所述目标视频帧得到视频帧图像对的步骤，包括：

将所述指定图像确定为高清视频帧，将所述目标视频帧确定为与所述高清视频帧对应的低清视频帧，得到视频帧图像对。

5.根据权利要求3所述的视频编码方法，其特征在于，所述根据所述指定图像和所述目标视频帧得到视频帧图像对的步骤，包括：

对所述目标视频帧进行添加图像噪声的加噪处理；

将所述指定图像确定为高清视频帧，将加噪处理后的目标视频帧确定为与所述高清视频帧对应的低清视频帧，得到视频帧图像对。

6.根据权利要求5所述的视频编码方法，其特征在于，所述对所述目标视频帧进行添加图像噪声的加噪处理的步骤，包括：

对所述目标视频帧添加预设强度的高斯噪声或者JPEG压缩噪声。

7.根据权利要求2所述的视频编码方法，其特征在于，所述神经网络模型包括相同层数的下采样层和上采样层；所述下采样层通过下述方式进行下采样处理：

获取输入图像的第一特征矩阵(C，M，N)；其中，C为所述输入图像的数量，M为所述输入图像的像素点行数，N为所述输入图像的像素点列数；

根据预设下采样倍数S，对所述第一特征矩阵(C，M，N)进行矩阵重划分操作，得到第一中间矩阵(C，M/S，S，N/S，S)；

对所述第一中间矩阵进行矩阵转置操作，得到第二中间矩阵(C，S，S，M/S，N/S)；

对所述第二中间矩阵进行矩阵重划分操作，得到所述输入图像的第二特征矩阵(C*S*S，M/S，N/S)；其中，所述第二特征矩阵(C*S*S，M/S，N/S)用于表示所述输入图像的C*S*S个特征图。

8.根据权利要求2所述的视频编码方法，其特征在于，所述神经网络模型为预先训练的视频超分模型，所述视频超分模型通过下述方式训练得到：

获取预设的第二样本集，其中，所述第二样本集包括样本高清图像，以及与所述样本高清图像对应成对的样本低清图像；

以所述第二样本集中的样本低清图像作为输入，以与所述样本低清图像对应的样本高清图像作为期望输出，训练预设的第二初始网络模型，得到所述视频超分模型。

9.根据权利要求8所述的视频编码方法，其特征在于，所述第二样本集中的样本图像对通过下述方式获得：

获取预设的高清图像；

对所述高清图像进行第一倍数的下采样处理，得到下采样图像；

对所述下采样图像进行所述第一倍数的上采样处理，得到上采样图像；

将所述上采样图像确定为与所述高清图像对应成对的低清图像，得到样本图像对。

10.根据权利要求1所述的视频编码方法，其特征在于，在所述对处理后的所述视频帧序列进行编码压缩处理，得到压缩后的视频码流的步骤之前，所述方法还包括：

将所述视频处理模型输出的视频帧序列，输入到预先训练的图像锐化模型，得到处理后的视频帧序列；其中，所述图像锐化模型用于对所述视频帧序列进行图像锐化处理。

11.一种视频编码装置，其特征在于，包括：

视频帧序列提取模块，用于从待编码视频中提取预设帧数的视频帧序列；

去噪处理模块，用于将所述视频帧序列输入到预先训练的视频处理模型中，得到处理后的视频帧序列；其中，所述视频处理模型用于对所述视频帧序列进行去噪处理，在对所述视频帧序列进行去噪处理时，通过对所述视频帧序列中视频帧图像的像素点进行重排列的方式进行下采样；

编码压缩模块，用于对处理后的所述视频帧序列进行编码压缩处理，得到压缩后的视频码流。

12.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至10任一项所述的视频编码方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至10任一项所述的视频编码方法。