CN110401834A

CN110401834A - 一种基于深度学习的自适应视频编码方法

Info

Publication number: CN110401834A
Application number: CN201910714608.3A
Authority: CN
Inventors: 庄育珊; 许祝登; 刘佳扬; 刘宇新; 朱政
Original assignee: Hangzhou Microframe Information Technology Co Ltd
Current assignee: Hangzhou Microframe Information Technology Co Ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-11-01
Anticipated expiration: 2039-08-06
Also published as: CN110401834B

Abstract

本发明公开了一种基于深度学习的自适应视频编码方法。所述方法包括以下步骤：利用多样化的视频资料库生成训练数据和测试数据；构建深度学习的神经网络模型；所述神经网络模型包括卷积神经网络CNN特征提取器、长短期记忆网络LSTM特征提取器、全连接层以及输出层；使用训练数据对深度学习的神经网络模型进行训练；使用测试数据对训练好的模型进行验证；应用所述神经网络模型得到预测的CRF_optimal(v)的取值；根据得到的CRF_optimal(v)进行视频压缩。该方法对每个视频较准确地预测满足视频质量评价分数的编码参数，从而实现满足用户体验前提下视频编码的码率自适应。

Description

一种基于深度学习的自适应视频编码方法

技术领域

本发明涉及视频编解码技术领域，尤其涉及一种基于深度学习的自适应视频编码方法。

背景技术

视频压缩，也称视频编码，其目的是消除视频信号间存在的冗余信息。随着多媒体数字视频应用的不断发展和人们对视频云计算需求的不断提高，原始视频信源的数据量已使现有传输网络带宽和存储资源无法承受，因而经编码压缩后的视频才是宜在网络中传输中的信息，视频编码技术已成为目前国内外学术研究和工业应用的热点之一。

同一个视频，视频编码的压缩率越高，压缩失真越高，用户体验的视频质量越差；压缩率越低，视频的存储和传输的成本越高。如何在两者之间找到一个平衡是视频编码技术中的一个难点。

自适应的视频编码就是要为每一个视频或视频片段，找出满足用户体验要求的编码的参数，以达到满足视频质量又节省带宽的目的。

发明内容

本发明提供了一种基于深度学习的自适应视频编码方法，深度学习的方法可以对每个视频较准确地预测满足视频质量评价分数的编码参数，从而实现满足用户体验前提下视频编码的码率自适应。

本发明提供的一种基于深度学习的自适应视频编码方法，包括以下步骤：

(1)利用多样化的视频资料库生成训练数据和测试数据；

(1.1)对样本视频数据使用不同的固定码率系数CRF进行压缩编码；

(1.2)对每个已编码的视频按照一视频质量评价体系进行评分；

(1.3)针对每个样本视频v，选取使得编码的视频能够达到一个满意的质量分数SCORE_TARGET的最大的CRF，记为CRF_optimal(v)，当CRF设置为CRF_optimal(v)时，压缩的视频在达到一个满意的视觉效果的同时能够节省最多的码率；

(1.4)把样本数据按照一定的比例随机分为训练数据和测试数据；

(2)构建深度学习的神经网络模型；所述神经网络模型包括卷积神经网络CNN特征提取器、长短期记忆网络LSTM特征提取器、全连接层以及输出层，所述全连接层分别与所述CNN特征提取器、LSTM特征提取器、输出层相连；

(2.1)所述CNN特征提取器通过CNN模型提取视频空间域的特征；

(2.2)所述LSTM特征提取器通过LSTM模型来提取视频时间域的特征；

(2.3)所述全连接层融合上述提取的视频空间域的特征和时间域的特征，进行CRF_optimal(v)的预测；

(2.4)输出层的输出值为预测的CRF_optimal(v)的值；

(2.5)计算所述神经网络模型的损失函数L₂：

其中m表示样本的个数，表示CRF的预测值，CRF⁽ⁱ⁾表示样本数据i的CRF实际值，表示对样本数据i的预测值；利用所述损失函数L₂对所述神经网络模块的各层的参数进行调整；

(3)使用训练数据对深度学习的神经网络模型进行训练；

(4)使用测试数据对训练好的模型进行验证；

(5)应用所述构建的神经网络模型；

(5.1)把输入视频作为输入送到训练好的深度学习的神经网络模型中；

(5.2)在模型的输出端得到预测的CRF_optimal(v)的取值；

(6)视频压缩：编码器对输入的视频v进行压缩编码，CRF设置为CRF_optimal(v)，输出编码视频码流。

优选地，所述步骤(1.1)中，在x264、x265编码器中，CRF的等级范围为[0,51]；对于AV1编码标准，CRF的取值对应于视频编码器的帧量化参数。

优选地，所述步骤(1.2)中，所述视频质量评价体系为视频质量多方法评价融合VMAF。

本发明基于深度学习的方法,建立神经网络模型，通过训练和测试，可以对每个视频较准确地预测满足视频质量评价分数的编码参数，从而实现满足用户体验前提下视频编码的码率自适应，实现了视频压缩与用户体验质量之间的平衡。本发明对CRF_optimal(v)预测的平均误差为1.4，可以较好地实现满足用户体验前提下视频编码的码率自适应。

附图说明

图1为本发明基于深度学习的自适应视频编码方法的流程图。

图2为本发明神经网络模型的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

下面结合附图对本发明作更进一步的说明。

如图1所示，本发明的基于深度学习的自适应视频编码方法具体包括以下步骤：

(1)利用多样化的视频资料库生成训练数据和测试数据。

(1.1)对样本视频数据使用不同的固定码率系数CRF(Constant Rate Factor)进行压缩编码。CRF为编码器的码率控制的参数，对于同一个视频，CRF值越大压缩度越高，压缩的视频质量越低。在x264、x265编码器中CRF的等级范围为[0,51]；对于其他编码标准，比如AV1，CRF的取值对应于视频编码器的帧量化参数。

(1.2)对每个已编码的视频按照一个视频质量评价体系比如视频质量多方法评价融合VMAF(Visual Multimethod Assessment Fusion)进行评分。

(1.3)针对每个样本视频v，选取使得编码的视频能够达到一个满意的质量分数SCORE_TARGET的最大的CRF，记为CRF_optimal(v)。对于每个视频v，压缩的难易程度不一样，CRF_optimal(v)的取值是不一样的。针对一个视频v，当CRF设置为CRF_optimal(v)时，压缩的视频在达到一个满意的视觉效果的同时能够节省最多的码率。

(1.4)把样本数据按照一定的比例随机分为训练数据和测试数据。

(2)构建深度学习的神经网络模型，如图2所示。所述神经网络模块包括CNN特征提取器、LSTM特征提取器、全连接层以及输出层，所述全连接层分别与所述CNN特征提取器、LSTM特征提取器、输出层相连。

(2.1)所述CNN特征提取器通过卷积神经网络CNN(Convolutional NeuralNetwork)模型提取视频空间域的特征。卷积神经网络CNN，利用卷积的方式将取样帧的纹理、光源、大小等等作为特征，最大特色在于局部感知与权重共享，藉由卷积核抽取影像的局部特征，并且让影像各区域共享这个卷积核，常运用于图像辨识领域。

(2.2)所述LSTM特征提取器通过长短期记忆网络LSTM(Long short-term memory)模型来提取视频时间域的特征。视频的压缩其中一环即是利用帧与帧的时序上的相关性，减少时间冗余，因此将视频的时域特征纳入参考是关键。而LSTM是一种特定形式的循环神经网络RNN(Recurrent neural network)，擅长处理多变量的问题，该特性使其有助于处理时间序列问题。

(2.3)所述全连接层融合上述提取的视频空间域的特征和时间域的特征，进行CRF_optimal(v)的预测。

(2.4)输出层输出的为预测的CRF_optimal(v)的值。

(2.5)计算所述神经网络模型的损失函数L₂：

其中m表示样本的个数，表示CRF的预测值，CRF⁽ⁱ⁾表示样本数据i的CRF实际值，表示对样本数据i的预测值。如上述公式，L₂使用梯度下降的方法来调整调经网络各层之间的参数，对损失函数L₂求导可以得到与输出层的连接的参数的调整，这个调整会反向传递给前面的层，用于调整前面各层的参数。这是深度学习通用的一个训练过程，此处不再赘述。

(3)使用训练数据对深度学习的神经网络模型进行训练。

(4)使用测试数据对训练好的模型进行验证。

(5)模型应用。

(5.1)把输入视频作为输入送到训练好的深度学习的神经网络模型中。

(5.2)在模型的输出端得到预测的CRF_optimal(v)的取值。

(6)视频压缩：编码器对输入的视频v进行压缩编码，CRF设置为CRF_optimal(v)。输出编码视频码流。

通过上述基于深度学习的自适应视频编码方法，针对每个待编码视频预测满足一定质量评价分数要求的编码系数CRF的最大值，从而实现满足用户体验要求下最高的压缩率。本发明对CRF_optimal(v)预测的平均误差为1.4，可以较好地实现满足用户体验前提下视频编码的码率自适应。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种基于深度学习的自适应视频编码方法，其特征在于，包括以下步骤：

(1)利用多样化的视频资料库生成训练数据和测试数据；

(2)构建深度学习的神经网络模型；所述神经网络模型包括卷积神经网络CNN特征提取器、长短期记忆网络LSTM特征提取器、全连接层以及输出层，所述全连接层分别与所述CNN特征提取器、所述LSTM特征提取器、所述输出层相连；

(2.1)所述CNN特征提取器通过CNN模型提取视频空间域的特征；

(2.4)输出层的输出值为预测的CRF_optimal(v)的值；

(2.5)计算所述神经网络模型的损失函数L₂：

其中m表示样本的个数，表示CRF的预测值，CRF⁽ⁱ⁾表示样本数据i的CRF实际值，表示对样本数据i的预测值；利用所述损失函数L₂对所述神经网络模型中各层的参数进行调整；

(3)使用训练数据对深度学习的神经网络模型进行训练；

(4)使用测试数据对训练好的模型进行验证；

(5)应用所述构建的神经网络模型；

(5.2)在模型的输出端得到预测的CRF_optimal(v)的取值；

2.根据权利要求1所述的自适应视频编码方法，其特征在于，所述步骤(1.1)中，在x264、x265编码器中，CRF的等级范围为[0,51]；对于AV1编码标准，CRF的取值对应于视频编码器的帧量化参数。

3.根据权利要求2所述的自适应视频编码方法，其特征在于，所述步骤(1.2)中，所述视频质量评价体系为视频质量多方法评价融合VMAF。