CN110139102B

CN110139102B - 视频编码复杂度的预测方法、装置、设备和存储介质

Info

Publication number: CN110139102B
Application number: CN201910432470.8A
Authority: CN
Inventors: 周志超; 何栋梁; 李甫; 赵翔; 李鑫; 迟至真; 龙翔; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2021-09-21
Anticipated expiration: 2039-05-23
Also published as: US11259029B2; CN110139102A; US20200374526A1

Abstract

本发明实施例提出一种视频编码复杂度的预测方法、装置、设备和存储介质，其中的预测方法包括获取目标视频的属性特征；从目标视频中抽取多帧第一目标图像；利用多帧第一目标图像进行帧差计算，得到多个第一帧差图；根据每个第一帧差图的统计直方图，确定目标视频的帧差图直方图特征；将目标视频的特征输入编码复杂度预测模型，得到目标视频的编码复杂度预测值，目标视频的特征包括属性特征和帧差图直方图特征。上述预测方法可以智能地获得准确的BPP预测值。

Description

视频编码复杂度的预测方法、装置、设备和存储介质

技术领域

本发明涉及视频处理技术领域，尤其涉及一种视频编码复杂度的预测方法、装置、设备和存储介质。

背景技术

目前视频已经占据互联网很大一部分的网络流量，成为人们获取信息的主要媒介之一。相比于其他多媒体内容，如文字和图像，视频内容往往更加丰富、直观，但与此同时视频的存储和传输也需要更大的存储空间和更高的带宽。为了在保证视频质量的条件下，高效的对视频进行转码压缩，从而节省视频分发带宽，可以通过预测原始视频的编码复杂度，进而依据复杂度设计合适的转码策略来进行转码压缩。

现有的编码复杂度预测方案是通过对原始视频进行一次快速转码操作，得到原始视频的编码复杂度。由于转码过程包含了解码和编码两个步骤，耗时较多，这严重影响了整个视频压缩流程的效率；并且转码过程需要人工设定转码参数，由于转码参数的设置存在不确定性，这将影响编码复杂度的准确性。

发明内容

本发明实施例提供一种视频编码复杂度的预测方法、装置、设备和存储介质，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种视频编码复杂的预测方法，包括：

获取目标视频的属性特征；

从所述目标视频中抽取多帧第一目标图像；

利用多帧所述第一目标图像进行帧差计算，得到多个第一帧差图；

根据每个所述第一帧差图的统计直方图，确定所述目标视频的帧差图直方图特征；

将所述目标视频的特征输入编码复杂度预测模型，得到所述目标视频的编码复杂度预测值，所述目标视频的特征包括所述属性特征和所述帧差图直方图特征。

在一种实施方式中，从所述目标视频中抽取多帧第一目标图像，包括：

按照预设帧率从所述目标视频中抽取V帧图像；

根据所述目标视频的播放顺序，将所述V帧图像划分为N段图像流；

从每段图像流中抽取K帧图像，得到多帧所述第一目标图像；

其中，V、N和K为正整数，且K小于V。

在一种实施方式中，利用多帧所述第一目标图像进行帧差计算，得到多个第一帧差图，包括：

对每段图像流中的K帧图像中的相邻两帧图像分别进行帧差计算，得到多个所述第一帧差图。

在一种实施方式中，根据每个所述第一帧差图的统计直方图，确定所述目标视频的帧差图直方图特征，包括：

对每个所述第一帧差图做统计直方图，得到多个帧差图直方图向量；

对多个所述帧差图直方图向量取平均，得到所述帧差图直方图特征。

在一种实施方式中，所述目标视频的特征还包括变换直方图特征，所述预测方法还包括：

对每个所述第一帧差图进行离散余弦变换，得到多个频谱图；

对每个所述频谱图做统计直方图，得到多个频谱图直方图向量；

对多个所述频谱图直方图向量取平均，得到所述变换直方图特征。

在一种实施方式中，所述目标视频的特征还包括图像深度特征和帧差深度特征，所述预测方法还包括：

从所述目标视频中抽取多帧第二目标图像输入图像深度学习模型；

获取输入所述第二目标图像后的图像深度学习模型的中间层结果，得到所述图像深度特征；

从所述目标视频中抽取多帧第三目标图像进行帧差计算，得到多个第二帧差图；

将所述第二帧差图输入帧差深度学习模型；

获取输入所述第二帧差图后的帧差深度学习模型的中间层结果，得到所述帧差深度特征。

在一种实施方式中，所述预测方法还包括：

从第一样本视频中抽取若干帧样本图像；

将所述若干帧样本图像作为输入，将所述第一样本视频的编码复杂度真实值作为目标，训练时间段网络，得到所述图像深度学习模型。

在一种实施方式中，所述预测方法还包括：

从第一样本视频中抽取若干帧样本图像；

利用所述若干帧样本图像进行帧差计算，得到多个样本帧差图；

将所述多个样本帧差图作为输入，将所述第一样本视频的编码复杂度真实值作为目标，训练时间段网络，得到所述帧差深度学习模型。

在一种实施方式中，从所述目标视频中抽取多帧第二目标图像输入图像深度学习模型，包括：

按照预设帧率从所述目标视频中抽取V帧图像，其中，V为正整数；

从每段图像流中抽取一帧图像，得到N帧所述第二目标图像；

将N帧所述第二目标图像输入所述图像深度学习模型。

在一种实施方式中，从所述目标视频中抽取多帧第三目标图像进行帧差计算，得到多个第二帧差图，包括：

从每段图像流中抽取两帧图像进行帧差计算，得到N个所述第二帧差图。

在一种实施方式中，所述目标视频包括第二样本视频，在所述编码复杂度预测模型的训练过程中，将所述目标视频的特征输入编码复杂度预测模型，得到所述目标视频的编码复杂度预测值，包括：

将多个所述第二样本视频的特征输入多层感知机模型，得到多个所述第二样本视频的编码复杂度预测值；

根据多个所述第二样本视频的编码复杂度真实值和多个所述第二样本视频的编码复杂度预测值，调整所述多层感知机模型，得到所述编码复杂度预测模型。

在一种实施方式中，所述预测方法还包括：

根据预设的编码参数对所述第二样本视频进行转码；

计算转码后的第二样本视频的复杂度值，得到所述编码复杂度真实值。

第二方面，本发明实施例提供一种视频编码复杂度的预测装置，包括：

第一获取模块，用于获取目标视频的属性特征；

抽取模块，用于从所述目标视频中抽取多帧第一目标图像；

第一帧差计算模块，用于利用多帧所述第一目标图像进行帧差计算，得到多个第一帧差图；

帧差图直方图特征确定模块，用于根据每个所述第一帧差图的统计直方图，确定所述目标视频的帧差图直方图特征；

第一输入模块，用于将所述目标视频的特征输入编码复杂度预测模型，得到所述目标视频的编码复杂度预测值，所述目标视频的特征包括所述属性特征和所述帧差图直方图特征。

在一种实施方式中，所述目标视频的特征还包括变换直方图特征，所述预测装置还包括：

离散余弦变换模块，用于对每个所述第一帧差图进行离散余弦变换，得到多个频谱图；

频谱图直方图向量得到模块，用于对每个所述频谱图做统计直方图，得到多个频谱图直方图向量；

平均模块，用于对多个所述频谱图直方图向量取平均，得到所述变换直方图特征。

在一种实施方式中，所述目标视频的特征还包括图像深度特征和帧差深度特征，所述预测装置还包括：

第二输入模块，用于从所述目标视频中抽取多帧第二目标图像输入图像深度学习模型；

第二获取模块，用于获取输入所述第二目标图像后的图像深度学习模型的中间层结果，得到所述图像深度特征；

第二帧差计算模块，用于从所述目标视频中抽取多帧第三目标图像进行帧差计算，得到多个第二帧差图；

第三输入模块，用于将所述第二帧差图输入帧差深度学习模型；

第三获取模块，用于获取输入所述第二帧差图后的帧差深度学习模型的中间层结果，得到所述帧差深度特征。

在一种实施方式中，所述目标视频包括第二样本视频，用于所述编码复杂度预测模型的训练过程中，所述第一输入模块包括：

输入子模块，用于将多个所述第二样本视频的特征输入多层感知机模型，得到多个所述第二样本视频的编码复杂度预测值；

调整模块，用于根据多个所述第二样本视频的编码复杂度真实值和多个所述第二样本视频的编码复杂度预测值，调整所述多层感知机模型，得到所述编码复杂度预测模型。

在一种实施方式中，所述预测装置还包括：

转码模块，用于根据预设的编码参数对所述第二样本视频进行转码；

复杂度值计算模块，用于计算转码后的第二样本视频的复杂度值，得到所述编码复杂度真实值。

第三方面，本发明实施例提供了一种视频编码复杂度的预测设备，所述预测设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述预测设备的结构中包括处理器和存储器，所述存储器用于存储支持所述预测设备执行上述视频编码复杂度的预测方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述预测设备还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储视频编码复杂度的预测设备所用的计算机软件指令，其包括用于执行上述视频编码复杂度的预测方法所涉及的程序。

本发明实施例的视频编码复杂的预测方法，通过将目标视频的属性特征和帧差图直方图特征输入编码复杂度预测模型，可以得到该目标视频的BPP预测值，预测方式更智能，获得的BPP预测值更准确。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的视频编码复杂度的预测方法的流程图。

图2示出本发明实施例中的其中一个第一帧差图的示意图。

图3示出本发明实施例中的其中一个第一帧差图的统计直方图的示意图。

图4示出根据本实施例的一种实施方式中的视频编码复杂度的预测方法的流程图。

图5示出本发明实施例的编码复杂度预测模型的训练方法的一个示例图。

图6示出根据本发明实施例的视频编码复杂度的预测装置的结构框图。

图7示出根据本发明实施例的一种实施方式中的视频编码复杂度的预测装置的结构框图。

图8示出根据本发明实施例的另一种实施方式中的视频编码复杂度的预测装置的结构框图。

图9示出根据本发明实施例的视频编码复杂度的预测设备的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明实施例的视频编码复杂度的预测方法的流程图。如图1所示，该方法可以包括：

步骤S101、获取目标视频的属性特征。

目标视频可以为作为转码对象的视频，通过获取该视频的编码复杂度预测值，进而可以依据编码复杂度预测值设计合适的转码策略来进行转码压缩。目标视频也可以为用于编码复杂度预测模型训练过程中的视频。

本实施例中，可以用每个像素平均所占位数(Bit Per Pixel，BPP)表征编码复杂度，如编码复杂度预测值可以用BPP预测值表示，编码复杂度真实值可以用BPP真实值表示。BPP预测值和BPP真实值均可以为0～350之间的实数(包括端点值)。

属性特征可以包括视频基础信息特征，如视频时长、帧长(每帧图像的长度)、帧宽(每帧图像的宽度)、帧率(Frames Per Second，fps)、BPP计算值、时间复杂度(Temporalperceptual Information，TI，也可以称作时间感知信息)和空间复杂度(Spatialperceptual Information，SI，也可以称空间感知信息)等。本实施例中，可以通过公式BPP＝目标视频所占硬盘空间大小/[(帧长*帧宽)*帧数]，其中，帧数＝视频时长*帧率，得到目标视频的BPP计算值。

步骤S102、从所述目标视频中抽取多帧第一目标图像。

第一目标图像的抽取策略可以根据实际需要设定，如均匀抽取策略，即可以从目标视频中均匀地抽取多帧第一目标图像。在一个示例中，均匀抽取策略可以包括：按照预设帧率从所述目标视频中抽取V帧图像；根据所述目标视频的播放顺序，将所述V帧图像划分为N段图像流；从每段图像流中抽取K帧图像，得到多帧第一目标图像；其中，V、N和K为正整数，且K小于V。

在一个示例中，可以以10fps的帧率对目标视频进行抽取图像帧(即每秒抽取10帧图像)，共可以得到V帧图像；将得到的V帧图像按照目标视频的播放顺序平均分为N段(segment)图像流，如第1帧、第2帧、第3帧、……、第V/N帧可以作为第一段图像流；每段图像流保留前K帧图像，得到的N*K帧图像可以作为第一目标图像，用于目标视频的特征提取。

步骤S103、利用多帧所述第一目标图像进行帧差计算，得到多个第一帧差图。

对于抽取的多帧第一目标图像，可以两两作帧差计算，进而得到多个第一帧差图。在一种实施方式中，可以对每段图像流中的K帧图像中的相邻两帧图像分别进行帧差计算，得到多个所述第一帧差图。例如：对同一段图像流内的第一目标图像连续两帧之间作帧差，得到N*(K-1)个第一帧差图。图2示出了本实施例中对两帧第一目标图像进行帧差计算后得到的第一帧差图的示意图。在图2中，第一帧差图用其灰度图表示。

步骤S104、根据每个所述第一帧差图的统计直方图，确定所述目标视频的帧差图直方图特征。

统计直方图属于统计报告图的一种。例如：对某一物理量在相同条件下做n次重复测量，得到一系列测量值。从一系列测量值中找出最大值和最小值，然后确定一个区间，使其包含全部测量值。将区间分成若干小区间，统计各测量值出现在各小区间的频数。以测量值为横坐标，以频数为纵坐标，划出各小区间及其对应的频数高度，则可得到一个矩形图，即统计直方图。

在一种实施方式中，在步骤S104中可以包括：对每个所述第一帧差图做统计直方图，得到多个帧差图直方图向量；对多个所述帧差图直方图向量取平均，得到所述帧差图直方图特征。例如：对所有第一帧差图均计算256维的统计直方图，得到多个256维的帧差图直方图向量。然后对得到的多个256维的帧差图直方图向量取平均，得到一个256维的帧差图直方图向量。可以将取平均得到的256维的帧差图直方图向量作为目标视频的帧差图直方图特征。

图3示出了本实施例中其中一个第一帧差图的统计直方图的示意图。其中，横轴可以用于表示帧差图直方图向量的某一维，纵轴可以用于表示该维的值。例如：可以对第一帧差图按照值的范围划分为256个区间，每个区间为一维，对每个第一帧差图按照这些划分区间做统计直方图，得到256维的帧差图直方图向量。

步骤S105、将所述目标视频的特征输入编码复杂度预测模型，得到所述目标视频的编码复杂度预测值，所述目标视频的特征包括所述属性特征和所述帧差图直方图特征。

在一种实施方式中，所述目标视频的特征还可以包括变换直方图特征，如图4所示，本实施例的视频编码复杂度的预测方法还可以包括：

步骤S401、对每个所述第一帧差图进行离散余弦变换，得到多个频谱图；

步骤S402、对每个所述频谱图做统计直方图，得到多个频谱图直方图向量；

步骤S403、对多个所述频谱图直方图向量取平均，得到所述变换直方图特征。

离散余弦变换(Discrete Cosine Transform，DCT)是与傅里叶变换相关的一种变换。DCT类似于离散傅里叶变换，但是只使用实数。DCT变换的结果可以用频谱图表示。在一个示例中，可以对每个第一帧差图分别进行DCT变换，得到多个频谱图；然后对每个频谱图分别计算266维的统计直方图，得到多个266维的频谱图直方图向量；然后对得到的多个266维的频谱图直方图向量取平均，得到一个266维的频谱图直方图向量；可以将取平均得到的266维的频谱图直方图向量作为目标视频的变换直方图特征。

在一种实施方式中，所述目标视频的特征还可以包括图像深度特征和帧差深度特征，如图4所示，本实施例的视频编码复杂度的预测方法还可以包括：

步骤S404、从所述目标视频中抽取多帧第二目标图像输入图像深度学习模型。

其中，图像深度学习模型可以通过训练时间段网络(Temporal SegmentNetworks，TSN)模型得到。其中，TSN模型可以为基础网络为第二代卷积神经网络(ShuffleNet v2)的TSN模型。

在一种实施方式中，可以从第一样本视频中抽取多帧第一样本图像输入TSN模型，以该第一样本视频的BPP真实值为目标，训练TSN模型。基于大量第一样本视频采用该方式训练TSN模型，并将训练好的TSN模型作为图像深度学习模型。其中，第一样本图像可以为红绿蓝(Red Green Blue，RGB)图像。

其中，第一样本视频的BPP真实值可以采用以下方式获得：根据预设的编码参数对所述第一样本视频进行转码；计算转码后的第一样本视频的复杂度值，得到所述编码复杂度真实值。

在一种实施方式中，在步骤S404中可以包括：按照预设帧率从所述目标视频中抽取V帧图像，其中，V为正整数；根据所述目标视频的播放顺序，将所述V帧图像划分为N段图像流；从每段图像流中抽取一帧图像，得到N帧所述第二目标图像；将N帧所述第二目标图像输入所述图像深度学习模型。在一个示例中，可以基于前述示例中得到的多段图像流抽取第二目标图像。例如：每段图像流保留中间的一帧图像所得到的N帧图像，可以作为目标视频的第二目标图像，并将这N帧图像输入图像深度学习模型。

步骤S405、获取输入所述第二目标图像后的图像深度学习模型的中间层结果，得到所述图像深度特征。

在一个示例中，可以将输入第二目标图像后的TSN模型的倒数第一个全连接层(fully-connected layer)的输出作为目标视频的图像深度特征，该图像深度特征可以有1024维。

步骤S406、从所述目标视频中抽取多帧第三目标图像进行帧差计算，得到多个第二帧差图。

在一种实施方式中，在步骤S406中可以包括：按照预设帧率从所述目标视频中抽取V帧图像，其中，V为正整数；根据所述目标视频的播放顺序，将所述V帧图像划分为N段图像流；从每段图像流中抽取两帧图像进行帧差计算，得到N个所述第二帧差图。在一个示例中，可以基于前述示例中得到的多段图像流抽取第三目标图像。例如：每段图像流保留中间的连续两帧图像进行帧差计算，得到N个第二帧差图。

步骤S407、将所述第二帧差图输入帧差深度学习模型。

帧差深度学习模型可以通过训练TSN模型得到。在一种实施方式中，可以对从第一样本视频中抽取多帧第二样本图像进行帧差计算，得到多个样本帧差图。其中，对多帧第二样本图像进行帧差计算的方法，可以参照步骤S103中对多帧第一目标图像进行帧差计算的方法。进一步地，可以将第一样本视频的多个样本帧差图输入TSN模型，以该第一样本视频的BPP真实值为目标，训练TSN模型。基于大量第一样本视频采用该方式训练TSN模型，并将训练好的TSN模型作为帧差深度学习模型。其中，第二样本图像和样本帧差图均可以为RGB图像。

步骤S408、获取输入所述第二帧差图后的帧差深度学习模型的中间层结果，得到所述帧差深度特征。

在一个示例中，可以将输入第二帧差图后的TSN模型的倒数第一个全连接层的输出作为目标视频的帧差深度特征，该帧差深度特征可以有1024维。

在一个示例中，在上述TSN模型的训练过程中，可以使用平均方差损失(mean-variance loss)作为损失函数，用反向传播算法学习参数。

本实施例中，目标视频可以包括第二样本视频，编码复杂度预测模型可以基于训练多层感知机模型(Multi-Layer Perception，MLP)得到。在一种实施方式中，编码复杂度预测模型的训练方法可以包括：将多个所述第二样本视频的特征输入MLP模型，得到多个所述第二样本视频的编码复杂度预测值；根据多个所述第二样本视频的编码复杂度真实值和多个所述第二样本视频的编码复杂度预测值，调整MLP模型，得到所述编码复杂度预测模型。

其中，第二样本视频的BPP真实值可以采用以下方式获得：根据预设的编码参数对所述第二样本视频进行转码；计算转码后的第二样本视频的复杂度值，得到所述编码复杂度真实值。需要说明的是，本实施例中，第一样本视频和第二样本视频也可以选自相同的视频，分别用于不同模型的训练过程。

其中，第二样本视频的特征可以包括第二样本视频的属性特征、帧差图直方图特征、变换直方图特征、图像深度特征和帧差深度特征中的多种或全部。本实施例中，由于目标视频可以包括第二样本视频，第二样本视频的属性特征、帧差图直方图特征、变换直方图特征、图像深度特征和帧差深度特征的获得方法可以参照上述实施例。

在一个示例中，如图5所示，本发明实施例中编码复杂度预测模型的训练过程可以包括：

步骤S501、获取第二样本视频的7维视频基础信息特征(属性特征)；

步骤S502、获取第二样本视频的266维DCT直方图特征(变换直方图特征)；

步骤S503、获取第二样本视频的256维帧差图直方图特征；

步骤S504、基于第二样本视频获取N帧RGB帧差图(第二帧差图)，并将N帧RGB帧差图输入以Shuffle Net v2为基础网络的TSN模型(帧差深度学习模型)，提取帧差深度学习模型的倒数第一个全连接层的输出，得到1024维帧差深度特征；

步骤S505、基于第二样本视频获取N帧RGB图像(第二目标图像)，并将N帧RGB图像输入以Shuffle Net v2为基础网络的TSN模型(图像深度学习模型)，提取图像深度学习模型的倒数第一个全连接层的输出，得到1024维图像深度特征；

步骤S506、串接7维视频基础信息特征、266维DCT直方图特征、256维帧差图直方图特征、1024维帧差深度特征和1024维图像深度特征，得到2576维向量表示的特征；

步骤S507、将第二样本视频的2576维特征输入MLP模型，其中，MLP模型的层数可以为两层，该MLP的每层均可以由批处理标准化层(Batch Normalization layer)、激活函数层(Rectified Linear Unit，ReLU)和全连接层构成；第一层的全连接层的输出作为隐含层(512维)，第二层的全连接层输出350维向量；

步骤S508、以BPP真实值为目标，使用mean-variance loss作损失函数，用反向传播算法学习参数。

基于大量的第二样本视频执行步骤S501至步骤S508，可以得到训练好的编码复杂度预测模型。

本发明实施例的视频编码复杂的预测方法，通过将目标视频的属性特征和帧差图直方图特征输入编码复杂度预测模型，可以得到该目标视频的BPP预测值，进而可以依据BPP预测值设计合适的转码策略来进行转码压缩。由于BPP预测值是基于训练好的编码复杂度预测模型得到，并且向编码复杂度模型中输入的特征，既包括目标视频的属性特征，还包括目标视频的帧差图直方图特征，因此获得的BPP预测值更准确，预测方式也更智能。进一步地，向编码复杂度模型中输入的特征，还可以包括目标视频的变换直方图特征和/或图像深度特征和/或帧差深度特征，可以进一步提高BPP预测值的准确率。

图6示出根据本发明实施例的视频编码复杂度的预测装置的结果框图。如图6所示，该预测装置可以包括：

第一获取模块601，用于获取目标视频的属性特征；

抽取模块602，用于从所述目标视频中抽取多帧第一目标图像；

第一帧差计算模块603，用于利用多帧所述第一目标图像进行帧差计算，得到多个第一帧差图；

帧差图直方图特征确定模块604，用于根据每个所述第一帧差图的统计直方图，确定所述目标视频的帧差图直方图特征；

第一输入模块605，用于将所述目标视频的特征输入编码复杂度预测模型，得到所述目标视频的编码复杂度预测值，所述目标视频的特征包括所述属性特征和所述帧差图直方图特征。

在一种实施方式中，抽取模块602可以包括：

第一抽取子模块，用于按照预设帧率从所述目标视频中抽取V帧图像；

第一图像流划分子模块，用于根据所述目标视频的播放顺序，将所述V帧图像划分为N段图像流；

第二抽取子模块，用于从每段图像流中抽取K帧图像，得到多帧所述第一目标图像；

其中，V、N和K为正整数，且K小于V。

在一种实施方式中，第一帧差计算模块603可以包括：

第一帧差计算子模块，用于对每段图像流中的K帧图像中的相邻两帧图像分别进行帧差计算，得到多个所述第一帧差图。

在一种实施方式中，帧差图直方图特征确定模块604可以包括：

帧差图直方图向量得到子模块，用于对每个所述第一帧差图做统计直方图，得到多个帧差图直方图向量；

平均子模块，用于对多个所述帧差图直方图向量取平均，得到所述帧差图直方图特征。

在一种实施方式中，所述目标视频的特征还包括变换直方图特征，如图7所示，所述预测装置还可以包括：

离散余弦变换模块701，用于对每个所述第一帧差图进行离散余弦变换，得到多个频谱图；

频谱图直方图向量得到模块702，用于对每个所述频谱图做统计直方图，得到多个频谱图直方图向量；

平均模块703，用于对多个所述频谱图直方图向量取平均，得到所述变换直方图特征。

在一种实施方式中，其特征在于，所述目标视频的特征还包括图像深度特征和帧差深度特征，如图7所示，所述预测装置还可以包括：

第二输入模块704，用于从所述目标视频中抽取多帧第二目标图像输入图像深度学习模型；

第二获取模块705，用于获取输入所述第二目标图像后的图像深度学习模型的中间层结果，得到所述图像深度特征；

第二帧差计算模块706，用于从所述目标视频中抽取多帧第三目标图像进行帧差计算，得到多个第二帧差图；

第三输入模块707，用于将所述第二帧差图输入帧差深度学习模型；

第三获取模块708，用于获取输入所述第二帧差图后的帧差深度学习模型的中间层结果，得到所述帧差深度特征。

在一种实施方式中，所述预测装置还可以包括：

样本图像抽取模块，用于从第一样本视频中抽取若干帧样本图像；

第一训练模块，用于将所述若干帧样本图像作为输入，将所述第一样本视频的编码复杂度真实值作为目标，训练时间段网络，得到所述图像深度学习模型。

在一种实施方式中，所述预测装置还可以包括：

样本帧差图得到模块，用于利用所述若干帧样本图像进行帧差计算，得到多个样本帧差图；

第二训练模块，用于将所述多个样本帧差图作为输入，将所述第一样本视频的编码复杂度真实值作为目标，训练时间段网络，得到所述帧差深度学习模型。

在一种实施方式中，第二输入模块704可以包括：

第三抽取子模块，用于按照预设帧率从所述目标视频中抽取V帧图像，其中，V为正整数；

第二图像流划分子模块，用于根据所述目标视频的播放顺序，将所述V帧图像划分为N段图像流；

第四抽取子模块，用于从每段图像流中抽取一帧图像，得到N帧所述第二目标图像；

输入子模块，用于将N帧所述第二目标图像输入所述图像深度学习模型。

在一种实施方式中，第二帧差计算模块706可以包括：

第五抽取子模块，用于按照预设帧率从所述目标视频中抽取V帧图像，其中，V为正整数；

第三图像流划分子模块，用于根据所述目标视频的播放顺序，将所述V帧图像划分为N段图像流；

第二帧差计算子模块，用于从每段图像流中抽取两帧图像进行帧差计算，得到N个所述第二帧差图。

在一种实施方式中，所述目标视频可以包括第二样本视频，用于所述编码复杂度预测模型的训练过程中，如图8所示，第一输入模块605可以包括：

输入子模块801，用于将多个所述第二样本视频的特征输入多层感知机模型，得到多个所述第二样本视频的编码复杂度预测值；

调整子模块802，用于根据多个所述第二样本视频的编码复杂度真实值和多个所述第二样本视频的编码复杂度预测值，调整所述多层感知机模型，得到所述编码复杂度预测模型。

在一种实施方式中，如图8所示，所述预测装置还可以包括：

转码模块803，用于根据预设的编码参数对所述第二样本视频进行转码；

复杂度值计算模块804，用于计算转码后的第二样本视频的复杂度值，得到所述编码复杂度真实值。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图9示出根据本发明实施例的视频编码复杂度的预测设备的结构框图。如图9所示，该设备可以包括：存储器901和处理器902，存储器901内存储有可在处理器902上运行的计算机程序。所述处理器902执行所述计算机程序时实现上述实施例中的视频编码复杂度的预测方法。所述存储器901和处理器902的数量可以为一个或多个。

该设备还可以包括：

通信接口903，用于与外界设备进行通信，进行数据交互传输。

存储器901可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器901、处理器902和通信接口903独立实现，则存储器901、处理器902和通信接口903可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器901、处理器902及通信接口903集成在一块芯片上，则存储器901、处理器902及通信接口903可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频编码复杂度的预测方法，其特征在于，包括：

获取目标视频的属性特征；

从所述目标视频中抽取多帧第一目标图像；

将所述目标视频的特征输入编码复杂度预测模型，得到所述目标视频的编码复杂度预测值，所述目标视频的特征包括所述属性特征和所述帧差图直方图特征；

其中，从所述目标视频中抽取多帧第一目标图像，包括：

按照预设帧率从所述目标视频中抽取V帧图像；

从每段图像流中抽取K帧图像，得到多帧所述第一目标图像；

其中，V、N和K为正整数，且K小于V。

2.根据权利要求1所述的预测方法，其特征在于，利用多帧所述第一目标图像进行帧差计算，得到多个第一帧差图，包括：

3.根据权利要求1所述的预测方法，其特征在于，根据每个所述第一帧差图的统计直方图，确定所述目标视频的帧差图直方图特征，包括：

4.根据权利要求1所述的预测方法，其特征在于，所述目标视频的特征还包括变换直方图特征，所述预测方法还包括：

5.根据权利要求1所述的预测方法，其特征在于，所述目标视频的特征还包括图像深度特征和帧差深度特征，所述预测方法还包括：

将所述第二帧差图输入帧差深度学习模型；

6.根据权利要求5所述的预测方法，其特征在于，还包括：

从第一样本视频中抽取若干帧样本图像；

7.根据权利要求5所述的预测方法，其特征在于，还包括：

从第一样本视频中抽取若干帧样本图像；

8.根据权利要求5所述的预测方法，其特征在于，从所述目标视频中抽取多帧第二目标图像输入图像深度学习模型，包括：

从每段图像流中抽取一帧图像，得到N帧所述第二目标图像；

将N帧所述第二目标图像输入所述图像深度学习模型。

9.根据权利要求5所述的预测方法，其特征在于，从所述目标视频中抽取多帧第三目标图像进行帧差计算，得到多个第二帧差图，包括：

10.根据权利要求1至9任一项所述的预测方法，其特征在于，所述目标视频包括第二样本视频，在所述编码复杂度预测模型的训练过程中，将所述目标视频的特征输入编码复杂度预测模型，得到所述目标视频的编码复杂度预测值，包括：

11.根据权利要求10所述的预测方法，其特征在于，还包括：

根据预设的编码参数对所述第二样本视频进行转码；

12.一种视频编码复杂度的预测装置，其特征在于，包括：

第一获取模块，用于获取目标视频的属性特征；

抽取模块，用于从所述目标视频中抽取多帧第一目标图像；

第一输入模块，用于将所述目标视频的特征输入编码复杂度预测模型，得到所述目标视频的编码复杂度预测值，所述目标视频的特征包括所述属性特征和所述帧差图直方图特征；

其中，所述抽取模块包括：

其中，V、N和K为正整数，且K小于V。

13.根据权利要求12所述的预测装置，其特征在于，所述目标视频的特征还包括变换直方图特征，所述预测装置还包括：

14.根据权利要求12所述的预测装置，其特征在于，所述目标视频的特征还包括图像深度特征和帧差深度特征，所述预测装置还包括：

15.根据权利要求12至14任一项所述的预测装置，其特征在于，所述目标视频包括第二样本视频，用于所述编码复杂度预测模型的训练过程中，所述第一输入模块包括：

16.根据权利要求15所述的预测装置，其特征在于，还包括：

17.一种视频编码复杂度的预测设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至11中任一项所述的方法。

18.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至11中任一项所述的方法。