CN111047529B

CN111047529B - 一种基于机器学习的视频处理方法

Info

Publication number: CN111047529B
Application number: CN201911189862.2A
Authority: CN
Inventors: 王建伟; 谢亚光; 陈勇; 孙彦龙
Original assignee: Hangzhou Arcvideo Technology Co ltd
Current assignee: Hangzhou Arcvideo Technology Co ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2023-05-23
Anticipated expiration: 2039-11-28
Also published as: CN111047529A

Abstract

本发明公开了一种基于机器学习的视频处理方法。它包括筛选数据和提取特征形成数据集、训练生成预测模型、视频处理三个部分，具体包括如下步骤：(1)构建数据集时，首先通过一定规则对视频序列筛选样本点，尽可能去除视频内容空间冗余和时间冗余，最终每帧图像都提取一定比例的像素点作为样本形成数据集；(2)训练生成预测模型时，采用简单的多层全连接神经网络，保证预测精度的同时运算复杂度较低；(3)视频处理时，使用训练好的预测模型对输入图像进行处理，然后再进行去块效应滤波和样点自适应补偿滤波。本发明的有益效果是：简化处理流程，运算复杂度低；适应大多数不同风格的视频，呈现很好的图像美感和保真度。

Description

一种基于机器学习的视频处理方法

技术领域

本发明涉及视频图像处理相关技术领域，尤其是指一种基于机器学习的视频处理方法。

背景技术

高动态范围(High Dynamic Range，以下简称HDR)视频，相对于标准动态范围(Standard Dynamic Range，以下简称SDR)视频，图像的明暗层次更清晰，图像细节更丰富，能够更逼真的重现真实场景。随着HDR技术的发展以及HDR显示器的逐步普及，对HDR视频的需求逐步增加。真正的HDR视频制作需要在采集端使用高动态范围的成像器件，制作时也要使用支持HDR非编软件，也就是说HDR视频的内容制作对拍摄设备和前处理技术都有很高的要求，因此目前市场上的HDR内容仍处于相对匮乏的状态。另一方面，市场上有比较充足的制作精良的高清/超高清SDR片源。如何将这些SDR内容转换成高质量HDR格式视频，具有比较重要的现实意义。

目前大部分的研究集中在SDR图像和HDR图像的相互转换，色调映射(ToneMapping)和逆色调映射(Inverse Tone Mapping)是SDR图像和HDR图像之间相互转换的关键技术。SDR视频向HDR视频转换处理，一般会涉及到YUV到RGB域的颜色空间转换、光电/电光曲线转换、色调映射、色域映射等操作，并且通常会加入一些传统的图像处理算法，每个算法实现不同的功能，如亮度增强算法、对比度增强算法、饱和度增强算法等。在HDR图像处理中如果同时应用这些算法，复杂度会很高不利于实际应用。另外，不同的视频内容制作者一般会通过调节不同的亮度、对比度、饱和度等方法来表达其影片的创作意图。考虑到亮度、对比度和饱和度之间会互相影响造成人眼主观感受不同，所以对于不同的素材如何组合这些算法也是个难题。

发明内容

本发明是为了克服现有技术中存在上述的不足，提供了一种简化处理流程的基于机器学习的视频处理方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于机器学习的视频处理方法，包括筛选数据和提取特征形成数据集、训练生成预测模型、视频处理三个部分，具体包括如下步骤：

(1)构建数据集时，首先通过一定规则对视频序列筛选样本点，尽可能去除视频内容空间冗余和时间冗余，使得得到的数据集在规模不大的情况下覆盖尽可能多的数据特征，既考虑场景内整体的亮度和对比度，又考虑每个图像帧和16x16宏块的亮度和对比度，最终每帧图像都提取一定比例的像素点作为样本形成数据集；

(2)训练生成预测模型时，采用简单的多层全连接神经网络，保证预测精度的同时运算复杂度较低；

(3)视频处理时，使用训练好的预测模型对输入图像进行处理，然后再进行去块效应滤波和样点自适应补偿滤波。

本发明基于机器学习的方法，通过一定规则筛选数据集，提取有效的数据特征，训练生成预测模型，并对处理后的图像进行去块效应滤波和样点自适应补偿滤波操作，使得最终输出的HDR图像能呈现很好的美感和保真度。本发明旨在提出一种基于机器学习的SDR视频向HDR视频转换的方法，有如下优势：简化处理流程，运算复杂度低，能够由输入的SDR图像通过网络模型直接预测得到HDR图像；网络模型考虑了视频中的场景、图像帧、宏块的亮度和色度特征，能够适应大多数不同风格的视频，使得转换得到的视频能呈现很好的图像美感和保真度。

作为优选，在步骤(1)中，构建数据集的具体操作方法如下：

(11)使用HDR摄像机，拍摄生成多段同样内容的HDR和SDR素材；

(12)对于SDR素材，进行场景检测，并以16x16的宏块MB分割图像，并将相邻的4x4个宏块MB作为搜索单元；

(13)如果当前帧为序列开始帧或场景切换点，那么选取每个搜索单元的左上角宏块为有效宏块，并记录该宏块坐标(x,y)；如果当前帧为场景内的某一帧，那么以前一帧的有效宏块坐标(x’,y’)作为基准宏块，在搜索单元内依次遍历所有宏块并计算与基准宏块的亮度值的欧氏距离，并以欧式距离最大的宏块作为有效宏块，并记录该宏块坐标(x,y)；

(14)以步长4对有效宏块内的像素点进行降采样，即每个宏块提取到4x4＝16个有效像素点；

(15)以每个有效像素点的Y/U/V分量分别作为每一个样本点的3个特征值；

(16)对有效宏块的256个像素进行直方图统计，分别获取Y/U/V分量的数值的平均值、中位值，并获取其最大值和最小值，这样Y/U/V三个分量的最大值、最小值、平均值、中位值，共12个数值作为整个宏块中每个样本点的特征值；

(17)对整帧图像的像素点做直方图统计，分别获取Y/U/V分量的数值的平均值、中位值、众数值，并获取其最大值和最小值，这样Y/U/V三个分量的最大值、最小值、平均值、中位值、众数值，共15个数值作为整帧图像中每个样本点的特征值；

(18)如果检测到场景切换，那么统计前一个场景的亮度平均值，作为整个场景中每个样本点的特征值；

(19)对于HDR素材，以同样的方式分割图像，并以SDR图像中有效宏块坐标(x,y)，获取与之相对应的有效像素点的Y/U/V分量的数值，作为一个样本点的3个输出值；这样，每个样本点共计31个特征值和3个输出值。

在筛选数据的过程中，通过分区域和降采样，有效降低数据的空间冗余；通过前后帧之间选取差异化最大的宏块，有效降低数据的时间冗余。

作为优选，在步骤(12)中，图像行尾和列尾不足4个的，以实际大小为准。

作为优选，在步骤(13)中，欧氏距离的计算公式为：

其中Y_i指的是第i帧有效宏块的像素亮度分量，Y_i'指的是第i帧的基准宏块的像素亮度分量。

作为优选，在步骤(2)中，训练生成预测模型的具体操作方法如下：

(21)构建训练网络，使用简单的多层全连接神经网络，样本点中有31个特征值，选择网络模型；

(22)使用上述网络模型分别以Y/U/V分量为输出值进行训练；

(23)选择合适的迭代步长和次数，并根据训练结果做适当调整，最终保存3个网络模型参数。

作为优选，在步骤(3)中，视频处理的具体操作方法如下：

(31)将输入的SDR视频解码，并检测场景；

(32)遍历该场景，对于每帧图像分别计算得到整帧图像Y/U/V分量的数值的平均值、中位值、众数值，并获取其最大值和最小值，得到15个输入特征值；

(33)由该场景中每帧图像的亮度平均值，计算该场景的亮度平均值，得到1个输入特征值；

(34)对于每帧图像，将其划分为16x16大小的宏块，分别计算得到每个宏块Y/U/V分量的平均值、中位值，并获取其最大值和最小值，得到12个输入特征值；

(35)对于图像中的每个像素点，由其自身的Y/U/V分量的3个值，加上其所属宏块的12个输入特征值，加上所属图像帧的15个输入特征值，再加上所属场景的1个输入特征值，组成长度为31的输入特征向量；

(36)使用步骤(2)中训练好的网络模型参数，分别预测得到每个像素的Y/U/V分量的输出；

(37)对预测输出的图像进行去块效应滤波和样点自适应补偿滤波，得到最终的HDR图像；

(38)对HDR图像序列进行视频编码压缩，输出HDR视频。

本发明的有益效果是：简化处理流程，运算复杂度低，能够由输入的SDR图像通过网络模型直接预测得到HDR图像；能够适应大多数不同风格的视频，使得转换得到的视频能呈现很好的图像美感和保真度。

附图说明

图1是本发明步骤(1)中图像分割的示意图；

图2是本发明步骤(2)中网络模型的示意图；

图3是本发明步骤(2)中网络模型训练的流程图；

图4、图5、图6是本发明Y/U/V三个分量的预测图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

构建数据集的具体操作方法如下：

(11)使用HDR摄像机，拍摄生成多段同样内容的HDR和SDR素材；

(12)对于SDR素材，进行场景检测，并以16x16的宏块MB分割图像，并将相邻的4x4个宏块MB作为搜索单元；图像行尾和列尾不足4个的，以实际大小为准，如图1所示；

(13)如果当前帧为序列开始帧或场景切换点，那么选取每个搜索单元的左上角宏块为有效宏块，并记录该宏块坐标(x,y)；如果当前帧为场景内的某一帧，那么以前一帧的有效宏块坐标(x’,y’)作为基准宏块，在搜索单元内依次遍历所有宏块并计算与基准宏块的亮度值的欧氏距离，并以欧式距离最大的宏块作为有效宏块，并记录该宏块坐标(x,y)；欧氏距离的计算公式为：

其中Y_i指的是第i帧有效宏块的像素亮度分量，Y_i'指的是第i帧的基准宏块的像素亮度分量；

Y/U/V三个分量的最大值、最小值、平均值、中位值、众数值指的是：分别对宏块中的Y/U/V分量处理，以Y分量为例。最大值表示宏块中256个像素里Y分量数值的最大值Ymax；最小值表示宏块中256个像素里Y分量数值的最小值Ymin；平均值表示宏块中256个像素里Y分量数值的平均值Ymean；中位值表示将宏块中256个像素里Y分量数值从小到大排列后，居于最中间的数值，由于有256个数值，所以取最中间的两个数值的平均值作为中位值Ymedian；众数值表示将宏块中256个像素里Y分量进行直方图统计，得到出现次数最多的数值作为众数值Ymode。

训练生成预测模型的具体操作方法如下：

(21)构建训练网络，使用简单的多层全连接神经网络，由于样本点中有31个特征值，选择网络模型为(31,40,20,10,1)，如图2所示；

神经网络由一个输入层，一个输出层，多个隐藏层构成，并且每层的神经元与下一层的神经元都由连接，由于没有卷积层、池化层等，故而是简单的多层全连接神经网络。由于有31个特征值，所以输入层中有31个神经元；只有一个输出值，所以输出层中只有1个神经元。网络模型(31,40,20,10,1)中的31表示输入层的31个神经元，40表示第一隐藏层中的40个神经元，20表示第二隐藏层中的20个神经元，10表示第三隐藏层中的10个神经元，1表示输出层的1个神经元。隐藏层的个数以及每个隐藏层中神经元的个数一般根据用户设备的计算能力和要求精度来定，也可根据经验进行修改。

(22)使用上述网络模型分别以Y/U/V分量为输出值进行训练；

如图3所示，假设迭代次数上限为CntMax，迭代步长初始值为Step＝0.1，步长下限为StepMin，误差下限值为ErrMin。实际应用中可参考数值CntMax＝10000，StepMin＝0.01，ErrMin＝0.01。

(3)视频处理时，使用训练好的预测模型对输入图像进行处理，然后再进行去块效应滤波和样点自适应补偿滤波；

视频处理的具体操作方法如下：

(31)将输入的SDR视频解码，并检测场景；

去块效应滤波和样点自适应滤波是目前比较成熟的图像处理技术，并不属于本方案发明内容，本方案只是采用了该技术用于提升图像质量。

(1)由于处理算法是以宏块为基本单位，最终处理完成的图像不可避免会产生一定的块效应。使用去块效应滤波能一定程度改善图像质量。去块效应滤波可参考如下：https://baike.baidu.com/item/％E5％8E％BB％E5％8C％BA％E5％9D％97％E6％BB％A4％E6％B3％A2％E5％99％A8/22785325？fr＝aladdin

(2)参考HEVC编码标准中的样点自适应补偿滤波，在于削弱图像的振铃效应。可参考：https://blog.csdn.net/linpengbin/article/details/48006427

(38)对HDR图像序列进行视频编码压缩，输出HDR视频。

本发明的方法对于单个像素的Y/U/V分量的处理结果，预测误差较低，数值误差基本能保持在5％以内，并且不存在过大误差。Y/U/V三个分量的预测对比如图4、图5、图6所示，图中‘^’表示实际像素值，‘.’表示预测像素值，‘*’表示预测误差。对于整体图像效果，针对不同风格的视频源，本发明简化了SDR视频向HDR视频转换的处理流程，减少了计算成本；并且能够适应大多数不同风格不同场景的视频，能够很大程度保留视频原始内容制作者的创作意图，最终转换结果能呈现很好的图像美感和保真度。

Claims

1.一种基于机器学习的视频处理方法，其特征是，包括筛选数据和提取特征形成数据集、训练生成预测模型、视频处理三个部分，具体包括如下步骤：

（1）构建数据集时，首先通过一定规则对视频序列筛选样本点，去除视频内容空间冗余和时间冗余，使得得到的数据集在规模不大的情况下覆盖尽可能多的数据特征，既考虑场景内整体的亮度和对比度，又考虑每个图像帧和16x16宏块的亮度和对比度，最终每帧图像都提取一定比例的像素点作为样本形成数据集；构建数据集的具体操作方法如下：

（11）使用HDR摄像机，拍摄生成多段同样内容的HDR和SDR素材；

（12）对于SDR素材，进行场景检测，并以16x16的宏块MB分割图像，并将相邻的4x4个宏块MB作为搜索单元；

（13）如果当前帧为序列开始帧或场景切换点，那么选取每个搜索单元的左上角宏块为有效宏块，并记录该宏块坐标(x, y)；如果当前帧为场景内的某一帧，那么以前一帧的有效宏块坐标(x’, y’)作为基准宏块，在搜索单元内依次遍历所有宏块并计算与基准宏块的亮度值的欧氏距离，并以欧式距离最大的宏块作为有效宏块，并记录该宏块坐标(x, y)；

（14）以步长4对有效宏块内的像素点进行降采样，即每个宏块提取到4x4=16个有效像素点；

（15）以每个有效像素点的Y/U/V分量分别作为每一个样本点的3个特征值；

（16）对有效宏块的256个像素进行直方图统计，分别获取Y/U/V分量的数值的平均值、中位值，并获取其最大值和最小值，这样Y/U/V三个分量的最大值、最小值、平均值、中位值，共12个数值作为整个宏块中每个样本点的特征值；

（17）对整帧图像的像素点做直方图统计，分别获取Y/U/V分量的数值的平均值、中位值、众数值，并获取其最大值和最小值，这样Y/U/V三个分量的最大值、最小值、平均值、中位值、众数值，共15个数值作为整帧图像中每个样本点的特征值；

（18）如果检测到场景切换，那么统计前一个场景的亮度平均值，作为整个场景中每个样本点的特征值；

（19）对于HDR素材，以同样的方式分割图像，并以SDR图像中有效宏块坐标(x, y)，获取与之相对应的有效像素点的Y/U/V分量的数值，作为一个样本点的3个输出值；这样，每个样本点共计31个特征值和3个输出值；

（2）训练生成预测模型时，采用简单的多层全连接神经网络，保证预测精度的同时运算复杂度较低；

（3）视频处理时，使用训练好的预测模型对输入图像进行处理，然后再进行去块效应滤波和样点自适应补偿滤波。

2.根据权利要求1所述的一种基于机器学习的视频处理方法，其特征是，在步骤（12）中，图像行尾和列尾不足4个的，以实际大小为准。

3.根据权利要求1所述的一种基于机器学习的视频处理方法，其特征是，在步骤（13）中，欧氏距离的计算公式为：

，其中Y_i指的是第i帧有效宏块的像素亮度分量，Y_i'指的是第i帧的基准宏块的像素亮度分量。

4.根据权利要求1所述的一种基于机器学习的视频处理方法，其特征是，在步骤（2）中，训练生成预测模型的具体操作方法如下：

（21）构建训练网络，使用简单的多层全连接神经网络，样本点中有31个特征值，选择网络模型；

（22）使用上述网络模型分别以Y/U/V分量为输出值进行训练；

（23）选择合适的迭代步长和次数，并根据训练结果做适当调整，最终保存3个网络模型参数。

5.根据权利要求1所述的一种基于机器学习的视频处理方法，其特征是，在步骤（3）中，视频处理的具体操作方法如下：

（31）将输入的SDR视频解码，并检测场景；

（32）遍历该场景，对于每帧图像分别计算得到整帧图像Y/U/V分量的数值的平均值、中位值、众数值，并获取其最大值和最小值，得到15个输入特征值；

（33）由该场景中每帧图像的亮度平均值，计算该场景的亮度平均值，得到1个输入特征值；

（34）对于每帧图像，将其划分为16x16大小的宏块，分别计算得到每个宏块Y/U/V分量的平均值、中位值，并获取其最大值和最小值，得到12个输入特征值；

（35）对于图像中的每个像素点，由其自身的Y/U/V分量的3个值，加上其所属宏块的12个输入特征值，加上所属图像帧的15个输入特征值，再加上所属场景的1个输入特征值，组成长度为31的输入特征向量；

（36）使用步骤（2）中训练好的网络模型参数，分别预测得到每个像素的Y/U/V分量的输出；

（37）对预测输出的图像进行去块效应滤波和样点自适应补偿滤波，得到最终的HDR图像；

（38）对HDR图像序列进行视频编码压缩，输出HDR视频。