CN111047529B - 一种基于机器学习的视频处理方法 - Google Patents

一种基于机器学习的视频处理方法 Download PDF

Info

Publication number
CN111047529B
CN111047529B CN201911189862.2A CN201911189862A CN111047529B CN 111047529 B CN111047529 B CN 111047529B CN 201911189862 A CN201911189862 A CN 201911189862A CN 111047529 B CN111047529 B CN 111047529B
Authority
CN
China
Prior art keywords
value
image
macro block
frame
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911189862.2A
Other languages
English (en)
Other versions
CN111047529A (zh
Inventor
王建伟
谢亚光
陈勇
孙彦龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Arcvideo Technology Co ltd
Original Assignee
Hangzhou Arcvideo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Arcvideo Technology Co ltd filed Critical Hangzhou Arcvideo Technology Co ltd
Priority to CN201911189862.2A priority Critical patent/CN111047529B/zh
Publication of CN111047529A publication Critical patent/CN111047529A/zh
Application granted granted Critical
Publication of CN111047529B publication Critical patent/CN111047529B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
    • H04N19/87Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/268Signal distribution or switching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于机器学习的视频处理方法。它包括筛选数据和提取特征形成数据集、训练生成预测模型、视频处理三个部分,具体包括如下步骤:(1)构建数据集时,首先通过一定规则对视频序列筛选样本点,尽可能去除视频内容空间冗余和时间冗余,最终每帧图像都提取一定比例的像素点作为样本形成数据集;(2)训练生成预测模型时,采用简单的多层全连接神经网络,保证预测精度的同时运算复杂度较低;(3)视频处理时,使用训练好的预测模型对输入图像进行处理,然后再进行去块效应滤波和样点自适应补偿滤波。本发明的有益效果是:简化处理流程,运算复杂度低;适应大多数不同风格的视频,呈现很好的图像美感和保真度。

Description

一种基于机器学习的视频处理方法
技术领域
本发明涉及视频图像处理相关技术领域,尤其是指一种基于机器学习的视频处理方法。
背景技术
高动态范围(High Dynamic Range,以下简称HDR)视频,相对于标准动态范围(Standard Dynamic Range,以下简称SDR)视频,图像的明暗层次更清晰,图像细节更丰富,能够更逼真的重现真实场景。随着HDR技术的发展以及HDR显示器的逐步普及,对HDR视频的需求逐步增加。真正的HDR视频制作需要在采集端使用高动态范围的成像器件,制作时也要使用支持HDR非编软件,也就是说HDR视频的内容制作对拍摄设备和前处理技术都有很高的要求,因此目前市场上的HDR内容仍处于相对匮乏的状态。另一方面,市场上有比较充足的制作精良的高清/超高清SDR片源。如何将这些SDR内容转换成高质量HDR格式视频,具有比较重要的现实意义。
目前大部分的研究集中在SDR图像和HDR图像的相互转换,色调映射(ToneMapping)和逆色调映射(Inverse Tone Mapping)是SDR图像和HDR图像之间相互转换的关键技术。SDR视频向HDR视频转换处理,一般会涉及到YUV到RGB域的颜色空间转换、光电/电光曲线转换、色调映射、色域映射等操作,并且通常会加入一些传统的图像处理算法,每个算法实现不同的功能,如亮度增强算法、对比度增强算法、饱和度增强算法等。在HDR图像处理中如果同时应用这些算法,复杂度会很高不利于实际应用。另外,不同的视频内容制作者一般会通过调节不同的亮度、对比度、饱和度等方法来表达其影片的创作意图。考虑到亮度、对比度和饱和度之间会互相影响造成人眼主观感受不同,所以对于不同的素材如何组合这些算法也是个难题。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种简化处理流程的基于机器学习的视频处理方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于机器学习的视频处理方法,包括筛选数据和提取特征形成数据集、训练生成预测模型、视频处理三个部分,具体包括如下步骤:
(1)构建数据集时,首先通过一定规则对视频序列筛选样本点,尽可能去除视频内容空间冗余和时间冗余,使得得到的数据集在规模不大的情况下覆盖尽可能多的数据特征,既考虑场景内整体的亮度和对比度,又考虑每个图像帧和16x16宏块的亮度和对比度,最终每帧图像都提取一定比例的像素点作为样本形成数据集;
(2)训练生成预测模型时,采用简单的多层全连接神经网络,保证预测精度的同时运算复杂度较低;
(3)视频处理时,使用训练好的预测模型对输入图像进行处理,然后再进行去块效应滤波和样点自适应补偿滤波。
本发明基于机器学习的方法,通过一定规则筛选数据集,提取有效的数据特征,训练生成预测模型,并对处理后的图像进行去块效应滤波和样点自适应补偿滤波操作,使得最终输出的HDR图像能呈现很好的美感和保真度。本发明旨在提出一种基于机器学习的SDR视频向HDR视频转换的方法,有如下优势:简化处理流程,运算复杂度低,能够由输入的SDR图像通过网络模型直接预测得到HDR图像;网络模型考虑了视频中的场景、图像帧、宏块的亮度和色度特征,能够适应大多数不同风格的视频,使得转换得到的视频能呈现很好的图像美感和保真度。
作为优选,在步骤(1)中,构建数据集的具体操作方法如下:
(11)使用HDR摄像机,拍摄生成多段同样内容的HDR和SDR素材;
(12)对于SDR素材,进行场景检测,并以16x16的宏块MB分割图像,并将相邻的4x4个宏块MB作为搜索单元;
(13)如果当前帧为序列开始帧或场景切换点,那么选取每个搜索单元的左上角宏块为有效宏块,并记录该宏块坐标(x,y);如果当前帧为场景内的某一帧,那么以前一帧的有效宏块坐标(x’,y’)作为基准宏块,在搜索单元内依次遍历所有宏块并计算与基准宏块的亮度值的欧氏距离,并以欧式距离最大的宏块作为有效宏块,并记录该宏块坐标(x,y);
(14)以步长4对有效宏块内的像素点进行降采样,即每个宏块提取到4x4=16个有效像素点;
(15)以每个有效像素点的Y/U/V分量分别作为每一个样本点的3个特征值;
(16)对有效宏块的256个像素进行直方图统计,分别获取Y/U/V分量的数值的平均值、中位值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值,共12个数值作为整个宏块中每个样本点的特征值;
(17)对整帧图像的像素点做直方图统计,分别获取Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值、众数值,共15个数值作为整帧图像中每个样本点的特征值;
(18)如果检测到场景切换,那么统计前一个场景的亮度平均值,作为整个场景中每个样本点的特征值;
(19)对于HDR素材,以同样的方式分割图像,并以SDR图像中有效宏块坐标(x,y),获取与之相对应的有效像素点的Y/U/V分量的数值,作为一个样本点的3个输出值;这样,每个样本点共计31个特征值和3个输出值。
在筛选数据的过程中,通过分区域和降采样,有效降低数据的空间冗余;通过前后帧之间选取差异化最大的宏块,有效降低数据的时间冗余。
作为优选,在步骤(12)中,图像行尾和列尾不足4个的,以实际大小为准。
作为优选,在步骤(13)中,欧氏距离的计算公式为:
Figure BDA0002293290500000041
其中Yi指的是第i帧有效宏块的像素亮度分量,Yi'指的是第i帧的基准宏块的像素亮度分量。
作为优选,在步骤(2)中,训练生成预测模型的具体操作方法如下:
(21)构建训练网络,使用简单的多层全连接神经网络,样本点中有31个特征值,选择网络模型;
(22)使用上述网络模型分别以Y/U/V分量为输出值进行训练;
(23)选择合适的迭代步长和次数,并根据训练结果做适当调整,最终保存3个网络模型参数。
作为优选,在步骤(3)中,视频处理的具体操作方法如下:
(31)将输入的SDR视频解码,并检测场景;
(32)遍历该场景,对于每帧图像分别计算得到整帧图像Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,得到15个输入特征值;
(33)由该场景中每帧图像的亮度平均值,计算该场景的亮度平均值,得到1个输入特征值;
(34)对于每帧图像,将其划分为16x16大小的宏块,分别计算得到每个宏块Y/U/V分量的平均值、中位值,并获取其最大值和最小值,得到12个输入特征值;
(35)对于图像中的每个像素点,由其自身的Y/U/V分量的3个值,加上其所属宏块的12个输入特征值,加上所属图像帧的15个输入特征值,再加上所属场景的1个输入特征值,组成长度为31的输入特征向量;
(36)使用步骤(2)中训练好的网络模型参数,分别预测得到每个像素的Y/U/V分量的输出;
(37)对预测输出的图像进行去块效应滤波和样点自适应补偿滤波,得到最终的HDR图像;
(38)对HDR图像序列进行视频编码压缩,输出HDR视频。
本发明的有益效果是:简化处理流程,运算复杂度低,能够由输入的SDR图像通过网络模型直接预测得到HDR图像;能够适应大多数不同风格的视频,使得转换得到的视频能呈现很好的图像美感和保真度。
附图说明
图1是本发明步骤(1)中图像分割的示意图;
图2是本发明步骤(2)中网络模型的示意图;
图3是本发明步骤(2)中网络模型训练的流程图;
图4、图5、图6是本发明Y/U/V三个分量的预测图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
一种基于机器学习的视频处理方法,包括筛选数据和提取特征形成数据集、训练生成预测模型、视频处理三个部分,具体包括如下步骤:
(1)构建数据集时,首先通过一定规则对视频序列筛选样本点,尽可能去除视频内容空间冗余和时间冗余,使得得到的数据集在规模不大的情况下覆盖尽可能多的数据特征,既考虑场景内整体的亮度和对比度,又考虑每个图像帧和16x16宏块的亮度和对比度,最终每帧图像都提取一定比例的像素点作为样本形成数据集;
构建数据集的具体操作方法如下:
(11)使用HDR摄像机,拍摄生成多段同样内容的HDR和SDR素材;
(12)对于SDR素材,进行场景检测,并以16x16的宏块MB分割图像,并将相邻的4x4个宏块MB作为搜索单元;图像行尾和列尾不足4个的,以实际大小为准,如图1所示;
(13)如果当前帧为序列开始帧或场景切换点,那么选取每个搜索单元的左上角宏块为有效宏块,并记录该宏块坐标(x,y);如果当前帧为场景内的某一帧,那么以前一帧的有效宏块坐标(x’,y’)作为基准宏块,在搜索单元内依次遍历所有宏块并计算与基准宏块的亮度值的欧氏距离,并以欧式距离最大的宏块作为有效宏块,并记录该宏块坐标(x,y);欧氏距离的计算公式为:
Figure BDA0002293290500000071
其中Yi指的是第i帧有效宏块的像素亮度分量,Yi'指的是第i帧的基准宏块的像素亮度分量;
(14)以步长4对有效宏块内的像素点进行降采样,即每个宏块提取到4x4=16个有效像素点;
(15)以每个有效像素点的Y/U/V分量分别作为每一个样本点的3个特征值;
(16)对有效宏块的256个像素进行直方图统计,分别获取Y/U/V分量的数值的平均值、中位值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值,共12个数值作为整个宏块中每个样本点的特征值;
(17)对整帧图像的像素点做直方图统计,分别获取Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值、众数值,共15个数值作为整帧图像中每个样本点的特征值;
Y/U/V三个分量的最大值、最小值、平均值、中位值、众数值指的是:分别对宏块中的Y/U/V分量处理,以Y分量为例。最大值表示宏块中256个像素里Y分量数值的最大值Ymax;最小值表示宏块中256个像素里Y分量数值的最小值Ymin;平均值表示宏块中256个像素里Y分量数值的平均值Ymean;中位值表示将宏块中256个像素里Y分量数值从小到大排列后,居于最中间的数值,由于有256个数值,所以取最中间的两个数值的平均值作为中位值Ymedian;众数值表示将宏块中256个像素里Y分量进行直方图统计,得到出现次数最多的数值作为众数值Ymode。
(18)如果检测到场景切换,那么统计前一个场景的亮度平均值,作为整个场景中每个样本点的特征值;
(19)对于HDR素材,以同样的方式分割图像,并以SDR图像中有效宏块坐标(x,y),获取与之相对应的有效像素点的Y/U/V分量的数值,作为一个样本点的3个输出值;这样,每个样本点共计31个特征值和3个输出值。
在筛选数据的过程中,通过分区域和降采样,有效降低数据的空间冗余;通过前后帧之间选取差异化最大的宏块,有效降低数据的时间冗余。
(2)训练生成预测模型时,采用简单的多层全连接神经网络,保证预测精度的同时运算复杂度较低;
训练生成预测模型的具体操作方法如下:
(21)构建训练网络,使用简单的多层全连接神经网络,由于样本点中有31个特征值,选择网络模型为(31,40,20,10,1),如图2所示;
神经网络由一个输入层,一个输出层,多个隐藏层构成,并且每层的神经元与下一层的神经元都由连接,由于没有卷积层、池化层等,故而是简单的多层全连接神经网络。由于有31个特征值,所以输入层中有31个神经元;只有一个输出值,所以输出层中只有1个神经元。网络模型(31,40,20,10,1)中的31表示输入层的31个神经元,40表示第一隐藏层中的40个神经元,20表示第二隐藏层中的20个神经元,10表示第三隐藏层中的10个神经元,1表示输出层的1个神经元。隐藏层的个数以及每个隐藏层中神经元的个数一般根据用户设备的计算能力和要求精度来定,也可根据经验进行修改。
(22)使用上述网络模型分别以Y/U/V分量为输出值进行训练;
(23)选择合适的迭代步长和次数,并根据训练结果做适当调整,最终保存3个网络模型参数。
如图3所示,假设迭代次数上限为CntMax,迭代步长初始值为Step=0.1,步长下限为StepMin,误差下限值为ErrMin。实际应用中可参考数值CntMax=10000,StepMin=0.01,ErrMin=0.01。
(3)视频处理时,使用训练好的预测模型对输入图像进行处理,然后再进行去块效应滤波和样点自适应补偿滤波;
视频处理的具体操作方法如下:
(31)将输入的SDR视频解码,并检测场景;
(32)遍历该场景,对于每帧图像分别计算得到整帧图像Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,得到15个输入特征值;
(33)由该场景中每帧图像的亮度平均值,计算该场景的亮度平均值,得到1个输入特征值;
(34)对于每帧图像,将其划分为16x16大小的宏块,分别计算得到每个宏块Y/U/V分量的平均值、中位值,并获取其最大值和最小值,得到12个输入特征值;
(35)对于图像中的每个像素点,由其自身的Y/U/V分量的3个值,加上其所属宏块的12个输入特征值,加上所属图像帧的15个输入特征值,再加上所属场景的1个输入特征值,组成长度为31的输入特征向量;
(36)使用步骤(2)中训练好的网络模型参数,分别预测得到每个像素的Y/U/V分量的输出;
(37)对预测输出的图像进行去块效应滤波和样点自适应补偿滤波,得到最终的HDR图像;
去块效应滤波和样点自适应滤波是目前比较成熟的图像处理技术,并不属于本方案发明内容,本方案只是采用了该技术用于提升图像质量。
(1)由于处理算法是以宏块为基本单位,最终处理完成的图像不可避免会产生一定的块效应。使用去块效应滤波能一定程度改善图像质量。去块效应滤波可参考如下:https://baike.baidu.com/item/%E5%8E%BB%E5%8C%BA%E5%9D%97%E6%BB%A4%E6%B3%A2%E5%99%A8/22785325?fr=aladdin
(2)参考HEVC编码标准中的样点自适应补偿滤波,在于削弱图像的振铃效应。可参考:https://blog.csdn.net/linpengbin/article/details/48006427
(38)对HDR图像序列进行视频编码压缩,输出HDR视频。
本发明的方法对于单个像素的Y/U/V分量的处理结果,预测误差较低,数值误差基本能保持在5%以内,并且不存在过大误差。Y/U/V三个分量的预测对比如图4、图5、图6所示,图中‘^’表示实际像素值,‘.’表示预测像素值,‘*’表示预测误差。对于整体图像效果,针对不同风格的视频源,本发明简化了SDR视频向HDR视频转换的处理流程,减少了计算成本;并且能够适应大多数不同风格不同场景的视频,能够很大程度保留视频原始内容制作者的创作意图,最终转换结果能呈现很好的图像美感和保真度。

Claims (5)

1.一种基于机器学习的视频处理方法,其特征是,包括筛选数据和提取特征形成数据集、训练生成预测模型、视频处理三个部分,具体包括如下步骤:
(1)构建数据集时,首先通过一定规则对视频序列筛选样本点,去除视频内容空间冗余和时间冗余,使得得到的数据集在规模不大的情况下覆盖尽可能多的数据特征,既考虑场景内整体的亮度和对比度,又考虑每个图像帧和16x16宏块的亮度和对比度,最终每帧图像都提取一定比例的像素点作为样本形成数据集;构建数据集的具体操作方法如下:
(11)使用HDR摄像机,拍摄生成多段同样内容的HDR和SDR素材;
(12)对于SDR素材,进行场景检测,并以16x16的宏块MB分割图像,并将相邻的4x4个宏块MB作为搜索单元;
(13)如果当前帧为序列开始帧或场景切换点,那么选取每个搜索单元的左上角宏块为有效宏块,并记录该宏块坐标(x, y);如果当前帧为场景内的某一帧,那么以前一帧的有效宏块坐标(x’, y’)作为基准宏块,在搜索单元内依次遍历所有宏块并计算与基准宏块的亮度值的欧氏距离,并以欧式距离最大的宏块作为有效宏块,并记录该宏块坐标(x, y);
(14)以步长4对有效宏块内的像素点进行降采样,即每个宏块提取到4x4=16个有效像素点;
(15)以每个有效像素点的Y/U/V分量分别作为每一个样本点的3个特征值;
(16)对有效宏块的256个像素进行直方图统计,分别获取Y/U/V分量的数值的平均值、中位值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值,共12个数值作为整个宏块中每个样本点的特征值;
(17)对整帧图像的像素点做直方图统计,分别获取Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值、众数值,共15个数值作为整帧图像中每个样本点的特征值;
(18)如果检测到场景切换,那么统计前一个场景的亮度平均值,作为整个场景中每个样本点的特征值;
(19)对于HDR素材,以同样的方式分割图像,并以SDR图像中有效宏块坐标(x, y),获取与之相对应的有效像素点的Y/U/V分量的数值,作为一个样本点的3个输出值;这样,每个样本点共计31个特征值和3个输出值;
(2)训练生成预测模型时,采用简单的多层全连接神经网络,保证预测精度的同时运算复杂度较低;
(3)视频处理时,使用训练好的预测模型对输入图像进行处理,然后再进行去块效应滤波和样点自适应补偿滤波。
2.根据权利要求1所述的一种基于机器学习的视频处理方法,其特征是,在步骤(12)中,图像行尾和列尾不足4个的,以实际大小为准。
3.根据权利要求1所述的一种基于机器学习的视频处理方法,其特征是,在步骤(13)中,欧氏距离的计算公式为:
Figure QLYQS_1
,其中Yi指的是第i帧有效宏块的像素亮度分量,Yi'指的是第i帧的基准宏块的像素亮度分量。
4.根据权利要求1所述的一种基于机器学习的视频处理方法,其特征是,在步骤(2)中,训练生成预测模型的具体操作方法如下:
(21)构建训练网络,使用简单的多层全连接神经网络,样本点中有31个特征值,选择网络模型;
(22)使用上述网络模型分别以Y/U/V分量为输出值进行训练;
(23)选择合适的迭代步长和次数,并根据训练结果做适当调整,最终保存3个网络模型参数。
5.根据权利要求1所述的一种基于机器学习的视频处理方法,其特征是,在步骤(3)中,视频处理的具体操作方法如下:
(31)将输入的SDR视频解码,并检测场景;
(32)遍历该场景,对于每帧图像分别计算得到整帧图像Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,得到15个输入特征值;
(33)由该场景中每帧图像的亮度平均值,计算该场景的亮度平均值,得到1个输入特征值;
(34)对于每帧图像,将其划分为16x16大小的宏块,分别计算得到每个宏块Y/U/V分量的平均值、中位值,并获取其最大值和最小值,得到12个输入特征值;
(35)对于图像中的每个像素点,由其自身的Y/U/V分量的3个值,加上其所属宏块的12个输入特征值,加上所属图像帧的15个输入特征值,再加上所属场景的1个输入特征值,组成长度为31的输入特征向量;
(36)使用步骤(2)中训练好的网络模型参数,分别预测得到每个像素的Y/U/V分量的输出;
(37)对预测输出的图像进行去块效应滤波和样点自适应补偿滤波,得到最终的HDR图像;
(38)对HDR图像序列进行视频编码压缩,输出HDR视频。
CN201911189862.2A 2019-11-28 2019-11-28 一种基于机器学习的视频处理方法 Active CN111047529B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911189862.2A CN111047529B (zh) 2019-11-28 2019-11-28 一种基于机器学习的视频处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911189862.2A CN111047529B (zh) 2019-11-28 2019-11-28 一种基于机器学习的视频处理方法

Publications (2)

Publication Number Publication Date
CN111047529A CN111047529A (zh) 2020-04-21
CN111047529B true CN111047529B (zh) 2023-05-23

Family

ID=70233921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911189862.2A Active CN111047529B (zh) 2019-11-28 2019-11-28 一种基于机器学习的视频处理方法

Country Status (1)

Country Link
CN (1) CN111047529B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114092756A (zh) * 2020-08-25 2022-02-25 阿里巴巴集团控股有限公司 图像处理模型训练方法及装置
US11430085B2 (en) 2020-09-22 2022-08-30 Facebook Technologies, Llc Efficient motion-compensated spatiotemporal sampling
US11386532B2 (en) * 2020-09-22 2022-07-12 Facebook Technologies, Llc. Blue noise mask for video sampling
CN112666178B (zh) * 2020-12-14 2024-06-18 杭州当虹科技股份有限公司 一种户外led大屏坏点在线监控方法
CN114640890B (zh) * 2020-12-15 2024-05-17 北京神州数码云科信息技术有限公司 一种视频数据动态加载方法、装置、电子设备及存储介质
CN112738392A (zh) * 2020-12-24 2021-04-30 上海哔哩哔哩科技有限公司 图像转换方法及系统
CN112738511B (zh) * 2021-04-01 2021-06-25 杭州微帧信息科技有限公司 一种结合视频分析的快速模式决策方法及装置
CN116600118B (zh) * 2023-07-18 2023-10-03 华洋通信科技股份有限公司 一种基于混合特征多模态分析的视频采集参数优化方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413286A (zh) * 2013-08-02 2013-11-27 北京工业大学 一种基于学习的高动态范围与高分辨率图像联合重建方法
CN108109180A (zh) * 2017-12-12 2018-06-01 上海顺久电子科技有限公司 一种对输入的高动态范围图像进行处理的方法和显示设备
CN108184129A (zh) * 2017-12-11 2018-06-19 北京大学 一种视频编解码方法、装置及用于图像滤波的神经网络
WO2018231968A1 (en) * 2017-06-16 2018-12-20 Dolby Laboratories Licensing Corporation Efficient end-to-end single layer inverse display management coding
CN109327734A (zh) * 2018-11-27 2019-02-12 成都索贝数码科技股份有限公司 一种基于动态测光的hdr视频下变换到sdr视频的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413286A (zh) * 2013-08-02 2013-11-27 北京工业大学 一种基于学习的高动态范围与高分辨率图像联合重建方法
WO2018231968A1 (en) * 2017-06-16 2018-12-20 Dolby Laboratories Licensing Corporation Efficient end-to-end single layer inverse display management coding
CN108184129A (zh) * 2017-12-11 2018-06-19 北京大学 一种视频编解码方法、装置及用于图像滤波的神经网络
CN108109180A (zh) * 2017-12-12 2018-06-01 上海顺久电子科技有限公司 一种对输入的高动态范围图像进行处理的方法和显示设备
CN109327734A (zh) * 2018-11-27 2019-02-12 成都索贝数码科技股份有限公司 一种基于动态测光的hdr视频下变换到sdr视频的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jae Sung Park,et al..High Dynamic Range and Super-Resolution Imaging From a Single Image.《IEEE Access》.2018,10966-10978. *
戴价.基于HDR的投影机亮度曲线标定.基于HDR的投影机亮度曲线标定.2013,54-56. *

Also Published As

Publication number Publication date
CN111047529A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111047529B (zh) 一种基于机器学习的视频处理方法
CN111868751B (zh) 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数
Cheng et al. Light-guided and cross-fusion U-Net for anti-illumination image super-resolution
KR102535098B1 (ko) 이미지 프로세싱 및 비디오 압축 방법
Cui et al. Convolutional neural networks based intra prediction for HEVC
Zhang et al. Machine learning based video coding optimizations: A survey
CN111837140B (zh) 视频代码化的感受野一致卷积模型
CN110717868B (zh) 视频高动态范围反色调映射模型构建、映射方法及装置
TW202234890A (zh) 通過指示特徵圖資料進行編碼
WO2021249290A1 (zh) 环路滤波方法和装置
CN111047543A (zh) 图像增强方法、装置和存储介质
CN113066022B (zh) 一种基于高效时空信息融合的视频比特增强方法
CN109902613A (zh) 一种基于迁移学习和图像增强的人体特征提取方法
Liu et al. Fast depth intra coding based on depth edge classification network in 3D-HEVC
CN111079864A (zh) 一种基于优化视频关键帧提取的短视频分类方法及系统
WO2022063267A1 (zh) 帧内预测方法及装置
CN114299180A (zh) 图像重建方法、装置、设备及存储介质
CN117611467A (zh) 一种能同时平衡不同区域细节和亮度的低光图像增强方法
CN106303527B (zh) 时分复用神经网络处理器的视频分级码流编码方法和系统
CN117351340A (zh) 基于双颜色空间的水下图像增强算法
CN114463189A (zh) 一种基于密集残差型UNet的图像信息解析建模方法
CN115829868A (zh) 基于光照与噪声残差图的水下暗光图像增强方法
CN116524387A (zh) 一种基于深度学习网络的超高清视频压缩损伤等级评估方法
Xie et al. Just noticeable visual redundancy forecasting: a deep multimodal-driven approach
CN115456903B (zh) 一种基于深度学习的全彩夜视增强方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant