CN111047529B - 一种基于机器学习的视频处理方法 - Google Patents
一种基于机器学习的视频处理方法 Download PDFInfo
- Publication number
- CN111047529B CN111047529B CN201911189862.2A CN201911189862A CN111047529B CN 111047529 B CN111047529 B CN 111047529B CN 201911189862 A CN201911189862 A CN 201911189862A CN 111047529 B CN111047529 B CN 111047529B
- Authority
- CN
- China
- Prior art keywords
- value
- image
- macro block
- frame
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 14
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000001914 filtration Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000005070 sampling Methods 0.000 claims abstract description 9
- 238000012216 screening Methods 0.000 claims abstract description 6
- 239000000463 material Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 210000002569 neuron Anatomy 0.000 description 10
- 238000013507 mapping Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013316 zoning Methods 0.000 description 2
- 102100028292 Aladin Human genes 0.000 description 1
- 101710065039 Aladin Proteins 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/117—Filters, e.g. for pre-processing or post-processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/146—Data rate or code amount at the encoder output
- H04N19/149—Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/186—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/87—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/268—Signal distribution or switching
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于机器学习的视频处理方法。它包括筛选数据和提取特征形成数据集、训练生成预测模型、视频处理三个部分,具体包括如下步骤:(1)构建数据集时,首先通过一定规则对视频序列筛选样本点,尽可能去除视频内容空间冗余和时间冗余,最终每帧图像都提取一定比例的像素点作为样本形成数据集;(2)训练生成预测模型时,采用简单的多层全连接神经网络,保证预测精度的同时运算复杂度较低;(3)视频处理时,使用训练好的预测模型对输入图像进行处理,然后再进行去块效应滤波和样点自适应补偿滤波。本发明的有益效果是:简化处理流程,运算复杂度低;适应大多数不同风格的视频,呈现很好的图像美感和保真度。
Description
技术领域
本发明涉及视频图像处理相关技术领域,尤其是指一种基于机器学习的视频处理方法。
背景技术
高动态范围(High Dynamic Range,以下简称HDR)视频,相对于标准动态范围(Standard Dynamic Range,以下简称SDR)视频,图像的明暗层次更清晰,图像细节更丰富,能够更逼真的重现真实场景。随着HDR技术的发展以及HDR显示器的逐步普及,对HDR视频的需求逐步增加。真正的HDR视频制作需要在采集端使用高动态范围的成像器件,制作时也要使用支持HDR非编软件,也就是说HDR视频的内容制作对拍摄设备和前处理技术都有很高的要求,因此目前市场上的HDR内容仍处于相对匮乏的状态。另一方面,市场上有比较充足的制作精良的高清/超高清SDR片源。如何将这些SDR内容转换成高质量HDR格式视频,具有比较重要的现实意义。
目前大部分的研究集中在SDR图像和HDR图像的相互转换,色调映射(ToneMapping)和逆色调映射(Inverse Tone Mapping)是SDR图像和HDR图像之间相互转换的关键技术。SDR视频向HDR视频转换处理,一般会涉及到YUV到RGB域的颜色空间转换、光电/电光曲线转换、色调映射、色域映射等操作,并且通常会加入一些传统的图像处理算法,每个算法实现不同的功能,如亮度增强算法、对比度增强算法、饱和度增强算法等。在HDR图像处理中如果同时应用这些算法,复杂度会很高不利于实际应用。另外,不同的视频内容制作者一般会通过调节不同的亮度、对比度、饱和度等方法来表达其影片的创作意图。考虑到亮度、对比度和饱和度之间会互相影响造成人眼主观感受不同,所以对于不同的素材如何组合这些算法也是个难题。
发明内容
本发明是为了克服现有技术中存在上述的不足,提供了一种简化处理流程的基于机器学习的视频处理方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于机器学习的视频处理方法,包括筛选数据和提取特征形成数据集、训练生成预测模型、视频处理三个部分,具体包括如下步骤:
(1)构建数据集时,首先通过一定规则对视频序列筛选样本点,尽可能去除视频内容空间冗余和时间冗余,使得得到的数据集在规模不大的情况下覆盖尽可能多的数据特征,既考虑场景内整体的亮度和对比度,又考虑每个图像帧和16x16宏块的亮度和对比度,最终每帧图像都提取一定比例的像素点作为样本形成数据集;
(2)训练生成预测模型时,采用简单的多层全连接神经网络,保证预测精度的同时运算复杂度较低;
(3)视频处理时,使用训练好的预测模型对输入图像进行处理,然后再进行去块效应滤波和样点自适应补偿滤波。
本发明基于机器学习的方法,通过一定规则筛选数据集,提取有效的数据特征,训练生成预测模型,并对处理后的图像进行去块效应滤波和样点自适应补偿滤波操作,使得最终输出的HDR图像能呈现很好的美感和保真度。本发明旨在提出一种基于机器学习的SDR视频向HDR视频转换的方法,有如下优势:简化处理流程,运算复杂度低,能够由输入的SDR图像通过网络模型直接预测得到HDR图像;网络模型考虑了视频中的场景、图像帧、宏块的亮度和色度特征,能够适应大多数不同风格的视频,使得转换得到的视频能呈现很好的图像美感和保真度。
作为优选,在步骤(1)中,构建数据集的具体操作方法如下:
(11)使用HDR摄像机,拍摄生成多段同样内容的HDR和SDR素材;
(12)对于SDR素材,进行场景检测,并以16x16的宏块MB分割图像,并将相邻的4x4个宏块MB作为搜索单元;
(13)如果当前帧为序列开始帧或场景切换点,那么选取每个搜索单元的左上角宏块为有效宏块,并记录该宏块坐标(x,y);如果当前帧为场景内的某一帧,那么以前一帧的有效宏块坐标(x’,y’)作为基准宏块,在搜索单元内依次遍历所有宏块并计算与基准宏块的亮度值的欧氏距离,并以欧式距离最大的宏块作为有效宏块,并记录该宏块坐标(x,y);
(14)以步长4对有效宏块内的像素点进行降采样,即每个宏块提取到4x4=16个有效像素点;
(15)以每个有效像素点的Y/U/V分量分别作为每一个样本点的3个特征值;
(16)对有效宏块的256个像素进行直方图统计,分别获取Y/U/V分量的数值的平均值、中位值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值,共12个数值作为整个宏块中每个样本点的特征值;
(17)对整帧图像的像素点做直方图统计,分别获取Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值、众数值,共15个数值作为整帧图像中每个样本点的特征值;
(18)如果检测到场景切换,那么统计前一个场景的亮度平均值,作为整个场景中每个样本点的特征值;
(19)对于HDR素材,以同样的方式分割图像,并以SDR图像中有效宏块坐标(x,y),获取与之相对应的有效像素点的Y/U/V分量的数值,作为一个样本点的3个输出值;这样,每个样本点共计31个特征值和3个输出值。
在筛选数据的过程中,通过分区域和降采样,有效降低数据的空间冗余;通过前后帧之间选取差异化最大的宏块,有效降低数据的时间冗余。
作为优选,在步骤(12)中,图像行尾和列尾不足4个的,以实际大小为准。
作为优选,在步骤(2)中,训练生成预测模型的具体操作方法如下:
(21)构建训练网络,使用简单的多层全连接神经网络,样本点中有31个特征值,选择网络模型;
(22)使用上述网络模型分别以Y/U/V分量为输出值进行训练;
(23)选择合适的迭代步长和次数,并根据训练结果做适当调整,最终保存3个网络模型参数。
作为优选,在步骤(3)中,视频处理的具体操作方法如下:
(31)将输入的SDR视频解码,并检测场景;
(32)遍历该场景,对于每帧图像分别计算得到整帧图像Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,得到15个输入特征值;
(33)由该场景中每帧图像的亮度平均值,计算该场景的亮度平均值,得到1个输入特征值;
(34)对于每帧图像,将其划分为16x16大小的宏块,分别计算得到每个宏块Y/U/V分量的平均值、中位值,并获取其最大值和最小值,得到12个输入特征值;
(35)对于图像中的每个像素点,由其自身的Y/U/V分量的3个值,加上其所属宏块的12个输入特征值,加上所属图像帧的15个输入特征值,再加上所属场景的1个输入特征值,组成长度为31的输入特征向量;
(36)使用步骤(2)中训练好的网络模型参数,分别预测得到每个像素的Y/U/V分量的输出;
(37)对预测输出的图像进行去块效应滤波和样点自适应补偿滤波,得到最终的HDR图像;
(38)对HDR图像序列进行视频编码压缩,输出HDR视频。
本发明的有益效果是:简化处理流程,运算复杂度低,能够由输入的SDR图像通过网络模型直接预测得到HDR图像;能够适应大多数不同风格的视频,使得转换得到的视频能呈现很好的图像美感和保真度。
附图说明
图1是本发明步骤(1)中图像分割的示意图;
图2是本发明步骤(2)中网络模型的示意图;
图3是本发明步骤(2)中网络模型训练的流程图;
图4、图5、图6是本发明Y/U/V三个分量的预测图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的描述。
一种基于机器学习的视频处理方法,包括筛选数据和提取特征形成数据集、训练生成预测模型、视频处理三个部分,具体包括如下步骤:
(1)构建数据集时,首先通过一定规则对视频序列筛选样本点,尽可能去除视频内容空间冗余和时间冗余,使得得到的数据集在规模不大的情况下覆盖尽可能多的数据特征,既考虑场景内整体的亮度和对比度,又考虑每个图像帧和16x16宏块的亮度和对比度,最终每帧图像都提取一定比例的像素点作为样本形成数据集;
构建数据集的具体操作方法如下:
(11)使用HDR摄像机,拍摄生成多段同样内容的HDR和SDR素材;
(12)对于SDR素材,进行场景检测,并以16x16的宏块MB分割图像,并将相邻的4x4个宏块MB作为搜索单元;图像行尾和列尾不足4个的,以实际大小为准,如图1所示;
(13)如果当前帧为序列开始帧或场景切换点,那么选取每个搜索单元的左上角宏块为有效宏块,并记录该宏块坐标(x,y);如果当前帧为场景内的某一帧,那么以前一帧的有效宏块坐标(x’,y’)作为基准宏块,在搜索单元内依次遍历所有宏块并计算与基准宏块的亮度值的欧氏距离,并以欧式距离最大的宏块作为有效宏块,并记录该宏块坐标(x,y);欧氏距离的计算公式为:其中Yi指的是第i帧有效宏块的像素亮度分量,Yi'指的是第i帧的基准宏块的像素亮度分量;
(14)以步长4对有效宏块内的像素点进行降采样,即每个宏块提取到4x4=16个有效像素点;
(15)以每个有效像素点的Y/U/V分量分别作为每一个样本点的3个特征值;
(16)对有效宏块的256个像素进行直方图统计,分别获取Y/U/V分量的数值的平均值、中位值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值,共12个数值作为整个宏块中每个样本点的特征值;
(17)对整帧图像的像素点做直方图统计,分别获取Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值、众数值,共15个数值作为整帧图像中每个样本点的特征值;
Y/U/V三个分量的最大值、最小值、平均值、中位值、众数值指的是:分别对宏块中的Y/U/V分量处理,以Y分量为例。最大值表示宏块中256个像素里Y分量数值的最大值Ymax;最小值表示宏块中256个像素里Y分量数值的最小值Ymin;平均值表示宏块中256个像素里Y分量数值的平均值Ymean;中位值表示将宏块中256个像素里Y分量数值从小到大排列后,居于最中间的数值,由于有256个数值,所以取最中间的两个数值的平均值作为中位值Ymedian;众数值表示将宏块中256个像素里Y分量进行直方图统计,得到出现次数最多的数值作为众数值Ymode。
(18)如果检测到场景切换,那么统计前一个场景的亮度平均值,作为整个场景中每个样本点的特征值;
(19)对于HDR素材,以同样的方式分割图像,并以SDR图像中有效宏块坐标(x,y),获取与之相对应的有效像素点的Y/U/V分量的数值,作为一个样本点的3个输出值;这样,每个样本点共计31个特征值和3个输出值。
在筛选数据的过程中,通过分区域和降采样,有效降低数据的空间冗余;通过前后帧之间选取差异化最大的宏块,有效降低数据的时间冗余。
(2)训练生成预测模型时,采用简单的多层全连接神经网络,保证预测精度的同时运算复杂度较低;
训练生成预测模型的具体操作方法如下:
(21)构建训练网络,使用简单的多层全连接神经网络,由于样本点中有31个特征值,选择网络模型为(31,40,20,10,1),如图2所示;
神经网络由一个输入层,一个输出层,多个隐藏层构成,并且每层的神经元与下一层的神经元都由连接,由于没有卷积层、池化层等,故而是简单的多层全连接神经网络。由于有31个特征值,所以输入层中有31个神经元;只有一个输出值,所以输出层中只有1个神经元。网络模型(31,40,20,10,1)中的31表示输入层的31个神经元,40表示第一隐藏层中的40个神经元,20表示第二隐藏层中的20个神经元,10表示第三隐藏层中的10个神经元,1表示输出层的1个神经元。隐藏层的个数以及每个隐藏层中神经元的个数一般根据用户设备的计算能力和要求精度来定,也可根据经验进行修改。
(22)使用上述网络模型分别以Y/U/V分量为输出值进行训练;
(23)选择合适的迭代步长和次数,并根据训练结果做适当调整,最终保存3个网络模型参数。
如图3所示,假设迭代次数上限为CntMax,迭代步长初始值为Step=0.1,步长下限为StepMin,误差下限值为ErrMin。实际应用中可参考数值CntMax=10000,StepMin=0.01,ErrMin=0.01。
(3)视频处理时,使用训练好的预测模型对输入图像进行处理,然后再进行去块效应滤波和样点自适应补偿滤波;
视频处理的具体操作方法如下:
(31)将输入的SDR视频解码,并检测场景;
(32)遍历该场景,对于每帧图像分别计算得到整帧图像Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,得到15个输入特征值;
(33)由该场景中每帧图像的亮度平均值,计算该场景的亮度平均值,得到1个输入特征值;
(34)对于每帧图像,将其划分为16x16大小的宏块,分别计算得到每个宏块Y/U/V分量的平均值、中位值,并获取其最大值和最小值,得到12个输入特征值;
(35)对于图像中的每个像素点,由其自身的Y/U/V分量的3个值,加上其所属宏块的12个输入特征值,加上所属图像帧的15个输入特征值,再加上所属场景的1个输入特征值,组成长度为31的输入特征向量;
(36)使用步骤(2)中训练好的网络模型参数,分别预测得到每个像素的Y/U/V分量的输出;
(37)对预测输出的图像进行去块效应滤波和样点自适应补偿滤波,得到最终的HDR图像;
去块效应滤波和样点自适应滤波是目前比较成熟的图像处理技术,并不属于本方案发明内容,本方案只是采用了该技术用于提升图像质量。
(1)由于处理算法是以宏块为基本单位,最终处理完成的图像不可避免会产生一定的块效应。使用去块效应滤波能一定程度改善图像质量。去块效应滤波可参考如下:https://baike.baidu.com/item/%E5%8E%BB%E5%8C%BA%E5%9D%97%E6%BB%A4%E6%B3%A2%E5%99%A8/22785325?fr=aladdin
(2)参考HEVC编码标准中的样点自适应补偿滤波,在于削弱图像的振铃效应。可参考:https://blog.csdn.net/linpengbin/article/details/48006427
(38)对HDR图像序列进行视频编码压缩,输出HDR视频。
本发明的方法对于单个像素的Y/U/V分量的处理结果,预测误差较低,数值误差基本能保持在5%以内,并且不存在过大误差。Y/U/V三个分量的预测对比如图4、图5、图6所示,图中‘^’表示实际像素值,‘.’表示预测像素值,‘*’表示预测误差。对于整体图像效果,针对不同风格的视频源,本发明简化了SDR视频向HDR视频转换的处理流程,减少了计算成本;并且能够适应大多数不同风格不同场景的视频,能够很大程度保留视频原始内容制作者的创作意图,最终转换结果能呈现很好的图像美感和保真度。
Claims (5)
1.一种基于机器学习的视频处理方法,其特征是,包括筛选数据和提取特征形成数据集、训练生成预测模型、视频处理三个部分,具体包括如下步骤:
(1)构建数据集时,首先通过一定规则对视频序列筛选样本点,去除视频内容空间冗余和时间冗余,使得得到的数据集在规模不大的情况下覆盖尽可能多的数据特征,既考虑场景内整体的亮度和对比度,又考虑每个图像帧和16x16宏块的亮度和对比度,最终每帧图像都提取一定比例的像素点作为样本形成数据集;构建数据集的具体操作方法如下:
(11)使用HDR摄像机,拍摄生成多段同样内容的HDR和SDR素材;
(12)对于SDR素材,进行场景检测,并以16x16的宏块MB分割图像,并将相邻的4x4个宏块MB作为搜索单元;
(13)如果当前帧为序列开始帧或场景切换点,那么选取每个搜索单元的左上角宏块为有效宏块,并记录该宏块坐标(x, y);如果当前帧为场景内的某一帧,那么以前一帧的有效宏块坐标(x’, y’)作为基准宏块,在搜索单元内依次遍历所有宏块并计算与基准宏块的亮度值的欧氏距离,并以欧式距离最大的宏块作为有效宏块,并记录该宏块坐标(x, y);
(14)以步长4对有效宏块内的像素点进行降采样,即每个宏块提取到4x4=16个有效像素点;
(15)以每个有效像素点的Y/U/V分量分别作为每一个样本点的3个特征值;
(16)对有效宏块的256个像素进行直方图统计,分别获取Y/U/V分量的数值的平均值、中位值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值,共12个数值作为整个宏块中每个样本点的特征值;
(17)对整帧图像的像素点做直方图统计,分别获取Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,这样Y/U/V三个分量的最大值、最小值、平均值、中位值、众数值,共15个数值作为整帧图像中每个样本点的特征值;
(18)如果检测到场景切换,那么统计前一个场景的亮度平均值,作为整个场景中每个样本点的特征值;
(19)对于HDR素材,以同样的方式分割图像,并以SDR图像中有效宏块坐标(x, y),获取与之相对应的有效像素点的Y/U/V分量的数值,作为一个样本点的3个输出值;这样,每个样本点共计31个特征值和3个输出值;
(2)训练生成预测模型时,采用简单的多层全连接神经网络,保证预测精度的同时运算复杂度较低;
(3)视频处理时,使用训练好的预测模型对输入图像进行处理,然后再进行去块效应滤波和样点自适应补偿滤波。
2.根据权利要求1所述的一种基于机器学习的视频处理方法,其特征是,在步骤(12)中,图像行尾和列尾不足4个的,以实际大小为准。
4.根据权利要求1所述的一种基于机器学习的视频处理方法,其特征是,在步骤(2)中,训练生成预测模型的具体操作方法如下:
(21)构建训练网络,使用简单的多层全连接神经网络,样本点中有31个特征值,选择网络模型;
(22)使用上述网络模型分别以Y/U/V分量为输出值进行训练;
(23)选择合适的迭代步长和次数,并根据训练结果做适当调整,最终保存3个网络模型参数。
5.根据权利要求1所述的一种基于机器学习的视频处理方法,其特征是,在步骤(3)中,视频处理的具体操作方法如下:
(31)将输入的SDR视频解码,并检测场景;
(32)遍历该场景,对于每帧图像分别计算得到整帧图像Y/U/V分量的数值的平均值、中位值、众数值,并获取其最大值和最小值,得到15个输入特征值;
(33)由该场景中每帧图像的亮度平均值,计算该场景的亮度平均值,得到1个输入特征值;
(34)对于每帧图像,将其划分为16x16大小的宏块,分别计算得到每个宏块Y/U/V分量的平均值、中位值,并获取其最大值和最小值,得到12个输入特征值;
(35)对于图像中的每个像素点,由其自身的Y/U/V分量的3个值,加上其所属宏块的12个输入特征值,加上所属图像帧的15个输入特征值,再加上所属场景的1个输入特征值,组成长度为31的输入特征向量;
(36)使用步骤(2)中训练好的网络模型参数,分别预测得到每个像素的Y/U/V分量的输出;
(37)对预测输出的图像进行去块效应滤波和样点自适应补偿滤波,得到最终的HDR图像;
(38)对HDR图像序列进行视频编码压缩,输出HDR视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911189862.2A CN111047529B (zh) | 2019-11-28 | 2019-11-28 | 一种基于机器学习的视频处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911189862.2A CN111047529B (zh) | 2019-11-28 | 2019-11-28 | 一种基于机器学习的视频处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111047529A CN111047529A (zh) | 2020-04-21 |
CN111047529B true CN111047529B (zh) | 2023-05-23 |
Family
ID=70233921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911189862.2A Active CN111047529B (zh) | 2019-11-28 | 2019-11-28 | 一种基于机器学习的视频处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111047529B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092756A (zh) * | 2020-08-25 | 2022-02-25 | 阿里巴巴集团控股有限公司 | 图像处理模型训练方法及装置 |
US11430085B2 (en) | 2020-09-22 | 2022-08-30 | Facebook Technologies, Llc | Efficient motion-compensated spatiotemporal sampling |
US11386532B2 (en) * | 2020-09-22 | 2022-07-12 | Facebook Technologies, Llc. | Blue noise mask for video sampling |
CN112666178B (zh) * | 2020-12-14 | 2024-06-18 | 杭州当虹科技股份有限公司 | 一种户外led大屏坏点在线监控方法 |
CN114640890B (zh) * | 2020-12-15 | 2024-05-17 | 北京神州数码云科信息技术有限公司 | 一种视频数据动态加载方法、装置、电子设备及存储介质 |
CN112738392A (zh) * | 2020-12-24 | 2021-04-30 | 上海哔哩哔哩科技有限公司 | 图像转换方法及系统 |
CN112738511B (zh) * | 2021-04-01 | 2021-06-25 | 杭州微帧信息科技有限公司 | 一种结合视频分析的快速模式决策方法及装置 |
CN116600118B (zh) * | 2023-07-18 | 2023-10-03 | 华洋通信科技股份有限公司 | 一种基于混合特征多模态分析的视频采集参数优化方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413286A (zh) * | 2013-08-02 | 2013-11-27 | 北京工业大学 | 一种基于学习的高动态范围与高分辨率图像联合重建方法 |
CN108109180A (zh) * | 2017-12-12 | 2018-06-01 | 上海顺久电子科技有限公司 | 一种对输入的高动态范围图像进行处理的方法和显示设备 |
CN108184129A (zh) * | 2017-12-11 | 2018-06-19 | 北京大学 | 一种视频编解码方法、装置及用于图像滤波的神经网络 |
WO2018231968A1 (en) * | 2017-06-16 | 2018-12-20 | Dolby Laboratories Licensing Corporation | Efficient end-to-end single layer inverse display management coding |
CN109327734A (zh) * | 2018-11-27 | 2019-02-12 | 成都索贝数码科技股份有限公司 | 一种基于动态测光的hdr视频下变换到sdr视频的方法 |
-
2019
- 2019-11-28 CN CN201911189862.2A patent/CN111047529B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413286A (zh) * | 2013-08-02 | 2013-11-27 | 北京工业大学 | 一种基于学习的高动态范围与高分辨率图像联合重建方法 |
WO2018231968A1 (en) * | 2017-06-16 | 2018-12-20 | Dolby Laboratories Licensing Corporation | Efficient end-to-end single layer inverse display management coding |
CN108184129A (zh) * | 2017-12-11 | 2018-06-19 | 北京大学 | 一种视频编解码方法、装置及用于图像滤波的神经网络 |
CN108109180A (zh) * | 2017-12-12 | 2018-06-01 | 上海顺久电子科技有限公司 | 一种对输入的高动态范围图像进行处理的方法和显示设备 |
CN109327734A (zh) * | 2018-11-27 | 2019-02-12 | 成都索贝数码科技股份有限公司 | 一种基于动态测光的hdr视频下变换到sdr视频的方法 |
Non-Patent Citations (2)
Title |
---|
Jae Sung Park,et al..High Dynamic Range and Super-Resolution Imaging From a Single Image.《IEEE Access》.2018,10966-10978. * |
戴价.基于HDR的投影机亮度曲线标定.基于HDR的投影机亮度曲线标定.2013,54-56. * |
Also Published As
Publication number | Publication date |
---|---|
CN111047529A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111047529B (zh) | 一种基于机器学习的视频处理方法 | |
CN111868751B (zh) | 在视频代码化的机器学习模型中使用应用于量化参数的非线性函数 | |
Cheng et al. | Light-guided and cross-fusion U-Net for anti-illumination image super-resolution | |
KR102535098B1 (ko) | 이미지 프로세싱 및 비디오 압축 방법 | |
Cui et al. | Convolutional neural networks based intra prediction for HEVC | |
Zhang et al. | Machine learning based video coding optimizations: A survey | |
CN111837140B (zh) | 视频代码化的感受野一致卷积模型 | |
CN110717868B (zh) | 视频高动态范围反色调映射模型构建、映射方法及装置 | |
TW202234890A (zh) | 通過指示特徵圖資料進行編碼 | |
WO2021249290A1 (zh) | 环路滤波方法和装置 | |
CN111047543A (zh) | 图像增强方法、装置和存储介质 | |
CN113066022B (zh) | 一种基于高效时空信息融合的视频比特增强方法 | |
CN109902613A (zh) | 一种基于迁移学习和图像增强的人体特征提取方法 | |
Liu et al. | Fast depth intra coding based on depth edge classification network in 3D-HEVC | |
CN111079864A (zh) | 一种基于优化视频关键帧提取的短视频分类方法及系统 | |
WO2022063267A1 (zh) | 帧内预测方法及装置 | |
CN114299180A (zh) | 图像重建方法、装置、设备及存储介质 | |
CN117611467A (zh) | 一种能同时平衡不同区域细节和亮度的低光图像增强方法 | |
CN106303527B (zh) | 时分复用神经网络处理器的视频分级码流编码方法和系统 | |
CN117351340A (zh) | 基于双颜色空间的水下图像增强算法 | |
CN114463189A (zh) | 一种基于密集残差型UNet的图像信息解析建模方法 | |
CN115829868A (zh) | 基于光照与噪声残差图的水下暗光图像增强方法 | |
CN116524387A (zh) | 一种基于深度学习网络的超高清视频压缩损伤等级评估方法 | |
Xie et al. | Just noticeable visual redundancy forecasting: a deep multimodal-driven approach | |
CN115456903B (zh) | 一种基于深度学习的全彩夜视增强方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |