CN111709896A - 一种将ldr视频映射为hdr视频的方法和设备 - Google Patents

一种将ldr视频映射为hdr视频的方法和设备 Download PDF

Info

Publication number
CN111709896A
CN111709896A CN202010559814.4A CN202010559814A CN111709896A CN 111709896 A CN111709896 A CN 111709896A CN 202010559814 A CN202010559814 A CN 202010559814A CN 111709896 A CN111709896 A CN 111709896A
Authority
CN
China
Prior art keywords
frame
video
frames
ldr
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010559814.4A
Other languages
English (en)
Other versions
CN111709896B (zh
Inventor
王左龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics China R&D Center
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics China R&D Center, Samsung Electronics Co Ltd filed Critical Samsung Electronics China R&D Center
Priority to CN202010559814.4A priority Critical patent/CN111709896B/zh
Publication of CN111709896A publication Critical patent/CN111709896A/zh
Priority to US17/076,242 priority patent/US11436710B2/en
Application granted granted Critical
Publication of CN111709896B publication Critical patent/CN111709896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/94Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/12Details of acquisition arrangements; Constructional details thereof
    • G06V10/14Optical characteristics of the device performing the acquisition or on the illumination arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/48Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/70Circuitry for compensating brightness variation in the scene
    • H04N23/73Circuitry for compensating brightness variation in the scene by influencing the exposure time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20208High dynamic range [HDR] image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种将LDR视频映射为HDR视频的方法,包括:建模过程和映射过程,其中:所述建模过程包括:根据至少3种不同曝光等级的LDR视频进行训练,得到高亮重建模型和曝光生成模型;所述映射过程包括:将待处理的LDR视频通过所述高亮重建模型和曝光生成模型映射为HDR视频。本申请还公开了一种对应的设备。应用本申请公开的技术方案,能够解决多曝光图像合成偏暗或偏亮的问题,并改进视频合成的抖动问题。

Description

一种将LDR视频映射为HDR视频的方法和设备
技术领域
本申请涉及视频和图像处理领域,特别涉及一种将LDR视频映射为HDR视频的方法和设备。
背景技术
随着显示制造业的发展,消费者对高质量的高动态范围内容的体验成为未来发展的一个热门方向,但是高质量的高动态范围内容拍摄价格昂贵,并需要经过复杂的处理流程,因此门槛较高。为了解决高质量的高动态范围内容短缺和制作门槛高的问题,国内外学者开始对此进行深入研究。目前的高动态范围生成技术虽然取得了一定的成果,但是由于涉及学科众多,目前该领域仍处于研究和发展阶段,还没有足够成熟的技术以推动各种各样的应用进一步推广。
高动态范围合成技术可以有效地降低高动态范围内容的制作成本,加速高动态范围内容产业的发展。在视频的点播业务和直播业务中,高动态范围技术都有广泛的应用,但是,由于高动态范围视频内容制作成本昂贵,且制作困难,极大地限制了高动态范围技术的应用领域。目前,市场上大部分的视频资源都是LDR(Low-Dynamic Range:低动态范围)视频,该视频格式的主要性能指标如下:
(1)亮度范围,支持0.1Nits到100Nits范围,支持的亮度范围较小。
(2)颜色范围,支持BT.709色域,表达的颜色范围有限。
(3)对比度,支持8位量化,丢失信息较多。
这些LDR格式的视频资源,相比于用户的高质量显示设备而言,无法满足高要求的用户体验。根据目前的技术,普通显示设备的亮度都已经达到500Nits甚至更高的等级,LDR格式的内容已经无法满足当下设备制作业的发展速度。目前,HDR10(High-Dynamic Range:高动态范围)需要支持以下性能指标:
(1)亮度范围,支持0.01Nits到1000Nits范围。
(2)颜色空间,支持BT.2020色域。
(3)对比度,支持10位及以上量化。
目前已经研究出了一些传统方法和人工智能方法的逆色域映射方法,可以将LDR内容转换成HDR内容,但多数主要集中在图像拍摄领域,多帧合成HDR图像技术,使用范围十分有限。此外,针对视频的解压缩和再编码,都存在不同程度的信息损失,并且,对帧的单独优化会带来连续视频的抖动问题。
发明内容
本申请提供了一种将LDR视频映射为HDR视频的方法,以解决多曝光图像合成偏暗或偏亮的问题,并改进视频合成的抖动问题。
本申请公开了一种将LDR视频映射为HDR视频的方法,包括:建模过程和映射过程,其中:
所述建模过程包括:根据至少3种不同曝光等级的LDR视频进行训练,得到高亮重建模型和曝光生成模型;
所述映射过程包括:将待处理的LDR视频通过所述高亮重建模型和曝光生成模型映射为HDR视频。
较佳的,所述建模过程具体可以包括:
以至少3种不同的曝光等级同时对同样的场景进行拍摄,得到所述至少3种不同曝光等级的LDR视频;
对所述至少3种不同曝光等级的LDR视频分别进行场景检测,标记视频中发生场景切换的帧;
在每个场景的起始帧到结束帧之间,按照从高到低的密度抽取帧;
对所抽取的每个帧进行以下操作:在帧中进行高亮区域检索,并基于高亮区域以及该帧前后的帧,利用二维卷积神经网络进行高亮重建模型训练,并得到该帧的经高亮处理后的重建图像;
基于所得到的重建图像按照其在原始LDR视频中的顺序,采用三维卷积神经网络进行曝光生成模型训练,并对应于每一个重建图像分别得到至少3幅不同曝光等级的帧。
较佳的,所述至少3种不同的曝光等级可以包括:
相机的光圈和快门时间极限的1/3为低曝光等级;
相机的光圈和快门时间极限的2/3为中曝光等级;
相机的光圈和快门时间极限的3/3为高曝光等级。
较佳的,所述进行场景检测可以包括:
通过运动搜索的方式搜索匹配块,将匹配块的均方误差与设定的阈值进行比较,判断当前帧是否发生了场景切换。
较佳的,所述在每个场景的起始帧到结束帧之间,按照从高到低的密度抽取帧可以包括:
从每个场景的起始帧开始,按照一等比数列逐步降低帧的抽取密度,直至该场景的结束帧;
或者,从每个场景的起始帧开始,按照一设定的非等比数列逐步降低帧的抽取密度,直至该场景的结束帧。
较佳的,所述该帧前后的帧可以包括:
所抽取的帧中与该帧处于同一场景,且位于该帧前T1个帧,以及后T2个帧以内的帧,其中,T1和T2为预先设置的正整数。
较佳的,所述映射过程具体可以包括:
对所述待处理的LDR视频进行解码后,输入所述高亮重建模型得到所述LDR视频中各个LDR视频帧的经高亮处理后的重建图像;
将所述经高亮处理后的重建图像输入所述曝光生成模型,得到对应于每一个重建图像的至少3幅不同曝光等级的帧;
将所述对应于每一个重建图像的至少3幅不同曝光等级的帧合成为一帧HDR图像,并将所有HDR图像按时间顺序编码合成为HDR视频。
本申请还公开了一种将LDR视频映射为HDR视频的设备,包括:建模模块和映射模块,其中:
所述建模模块,用于根据至少3种不同曝光等级的LDR视频进行训练,得到高亮重建模型和曝光生成模型;
所述映射模块,用于将待处理的LDR视频通过所述高亮重建模型和曝光生成模型映射为HDR视频。
较佳的,所述建模模块具体可以用于:
以至少3种不同的曝光等级同时对同样的场景进行拍摄,得到所述至少3种不同曝光等级的LDR视频;
对所述至少3种不同曝光等级的LDR视频分别进行场景检测,标记视频中发生场景切换的帧;
在每个场景的起始帧到结束帧之间,按照从高到低的密度抽取帧;
对所抽取的每个帧进行以下操作:在帧中进行高亮区域检索,并基于高亮区域以及该帧前后的帧,利用二维卷积神经网络进行高亮重建模型训练,并得到该帧的经高亮处理后的重建图像;
基于所得到的重建图像按照其在原始LDR视频中的顺序,采用三维卷积神经网络进行曝光生成模型训练,并对应于每一个重建图像分别得到至少3幅不同曝光等级的帧。
较佳的,所述映射模块具体可以用于:
对所述待处理的LDR视频进行解码后,输入所述高亮重建模型得到所述LDR视频中各个LDR视频帧的经高亮处理后的重建图像;
将所述经高亮处理后的重建图像输入所述曝光生成模型,得到对应于每一个重建图像的至少3幅不同曝光等级的帧;
将所述对应于每一个重建图像的至少3幅不同曝光等级的帧合成为一帧HDR图像,并将所有HDR图像按时间顺序编码合成为HDR视频。
由上述技术方案可见,本申请首先通过建模过程,得到用于对LDR视频帧进行高亮重建的高亮重建模型,并得到用于对经高亮重建后的LDR视频帧进行不同等级的曝光生成进而得到不同等级的曝光图像的曝光生成模型,然后基于所得到的高亮重建模型和曝光生成模型对待处理的LDR视频进行处理,映射得到对应的HDR视频。本申请能够解决多曝光图像合成偏暗或偏亮的问题,并改进视频合成的抖动问题。
本申请结合动态范围的特征,从视频场景着手,结合不同的场景信息分别进行动态范围提升,这样更有利于结合视频的特性进行处理。
本申请提供的是一种基于结合场景进行多帧曝光度合成,最终将LDR视频映射为HDR视频的技术方案,除上述有益效果外,本申请还能获得以下有益效果:
1)本申请以一种简单的方式实现了场景检测,该方法效率极高,计算复杂度低,且精度较佳。
2)本申请利用了一种结合场景的数据抽样方式,来收集各场景内适合估计亮度信息的数据集,并据此进行建模,既能保证获取到丰富的动态范围信息,又能将复杂度控制在合适的范围内。
3)本申请通过定义高曝光区域,并提供一种高亮重建模型,训练该模型用于高曝光区域重建的操作,能够清晰化高曝光部分的图像。
4)本申请通过对亮度等级分为至少3级,并训练曝光生成模型用于生成不同等级的曝光图像,最终结合多种曝光生成图像利用成熟的HDR图像合成技术合成为最终的HDR图像。
5)本申请在曝光生成模型中使用了三维卷积,加入视频的时间域信息进行约束,能减少最终生成视频的抖动问题。
附图说明
图1为本申请较佳实施例中视频映射方法的流程示意图;
图2本申请较佳实施例中进行视频场景检测的示意图;
图3为本申请较佳实施例中进行场景数据集提取的示意图;
图4为本申请较佳实施例中高亮重建模型的示意图;
图5为本申请较佳实施例中曝光生成模型的示意图;
图6为本申请较佳设备的组成结构示意图。
具体实施方式
为使本申请的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本申请作进一步详细说明。
为解决现有技术所存在的问题,本申请提出一种基于人工智能(AI)的视频映射技术方案,该技术方案用于将LDR视频映射(也可称之为“转换”)为HDR视频,其主要思想在于:利用LDR视频中同一场景内多张高亮处理后的LDR图像,通过卷积神经网络模型生成不同曝光度的LDR图像集合,并利用该LDR图像集合,合成HDR图像,进而将HDR图像合成为HDR视频。在上述卷积神经网络模型中,通过使用多维卷积的方式,加入时间域进行约束,优化了现有将LDR内容转换成HDR内容所存在的视频抖动的问题。
本申请视频映射方法主要包括两个过程:建模过程和映射过程,其中:
建模过程主要包括:
下面分别予以详细说明。
本申请一种视频映射方法的建模过程包括以下步骤:
第1步:以至少3种不同的曝光等级同时对同样的场景进行拍摄,得到至少3种不同曝光等级的LDR视频。
例如:可以预设3种曝光等级,规定:
相机的光圈和快门时间极限的1/3为低曝光等级,记为L1;
相机的光圈和快门时间极限的2/3为中曝光等级,记为L2;
相机的光圈和快门时间极限的3/3为高曝光等级,记为L3。
又例如:可以预设4种曝光等级,规定:
相机的光圈和快门时间极限的1/4记为L1’;
相机的光圈和快门时间极限的2/4记为L2’;
相机的光圈和快门时间极限的3/4记为L3’;
相机的光圈和快门时间极限的4/4记为L4’。
当然,在实际应用中,可以设置其他数量的曝光等级,并按照需要设置光圈和快门时间,从而通过控制视频拍摄的光照参数,使得亮度等级分为至少3种不同的级别。
在一些情况下,曝光等级也可称为亮度等级。
第2步:对上述至少3段LDR视频分别进行场景检测,标记视频中发生场景切换的帧。
本步骤主要通过对输入的LDR视频进行场景检测,判断出发生场景切换的帧,并标记出来。例如:正在进行室内拍摄时,如果切换到室外拍摄,此时,发生了场景切换。由于室内场景和室外场景在亮度、色度以及对比度方面均存在较大差异,因此,需要通过场景检测判断出视频中的场景切换,并标记出发生场景切换的帧,然后在后续步骤中进行相应的处理,以使场景内动态范围表述得更加准确。
本步骤中,场景检测可以通过运动搜索的方式搜索匹配块,并通过将匹配块的均方误差与设定的阈值进行比较来判断当前帧是否发生了场景切换。较佳的,可以使用大宏块匹配策略和钻石搜索算法相结合,来加速匹配过程。
第3步:在每个场景的起始帧到结束帧之间,按照从高到低的密度抽取帧。
本申请基于每个场景内越靠近起始帧的帧所包含的动态范围信息越丰富这一规律来进行帧抽取(也可称为:提取),对于越靠近起始帧的帧,采用较高的密度(也可称之为:频率)进行帧抽取,然后逐步降低抽取密度,直至该场景的结束帧,从而保证既能够抽取到足够的帧(即:获取到足够多的信息)以进行后续处理,又能将复杂度控制在合适的范围内。
抽取算法可以采用等比率算法,即:按照一等比数列逐步降低帧的抽取密度。例如:以2的倍数为基准,从每个场景的起始帧开始,每1帧提取一帧,然后每2帧提取一帧,接着每4帧提取一帧,……,每2N(N为正整数)帧提取一帧,……,直至该场景的结束。
也可以不采用等比率算法,而是设置其他非等比数列逐步降低帧的抽取密度。只要能够保证在每个场景的起始帧到结束帧之间,按照从高到低的密度抽取帧即可。
第4步:对所抽取的每个帧进行以下操作:在帧中进行高亮区域检索,并基于高亮区域以及该帧前后的若干帧,利用二维卷积神经网络进行高亮重建模型训练,并得到该帧的经高亮处理后的重建图像。
其中,该帧前后的若干帧是指:所抽取的帧中与该帧处于同一场景,且位于该帧前T1个帧,以及后T2个帧以内的帧,其中,T1和T2为预先设置的正整数。
本申请高亮重建模型在后续映射处理中的作用是:基于每个待处理帧中的高亮区域对待处理帧进行高亮重建(也可称为:高光重建或高曝光重建),从而得到经高亮处理后的LDR图像。
基于学习的高亮区域重建的关键性问题是获取结构良好的训练数据集。本申请通过场景检测和数据提取模块,获取到了不同曝光等级的训练和验证数据。如第1步所述,本流程是基于采用至少3种不同曝光等级拍摄的至少3段LDR视频来进行建模,因而,本步骤可以基于已知的至少3种不同曝光等级的帧中的高亮区域以及该帧前后的若干帧,来对高亮重建模型进行训练,训练好高亮重建模型之后,即可在后续的映射处理流程中用于高曝光区域重建的操作,以清晰化高曝光部分的图像。
可以设置一亮度阈值,将帧中超过该亮度阈值的区域确认为高亮区域(也可称为:高曝光区域)。例如:按照高曝光亮度标准,可以将图像中超过亮度90%以上的区域定义为高亮区域。
较佳的,可以选择Encoder-Decoder模型作为本申请的高亮重建模型,损失函数通过均方误差,计算本征图和生成图之间的误差。通过本步骤的处理,能够学习每个帧(即:每个图像)中高亮区域的特征,并基于高亮区域重建相应图像的内容。
第5步:将所得到的重建图像按照其在原始LDR视频中的顺序输入曝光生成模型进行训练,对应于每一个重建图像分别得到至少3幅不同曝光等级的帧。
本步骤所述的曝光等级,可以对应于第1步的曝光等级进行设置,也可以独立于第1步进行设置。
本申请曝光生成模型在后续映射处理中的作用是:基于每个重建图像通过卷积神经网络进行不同曝光等级的曝光处理,从而得到对应于每一个重建图像的至少3幅不同曝光等级的帧。
至此,完成了本申请的建模流程。上述流程通过至少3种不同曝光等级拍摄的至少3段LDR视频训练得到了高亮重建模型和曝光生成模型,这两个模型可以用于后续的映射处理。
本申请一种视频映射方法的映射流程包括以下步骤:
第1步:对LDR视频进行解码后,输入高亮重建模型得到该LDR视频中各个LDR视频帧的经高亮处理后的重建图像。
第2步:将经高亮处理后的重建图像输入曝光生成模型,得到对应于每一个重建图像的至少3幅不同曝光等级的帧。
第3步:将对应于每一个重建图像的至少3幅不同曝光等级的帧合成为一帧HDR图像,并将所有HDR图像按时间顺序编码合成为HDR视频。
本步骤中,由生成的至少3幅图像合成最终的HDR图像。网络结构模型选择Encoder-Decoder模型,损失函数使用像素损失和时间域信息的进行约束。
编码后的视频格式支持HEVC,10位编码方式,HDR元数据存放在SEI信息中,包括:MAXCLL和MAXFALL等信息。
为了优化最终合成的HDR视频的抖动问题,本申请采用了三维卷积的方式,引入视频的时间域信息对曝光生成模型进行约束,从而使合成的视频的帧之间平滑,最终编码生成高动态范围的视频,即:LDR视频。
本申请上述技术方案主要利用二维卷积神经网络对输入的LDR图像进行高亮区域重建,再利用三维卷积神经网络对图像进行至少3种不同亮度等级的曝光生成,最后将所生成的至少3种不同亮度等级的图像进行合成得到HDR图像,进而对HDR图像进行编码得到HDR视频。通过本申请提供的上述方法,改进了多曝光图像合成偏暗或偏亮的问题。此外,通过在曝光生成模型中引入时间域信息进行约束,改进了视频合成的抖动问题。
下面通过较佳实施例对本申请技术方案进行进一步详细说明。
图1为本申请较佳实施例中视频映射方法的流程示意图,下面主要从场景检测、场景数据集提取、高亮重建模型、曝光生成模型、高动态视频合成这几个部分对图1所示流程进行说明。
参见图1,在建模阶段,本实施例预设如前所述的三种曝光等级L1、L2和L3进行拍摄,得到3段LDR视频,如图1左侧的L1、L2和L3所示。以这3段LDR视频为输入,首先进行场景检测。如无特殊说明,在以下的处理中,是对3段LDR视频分别进行相应的处理。
一、场景检测
依次将输入视频的每一帧作为当前帧,执行以下操作1)~3):
1)对当前帧采用钻石搜索方法进行匹配块搜索。钻石搜索方法能够快速缩小匹配范围,提高检测效率。
2)对每个匹配块,基于运动估计计算该匹配块及其在前后帧中的最佳匹配块的均方误差(MSE)。
根据帧间的运动信息可以得到帧内每一个像素点的运动位移,运动补偿产生的帧质量依赖于运动矢量的准确性。搜索最佳匹配块时较常用的匹配准则是MSE值,该方法只需要进行减法和加法运算,计算简单,运算量小。
图2为本申请较佳实施例中进行视频场景检测的示意图。参见图2,本实施例基于块的运动估计搜索算法,进行双向运动估计,其中:
F(n)为当前帧;
F(n-1)和F(n+1)为当前帧前后的原始参考帧;
b(n)为当前帧中的匹配块(也可称为待插块);
b(n-1)和b(n+1)分别为在F(n-1)和F(n+1)中搜索到的b(n)最佳匹配块。
3)根据当前帧的匹配块及其在前后帧中的最佳匹配块的MSE值进行场景检测,判断是否发生场景切换。
本步骤可以有几种较佳的判断方式:
(1)可以求b(n-1)和b(n),以及b(n)和b(n+1)的MSE的和,并将所求得的和与预先设置的阈值进行比较,如果和超过阈值,则判定在当前帧发生了场景切换;否则,判定当前帧与其前一帧仍然处于同一场景内。
(2)也可以求b(n)和b(n-1)的MSE之商,以及b(n)和b(n+1)的MSE之商,并计算两个商的均值,将该均值与预先设置的阈值进行比较,如果该均值超过阈值,则判定在当前帧发生了场景切换;否则,判定当前帧与其前一帧仍然处于同一场景内。
对于发生场景切换的帧,可以将其标记出来,从而将视频切分为若干个不同的场景。
二、场景数据集提取
在确定输入视频的不同场景之后,如图3所示,本实施例以2的倍数为基准,从每个场景的起始帧开始,分别按照每1,2,4,8,16,…,2N个帧提取一帧的方式,对每个场景内的图像帧数据进行抽取。如此,将得到一个场景数据集,将其输入高亮重建模型进行建模。
三、高亮重建模型
对于高亮重建模型,本实施例采用卷积自动编码器网络,编码器将LDR输入转换为潜在特征表示,解码器将其重构为对数域中的HDR图像。平移操作包括从LDR将图像直接显示为对数的HDR图像,并初始化平移层的融合操作。
自动编码器结构将输入转换为低纬度表示,并训练解码器来重建全纬数据。去噪的自动编码器是在有损的输入下训练的,目的是重建原始的未损的数据。这是通过映射到对特定损坏保持不变的更高级别表示来实现的。本实施例也使用了该概念来重建高清晰图像。
本实施例完整的图像曝光重建的自动编码器设计如图4所示。卷积紧跟着池化层将输入的LDR图像编码为W64xH64x512的潜在图像表示,其中:W和H分别是图像的宽度和高度,512是特征的个数。编码器层使用常见的VGG16网络。当编码器直接对LDR输入图像进行操作时,解码器负责产生HDR数据。网络的所有层都使用ReLU激活函数,解码器的每层都添加一个规范为层进行预处理。
对输入图像进行编码意味着编码器早期层中的许多高分辨率信息丢失。该信息可能被解码器用来帮助在高曝光区域进行重建。因此,本实施例引入平移操作,在编码器和解码器的高特征和低特征之间传输数据。LDR到HDR的平移操作定义为:
Figure BDA0002545670630000131
其中:
向量vE和vD分别表示编码器和解码器层张量的所有特征通道k∈{1,2,3,…,k}上的切片;
i特指一个像素;
b是特征融合的偏差;
T为激活函数,此处的激活函数使用ReLU;
C是2k*k的权矩阵;在执行自动编解码器之前,初始化将权矩阵和偏差设置为:
Figure BDA0002545670630000132
在训练过程中,可以对这些权重进行优化,以提高平移操作对数据的平滑性。由于特征的线性组合是在对数域中执行的,所以对应线性HDR数据的乘法运算。解码器所需要的所有信息都必须经过中间编码表示,由于参考了之前的遗留信息,可以使得图像质量更好,添加平移操作过程也更好地加入原有的图像细节。
直接使用基于线性HDR值的损失函数将受到高亮度值得严重影响,从而导致低估较亮度范围内的重要差异。因此,本实施例使用HDR图像和原始图像的差值在对数域的损耗,作为损耗比率的4/5,另添加高曝光区域周边预测的准确性作为损失比率的1/5,从而可以使感知误差在亮度范围上大致均匀地传播。
Figure BDA0002545670630000133
其中:
α和β是偏置系数,gi是真实值,yi是预测值,Ii高爆光周边值。
四、曝光生成模型
图5为本申请较佳实施例中曝光生成模型的示意图。参见图5,在不同的视频场景段内,本实施例利用三维卷积网络对抽取的帧进行空间特征提取,然后在时间维度进行池化操作,并拉伸得到特征向量,该特征向量作为曝光生成模型的输入。在曝光生成模型中,各时间段获取的隐藏层特征向量利用曝光生成模型网络,考虑时间维度关联性。最后,在隐藏层的输出接上分类器得到该视频是否抖动或模糊。
本实施例通过加入时间段隐藏层的特征向量信息,并影响曝光图像的最终输出,确定合理的曝光生成图像。针对每帧处理的特征提取可以包含该帧的参考帧信息和前五帧的特征集,如果不满五帧,则按照实际的帧数量进行处理,关键帧按照当前帧直接进行特征提取。针对提取的特性信息和前一帧特征编码信息进行特征编码,将最终生成的特征编码信息作用于图像编码的损失函数。例如:可以按照以下公式计算损失函数:
Figure BDA0002545670630000141
其中:
α和β是偏置系数,gi是真实值,fi是特征信息,pi特征编码信息。
上述公式中的权重可以根据实际的需要进行设置。
最后,使用Gamma曲线压缩算法,直接对输入图像的亮度压缩进行调整,以生成不同曝光等级的图像。
Gy=xn(n<1)
其中,x是输入图像的亮度值。
五、高动态视频合成
利用曝光生成模型,对视频内容逐帧进行处理,生成不同曝光等级的图像后,按照曝光等级从小到大(或从大到小)的顺序,计算和比较各图像的曝光比,创建初始图像数据模板。然后根据数据曝光比,确定一条亮度曲线,去除图像暗部低信噪比的部分和白亮的部分,然后加权合成为一张曝光值超过一半(即如前所述的L2)曝光图像的HDR图像,编码采用10位编码技术,色域覆盖范围BT.2020。最后,使用HEVC对HDR图像进行视频编码,并将HDR信息添加到SEI信息。
对应于上述方法,本申请还提供了一种将LDR视频映射为HDR视频的设备,其组成结构如图6所示,包括:建模模块和映射模块,其中:
所述建模模块,用于根据至少3种不同曝光等级的LDR视频进行训练,得到高亮重建模型和曝光生成模型;
所述映射模块,用于将待处理的LDR视频通过所述高亮重建模型和曝光生成模型映射为HDR视频。
较佳的,所述建模模块具体用于:
以至少3种不同的曝光等级同时对同样的场景进行拍摄,得到所述至少3种不同曝光等级的LDR视频;
对所述至少3种不同曝光等级的LDR视频分别进行场景检测,标记视频中发生场景切换的帧;
在每个场景的起始帧到结束帧之间,按照从高到低的密度抽取帧;
对所抽取的每个帧进行以下操作:在帧中进行高亮区域检索,并基于高亮区域以及该帧前后的帧,利用二维卷积神经网络进行高亮重建模型训练,并得到该帧的经高亮处理后的重建图像;
基于所得到的重建图像按照其在原始LDR视频中的顺序,采用三维卷积神经网络进行曝光生成模型训练,并对应于每一个重建图像分别得到至少3幅不同曝光等级的帧。
较佳的,所述映射模块具体用于:
对所述待处理的LDR视频进行解码后,输入所述高亮重建模型得到所述LDR视频中各个LDR视频帧的经高亮处理后的重建图像;
将所述经高亮处理后的重建图像输入所述曝光生成模型,得到对应于每一个重建图像的至少3幅不同曝光等级的帧;
将所述对应于每一个重建图像的至少3幅不同曝光等级的帧合成为一帧HDR图像,并将所有HDR图像按时间顺序编码合成为HDR视频。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种将LDR视频映射为HDR视频的方法,其特征在于,包括:建模过程和映射过程,其中:
所述建模过程包括:根据至少3种不同曝光等级的LDR视频进行训练,得到高亮重建模型和曝光生成模型;
所述映射过程包括:将待处理的LDR视频通过所述高亮重建模型和曝光生成模型映射为HDR视频。
2.根据权利要求1所述的方法,其特征在于,所述建模过程具体包括:
以至少3种不同的曝光等级同时对同样的场景进行拍摄,得到所述至少3种不同曝光等级的LDR视频;
对所述至少3种不同曝光等级的LDR视频分别进行场景检测,标记视频中发生场景切换的帧;
在每个场景的起始帧到结束帧之间,按照从高到低的密度抽取帧;
对所抽取的每个帧进行以下操作:在帧中进行高亮区域检索,并基于高亮区域以及该帧前后的帧,利用二维卷积神经网络进行高亮重建模型训练,并得到该帧的经高亮处理后的重建图像;
基于所得到的重建图像按照其在原始LDR视频中的顺序,采用三维卷积神经网络进行曝光生成模型训练,并对应于每一个重建图像分别得到至少3幅不同曝光等级的帧。
3.根据权利要求2所述的方法,其特征在于,所述至少3种不同的曝光等级包括:
相机的光圈和快门时间极限的1/3为低曝光等级;
相机的光圈和快门时间极限的2/3为中曝光等级;
相机的光圈和快门时间极限的3/3为高曝光等级。
4.根据权利要求2所述的方法,其特征在于,所述进行场景检测包括:
通过运动搜索的方式搜索匹配块,将匹配块的均方误差与设定的阈值进行比较,判断当前帧是否发生了场景切换。
5.根据权利要求2所述的方法,其特征在于,所述在每个场景的起始帧到结束帧之间,按照从高到低的密度抽取帧包括:
从每个场景的起始帧开始,按照一等比数列逐步降低帧的抽取密度,直至该场景的结束帧;
或者,从每个场景的起始帧开始,按照一设定的非等比数列逐步降低帧的抽取密度,直至该场景的结束帧。
6.根据权利要求2所述的方法,其特征在于,所述该帧前后的帧包括:
所抽取的帧中与该帧处于同一场景,且位于该帧前T1个帧,以及后T2个帧以内的帧,其中,T1和T2为预先设置的正整数。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述映射过程具体包括:
对所述待处理的LDR视频进行解码后,输入所述高亮重建模型得到所述LDR视频中各个LDR视频帧的经高亮处理后的重建图像;
将所述经高亮处理后的重建图像输入所述曝光生成模型,得到对应于每一个重建图像的至少3幅不同曝光等级的帧;
将所述对应于每一个重建图像的至少3幅不同曝光等级的帧合成为一帧HDR图像,并将所有HDR图像按时间顺序编码合成为HDR视频。
8.一种将LDR视频映射为HDR视频的设备,其特征在于,包括:建模模块和映射模块,其中:
所述建模模块,用于根据至少3种不同曝光等级的LDR视频进行训练,得到高亮重建模型和曝光生成模型;
所述映射模块,用于将待处理的LDR视频通过所述高亮重建模型和曝光生成模型映射为HDR视频。
9.根据权利要求8所述的设备,其特征在于,所述建模模块具体用于:
以至少3种不同的曝光等级同时对同样的场景进行拍摄,得到所述至少3种不同曝光等级的LDR视频;
对所述至少3种不同曝光等级的LDR视频分别进行场景检测,标记视频中发生场景切换的帧;
在每个场景的起始帧到结束帧之间,按照从高到低的密度抽取帧;
对所抽取的每个帧进行以下操作:在帧中进行高亮区域检索,并基于高亮区域以及该帧前后的帧,利用二维卷积神经网络进行高亮重建模型训练,并得到该帧的经高亮处理后的重建图像;
基于所得到的重建图像按照其在原始LDR视频中的顺序,采用三维卷积神经网络进行曝光生成模型训练,并对应于每一个重建图像分别得到至少3幅不同曝光等级的帧。
10.根据权利要求8或9所述的设备,其特征在于,所述映射模块具体用于:
对所述待处理的LDR视频进行解码后,输入所述高亮重建模型得到所述LDR视频中各个LDR视频帧的经高亮处理后的重建图像;
将所述经高亮处理后的重建图像输入所述曝光生成模型,得到对应于每一个重建图像的至少3幅不同曝光等级的帧;
将所述对应于每一个重建图像的至少3幅不同曝光等级的帧合成为一帧HDR图像,并将所有HDR图像按时间顺序编码合成为HDR视频。
CN202010559814.4A 2020-06-18 2020-06-18 一种将ldr视频映射为hdr视频的方法和设备 Active CN111709896B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010559814.4A CN111709896B (zh) 2020-06-18 2020-06-18 一种将ldr视频映射为hdr视频的方法和设备
US17/076,242 US11436710B2 (en) 2020-06-18 2020-10-21 Method and device for mapping LDR video into HDR video

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010559814.4A CN111709896B (zh) 2020-06-18 2020-06-18 一种将ldr视频映射为hdr视频的方法和设备

Publications (2)

Publication Number Publication Date
CN111709896A true CN111709896A (zh) 2020-09-25
CN111709896B CN111709896B (zh) 2023-04-07

Family

ID=72541723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010559814.4A Active CN111709896B (zh) 2020-06-18 2020-06-18 一种将ldr视频映射为hdr视频的方法和设备

Country Status (2)

Country Link
US (1) US11436710B2 (zh)
CN (1) CN111709896B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113132655A (zh) * 2021-03-09 2021-07-16 浙江工业大学 一种基于深度学习的hdr视频合成方法
CN113852765A (zh) * 2021-05-31 2021-12-28 天翼智慧家庭科技有限公司 一种基于自编码机的hdr单帧合成方法
CN113973175A (zh) * 2021-08-27 2022-01-25 天津大学 一种快速的hdr视频重建方法
CN114363702A (zh) * 2021-12-28 2022-04-15 上海网达软件股份有限公司 Sdr视频转换为hdr视频的方法、装置、设备及存储介质
CN114418917A (zh) * 2022-03-11 2022-04-29 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596375A (zh) * 2020-11-19 2022-06-07 英业达科技有限公司 产生重建影像的方法
CN114820373B (zh) * 2022-04-28 2023-04-25 电子科技大学 基于知识启发的单张图像重构hdr方法
CN115297254B (zh) * 2022-07-04 2024-03-29 北京航空航天大学 一种便携式高辐射条件下高动态成像融合系统
CN117392353B (zh) * 2023-12-11 2024-03-12 中南大学 一种增强现实光照估计方法、系统、设备及存储介质
CN117876282B (zh) * 2024-03-08 2024-05-14 昆明理工大学 基于多任务交互促进的高动态范围成像方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413285A (zh) * 2013-08-02 2013-11-27 北京工业大学 基于样本预测的hdr和hr图像重建方法
CN110728633A (zh) * 2019-09-06 2020-01-24 上海交通大学 多曝光度高动态范围反色调映射模型构建方法及装置
CN111242883A (zh) * 2020-01-10 2020-06-05 西安电子科技大学 一种基于深度学习的动态场景hdr重建方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8606009B2 (en) * 2010-02-04 2013-12-10 Microsoft Corporation High dynamic range image generation and rendering
EP3072288B1 (en) 2013-11-22 2019-06-12 Dolby Laboratories Licensing Corporation Methods and systems for inverse tone mapping
US10607324B2 (en) * 2015-04-28 2020-03-31 Dolby Laboratories Licensing Corporation Image highlight detection and rendering
US10062152B2 (en) 2016-07-27 2018-08-28 Sharp Laboratories Of America, Inc. System for conversion of low dynamic range images to high dynamic range images
EP3312798A1 (en) 2016-10-20 2018-04-25 Thomson Licensing Method and device for inverse tone mapping
KR102083166B1 (ko) 2019-04-22 2020-03-02 한국과학기술원 이미지 처리 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413285A (zh) * 2013-08-02 2013-11-27 北京工业大学 基于样本预测的hdr和hr图像重建方法
CN110728633A (zh) * 2019-09-06 2020-01-24 上海交通大学 多曝光度高动态范围反色调映射模型构建方法及装置
CN111242883A (zh) * 2020-01-10 2020-06-05 西安电子科技大学 一种基于深度学习的动态场景hdr重建方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113132655A (zh) * 2021-03-09 2021-07-16 浙江工业大学 一种基于深度学习的hdr视频合成方法
CN113852765A (zh) * 2021-05-31 2021-12-28 天翼智慧家庭科技有限公司 一种基于自编码机的hdr单帧合成方法
CN113973175A (zh) * 2021-08-27 2022-01-25 天津大学 一种快速的hdr视频重建方法
CN114363702A (zh) * 2021-12-28 2022-04-15 上海网达软件股份有限公司 Sdr视频转换为hdr视频的方法、装置、设备及存储介质
CN114363702B (zh) * 2021-12-28 2023-09-08 上海网达软件股份有限公司 Sdr视频转换为hdr视频的方法、装置、设备及存储介质
CN114418917A (zh) * 2022-03-11 2022-04-29 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质
CN114418917B (zh) * 2022-03-11 2022-06-21 腾讯科技(深圳)有限公司 数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
US11436710B2 (en) 2022-09-06
CN111709896B (zh) 2023-04-07
US20210398257A1 (en) 2021-12-23

Similar Documents

Publication Publication Date Title
CN111709896B (zh) 一种将ldr视频映射为hdr视频的方法和设备
CN100527842C (zh) 基于背景的运动估计编码方法
CN109068139B (zh) 用于环内再成形的方法、设备和计算机可读存储介质
JP2020010331A (ja) 画質を向上させる方法
CN102282838B (zh) 针对多次曝光的增强动态范围图像和视频的方法和系统
KR101831551B1 (ko) 높은 동적 범위의 이미지 생성 및 렌더링
CN110717868B (zh) 视频高动态范围反色调映射模型构建、映射方法及装置
CN111242883A (zh) 一种基于深度学习的动态场景hdr重建方法
EP2591602A1 (en) Generation of high dynamic range images from low dynamic range images
CN110852964A (zh) 一种基于深度学习的图像比特增强方法
WO2017003525A1 (en) Real-time content-adaptive perceptual quantizer for high dynamic range images
CN111105376B (zh) 基于双分支神经网络的单曝光高动态范围图像生成方法
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
JP2020524446A (ja) 効率的なエンド・ツー・エンドシングルレイヤー逆ディスプレイマネジメント符号化
Perra et al. Effects of light field subsampling on the quality of experience in refocusing applications
CN114173131B (zh) 一种基于帧间相关性的视频压缩方法及系统
CN114513670B (zh) 一种端到端的视频压缩方法、装置和计算机可读存储介质
CN116416216A (zh) 基于自监督特征提取的质量评价方法、存储介质及终端
KR20240024921A (ko) 이미지 또는 비디오를 인코딩/디코딩하기 위한 방법들 및 장치들
CN115841523A (zh) 一种基于Raw域的双支路HDR视频重建算法
Xie et al. Just noticeable visual redundancy forecasting: a deep multimodal-driven approach
CN113573076A (zh) 视频编码的方法和装置
CN112118446A (zh) 图像压缩方法及装置
CN117726541B (zh) 一种基于二值化神经网络的暗光视频增强方法及装置
CN117376565B (zh) 一种hdr视频优化编码方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant