CN113852765A

CN113852765A - 一种基于自编码机的hdr单帧合成方法

Info

Publication number: CN113852765A
Application number: CN202110603392.0A
Authority: CN
Inventors: 曹靖城; 吴宇松; 史国杰
Original assignee: Tianyi Smart Family Technology Co Ltd
Current assignee: Tianyi Digital Life Technology Co Ltd
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-12-28

Abstract

本发明提供了一种基于自编码机的HDR单帧合成的用于生成HDR视频的方法和系统。方法包括：将LDR视频文件逐一抽帧；将每个LDR视频帧分别输入伪高曝生成模型和伪低曝生成模型以分别取得相应编码器输出的高曝特征向量和低曝特征向量，其中所述伪高曝生成模型和所述伪低曝生成模型被用于分别生成输入图像所对应的高曝图像和低曝图像；将所取得的高曝特征向量和低曝特征向量输入多曝光图片融合模型以得到经处理的HDR视频帧，其中所述多曝光图片融合模型利用卷积神经网络进行特征提取，将对应特征向量进行融合，并且利用反卷积网络重建输入图像；以及将经处理的多个HDR视频帧重新组合成HDR视频。

Description

一种基于自编码机的HDR单帧合成方法

技术领域

本发明涉及人工智能及图像处理领域，更具体地，涉及基于自编码机的HDR单帧合成方法。

背景技术

在图像领域中，动态范围(Dynamic Range)指在图像可显示范围内最大灰度值与最小灰度值之间的比率。对于真实世界中的自然场景，从直射的太阳光到树下的阴影，最亮的光照亮度与最暗光照亮度的比值大约有10⁴个数量级。

高动态范围(High-Dynamic Range，简称HDR)视频与低动态范围(Low-DynamicRange，简称LDR)视频相比，能够更加准确的记录真实场景的绝大部分色彩和光照信息，并能表现出丰富的色彩细节和明暗层次，而且能够提供更高的对比度、更丰富的信息和更真实的视觉感受。

近年来支持高动态范围的显示设备越来越多，同时随着通讯技术的发展，HDR视频的带宽压力也将不再是问题，但国内HDR视频源的数量依然有限，不管是影视作品还是电视节目，大都是低动态范围的视频，与越来越先进的显示设备相比，视频源的质量不能满足用户对更好观看体验的要求。目前虽然已经有能够直接拍摄HDR的拍摄设备，但因为成本原因，大部分HDR图片都是通过多帧不同曝光的LDR图片计算融合的，传统方法是经过纯数学方法对多曝光图片进行图片配准和融合计算，近年来也有以DeepFusion为代表的基于深度学习方法的HDR多曝光合成算法出现，以上方法在拍摄目标静止时有很好的效果，但是当拍摄目标有明显移动时，多曝光合成会面临鬼影(Ghosting)问题。当前HDR相关研究多集中在去鬼影(de-Ghosting)问题。

中国专利申请“一种适用于LDR视频的HDR视频生成方法”(CN106506983B)提出了一种适用于LDR视频的HDR视频生成方法，该专利将一个正常曝光的图像转化为有着不同亮度的伪曝光图像，再通过金字塔算法求出对于LDR视频帧对应的HDR图像。但该专利使用的是纯数学方法计算，平均亮度控制参数、对比度测量因子C、饱和度测量因子S、曝光度测量因子E等参数均是人工设定，在处理不同的LDR视频源时，算法的稳定性难以保证。

中国专利申请“一种基于块匹配动态估计去鬼影的高动态范围视频合成方法”(CN106131443A)提出了一种基于块匹配动态估计算法去鬼影的高动态视频合成方法，该专利使用块匹配方法，从输入的图片序列中选定参考帧和当前帧，进行灰度化处理后采用ARPS3块匹配算法计算出当前帧的运动向量，并基于运动向量来检测当前帧和参考帧各自的运动区域，对特定图像的运动区域进行合并，得到最终的HDR图像即视频帧。该专利的高动态视频合成方法通过运动估计对鬼影区域进行检测，并通过融合算法去除鬼影合成HDR视频帧。但该专利仅适用于视频拍摄时的HDR视频合成，不能用于已有的LDR视频和HDR视频。

现有的LDR视频合成HDR视频的算法中的算子都是手工设定的，而视频源由于拍摄器材和色彩风格的不同，其饱和度、照度、对比度等色彩信息都有区别，基于纯数学方法的手工算子在处理这些风格不同的视频时，算法的效果不稳定，需要对每个视频进行单独调参才能获得预期效果，效率低下。因此，为了大大提升将LDR视频转换成HDR视频的稳定性和效率，希望提供一种改进的HDR单帧合成方法。

发明内容

提供本发明内容以便以简化形式介绍将在以下具体实施方式中进一步的描述一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

本发明提出了一种基于自编码机的HDR单帧合成方法，该方法首先使用训练好的神经网络生成器对视频的每一帧模拟出对应的伪低曝图片和伪高曝图片，然后使用多曝光融合算法合成HDR图片，再将处理后每一帧合成为HDR视频。

根据本发明的一方面，提供了一种基于单帧合成的用于生成HDR视频的方法，其特征在于，所述方法包括：

将LDR视频文件逐一抽帧；

将每个LDR视频帧分别输入伪高曝生成模型和伪低曝生成模型以分别取得相应编码器输出的高曝特征向量和低曝特征向量，其中所述伪高曝生成模型和所述伪低曝生成模型被用于分别生成输入图像所对应的高曝图像和低曝图像；

将所取得的高曝特征向量和低曝特征向量输入多曝光图片融合模型以得到经处理的HDR视频帧，其中所述多曝光图片融合模型利用卷积神经网络进行特征提取，将对应特征向量进行融合，并且利用反卷积网络重建输入图像；以及

将经处理的多个HDR视频帧重新组合成HDR视频。

根据本发明的一个实施例，所述伪高曝生成模型和所述低曝生成模型利用卷积神经网络将输入图像进行下采样以提取图像特征并且利用反卷积网络将图像特征上采样以分别生成所述输入图像所对应的高曝图像和低曝图像。

根据本发明的进一步实施例，所述伪高曝生成模型和所述低曝生成模型是通过以下方式来训练得到的：

对所述伪高曝生成模型和所述低曝生成模型进行权值初始化；

使用一批RAW格式HDR图像生成的低曝、高曝和正常曝光图像作为数据集进行训练，其中正常曝光图像作为所述伪高曝生成模型和所述伪低曝生成模型的输入数据，高曝图片和低曝图像分别作为所述伪高曝生成模型和所述伪低曝生成模型的目标输出(groundtruth)；

所述输入数据经过所述伪高曝生成模型和所述低曝生成模型得到实际输出数据；以及

使用图像结构相似度计算函数SSIM作为损失函数来对所述伪高曝生成模型和所述低曝生成模型进行优化。

根据本发明的进一步实施例，所述多曝光图片融合模型是通过以下方式来训练得到的：

对所述多曝光图片融合模型进行权值初始化；

使用所述高曝特征向量和所述低曝特征向量作为输入，对应的HDR原图作为所述多曝光图片融合模型的目标输出(ground truth)进行训练；

所述输入数据经过所述多曝光图片融合模型得到实际输出数据；以及

使用图像结构相似度计算函数SSIM作为损失函数来对所述多曝光图片融合模型进行优化。

根据本发明的进一步实施例，所述特征提取进一步包括：

所述多曝光图片融合模型利用卷积神经网络来对所取得的高曝特征向量和低曝特征向量进行特征提取，其中所述高曝特征向量和所述低曝特征向量的对应卷积层共用相同的权重信息。

根据本发明的另一方面，提供了一种基于单帧合成的用于生成HDR视频的系统，其特征在于，所述系统包括：

视频预处理模块，所述视频预处理模块被配置成将LDR视频文件逐一抽帧；

伪曝光生成模块，所述伪曝光生成模块被配置成将每个LDR视频帧分别输入伪高曝生成模型和伪低曝生成模型以分别取得相应编码器输出的高曝特征向量和低曝特征向量，其中所述伪高曝生成模型和所述伪低曝生成模型被用于分别生成输入图像所对应的高曝图像和低曝图像；

多曝光图片融合模块，所述多曝光图片融合模块被配置成将所取得的高曝特征向量和低曝特征向量输入多曝光图片融合模型以得到经处理的HDR视频帧，其中所述多曝光图片融合模型利用卷积神经网络进行特征提取，将对应特征向量进行融合，并且利用反卷积网络重建输入图像；以及

视频重构模块，所述视频重构模块被配置成将经处理的多个HDR视频帧重新组合成HDR视频。

根据本发明的一个实施例，所述伪高曝生成模型和所述低曝生成模型利用卷积神经网络将输入图像进行下采样以提取图像特征，并且利用反卷积网络将图像特征上采样以分别生成所述输入图像所对应的高曝图像和低曝图像。

对所述多曝光图片融合模型进行权值初始化；

根据本发明的进一步实施例，所述特征提取进一步包括：

与现有技术中的方案相比，本发明所提供的HDR单帧合成方法和系统至少具有以下优点：

(1)通过使用深度学习方法预测单帧LDR图片的高曝图片和低曝图片，规避了传统多曝光合成算法常见的鬼影问题；以及

(2)通过使用极限学习机(Extreme Learning Machine，ELM)深度学习方法完成多曝光融合，相比纯数学计算的传统方法，本方法可以将饱和度、曝光度和对比度反馈到回归量中以估计每个像素的重要性。相比使用手工计算出来的算子，深度学习方法在处理照度、饱和度等图像素质不同的视频源时有更好的稳定性。

通过阅读下面的详细描述并参考相关联的附图，这些及其他特点和优点将变得显而易见。应该理解，前面的概括说明和下面的详细描述只是说明性的，不会对所要求保护的各方面形成限制。

附图说明

为了能详细地理解本发明的上述特征所用的方式，可以参照各实施例来对以上简要概述的内容进行更具体的描述，其中一些方面在附图中示出。然而应该注意，附图仅示出了本发明的某些典型方面，故不应被认为限定其范围，因为该描述可以允许有其它等同有效的方面。

图1示出了根据本发明的一个实施例的基于自编码器的HDR单帧合成的用于生成HDR视频的系统的示例架构图。

图2示出了根据本发明的一个实施例的伪曝光生成模块的示意图。

图3示出了根据本发明的一个实施例的用于训练伪高曝生成模型和伪低曝生成模型的方法的流程图。

图4示出了根据本发明的一个实施例的多曝光图片融合模块的示意图。

图5示出了根据本发明的一个实施例的用于训练多曝光图片融合模型的方法的流程图。

图6示出了根据本发明的一个实施例的基于自编码器的HDR单帧合成的用于生成HDR视频的方法的整体流程图。

图7示出了根据本发明的一个实施例的基于自编码器的HDR单帧合成的用于生成HDR视频的方法的流程图。

具体实施方式

下面结合附图详细描述本发明，本发明的特点将在以下的具体描述中得到进一步的显现。

图1是根据本发明的一个实施例的基于自编码器的HDR单帧合成的用于生成HDR视频的系统100的示例架构图。如图1中所示，本发明的系统100包括：视频预处理模块101、伪曝光生成模块102、多曝光图片融合模块103和视频重构模块104。

视频预处理模块101可被配置成将输入的LDR视频文件逐一抽帧。可选地，可将抽取出的每一帧进行格式转换，例如转换为YCbCy格式图片。伪曝光生成模块102可包括用于生成图片对应的伪低曝图片和伪高曝图片的两个编解码模型，即，伪高曝生成模型和伪低曝生成模型。伪曝光生成模块102可被配置成将每一视频帧输入训练好的两个编解码模型(即，伪高曝生成模型和伪低曝生成模型)以分别提取这两个模型的编码器输出的中间特征向量(即，高曝特征向量和低曝特征向量)。伪曝光生成模块102的具体构造将在图2中进一步详细描述。多曝光图片融合模块103可包括特征提取层、特征融合层、重建图像层。多曝光图片融合模块103可被配置成将高曝特征向量和低曝特征向量输入多曝光图片融合模型，完成特征提取、特征融合和图像重建，以得到经处理的视频帧。多曝光图片融合模块103的具体构造将在图4中进一步详细描述。视频重构模块104可被配置成将处理好的多个视频帧重新组合成视频，以得到处理好的HDR视频。

本领域技术人员能够理解，本发明的系统及其各模块既可以以硬件形式实现，也可以以软件形式实现，并且各模块可以任意合适的方式合并或组合。

图2示出了根据本发明的一个实施例的伪曝光生成模块102的示意图。如图2所示，伪曝光生成模块102包括伪高曝生成模型和伪低曝生成模型，其中每个模型由编码器和解码器两部分组成，其中编码器利用卷积神经网络将输入图片下采样提取图像特征，解码器利用反卷积网络将图像特征上采样为生成图片。具体而言，伪曝光生成模块102可将正常曝光图片输入伪高曝生成模型以生成高曝图片，其中伪高曝生成模型中的编码器利用多层(例如，5层)卷积神经网络将输入图片下采样提取图像特征以得到高曝特征向量，伪高曝生成模型中的解码器利用5层反卷积神经网络将图像特征上采样为生成高曝图片。类似地，伪曝光生成模块102可将正常曝光图片输入伪低曝生成模型以生成低曝图片，其中伪低曝生成模型中的编码器利用5层卷积神经网络将输入图片下采样提取图像特征以得到低曝特征向量，伪低曝生成模型中的解码器利用5层反卷积神经网络将图像特征上采样为生成图片。在该示例中，卷积神经网络由5个卷积层构成，每个卷积层中一般进行如下操作：输入图像通过多个不同的卷积核的滤波，并且添加偏置(bias)，提取局部特征，每一个卷积核会映射出一个新的2D图像；将前面卷积核的滤波输出结果，进行非线性的激活函数处理；对激活函数的结构再进行池化操作(即降采样)，目前一般使用最大池化，保留最大特征，提示模型的畸变容忍能力。反卷积网络的每一层都可以看做卷积网络中对应层的逆过程，它们拥有相同的卷积核和池化索引，因此反卷积将特征值逆映射回了输入图片的像素空间，借此说明图片中的哪些像素参与激活了该特征值，由此得到特征值的可视化结果。

图3示出了根据本发明的一个实施例的用于训练伪高曝生成模型和伪低曝生成模型的方法300的流程图。方法300开始于步骤301，卷积神经网络进行权值的初始化。

在步骤302，使用一批RAW格式HDR图片生成的三种曝光图片(低曝、高曝和正常曝光)作为数据集进行训练，其中正常曝光图片作为伪高曝生成模型和伪低曝生成模型的输入，高曝和低曝图片分别作为这两个生成模型的目标输出(ground truth)。RAW文件记录了相机传感器的原始信息，可以通过后期调节快门速度和光圈大小获得同一张图片的低曝、高曝和正常曝光的图片作为一组训练数据。

在步骤303，输入数据经过卷积网络(例如，由5个卷积层构成)和反卷积网络(例如，由5个反卷积层构成)得到实际输出数据。

在步骤304，使用图像结构相似度计算函数SSIM作为损失函数进行优化，其中在损失函数所求得的误差大于预期值时更新权值并且返回步骤2，而在损失函数所求得的误差小于或等于预期值时，结束训练以得到训练好的伪高曝生成模型和伪低曝生成模型。

图4示出了根据本发明的一个实施例的多曝光图片融合模块103的示意图。多曝光图片融合模块103可取伪低曝生成模型和伪高曝生成模型中的相应编码器输出的特征向量输入该多曝光融合模块的特征提取层，特征提取层(C11、C21、C31、C12、C22、C32)通过5x5的卷积核来提取特征，同时为了从输入数据对中学习到相同的图片特征，C11与C12、C21与C22、C31与C32共用相同的权重信息，由此可以随后将两个输入图像的对应特征向量通过简单的融合方法进行融合。例如，多曝光图片融合模块103可通过张量相加(TensorAddition)来合成经特征提取的对应特征向量，以实现特征融合。多曝光图片融合模块103可随后将融合后的向量输入反卷积网络(例如，由8个反卷积层构成)以得到生成的HDR图片。

图5示出了根据本发明的一个实施例的用于训练多曝光图片融合模型的方法500的流程图。方法500开始于步骤501，卷积神经网络进行权值的初始化。

在步骤502，使用生成模型中编码器的输出向量(高曝特征向量和低曝特征向量)作为输入，对应的HDR原图作为多曝光图片融合模型的目标输出(ground truth)作为训练集来进行训练。

在步骤503，输入数据经过卷积网络(例如，卷积层(C11、C21、C31、C12、C22、C32))和反卷积网络(例如，由8个反卷积层构成)得到实际输出数据。

在步骤504，使用图像结构相似度计算函数SSIM作为损失函数进行优化，其中在损失函数所求得的误差大于预期值时更新权值并且返回步骤2，而在损失函数所求得的误差小于或等于预期值时，结束训练以得到训练好的多曝光图片融合模型。

图6示出了根据本发明的一个实施例的基于自编码器的HDR单帧合成的用于生成HDR视频的方法600的整体流程图。如图6所示，方法600开始于将LDR视频文件逐一抽帧，以得到多个LDR视频帧。随后，该多个LDR视频帧中的每一视频帧可被分别输入训练好的伪高曝生成模型和伪低曝生成模型以取得相应编码器输出的高曝特征向量和低曝特征向量，如图2所示。所取得的高曝特征向量和低曝特征向量可随后被输入训练好的多曝光融合模型，经过特征提取、特征融合，最后使用反卷积网络以得到经处理的HDR视频帧，如图4所示。多个经处理的HDR视频帧可被重新组合成视频以得到处理好的HDR视频。

图7示出了根据本发明的一个实施例的基于自编码器的HDR单帧合成的用于生成HDR视频的方法700的流程图。方法700开始于步骤701，视频预处理模块101可将LDR视频文件逐一抽帧，得到多个LDR视频帧。

在步骤702，伪曝光生成模块102可将每个视频帧分别输入伪高曝生成模型和伪低曝生成模型以分别取得相应编码器输出的高曝特征向量和低曝特征向量，其中该伪高曝生成模型和伪低曝生成模型利用卷积神经网络将输入图像进行下采样以提取图像特征并且利用反卷积网络将图像特征上采样以分别生成输入图像所对应的高曝图片和低曝图片。

在步骤703，多曝光图片融合模块103可将所取得的高曝特征向量和低曝特征向量输入多曝光图片融合模型以得到经处理的视频帧，其中该多曝光图片融合模型利用卷积神经网络进行特征提取，将对应特征向量进行融合，并且利用反卷积网络重建输入图像所对应的HDR视频帧。

在步骤704，视频重构模块104可将经处理的多个视频帧重新组合成视频以得到处理好的HDR视频。

以上所已经描述的内容包括所要求保护主题的各方面的示例。当然，出于描绘所要求保护主题的目的而描述每一个可以想到的组件或方法的组合是不可能的，但本领域内的普通技术人员应该认识到，所要求保护主题的许多进一步的组合和排列都是可能的。从而，所公开的主题旨在涵盖落入所附权利要求书的精神和范围内的所有这样的变更、修改和变化。

Claims

1.一种基于单帧合成的用于生成HDR视频的方法，其特征在于，所述方法包括：

将LDR视频文件逐一抽帧；

将经处理的多个HDR视频帧重新组合成HDR视频。

2.如权利要求1所述的方法，其特征在于，所述伪高曝生成模型和所述低曝生成模型利用卷积神经网络将输入图像进行下采样以提取图像特征并且利用反卷积网络将图像特征上采样以分别生成所述输入图像所对应的高曝图像和低曝图像。

3.如权利要求1所述的方法，其特征在于，所述伪高曝生成模型和所述低曝生成模型是通过以下方式来训练得到的：

4.如权利要求1所述的方法，其特征在于，所述多曝光图片融合模型是通过以下方式来训练得到的：

对所述多曝光图片融合模型进行权值初始化；

5.如权利要求1所述的方法，其特征在于，所述特征提取进一步包括：

6.一种基于单帧合成的用于生成HDR视频的系统，其特征在于，所述系统包括：

7.如权利要求6所述的系统，其特征在于，所述伪高曝生成模型和所述低曝生成模型利用卷积神经网络将输入图像进行下采样以提取图像特征，并且利用反卷积网络将图像特征上采样以分别生成所述输入图像所对应的高曝图像和低曝图像。

8.如权利要求6所述的系统，其特征在于，所述伪高曝生成模型和所述低曝生成模型是通过以下方式来训练得到的：

9.如权利要求6所述的系统，其特征在于，所述多曝光图片融合模型是通过以下方式来训练得到的：

对所述多曝光图片融合模型进行权值初始化；

10.如权利要求6所述的系统，其特征在于，所述特征提取进一步包括：