CN113962884B

CN113962884B - Hdr视频获取方法、装置、电子设备以及存储介质

Info

Publication number: CN113962884B
Application number: CN202111178689.3A
Authority: CN
Inventors: 严洪泽
Original assignee: Hangzhou Zhicun Intelligent Technology Co ltd
Current assignee: Hangzhou Zhicun Intelligent Technology Co ltd
Priority date: 2021-10-10
Filing date: 2021-10-10
Publication date: 2023-03-24
Anticipated expiration: 2041-10-10
Also published as: CN113962884A

Abstract

本发明提供一种HDR视频获取方法、装置、电子设备以及存储介质，该HDR视频获取方法包括：获取多曝光RAW图并对各RAW图降噪；将降噪后的RAW图恢复到RGB图；将连续的多帧RGB图对齐后分别对每帧RGB图进行gamma矫正和线性化得到对应的gamma RGB图和线性RGB图；将连续的多帧RGB图对应的gamma RGB图和线性RGB图输入HDR融合神经网络模型得到融合后的清晰HDR图，其中，在结合加速度计、陀螺仪数据将多帧RGB图对齐后分别对每帧RGB图进行gamma矫正和线性化得到对应的gamma RGB图和线性RGB图后进行融合，能够减少伪影和抖动问题，提高泛化能力，进一步提高图像质量精度。

Description

HDR视频获取方法、装置、电子设备以及存储介质

技术领域

本发明涉及视频图像处理技术领域，尤其涉及一种HDR视频获取方法、装置、电子设备以及存储介质。

背景技术

随着成像系统性能的不断提升，消费者对夜间高质量的高动态范围(HighDynamic Range，HDR)照片和视频、逆光环境下的HDR照片和视频的需求日趋强烈，而高质量的高动态范围内容拍摄设备价格昂贵，需要经过复杂的后处理，门槛较高。为了消费者可以在手机上拍摄高质量的高动态范围照片和视频，人们做了许多研究。

在数字图像领域，动态范围(Dynamic Range)表示了图像可显示范围内的最大亮度和最小亮度直接的比率。其中，场景中最大光度值与最小光度值的比值称为场景的动态范围，其单位为坎德拉每平方米(cd/m²)，也可表示为尼特(nits)。现实场景中光度值的分布范围非常宽广，强烈阳光照射下的光度值超过1000000cd/m²，而夜晚微弱星光下的光度值会低于0.001cd/m²，真实场景中的动态范围已超过了10⁹:1。人眼的动态范围也有10⁵:1，根据如下动态范围计算公式，即有100dB。

DR＝20log10(i_max/i_min)dB

对于成像传感器在固定场景的单次曝光，消费级10bit RAW图，动态范围仅1000:1，即60dB；高端相机传感器14bit RAW图，动态范围也仅16000:1，即84dB；相比人眼和真实场景仍有不小差距。

目前，将动态范围不足0.1～400nits的显示设备称为标准动态范围(StandardDynamic Range，SDR)显示设备，即8bit显示屏，也是目前人们最常见的显示屏规格；把动态范围超过0.01～540nits的称为高动态范围(High Dynamic Range，HDR)显示设备，目前高清TV和高端手机上均采用了HDR10+屏幕，即10bit显示屏。HDR拍摄照片和视频，本质是将超过100dB动态范围的真实场景用成像系统记录下来，再使用ISP进行处理保存成8bit照片和视频的过程，即动态范围从100dB压缩到48dB，且保证细节、色彩不丢失。然而，单帧图像所能记录的真实场景动态范围有限，现有技术中通过拍摄多张不同曝光时间的RGB图进行融合，来扩大成像系统所能记录的最大动态范围，即多曝光图像融合技术(multi-exposureimage fusion，MEF)。

多曝光图像融合技术往往是在ISP后RGB域进行HDR融合，有效降低了高动态范围内容的制作成本和难度，但是，多曝光RGB图采集因存在曝光时间和数据传输等时间延迟，易引起伪影和抖动问题，另外，现有HDR融合技术的泛化能力不足，导致图像质量精度尚待提高，且AI_HDR融合算法计算量过大，无法在移动端部署。

发明内容

针对现有技术中的问题，本发明提供一种HDR视频获取方法、装置、电子设备以及存储介质，该方法包括：获取多曝光RAW图并对各RAW图降噪；将降噪后的RAW图恢复到RGB图；将连续的多帧RGB图对齐后分别对每帧RGB图进行gamma矫正和线性化得到对应的gammaRGB图和线性RGB图；将连续的多帧RGB图对应的gamma RGB图和线性RGB图输入HDR融合神经网络模型得到融合后的清晰HDR图，在将多帧RGB图对齐后分别对每帧RGB图进行gamma矫正和线性化得到对应的gamma RGB图和线性RGB图后进行融合，能够减少伪影和抖动问题，提高泛化能力，进一步提高图像质量精度。另外，本发明实施例提出了轻量级的AI_HDR融合算法，能够实现移动端部署。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例中的HDR视频获取方法的流程示意图一；

图2示出了本发明实施例中的DOL-HDR传感器三曝光RAW图拍摄和输出序列；

图3示出了本发明实施例中的每3帧多曝光获得一帧HDR图；

图4是本发明实施例中的HDR视频获取方法的流程示意图二；

图5示出了本发明实施例中的降噪具体步骤；

图6示出了本发明实施例中的AI降噪网络模型；

图7示出了本发明实施例中的深度可分离通道注意力模块的具体结构；

图8示出了本发明实施例中的倒置残差通道注意力模块的具体结构；

图9示出了本发明实施例中的短接倒置残差通道注意力模块的具体结构；

图10示出了本发明实施例中的HDR融合神经网络模型的具体结构；

图11示出了本发明实施例中的时域注意力单元的具体结构；

图12示出了本发明实施例中的特征提取模块的具体结构；

图13例举了本发明实施例中的HDR视频获取方法的过程；

图14为多曝光HDR融合方案暗处细节说明；

图15为多曝光HDR融合方案过曝处细节说明；

图16是本发明实施例中的HDR视频获取装置的结构框图；

图17为本发明实施例电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

申请人为了对多曝光图像融合技术的潜在问题，进行原因分析和解决，针对宽动态手持设备场景进行HDR视频拍摄，以发现问题并解决问题。在夜晚低光环境下拍摄时，若曝光时间短，存在噪声高、偏色等图像问题。为了提高低光环境下的图像质量，降低噪声并矫正图像颜色，需采用低ISO并增大曝光时间，但会降低视频帧率和更多区域过曝，减少了HDR视频过曝处的细节。

在白天室外环境下拍摄时，环境动态范围大，为了拍摄HDR视频，同时保留明亮处和暗处的细节，长曝光帧往往存在大面积过曝而丢失图像细节。此时，需要利用图像对齐和短曝光视频帧细节来填补过曝区域。

在拍摄夜间或高动态场景视频时，由于传感器输出比特数有限，黑暗区域的细节会被量化压缩到低比特中，而出现细节丢失和量化伪影问题。

由于传统多曝光融合技术仅用于HDR图像合成，从不同曝光的RGB图像中提取合适的曝光区域进行融合，计算量大，不适用与HDR视频拍摄。传统拍摄夜间或高动态场景视频时，在RGB域使用色调映射来提高暗处图像亮度，降低明亮处的图像亮度，来提高图像的视觉效果。但这会放大暗部图像噪声和量化伪影。

现有多曝光图像融合技术往往是在ISP后RGB域进行HDR融合，存在曝光合成的图像数量、拍摄时的曝光比与ISO(即EV水平)、短曝光引起的严重噪声、短曝光引起的偏色问题、多曝光图像之间的对齐与鬼影问题、多曝光融合时的细节恢复问题等。另外，现有HDR融合时未考虑相机运动引起的运动模糊、RAW图RGGB拜耳关系被破坏引入的伪影，在拍摄背光区域运动手臂时，存在运动手臂断裂，运动伪影残留、偏色；另外，根据不同场景，需设置不同的WDR参数，缺少灵活性。只适用于相机固定、物体静止的静态场景，无法用于手机等运动拍摄HDR视频的场景。

本发明通过在RGB域进行多曝光RGB图融合，并通过动态范围压缩和色调映射实现HDR视频拍摄。每张曝光图RAW数据不会受到前后帧数据干扰，避免了RAW域处理导致运动物体引入断裂、偏色等伪影。

而且，多曝光RGB图采集因存在曝光时间和数据传输等时间延迟，通过对齐进行矫正，减少伪影和抖动问题；另外，通过从多曝光图中提取有用信息，改善图像质量和真实度，如短曝光暗处和长曝光过曝处的细节丢失，提高图像质量。

另外，本发明采用数字重叠技术(Digital overlap，DOL)-HDR技术拍摄HDR视频，DOL-HDR是一种sony传感器多帧HDR技术，支持准同时输出多帧不同曝光时间的图像，正常拍摄和HDR拍摄时均不会损失空间分辨率。ISP收到多帧图像后可以做图像融合，生成HDR图像，支持逐帧曝光时间、读出增益、转换增益的调整，即通过长短帧的曝光比、ISO比调整，提高HDR视频帧率的同时，满足HDR图像质量要求。当然，也可以采用隔行多重曝光技术(binned multiplexed exposure，BME)，空间分割多重曝光技术(Spatial multiplexedexposure，SME)，四拜耳编码技术(Quad bayer coding，QBC)。

图1是本发明实施例中的HDR视频获取方法的流程示意图一；如图1所示，该HDR视频获取方法可以包括以下内容：

步骤S100：获取多曝光RAW图并对各RAW图降噪；

具体地，可使用高动态范围传感器，根据设置的曝光时间和ISO，获取对应的多曝光RAW图，RAW图读取与传输序列参见图2。

另外，对多曝光RAW中各RAW进行降噪，以降低噪声干扰，提高图像质量；

步骤S200：将降噪后的RAW图恢复到RGB图；

通过将RAW图恢复到RGB域进行多曝光RGB图融合，每张曝光图RAW数据不会受到前后帧数据干扰，避免了RAW域处理导致运动物体引入断裂、偏色等伪影。

步骤S300：将连续的多帧RGB图对齐后分别对每帧RGB图进行gamma矫正和线性化得到对应的gamma RGB图和线性RGB图；

具体地，对每帧RGB图进行gamma矫正，得到gamma RGB图，利用每帧RGB图进行曝光时间矫正，即利用每帧RGB图除以多曝光各自的EV水平，得到gamma RGB图和线性RGB图；

步骤S400：将连续的多帧RGB图对应的gamma RGB图和线性RGB图输入HDR融合神经网络模型得到融合后的清晰HDR图。

举例来说，将对齐后的gamma RGB图和线性RGB图各自按通道方向拼接后，前后每3帧多曝光六通道拼接RGB图送入HDR融合神经网络模型，输出融合后的清晰HDR图；其中，EV水平与曝光时间、ISO相关，多曝光视频序列可表示为{EV-2,EV+0,EV+2,...}、{EV-3,EV+0,EV+3,...}等；根据多曝光视频序列获得HDR视频过程参见图3。

具体地，将前一帧的gamma图与线性RGB图拼接，当前帧的gamma图与线性RGB图拼接，后一帧的gamma图与线性RGB图拼接；3张3通道的RGB图最终对应3张6通道的拼接图，即将gamma RGB图和线性RGB图拼接为三帧h*w*6尺寸输入图，输入融合模型中，模型输出1张3通道的图，继续参见图3，第1帧至第3帧处理得到一帧图，第2帧至第4帧处理得到一帧图；第3帧至第5帧处理得到一帧图，依次类推，处理后的图形成HDR视频。

通过采用上述技术方案，在将多帧RGB图对齐后分别对每帧RGB图进行gamma矫正和线性化得到对应的gamma RGB图和线性RGB图后进行融合，另外，在RGB域进行融合，结合融合技术，能够减少伪影和抖动问题，提高泛化能力，进一步提高图像质量精度。

在一个可选的实施例中，参见图4，该HDR视频获取方法还可以包括以下内容：

步骤S500：将融合后的清晰HDR图序列进行动态范围压缩和色调映射得到HDR视频。

具体地，处理芯片可为片上系统芯片(System on Chip，SoC)、图像信号处理芯片(Image Signal Processor，ISP)。

在一个可选的实施例中，将降噪后的RAW图恢复到RGB图可以包括以下内容：

将降噪后的RAW图通过ISP管道或AI_ISP模型恢复得到RGB图。

其中，ISP操作包括白平衡、去马赛克、色彩空间变换，得到与曝光时间关联的RGB图，存在明暗差别；在该图基础上做gamma变换得到RGB图；因没有校正曝光时间差异，不是线性RGB图。

在一个可选的实施例中，将连续的多帧RGB图对齐可以包括以下内容：

根据陀螺仪和加速度计数据，将前后帧RGB图向中间帧RGB图对齐。

在一个可选的实施例中，参见图5，该对图像降噪的过程可以包括以下内容：

步骤S110：利用预获取的噪声模型对一RAW图进行处理得到噪声分量图像；

具体地，该噪声模型可以是高斯-泊松噪声模型。

步骤S120：将所述RAW图以及所述噪声分量图像输入预训练的AI降噪网络模型得到降噪后的RAW图；

其中，所述AI降噪网络模型包括：深度可分离通道注意力模块、倒置残差通道注意力模块、短接倒置残差通道注意力模块、离散小波变换模块以及逆离散小波变换模块。

具体地，本发明实施例提供的AI降噪网络模型采用深度可分离通道注意力模块(Depthwise Channel Attention Block，DCAB)、倒置残差通道注意力模块(InvertedResidual Channel Attention Block，IRCAB)、短接倒置残差通道注意力模块(ShortcutInverted Residual Channel Attention Block，SIRCAB)替换常规卷积层和激活函数等操作，在减少计算量和模型尺寸的同时，考虑多尺度的特征信息；采用离散小波变换(Discrete Wavelet Transform，DWT)、逆离散小波变换(Inverse Discrete WaveletTransform，IWT)来替换特征层的池化、下采样、上采样、逆卷积等操作，保证信息不丢失。

通过采用上述技术方案，采用深度可分离通道注意力模块、倒置残差通道注意力模块、短接倒置残差通道注意力模块实现点可分离卷积、深度可分离卷积、预激活、通道注意力机制以及残差结构，着眼于噪声RAW图与干净RAW图的差异计算并降低计算量和模型尺寸，实现轻量级降噪网络，改善可降噪效果。

在一个可选的实施例中，参见图6，该深度可分离通道注意力模块的数量为6个，分别为第一深度可分离通道注意力模块DCAB1至第六深度可分离通道注意力模块DCAB6；所述倒置残差通道注意力模块的数量为3个，分别为第一倒置残差通道注意力模块IRCAB1至第三倒置残差通道注意力模块IRCAB3；所述短接倒置残差通道注意力模块的数量为3个，分别为第一短接倒置残差通道注意力模块SIRCAB1至第三短接倒置残差通道注意力模块SIRCAB3；所述离散小波变换模块的数量为2个，分别为第一离散小波变换模块DWT1以及第二离散小波变换模块DWT2；所述逆离散小波变换模块的数量为2个，分别为第一逆离散小波变换模块IWT1以及第二逆离散小波变换模块IWT2；

AI降噪网络模型还包括：第一拼接模块C1、第二拼接模块C2、加法模块D1以及以及3x3卷积模块3x3conv；

其中，第一离散小波变换模块DWT1、第一深度可分离通道注意力模块DCAB1、第一短接倒置残差通道注意力模块SIRCAB1、第二离散小波变换模块DWT2、第二深度可分离通道注意力模块DCAB2、第一倒置残差通道注意力模块IRCAB1、第三深度可分离通道注意力模块DCAB3、第二倒置残差通道注意力模块IRCAB2、第一拼接模块C1、第四深度可分离通道注意力模块DCAB4、第三倒置残差通道注意力模块IRCAB3、第一逆离散小波变换模块IWT1、第二拼接模块C2、第五深度可分离通道注意力模块DCAB5、第二短接倒置残差通道注意力模块SIRCAB2、第二逆离散小波变换模块IWT2、第六深度可分离通道注意力模块DCAB6、第三短接倒置残差通道注意力模块SIRCAB3、3x3卷积模块3x3conv、加法模块D1顺序连接；所述加法模块还接入目标RAW图Noisy RAW；第一短接倒置残差通道注意力模块SIRCAB1还连接第二拼接模块C2，第一倒置残差通道注意力模块IRCAB1的输出还连接第一拼接模C1块。

其中，Noisy Level表示噪声分量图像，Denoised RAW表示降噪后的RAW图。

值得说明的是，该AI降噪网络参数量为0.96M，对于4K实拍视频，2160*4096的实拍Raw图降噪计算量约为69.66Gmacs，与现有技术相比极大降低。

离散小波变换DWT可将特征层分离到高频、中频、低频通道，DWT算子后面的后续网络对特征层进行降噪；逆离散小波变换可将高频、中频、低频特征层进行合并。

在一个可选的实施例中，参见图7，深度可分离通道注意力模块DCABL包括：顺序连接的第一带泄露修正线性单元LeakyReLU1、第一点卷积单元pw-conv1、第二带泄露修正线性单元LeakyReLU2、第一深度卷积单元dw-conv1、第一全局平均池化单元AvgPool1、第一1x1点卷积单元1x1 conv1、第一非线性激活单元ReLU1、第二1x1点卷积单元1x1 conv2、第一Sigmoid单元S1、第一乘法单元T1以及第二点卷积单元pw-conv2；其中，第一深度卷积单元dw-conv1还连接所述第一乘法单元T1。

在一个可选的实施例中，参见图8，倒置残差通道注意力模块IRCAB包括：顺序连接的第三带泄露修正线性单元LeakyReLU3、第三点卷积单元pw-conv3、第四带泄露修正线性单元LeakyReLU4、第二深度卷积单元dw-conv2、第二全局平均池化单元AvgPool2、第三1x1点卷积单元1x1 conv3、第二非线性激活单元ReLU2、第四1x1点卷积单元1x1 conv4、第二Sigmoid单元S2、第二乘法单元T2、第四点卷积单元pw-conv4、第一加法单元D2；其中，第二深度卷积单元dw-conv2还连接所述第二乘法单元T2，第一加法单元D1还连接第三带泄露修正线性单元LeakyReLU3的输入。

在一个可选的实施例中，参见图9，短接倒置残差通道注意力模块SIRCAB包括：3x3卷积单元3x3 conv以及顺序连接的第五带泄露修正线性单元LeakyReLU5、第五点卷积单元pw-conv5、第六带泄露修正线性单元LeakyReLU6、第三深度卷积单元dw-conv3、第三全局平均池化单元AvgPool3、第五1x1点卷积单元1x1 conv5、第三非线性激活单元ReLU3、第六1x1点卷积单元1x1 conv3、第三Sigmoid单元S3、第三乘法单元T3、第六点卷积单元pw-conv6、第二加法单元D3；其中，第三深度卷积单元dw-conv3还连接所述第三乘法单元T3，第二加法单元D3还通过3x3卷积单元连接第五带泄露修正线性单元LeakyReLU5的输入.

具体地，DCAB、IRCAB、SIRCAB三个模块均在输入测设置LeakyReLU，实现在点卷积和深度卷积之前的预激活，另外，SIRCAB通过3x3 conv将输入短接至加法单元，即本发明实施例提供的网络模型，在MobileNetV3的倒置残差注意力模块基础上，分别应用预激活、短接得到了深度可分离通道注意力模块DCAB、倒置残差通道注意力模块IRCAB、短接倒置残差通道注意力模块SIRCAB。

另外，深度可分离通道注意力模块DCAB、倒置残差通道注意力模块IRCAB、短接倒置残差通道注意力模块SIRCAB中，由AvgPool、1x1 conv、RELU、1x1 conv、Sigmoid以及乘法单元配合实现通道注意力机制。在IRCAB模块中，加法单元还连接到LeakyReLU的输入端，形成了残差结构。

举例来说，将h*w*1尺寸的含噪声Raw图和噪声分量图像分别按R、Gr、Gb、B四通道规整为两个h/2*w/2*4尺寸数据作为AI网络输入。经过第一个DWT，无损地提取出高、中、中、低4个频率分量并组合，将尺度压缩为h/4*w/4即为1/2*1/2特征层；经过第二个DWT，将尺度压缩为h/8*w/8即为1/4*1/4特征层；经过第一个IWT，将尺度恢复为h/4*w/4即为1/2*1/2特征层；经过第二个IWT，将尺度恢复为h/2*w/2即为1*1特征层；通过1x1卷积核和3x3卷积核，分别可实现原始Raw图上2*2、6*6、4*4、12*12、8*8、24*24区域像素之间的信息提取和交互，以减少ISP后端图像处理引入的噪声；通过通道注意力机制，实现通道之间的信息提取和交互，聚焦不同层的特征通道。基于拼接模块C1和C2，利用前后特征层拼接，保证了特征层的传递效率，提高了训练的稳定性，更容易收敛。DCAB与SIRCAB、IRCAB的前后组合形式，可避免特征信息通过直连分支直接传递，使残差分支失效。最后与含噪声Raw图相加得到降噪后的干净Raw图，使中间网络主要着眼于含噪声Raw图与干净Raw图之间差异的计算，避免不同场景和纹理的含噪声Raw图对降噪性能的干扰。

其中，pw_conv指pointwise convolution，dw_conv指depthwise convolution。值得说明的是，本发明实施例中AI降噪网络不局限于这一种，还可以考虑其他CNN、MLP、Transformer网络来实现本发明实施例相似的功能。

在一个可选的实施例中，该降噪步骤还可以包括对RAW图进行RAW域预处理的步骤。

具体地，RAW域预处理包括：暗电平矫正、固定模式噪声矫正、坏点矫正、LensShading矫正、绿平衡中的一个或多个。

通过采用上述技术方案，能够提高图像处理的精度和效果。

其中，对RAW图进行RAW域预处理后输入高斯-泊松噪声模型，将拍摄参数(如ISO、拍摄场景、相机型号等)作为先验信息，获得对应的泊松噪声参数和高斯噪声参数，结合RAW图，获得噪声分量图像；然后将噪声分量图像和含噪声RAW图拼接，输入AI降噪网络进行降噪，得到降噪后的干净raw图；必要时，可以再传输给后端处理芯片进行白平衡、去马赛克、色彩空间变换、色调变换等，恢复出干净的RGB图像。

其中，在拼接时，将两个4通道图像拼接成8通道图像，可以是噪声分量图像红色通道、含噪声RAW图红色通道、噪声分量图像绿色通道、含噪声RAW图绿色通道这样各通道拼接后再拼接到一起，或者噪声分量图像的红、绿、绿、蓝与含噪声RAW图红、绿、绿、蓝按顺序拼接，本发明实施例对拼接方式不做限制。

另外，场景信息可通过多种方法来获取。通过拍摄时间与时区，将图像分为白天拍摄、夜晚拍摄；通过场景检测，将图像分为室外拍摄、室内拍摄、人物照、风景照、物品照等；通过图像照度分析，将图像分为明亮场景、昏暗场景；通过图像对比度与动态范围分析，将图像分为是否逆光拍摄。

在一个可选的实施例中，还可以包括噪声模型获取步骤。

具体地，先获取不同场景下的RAW图数据集；对不同场景下的RAW图数据集中的RAW图进行预处理后获得各RAW图的噪声水平统计信息；对各场景下的RAW图数据集对应的RAW图的噪声水平统计信息分别进行拟合得到与ISO相关的泊松噪声参数曲线和高斯噪声参数曲线，作为用于获取噪声分量图像的噪声模型。

其中，预处理包括以下任意一种或多种：暗电平矫正，固定模式噪声(FPN)矫正，坏点矫正，Lens Shading矫正，绿平衡。针对处理后的RAW图数据集，使用基于图像块的局部噪声估计方法，获得raw图噪声水平统计信息，拟合获得与ISO相关的泊松噪声参数曲线和高斯噪声参数曲线，作为噪声模型。

具体地，高斯-泊松噪声模型x_n＝y_n+ε_n(y_n)，ε_n(y_n)～N(μ＝0,σ_n ²(y_n)＝λ_read+λ_shoty_n)，其中，未知干净图像为y_n,真实含噪声图像为x_n；信号相关的泊松-高斯噪声为ε_n，n表示像素，每个像素n噪声偏量符合正态分布N，标准差为

本发明实施例中的噪声估计方法根据统计信息得到散粒噪声参数λ_shot曲线、读取噪声参数λ_read曲线，与log₁₀(ISO)满足二次多项式关系，分别有系数a₀/a₁/a₂、b₀/b₁/b₂。读取噪声因子ε(λ_read)。有：

x_n＝min(max(y_n+ε_n(y_n),0),1)(实现时，需要x_n、y_n满足范围[0,1])

log₁₀(λ_shot)＝a₀+a₁·log₁₀(ISO)+a₂·log₁₀(ISO)²

ε(λ_read)＝b₀+b₁·log₁₀(ISO)+b₂·log₁₀(ISO)²

λ_read＝ε(λ_read)·ε(λ_read)·λ_shot

本发明实施例主要采用基于图像块的局部噪声估计方法，通过计算图像块噪声参数和协方差矩阵的特征值、图像块特征值的统计信息，来生成高斯-泊松噪声模型的估计参数。具体包括以下内容：

(1)将RAW图通过上述预处理后归一化到[0,1]，分割为若干个尺寸s₁*s₂的图像块，按R、Gr、Gb、B四通道进行颜色通道分离并规整为4*s₁/2*s₂/2,例如可取s₁、s₂分别为512，作为大图像块进行分块计算来提高计算效率；

(2)针对每个大图像块提取尺寸d₁*d₂、步长ds、通道数4的若干小图像块，例如可取d₁、d₂分别为16，ds为7，作为小图像序列集；每个大图像块分别有c_n个小图像块；

(3)计算每个小图像块的协方差矩阵，与该矩阵的特征值；统计分析大图像块中所有小图像块的特征值，将该特征值序列的中位数求根号作为该大图像块的散粒噪声系数；除了中位数，还可选择平均数、加权平均等方式提取出特征值序列的有效信息，作为大图像块的散粒噪声系数；

(4)计算出每个大图像块的散粒噪声系数，取平均即为该raw图的散粒噪声系数；

(5)统计分析每张raw图的散粒噪声系数与ISO之间的关系，通过最小二乘法可拟合得到log₁₀(λ_shot)＝a₀+a₁·log₁₀(ISO)+a₂·log₁₀(ISO)²+N(μ＝0,σ_s)，其中，实际数据分布在该曲线两边，偏移量满足期望为0、标准差为σs的正态分布；图9示出了本发明实施例中散粒噪声系数log₁₀(λ_shot)与log₁₀(ISO)的关系曲线。

(6)步骤(5)正态分布N通过分析散粒噪声分布与其二次拟合曲线的差值Δ的高斯分布直方图得到，作为训练阶段的散粒噪声log₁₀(λ_shot)曲线高斯随机分量，使训练噪声更接近真实噪声分布；参见图10，示出了本发明实施例中差值Δ的高斯分布直方图；

(7)分析步骤(6)中差值Δ与log₁₀(ISO)的关系，通过最小二乘法得到二次拟合曲线ε(λ_read)＝b₀+b₁·log₁₀(ISO)+b₂·log₁₀(ISO)²+N(μ＝0,σ_r)，作为读取噪声因子ε(λ_read)与ISO的关系曲线；其中，μ表示正态分布的期望值，或平均值，实际数据分布在该曲线两边，偏移量满足期望为0、标准差为σr的正态分布；参见图11，示出了本发明实施例中读取噪声因子ε(λ_read)与log₁₀(ISO)的关系曲线；

(8)步骤(7)正态分布N通过分析读取噪声因子ε(λ_read)与其二次拟合曲线的差值的高斯分布直方图得到，作为训练阶段的读取噪声因子ε(λ_read)曲线高斯随机分量，使训练噪声更接近真实噪声分布；

(9)通过读取噪声因子和散粒噪声参数计算读取噪声参数

λ_read＝ε(λ_read)·ε(λ_read)·λ_shot

另外，本发明实施例提供的方法还可以包括AI降噪网络模型训练步骤，具体如下：

模拟待降噪成像系统ISP处理流程将图像数据库中的高质量RGB图像逆ISP变换为干净RAW图；在所述干净RAW图上加入随机ISO水平的高斯-泊松噪声得到含噪声RAW图；利用所述含噪声RAW图以及所述干净RAW图对预建立的AI降噪网络模型进行训练。

具体地，训练阶段：模拟待降噪成像系统ISP处理流程，将现有图像数据库中的高质量RGB图像，逆ISP变换为干净RAW图。随机生成ISO，将ISO输入噪声模型得到高斯-泊松噪声；在干净RAW图上加入该ISO水平的高斯-泊松噪声，合成含噪声RAW图。将该合成的含噪声RAW图-干净RAW图图像对，用于上述AI降噪网络训练。

本发明实施例中，通过逆ISP变换和噪声模型，保证同场景RGB图合成的含噪声RAW图R、Gr、Gb、B四通道数值分布与待降噪成像系统拍摄的RAW图数值分布相近，保证AI降噪网络在实际拍摄RAW图上依旧有较好的降噪性能。

训练阶段说明具体过程如下：

(1)输入一张高质量RGB图像，逆ISP变换(包括逆色调映射、逆Gamma矫正、逆色彩空间变换、逆AWB矫正、逆去马赛克)为干净RAW图y_n，随机选择一个ISO，根据上述泊松噪声系数log₁₀(λ_shot)和高斯噪声因子ε(λ_read)与log₁₀(ISO)的二次拟合曲线，计算得到ISO对应的泊松噪声参数λ_shot和高斯噪声参数λ_read；

(2)根据噪声公式与干净RAW图的关系ε_n(y_n)～N(μ＝0,σ_n ²(y_n)＝λ_read+λ_shoty_n)，可得每像素与信号相关的噪声值，与干净raw图相加，即为噪声raw图，至此模拟了成像系统含噪声RAW图的生成过程；

(3)根据噪声分量图像计算公式ξ_n(x_n)＝λ_shot·x_n+λ_read，可得噪声RAW图的噪声分量图像ξ_n(x_n)，与噪声RAW图拼接后，输入到AI降噪网络中进行降噪训练，得到降噪RAW图；将干净RAW图作为标签图像与降噪后RAW图比对，使用L1 Loss，优化AI降噪网络。

降噪阶段中，首先，根据图像传感器数字增益、模拟增益(随图像一起作为图像数据)，计算对应的ISO值；其次，根据泊松噪声系数log₁₀(λ_shot)和高斯噪声因子ε(λ_read)与log₁₀(ISO)的二次拟合曲线，可得泊松噪声参数λ_shot、高斯噪声参数λ_read；

log₁₀(λ_shot)＝a₀+a₁·log₁₀(ISO)+a₂·log₁₀(ISO)²

ε(λ_read)＝b₀+b₁·log₁₀(ISO)+b₂·log₁₀(ISO)²

λ_read＝ε(λ_read)·ε(λ_read)·λ_shot

值得说明的是，针对不同应用场景有不同的噪声模型和降噪网络模型。在获取到目标图像之后，根据图像时间识别场景，或者，通过图像分析识别场景，或者，根据光强识别场景，或者，根据对比度识别场景。根据识别得到的场景，选用对应的噪声模型和降噪网络模型，进行降噪处理。

最后，根据噪声分量图像计算公式ξ_n(x_n)＝λ_shot·x_n+λ_read生成该含噪声RAW图的噪声分量图像ξ_n(x_n)，与含噪声RAW图拼接后，输入到神经网络中进行降噪。

在一个可选的实施例中，参见图10，HDR融合神经网络模型包括：特征提取模块10以及特征融合模块20；

特征提取模块10包括：用于拼接一RGB图对应的gamma RGB图和线性RGB图的拼接单元、对拼接后的图像进行特征提取的点卷积单元、连接点卷积单元的时域注意力单元、连接所述点卷积单元和所述时域注意力单元的乘法单元、连接点卷积单元、时域注意力单元和乘法单元的拼接单元。

具体地，以图3所示对第二帧RAW图至第4帧RAW进行融合处理为例，该特征提取模块包括对第二帧RAW图对应的gamma RGB图和线性RGB图进行拼接的拼接单元10a，对第三帧RAW图对应的gamma RGB图和线性RGB图进行拼接的拼接单元10b，对第四帧RAW图对应的gamma RGB图和线性RGB图进行拼接的拼接单元10c，对拼接单元10a输出的拼接图进行特征提取的3x3 conv10d,对拼接单元10b输出的拼接图进行特征提取的3x3 conv10e,对拼接单元10c输出的拼接图进行特征提取的3x3 conv10f,用于融合3x3 conv10d以及3x3 conv10e提取的特征的时域注意力单元10g,用于融合3x3 conv10e以及3x3 conv10f提取的特征的时域注意力单元10f,用于对3x3 conv10d输出的特征以及时域注意力单元10g输出的特征进行运算的乘法单元10i；用于对3x3 conv10f输出的特征以及时域注意力单元10h输出的特征进行运算的乘法单元10j；用于对乘法单元10i、乘法单元10j以及3x3 conv10e的输出进行拼接的拼接单元10k，拼接单元10k的输出端输出提取的特征，提取的特征传输到特征融合模块20进行特征融合。

具体地，特征提取模块先使用卷积提取出每一帧的特征图，再使用时域注意力单元提取出前一帧、后一帧分别相对当前帧的差异特征图，将前后两帧的差异特征图分别与当前帧的特征图拼接后输入到特征融合模块。该时域注意力单元可提取出当前帧所需要的前后帧细节信息，又可着眼于当前帧中的物体运动，而避免引入前后帧的物体运动信息形成伪影。

在一个可选的实施例中，参见图11，该时域注意力单元包括：用于对两个输入进行拼接的拼接单元、连接拼接单元的第一残差块ResBlock1、连接第一残差块ResBlock1的第二残差块ResBlock2、加法子单元、Sigmoid子单元，其中，第一残差块ResBlock1的输出还连接加法子单元。

在一个可选的实施例中，参见图12，该特征融合模块20可以包括以下内容：

1x1 conv20a接收特征提取模块输出的特征；残差块20b连接1x1 conv20a；加法单元20c连接1x1 conv20a以及残差块20b；加法单元20c的输出分为2路，一路连接加法单元20q,加法单元20q的输出连接1x1 conv20r,1x1 conv20r连接加法单元20S；加单单元20c的另一路输出连接3x3 conv20d,3x3 conv20d连接残差块20e,残差块20e与3x3 conv20d的输出均连接到加法单元20f；第四加法单元20f一路输出连接加法单元20l，另一路输出连接3x3 conv20g；3x3 conv20g的输出连接残差块20h,3x3 conv20g的输出以及残差块20h的输出均连接至加法单元20i,加法单元20i的输出连接上采样单元(Upsample)20j,上采样单元20j的输出连接1x1conv20k；1x1conv20k的输出连接至加法单元20l，加法单元20l的输出连接到残差块20m；残差块20m和加法单元20l的输出均连接到上采样单元20o；上采样单元20o的输出连接1x1conv20p；1x1conv20p的输出连接至加法单元20q；加法单元20q的输出连接至1x1conv20r；1x1conv20r的输出连接加法单元20s；加法单元20s的输入端还连接乘法单元20w的输出端，乘法单元20w用于对特征提取模块的3x3conv10e提取出的中间帧的特征图以及中间帧原图的灰度图的反片进行乘法运算；加法单元20S的输出连接残差块20t的输入，残差块20t的输出以及加法单元20S的输出均连接到乘法单元20u；乘法单元20u的输出连接3x3conv20v的输入；3x3conv20v的输出作为该模型的输出端。

本发明提供的HDR融合神经网络模型，设计多尺度结构，使用膨胀深度卷积和点卷积，降低模型复杂度，在不同尺度融合前后三帧的特征图，最后输出一帧三通道HDR图。HDR融合网络不局限于这一种，还可以考虑其他CNN、MLP、Transformer网络来实现本发明相似的功能。

该精简HDR融合网络参数量为165K，对于1080p实拍HDR视频，30fps、1920*1080的实拍HDR融合算法计算量约为2.7TFlops；现有技术中的模型参数量和计算量远高于该值。

该精简HDR融合网络将gamma RGB图和线性RGB图拼接为三帧h*w*6尺寸输入图，通过卷积和时域注意力模块提取出相对于当前帧的差异特征图和当前帧的特征图，尺寸为h*w*n1。在多尺度融合模块中，分别在h*w*n2、h/2*w/2*n3、h/4*w/4*n4尺度下进行特征融合，其中采用膨胀深度卷积在空间域进行特征融合并扩大了感受野，点卷积在通道域(时间域)进行特征融合和特征选择。

为了使本领域技术人员更好地理解本发明实施例提供的实施方式，下面结合图13至图15，对实现过程进行具体说明：

本发明实施例提供的HDR视频获取方法，使用高动态范围传感器，根据设置的曝光时间和ISO，获取对应的多曝光RGB图；再利用HDR融合网络模型融合多曝光RGB图，获得HDR视频。

其中，在对RAW图进行降噪时，采用泊松-高斯噪声模型生成RAW图中的噪声分量，使用HDR数据集合成多曝光含噪声RAW图的过程，对RAW图进行降噪，再生成多曝光RGB图和清晰HDR图，可用于HDR降噪和融合神经网络模型训练，大幅降低了高动态范围传感器训练数据集的收集复杂度和工作量。

另外，利用陀螺仪和加速度计数据合成运动HDR训练数据集，结合HDR对齐模块，提升HDR融合网络精度。通过人工智能HDR视频生成方法，可以更好的去除图像噪声和保留细节纹理，得到高质量的HDR视频，实现成本低。

具体地，HDR视频获取过程包括：

(1)从HDR camera模组获取含噪声多曝光RAW图

(2)对含噪声多曝光RAW图的预处理，包括以下任意一种或多种：暗电平矫正、固定模式噪声矫正、坏点矫正、Lens Shading矫正、绿平衡；

(3)根据预获取的噪声模型和ISO得到含噪声多曝光RAW图的噪声分量图像，与对应的含噪声RAW图拼接后输入到AI降噪模块进行降噪，输出多曝光降噪RAW图；

(4)将降噪RAW图通过ISP管道或AI_ISP模型，恢复得到RGB图；ISP操作包括白平衡、去马赛克、色彩空间变换；

(5)根据陀螺仪和加速度计数据，将前一帧向当前帧对齐，后一帧向当前帧对齐，再分别对前后三帧RGB图像进行gamma矫正和除以多曝光各自的EV水平，得到gamma RGB图和线性RGB图，输入到HDR融合神经网络模型；

(6)HDR融合神经网络模型将对齐后的gamma RGB图和线性RGB图各自按通道方向拼接后进行融合处理，输出融合后的清晰HDR图。

(7)将融合后的HDR视频进行动态范围压缩和色调映射，获得最终的HDR视频；处理芯片可为片上系统芯片(System on Chip，SoC)、图像信号处理芯片(Image SignalProcessor，ISP)；

在步骤(3)中用到的噪声模型建立过程包括：收集HDR成像系统在不同场景下的RAW图数据集，对该RAW图进行预处理，包括以下任意一种或多种：暗电平矫正、固定模式噪声(FPN)矫正、坏点矫正、Lens Shading矫正、绿平衡。针对该收集的RAW图数据集，利用噪声水平估计方法，获得RAW图噪声水平统计信息，拟合获得与ISO相关的泊松噪声参数曲线和高斯噪声参数曲线，作为噪声模型，并预存入存储器中，并可用于HDR融合系统的HDR图模拟合成方法。

在步骤(3)中的AI降噪阶段包括：将拍摄参数(如ISO、拍摄场景、相机型号等)作为先验信息，结合含噪声RAW图，获得噪声分量图像；然后将噪声分量图像和含噪声RAW图拼接，输入AI降噪网络进行降噪，得到降噪后的干净RAW图。

在步骤(4)中RGB恢复阶段：使用ISP的RAW图恢复RGB图算子，将降噪后的多曝光RAW图恢复到RGB图，其中ISP操作包括白平衡、去马赛克、色彩空间变换。其中RAW图恢复RGB图，也可使用AI算法实现，不仅局限于传统ISP算法。

在模型训练阶段：采用HDR数据集合成运动拍摄的视频帧，通过合成陀螺仪和加速度计数据，模拟相机运动拍摄，从静止的HDR视频帧合成运动拍摄的HDR视频帧，再采用短中长三曝光模式得到LDR视频段，配上对应的陀螺仪和加速度计数据，每帧LDR视频帧对应的HDR图作为标签文件，用于HDR融合网络的训练。训练时，任意取三帧连续的LDR视频帧和陀螺仪与加速度计数据，计算得到前一帧和后一帧分别相对当前帧的相机运动位移和旋转，然后前一帧向当前帧对齐，后一帧向当前帧对齐；再分别计算对齐后前后三帧的gamma RGB图和线性RGB图，输入到HDR融合模块。

在应用阶段，分别连续的从HDR成像系统获得多曝光LDR数据和陀螺仪与加速度计数据，计算前后三帧相对的相机运动位移和旋转，然后前一帧向当前帧对齐，后一帧向当前帧对齐，得到前后三帧的gamma RGB图和线性RGB图，再输入到HDR融合模块。

HDR融合时，将对齐后的gamma RGB图和线性RGB图各自按通道方向拼接后，前后每3帧多曝光六通道拼接后的RGB图送入HDR融合神经网络模型，输出融合后的清晰HDR图；其中EV水平与曝光时间、ISO相关，多曝光视频序列可表示为{EV-2,EV+0,EV+2,...}、{EV-3,EV+0,EV+3,...}等；根据多曝光视频序列获得HDR视频，参见图4。

下面，具体说明如何从HDR数据集合成训练所需的含噪声RAW图、HDR融合网络和后处理实现方法、如何合成陀螺仪/加速度计数据并与HDR图匹配、HDR对齐模块实现方法、应用阶段。

一、从HDR数据集合成训练所需的含噪声RAW图

HDR数据集无对应LDR图，为了提升模型泛化能力，自定义LDR合成，以将LDR转换为HDR。

(1)不加入陀螺仪与加速度计数据，合成LDR图和含噪声RAW图

在HDR数据集序列上随机选择三帧HDR图，其中中间帧称为当前帧，第一帧称为前一帧，第二帧称为后一帧。从{短中长、中长短、长短中}随机选择一种曝光序列模式用于三曝光融合。读入HDR图，HDR图为线性辐射图，与真实场景辐射成比例。根据不同场景设置不同的中等曝光时间范围和EV水平，例如白天户外晴天场景可设置中等曝光等效时间(考虑实际曝光时间和增益)为baseExp＝2ms～20ms，EV水平为{-2eV,0,+2eV}，则短中长曝光时间分别为{baseExp/4,baseExp,baseExp*4}。夜晚、室内等场景可设置不同的中等曝光等效时间范围和EV水平。随机选择gamma值γ＝2.2±0.1。

任取一帧HDR图，随机定义为短、中、长一种曝光图，根据EV水平可得另外两帧曝光图的曝光时间，统一定义为Ti。前后三帧HDR图定义为Hi，i可以取s、m、l，分别代表短曝光、中曝光、长曝光。则每一帧LDR图为：

L_i＝Q_8bit{{Q_rawA(clip[H_iT_i，0，1])}^1/γ}

其中，模拟HDR成像传感器获取线性真实场景辐射后，数字信号需量化输出，即针对每个像素做量化输出，一般传感器视频信号以RAW10输出，则Q_rawA可取为Q_raw10。不同HDR传感器信号位宽存在差异，则RAWA可取RAW8、RAW10、RAW12(即分别为8bit、10bit、12bit输出)等；再将gamma变换后的数据clip(数值范围截取，针对每个像素，小于0的值设为0，大于1的值设为1)范围至[0，1]，量化到8bit位宽输出LDR。其中，短曝光帧等效曝光时间为T_s，训练HDR labe1图H_gt为：

H_gt＝clip{H_iT_s/max[clip(H_iT_s，0，1)]，0，1}

其中，Max[clip(...)]，为取clip后整幅图像的最大值，其他为对每个像素值进行处理，使用逆ISP变换，从LDR图L_i获得干净RAW图，其中逆ISP变换包括逆gamma变换、逆色彩空间变换、逆白平衡、马赛克变换；噪声水平估计方法获得高斯-泊松噪声模型分量曲线λ_shot、λ_read，作用于干净RAW图可得含噪声RAW图；干净RAW图、含噪声RAW图配对用于HDR成像系统的AI降噪模型训练。降噪后RAW图经过传统ISP的RAW图恢复RGB图算子，可得恢复后的LDR RGB图

用于HDR融合网络的调优训练和测试。

含噪声RAW图为：I_noise＝f_clip(f_bayer(L_i)+n)

其中，f_bayer为对LDR RGB图进行逆ISP变换的函数表示，得到干净raw图；n为噪声分量，与干净raw图相加后clip截取0～1范围内的有效raw图作为含噪声raw图；采用泊松-高斯噪声，其中光子散粒噪声为泊松分布，读取噪声为高斯分布，噪声模型为：

其中，n表示噪声分量，N表示正态分布，下标n表示每个像素。

设未知无噪声图像为y_n，真实含噪声图像为x_n；则设信号相关的泊松-高斯噪声为ε_n，则未知无噪声图像与真实含噪声图像有如下关系：

x_n＝min(max(y_n+ε_n(y_n)，0)，1)

λ_shot＝a₀+a₁·log₁₀(ISO)+a₂·log₁₀(ISO)²

ε(λ_read)＝b₀+b₁·log₁₀(ISO)+b₂·log₁₀(ISO)²

λ_read＝ε(λ_read)·ε(λ_read)·λ_read

二、HDR融合网络和后处理实现方法

模拟从LDR图生成合成线性辐射图：

其中，线性辐射RGB图I_i，曝光时间T_i，gamma系数γ，HDR融合网络训练与应用时，当前gamma LDR帧L_i，当前gamma LDR帧L_i的灰度图反片作为当前帧mask即L_mask：

L_mask＝1-gray(L_i)

将前后三帧的gamma LDR图L_i和合成线性辐射RGB图I_i在通道域拼接后，得三帧h*w*6尺寸输入图

与L_mask输入到HDR融合网络中融合HDR特征，输出HDR图H_p与HDR label图H_gt进行配对训练。HDR融合网络输出可表示为：

其中时域注意力模块表示为f_Attn，HDR融合模块表示为f_fuse，将输出HDR图H_p与HDRlabel图H_GT进行clip截取0～1的有效范围和动态范围压缩，计算如下损失函数，训练HDR融合网络。

采用u_law变换μ＝5000和gamma变换γ＝2.2对每个像素进行动态范围压缩，其中T(H)为u_law动态范围压缩，g(H)为gamma动态范围压缩：

T(H)＝clip[log(1+μH)/log(1+μ)，0，1]

g(H)＝clip(H^1/γ，0，1)

u_law变换μ＝5000动态范围压缩后，输出HDR图H_p与HDR label图H_gt的ulaw L1_loss：

gamma变换γ＝2.2动态范围压缩后，输出HDR图H_p与HDR label图H_gt的gamma L1_loss：

u_law变换μ＝5000动态范围压缩后，计算感知损失函数(perceptual loss)，输出HDR图H_p与HDR label图H_gt的vgg16网络relu1_2、relu22、relu33，计算相互间的感知L1_loss：

其中vgg16网络的relu1_2、relu2_2、relu3_3输出可表示为φ₁、φ₂、φ₃，上式中同意表示为φ_k。

总的损失函数Loss为：

其中感知损失函数乘以加权系数0.1。

利用总的损失函数Loss，更新HDR融合网络参数进行训练。

输出HDR图H_p还可应用色调映射函数TM(H)：

三、合成陀螺仪/加速度计数据并与HDR图匹配

以上利用HDR数据集获得训练AI降噪网络、HDR融合网络所需的合成数据集，主要针对相机静态拍摄的场景。

针对相机运动拍摄的场景，还需要利用陀螺仪与加速度计数据进行前后三帧对齐。为了提高对齐后长曝光过爆处细节的还原性能，且实际匹配的多曝光LDR RGB视频、HDR视频、陀螺仪与加速度计数据收集难度较大，在静止的HDR图基础上，合成陀螺仪与加速度计数据，作用到静止的HDR图上，可合成相机运动拍摄的HDR视频。

根据焦距(fx，fy)和光心(xc，yc)定义HDR成像系统的内参矩阵K：

设陀螺仪与加速度计数据每单位时间dt生成一组角加速度β_i和平移加速度α_i，根据历史数据计算当前时刻的角速度ω_i和平移速度υ_i，dt可为1ms，数据生成间隔可依据实际的陀螺仪与加速度计而定，本处只是提供了一个例子。

移动端陀螺仪与加速度计往往处于常开状态，每1ms获得一组角加速度β_i和平移加速度α_i，从某个设备静止时刻开始，则可计算每个时刻的角速度ω_i和平移速度υ_i：

在上述“一、从HDR数据集合成训练所需的含噪声RAW图”的基础上，将在HDR数据集序列上随机选择三帧HDR图，改为从一帧静止HDR图合成三帧运动拍摄的HDR图。随机选择一帧HDR图作为前一帧，合成当前帧和后一帧。从{短中长、中长短、长短中}随机选择一种曝光序列模式，根据随机中等曝光时间和EV水平，计算得到前一帧和当前帧的曝光时间，分别得到前一帧相对当前帧的一组角速度ω_k1和平移速度υ_k1，后一帧相对当前帧的一组角速度ω_k2和平移速度υ_k2。

根据第一小节三帧的曝光时间间隔T_i＝{T₀，T₁，T₂，T₃，T₄，T₅，...}，可得前一帧相对当前帧i的角度偏差θ_i为

前一帧相对当前帧i的位移偏差s_i为

后一帧相对当前帧i的角度偏差ψ_i为

后一帧相对当前帧i的位移偏差p_i为

根据内参矩阵K、角度偏差、位移偏差，从前一帧H_i-1合成当前帧H_i和后一帧H_i+1，再crop有效的HDR图区域，用于合成HDR融合所需的LDR和HDR label图，每一帧LDR图为

L_i＝Q_8bit{{Q_rawA(clip[H_iT_i，0，1])}^1/γ}

使用crop后的当前帧H_i提取HDR label图为：

H_gt＝clip{H_iT_s/max[clip(H_iT_s，0，1)]，0，1}

保存合成的陀螺仪与加速度计数据序列和前一帧H_i-1、当前帧H_i、后一帧H_i+1、HDRlabel图H_gt，该匹配数据用于HDR对齐模块中LDR图的对齐。

四、HDR对齐实现方法

利用旋转矩阵R(θ)与

平移矩阵T(s)与T(p)、内参矩阵K对HDR图进行变换。前一帧向当前帧对齐，原始像素坐标(x₀，y₀，1)^T，变换后的像素坐标(x′₀，y′₀，1)^T：

(x′₀，y′₀，1)^T＝KR(θ)K^-1(x₀，y₀，1)^T+T(s)

后一帧向当前帧对齐，原始像素坐标(x₂，y₂，1)^T，变换后的像素坐标(x′₂，y′₂，1)^T：

其中，旋转矩阵R(θ)与R(ψ)、平移矩阵T(s)与T(p)、内参矩阵K。

五、应用阶段

待测DOL-HDR成像系统中自动曝光算法(auto-exposure，AF)根据拍摄场景亮度，分别设置中等曝光帧合适的曝光时间、数字增益、模拟增益及EV水平，其中光圈和焦距不变，获取三曝光视频RAW图序列。计算三曝光帧ISO，根据散粒噪声和读取噪声参数拟合曲线，获得散粒噪声参数、读取噪声参数，生成噪声分量，与含噪声RAW图拼接后，输入到AI降噪网络中进行降噪。降噪后的RAW图序列，恢复得到LDR RGB图序列。

根据相机拍摄时的陀螺仪数据和加速度计数据，确定是否运动，判断是否经过HDR对齐模块。若未运动，则不经过HDR对齐模块；若运动，则根据陀螺仪与加速度计数据实时将前后帧向当前帧对齐。将对齐后的LDR RGB图输入到HDR融合网络，获得HDR视频序列。最后经过动态范围压缩和色调映射，得到适合移动端屏幕显示的HDR视频，其格式可为MPEG。

如下为HdM-HDR-2014数据集生成的三曝光8bit视频序列作为输入input_LDR，经过HDR融合网络得到辐射域HDR视频，再经过动态范围压缩后得到的8bit HDR视频，满足人眼的观察方式，其中动态范围压缩方法可为ulaw变换或gamma变换。

若不采用多曝光HDR融合方案，则HDR传感器RAW10输出的RGB视频暗处会由于传感器10bit量化输出而出现量化伪影，即暗处信息丢失，其中曝光等效时间与三曝光视频的中等曝光相同。

L_i＝Q_8bit{{Q_raw10(clip[H_iT_i，0，1])}^1/γ}

正对太阳时，HDR传感器RAW10输出的RGB长曝光帧天空出现大面积过曝。通过HDR融合，可补齐过曝处细节。其中tif16_refer为HdM-HDR-2014数据集对应的16bit RGB图，其格式为TIFF。

综上所述，本发明实施例提供的HDR视频获取技术，通过模拟HDR图像传感器拍摄多曝光RAW图的过程，生成了含噪声的多曝光RAW图、LDR RGB图和清晰HDR label图，采用轻量级神经网络模型实现HDR融合过程，考虑了相机运动的HDR视频拍摄场景，提高了HDR融合网络的泛化能力。

本发明实施例提供了一种HDR视频RAW数据到HDR数据的处理流程和可行的精简神经网络，针对HDR图像传感器拍摄的多曝光RAW图，进行预处理、AI降噪、RAW图恢复到RGB图、HDR对齐、HDR图融合、HDR图后处理，采用点卷积、膨胀深度卷积、预激活、时域注意力模块，构建了有效的精简HDR视频生成网络。

本发明实施例还提供了一种利用合成陀螺仪和加速度计数据合成运动HDR数据集的方法，利用陀螺仪和加速度计数据来对齐HDR图像，提高了HDR融合网络的泛化能力。

值得说明的是，本发明实施例还可以使用RGBW图像传感器，拍摄长中短多次曝光图像融合形成HDR图像。

本发明实施例提供的从HDR数据集制作HDR融合网络训练数据集的合成技术，可满足所有DOL-HDR系列成像系统的HDR融合网络训练，可通过参数修改满足不同HDR成像系统的特定化需求；

本发明还提供了一种芯片，其上包含有RAW数据数字电路处理模块、烧录的AI降噪模型、烧录的AI_HDR融合模型、数据输入输出模块；该芯片在执行时，可逐图像块执行，实现上述逐图像块RAW图的降噪、RGB恢复、对齐、融合、后处理等过程，降低HDR视频生成过程中的内存消耗和功耗比。

基于同一发明构思，本申请实施例还提供了一种HDR视频获取装置，可以用于实现上述实施例所描述的方法，如下面的实施例所述。由HDR视频获取装置解决问题的原理与上述方法相似，因此HDR视频获取装置的实施可以参见上述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图16是本发明实施例中的HDR视频获取装置的结构框图，如图16所示，该HDR视频获取装置可以包括：图像获取模块101、降噪模块102、RGB恢复模块103、图像处理模块104以及融合模块105。

图像获取模块用于获取多曝光RAW图；

降噪模块用于对各RAW图降噪；

RGB恢复模块用于将降噪后的RAW图恢复到RGB图；

图像处理模块用于将连续的多帧RGB图对齐后分别对每帧RGB图进行gamma矫正和线性化得到对应的gamma RGB图和线性RGB图；

融合模块用于将连续的多帧RGB图对应的gamma RGB图和线性RGB图输入HDR融合神经网络模型得到融合后的清晰HDR图。

上述实施例阐明的装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为电子设备，具体的，电子设备例如可以为智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、车载设备可穿戴设备、玩具、智能家居控制设备、流水线设备控制器或者这些设备中的任何设备的组合。所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

在一个典型的实例中电子设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的HDR视频获取方法的步骤。

下面参考图17，其示出了适于用来实现本申请实施例的电子设备600的结构示意图。

如图17所示，电子设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM))603中的程序而执行各种适当的工作和处理。在RAM603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡，调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装如存储部分608。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的HDR视频获取方法的步骤。

在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种HDR视频获取方法，其特征在于，包括：

获取多曝光RAW图并对各RAW图降噪；

将降噪后的RAW图恢复到RGB图；

根据陀螺仪和加速度计数据将连续的多帧RGB图对齐后分别对每帧RGB图进行gamma矫正和线性化得到对应的gamma RGB图和线性RGB图；

将连续的多帧RGB图对应的gamma RGB图和线性RGB图输入HDR融合神经网络模型得到融合后的清晰HDR图；

所述HDR融合神经网络模型包括：特征提取模块以及特征融合模块；所述特征提取模块包括：用于拼接一RGB图对应的gamma RGB图和线性RGB图的至少一个拼接单元、对拼接后的图像进行特征提取的至少一个点卷积单元、连接点卷积单元的至少一个时域注意力单元、连接所述点卷积单元和所述时域注意力单元的至少一个乘法单元、连接点卷积单元、时域注意力单元和乘法单元的至少一个拼接单元；

所述特征融合模块包括：1x1 conv、残差块、加法单元、3x3 conv、上采样单元以及乘法单元。

2.根据权利要求1所述的HDR视频获取方法，其特征在于，还包括：

将融合后的清晰HDR图进行动态范围压缩和色调映射得到HDR视频。

3.根据权利要求1所述的HDR视频获取方法，其特征在于，将连续的3帧RGB图对应的gamma RGB图和线性RGB图输入HDR融合神经网络模型；

所述特征提取模块包括：拼接第一帧RGB图对应的gamma RGB图和线性RGB图的第一拼接单元、拼接第二帧RGB图对应的gamma RGB图和线性RGB图的第二拼接单元、拼接第三帧RGB图对应的gamma RGB图和线性RGB图的第三拼接单元、连接第一拼接单元的第一3x3卷积单元、连接第二拼接单元的第二3x3卷积单元、连接第三拼接单元的第三3x3卷积单元、连接第一3x3卷积单元和第二3x3卷积单元的第一时域注意力单元、连接第二3x3卷积单元和第三3x3卷积单元的第二时域注意力单元、连接第一3x3卷积单元和第一时域注意力单元的第一乘法单元、连接第三3x3卷积单元和第二时域注意力单元的第二乘法单元、连接第一乘法单元、第二乘法单元、第二3x3卷积单元的拼接单元。

4.根据权利要求1所述的HDR视频获取方法，其特征在于，所述时域注意力单元包括：顺序连接的拼接子单元、第一残差块、第二残差块、加法子单元、Sigmoid子单元；

其中，第二残差块的输出还连接所述加法子单元。

5.根据权利要求1所述的HDR视频获取方法，其特征在于，所述1x1 conv的数量为4个，分别为第一1x1 conv至第四1x1 conv；所述残差块的数量为5个，分别为第一残差块至第五残差块，所述加法单元的数量为8个，分别为第一加法单元至第八加法单元，所述3x3 conv的数量为3个，分别为第一3x3 conv至第三3x3 conv；所述上采样单元的数量为2个，分别为第一上采样单元和第二上采样单元，所述乘法单元的数量为1个；

第一1x1 conv的输入端接收所述特征提取模块的输出；第一残差块的输入连接第一1x1 conv的输出；第一加法单元的两个输入分别连接第一1x1 conv的输出以及第一残差块的输出；第一加法单元的输出分为2路，一路连接第二加法单元的输入,第二加法单元的输出连接第二1x1 conv的输入,第二1x1 conv的输出连接第三加法单元的一个输入；第一加法单元的另一路输出连接第一3x3 conv的输入,第一3x3 conv的输出连接第二残差块的输入,第二残差块的输出与第一3x3 conv的输出均连接到第四加法单元的输入；第四加法单元一路输出连接第五加法单元，另一路输出连接第二3x3 conv；第二3x3 conv的输出连接第三残差块的输出,第二3x3 conv的输出以及第三残差块的输出均连接至第六加法单元,第六加法单元的输出连接第一上采样单元,第一上采样单元的输出连接第三1x1conv；第三1x1conv的输出连接至第五加法单元，第五加法单元的输出连接到第四残差块；第四残差块和第五加法单元的输出均连接到第二上采样单元；第二上采样单元的输出连接第四1x1conv；第四1x1conv的输出连接至第七加法单元的另一路输入；第七加法单元的输出连接至第五1x1conv；第五1x1conv的输出连接第三加法单元的一个输入端；第三加法单元的另一输入端连接乘法单元的输出端，乘法单元用于对特征提取模块提取出的中间帧的特征图以及中间帧原图的灰度图的反片进行乘法运算；第三加法单元的输出连接第五残差块的输入，第五残差块的输出以及第三加法单元的输出均连接到第八乘法单元；第八乘法单元的输出连接第三3x3conv的输入；第三3x3conv的输出作为该模型的输出端。

6.根据权利要求1所述的HDR视频获取方法，其特征在于，所述将降噪后的RAW 图恢复到RGB图，包括：

将降噪后的RAW图通过ISP管道或AI_ISP模型恢复得到RGB图。

7.根据权利要求1所述的HDR视频获取方法，其特征在于，所述将连续的多帧RGB图对齐，包括：

8.根据权利要求1所述的HDR视频获取方法，其特征在于，所述对各RAW图降噪，包括：

利用预获取的噪声模型对一RAW图进行处理得到噪声分量图像；

将所述RAW图以及所述噪声分量图像输入预训练的AI降噪网络模型得到降噪后的RAW图；

9.根据权利要求8所述的HDR视频获取方法，其特征在于，所述深度可分离通道注意力模块的数量为6个，分别为第一深度可分离通道注意力模块至第六深度可分离通道注意力模块；所述倒置残差通道注意力模块的数量为3个，分别为第一倒置残差通道注意力模块至第三倒置残差通道注意力模块；所述短接倒置残差通道注意力模块的数量为3个，分别为第一短接倒置残差通道注意力模块至第三短接倒置残差通道注意力模块；所述离散小波变换模块的数量为2个，分别为第一离散小波变换模块以及第二离散小波变换模块；所述逆离散小波变换模块的数量为2个，分别为第一逆离散小波变换模块以及第二逆离散小波变换模块；

所述AI降噪网络模型还包括：第一拼接模块、第二拼接模块、加法模块以及以及3x3卷积模块；

其中，所述第一离散小波变换模块、第一深度可分离通道注意力模块、第一短接倒置残差通道注意力模块、第二离散小波变换模块、第二深度可分离通道注意力模块、第一倒置残差通道注意力模块、第三深度可分离通道注意力模块、第二倒置残差通道注意力模块、第一拼接模块、第四深度可分离通道注意力模块、第三倒置残差通道注意力模块、第一逆离散小波变换模块、第二拼接模块、第五深度可分离通道注意力模块、第二短接倒置残差通道注意力模块、第二逆离散小波变换模块、第六深度可分离通道注意力模块、第三短接倒置残差通道注意力模块、3x3卷积模块、加法模块顺序连接；所述加法模块还接入目标RAW图；第一短接倒置残差通道注意力模块还连接第二拼接模块，第一倒置残差通道注意力模块的输出还连接第一拼接模块。

10.一种HDR视频获取装置，其特征在于，包括：

图像获取模块，获取多曝光RAW图；

降噪模块，对各RAW图降噪；

RGB恢复模块，将降噪后的RAW图恢复到RGB图；

图像处理模块，根据陀螺仪和加速度计数据将连续的多帧RGB图对齐后分别对每帧RGB图进行gamma矫正和线性化得到对应的gamma RGB图和线性RGB图；

融合模块，将连续的多帧RGB图对应的gamma RGB图和线性RGB图输入HDR融合神经网络模型得到融合后的清晰HDR图；

11.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至9任一项所述的HDR视频获取方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至9任一项所述的HDR视频获取方法的步骤。