CN108717690B

CN108717690B - 一种高动态范围图片的合成方法

Info

Publication number: CN108717690B
Application number: CN201810488694.6A
Authority: CN
Inventors: 刘帅成; 张星迪; 何志伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2022-03-04
Anticipated expiration: 2038-05-21
Also published as: CN108717690A

Abstract

本发明公开了一种高动态范围图片的合成方法，采用JPEG图片压缩方法的中间产物作为引导合成的编码信息，从编码信息中得到曝光好坏的信息，并根据曝光好坏的信息分配图像合成时每个像素的权重。本发明的有益效果是：本发明跳过构造高动态范围图像的步骤，直接将一组低动态范围图片融合为一张高质量LDR图像，结果包含高动态范围图片的信息但可以直接在电子设备上显示。

Description

一种高动态范围图片的合成方法

技术领域

本发明涉及计算机视觉和计算机图形学技术领域，具体的说，是一种高动态范围图片的合成方法。

背景技术

由于现实世界中，光的辐照动态范围是大于相机捕获能力的动态范围，因此普通数码相机拍摄的图像通常会由于曝光不足和曝光过度而缺乏部分信息。高动态范围(HDR)成像技术是计算机视觉和计算机图形学中一项非常重要的底层技术，它通过将不同曝光级别的多个图像合并在一起解决了这个问题。

该技术已广泛应用于数字通照相机和移动电话设备。一般来说现有的HDR成像方法可分为两种类别：基于色调映射的方法和基于图像融合的方法。色调映射类的方法，包含构造HDR图片和将构造结果进行色调映射为高品质的低动态范围(LDR)图片以便在电子设备上显示两个步骤。基于图像融合的方法则直接合成高品质的LDR图片，因此在实际的消费电子应用方面，基于图像融合的方法更加受欢迎。

离散余弦变换(DCT for Discrete Cosine Transform)是与傅里叶变换相关的一种变换，它类似于离散傅里叶变换(DFT for Discrete Fourier Transform),但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换，这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数)，在有些变形里面需要将输入或者输出的位置移动半个单位(DCT有8种标准类型，其中4种是常见的)。

离散傅里叶变换需要进行复数运算，尽管有FFT可以提高运算速度，但在图像编码、特别是在实时处理中非常不便。离散傅里叶变换在实际的图像通信系统中很少使用，但它具有理论的指导意义。根据离散傅里叶变换的性质，实偶函数的傅里叶变换只含实的余弦项，因此构造了一种实数域的变换——离散余弦变换(DCT)。通过研究发现，DCT除了具有一般的正交变换性质外，其变换阵的基向量很近似于Toeplitz矩阵的特征向量，后者体现了人类的语言、图像信号的相关特性。因此，在对语音、图像信号变换的确定的变换矩阵正交变换中，DCT变换被认为是一种准最佳变换。在近年颁布的一系列视频压缩编码的国际标准建议中，都把DCT作为其中的一个基本处理模块。

DCT除了上述介绍的几条特点，即：实数变换、确定的变换矩阵、准最佳变换性能外，二维DCT还是一种可分离的变换，可以用两次一维变换得到二维变换结果。

最常用的一种离散余弦变换的类型是下面给出的第二种类型，通常所说的离散余弦变换指的就是这种。它的逆，也就是下面给出的第三种类型，通常相应的被称为"反离散余弦变换"，"逆离散余弦变换"或者"IDCT"。

有两个相关的变换，一个是离散正弦变换(DST for Discrete Sine Transform),它相当于一个长度大概是它两倍的实奇函数的离散傅里叶变换；另一个是改进的离散余弦变换(MDCT for Modified Discrete Cosine Transform),它相当于对交叠的数据进行离散余弦变换。

离散余弦变换，尤其是它的第二种类型，经常被信号处理和图像处理使用，用于对信号和图像(包括静止图像和运动图像)进行有损数据压缩。这是由于离散余弦变换具有很强的"能量集中"特性:大多数的自然信号(包括声音和图像)的能量都集中在离散余弦变换后的低频部分，而且当信号具有接近马尔科夫过程(Markov processes)的统计特性时，离散余弦变换的去相关性接近于K-L变换(Karhunen-Loève变换--它具有最优的去相关性)的性能。

例如，在静止图像编码标准JPEG中，在运动图像编码标准MJPEG和MPEG的各个标准中都使用了离散余弦变换。在这些标准制中都使用了二维的第二种类型离散余弦变换，并将结果进行量化之后进行熵编码。这时对应第二种类型离散余弦变换中的n通常是8，并用该公式对每个8x8块的每行进行变换，然后每列进行变换。得到的是一个8x8的变换系数矩阵。其中(0,0)位置的元素就是直流分量，矩阵中的其他元素根据其位置表示不同频率的交流分量。

一个类似的变换,改进的离散余弦变换被用在高级音频编码(AAC for AdvancedAudio Coding)，Vorbis和MP3音频压缩当中。

离散余弦变换也经常被用来使用谱方法来解偏微分方程，这时候离散余弦变换的不同的变量对应着数组两端不同的奇/偶边界条件。

高斯金字塔(英文：GaussianPyramid)为在图像处理、计算机视觉、信号处理上所使用的一项技术。高斯金字塔本质上为信号的多尺度表示法，亦即将同一信号或图片多次的进行高斯模糊，并且向下取样，藉以产生不同尺度下的多组信号或图片以进行后续的处理，例如在影像辨识上，可以借由比对不同尺度下的图片，以防止要寻找的内容可能在图片上有不同的大小。高斯金字塔的理论基础为尺度空间理论，而后续也衍生出了多分辨率分析。

拉普拉斯金字塔(Laplacianpyramid):用来从金字塔低层图像重建上层未采样图像，在数字图像处理中也即是预测残差，可以对图像进行最大程度的还原，配合高斯金字塔一起使用。

两者的简要区别：高斯金字塔用来向下降采样图像，而拉普拉斯金字塔则用来从金字塔底层图像中向上采样重建一个图像。

真正的高动态图片即为.hdr文件格式的图片，指内容和存储方式都是高动态的，是不可以在电子设备上展示的。

基于色调映射的方法合成出了真正的高动态图片(.hdr文件格式)，但这个文件是不可以可视化的，如果要可视化，还需要色调映射为低动态图片(内容上是高动态的，存储格式上是低动态的，如.jpg、.png等)。

发明内容

本发明的目的在于提供一种高动态范围图片的合成方法，针对高动态范围图片的合成这一问题，提供了一种用一组低动态范围图片合成出高动态范围图片的方法。

本发明通过下述技术方案实现：

一种高动态范围图片的合成方法，采用JPEG图片压缩方法的中间产物作为引导合成的编码信息，从编码信息中得到曝光好坏的信息，并根据曝光好坏的信息分配图像合成时每个像素的权重；具体包括以下步骤：

步骤S1：输入图片，并将输入的图片转换到YCbCr颜色空间上，提取该图片亮度分量Y；所述图片为静止相机拍摄所得；输入图片是由静止相机拍摄的同一场景、不同曝光下的多张图片。

步骤S2：针对亮度分量Y执行JPEG压缩算法，将亮度分量Y分割成8*8的多个宏块；

步骤S3：对每个宏块进行离散余弦变换；

步骤S4：对离散余弦变换后的每个宏块的进行量化，得到量化结果；所述量化结果具体是指计算得到每个宏块的非零元素，将每个宏块的非零元素根据JPEG的码表，转换成二进制形式；

步骤S5：根据量化结果计算得到bit图；

步骤S6：对bit图修正；

步骤S7：根据步骤S6所得计算得到进行融合的权重图；

步骤S8：将输入的图片和bit图构建高斯金字塔和拉普拉斯金字塔，并对图片融合得到最终的结果图像。

进一步地，为了更好的实现本发明，所述步骤S4具体是指：采用JPEG标准50％压缩比的量化表进行量化。

进一步地，为了更好的实现本发明，所述步骤S5具体包括以下步骤：

步骤S51：把每个宏块的非零元素的二进制码的长度叠加在一起，作为该宏块的bit值；将亮度分量Y的所有宏块的bit值组成一张长宽为原图八分之一的图；

步骤S52：对步骤S51中原图八分之一的图使用最近邻插值法复原到原图的尺寸，得到最终的bit图。

进一步地，为了更好的实现本发明，所述步骤S6具体是指：采用将输入的图片划分为平整区域F和普通区域N的方法对bit图修正；

所述平整区域F的判定为：

最后合成的权重为：

Wi_j,m＝P_m,n×(Bi_j,m+P_m,f×F_ij,m) (2)

其中，T为设定的一个区分平整区域的阈值；下标ij,m代表第m张图的像素点(i,j)；

N代表输入图片序列的图片总数；

P_m,n，P_m,f为两个调节系数；

B_ij,m代表第m张图的像素点(i,j)的bit值；

F_ij,m为平整区域的附加值：

对于平整区域而言F_ij,m＝1，普通区域F_ij,m＝0。

进一步地，为了更好的实现本发明，所述S7具体包括以下步骤：

步骤S71：得到输入图片的bit图后遍历每个像素点在各张bit图中的bit值；根据公式(1)，得到改输入序列的平整区域F；设定的阈值T为0.08；计算得到调整参数P_m,f和P_m,n：

其中S_i,f为第i张bit图的平整区域的bit值总和；

S_i,n为普通区域的bit值总和；

M_f平整区域的最大值；

M_n为平整区域的最大值；

α和β为调节权重偏移程度的系数；

步骤S72：设定α和β的系数，根据公式(2)计算得出进行融合的权重W,并归一化权重W。

进一步地，为了更好的实现本发明，所述步骤S8具体是指:通过高斯金字塔构建拉普拉斯金字塔；具体包括以下步骤：

步骤S81：高斯金字塔定义为：对一张图片进行高斯平滑和降采样，结果作为新的一层图片，不断循环的高斯平滑和降采样建立原图的高斯金字塔的每一层；

步骤S82：拉普拉斯金字塔定义为：

其中:L{I}ⁱ为图像I的拉普拉斯金字塔的第i层；

G{I}ⁱ为图像I的高斯金字塔的第i层；

Up(G{I}ⁱ⁺¹)代表高斯金字塔的第i+1层向上采样结果；

代表卷积；

G₅指5×5的高斯内核；

在最后进行图像融合时，每一张图的每一个像素点都有自己的权重。通过jpeg压缩信息得到了每一张输入图片的bit图，bit图再经过尺寸复原、修正后，某一张bit图位置(i，j)的bit值就是这一张输入图片的(i，j)像素点在最终融合时占的权重。

故可以认为经过尺寸复原、修正后的每一张bit图为对应的输入图片的权重图。

步骤S83：将每张输入图像建立拉普拉斯金字塔，给每张输入图片的权重图建立高斯金字塔；按照公式(6)的到融合结果图片的拉普拉斯金字塔。

其中:

代表结果图拉普拉斯金子塔第l层(i,j)像素；

代表第k张权重图的高斯金字塔第l层(i,j)像素；

代表原图拉普拉斯金子塔第l层(i,j)像素；

步骤S84：对融合后的拉普拉斯金字塔，从其顶层开始逐层从上至下按式(7)进行递推，恢复其对应的高斯金字塔，并最终可得到结果图像R，图像R即为原图；

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明跳过构造高动态范围图像的步骤，直接将一组低动态范围图片融合为一张高质量LDR图像，结果包含高动态范围图片的信息且能够直接在电子设备上显示；

(2)本发明提供一种高动态范围图片的合成方法，针对高动态范围图片的合成这一问题，提供了一种用一组低动态范围图片合成出高动态范围图片。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

本发明通过下述技术方案实现，一种高动态范围图片的合成方法，采用JPEG图片压缩方法的中间产物作为引导合成的编码信息，从编码信息中得到曝光好坏的信息，并根据曝光好坏的信息分配图像合成时每个像素的权重。像素点曝光越差即过曝光或者曝光不足得到的权重越低，曝光越好即细节纹理越清晰得到的权重越高。

需要说明的是，通过上述改进，本发明跳过构造高动态范围图像的步骤，直接将一组低动态范围图片融合为一张高质量LDR图像，结果包含高动态范围图片的信息但可以直接在电子设备上显示。

采用给曝光好的区域分配较高的权重值，一个区域曝光的好坏是通过得到bit图中这个区域bit值高低来衡量的。

本方法思想是寻找衡量每个像素曝光好坏的度量标准，计算多曝光序列中每个像素的曝光质量，由曝光质量指导从多曝光序列选择曝光质量好的像素，组合成最终结果。

本方法采用JPEG图片压缩方法的中间产物作为引导合成的信息，从编码信息中得到曝光好坏的信息，并根据曝光好坏分配图像合成时每个像素的权重。

本实施例的其他部分与上述实施例相同，故不再赘述。

实施例2：

本实施例在上述实施例的基础上做进一步优化，一种高动态范围图片的合成方法，采用JPEG图片压缩方法的中间产物作为引导合成的编码信息，从编码信息中得到曝光好坏的信息，并根据曝光好坏的信息分配图像合成时每个像素的权重。

具体包括以下步骤：

步骤S1：输入图片，并将输入的图片转换到YCbCr颜色空间上，提取该图片亮度分量Y；所述图片为静止相机拍摄所得；

步骤S3：对每个宏块进行离散余弦变换；

步骤S4：对离散余弦变换后的每个宏块的进行量化，得到量化结果；具体是指：采用JPEG标准50％压缩比的量化表进行量化；所述量化结果具体是指计算得到每个宏块的非零元素，将每个宏块的非零元素根据JPEG的码表，转换成二进制形式。

步骤S5：根据量化结果计算得到bit图；具体包括以下步骤：

步骤S51：把每个宏块的非零元素的二进制码的长度叠加在一起，作为该宏块的bit值；将亮度分量Y的所有宏块的bit值组成一张长宽为原图八分之一的图；非零元素具体是指：每个宏块内有8x8＝64个数，非零元素即指64个数中值不为零的数。

步骤S6：对bit图修正；具体是指：采用将输入的图片划分为平整区域F和普通区域N的方法对bit图修正；根据输入图片的bit图，将整个场景(所有的输入图片都是同一个场景，只是曝光参数不同)划分为平整区域。某个位置(i，j)被判定为平整区域之后，在所有的输入图片，bit图，这个位置都是归属于平整区域。

同样一个位置被判断为普通区域，在所有的输入图片，bit图这个位置都是归属于普通区域。

所述平整区域F的判定为：

最后合成的权重为：

Wi_j,m＝P_m,n×(Bi_j,m+P_m,f×F_ij,m) (2)

N代表输入图片序列的图片总数；

P_m,n，P_m,f为两个调节系数；

B_ij,m代表第m张图的像素点(i,j)的bit值；

F_ij,m为平整区域的附加值：

对于平整区域而言F_ij,m＝1，普通区域F_ij,m＝0。

T是一个常数，用来区分平整区域，如设定T＝0.1，当某个点的bit值大于0.1，这个点即被判定为普通区域。实际采用的T是0.08。

m指输入图片序列(N张)的第m张图。

公式(1)即指，代表输入图片序列的第m张图的像素点(i,j)的bit值，当这个位置的bit值在任意一张输入图片中大于阈值T，则该位置被判定为普通区域。如果在所有输入图片中该位置的bit值都小于阈值T，才被判定为平整区域。

步骤S7：根据步骤S6所得计算得到进行融合的权重图；具体包括以下步骤：步骤S71：得到输入图片的bit图后遍历每个像素点在各张bit图中的bit值，每个像素点具体是指即遍历每一张bit图的每一个像素点；根据公式(1)，得到改输入序列的平整区域F；设定的阈值T为0.08；计算得到调整参数P_m,f和P_m,n：

其中S_i,f为第i张bit图的平整区域的bit值总和；

S_i,n为普通区域的bit值总和；

M_f平整区域的最大值；

M_n为平整区域的最大值；

α和β为调节权重偏移程度的系数；在最后进行图像融合时，每一张图的每一个像素点都有自己的权重。对此计算了每一张输入图片的bit图，再经过尺寸复原、修正后，某一张bit图位置(i，j)的像素值(或称为bit值)就是这一张输入图片的(i，j)像素点在最终融合时占的权重。

每一张输入图片都有它的bit图，并根据所有输入图片的bit图确定了整个输入序列的平整区域和普通区域，得到的这个平整区域和普通区域的划分是对所有输入图片、bit图有效的，也就是说位置(i,j)被判定为平整区域之后，在所有的输入图片，bit图，这个位置都是平整区域。第i张输入图片的bit图位于平整区域的各个像素点的值(即bit值)的总和为S_i,f，M_f等于最大的S_i,f。

步骤S8：将输入的图片和bit图构建高斯金字塔和拉普拉斯金字塔，并对图片融合得到最终的结果图像；具体是指:通过高斯金字塔构建拉普拉斯金字塔；具体包括以下步骤：

步骤S82：拉普拉斯金字塔定义为：

其中:L{I}ⁱ为图像I的拉普拉斯金字塔的第i层；

G{I}ⁱ为图像I的高斯金字塔的第i层；

Up(G{I}ⁱ⁺¹)代表高斯金字塔的第i+1层向上采样结果；

代表卷积；

G₅指5×5的高斯内核；

其中:

代表结果图拉普拉斯金子塔第l层(i,j)像素；

代表第k张权重图的高斯金字塔第l层(i,j)像素；

代表原图拉普拉斯金子塔第l层(i,j)像素；

需要说明的是，通过上述改进，首先把一组输入图片(I₁，I₂…I_N)(默认为RGB彩图)，转换到YCbCr颜色空间，提取出亮度分量(Y₁，Y₂…Y_N)。对每个亮度分量Y_i进行JPEG压缩，将分割成多个8×8宏块，对每个宏块进行二维离散余弦变换。

在JPEG压缩算法的最后一步熵编码中，对每个宏块使用游程编码压缩多个相同的数字“0”，使用霍夫曼编码宏块中剩余的非零数字。在霍夫曼编码之前，JPEG压缩算法提供一张用于把这些非零数字转换成二进制形式的码表。即：每个8x8的宏块中，有64个数，JPEG压缩算法会使用游程编码编码其中值为零的数，和霍夫曼编码其中值不为零的数。但实际上的方法并不处理值为零的数，也不采用霍夫曼编码处理值不为零的数。只是把不为零的数(十进制)转换到二进制形式，并把所有不为零的数转换出的二进制数的位数加和在一起，作为这个8×8的宏块的bit值。

然后对变换结果进行量化，采用JPEG标准50％压缩比的量化表进行量化。

量化完成以后，得到每个宏块的非零元素，将每个宏块的非零元素根据JPEG的码表，转换成二进制形式。如非零数值“5”会被转换成二进制形式“001”，其二进制码的长度为3。

所有非零数字的二进制转换结果的位长度加起来，作为衡量一个块细节信息多少的指标。二进制数的位长度求和结果为“bit”，所有8×8宏块的“bit”组成一个图像，称之为“bit图”。把所有非零元素的二进制码的长度叠加在一起，作为该宏块的bit值。

所有的宏块的bit值组成一张长宽为原图八分之一的图。

对这张图使用最近邻插值法复原到原图的尺寸，得到最终的bit图。

bit图可以描述对象的形状和内容，并且一个区域包含的信息越多得到的bit值就越高。

为了弥补bit信息自身的不足，设计了一种将图片划分为平整区域F和普通区域N的方法。一个场景中平整区域F的判定为：

最后合成的权重为：

Wi_j,m＝P_m,n×(Bi_j,m+P_m,f×F_ij,m) (2)

其中，T为设定的一个区分平整区域的阈值；

下标ij,m代表第m张图的像素点(i,j)；

N代表输入图片序列的图片总数；

P_m,n，P_m,f为两个调节系数；

B_ij,m代表第m张图的像素点(i,j)的bit值；

F_ij,m为平整区域的附加值：

对于平整区域而言F_ij,m＝1，普通区域F_ij,m＝0。

得到所有输入图片的bit图后遍历每个像素在各张bit图中的值，根据公式(1)，得到改输入序列的平整区域F。设定的阈值为0.08(0.08×255)。

接下来计算两个调整系数：

其中，其中S_i,f为第i张bit图的平整区域的bit值总和；

S_i,n为普通区域的bit值总和；

M_f平整区域的最大值；

M_n为平整区域的最大值；

α和β为调节权重偏移程度的系数；

设定α＝2,β＝1，得到两个系数之后根据公式(2)，就能得到进行融合的权重W。

在进入高斯金字塔前，需要归一化权重W。然后开始建立拉普拉斯金字塔。拉普拉斯金字塔由高斯金字塔构建出来。高斯金字塔定义为：对一张图片进行高斯平滑和降采样，结果作为新的一层图片，不断循环的高斯平滑和降采样就可以建立原图的高斯金字塔的每一层。值得注意的是以G{I}⁰代表高斯金字塔第一层，也就是原图，在(7)拉普拉斯重构时，当得到G{I}⁰，也就得到融合结果。

拉普拉斯金字塔定义为：

其中:L{I}ⁱ为图像I的拉普拉斯金字塔的第i层；

G{I}ⁱ为图像I的高斯金字塔的第i层；

Up(G{I}ⁱ⁺¹)代表高斯金字塔的第i+1层向上采样结果；

代表卷积；

G₅指5×5的高斯内核；

给每一张输入图像建立拉普拉斯金字塔，给每一张输入图片的权重图建立高斯金字塔。然后按照公式(6)的到融合结果图片的拉普拉斯金字塔。

其中:

代表结果图拉普拉斯金子塔第l层(i,j)像素；

代表第k张权重图的高斯金字塔第l层(i,j)像素；

代表原图拉普拉斯金子塔第l层(i,j)像素；

最后对融合后的拉普拉斯金字塔，从其顶层开始逐层从上至下按式(7)进行递推，就可以恢复其对应的高斯金字塔，并最终可得到结果图像R(G{R}^O)。

本实施例的其他部分与上述实施例相同，故不再赘述。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。