CN114511487A

CN114511487A - 图像融合方法及装置、计算机可读存储介质、终端

Info

Publication number: CN114511487A
Application number: CN202210143422.9A
Authority: CN
Inventors: 刘千顺; 邵娜; 林英男; 赵磊
Original assignee: Spreadtrum Communications Shanghai Co Ltd
Current assignee: Spreadtrum Communications Shanghai Co Ltd
Priority date: 2022-02-16
Filing date: 2022-02-16
Publication date: 2022-05-17

Abstract

一种图像融合方法及装置、计算机可读存储介质、终端，所述方法包括：对参考帧原始图像和匹配帧原始图像分别进行特征提取，以得到参考帧特征和匹配帧特征；根据所述参考帧特征和所述匹配帧特征，进行多轮对齐融合处理，确定最终融合特征；对所述最终融合特征进行解码，得到融合后图像。本发明可以实现对多帧不同曝光程度的带噪声原始图像进行融合时，有效解决帧间偏移问题和进行降噪处理，增强图像动态范围的同时，获得高质量的融合图像。

Description

图像融合方法及装置、计算机可读存储介质、终端

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像融合方法及装置、计算机可读存储介质、终端。

背景技术

随着计算机技术发展，安防监控、车载成像、医疗成像、艺术摄影等各个领域都对高质量图像提出广泛需求。高质量图像往往具有很高的动态范围，能提供丰富的信息和真实的视觉感受。然而，在图像获取过程中，受到图像采集设备、采集环境、噪声等因素影响，单曝光图像往往质量较差，图像动态范围低，无法记录场景中的全部信息。因此，需要采用多曝光合成技术来生成细节增强的高动态范围图像。多曝光合成的目的在于达到高动态范围(High Dynamic Range，HDR)效果的同时使图像看上去没有人工处理的痕迹。

现有的图像融合处理技术中，在对多帧图像进行融合时，往往没有考虑现实中针对同一场景采集的各帧图像常存在帧间偏移的情况，例如在拍摄过程中相机发生或大或小的移动而产生的帧间全局偏移，或者被拍摄对象的表情变化、姿势变化而产生的局部运动，而帧间偏移的问题未有效解决，可能降低图像融合的效果；此外，在现有技术中，许多HDR算法采用经过各种处理后的图像作为算法输入，例如在8比特位(Bit)的红绿蓝色域(Red-Green-Blue，RGB)或亮度色度YUV域(“Y”表示明亮度Luma，“U”和“V”表示的则是色度Chroma)进行处理，而这些色域相比于原始的RAW域(原始图像)，本身就缺失了一些信息，且这种输入图像经过了许多的非线性处理，无法确定图像中的噪声强度，因而增加了算法进行降噪的难度，且经处理后的图像进行各种变换的过程更为复杂，运算开销更大、图像融合效率更低；再者，现有技术在图像融合时有的还采用逐帧降噪方法，不仅效率低，难度大，且各帧降噪效果不一致容易导致最终融合图像上产生噪声水平突变现象，严重影响融合效果。

因此，亟需一种图像融合方法，可以实现在对多帧不同曝光程度的带噪声原始图像进行融合时，有效解决帧间偏移问题和进行降噪处理，增强图像动态范围的同时，获得高质量融合图像。

发明内容

本发明实现的目的之一是提供一种图像融合方法，可以实现在对多帧不同曝光程度的带噪声原始图像进行融合时，有效解决帧间偏移问题和进行降噪处理，增强图像动态范围的同时，获得高质量融合图像。

为实现上述目的，本发明实施例提供一种图像融合方法，包括以下步骤：对参考帧原始图像和匹配帧原始图像分别进行特征提取，以得到参考帧特征和匹配帧特征；根据所述参考帧特征和所述匹配帧特征，进行多轮对齐融合处理，确定最终融合特征；对所述最终融合特征进行解码，得到融合后图像。

可选的，在对参考帧原始图像和匹配帧原始图像分别进行特征提取之前，所述方法还包括：确定多帧针对同一场景采集的曝光时间不同且标注相同噪声标签的原始图像；根据各帧原始图像的曝光时间，对所述原始图像进行分组，得到多组分组后图像；从所述多组分组后图像中选取一组图像作为所述参考帧原始图像，以及从剩余图像中选取至少一组图像作为所述匹配帧原始图像；其中，所述多组分组后图像中，各组图像之间具有不同的曝光时间，且各组图像中的每帧图像的曝光时间相同。

可选的，所述特征提取所采用的算法为残差卷积神经网络算法；所述对参考帧原始图像和匹配帧原始图像分别进行特征提取包括：将所述参考帧原始图像和所述匹配帧原始图像分别输入由多个残差卷积神经网络组成的残差块进行特征提取，以得到所述参考帧特征和所述匹配帧特征。

可选的，根据所述参考帧特征和所述匹配帧特征，进行多轮对齐融合处理，确定最终融合特征包括：在第一轮对齐融合处理中，将对所述参考帧特征和所述匹配帧特征分别进行预设倍数的下采样后得到的第一轮的下采样参考帧特征和第一轮的下采样匹配帧特征，进行对齐融合处理，得到第一轮的融合特征；在之后的每一轮对齐融合处理中，将对前一轮得到的融合特征进行上采样后得到的上采样融合特征以及对所述参考帧特征进行下采样后得到的下采样参考帧特征，进行对齐融合处理，得到该轮的融合特征；直至对齐融合处理的轮次达到预设轮次时，将对齐融合处理后得到的融合特征作为所述最终融合特征；其中，在所述多轮对齐融合处理中，对所述参考帧特征进行下采样的倍数自所述预设倍数起逐轮减小，所述对前一轮得到的融合特征进行上采样的倍数等于前一轮中对所述参考帧特征进行下采样的倍数与当前轮中对所述参考帧特征进行下采样的倍数之差。

可选的，在对所述第一轮的下采样参考帧特征和所述第一轮的下采样匹配帧特征进行对齐过程中，得到第一轮的对齐后特征，以及确定第一轮的偏移量；所述之后的每一轮对齐融合处理包括：基于对前一轮确定的偏移量进行上采样后的上采样偏移量，将对前一轮得到的融合特征进行上采样后得到的上采样融合特征以及对所述参考帧特征进行下采样后得到的下采样参考帧特征，进行对齐处理，得到该轮的对齐后特征，以及确定该轮的偏移量；对该轮得到的对齐后特征和该轮中的所述下采样参考帧特征进行融合处理，得到该轮的融合特征；其中，所述对前一轮确定的偏移量进行上采样的倍数和对前一轮得到的融合特征进行上采样的倍数相同。

可选的，在所述多轮对齐融合处理中，进行对齐处理所采用的算法是可变形卷积神经网络算法。

可选的，在所述多轮对齐融合处理中，每一轮进行的融合处理包括：采用连接函数Contact，对该轮得到的对齐后特征和该轮中的所述下采样参考帧特征进行连接处理，得到该轮的连接后特征；将该轮得到的连接后特征输入由多个残差卷积神经网络组成的残差块进行融合，得到所述该轮的融合特征。

可选的，在所述多轮对齐融合处理的每一轮中，是在对该轮中得到的所述对齐后特征进行去鬼影处理以得到该轮的去鬼影后特征之后，再进行所述融合处理的。

可选的，对该轮中得到的所述对齐后特征进行去鬼影处理以得到该轮的所述去鬼影后特征包括：采用卷积神经网络算法，根据该轮中得到的所述对齐后特征和该轮中的所述下采样参考帧特征，得到卷积结果；采用激活函数，根据所述卷积结果，确定去鬼影权重值；将该轮中得到的所述对齐后特征与所述去鬼影权重值相乘，得到该轮的所述去鬼影后特征。

可选的，所述激活函数选自：S型函数Sigmoid、双曲正切函数Tanh、线性整流函数ReLU。

可选的，在所述多轮对齐融合处理中，每一轮进行的融合处理包括：采用连接函数Contact，对该轮得到的所述去鬼影后特征和该轮中的所述下采样参考帧特征进行连接处理，得到该轮的连接后特征；将该轮得到的连接后特征输入由多个残差卷积神经网络组成的残差块进行融合，得到该轮的所述融合特征。

可选的，在对所述最终融合特征进行解码，得到融合后图像之后，所述方法还包括：对所述融合后图像进行图像信号处理，得到彩色图像。

本发明实施例还提供一种图像融合装置，包括：

特征提取模块，用于对参考帧原始图像和匹配帧原始图像分别进行特征提取，以得到参考帧特征和匹配帧特征；对齐融合模块，用于根据所述参考帧特征和所述匹配帧特征，进行多轮对齐融合处理，确定最终融合特征；解码模块，用于对所述最终融合特征进行解码，得到融合后图像。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图像融合方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述图像融合方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

在本发明实施例中，对参考帧原始图像和匹配帧原始图像分别进行特征提取，以得到参考帧特征和匹配帧特征；根据所述参考帧特征和所述匹配帧特征，进行多轮对齐融合处理，确定最终融合特征；对所述最终融合特征进行解码，得到融合后图像。相较于现有技术中进行图像融合时，往往未有效解决帧间偏移问题，导致融合后的图像有明显的人工处理痕迹、整体质量不高，本发明实施例采用多轮对齐融合方法，且每次对图像进行融合处理之前，先进行对齐处理，可以有效解决各帧输入图像之间的偏移问题，实现获得高动态范围图像的同时，提高融合图像质量的效果。此外，相比于现有的很多HDR算法采用经过各种非线性处理后的图像作为算法输入，相比于原始图像，这类图像本身就缺失很多信息，且很难确定噪声强度，增加了降噪难度，或者在图像融合时采用逐帧降噪方法，容易产生噪声水平突变现象，最终导致融合图像质量较低，本发明的实施例同时采用多帧原始图像作为算法输入，原始图像包含更多的图像信息、且易于标定噪声强度为降噪处理提供参考，从而可以丰富图像细节信息的同时有效解决降噪问题、保证噪声水平一致，明显改善融合效果。

进一步，本发明实施例采用了多尺度方法，首先对输入的参考帧特征和匹配帧的特征分别经过下采样之后，在小尺度上进行对齐融合，得到融合特征；然后在每轮对齐融合处理中，将前一轮得到的融合特征上采样后，与大尺度的参考帧特征再进行对齐融合，得到当前轮的融合特征，如此逐轮进行由小至大尺度下的对齐融合处理，直到达到预设轮次，确定最终融合特征。采用上述技术方案可以提高对齐的精确性，提高最终输出的融合后图像的质量。

进一步，在对所述第一轮的下采样参考帧特征和所述第一轮的下采样匹配帧特征进行对齐过程中，还确定第一轮的偏移量；所述之后的每一轮对齐融合处理中，通过采用对前一轮确定的偏移量(小尺度下的偏移量)进行上采样后的上采样偏移量作为初始化值，可以对当前轮中的所述上采样融合特征和所述下采样参考帧特征进行对齐处理，得到该轮的对齐后特征，且在对齐过程中确定当前轮的偏移量(大尺度下的偏移量)，以作为下一轮对齐处理的初始化值，从而可以在每一轮中实现精准对齐处理，改进最终融合效果。

进一步，在所述多轮对齐融合处理中，进行对齐处理所采用的算法是可变形卷积神经网络算法，其中在变形卷积单元中增加的偏移量是网络结构的一部分，加上该偏移量的学习之后，可变形卷积核的大小和位置可以根据当前需要识别的图像内容进行动态调整，其直观效果就是不同位置的卷积核采样点位置会根据图像内容发生自适应的变化，从而适应不同物体的形状、大小等几何形变，特别是对于不规则的图像也能取得很好的对齐效果，从而提高最终得到的融合图像的质量。

进一步，在所述多轮对齐融合处理的每一轮中，是在对该轮中得到的所述对齐后特征进行去鬼影处理以得到该轮的去鬼影后特征之后，再进行所述融合处理的。其中，所述去鬼影处理包括：采用卷积神经网络算法，根据该轮中得到的所述对齐后特征和该轮中的所述下采样参考帧特征，得到卷积结果；采用激活函数，根据所述卷积结果，确定去鬼影权重值；将该轮中得到的所述对齐后特征与所述去鬼影权重值相乘，得到该轮的所述去鬼影后特征。从而可以实现在图像融合过程中有效抑制鬼影的出现，进一步提高所获得的融合图像的质量。

附图说明

图1是本发明实施例中一种图像融合方法的流程图；

图2是图1中步骤S12的一种具体实施方式的流程图；

图3是本发明实施例中一种图像融合模型的整体框架示意图；

图4是图3中的图像融合模型的基本构成示意图；

图5是本发明实施例中一种采用多尺度方法的图像融合模型的部分示意图；

图6是本发明实施例中另一种图像融合方法的流程图；

图7是本发明实施例中一种图像融合装置的结构示意图。

具体实施方式

如前所述，由于各个领域都对高质量图像提出广泛需求，需要采用多曝光合成技术来生成细节增强的高动态范围图像。

现有的图像融合处理技术中，在对多帧图像进行融合时，往往没有考虑现实中针对同一场景采集的各帧图像存在帧间偏移的情况，因此可能导致图像的人工处理痕迹明显，降低图像融合效果；此外，许多HDR算法采用经过各种处理后的图像作为算法输入，例如在8比特位(Bit)的RGB域或YUV域进行处理，而这些色域相比于原始的RAW域(原始图像)，细节信息有所缺失、降噪难度较大、处理过程复杂，因此使得降噪效果较差，无法获得高动态范围、高质量的融合图像。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细说明。

参照图1，图1是本发明实施例中一种图像融合方法的流程图。所述图像融合方法可以包括步骤S11至步骤S14：

步骤S11：对参考帧原始图像和匹配帧原始图像分别进行特征提取，以得到参考帧特征和匹配帧特征；

步骤S12：根据所述参考帧特征和所述匹配帧特征，进行多轮对齐融合处理，确定最终融合特征；

步骤S13：对所述最终融合特征进行解码，得到融合后图像。

在步骤S11的具体实施中，所述原始图像也可以称为“RAW图像文件”，之所以这样命名，是因为这类图像尚未被处理，未被打印或用于编辑，通常情况下，原始图像以未压缩格式存储从图像传感器捕获的数据、且有宽色域的内部色彩，可以进行精确的调整、修改或处理，从而生成更高质量的图像。

所述参考帧原始图像和匹配帧原始图像分别作为本发明实施例中最初输入的图像。其中，所述参考帧图像和所述匹配帧图像是针对同一场景或同一对象采集的，具有不同的曝光时间(或曝光程度)；所述参考帧原始图像和所述匹配帧原始图像之间，可以存在帧间偏移，即帧间的全局运动和/或局部运动，所述全局运动是由于图像拍摄或采集过程中相机、摄像头等图像传感器的空间位置发生轻度变化而导致的不同帧图像之间的位移，所述局部运动是由于图像拍摄或采集过程中采集对象的轻微变化(例如人的表情变化、车辆的移动、树叶被风吹动等)而导致的不同帧图像之间的位移。

进一步，在对参考帧原始图像和匹配帧原始图像分别进行特征提取之前，所述方法还包括：确定多帧针对同一场景采集的曝光时间不同且标注相同噪声标签的原始图像；根据各帧原始图像的曝光时间，对所述原始图像进行分组，得到多组分组后图像；从所述多组分组后图像中选取一组图像作为所述参考帧原始图像，以及从剩余图像中选取至少一组图像作为所述匹配帧原始图像；其中，所述多组分组后图像中，各组图像之间具有不同的曝光时间，且各组图像中的每帧图像的曝光时间相同。

在具体实施中，采集所述原始图像的设备可以为智能手机、平板电脑、台式电脑、安防监控摄像头、车载摄像头、医疗成像设备等。

其中，所述参考帧原始图像可以为一帧原始图像，也可以为包含多帧原始图像的一组图像；所述匹配帧原始图像可以为一帧原始图像，也可以为包含多帧原始图像的一组图像，还可以为分别包含若干帧原始图像的多组图像，其中，各组图像之间具有不同的曝光时间，且各组图像中的每帧图像的曝光时间相同。

其中，曝光时间主要是指底片的感光时间，曝光时间越长底片上生成的相片越亮；曝光时间越短底片上生成的相片越暗。多曝光融合技术就是通过对不同曝光时间的原始图像进行融合，增强图像中的信息，获得高动态范围效果。

作为一个非限制性的实施例，所述参考帧原始图像可以为：一帧中等曝光时间的原始图像；所述匹配帧原始图像可以为：一帧长曝光时间的原始图像和一帧短曝光时间的原始图像。

在本发明实施例中，相比于现有的很多HDR算法采用经过各种非线性处理后的图像作为算法输入，而这类图像相比于原始图像，本身就缺失很多信息，且很难确定噪声强度，增加了降噪难度，或者相比于在图像融合时采用的逐帧降噪方法，容易产生噪声水平突变现象，最终导致融合图像质量较低，本发明的实施例同时采用多帧原始图像作为算法输入，原始图像包含更多的图像信息、且易于标定噪声强度为降噪处理提供参考，从而可以丰富图像细节信息的同时有效解决降噪问题、保证噪声水平一致，明显改善融合效果。

进一步，所述特征提取所采用的算法为残差卷积神经网络算法；所述对参考帧原始图像和匹配帧原始图像分别进行特征提取包括：将所述参考帧原始图像和所述匹配帧原始图像分别输入由多个残差卷积神经网络组成的残差块进行特征提取，以得到所述参考帧特征和所述匹配帧特征。

其中，残差卷积神经网络算法是卷积神经网络算法的一种经典改进算法，卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks，FNN)，是深度学习的代表性算法之一，卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks，SIANN)”。卷积神经网络可以由输入层、隐含层、输出层三层基本结构构成，其中隐含层又可以包括卷积层、池化层和全连接层3类常见构筑。但是传统的卷积神经网络，随着网络的深度增加会存在梯度爆炸和梯度消失等问题，变得越来越难以训练，训练误差也会随着网络深度增加而升高。而残差卷积神经网络的提出则使得训练深度网络变得更加容易，其原理是在某一层的线性模块之后，非线性模块之前增加前面某层的输出，这种操作又被称为跳跃连接(skipconnection)。

在步骤S12的具体实施中，根据所述参考帧特征和所述匹配帧特征，进行多轮对齐融合处理，确定最终融合特征。

参照图2，图2是图1中步骤S12的一种具体实施方式的流程图。所述根据所述参考帧特征和所述匹配帧特征，进行多轮对齐融合处理，确定最终融合特征可以包括步骤S21至步骤S23，以下进行说明。

在步骤S21中，在第一轮对齐融合处理中，将对所述参考帧特征和所述匹配帧特征分别进行预设倍数的下采样后得到的第一轮的下采样参考帧特征和第一轮的下采样匹配帧特征，进行对齐融合处理，得到第一轮的融合特征。

在步骤S22中，在之后的每一轮对齐融合处理中，将对前一轮得到的融合特征进行上采样后得到的上采样融合特征以及对所述参考帧特征进行下采样后得到的下采样参考帧特征，进行对齐融合处理，得到该轮的融合特征。

其中，所述下采样可以指缩小图像的操作，即生成对应图像的缩略图，下采样的结果是图像中的像素点减少，图像的尺度减小；所述上采样可以指放大图像的操作，上采样的结果是图像中的像素点增多，图像的尺度增大。具体地，如果把一帧图像看作是很多个二维像素点组成的数据集合，那么下采样的目的是从所述数据集合中抽取一部分数据得到该数据集合的子集，也即下采样后的图像中二维像素点的个数将少于原来的图像中的二维像素点个数，而上采样后的图像中二维像素点的个数则大于原来的图像中的二维像素点个数。

其中，所述图像的尺度是指图像的分辨率，通常在不同的尺度下可以观察到图像的不同特征，从而完成不同的任务。通常来说粒度更小/更密集的采样可以看到更多的细节，粒度更大/更稀疏的采样可以看到整体的趋势。

需要指出的是，在所述多轮对齐融合处理中，对所述参考帧特征进行下采样的倍数自所述预设倍数起逐轮减小，所述对前一轮得到的融合特征进行上采样的倍数等于前一轮中对所述参考帧特征进行下采样的倍数与当前轮中对所述参考帧特征进行下采样的倍数之差。

其中，所述自预设倍数起逐轮减小可以为：每一轮中对所述参考帧特征进行下采样的倍数相比前一轮中对所述参考帧特征进行下采样的倍数减小固定值，也可以减小不同值，只要保证同一轮中：对前一轮得到的融合特征进行上采样后得到的上采样融合特征、对所述参考帧特征进行下采样后得到的下采样参考帧特征，两者的尺度一致即可。

需要指出的是，在具体实施中，应确保对前一轮得到的融合特征进行上采样的倍数等于前一轮中对所述参考帧特征进行下采样的倍数与当前轮中对所述参考帧特征进行下采样的倍数之差，其目的在于：使得同一轮中的所述上采样融合特征的尺度与所述下采样参考帧特征的尺度一致。

在具体实施中，对所述参考帧进行下采样的步骤可以在每一轮对齐融合处理之前进行；也可以在第一轮对齐融合处理之前就对所述参考帧特征进行不同倍数的下采样，得到多个不同尺度的下采样参考帧特征备用，在第一轮对齐融合处理中，选取其中尺度最小的下采样参考帧特征用于第一轮的对齐融合处理，在之后的每一轮对齐融合处理中，选取比前一轮中尺度更大的下采样参考帧特征作为该轮中所述下采样参考帧特征，用于该轮的对齐融合处理。

在本发明实施例中，相较于现有技术中进行图像融合时，往往未有效解决帧间偏移问题和进行降噪处理，导致融合后的图像有明显的人工处理痕迹、整体质量不高，本发明实施例采用多尺度方法，首先对输入的参考帧特征和匹配帧的特征分别经过下采样之后，在小尺度上进行对齐融合，得到融合特征；然后在每轮对齐融合处理中，将前一轮得到的融合特征上采样后，与大尺度的参考帧特征再进行对齐融合，得到当前轮的融合特征，如此逐轮进行由小至大尺度下的对齐融合处理，直到达到预设轮次，确定最终融合特征，采用上述方案可以明显提高对齐的精确性，获得高动态范围图像的同时，有效解决阵间偏移问题，提高融合图像质量的效果。

进一步，在对所述第一轮的下采样参考帧特征和所述第一轮的下采样匹配帧特征进行对齐过程中，得到第一轮的对齐后特征，以及确定第一轮的偏移量；所述之后的每一轮对齐融合处理包括：基于对前一轮确定的偏移量进行上采样后的上采样偏移量，将对前一轮得到的融合特征进行上采样后得到的上采样融合特征以及对所述参考帧特征进行下采样后得到的下采样参考帧特征，进行对齐处理，得到该轮的对齐后特征，以及确定该轮的偏移量；对该轮得到的对齐后特征和该轮中的所述下采样参考帧特征进行融合处理，得到该轮的融合特征。

在本发明实施例中，通过采用对前一轮确定的偏移量(小尺度下的偏移量)进行上采样后的上采样偏移量作为初始化值，可以对当前轮中的所述上采样融合特征和所述下采样参考帧特征进行对齐处理，得到该轮的对齐后特征，且在对齐过程中确定当前轮的偏移量(大尺度下的偏移量)，以作为下一轮对齐处理的初始化值。从而可以在每一轮中实现精准对齐处理，改进最终融合效果。

其中，所述对前一轮确定的偏移量进行上采样的倍数和对前一轮得到的融合特征进行上采样的倍数相同，其目的在于：使得同一轮中的所述上采样融合特征的尺度与所述上采样偏移量的尺度一致。

具体地，所述第一轮中确定的偏移量是指所述第一轮的下采样参考帧特征和所述第一轮的下采样匹配帧特征之间的偏移量；所述之后的每一轮对齐融合处理中确定的偏移量是指该轮中的所述上采样融合特征和所述下采样参考帧特征之间的偏移量。

其中，所述偏移量可以指不同帧图像的特征在空间坐标中的距离；

在具体实施中，通过采用对前一轮确定的偏移量(小尺度下的偏移量)进行上采样后的上采样偏移量作为初始化值，可以对当前轮中的所述上采样融合特征和所述下采样参考帧特征进行对齐处理，得到该轮的对齐后特征，且在对齐过程中确定当前轮的偏移量(大尺度下的偏移量)，以作为下一轮对齐处理的初始化值。

在步骤S23中，直至对齐融合处理的轮次达到预设轮次时，将对齐融合处理后得到的融合特征作为所述最终融合特征。

可以理解的是，所述预设轮次与所述预设倍数的关系具体为：当每一轮中对所述参考帧特征进行下采样的倍数相比前一轮中对所述参考帧特征进行下采样的倍数都减小1倍时(下采样的倍数逐轮减小1倍)，所述预设轮次等于所述预设倍数+1；当每一轮中对所述参考帧特征进行下采样的倍数相比前一轮中对所述参考帧特征进行下采样的倍数减小不同值时，所述预设轮次应当小于所述预设倍数+1。

在一种具体实施方式中，所述预设倍数设置为4倍，且对所述参考帧特征进行下采样的倍数逐轮减小1倍，则所述预设轮次应设置为5轮：

在第一轮中，对所述参考帧特征进行下采样的倍数为4倍；

在第二轮中，对所述参考帧进行下采样的倍数为3倍，对第一轮得到的融合特征进行上采样的倍数为4-3＝1倍；

在第三轮中，对所述参考帧进行下采样的倍数为2倍，对第二轮得到的融合特征进行上采样的倍数为3-2＝1倍；

在第四轮中，对所述参考帧进行下采样的倍数为1倍，对第三轮得到的融合特征进行上采样的倍数为2-1＝1倍；

在第五轮中，对所述参考帧进行下采样的倍数为0倍，对第四轮得到的融合特征进行上采样的倍数为1-0＝1倍；至此达到预设轮次，结束最后一轮对齐融合处理。

在另一种具体实施方式中，所述预设倍数设置为4倍，且对所述参考帧特征进行下采样的倍数逐轮减小不同倍数(例如：分别为减小1倍，减小2倍，减小1倍)，则所述预设轮次应设置为4轮：

在第一轮中，对所述参考帧特征进行下采样的倍数为4倍；

在第二轮中，对所述参考帧进行下采样的倍数为4-1＝3倍，对第一轮得到的融合特征进行上采样的倍数为4-3＝1倍；

在第三轮中，对所述参考帧进行下采样的倍数为3-2＝1倍，对第二轮得到的融合特征进行上采样的倍数为3-1＝2倍；

在第四轮中，对所述参考帧进行下采样的倍数为1-1＝0倍，对第三轮得到的融合特征进行上采样的倍数为1-0＝1倍；至此达到预设轮次，结束最后一轮对齐融合处理。

进一步，在所述多轮对齐融合处理中，进行对齐处理所采用的算法是可变形卷积神经网络算法。

其中，所述可变形卷积神经网络算法(Deformable ConvolutionNeuralNetworks，DCNN)是一种能够进行复杂的几何变换建模的卷积神经网络算法。由于构造卷积神经网络所用的模块中几何结构是固定的，其几何变换建模的能力本质上是有限的，而可变形卷积神经网络则提高了卷积神经网络对几何变换的建模能力，它是基于在模块中对空间采样的位置信息作进一步位移调整的原理，该位移可在目标任务中学习得到，并不需要额外的监督信号。

在本发明实施例中，通过采用所述可变形卷积神经网络算法进行对齐处理，变形卷积单元中增加的偏移量是网络结构的一部分，加上该偏移量的学习之后，可变形卷积核的大小和位置可以根据当前需要识别的图像内容进行动态调整，其直观效果就是不同位置的卷积核采样点位置会根据图像内容发生自适应的变化，从而适应不同物体的形状、大小等几何形变，特别是对于不规则的图像也能取得很好的对齐效果，从而提高最终得到的融合图像的质量。

进一步，在所述多轮对齐融合处理中，每一轮进行的融合处理包括：采用连接函数Contact，对该轮得到的对齐后特征和该轮中的所述下采样参考帧特征进行连接处理，得到该轮的连接后特征；将该轮得到的连接后特征输入由多个残差卷积神经网络组成的残差块进行融合，得到所述该轮的融合特征。

进一步，在所述多轮对齐融合处理的每一轮中，是在对该轮中得到的所述对齐后特征进行去鬼影处理以得到该轮的去鬼影后特征之后，再进行所述融合处理的。

更进一步地，对该轮中得到的所述对齐后特征进行去鬼影处理以得到该轮的所述去鬼影后特征包括：采用卷积神经网络算法，根据该轮中得到的所述对齐后特征和该轮中的所述下采样参考帧特征，得到卷积结果；采用激活函数，根据所述卷积结果，确定去鬼影权重值；将该轮中得到的所述对齐后特征与所述去鬼影权重值相乘，得到该轮的所述去鬼影后特征。

其中，作为一些非限制性的实施例，所述激活函数可以选自：S型函数Sigmoid、双曲正切函数Tanh、线性整流函数ReLU。

其中，Sigmoid和Tanh是被广泛使用的2种激活函数，两者都为S型饱和函数。其中，Sigmoid用于隐层神经元输出，取值范围为(0,1)，它可以将一个实数映射到(0，1)的区间，可以用来做二分类，Sigmoid的优点是平滑、易于求导。由于Sigmoid的输出恒为正值，不是以零为中心的，这会导致权值更新时只能朝一个方向更新，从而影响收敛速度。Tanh是Sigmoid的改进版，由双曲正弦和双曲余弦这两种基本双曲函数推导而来，它是以零为中心的对称函数，收敛速度快，不容易出现损失值晃动。又称修正线性单元，是一种人工神经网络中常用的激活函数(activation function)，ReLU(Linear rectification function)通常指代以斜坡函数及其变种为代表的非线性函数，在神经网络中，ReLU作为神经元的激活函数，定义了该神经元在线性变换之后的非线性输出结果。

进一步，在所述多轮对齐融合处理中，每一轮进行的融合处理包括：采用连接函数Contact，对该轮得到的所述去鬼影后特征和该轮中的所述下采样参考帧特征进行连接处理，得到该轮的连接后特征；将该轮得到的连接后特征输入由多个残差卷积神经网络组成的残差块进行融合，得到该轮的所述融合特征。

在本发明实施例中，通过在所述多轮对齐融合处理的每一轮中，在对该轮中得到的所述对齐后特征进行去鬼影处理，以得到该轮的去鬼影后特征，然后再对所得到的去鬼影后特征和该轮中的所述下采样参考帧特征进行融合处理，从而可以实现在图像融合过程中有效抑制鬼影的出现，进一步提高所获得的融合图像的质量。

在具体实施中，有关步骤S21至步骤S23的更多详细内容请参照前文以及图1中的步骤描述进行执行，此处不再赘述。

继续参照图1，在步骤S13中，对所述最终融合特征进行解码，得到融合后图像。

其中，解码简言之是图像编码的反向处理，图像编码也即对图像进行特征提取的过程，图像解码就是将所提取出的特征还原为特征提取前的图像的过程。

参照图3，图3是本发明实施例中一种图像融合模型的整体框架示意图。

其中，所述图像融合模型的输入为：短时间曝光的原始图像、中等曝光时间的原始图像、长曝光时间的原始图像，其中，所述中等曝光时间的原始图像作为所述参考帧原始图像，所述短时间曝光的原始图像和所述长时间曝光的原始图像作为所述匹配帧原始图像；然后分别对上述三种不同曝光时间的原始图像进行编码(即进行图像的特征提取)；再对所提取出的参考帧特征和匹配帧特征依次进行对齐、去鬼影、融合、解码处理；所述图像融合模型的输出为融合后图像，即：一帧高动态范围的、干净的、无鬼影的RAW图像。

需要指出的是，在具体实施中，在使用所述图像融合模型进行图像融合之前，需要采用训练样本集对所述图像融合模型进行训练，具体包括：

构建训练样本集，所述训练样本集包含多组原始图像，其中，每组原始图像中的各帧图像是针对同一场景采集的具有不同曝光时间和相同噪声标签的图像；设置损失函数，并采用所述训练样本集对所述图像融合模型进行训练，直至所述损失函数收敛时停止训练，得到训练后的图像融合模型。

进一步，所述设置损失函数，并采用所述训练样本集对所述图像融合模型进行训练，直至所述损失函数收敛时停止训练，得到训练后的图像融合模型包括：将所述训练样本集划分为预设个数的训练样本子集；采用L1范数损失函数作为所述损失函数，将所述训练样本子集逐个输入所述图像融合模型进行训练，直至所述损失函数收敛时结束训练，得到所述训练后的图像融合模型。

在得到所述训练后的图像融合模型之后，将所述参考帧原始图像和所述匹配帧原始图像输入所述训练后的神经网络模型，得到所述融合后图像。

在具体实施中，有关各个处理阶段的详细过程和相关数据的输入输出参见前文及图1、图2中的相关描述，此处不再赘述。

参照图4，图4是图3中的图像融合模型的基本构成示意图。

所述图像融合模型包括编码/解码模块41，对齐模块42，去鬼影模块43，融合模块44。

其中，所述编码/解码模块41由多个残差卷积神经网络(例如，卷积神经网络1、卷积神经网络2、卷积神经网络3、卷积神经网络4)组成的残差块构成，用于对输入的参考帧原始图像和匹配帧原始图像进行特征提取，输出参考帧特征和匹配帧特征；

所述对齐模块42的核心是可变性卷积神经网络，用于对所述参考帧特征和所述匹配帧特征进行对齐处理，输出对齐后特征，作为所述去鬼影模块43的输入；

所述去鬼影模块43包含卷积神经网络，且借鉴了注意力机制思想：首先采用所述卷积神经网络对所述参考帧特征与所述对齐后特征进行卷积，得到卷积结构；然后采用sigmoid函数，根据所述卷积结果，确定去鬼影权重值；再将所述对齐后特征与所述去鬼影权重值相乘，输出去鬼影后特征，作为融合模块44的输入；

所述融合模块44包含多个残差块，首先对所述参考帧特征和所述去鬼影后特征进contact连接得到连接后特征，再由所述残差块对所述连接后特征进行融合，输出融合特征。

在具体实施中，关于所述图像融合模型的各个模块的详细运行过程参考前文及图1至图3中的描述，此处不再进行赘述。

参照图5，图5是本发明实施例中一种采用多尺度方法的图像融合模型的部分示意图。

其中，S用于表示图像中的像素总数，每进行一倍下采样，图像的像素总数变为原来的1/4；W用于表示图像水平方向的像素数量，H用于表示图像垂直方向的像素数量，C用于表示图像的颜色深度，n用于表示采样倍数(n的最大值也就是所述预设倍数)。

具体地，对图像每进行一倍的下采样，则图像中的像素点个数变为原来的1/4，例如：对于一幅图像，用W×H×C表示，那么对该图像进行一倍下采样后得到的图像为W/2¹×H/2¹×C×2²；对该图像进行两倍下采样后得到的图像为W/2²×H/2²×C×2⁴；对该图像进行三倍下采样后得到的图像为W/2³×H/2³×C×2⁶……；对该图像进行n倍下采样后得到的图像为W/2ⁿ×H/2ⁿ×C×2²ⁿ。

其中，在每一轮对其融合处理中，对所述参考帧特征进行下采样的倍数相比前一轮中对所述参考帧特征进行下采样的倍数都减小1倍(下采样的倍数逐轮减小1倍)，所述预设倍数为n时，所述预设轮次为n+1。

其中，在每一轮对其融合处理中，对前一轮得到的融合特征进行上采样后得到的上采样融合特征、对所述参考帧特征进行下采样后得到的下采样参考帧特征，两者的尺度始终一致。

需要指出的是，图5示出的所述采用多尺度方法的图像融合模型仅作为本发明的一个非限制性的实施例，在具体实施中，每一轮中对所述参考帧特征进行下采样的倍数相比前一轮中对所述参考帧特征进行下采样的倍数可以减小固定值(如图5中示出的逐轮减小1倍)，也可以减小不同值，只要保证同一轮中，对前一轮得到的融合特征进行上采样的倍数等于前一轮中对所述参考帧特征进行下采样的倍数与当前轮中对所述参考帧特征进行下采样的倍数之差，从而使得同一轮中的所述上采样融合特征的尺度与所述下采样参考帧特征的尺度一致。

参照图6，图6是本发明实施例中另一种图像融合方法的流程图。所述另一种图像融合方法可以包括步骤S61至S67，以下进行说明。

在步骤S61中，确定多帧针对同一场景采集的曝光时间不同且标注相同噪声标签的原始图像，然后根据各帧原始图像的曝光时间，对所述原始图像进行分组，得到多组分组后图像。

在步骤S62中，从所述多组分组后图像中选取一组图像作为参考帧原始图像，以及从剩余图像中选取至少一组图像作为匹配帧原始图像。

其中，所述多组分组后图像中，各组图像之间具有不同的曝光时间，且各组图像中的每帧图像的曝光时间相同。

在步骤S63中，对所述参考帧原始图像和所述匹配帧原始图像进行特征提取，以得到参考帧特征和匹配帧特征。

在步骤S64中，在第一轮对齐融合处理中，将对所述参考帧特征和所述匹配帧特征分别进行预设倍数的下采样后得到的第一轮的下采样参考帧特征和第一轮的下采样匹配帧特征，进行对齐融合处理，得到第一轮的融合特征。

在步骤S65中，在之后的每一轮对齐融合处理中，将对前一轮得到的融合特征进行上采样后得到的上采样融合特征以及对所述参考帧特征进行下采样后得到的下采样参考帧特征，进行对齐融合处理，得到该轮的融合特征。

在步骤S66中，直至对齐融合处理的轮次达到预设轮次时，将对齐融合处理后得到的融合特征作为所述最终融合特征。

其中，在上述多轮对齐融合处理中，对所述参考帧特征进行下采样的倍数自所述预设倍数起逐轮减小，所述对前一轮得到的融合特征进行上采样的倍数等于前一轮中对所述参考帧特征进行下采样的倍数与当前轮中对所述参考帧特征进行下采样的倍数之差。

在步骤S67中，对所述最终融合特征进行解码，得到融合后图像。

在步骤S68中，对所述融合后图像进行图像信号处理，得到彩色图像。

其中，图像信号处理(Image Signal Processing，ISP)一般用来处理图像传感器的输出数据，如做自动曝光控制、自动增益控制、自动白平衡、色彩校正、祛除坏点等等功能的处理。

在具体实施中，有关步骤S61至步骤S68的更多详细内容请参照前文以及图1至图5中的步骤描述进行执行，此处不再赘述。

参照图7，图7是本发明实施例中一种图像融合装置的结构示意图。所述图像融合装置可以包括：

特征提取模块71，用于对参考帧原始图像和匹配帧原始图像分别进行特征提取，以得到参考帧特征和匹配帧特征；

对齐融合模块72，用于根据所述参考帧特征和所述匹配帧特征，进行多轮对齐融合处理，确定最终融合特征；

解码模块73，用于对所述最终融合特征进行解码，得到融合后图像。

关于该图像融合装置的原理、具体实现和有益效果请参照前文及图1至图6示出的关于图像融合方法的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图像融合方法的步骤。所述计算机可读存储介质可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器，还可以包括光盘、机械硬盘、固态硬盘等。

具体地，在本发明实施例中，所述处理器可以为中央处理单元(centralprocessing unit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，简称DSP)、专用集成电路(application specificintegrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述图像融合方法的步骤。所述终端可以包括但不限于手机、计算机、平板电脑等终端设备，还可以为服务器、云平台等。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

需要指出的是，本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种图像融合方法，其特征在于，包括：

对参考帧原始图像和匹配帧原始图像分别进行特征提取，以得到参考帧特征和匹配帧特征；

根据所述参考帧特征和所述匹配帧特征，进行多轮对齐融合处理，确定最终融合特征；

对所述最终融合特征进行解码，得到融合后图像。

2.根据权利要求1所述的方法，其特征在于，在对参考帧原始图像和匹配帧原始图像分别进行特征提取之前，所述方法还包括：

确定多帧针对同一场景采集的曝光时间不同且标注相同噪声标签的原始图像；

根据各帧原始图像的曝光时间，对所述原始图像进行分组，得到多组分组后图像；

从所述多组分组后图像中选取一组图像作为所述参考帧原始图像，以及从剩余图像中选取至少一组图像作为所述匹配帧原始图像；

3.根据权利要求1或2所述的方法，其特征在于，所述特征提取所采用的算法为残差卷积神经网络算法；

所述对参考帧原始图像和匹配帧原始图像分别进行特征提取包括：

将所述参考帧原始图像和所述匹配帧原始图像分别输入由多个残差卷积神经网络组成的残差块进行特征提取，以得到所述参考帧特征和所述匹配帧特征。

4.根据权利要求1所述的方法，其特征在于，根据所述参考帧特征和所述匹配帧特征，进行多轮对齐融合处理，确定最终融合特征包括：

在第一轮对齐融合处理中，将对所述参考帧特征和所述匹配帧特征分别进行预设倍数的下采样后得到的第一轮的下采样参考帧特征和第一轮的下采样匹配帧特征，进行对齐融合处理，得到第一轮的融合特征；

在之后的每一轮对齐融合处理中，将对前一轮得到的融合特征进行上采样后得到的上采样融合特征以及对所述参考帧特征进行下采样后得到的下采样参考帧特征，进行对齐融合处理，得到该轮的融合特征；

直至对齐融合处理的轮次达到预设轮次时，将对齐融合处理后得到的融合特征作为所述最终融合特征；

其中，在所述多轮对齐融合处理中，对所述参考帧特征进行下采样的倍数自所述预设倍数起逐轮减小，所述对前一轮得到的融合特征进行上采样的倍数等于前一轮中对所述参考帧特征进行下采样的倍数与当前轮中对所述参考帧特征进行下采样的倍数之差。

5.根据权利要求4所述的方法，其特征在于，在对所述第一轮的下采样参考帧特征和所述第一轮的下采样匹配帧特征进行对齐过程中，得到第一轮的对齐后特征，以及确定第一轮的偏移量；

所述之后的每一轮对齐融合处理包括：

基于对前一轮确定的偏移量进行上采样后的上采样偏移量，将对前一轮得到的融合特征进行上采样后得到的上采样融合特征以及对所述参考帧特征进行下采样后得到的下采样参考帧特征，进行对齐处理，得到该轮的对齐后特征，以及确定该轮的偏移量；

对该轮得到的对齐后特征和该轮中的所述下采样参考帧特征进行融合处理，得到该轮的融合特征；

其中，所述对前一轮确定的偏移量进行上采样的倍数和对前一轮得到的融合特征进行上采样的倍数相同。

6.根据权利要求5所述的方法，其特征在于，在所述多轮对齐融合处理中，进行对齐处理所采用的算法是可变形卷积神经网络算法。

7.根据权利要求5所述的方法，其特征在于，在所述多轮对齐融合处理中，每一轮进行的融合处理包括：

采用连接函数Contact，对该轮得到的对齐后特征和该轮中的所述下采样参考帧特征进行连接处理，得到该轮的连接后特征；

将该轮得到的连接后特征输入由多个残差卷积神经网络组成的残差块进行融合，得到所述该轮的融合特征。

8.根据权利要求5所述的方法，其特征在于，在所述多轮对齐融合处理的每一轮中，是在对该轮中得到的所述对齐后特征进行去鬼影处理以得到该轮的去鬼影后特征之后，再进行所述融合处理的。

9.根据权利要求8所述的方法，其特征在于，对该轮中得到的所述对齐后特征进行去鬼影处理以得到该轮的所述去鬼影后特征包括：

采用卷积神经网络算法，根据该轮中得到的所述对齐后特征和该轮中的所述下采样参考帧特征，得到卷积结果；

采用激活函数，根据所述卷积结果，确定去鬼影权重值；

将该轮中得到的所述对齐后特征与所述去鬼影权重值相乘，得到该轮的所述去鬼影后特征。

10.根据权利要求9所述的方法，其特征在于，所述激活函数选自：

S型函数Sigmoid、双曲正切函数Tanh、线性整流函数ReLU。

11.根据权利要求8所述的方法，其特征在于，在所述多轮对齐融合处理中，每一轮进行的融合处理包括：

采用连接函数Contact，对该轮得到的所述去鬼影后特征和该轮中的所述下采样参考帧特征进行连接处理，得到该轮的连接后特征；

将该轮得到的连接后特征输入由多个残差卷积神经网络组成的残差块进行融合，得到该轮的所述融合特征。

12.根据权利要求1所述的方法，其特征在于，在对所述最终融合特征进行解码，得到融合后图像之后，所述方法还包括：

对所述融合后图像进行图像信号处理，得到彩色图像。

13.一种图像融合装置，其特征在于，包括：

特征提取模块，用于对参考帧原始图像和匹配帧原始图像分别进行特征提取，以得到参考帧特征和匹配帧特征；

对齐融合模块，用于根据所述参考帧特征和所述匹配帧特征，进行多轮对齐融合处理，确定最终融合特征；

解码模块，用于对所述最终融合特征进行解码，得到融合后图像。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至12任一项所述图像融合方法的步骤。

15.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至12任一项所述图像融合方法的步骤。