CN116977804A

CN116977804A - 图像融合方法、电子设备、存储介质及计算机程序产品

Info

Publication number: CN116977804A
Application number: CN202310609594.5A
Authority: CN
Inventors: 蒋霆; 李鑫鹏; 刘帅成
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-10-31

Abstract

本申请提供一种图像融合方法、电子设备、存储介质和计算机程序产品。方法包括：获取多个待处理图像；对多个待处理图像进行特征提取，获得与多个待处理图像一一对应的多组初始图像特征；将多组初始图像特征中的任一组初始图像特征作为参考图像特征，将除参考图像特征外的剩余组初始图像特征分别与参考图像特征进行对齐，以获得与剩余组初始图像特征一一对应的至少一组对齐图像特征；将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合，获得融合图像特征；利用融合图像特征进行图像重建，获得融合图像。该方案既适用于静态场景，也适用于动态场景，可以解决动态场景融合效果不好的问题。

Description

图像融合方法、电子设备、存储介质及计算机程序产品

技术领域

本申请涉及图像处理技术领域，更具体地涉及一种图像融合方法、电子设备、存储介质及计算机程序产品。

背景技术

目前在图像融合领域，现有的图像融合技术难以对动态场景下采集的图像进行高质量融合。下面以多对焦图像融合为例进行描述。由于光学镜头景深固有的限制性，对于所采集的图像中深度差距比较大的前景和背景，通常难以通过镜头同时清晰地捕捉到。但是用户通常又希望相机可以将前景和背景同时进行清晰的呈现，因此就产生了多对焦图像融合技术。

现有技术中，多对焦图像融合技术通常是利用多个在同一场景下拍摄、对焦在不同深度位置的局部对焦图像进行融合，获得一个处处对焦的图像。但是，实际的图像采集环境往往并不理想，导致大部分情况下图像采集装置采集到的都是动态场景下的图像。在本申请中，静态场景可以理解为场景中的各物体相对图像采集装置的镜头保持静止，而动态场景可以理解为场景中的至少部分物体相对图像采集装置的镜头存在运动。例如，大部分图像往往是利用手持设备采集的，例如用手持手机或相机等采集。手持设备采集图像时通常存在两种运动形式，即用户双手抖动造成的手持设备运动以及场景内的物体本身的运动。无论是手持设备在运动还是场景内的物体在运动，这二者都可能导致场景中的至少部分物体相对图像采集装置的镜头发生运动，即都有可能导致当前场景成为动态场景。现有的多对焦图像融合方法都是基于完全静止的场景(即静态场景)进行，对于存在运动的场景(即动态场景)并不适用，无法获得清晰的融合图像。因此，需要一种新的图像融合方案以解决上述技术问题。

发明内容

考虑到上述问题而提出了本申请。本申请提供了一种图像融合方法、电子设备、存储介质及计算机程序产品。

根据本申请一方面，提供了一种图像融合方法，包括：获取多个待处理图像；对多个待处理图像进行特征提取，获得与多个待处理图像一一对应的多组初始图像特征；将多组初始图像特征中的任一组初始图像特征作为参考图像特征，将除参考图像特征外的剩余组初始图像特征分别与参考图像特征进行对齐，以获得与剩余组初始图像特征一一对应的至少一组对齐图像特征；将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合，获得融合图像特征；利用融合图像特征进行图像重建，获得融合图像。

示例性地，将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合，获得融合图像特征，包括：基于参考图像特征中的至少部分图像特征以及至少一组对齐图像特征进行特征拼接或特征相加，获得初始融合特征；基于目标图像特征以及初始融合特征进行子空间投影，获得融合图像特征，其中，目标图像特征为参考图像特征中的至少部分图像特征，或者为对参考图像特征中的至少部分图像特征进行进一步处理获得的特征。

示例性地，基于参考图像特征中的至少部分图像特征以及至少一组对齐图像特征进行特征拼接或特征相加，获得初始融合特征，包括：对参考图像特征中的至少部分图像特征进行卷积，获得第一卷积特征；对至少一组对齐图像特征中的每组对齐图像特征进行卷积，获得与至少一组对齐图像特征一一对应的至少一组第二卷积特征；将第一卷积特征和至少一组第二卷积特征在通道上进行拼接或者逐元素求和，获得初始融合特征；基于目标图像特征以及初始融合特征进行子空间投影，获得融合图像特征，包括：对初始融合特征进行卷积，获得第三卷积特征；将第三卷积特征展平，获得子空间基底向量；将目标图像特征投影到子空间基底向量所对应的子空间，获得融合图像特征，其中，目标图像特征为参考图像特征中的至少部分图像特征，或者为第一卷积特征，或者为在对参考图像特征中的至少部分图像特征进行卷积的过程中获得的中间特征，进一步处理包括卷积。

示例性地，参考图像特征中的至少部分图像特征和至少一组对齐图像特征中每组对齐图像特征的通道数均为第一通道数，对于在执行将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合的操作时所生成的各中间特征，除初始融合特征以外的至少部分中间特征的通道数均为第二通道数，第二通道数小于第一通道数。

示例性地，对多个待处理图像进行特征提取，获得与多个待处理图像一一对应的多组初始图像特征的操作，将多组初始图像特征中的任一组初始图像特征作为参考图像特征，将除参考图像特征外的剩余组初始图像特征分别与参考图像特征进行对齐，以获得与剩余组初始图像特征一一对应的至少一组对齐图像特征的操作，将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合，获得融合图像特征的操作，以及利用融合图像特征进行图像重建，获得融合图像的操作，通过目标图像融合网络实现，目标图像融合网络通过以下方式进行训练：获取至少一组样本图像，每组样本图像包括多个样本输入图像和与多个样本输入图像对应的样本融合图像；对于至少一组样本图像中的每组样本图像，将该组样本图像中的多个样本输入图像输入初始图像融合网络，获得预测融合图像；基于至少一组样本图像中每组样本图像所对应的样本融合图像和预测融合图像之间的差异，确定初始图像融合网络的预测损失；基于预测损失对初始图像融合网络进行训练，获得目标图像融合网络。

示例性地，多个待处理图像为分别采用图像采集装置的不同焦段针对相同场景采集的图像，场景包含前景区域和背景区域，至少一组样本图像中的每组样本图像包括第一样本输入图像和第二样本输入图像，获取至少一组样本图像，包括：获取至少一组初始输入图像，至少一组初始输入图像与至少一组样本输入图像一一对应，至少一组初始输入图像中的每组初始输入图像包括第一初始输入图像和第二初始输入图像，第一初始输入图像和第二初始输入图像包含各自对应的前景区域和背景区域；对于至少一组样本图像中的每组样本图像，对该组样本图像所对应的第一初始输入图像中的前景区域和该组样本图像所对应的第二初始输入图像中的背景区域分别执行虚化操作，获得该组样本图像中的第一样本输入图像和第二样本输入图像；将该组样本图像所对应的第一初始输入图像或该组样本图像所对应的第二初始输入图像或叠加图像，确定为该组样本图像中的样本融合图像，其中，叠加图像为将该组样本图像所对应的第一初始输入图像中的前景区域和该组样本图像所对应的第二初始输入图像的背景区域叠加在一起获得的图像。

示例性地，虚化操作包括：利用具有第一标准差的高斯核对待虚化图像中的待虚化区域依次进行多次高斯模糊操作；其中，在待虚化图像为第一初始输入图像的情况下，待虚化区域为第一初始输入图像中的前景区域，最后一次高斯模糊操作的输出结果为第一样本输入图像；在待虚化图像为第二初始输入图像的情况下，待虚化区域为第二初始输入图像中的背景区域，最后一次高斯模糊操作的输出结果为第二样本输入图像；对于多次高斯模糊操作中的第一次高斯模糊操作，对应的输入信息为待虚化图像；对于多次高斯模糊操作中除第一次高斯模糊操作外的剩余高斯模糊操作，对应的输入信息为前一次高斯模糊操作的输出结果；或者，虚化操作包括：利用具有第二标准差的高斯核对待虚化图像中的待虚化区域进行高斯模糊操作；其中，在待虚化图像为第一初始输入图像的情况下，待虚化区域为第一初始输入图像中的前景区域，高斯模糊操作的输出结果为第一样本输入图像；在待虚化图像为第二初始输入图像的情况下，待虚化区域为第二初始输入图像中的背景区域，高斯模糊操作的输出结果为第二样本输入图像；至少一组样本图像的组数为多组，至少一组样本图像中包括所对应的初始输入图像彼此相同的至少两组样本图像，且在获得至少两组样本图像时所采用的高斯核的第二标准差彼此不同。

根据本申请的另一方面，还提供了一种电子设备，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行上述的图像融合方法。

根据本申请的又一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，其中，所述程序指令在运行时用于执行上述的图像融合方法。

根据本申请的再一方面，还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，其中，所述计算机程序在运行时用于执行上述的图像融合方法。

根据本申请实施例的图像融合方法、电子设备、存储介质和计算机程序产品，提取获得与多个待处理图像一一对应的多组初始图像特征，并将除参考图像特征外的剩余组初始图像特征分别与参考图像特征进行对齐，以获得与剩余组初始图像特征一一对应的至少一组对齐图像特征。这样可以保证剩余组初始图像特征均向参考图像特征对齐，以保持多个待处理图像的特征信息在空间上的一致性。进一步地，将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合，获得融合图像特征，再利用融合图像特征进行图像重建，获得融合图像。上述图像融合方案既适用于静态场景，也适用于动态场景。该方案通过特征对齐，可以保证融合过程中多个待处理图像的特征信息在空间上保持一致性，从而应对场景的运动对图像融合的不利影响。因此，将该方案应用于动态场景下的图像融合时，可以有效解决图像采集装置运动和/或场景内物体运动等问题导致的图像融合效果不好的问题，使得获得的融合图像的质量更高。例如，在将该方案应用于多对焦图像融合时，可以使得动态场景所对应的融合图像更加清晰。而将该方案应用于静态场景，同样可以获得高质量的融合图像。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本申请实施例的图像融合方法和装置的示例电子设备的示意性框图；

图2示出根据本申请一个实施例的图像融合方法的示意性流程图；

图3示出根据本申请一个实施例的图像融合模型的示意图；

图4示出根据本申请一个实施例的子空间融合注意力子模块的示意图；

图5示出根据本申请一个实施例的图像融合装置的示意性框图；以及

图6示出根据本申请一个实施例的电子设备的示意性框图。

具体实施方式

近年来，基于人工智能的计算机视觉、深度学习、机器学习、图像处理、图像识别等技术研究取得了重要进展。人工智能(Artificial Intelligence，AI)是研究、开发用于模拟、延伸人的智能的理论、方法、技术及应用系统的新兴科学技术。人工智能学科是一门综合性学科，涉及芯片、大数据、云计算、物联网、分布式存储、深度学习、机器学习、神经网络等诸多技术种类。计算机视觉作为人工智能的一个重要分支，具体是让机器识别世界，计算机视觉技术通常包括人脸识别、图像处理、指纹识别与防伪验证、生物特征识别、人脸检测、行人检测、目标检测、行人识别、图像处理、图像识别、图像语义理解、图像检索、文字识别、视频处理、视频内容识别、三维重建、虚拟现实、增强现实、同步定位与地图构建(SLAM)、计算摄影、机器人导航与定位等技术。随着人工智能技术的研究和进步，该项技术在众多领域展开了应用，例如城市管理、交通管理、楼宇管理、园区管理、人脸通行、人脸考勤、物流管理、仓储管理、机器人、智能营销、计算摄影、手机影像、云服务、智能家居、穿戴设备、无人驾驶、自动驾驶、智能医疗、人脸支付、人脸解锁、指纹解锁、人证核验、智慧屏、智能电视、摄像机、移动互联网、网络直播、美颜、美妆、医疗美容、智能测温等领域。

为了使得本申请的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。基于本申请中描述的本申请实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本申请的保护范围之内。

本申请实施例提供了一种图像融合方法、电子设备、存储介质及计算机程序产品。根据本申请实施例的图像融合方法，可以对多个待处理图像进行特征提取、特征对齐、特征融合以及图像重建，进而获得融合图像。该融合方案既可以适用于静态场景，也可以适用于动态场景，且当其应用于动态场景时，可以有效解决场景运动造成的图像融合效果不好的问题，可以获得高质量的融合图像。需注意，本文虽然主要以多对焦图像融合领域存在的技术问题为例描述了图像融合中存在的技术问题，但是本申请并不局限于该应用场景。示例性地，根据本申请实施例的图像融合技术可以应用于任何涉及图像融合的场景，包括但不限于：多对焦图像融合、多曝光图像融合、红外图像融合、医疗图像融合、卫星图像融合等。

首先，参照图1来描述用于实现根据本申请实施例的图像融合方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104。可选地，电子设备100还可以包括输入装置106、输出装置108、以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、微处理器中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图像处理器(GPU)、专用的集成电路(ASIC)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本申请实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。可选地，所述输入装置106和所述输出装置108可以集成在一起，采用同一交互装置(例如触摸屏)实现。

所述图像采集装置110可以采集图像，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是单独的相机或移动终端中的摄像头等。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他具有图像采集能力的器件采集图像，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本申请实施例的图像融合方法和装置的示例电子设备可以在诸如个人计算机、终端设备、考勤机、面板机、相机或远程服务器等的设备上实现。其中，终端设备包括但不限于：平板电脑、手机、PDA(Personal DigitalAssistant，个人数字助理)、可触屏一体机、可穿戴设备等。

下面，将参考图2描述根据本申请实施例的图像融合方法。图2示出根据本申请一个实施例的图像融合方法200的示意性流程图。如图2所示，图像融合方法200包括以下步骤S210、S220、S230、S240和S250。

步骤S210，获取多个待处理图像。

待处理图像可以是任意图像。示例性地，待处理图像可以是包含任意目标对象的图像，例如风景图像、人物图像或道路图像等。目标对象可以是任意物体，包括但不限于车辆、人或人体的一部分(例如人脸)、动物、建筑物等。在本申请一个或一些实施例中，待处理图像可以是人物图像，其可以是由设置在诸如移动设备、道路或建筑等物体上的图像采集装置采集获得的人物图像。待处理图像可以是图像采集装置(例如上述图像采集装置110)采集的原始图像，或者对图像采集装置采集的原始图像进行预处理之后获得的图像。预处理可以包括归一化、缩放、平滑等处理。预处理还可以包括从图像采集装置采集的原始图像中提取包含目标对象的部分图像区域进而获得待处理图像的操作。

在本文的描述中，将目标对象视为前景，将目标对象以外的部分视为背景。本文描述的每个图像可以是图像采集装置针对任一场景采集获得的图像，或基于图像采集装置针对任一场景采集获得的图像进行上述预处理获得的图像。总之，本文描述的每个图像均可以包含场景，场景可以包括前景区域和/或背景区域，比较可取的是同时包含前景区域和背景区域。前景区域即前景所在的区域，背景区域即背景所在的区域。多个待处理图像包含的场景可以属于静态场景，即多个待处理图像包含的场景不存在运动。多个待处理图像包含的场景也可以属于动态场景，即多个待处理图像包含的场景存在一定的运动。也就是说，多个待处理图像可以是在静态场景下采集获得的多个图像，也可以是在动态场景下采集获得的多个图像。在一个实施例中，多个待处理图像可以是从针对动态场景采集的同一视频中选择的多个视频帧。例如，可以从该视频中按顺序或者随机选择任意多帧视频帧分别作为待处理图像。例如，可以选择该视频的第1帧视频帧、第4帧视频帧和第6帧视频帧分别作为待处理图像，也可以选择该视频的第1帧视频帧和第2帧视频帧分别作为待处理图像。待处理图像的数目为至少两个，该数目具体可以根据需要设定。为了便于描述和理解，下面主要以多个待处理图像的数目等于2为例进行描述。例如，可以获取待处理图像X₁和待处理图像X₂，待处理图像X₁可以为视频的第1帧视频帧，待处理图像X₂可以为视频的第2帧视频帧。

待处理图像可以来自外部设备，由外部设备传送到电子设备100进行图像处理。此外，待处理图像也可以由电子设备100自身进行采集获得。例如，电子设备100可以利用图像采集装置110(例如移动设备中的摄像头)采集待处理图像。图像采集装置110可以将采集到的待处理图像传送到处理器102，由处理器102进行图像处理。

示例性地，本文描述的图像融合方法200可以主要通过图像融合网络实现。图3示出了根据本申请一个实施例的图像融合网络的示意图。如图3所示，该图像融合网络包括特征对齐模块、特征融合模块和图像重建模块。该图像融合网络可以用于执行以下步骤S220至步骤S250。

步骤S220，对多个待处理图像进行特征提取，获得与多个待处理图像一一对应的多组初始图像特征。

对于每个待处理图像，可以通过特征提取获取该待处理图像所对应的一组初始图像特征。例如，对于待处理图像X₁，可以将其对应的初始图像特征用三维张量，例如表示为其中，H₀、W₀和C₀分别表示待处理图像X₁对应的高、宽以及通道数。例如，在待处理图像X₁是RGB图像的情况下，通道数C₀可以是3。同理地，待处理图像X₂也可以表示为/>可以将待处理图像X₁输入特征对齐模块(Feature Aligment Module)中的特征提取子模块，通过特征提取子模块对待处理图像X₁进行特征提取，以获得待处理图像X₁对应的初始图像特征M₁，其可以表示为M₁∈R^H×W×C。其中H、W和C分别表示初始图像特征M₁的高、宽和通道数。可以理解，初始图像特征M₁可以视为C个特征图(feature map)，每个特征图的高度为H，宽度为W。通过类似的方式，可以获得待处理图像X₂对应的初始图像特征M₂，M₂∈R^H×W×C。示例性而非限制性地，特征提取子模块可以采用卷积神经网络骨干(Convolutional Neural Networks Backbone，CNN backbone)实现。

可选地，每组初始图像特征可以是单尺度(即单分辨率)特征，也可以是多尺度(即多分辨率)特征。例如，特征提取子模块可以是金字塔特征提取子模块，即可以采用多层特征提取单元针对每个待处理图像进行特征提取，不同层特征提取单元提取的特征的分辨率不同(即特征的高和/或宽不同)，由此获得金字塔型的初始图像特征。金字塔型的初始图像特征可以参见图3。可以理解，在每组初始图像特征为多尺度特征的情况下，其可以按通道分为多个子组。例如，可以将初始图像特征分为n个子组，每个子组包含C个通道中的至少一个通道所对应的特征图，n≥2。其中，每个子组内的特征图的分辨率是相同的，不同子组的特征图的分辨率彼此是不同的。例如，假设初始图像特征共包含10个通道，10个通道的特征图共具有5种不同分辨率，每种分辨率对应于两个特征图，则可以将初始图像特征分为5个子组。

步骤S230，将多组初始图像特征中的任一组初始图像特征作为参考图像特征，将除参考图像特征外的剩余组初始图像特征分别与参考图像特征进行对齐，以获得与剩余组初始图像特征一一对应的至少一组对齐图像特征。

示例性地，步骤S230可以通过特征对齐模块中的对齐子模块实现，在对齐子模块中执行以下操作。可以从多个待处理图像中选取其中之一作为参考图像，以参考图像所对应的初始图像特征(称为参考图像特征)为基准，将其他待处理图像所对应的初始图像特征与该参考图像特征对齐。即，可以将多组初始图像特征(例如初始图像特征M₁和初始图像特征M₂)中的任一组初始图像特征作为参考图像特征。例如，可以将初始图像特征M₁作为参考图像特征。在一个实施例中，如果多个待处理图像为从同一视频中获取的图像，那么可以选择第1帧视频帧为参考图像，即将基于第1帧视频帧获取的一组初始图像特征作为参考图像特征。这样可以使得除参考图像特征外的剩余组初始图像特征向第1帧视频帧所对应的一组初始图像特征对齐。示例性而非限制性地，如果多组初始图像特征中的每组初始图像特征为单尺度图像特征，那么可以利用深度交叉网络(Deep&Cross Network,DCN)将任一组初始图像特征(例如初始图像特征M₂)与参考图像特征(例如初始图像特征M₁)进行对齐；如果多组初始图像特征中的每组初始图像特征为多尺度图像特征，那么可以利用可变形对齐网络(DeformableAlign Network,DANet)将任一组初始图像特征(例如初始图像特征M₂)与参考图像特征(例如初始图像特征M₁)进行对齐。由此，可以获得与剩余的每组初始图像特征(例如初始图像特征M₂)对应的一组对齐图像特征M₂′。

步骤S240，将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合，获得融合图像特征。

示例性地，步骤S240可以通过特征融合模块(Feature Fusion Module)实现。在特征融合时，可以将参考图像特征中的部分或全部图像特征与至少一组对齐图像特征进行融合，获得融合图像特征。参考图像特征中的至少部分图像特征可以用M₁′表示。示例性地，如果参考图像特征为单尺度图像特征，那么可以将参考图像特征M₁(此时M₁′等于M₁)与对齐图像特征M₂′进行融合，获得融合图像特征F′。如果参考图像特征为多尺度图像特征，那么可以选择其中的部分图像特征M₁′与对齐图像特征M₂′进行融合，获得融合图像特征F′。例如，可以将参考图像特征中分辨率最大的子组内的图像特征作为本实施例中的部分图像特征M₁′。

步骤S250，利用融合图像特征进行图像重建，获得融合图像。

示例性地，可以利用图像重建模块对融合图像特征F′进行图像重建，以获得融合图像X′。在一个实施例中，图像重建模块可以包括一个或多个卷积子模块。融合图像X′可以是与待处理图像X₁和待处理图像X₂对应的融合图像。示例性而非限制性地，参照图3，图像重建模块可以包括两个残差子模块和一个卷积子模块。残差子模块可以是残差卷积子模块，其可以包括依次连接的多个卷积单元，每个卷积单元包括诸如一层3×3大小的卷积层和一层激活函数层。激活函数层可以是诸如LeakyRelu函数层。此外，第一个卷积单元的输入特征可以通过1×1的卷积跳跃连接(shortcut)至最后一个卷积单元的输出位置处，在该处将第一个卷积单元的输入特征与最后一个卷积单元的输出特征进行特征叠加，获得整个残差子模块的输出。可选地，图像重建模块中的最后一个卷积子模块可以是诸如Conv2d卷积子模块，其主要用于将特征重新卷积回原始图像大小，即卷积获得融合图像，使得融合图像与待处理图像具有相同的高度、宽度和通道数。经过图像重建模块获得的融合图像X′可以表示为即融合图像X′与多个待处理图像中的各待处理图像大小相同。

根据本申请实施例的图像融合方法，提取获得与多个待处理图像一一对应的多组初始图像特征，并将除参考图像特征外的剩余组初始图像特征分别与参考图像特征进行对齐，以获得与剩余组初始图像特征一一对应的至少一组对齐图像特征。这样可以保证剩余组初始图像特征均向参考图像特征对齐，以保持多个待处理图像的特征信息在空间上的一致性。进一步地，将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合，获得融合图像特征，再利用融合图像特征进行图像重建，获得融合图像。上述图像融合方案既适用于静态场景，也适用于动态场景。该方案通过特征对齐，可以保证融合过程中多个待处理图像的特征信息在空间上保持一致性，从而应对场景的运动对图像融合的不利影响。因此，将该方案应用于动态场景下的图像融合时，可以有效解决图像采集装置运动和/或场景内物体运动等问题导致的图像融合效果不好的问题，使得获得的融合图像的质量更高。例如，在将该方案应用于多对焦图像融合时，可以使得动态场景所对应的融合图像更加清晰。而将该方案应用于静态场景，同样可以获得高质量的融合图像。

示例性地，根据本申请实施例的图像融合方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本申请实施例的图像融合方法可以部署在图像采集端处，例如，可以部署在具有图像采集功能的个人终端或服务器端处。

替代地，根据本申请实施例的图像融合方法还可以分布地部署在服务器端(或云端)和个人终端处。例如，可以在客户端获取待处理图像，客户端将获取的待处理图像传送给服务器端(或云端)，由服务器端(或云端)进行图像融合。

示例性地，将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合，获得融合图像特征，可以包括：基于参考图像特征中的至少部分图像特征以及至少一组对齐图像特征进行特征拼接或特征相加，获得初始融合特征；基于目标图像特征以及初始融合特征进行子空间投影，获得融合图像特征，其中，目标图像特征为参考图像特征中的至少部分图像特征，或者为对参考图像特征中的至少部分图像特征进行进一步处理获得的特征。

如上所述，在一个实施例中，上述步骤S240可以通过特征融合模块实现。在特征融合模块中，可以基于参考图像特征中的至少部分图像特征以及至少一组对齐图像特征进行特征拼接(concat)或者特征相加(add)。特征拼接可以是在通道上进行拼接，特征相加可以是逐元素求和。在一个实施例中，可以直接对参考图像特征中的至少部分图像特征以及至少一组对齐图像特征进行特征拼接或者特征相加。在另一个实施例中，可以对参考图像特征中的至少部分图像特征以及至少一组对齐图像特征进行进一步处理之后，对进一步处理获得的特征进行特征拼接或者特征相加。示例性地，上述进一步处理可以包括卷积、池化等。通过卷积之类的处理，可以例如减少参考图像特征中的至少部分图像特征以及至少一组对齐图像特征的通道数，以便于减少计算量等。下面以直接对参考图像特征中的至少部分图像特征以及至少一组对齐图像特征进行特征拼接或者特征相加的方案为例进行说明。

假设参考图像特征中的至少部分图像特征以及每组对齐图像特征的通道数为C，且对齐图像特征的组数为n，则通过特征拼接获得的初始融合特征的通道数可以是(n+1)×C，即特征拼接可以使得特征的通道数增加。通过特征相加获得的初始融合特征的通道数则仍然是C，即特征相加并不会使得特征的通道数增加，而是使得每个通道下的特征包含的信息量增多。示例性而非限制性地，特征拼接可以是逐通道拼接(Per Channel Concat)，也可以是直接拼接。在本申请实施例中，可以利用逐通道拼接子模块获得初始融合特征。例如，假设参考图像特征中的至少部分图像特征的通道按顺序编号为11,12,13…,1C，且对齐图像特征的通道按顺序编号为21,22,23…,2C，则初始融合特征的通道可以依次为：11,21,12,22,13,23,…,1C,2C。如果对齐图像特征为多组，例如，还存在另一组对齐图像特征，其通道按顺序编号为31,32,33…,3C，则初始融合特征的通道可以依次为：11,21,31,12,22,32,13,23,33,…,1C,2C,3C。直接拼接就是直接将两组特征的通道首尾相邻地拼接在一起。沿用上述示例，在参考图像特征中的至少部分图像特征的通道按顺序编号为11,12,13…,1C，且对齐图像特征的通道按顺序编号为21,22,23…,2C的情况下，通过直接拼接获得的初始融合特征的通道可以为11,12,13…,1C,21,22,23…,2C。

基于获得的初始融合特征和目标图像特征，可以进行子空间投影，获得融合图像特征。示例性地，目标图像特征可以是参考图像特征中参与特征拼接或特征相加的那部分图像特征，其可以是参考图像特征中的全部图像特征或者部分图像特征。又例如，目标图像特征还可以是对参考图像特征中参与特征拼接或特征相加的那部分图像特征进行进一步处理后获得的特征。进一步处理可以包括对参考图像特征中参与特征拼接或特征相加的那部分图像特征进行卷积等任意处理方式。

根据上述技术方案，将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行特征拼接或特征相加获得的初始融合特征，可以同时包含各待处理图像的特征信息。基于初始融合特征和目标图像特征进行子空间投影，获得融合图像特征。由此，融合图像特征中包含的特征信息较为全面、准确，特征的融合效果比较好，可以提高所获取的融合图像的准确性。

在一个或多个实施例中，特征融合模块可以可选地包括一个或多个第一卷积子模块。通过每个第一卷积子模块可以执行一次卷积。通过一个第一卷积子模块可以对参考图像特征中的至少部分图像特征M₁′执行一次卷积，以获得第一卷积特征Q₁。通过多个第一卷积子模块可以对参考图像特征中的至少部分图像特征M₁′迭代地执行多次卷积，以获得第一卷积特征Q₁。类似地，特征融合模块可以可选地包括与每组对齐图像特征分别对应的一个或多个第二卷积子模块。通过每个第二卷积子模块可以执行一次卷积。通过一个第二卷积子模块可以对与当前第二卷积子模块对应的对齐图像特征M₂′执行一次卷积，以获得第二卷积特征Q₂。通过多个第二卷积子模块可以对与当前第二卷积子模块对应的对齐图像特征M₂′迭代地执行多次卷积，以获得第二卷积特征Q₂。可选地，第一卷积子模块和/或第二卷积子模块可以没有，即可以直接对参考图像特征中的至少部分图像特征M₁′与对齐图像特征M₂′进行拼接。

示例性地，如图3所示，特征融合模块可以包括子空间融合注意力(SubspaceFusionAttention,SFA)子模块。上述第一卷积子模块可以全部位于SFA子模块之外，也可以部分包含在SFA子模块之内，还可以全部包含在SFA子模块之内。第二卷积子模块也是类似的。图4示出了根据本申请一个实施例的SFA子模块的示意图。图3和图4示出了第一卷积子模块和第二卷积子模块部分位于SFA子模块之内的实施例。如图3和图4所示，可以对参考图像特征中的至少部分图像特征M₁′和对齐图像特征M₂′分别进行卷积，获得中间特征F₁和F₂。随后，可以在SFA子模块再次对中间特征F₁和F₂进行卷积，获得第一卷积特征Q₁和第二卷积特征Q₂。示例性地，F₁与M₁′的维度可以一致，例如可以表示为F₁∈R^H×W×C。F₂与M₂′的维度可以一致，例如可以表示为F₂∈R^H×W×C。Q₁可以表示为Q₁∈R^H×W×K。其中H、W和K分别表示第一卷积特征Q₁的高、宽和通道数。类似地，Q₂可以表示为Q₂∈R^H×W×K。K与C可以相等，也可以不等。如果对齐图像特征为多组，那么可以将每组对齐图像特征分别进行卷积获得每组对齐图像特征对应的一组第二卷积特征。

随后，可以将第一卷积特征和至少一组第二卷积特征在通道上进行拼接或者逐元素求和。示例性而非限制性地，可以利用逐通道拼接子模块将第一卷积特征Q₁和第二卷积特征Q₂的通道交叉式拼接在一起，获得初始融合特征P，P∈R^H×W×2K。其中H、W和2K分别表示初始融合特征P的高、宽和通道数。特征拼接的方式在前文实施例中已经进行了详细地描述，为了简洁，在此不再赘述。

对获得的初始融合特征P进行卷积，可以获得第三卷积特征Q₃，Q₃∈R^H×W×K。在一个实施例中，可以利用K组卷积核对初始融合特征P一一对应地卷积K次，即每次采用一组卷积核卷积，分开卷积K次，由此获得具有K个通道的第三卷积特征Q₃。替代地，可以将初始融合特征P中每两个相邻的通道利用一组卷积核进行卷积，通过K组卷积核分别卷积初始融合特征P中K对相邻通道的特征图，获得第三卷积特征Q₃。将第三卷积特征Q3展平，可以获得子空间基地向量V，V∈R^HW×K。示例性地，在基于参考图像特征中的至少部分图像特征以及至少一组对齐图像特征进行特征相加的实施例中，可以省略对初始融合特征进行卷积获得第三卷积特征的操作，即可以直接将初始融合特征展平，获得子空间基底向量。示例性地，可以通过诸如正交线性投影将目标图像特征投影到子空间基底向量V所对应的子空间，获得融合图像特征F′。目标图像特征可以为参考图像特征中的至少部分图像特征M₁′，第一卷积特征Q1，或者中间特征F₁。在本申请实施例中，目标图像特征可以是中间特征F₁。获得融合图像特征F′的公式可以表示为：F′＝P*F₁，其中，P＝V(V^T*V)^-1*V^T，表示正交线性投影矩阵，V^T表示子空间基底向量V的转置。

根据上述技术方案，对参考图像特征中的至少部分图像特征和每组对齐图像特征进行卷积，以及对初始融合特征进行卷积，可以更好地提取更深层次的特征信息。此外，通过卷积，可以利用不同大小的卷积核调整被卷积的特征的大小，以满足不同的应用场景的需求。

在一个实施例中，参考图像特征中的至少部分图像特征和至少一组对齐图像特征中每组对齐图像特征的通道数均为第一通道数C，对于在执行将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合的操作时所生成的各中间特征，除初始融合特征以外的至少部分中间特征均为第二通道数K。例如，第一卷积特征的通道数和至少一组第二卷积特征中每组第二卷积特征的通道数均为第二通道数K。初始融合特征的通道数可以为2K。第二通道数K可以小于第一通道数C。例如，如果第一通道数C等于32，那么第二通道数K可以等于2、8、16等任意小于32的数值。

由于特征融合是低秩的，冗余的特征会增加特征融合的负担。因此，通过将各待处理图像的特征的通道数由第一通道数缩减为第二通道数，可以控制特征的冗余度，进而保证主要对有效的特征进行融合，大大降低计算的复杂度和工作量。

示例性地，第二通道数等于16。

在一个实施例中，第二通道数K可以等于16，由此，可以在减小特征融合的数据量的基础上保证对有效的特征进行融合，以提高获得的融合特征的准确性。经实验，第二通道数K等于16可以获得较好的融合效果，其普适性强，可以适用于非常多的应用场景。第二通道数K可以作为图像融合网络的超参数进行设定。

示例性地，对多个待处理图像进行特征提取，获得与多个待处理图像一一对应的多组初始图像特征的操作，将多组初始图像特征中的任一组初始图像特征作为参考图像特征，将除参考图像特征外的剩余组初始图像特征分别与参考图像特征进行对齐，以获得与剩余组初始图像特征一一对应的至少一组对齐图像特征的操作，将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合，获得融合图像特征的操作，以及利用融合图像特征进行图像重建，获得融合图像的操作，通过目标图像融合网络实现。示例性地，目标图像融合网络通过以下方式进行训练：获取至少一组样本图像，每组样本图像包括多个样本输入图像和与多个样本输入图像对应的样本融合图像；对于至少一组样本图像中的每组样本图像，将该组样本图像中的多个样本输入图像输入初始图像融合网络，获得预测融合图像；基于至少一组样本图像中每组样本图像所对应的样本融合图像和预测融合图像之间的差异，确定初始图像融合网络的预测损失；基于预测损失对初始图像融合网络进行训练，获得目标图像融合网络。

在一个实施例中，前文所述的步骤S220至步骤S250可以通过目标图像融合网络实现。目标图像融合网络和下述初始图像融合网络均属于本文描述的图像融合网络，二者的网络结构是一致的，只是参数(包括权重和/或偏置等)的大小可以不同。目标图像融合网络可以通过以下方式进行训练获得。至少一组样本图像的获取方式与步骤S210中获取多个待处理图像的方式类似，为了简洁，在此不再赘述。

至少一组样本图像中的每组样本图像中可以包括多个样本输入图像和与多个样本输入图像对应的样本融合图像。可选地，可以将多个样本输入图像中的任一样本输入图像作为样本融合图像。对于至少一组样本图像中的每组样本图像，将该组样本图像中的多个样本输入图像输入初始图像融合网络，可以获得预测融合图像。可以理解，在初始图像融合网络中，可以采用与上述步骤S220至S250一致的方式对每组样本输入图像进行处理。每组样本输入图像中包含的样本输入图像的数目与待处理图像的数目一致。

可以将至少一组样本图像中每组样本图像所对应的样本融合图像和预测融合图像代入预设损失函数中进行损失计算，获得预测损失。预设损失函数可以是KL散度损失函数、交叉熵损失函数等任意损失函数，本申请对此不做限制。随后可以根据预测损失，利用反向传播和梯度下降算法对初始图像融合网络中的参数进行优化。利用反向传播和梯度下降算法进行参数优化的步骤完成之后，至少一组样本图像可以属于同一批样本图像，针对当前至少一组样本图像的迭代优化操作完成，可以执行针对下一批样本图像的迭代优化操作。迭代优化操作可以反复执行直至初始图像融合网络达到收敛状态，从而获得目标图像融合网络。当训练结束后，所获得的目标图像融合网络即可用于后续的图像融合。

根据上述技术方案，通过获取至少一组样本图像，对于至少一组样本图像中的每组样本图像中的多个样本输入图像输入初始图像融合网络，可以获得预测融合图像。然后基于该组样本图像所对应的样本融合图像和预测融合图像计算预测损失，并基于预测损失对初始图像融合网络进行训练，进而获得目标图像融合网络。该方案为有监督训练方案，训练效率高，且获得的目标图像融合网络的图像融合效果较好。

示例性地，多个待处理图像为分别采用图像采集装置的不同焦段针对相同场景采集的图像，场景包含前景区域和背景区域，至少一组样本图像中的每组样本图像包括第一样本输入图像和第二样本输入图像，示例性地，获取至少一组样本图像，可以包括：获取至少一组初始输入图像，至少一组初始输入图像与至少一组样本输入图像一一对应，至少一组初始输入图像中的每组初始输入图像包括第一初始输入图像和第二初始输入图像，第一初始输入图像和第二初始输入图像包含各自对应的前景区域和背景区域；对于至少一组样本图像中的每组样本图像，对该组样本图像所对应的第一初始输入图像中的前景区域和该组样本图像所对应的第二初始输入图像中的背景区域分别执行虚化操作，获得该组样本图像中的第一样本输入图像和第二样本输入图像；将该组样本图像所对应的第一初始输入图像或该组样本图像所对应的第二初始输入图像或叠加图像，确定为该组样本图像中的样本融合图像，其中，叠加图像为将该组样本图像所对应的第一初始输入图像中的前景区域和该组样本图像所对应的第二初始输入图像的背景区域叠加在一起获得的图像。

在一个实施例中，前文描述的多个待处理图像可以为分别采用图像采集装置的不同焦段针对相同场景采集的图像，场景可以包含前景区域和背景区域。例如，多个待处理图像可以均为人物照，人所属的区域可以表示前景区域，除人所属区域外的剩余区域可以表示背景区域。示例性地，多个待处理图像可以包括近焦图像和远焦图像两种，近焦图像为焦点定位到前景的图像，远焦图像为焦点定位到背景的图像。当然，多个待处理图像还可以包括在超过两个焦段下采集的图像，即可以将图像采集装置的焦段进行更细致的划分，本文不一一赘述。

在多对焦图像融合领域，动态场景下的训练数据是没有的，本申请提出一种合成这类训练数据的方法，以用于训练更好地适用于动态场景下的多对焦图像融合的图像融合网络。前文实施例中的至少一组样本图像中的每组样本图像可以包括第一样本输入图像和第二样本输入图像。下面描述获取每组样本图像中的第一样本输入图像和第二样本输入图像的方式。

在本申请实施例中，可以通过任意图像数据集，例如视频分割数据集，获取至少一组初始输入图像。视频分割数据集中包含目标对象的掩模信息(mask)，因此可以较为方便地获知前景区域和背景区域的位置。示例性地，可以选择视频分割数据集中任意两帧视频帧作为一组初始输入图像。示例性地，任意两组初始输入图像中的第一初始输入图像和第二初始输入图像可以完全相同，也可以不完全相同。例如，可以选择该视频分割数据集中第1帧视频帧和第3帧视频帧分别作为第一组初始输入图像中的第一初始输入图像和第二初始输入图像，并可以选择该视频分割数据集中第1帧视频帧和第5帧视频帧分别作为第二组初始输入图像中的第一初始输入图像和第二初始输入图像。第一初始输入图像和第二初始输入图像中均包含各自对应的前景区域和背景区域。

对于至少一组样本图像中的每组样本图像，可以利用高斯模糊、椒盐模糊或运动模糊等任意方式对该组样本图像所对应的第一初始输入图像中的前景区域和第二初始输入图像中的背景区域分别执行虚化操作，获得该组样本图像中的第一样本输入图像和第二样本输入图像。

示例性地，可以将该组样本图像所对应的第一初始输入图像或该组样本图像所对应的第二初始输入图像，确定为该组样本图像中的样本融合图像。也可以将该组样本图像所对应的第一初始输入图像中的前景区域中各个像素的像素值赋值到该组样本图像所对应的第二初始输入图像的前景区域中的对应位置，或者将该组样本图像所对应的第二初始输入图像中的背景区域中各个像素的像素值赋值到该组样本图像所对应的第一初始输入图像的背景区域中的对应位置，以获得叠加图像，将叠加图像确定为该组样本图像中的样本融合图像。比较可取的是，将该组样本图像所对应的一组初始输入图像中用作参考图像的初始输入图像作为样本融合图像。

根据上述技术方案，对每组样本图像所对应的第一初始输入图像中的前景区域和第二初始输入图像中的背景区域分别执行虚化操作，获得该组样本图像中的第一样本输入图像和第二样本输入图像。这样，无需其他复杂操作就可以自动模拟获得不同焦段下采集的样本输入图像，这种方案实现简单，效率较高。

示例性地，虚化操作可以包括：利用具有第一标准差的高斯核对待虚化图像中的待虚化区域依次进行多次高斯模糊操作；其中，在待虚化图像为第一初始输入图像的情况下，待虚化区域为第一初始输入图像中的前景区域，最后一次高斯模糊操作的输出结果为第一样本输入图像；在待虚化图像为第二初始输入图像的情况下，待虚化区域为第二初始输入图像中的背景区域，最后一次高斯模糊操作的输出结果为第二样本输入图像；对于多次高斯模糊操作中的第一次高斯模糊操作，对应的输入信息为待虚化图像；对于多次高斯模糊操作中除第一次高斯模糊操作外的剩余高斯模糊操作，对应的输入信息为前一次高斯模糊操作的输出结果。

在一个实施例中，可以利用具有第一标准差的高斯核对待虚化图像中的待虚化区域依次进行多次高斯模糊操作。当待虚化图像为第一初始输入图像时，待虚化区域可以是第一初始输入图像中的前景区域。多次高斯模糊操作中的最后一次高斯模糊操作的输出结果可以作为第一样本输入图像。当待虚化图像为第二初始输入图像时，待虚化区域为第二初始输入图像中的背景区域。多次高斯模糊操作中的最后一次高斯模糊操作的输出结果可以作为第二样本输入图像。任意两组初始输入图像可以利用具有相同或不同第一标准差的高斯核对各自对应的待虚化图像中的待虚化区域依次进行多次高斯模糊操作。此外，对于同一组初始输入图像，任意两次高斯模糊操作所对应的第一标准差也可以相同或不同。沿用前文实施例，选择视频分割数据集中第1帧视频帧和第3帧视频帧分别作为第一组初始输入图像中的第一初始输入图像和第二初始输入图像。此时若第1帧视频帧为第一初始输入图像时，第3帧视频帧则为第二初始输入图像，反之若第3帧视频帧为第一初始输入图像时，第1帧视频帧则为第二初始输入图像。对于多次高斯模糊操作中的第一次高斯模糊操作，对应的输入信息为待虚化图像。即第一次高斯模糊操作的输入信息为第一初始输入图像或第二初始输入图像，但仅针对第一初始输入图像的前景区域或第二初始输入图像的背景区域进行高斯模糊。对于多次高斯模糊操作中除第一次高斯模糊操作外的剩余高斯模糊操作，对应的输入信息为前一次高斯模糊操作的输出结果。例如，可以对视频分割数据集中的第1帧视频帧中的前景区域迭代进行5次高斯模糊操作，并可以对视频分割数据集中的第3帧视频帧中的背景区域迭代进行5次高斯模糊操作，第1帧视频帧中的前景区域所对应的5次高斯模糊操作和第3帧视频帧中的背景区域所对应的5次高斯模糊操作是一一对应的，且彼此对应的高斯模糊操作采用的标准差相等。在一个实施例中，第1帧视频帧中的前景区域所对应的5次高斯模糊操作各自采用的标准差相等，且第2帧视频帧中的背景区域所对应的5次高斯模糊操作各自采用的标准差相等。

根据上述技术方案，利用具有第一标准差的高斯核对待虚化图像中的待虚化区域依次进行多次高斯模糊操作，进而获得第一样本图像和第二样本图像。该方案可以利用具有第一标准差的高斯核迭代地对图像进行模糊处理，所获得的图像模糊效果较好，能够较为准确地模拟复杂虚化场景。

示例性地，虚化操作可以包括：利用具有第二标准差的高斯核对待虚化图像中的待虚化区域进行高斯模糊操作；其中，在待虚化图像为第一初始输入图像的情况下，待虚化区域为第一初始输入图像中的前景区域，高斯模糊操作的输出结果为第一样本输入图像；在待虚化图像为第二初始输入图像的情况下，待虚化区域为第二初始输入图像中的背景区域，高斯模糊操作的输出结果为第二样本输入图像；至少一组样本图像的组数为多组，至少一组样本图像中包括所对应的初始输入图像彼此相同的至少两组样本图像，且在获得至少两组样本图像时所采用的高斯核的第二标准差彼此不同。

在一个实施例中，至少一组样本图像的组数可以为多组，例如样本图像的组数可以是10组。10组样本图像中可以包括所对应的初始输入图像彼此相同的至少两组样本图像。例如，在10组样本图像中可以包括5组所对应的初始输入图像彼此相同的样本图像。也就是说，这5组样本图像可以均来源自相同的初始输入图像，例如均来源自视频分割数据集中的第1帧视频帧和第3帧视频帧。对于第1帧视频帧和第3帧视频帧，可以利用5个具有不同第二标准差的高斯核对各自的待虚化区域进行高斯模糊操作。例如，利用具有第一个第二标准差的高斯核对第1帧视频帧的前景区域和第3帧视频帧的背景区域分别进行高斯模糊操作，获得第一组样本图像；利用具有第二个第二标准差的高斯核对第1帧视频帧的前景区域和第3帧视频帧的背景区域分别进行高斯模糊操作，获得第二组样本图像；以此类推。

根据上述技术方案，采用具有不同标准差的高斯核对相同的初始输入图像进行高斯模糊来获得至少两组样本图像。该方案可以快速地对图像进行模糊处理，所需要的数据量少，计算效率高。

根据本申请另一方面，提供一种图像融合装置。图5示出了根据本申请一个实施例的图像融合装置500的示意性框图。

如图5所示，根据本申请实施例的图像融合装置500包括获取模块510、提取模块520、对齐模块530、融合模块540和重建模块550。各个模块可分别执行上文中图2描述的图像融合方法的各个步骤。以下仅对该图像融合装置500的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

获取模块510获取多个待处理图像。获取模块510可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

提取模块520用于对多个待处理图像进行特征提取，获得与多个待处理图像一一对应的多组初始图像特征。提取模块520可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

对齐模块530用于将多组初始图像特征中的任一组初始图像特征作为参考图像特征，将除参考图像特征外的剩余组初始图像特征分别与参考图像特征进行对齐，以获得与剩余组初始图像特征一一对应的至少一组对齐图像特征。对齐模块530可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

融合模块540用于将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合，获得融合图像特征。融合模块540可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

重建模块550用于利用融合图像特征进行图像重建，获得融合图像。重建模块550可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

图6示出了根据本申请一个实施例的电子设备600的示意性框图。电子设备600包括存储器610和处理器620。

存储器610存储用于实现根据本申请实施例的图像融合方法中的相应步骤的计算机程序指令。

处理器620用于运行存储器610中存储的计算机程序指令，以执行根据本申请实施例的图像融合方法的相应步骤。

在一个实施例中，计算机程序指令被处理器620运行时用于执行以下步骤：获取多个待处理图像；对多个待处理图像进行特征提取，获得与多个待处理图像一一对应的多组初始图像特征；将多组初始图像特征中的任一组初始图像特征作为参考图像特征，将除参考图像特征外的剩余组初始图像特征分别与参考图像特征进行对齐，以获得与剩余组初始图像特征一一对应的至少一组对齐图像特征；将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合，获得融合图像特征；利用融合图像特征进行图像重建，获得融合图像。

示例性地，电子设备600还可以包括图像采集装置630。图像采集装置630用于采集待处理图像。图像采集装置630是可选的，电子设备600也可以不包括图像采集装置630。此时处理器620可以通过其他方式获取待处理图像，例如从外部设备或从存储器610中获取待处理图像。

此外，根据本申请实施例，还提供了一种存储介质，在存储介质上存储了程序指令，在程序指令被计算机或处理器运行时用于执行本申请实施例的图像融合方法的相应步骤，并且用于实现根据本申请实施例的图像融合装置中的相应模块。存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本申请实施例的图像融合装置的各个功能模块，并和/或者可以执行根据本申请实施例的图像融合方法。

在一个实施例中，程序指令在运行时用于执行以下步骤：获取多个待处理图像；对多个待处理图像进行特征提取，获得与多个待处理图像一一对应的多组初始图像特征；将多组初始图像特征中的任一组初始图像特征作为参考图像特征，将除参考图像特征外的剩余初始图像特征分别与参考图像特征进行对齐，以获得与剩余初始图像特征一一对应的至少一组对齐图像特征；将参考图像特征中的至少部分图像特征与至少一组对齐图像特征进行融合，获得融合图像特征；利用融合图像特征进行图像重建，获得融合图像。

此外，根据本申请实施例，还提供了一种计算机程序产品，计算机程序产品包括计算机程序，计算机程序在运行时用于执行上述图像融合方法200。

根据本申请实施例的电子设备中的各模块可以通过根据本申请实施例的实施图像融合的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本申请实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

此外，根据本申请实施例，还提供了一种计算机程序，该计算机程序在运行时用于执行上述图像融合方法200。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本申请的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本申请的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本申请的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个申请方面中的一个或多个，在对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本申请的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的图像融合装置中的一些模块的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上，仅为本申请的具体实施方式或对具体实施方式的说明，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种图像融合方法，包括：

获取多个待处理图像；

对所述多个待处理图像进行特征提取，获得与所述多个待处理图像一一对应的多组初始图像特征；

将所述多组初始图像特征中的任一组初始图像特征作为参考图像特征，将除所述参考图像特征外的剩余组初始图像特征分别与所述参考图像特征进行对齐，以获得与所述剩余组初始图像特征一一对应的至少一组对齐图像特征；

将所述参考图像特征中的至少部分图像特征与所述至少一组对齐图像特征进行融合，获得融合图像特征；

利用所述融合图像特征进行图像重建，获得融合图像。

2.如权利要求1所述的方法，其中，所述将所述参考图像特征中的至少部分图像特征与所述至少一组对齐图像特征进行融合，获得融合图像特征，包括：

基于所述参考图像特征中的至少部分图像特征以及所述至少一组对齐图像特征进行特征拼接或特征相加，获得初始融合特征；

基于目标图像特征以及所述初始融合特征进行子空间投影，获得所述融合图像特征，其中，所述目标图像特征为所述参考图像特征中的至少部分图像特征，或者为对所述参考图像特征中的至少部分图像特征进行进一步处理获得的特征。

3.如权利要求2所述的方法，其中，

所述基于所述参考图像特征中的至少部分图像特征以及所述至少一组对齐图像特征进行特征拼接或特征相加，获得初始融合特征，包括：

对所述参考图像特征中的至少部分图像特征进行卷积，获得第一卷积特征；

对所述至少一组对齐图像特征中的每组对齐图像特征进行卷积，获得与所述至少一组对齐图像特征一一对应的至少一组第二卷积特征；

将所述第一卷积特征和所述至少一组第二卷积特征在通道上进行拼接或者逐元素求和，获得所述初始融合特征；

所述基于目标图像特征以及所述初始融合特征进行子空间投影，获得所述融合图像特征，包括：

对所述初始融合特征进行卷积，获得第三卷积特征；

将所述第三卷积特征展平，获得子空间基底向量；

将所述目标图像特征投影到所述子空间基底向量所对应的子空间，获得所述融合图像特征，其中，所述目标图像特征为所述参考图像特征中的至少部分图像特征，或者为所述第一卷积特征，或者为在所述对所述参考图像特征中的至少部分图像特征进行卷积的过程中获得的中间特征，所述进一步处理包括卷积。

4.如权利要求2所述的方法，其中，所述参考图像特征中的至少部分图像特征和所述至少一组对齐图像特征中每组对齐图像特征的通道数均为第一通道数，对于在执行所述将所述参考图像特征中的至少部分图像特征与所述至少一组对齐图像特征进行融合的操作时所生成的各中间特征，除所述初始融合特征以外的至少部分中间特征的通道数均为第二通道数，所述第二通道数小于所述第一通道数。

5.如权利要求1-4任一项所述的方法，其中，所述对所述多个待处理图像进行特征提取，获得与所述多个待处理图像一一对应的多组初始图像特征的操作，所述将所述多组初始图像特征中的任一组初始图像特征作为参考图像特征，将除所述参考图像特征外的剩余组初始图像特征分别与所述参考图像特征进行对齐，以获得与所述剩余组初始图像特征一一对应的至少一组对齐图像特征的操作，所述将所述参考图像特征中的至少部分图像特征与所述至少一组对齐图像特征进行融合，获得融合图像特征的操作，以及所述利用所述融合图像特征进行图像重建，获得融合图像的操作，通过目标图像融合网络实现，

所述目标图像融合网络通过以下方式进行训练：

获取至少一组样本图像，每组样本图像包括多个样本输入图像和与所述多个样本输入图像对应的样本融合图像；

对于所述至少一组样本图像中的每组样本图像，将该组样本图像中的多个样本输入图像输入初始图像融合网络，获得预测融合图像；

基于所述至少一组样本图像中每组样本图像所对应的样本融合图像和预测融合图像之间的差异，确定所述初始图像融合网络的预测损失；

基于所述预测损失对所述初始图像融合网络进行训练，获得所述目标图像融合网络。

6.如权利要求5所述的方法，其中，所述多个待处理图像为分别采用图像采集装置的不同焦段针对相同场景采集的图像，所述场景包含前景区域和背景区域，所述至少一组样本图像中的每组样本图像包括第一样本输入图像和第二样本输入图像，

所述获取至少一组样本图像，包括：

获取至少一组初始输入图像，所述至少一组初始输入图像与所述至少一组样本输入图像一一对应，所述至少一组初始输入图像中的每组初始输入图像包括第一初始输入图像和第二初始输入图像，所述第一初始输入图像和所述第二初始输入图像包含各自对应的前景区域和背景区域；

对于所述至少一组样本图像中的每组样本图像，

对该组样本图像所对应的第一初始输入图像中的前景区域和该组样本图像所对应的第二初始输入图像中的背景区域分别执行虚化操作，获得该组样本图像中的第一样本输入图像和第二样本输入图像；

将该组样本图像所对应的第一初始输入图像或该组样本图像所对应的第二初始输入图像或叠加图像，确定为该组样本图像中的样本融合图像，其中，所述叠加图像为将该组样本图像所对应的第一初始输入图像中的前景区域和该组样本图像所对应的第二初始输入图像的背景区域叠加在一起获得的图像。

7.如权利要求6所述的方法，其中，所述虚化操作包括：

利用具有第一标准差的高斯核对待虚化图像中的待虚化区域依次进行多次高斯模糊操作；

其中，在所述待虚化图像为所述第一初始输入图像的情况下，所述待虚化区域为所述第一初始输入图像中的前景区域，最后一次高斯模糊操作的输出结果为所述第一样本输入图像；在所述待虚化图像为所述第二初始输入图像的情况下，所述待虚化区域为所述第二初始输入图像中的背景区域，最后一次高斯模糊操作的输出结果为所述第二样本输入图像；对于所述多次高斯模糊操作中的第一次高斯模糊操作，对应的输入信息为所述待虚化图像；对于所述多次高斯模糊操作中除第一次高斯模糊操作外的剩余高斯模糊操作，对应的输入信息为前一次高斯模糊操作的输出结果；

或者，所述虚化操作包括：

利用具有第二标准差的高斯核对待虚化图像中的待虚化区域进行高斯模糊操作；

其中，在所述待虚化图像为所述第一初始输入图像的情况下，所述待虚化区域为所述第一初始输入图像中的前景区域，所述高斯模糊操作的输出结果为所述第一样本输入图像；在所述待虚化图像为所述第二初始输入图像的情况下，所述待虚化区域为所述第二初始输入图像中的背景区域，所述高斯模糊操作的输出结果为所述第二样本输入图像；所述至少一组样本图像的组数为多组，所述至少一组样本图像中包括所对应的初始输入图像彼此相同的至少两组样本图像，且在获得所述至少两组样本图像时所采用的高斯核的第二标准差彼此不同。

8.一种电子设备，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至7任一项所述的图像融合方法。

9.一种存储介质，在所述存储介质上存储了程序指令，其中，所述程序指令在运行时用于执行如权利要求1至7任一项所述的图像融合方法。

10.一种计算机程序产品，所述计算机程序产品包括计算机程序，其中，所述计算机程序在运行时用于执行如权利要求1至7任一项所述的图像融合方法。