CN116635890A

CN116635890A - 图像融合中基于深度的防透视

Info

Publication number: CN116635890A
Application number: CN202180074766.2A
Authority: CN
Inventors: 申静林; 黄金才; 廖劲松; 何朝文
Original assignee: Innopeak Technology Inc
Current assignee: Innopeak Technology Inc
Priority date: 2020-11-12
Filing date: 2021-03-08
Publication date: 2023-08-22

Abstract

本申请涉及图像融合。计算机系统获取场景的近红外(near infrared，NIR)图像和RGB图像。自所述NIR图像生成第一NIR图像层。自所述RGB图像生成第一RGB图像层和第二RGB图像层。所述第一NIR图像层和所述第一RGB图像层具有第一分辨率。深度图被生成且具有所述第一分辨率。所述第一NIR图像层的每个像素和所述第一RGB图像层的对应像素基于相应权重进行组合，以生成用于重建融合图像的第一组合图像层。对于所述第一NIR层和所述第一RGB层的每一对像素，所述相应权重是基于所述深度图的相应像素的深度值和预设截止深度来确定。

Description

图像融合中基于深度的防透视

技术领域

本申请涉及图像处理，尤其涉及基于深度图融合图像的方法和系统。

背景技术

图像融合技术用于将来自不同图像源的信息组合成单个图像。生成的图像包含比任何单个图像源所提供的更多的信息。在图像融合过程中，不同的感官方式被经常应用于提供不同类型的信息(例如，颜色、亮度和细节)。例如，将彩色图像与近红外(near-infrared，NIR)图像融合，其增强彩色图像的细节的同时保留了彩色图像的颜色和亮度信息。特别是，与可见光相比，近红外光能够更好地穿过雾、烟雾或霾，从而允许基于NIR图像和彩色图像的组合建立一些去雾算法。然而，一些在可见光下不透明的材料(例如，一些瓶子和人的衣服)在近红外光下可能会显得透明，从而导致一些隐私问题，这阻碍了彩色图像和NIR图像的融合在消费电子设备中被广泛采用。早期的图像融合工作中几乎没有解决此透视(see-through)问题的研究，如果有一种机制在图像融合中抑制透视效应并解决所述隐私问题，这将是有益的。

发明内容

本申请描述了与基于深度图组合真彩色图像(也称为RGB图像)和对应NIR图像的信息有关的实施方式。透视效果的严重程度取决于暴露在近红外光下对象的材料，而这些材料很难使用计算机视觉进行识别。据观察，在对象的特写图像拍摄(close-up imageshots)中透视效果更为突出，并且透视效果随着对象在视场中移动得更远而变得不那么明显。基于这样的观察，深度信息被应用于分配融合权重(例如，减少特写对象的融合权重)，从而有效地抑制透视效应。

一方面，一种图像融合方法在具有一个或多个处理器、存储器的计算机系统(例如，服务器、具有相机的电子设备或它们两者)中实现。所述方法包括获获取场景的NIR图像和RGB图像，自近红外图像生成具有第一分辨率的第一近红外图像层；自RGB图像生成第一RGB图像层和第二RGB图像层，以及生成深度图。第一RGB图像层和深度图像都具有第一分辨率。所述方法还包括基于根据深度图的相应像素的深度值和预设截止深度确定的相应权重，组合第一近红外图像层的每个像素和第一RGB图像层的对应像素以生成第一组合图像层。所述方法还包括基于第一组合图像层重建融合图像。

在一些实施方式中，第二RGB图像具有大于第一分辨率的第二分辨率，深度图包括第一深度图。所述方法进一步包括：自NIR图像生成具有第二分辨率的第二NIR图像层，生成具有第二分辨率的第二深度图，以及生成第二组合图像层。生成第二组合图像层还包括：基于根据第二深度图的相应像素的深度值和预设截止深度确定的相应权重，组合第二近红外图像层的每个像素和第二RGB图像层的对应像素。融合图像是自第一组合图像层和第二组合图像层重建得到。

根据本申请的另一方面，一种计算机系统包括一个或多个处理单元、存储器和存储在存储器中的多个程序。当程序在由一个或多个处理单元执行时，使一个或多个处理单元执行如上所述的用于融合NIR和彩色图像的方法。

根据本申请的另一方面，一种非暂时性计算机可读存储介质上存储有多个程序以供具有一个或多个处理单元的计算机系统执行。当多个程序由一个或多个处理单元执行时，使一个或多个处理单元执行如上所述的用于融合NIR和彩色图像的方法。

附图说明

附图被包含以提供对各个实施方式的进一步理解，并且被并入本文且构成说明书的一部分，附图示出了所描述的实施方式，并且与文字描述一起用于解释基本原理。

图1是根据一些实施方式的具有通信地耦合到一个或多个客户端设备的一个或多个服务器的示例性数据处理环境。

图2是示出了根据一些实施方式的数据处理系统的框图。

图3是示出了根据一些实施方式的训练和应用用于处理视觉和/或音频数据的基于神经网络(neural network，NN)的数据处理模型的示例性数据处理环境。

图4A是根据一些实施方式的应用于在基于神经网络的数据处理模型中处理内容数据的示例性神经网络，图4B是根据一些实施方式的所述神经网络中的示例性节点。

图5是根据一些实施方式的用于融合NIR图像和RGB图像的示例性金字塔框架。

图6是根据一些实施方式的用于融合NIR图像和RGB图像的另一示例性金字塔框架。

图7示出了根据一些实施方式的生成用于融合NIR图像和RGB图像的权重图的示例性过程。

图8是根据一些实施方式的使用基于深度的权重图来融合NIR图像和RGB图像的整个过程的流程图。

图9是根据一些实施方式的基于RGB图像生成深度图的过程的流程图。

图10是示出了根据一些实施方式的示例性权重分配函数的基于深度的控制部分的示意图。

图11是根据一些实施方式的在计算机系统中实施的图像融合方法的流程图。

在附图的各个视图中，相同的附图标记指代相应的部件。

具体实施方式

现将详细参考具体实施方式，其示例在附图中被示出。在以下详细描述中，阐述了许多非限制性的具体细节以帮助理解本文提出的主题(subject matter)。在不脱离权利要求的范围使用各种替代方案以及在没有这些具体细节的情况下实践所述主题对于本领域普通技术人员来说是显而易见的。例如，本文提出的所述主题可以在多种具有数字视频能力的电子设备上实现，这对于本领域普通技术人员来说是显而易见的。

本申请描述了与基于深度图组合RGB图像和对应NIR图像的信息有关的实施方式。据观察，透视效果在对象的特写图像拍摄中更为突出，并且随着对象在视场中移动得更远而变得不明显。基于这样的观察，本申请的一些实施方式依赖于金字塔方法，金字塔方法把每个相关的RGB图像或NIR图像的不同分辨率级别分开，并选择性地组合相关的RGB图像和NIR图像的相应分辨率级别，从而在一个或多个选定的分辨率级别上抑制透视效果。具体地，深度信息被应用在分配融合权重(例如，减少特写对象的融合权重)上以有效地消除透视效果。深度信息可以通过使用不同的方法(例如，立体声、深度学习)来估计，并被表示为不同的形式(例如，绝对深度、视差(disparity))。在一些情况下，根据预设的融合规则，焦点距离、绝对深度或归一化深度信息被作为输入提供。这种融合规则是基于深度图的，能够有效地阻挡与近距离的对象相关的NIR信息，而保持背景区域的NIR信息的期望的融合权重。

图1是根据一些实施方式的具有通信地耦合到一个或多个客户端设备104的一个或多个服务器102的示例性数据处理环境100。一个或多个客户端设备104可以是例如台式计算机104A、平板计算机104B、移动电话104C，或智能的、多感测的、连接到网络的家庭设备(例如，监控相机104D)。每个客户端设备104可以收集数据或用户输入、执行用户应用程序或在其用户界面上呈现输出。可以在客户端设备104本地处理和/或由一个或多个服务器102远程处理收集到的数据或用户输入。一个或多个服务器102向客户端设备104提供系统数据(例如，引导文件、操作系统映像和用户应用程序)，并且在一些实施方式中，当在多个客户端设备104上执行用户应用程序时，一个或多个服务器102处理从一个或多个客户端设备104接收到的数据和用户输入。在一些实施方式中，数据处理环境100还包括存储器106，存储器106用于存储与服务器102、客户端设备104相关的数据和在客户端设备104上执行的应用程序。

一个或多个服务器102可以实现与彼此远离或与一个或多个服务器远离102的客户端设备104的实时数据通信。在一些实施方式中，一个或多个服务器102可以实现客户端设备104无法在本地完成或优选地不由客户端设备104在本地完成的数据处理任务。例如，客户端设备104包括执行交互式在线游戏应用的游戏控制台。游戏控制台接收用户指令，并把用户指令和用户数据一起发送到游戏服务器102。游戏服务器102基于用户指令和用户数据生成视频数据流，并提供视频流数据以在游戏控制台和与所述游戏控制台进行同一游戏会话的其他客户端设备上进行并发显示。在另一示例中，客户端设备104包括移动电话104C和联网监控相机104D。相机104D收集视频数据并将视频数据实时流式传输到监控相机服务器102。当视频数据可选地在相机104D上进行预处理时，监控相机服务器102处理视频数据以识别视频数据中的运动或音频事件，并与移动电话104C共享这些事件的信息，从而允许移动电话104C实时远程地监控在联网监控相机104D附近发生的事件。

一个或多个服务器102、一个或多个客户端设备104和存储器106经由一个或多个通信网络108相互通信耦合，通信网络108是用于提供这些接连在一起的设备和计算机与数据处理环境100之间的通讯链路的媒介。一个或多个通信网络108可包括诸如有线、无线通信链路或光纤电缆的连接。一个或多个通信网络108的示例包括局域网(local areanetworks，LAN)、诸如因特网的广域网(wide area networks，WAN)或其组合。可选地，一个或多个通信网络108使用任何已知的网络协议来实现，网络协议包括各种有线或无线协议，例如以太网、通用串行总线(Universal Serial Bus，USB)、火线(FIREWIRE)、长期演进(Long Term Evolution，LTE)、全球移动通信系统(Global System for MobileCommunications，GSM)、增强型数据GSM环境(Enhanced Data GSM Environment，EDGE)、码分多址(code division multiple access，CDMA)、时分多址(time division multipleaccess，TDMA)、蓝牙、Wi-Fi、网络电话(voice over Internet Protocol，VoIP)、Wi-MAX或任何其他合适的通信协议。与一个或多个通信网络108的连接可以直接建立(例如，使用与无线运营商的3G/4G连接)，或可以通过网络接口110(例如，路由器、交换机、网关、集线器或智能专用全屋控制节点)或通过它们的任意组合来建立。如此，一个或多个通信网络108可以代表全世界范围内使用传输控制协议/互联网协议(Transmission Control Protocol/Internet Protocol，TCP/IP)套件协议相互通信的网络和网关集合的互联网。互联网的核心是主要节点或主机之间的高速数据通信线路主干，其由数以千计的商业、政府、教育和其他路由传输数据和消息的计算机系统组成。

在一些实施方式中，深度学习技术被用于数据处理环境100中处理在客户端设备104处执行的应用程序所获得的内容数据(例如，视频、图像、音频或文本数据)，以识别包含在内容数据中的信息、将内容数据与其他数据进行匹配、对内容数据进行分类、或合成相关的内容数据。在这些深度学习技术中，基于一个或多个神经网络创建数据处理模型来处理内容数据。使用训练数据训练这些数据处理模型，然后将数据处理模型用于处理内容数据。在一些实施方式中，模型训练和数据处理都是在每个单独的客户端设备104(例如，客户端设备104C)本地实现。客户端设备104C从一个或多个服务器102或存储器106获得训练数据并应用训练数据来训练数据处理模型。在模型训练之后，客户端设备104C获取内容数据(例如，通过内部相机采集视频数据)并在本地使用训练数据处理模型来处理内容数据。可选择地，在一些实施方式中，在与一个或多个客户端设备104(例如客户端设备104A和104D)相关联的服务器102(例如服务器102A)处远程地实现模型训练和数据处理。服务器102A从其本身、另一服务器102或存储器106获得训练数据，并应用训练数据来训练数据处理模型。客户端设备104A或104D获得内容数据并将内容数据发送到服务器102A(例如，在用户应用程序中)以使用经训练的数据处理模型进行数据处理。同一客户端设备或不同的客户端设备104A从服务器102A接收数据处理结果，并将结果呈现在用户界面(例如，与用户应用相关联的用户界面)上。在将内容数据发送到服务器102A之前，客户端设备104A或104D本身不对内容数据进行数据处理或进行很少的数据处理。此外，在一些实施方式中，在客户端设备104(例如，客户端设备104B)本地实现数据处理，同时在与客户端设备104B相关联的服务器102(例如，服务器102B)远程实现模型训练。服务器102B从它本身、另一服务器102或存储器106获得训练数据，并应用训练数据来训练数据处理模型。可选地，经训练的数据处理模型存储在服务器102B或存储器106中。客户端设备104B导入来自服务器102B或存储器106的经过训练的数据处理模型，使用数据处理模型处理内容数据，并生成在用户界面上本地展现的数据处理结果。

在本申请的各种实施方式中，由相机(例如，独立监控相机104D或客户端设备104A的集成相机)采集不同的图像并在同一相机中进行处理不同的图像，客户端设备104A包括相机、服务器102、或不同的客户端设备104。可选地，为了处理图像的目的训练或应用深度学习技术。在一个示例中，由相机采集近红外(near infrared，NIR)图像和RGB图像。在获得NIR图像和RGB图像之后，同一相机、包含所述相机的客户端设备104A、服务器102或不同的客户端设备104分别自NIR图像和RGB图像中提取第一NIR图像层和第一RGB图像层，并生成深度图。第一NIR图像层、第一RGB图像层和深度图像具有相同的分辨率。基于相应权重组合第一NIR图像层的每个像素和第一RGB图像层的对应像素，所述权重是基于深度图的相应像素的深度值和预设截止深度而确定。这样的组合图像层选择性地抑制了NIR图像提供的细节，从而避免了在许多细节图像中常见的透视效果。组合图像层用于重建可以在包含相机的客户端设备104A或不同的客户端设备104上查看的彩色图像。

图2是示出了根据一些实施方式的数据处理系统200的框图。数据处理系统200包括服务器102、客户端设备104、存储器106或其组合。典型地，数据处理系统200包括一个或多个处理单元(CPU)202、一个或多个网络接口204、存储器206和用于互连这些组件(有时称为芯片组)的一个或多个通信总线208。数据处理系统200包括一个或多个便于用户输入的输入设备210，例如,键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕捉相机、或其他输入按钮或控件。此外，在一些实施方式中，数据处理系统200的客户端设备104使用麦克风和语音识别或摄像头和手势识别来补充或替代键盘。在一些实施方式中，客户端设备104包括一个或多个相机、扫描仪或光传感器单元，以采集例如印刷在电子设备上的图形序列代码的图像。数据处理系统200还包括一个或多个能够呈现用户界面和显示内容的输出设备212，输出设备212包括一个或多个扬声器和/或一个或多个视觉显示器。可选地，客户端设备104包括用于确定客户端设备104位置的位置检测设备，例如全球定位卫星(global positioning satellite，GPS)或其他地理位置接收器。

存储器206包括高速随机存取存储器，例如，动态随机存取存储器(dynamicrandom access memory，DRAM)、静态随机存取存储器(static random access memory，SRAM)、双倍数据速率随机存取存储器(double data rate RAM，DDR RAM)或其他随机存取固态存储设备；可选地包括非易失性存储器，例如一个或多个磁盘存储设备、一个或多个光盘存储设备、一个或多个闪存设备或一个或多个其他非易失性固态存储设备。可选地，存储器206包括远离一个或多个处理单元202的一个或多个存储设备。存储器206，或者说在存储器206内的非易失性存储器，包括非暂时性计算机可读存储介质。在一些实施方式中，存储器206或存储器206的非暂时性计算机可读存储介质存储以下程序、模块和数据结构，或其子集或超集：

·操作系统214，包括用于处理各种基本系统服务和执行依赖硬件的任务的程序；

·网络通信模块216，用于通过一个或多个网络接口204(有线或无线)和一个或多个诸如互联网、其他广域网、局域网、城域网等的通信网络108，将每个服务器102或客户端设备104连接到其他设备(例如，服务器102、客户端设备104或存储器106)；

·用户界面模块218，用于在每个客户端设备104上通过一个或多个输出设备212(例如，显示器、扬声器等)实现信息的呈现(例如，用于应用程序224、小部件、网站及其网页，和/或游戏、音频和/或视频内容、文本等的图形用户界面)；

·输入处理模块220，用于检测来自一个或多个输入设备210之一的一个或多个用户输入或交互，并解释检测到的输入或交互；

·网络浏览器模块222，用于导航、请求(例如，通过超文本传输协议(Hyper TextTransfer Protocol，HTTP))、以及显示包括用于登录与客户端设备104或另一电子设备相关联的用户账号的网络界面的网站及其网页，如果客户端或电子设备与用户账号相关，则控制客户端或电子设备，以及编辑和查看与用户账号相关联的设置和数据；

·由数据处理系统200执行的一个或多个用户应用程序224(例如，游戏、社交网络应用程序、智能家居应用程序，和/或，其他用于控制另一电子设备并查看由此类设备采集的数据之基于网页或非基于网页的应用程序)；

·模型训练模块226，用于接收训练数据并建立数据处理模型以处理由客户端设备104收集或获得的内容数据(例如，视频、图像、音频或文本数据)；

·数据处理模块228，用于使用数据处理模型240处理内容数据，从而识别内容数据中包含的信息，将内容数据与其他数据进行匹配，对内容数据进行分类，或者合成相关的内容数据，在一些实施方式中，数据处理模块228与用户应用程序224之一相关联以响应于从用户应用程序224接收到的用户指令来处理内容数据；

·基于深度的图像处理模块250，用于将不同类型的图像(例如，NIR图像和RGB图像)中的每一个图像分解为一个或多个相应的图像层，基于深度图结合自两个不同类型的图像分解得到的两个相关的图像层，并基于结合的图像层重建图像，在一些实施方式中，一个或多个图像处理操作涉及深度学习并与数据处理模块228共同实现；以及

·一个或多个数据库230，用于存储至少包括以下一项或多项的数据：

ο包括一个或多个服务器102或客户端设备104的通用设备设置(例如，服务层、设备型号、存储容量、处理能力、通信能力等)的设备设置232；

ο用于一个或多个用户应用程序224的用户账号信息234，例如，用户名、安全问题、账号历史数据、用户偏好和预设账号设置；

ο用于一个或多个通信网络108的网络参数236，例如，IP地址、子网掩码、默认网关、DNS服务器和主机名；

ο用于训练一个或多个数据处理模型240的训练数据238；

ο用于使用深度学习技术处理内容数据(例如，视频、图像、音频或文本数据)的数据处理模型240；

ο分别由数据处理系统200的客户端设备104获得并输出到客户端设备104的内容数据和结果242，其中，在客户端设备104本地处理内容数据，或者在服务器102或其他客户端设备104远程处理内容数据，以提供呈现在同一或另一个客户端设备104上的关联结果242，内容数据和结果242的示例包括RGB图像、NIR图像、深度图和从以上图像中重建的图像。

可选地，一个或多个数据库230存储在数据处理系统200的服务器102、客户端设备104和存储器106之一中。可选地，一个或多个数据库230分布在数据处理系统200的服务器102、客户端设备104和存储器106中的一个以上。在一些实施方式中，上述数据的多于一个拷贝被存储在不同的设备上，例如，数据处理模型240的两个拷贝被分别存储在服务器102和存储器106上。

上述元素中的每一个都可以被存储在一个或多个前面提到的存储设备中，并且对应于用于执行上面描述的功能的一组指令。上述模块或程序(即，指令集)不需要作为单独的软件程序、过程、模块或数据结构来实现，因此这些模块的各种子集可以在各个实施方式中被组合或以其他方式重新布置。可选地，在一些实施方式中，存储器206存储上述模块和数据结构的子集。此外，可选地，存储器206存储上面未描述的附加模块和数据结构。

图3是示出了根据一些实施方式的用于训练和应用基于神经网络(neuralnetwork，NN)的数据处理模型240的另一个示例性数据处理系统300，数据处理模型240用于处理内容数据(例如，视频、图像、音频或文本数据)。数据处理系统300包括数据处理模块228，所述数据处理模块228用于建立数据处理模型240的模型训练模块226和用于使用数据处理模型240处理内容数据。在一些实施方式中，模型训练模块226和数据处理模块228都位于数据处理系统300的客户端设备104，同时不同于客户端设备104的训练数据源304向客户端设备104提供训练数据306。可选地，训练数据源304是服务器102或存储器106。可选地，在一些实施方式中，模型训练模块226和数据处理模块228都位于数据处理系统300的服务器102上。可选地，提供训练数据306的训练数据源304是服务器102本身、另一服务器102或存储器106。此外，在一些实施方式中，模型训练模块226和数据处理模块228分别位于服务器102和客户端设备104上，服务器102向客户端设备104提供经过训练的数据处理模型240。

模型训练模块226包括一个或多个数据预处理模块308、模型训练引擎310和损失控制模块312。根据待处理的内容数据的类型训练数据处理模块240。训练数据306与内容数据的类型一致，因此应用数据预处理模块308处理与内容数据的类型一致的训练数据306。例如，图像预处理模块308A被配置为把图像训练数据306处理成预设的图像格式，例如，提取每个训练图像中的感兴趣区域(region of interest，ROI)，以及将每个训练图像裁剪成预设的图像尺寸。可选择地，音频预处理模块308B被配置为将音频训练数据306处理成预设的音频格式，例如，使用傅立叶变换将每个训练序列转换到频域。模型训练引擎310接收由数据预处理模块308提供的预处理后的训练数据，进一步地使用现有的数据处理模型240处理预处理后的训练数据，以及自每个训练数据项生成输出。在此过程中，损失控制模块312可以通过比较相应训练数据项相关联的输出和相应训练数据项的真值(ground truth)来监控损失函数。模型训练引擎310修改数据处理模型240以减少损失函数，直到损失函数满足损失标准(例如，损失函数的比较结果被最小化或减少到损失阈值以下)。修改后的数据处理模型240被提供给数据处理模块228以处理内容数据。

在一些实施方式中，模型训练模块226提供在其中训练数据被全部打上标签并且包括每个训练数据项的期望输出(在一些情况下也称为真值)的监督学习。相反，在一些实施方式中，模型训练模块226提供在其中训练数据未被打上标签的无监督学习。模型训练模块226被配置为在没有预先存在的标签并且没有或很少有人工监督的情况下识别训练数据中先前未检测到的模式。另外，在一些实施方式中，模型训练模块226支持在其中训练数据被部分标记的部分监督学习。

数据处理模块228包括数据预处理模块314、基于模型的处理模块316和数据后处理模块318。数据预处理模块314基于内容数据的类型对内容数据进行预处理。数据预处理模块314的功能与预处理模块308的功能一致，并将内容数据转换为基于模型的处理模块316的输入可以接受的预设内容格式。内容数据的示例包括视频、图像、音频、文本和其他类型的数据中的一种或多种。例如，对每个图像都进行预处理以提取ROI，或将每个图像裁剪为预设图像大小，以及对音频剪辑使用傅里叶变换进行预处理以转换到频域。在一些情况下，内容数据包括两种或更多种类型，例如视频数据和文本数据。基于模型的处理模块316应用由模型训练模块226提供的经过训练的数据处理模型240来对经过预处理的内容数据进行处理。基于模型的处理模块316也可以监视错误指示器以确定内容数据是否已经在数据处理模型240中被适当地处理。在一些实施方式中，数据后处理模块318进一步对经处理的内容数据进行处理，从而使用优选的格式呈现经处理的内容数据，或者提供可以由经处理的内容数据得到的其他相关信息。

图4A是示出了根据一些实施方式的应用在在基于神经网络的数据处理模型240中处理内容数据的示例性神经网络(neural network，NN)400，图4B是根据一些实施方式的所述神经网络(NN)400中的示例性节点420。数据处理模型240是基于神经网络400建立。相应的基于模型的处理模块316应用包括神经网络400的数据处理模型240来处理已经被转换成预设的内容格式的内容数据。神经网络400包括由链接412连接的节点420的集合。每个节点420接收一个或多个节点输入，并应用传播函数由一个或多个节点输入生成节点输出。因为经由一个或多个链接412向一个或多个其他节点420提供节点输出，所以在节点输出上应用与每个链接412相关联的权重w。同样地，基于根据传播函数对应的权重w₁，w₂，w₃，和w₄组合一个或多个节点输入。在示例中，传播函数是非线性激活函数与一个或多个节点输入的线性加权组合的乘积。

节点集合420组成神经网络400中的一个或多个层。可选地，一个或多个层包括一个既作为输入层又作为输出层的单层。可选地，一个或多个层包括用于接收输入的输入层402、用于提供输出的输出层406、以及输入层402和输出层406之间的零个或多个隐藏层404(例如，404A和404B)。深度神经网络在输入层402和输出层406之间具有多于一个隐藏层404。在神经网络400中，每个层仅与紧接在它之前的和/或紧接在它之后的层相连。在一些实施方式中，因为层402或层404B中的每个节点420都连接到其紧接的下一层中的每个节点420，所以层402或层404B是全连接层。在一些实施方式中，一个或多个隐藏层404中的一个隐藏层包括两个或更多个节点，这些节点连接到其紧接的下一层中的同一节点，从而对这两个层之间的节点420进行下采样或池化。具体地，最大池化利用层404B中的两个或更多个节点的最大值来生成与所述两个或更多个节点相连的紧随其后的层406的节点。

在一些实施方式中，在数据处理模型240应用卷积神经网络(convolutionalneural network，CNN)来处理内容数据(具体地，视频和图像数据)。CNN采用卷积运算并属于深度神经网络400的类别，即仅将数据从输入层402通过隐藏层向前移动到输出层406的前馈神经网络。CNN的一个或多个隐藏层是使用乘法或点积进行卷积的卷积层。卷积层中的每个节点接收来自与前一层(例如，五个节点)相关联的感受区域(receptive area)的输入，所述感受区域小于整个前一层，并可能根据卷积层在卷积神经网络中的位置而变化。视频或图像数据被预处理为与CNN输入相对应的预设视频/图像格式。预处理后的视频或图像数据被CNN的每一层提取为相应特征图。通过这些方式，视频和图像数据可以被CNN处理以用于视频和图像识别、分类、分析、印记(imprinting)或合成。

可替代地和附加地，在一些实施方式中，在数据处理模型240中应用递归神经网络(recurrent neural network，RNN)以处理内容数据(具体地，文本和音频数据)。在RNN连续层中的节点遵循时间序列，因此RNN表现出时间动态行为。在示例中，RNN的每个节点420具有时变的实值激活函数。RNN的示例包括但不限于长短期记忆(long short-term memory，LSTM)网络、完全递归(fully recurrent)网络、Elman网络、Jordan网络、Hopfield网络、双向联想记忆(bidirectional associative memory，BAM)网络、回声状态(echo state)网络、独立的RNN(independently RNN，IndRNN)、递归神经网络(recursive neural network)和神经历史压缩器(neural history compressor)。在一些实施方式中，RNN可用于手写或语音识别。需要注意的是，在一些实施方式中，由数据处理模块228进行处理两种或更多种类型的内容数据，应用两种或更多种类型的神经网络(例如，CNN和RNN两者)以共同处理内容数据。

训练过程是使用输入层402中提供的训练数据集为学习模型的每一层校准所有权重w_i的过程。典型地，训练过程包括前向传播和反向传播两个步骤，这两个步骤被重复多次直到满足预设的收敛条件。在前向传播中，不同层的一组权重应用于前一层的输入数据和中间结果。在反向传播中，测量输出的误差范围(例如，损失函数)，并相应地调整权重以减少误差。可选地，激活函数为线性函数、修正线性单元(rectified linear unit)、S型函数(sigmoid)、双曲正切函数或其他类型。在一些实施方式中，在应用激活函数之前，将网络偏置项b加到来自前一层的加权输出的总和上。网络偏置项b提供了帮助NN 400避免过度拟合训练数据的扰动。训练的结果包括每一层的网络偏置参数b。

图5是根据一些实施方式的用于融合NIR图像502和RGB图像504的示例性金字塔框架500。金字塔框架500在计算机系统(例如，服务器102、客户端设备104或其组合)处实现。计算机系统获得场景的NIR图像502和RGB图像504。在一些实施方式中，由客户端设备(例如，监控相机104D)的主传感器和辅传感器分别采集NIR图像502和RGB图像504。在一些实施方式中，对NIR图像502和RGB图像504中的每一个图像进行预处理，例如，降低RGB图像和NIR图像的至少一部分的失真水平、实施将图像502和图像504转换到与场景相关联的坐标系的配准过程。在示例中，仅处理NIR图像502和RGB图像504中的一个以匹配图像502和图像504中的另一个。可选地，被配置为实现金字塔框架500的计算机系统是相机104D本身、包含采集NIR图像和RGB图像的相机的客户端设备、服务器102、被配置为检查框架500的融合输出的不同的客户端设备，或上述任意组合。

可选地，RGB图像504具有大于NIR图像502的分辨率。计算机系统自NIR图像502生成第一NIR图像层506，第一NIR图像层506具有第一分辨率。计算机系统自RGB图像504生成第一RGB图像层508和第二RGB图像层510。第一RGB图像层508具有与第一NIR图像层506相同的分辨率，因此依逐一像素基础地组合第一RGB图像层508和第一NIR图像层506以生成第一组合图像层512。具体地，第一RGB图像层508的每个像素使用与相应像素相关联的权重来与第一NIR图像层506的对应像素组合。生成的第一组合图像层512(I_COMB(x,y))的每个像素表示如下：

I_COMB(x,y)＝w(x,y)×I_NIR(x,y)+(1-w(x,y))×I_RGB(x,y) (1)

其中，I_RGB(x,y)和I_NIR(x,y)分别是第一RGB图像层508和第一近红外图像层506中位置(x,y)处的相应像素的值，w(x,y)是与第一NIR图像层关联的相应权重。对于每个像素，基于深度图的相应像素的深度值和预设截止深度D_cutoff来确定相应权重w(x,y)。深度图具有与第一RGB图像层508和第一NIR图像层506相同的分辨率。

在一些实施方式中，当组合第一NIR图像层506和RGB图像层508时，应用自适应融合规则来建立相应权重w(x,y)与每个不同像素位置的关联。像素位置(x,y)的相应权重w(x,y)被表示为以像素位置(x,y)为中心的图像块的权重分配函数：

w(x,y)＝f(I_RGB(i,j),I_NIR(i,j)),i∈[x-win,x+win],j∈[y-win,y+win] (2)其中，图像块包括物理上位于像素位置(x,y)的±win的二维范围之内的像素，f(I_RGB,I_NIR)是不会被与像素位置(x,y)相关联的任何深度值直接修改的权重峰值。在一些实施方式中，权重峰值f(I_RGB,I_NIR)是基于图像块的透射水平、植被水平和红外偏差水平中的一个或多个。下面参考图7和图8对关于权重峰值f(I_RGB,I_NIR)的更多细节进行解释。

在一些实施方式中，对于第一NIR图像层506，以特定像素位置(x,y)为中心的图像块与视觉特征(例如，人体、口袋中的物体、文档页面的内容)相关联，并希望在任何检查中被隐藏。当组合第一NIR图像层506与第一RGB图像层508时，应用基于两步深度的防透视方法来抑制第一NIR图像层506中对应于视觉特征的图像块。第一，在一些实施方式中，应用相机对焦统计数据以过滤掉包含具有透视问题的对象的特写镜头。NIR图像504包括在诸如自动对焦或手动对焦方案中由相机采集NIR图像504时记录的相机对焦信息。例如，可选地，相机对焦信息包括可用作确定物体与相机距离的参考的焦距。如果焦距指示对象处于遭受透视问题的不安全范围内，则可以删除NIR图像504或禁止将NIR图像504用于任何图像融合。第二，在一些实施方式中，NIR图像504的焦点超出不安全范围，即焦距大于对应阈值。深度图被用作权重分配函数中的参数，如下所示：

w(x,y)＝f(I_RGB(i,j),I_NIR(i,j),D(i,j)),i∈[x-win,x+win],j∈[y-win,y+win] (3)

其中，D(i,j)是(x,y)邻域中的估计场景深度值，(x,y)邻域也就是以像素位置(x,y)为中心的图像块位置。

在一些实施方式中，场景深度D表示对象与相机之间的真实距离。给定场景的绝对深度，权重分配函数表示为：

其中D_cutoff是预设截止深度，超过所述预设截止深度的NIR图像502不能透视场景中的对象。在一些实施方式中，预设截止深度D_cutoff的值对于每个单独的相机是个性化设置的并且随着镜头规格而变化。可以测量得到预设截止深度D_cutoff。

可选择地，在一些实施方式中，等式(2)-(4)的图像深度D对应于场景的视差图，在给定基线和用于采集RGB图像504的相机的相机参数(例如，焦距)时，视差图中的每个视差值DP(x,y)与图像深度值D(x,y)的倒数相关联。每个视差值以像素为单位测量，例如等于20或30个像素。在某些情况下，当相机信息有限且无法确定绝对深度时，应用视差图推导权重分配函数，即：

其中，DP_cutoff是预设截止视差，当低于所述视差时，NIR图像504的透视问题可忽略不计，允许执行NIR和RGB融合，p是一个控制指数，所述控制指数控制相应权重w(x,y)随着视差值DP(x,y)的增加而减少的速度。预设截止视差DP_cutoff也被称为对应于最小深度的预设最大视差，当大于所述最小深度时，NIR图像504的透视问题可以忽略，允许NIR和RGB融合。在一些实施方式中，等式(4)和(5)中的f(I_RGB,I_NIR)是基于图像块的透射水平、植被水平和红外偏差水平中的一个或多个确定的权重峰值函数。下面参考图7和图8对权重峰值f(I_RGB,I_NIR)相关的更多细节进行解释。

随着深度值D(x,y)从预设截止深度D_cutoff减小到0，视差DP(x,y)从预设截止视差DP_cutoff增加到无穷大，因为权重w(x,y)等于0(即，NIR图像层506没有被组合到组合图像层514中)，所以透视效果被完全抑制。相反地，随着深度值D(x,y)从预设截止深度D_cutoff增加到无限大距离，视差DP(x,y)从预设截止视差DP_cutoff减小到0，随着权重w(x,y)的增加，透视效果得到控制。下面将参考权10对权重w(x,y)和视差D(x,y)之间相关性的更多细节进行解释。

在组合第一NIR图像层506和第一RGB图像层508之后，计算机系统基于第一组合图像层512重建融合图像514。在一些实施方式中，第一NIR层506等同于NIR图像502，而RGB图像504被分解为第一RGB图像层508和第二RGB图像层510。组合第一组合图像层512与第二RGB图像层510以重建融合图像514。

在一些实施方式中，当RGB图像504具有比NIR图像502更高的分辨率时，应用金字塔来分解RGB图像504。可选地，金字塔包括低通金字塔，所述低通金字塔被配置为平滑处理RGB图像504，以及在一个或多个周期中重复对平滑后的图像504进行下采样(例如，沿每个坐标方向进行2倍下采样)。每个循环都会导致图像层具有更小的分辨率和更高的平滑度。换句话说，金字塔对应于从较低图像层到较高图像层具有递减图像分辨率的多个图像层。具体来说，在高斯金字塔中，图像层使用高斯平均值(高斯模糊)进行加权并按比例缩小。包含局部平均值的每个像素对应于金字塔的较低图像层上的邻域像素。在拉普拉斯金字塔中，为每个图像层存储相应的差值图像，而只有最高图像层不是差值图像，从而使得拉普拉斯金字塔中的所有图像层都可以基于最高层图像进行重构。

图6是根据一些实施方式的用于融合NIR图像502和RGB图像504的另一示例性金字塔框架600。在计算机系统(例如，服务器102、客户端设备或其组合)处实现金字塔框架600。计算机系统获得场景的NIR图像502和RGB图像504。计算机系统生成具有第一分辨率的第一NIR图像层506和具有大于第一分辨率的第二分辨率的第二NIR图像层606。计算机系统还自RGB图像504生成第一RGB图像层508和第二RGB图像层608。第一RGB图像层508具有与第一NIR图像层506相同的分辨率，因此依逐一像素基础地组合第一RGB图像层508和第一NIR图像层506以生成第一组合图像层512。第二RGB图像层608具有与第二NIR图像层606相同的分辨率，因此依逐一像素基础进行组合第二RGB图像层608和第二NIR图像层603以生成第二组合图像层612。生成第二深度图，第二深度图具有第二NIR图像层606和RGB图像层608的第二分辨率。基于相应权重生成第二NIR图像层606的每个像素和第二RGB图像层608的相应像素，所述相应权重是基于第二深度图的相应像素的深度值和预设截止深度D_cutoff确定。预设截止深度D_cutoff也被应用于组合第一NIR图像层506和RGB图像层508。可选地，被配置为实现金字塔框架600的计算机系统是相机104D本身、包含采集NIR图像和RGB图像的相机的客户端设备、服务器102、被配置为检查框架500的融合输出的不同的客户端设备，或它们的任意组合。

在一些实施方式中，NIR图像502和RGB图像504具有相同的分辨率，并且被分解成具有相同层数(例如，2层)的两个独立的图像层集合。组合图像层集合中对应于NIR图像502的每个NIR图像层与图像层集合中对应于RGB图像504的相应RGB图像层，以生成相应的组合图像层。计算机系统基于所有相应的组合图像层(例如，第一组合图像层512和第二组合图像层612)重建融合图像514。

在一些实施方式中，NIR图像502和RGB图像504具有不同的分辨率，例如，NIR图像502具有RGB图像504更小的分辨率。NIR图像502用于生成第一NIR图像层506和第二NIR图像层606，同时RGB图像504用于生成第一RGB图像层508、第二RGB图像层608和第三RGB图像层614。第三RGB图像层614具有大于第二分辨率的第三分辨率。依逐一像素基础进组合第一RGB图像层506与第一NIR图像层508以生成第一组合图像层512。依逐一像素基础组合第二RGB图像层608与第二NIR图像层606以生成第二组合图像层612。自第一组合图像层512、第二组合图像层612和第三RGB图像层614中重建融合图像514。

在一些实施方式中，应用金字塔来分解NIR图像502和RGB图像504中的每一个图像，这与NIR图像502和RGB图像504是否具有相同的分辨率无关。可选地，金字塔包括低通金字塔，所述低通金字塔被配置为平滑处理相应的图像502或504，并在一个或多个周期中重复地对平滑后的图像进行下采样(例如，沿每个坐标方向进行2倍下采样)。每个循环都会导致图像层具有更小的分辨率和更高的平滑度。换句话说，对于每个NIR图像502和RGB图像504，相应金字塔对应于从较低图像层到较高图像层具有递减的图像分辨率的多个图像层，并且基于相应权重(例如，相应的基于深度的权重)，组合不同金字塔的两个具有相同分辨率的图像层。在一些实施方式中，根据高斯金字塔分解NIR图像502和RGB图像504。可选择地，在一些实施方式中，根据拉普拉斯金字塔分解NIR图像602和RGB图像604。

图7示出了根据一些实施方式的生成用于融合NIR图像502和RGB图像504的权重图702的示例性过程700。权重图702包括多个权重w(x,y)，应用每个权重w(x,y)组合NIR图像层704和RGB图像层706上像素位置(x,y)处的像素。如上所述，NIR图像层704是NIR图像502或自NIR图像502分解的多个NIR图像层(例如，NIR图像层506和606)之一，RGB图像层706是自RGB图像504分解的多个RGB图像层(例如，RGB图像层508、608和614)之一。NIR图像层704、RGB图像层706和权重图702具有相同的分辨率，使得可以使用权重图702组合NIR图像层704和RGB图像层706以得到组合图像层708。具体地，基于权重图702的相应权重w(x,y)组合NIR图像层704中的每个像素和RGB图像层706的相应像素。

至少根据深度图710确定权重图702，深度图710包含自NIR图像502和RGB图像504中采集的对象表面到采集图像502和504的相机镜头之间的距离信息。在一些实施方式中，深度图710是基于RGB图像层706来确定。在一些实施方式中，深度图710的每个像素的深度值表示测量的从像素处的相应对象的表面到相机之间的真实距离。或者，在一些实施方式中，深度图710对应于场景的视差图，可以在给定基线和用于采集RGB图像504的相机参数的情况下将视差图转换成绝对图像深度。参照公式(4)，在一些实施方式中，深度图710是基于预设截止深度D_cutoff建立。当深度值小于预设截止深度D_cutoff时，相应的权重w(x,y)可选地等于零或者小于深度值大于预设截止深度D_cutoff时的相应权重。例如，在与等式(4)相关的示例中，当深度值小于预设截止深度D_cutoff时，相应权重w(x,y)不等于零；在与公式(5)相关的另一个示例中，在奇偶校验DP(x,y)大于预设截止奇偶校验DP_cutoff时(即深度值D(x,y)小于截止深度D_cutoff)，相应权重w(x,y)等于零，并随着奇偶校验DP(x,y)从截止奇偶校验DP_cutoff下降到0(即，深度值D(x,y)从截止深度D_cutoff增加到无穷远)而增大。这可以防止将包含在NIR图像层704中并且与位于相机附近的对象相关的细节融合到组合图像层708中。

另外，在一些实施方式中，权重图702是根据深度图710与透射图(transmissionmap)712和植被图(vegetation map)714两者中的至少一个的组合来确定。需要注意，等式(4)和(5)中的基于深度的控制部分是基于深度图710确定，等式(4)和(5)中的权重峰值f(I_RGB,I_NIR)是基于透射图712和/或植被图714确定。每一个透射图712和植被图714都具有与NIR图像层704和RGB图像层706相同的分辨率。透射图712描述了一部分未被散射且到达采集RGB图像504的相机的光，可选地，透射图712是自RGB图像层706生成。植被图714提供植被冠层“绿度”的光学测量，并给出由总的叶绿素、叶面积、冠层覆盖和结构的复合性质产生的光合势的直接测量。可选地，自NIR图像层704和RGB图像层706生成植被图714。传输图712和植被图714中的每一个都可以提供关于是否需要在组合图像层708中减少每个像素中的细节的附加信息。如此，基于深度图710以及透射图712和植被图714两者中的一个或两个的相应像素值的组合来生成权重图702的每个权重w(x,y)。

图8是根据一些实施方式的使用基于深度的权重图702来融合NIR图像502和RGB图像504的整个过程800的流程图。自NIR图像502生成一个或多个NIR图像层704。自RGB图像504生成多个RGB图像层706。在图5所示的示例中，NIR图像502被转换为具有第一分辨率的单个NIR图像层506，多个RGB图像层706包括具有第一分辨率的第一RGB图像层508和具有大于第一分辨率的第二分辨率的第二RGB图像层。在图6所示的另一个示例中，NIR图像502被转换成NIR图像层704，NIR图像层704至少包括具有第一分辨率的第一NIR图像层506和具有大于第一分辨率的第二分辨率的第二NIR图像层606。RGB图像层706至少包括具有第一分辨率的第一RGB图像层508和具有第二分辨率的第二RGB图像层608。此外，在一些实施方式中，RGB图像层706包括具有大于第一分辨率和第二分辨率的第三分辨率的第三图像层614。在一些实施方式中，每个RGB图像层706是拉普拉斯金字塔802的一部分，并且可以基于大气光照水平804进行调整每个RGB图像层706，所述拉普拉斯金字塔802包括自RGB图像504分解得到的多个图像层。

在一些实施方式中，将每个RGB图像层706自RGB颜色空间转换(606)到CIELAB颜色空间(即，L*a*b*)，在CIELAB颜色空间中颜色信息表示为亮度通道(L*)808和与红色、绿色、蓝色和绿色(a*和b*)相关联的两个独特的颜色通道。具有最低分辨率的第一RGB层508的通道808对应于通道L的基础部分812，而具有较高分辨率的每个RGB图像层(例如，层510、608或615)的通道808对应于相应的通道L的细节部分814。类似地，具有最低分辨率的第一NIR图像层506对应于NIR基础部分816，而具有较高分辨率的每个NIR图像层(例如，层606)对应于相应的NIR细节部分818。在一些实施方式中，通过以下方式组合NIR图像502和RGB图像504：使用第一权重设置822将通道L分别和NIR基础部分812和816进行组合(620)，使用第二权重设置826组合(628)通道L和NIR细节部分，并融合(628)组合细节部分和组合基础部分。参考图6，组合细节部分和组合基础部分分别对应于第一组合图像层512和第二组合图像层612。融合部分与亮度通道808相关联并且可与两个独特的颜色通道(a*和b*)的颜色信息重新组合。

在一些实施方式中，基于权重图702确定用于组合通道L和NIR基础部分812和816的第一权重设置822。权重图702至少基于深度图710，可选地，所述深度图710是自RGB图像504得到。基于深度图710确定用于组合通道L和NIR细节部分814和818的第二权重设置826。在一些情况下，权重图702基于深度图710和传输图712的组合。可选地，在一些情况下，权重图702基于深度图710和植被图714的组合。另外地和可选地，在一些情况下，权重图702基于深度图710、传输图712和植被图714的组合。具体地，对于等式(4)或(5)中描述的权重图702，基于深度图710确定基于深度的控制部分，基于透射图712和/或植被图714确定权重峰值f(I_RGB,I_NIR)。下面参考图9对关于生成深度图710的更多细节进行解释。

在一些实现中，基于深度图710和偏差图830来确定用于组合通道L和NIR基础部分812和816的第一权重设置822(即，权重图702)。基于红外(IR)偏差图832或植被图714确定偏差图830。可选地，基于对应的NIR图像层704、深度图710和自RGB图像层706分离的红色通道834来确定植被图714。基于NIR图像层704和亮度通道808的颜色信息可以确定IR偏差图832。如此，基于IR偏差图832、植被图714和深度图710确定第一权重设置822(即，权重图702)。换句话说，对于等式(4)或(5)中描述的权重图702，由深度图710确定基于深度的控制部分，由深度图710以及IR偏差图832和植被图714两者中的至少一个共同确定在等式(4)和(5)中的权重峰值f(I_RGB,I_NIR)。

图9是根据一些实施方式的基于RGB图像504生成深度图710的过程900的流程图。将RGB图像504按比例缩小(902)至深度分辨率，并向深度学习模型904提供RGB图像504，可选地，使用大型深度数据集MegaDepth训练所述深度学习模型904。MegaDepth使用多视角互联网照片集，这是一个几乎无限的数据源，并通过现代基于运动的重建(structure-from-motion)方法和多视角立体(multi-view stereo，MVS)方法生成训练数据。使用MegaDepth训练的深度学习模型904输出深度图905，所述深度图905具有深度分辨率并被进一步按比例放大为具有目标分辨率的初始深度图908。在一些实施方式中，导向滤波(guidedfilter)910被用于处理初始深度图908以滤除噪声或纹理同时保留初始深度图908的尖锐边缘，从而生成经过滤波的深度图912。将初始的深度图908和经过滤波的深度图912中的一个应用为深度图710。深度图710可以进一步用于生成权重图702，基于所述权重图702组合NIR图像层704和RGB图像层706。

相反，在图9中未示出的一些实施方式中，使用立体深度估计模型而不是MegaDepth训练的深度学习模型904，自RGB图像504和NIR图像502生成具有第一分辨率的深度图710。

图10是示出了根据一些实施方式的示例性权重分配函数的基于深度的控制部分1000的示意图。深度图710对应于奇偶校验图。基于奇偶校验图确定等式(5)中的权重分配函数的基于深度的控制部分1000，如下所示：

其中DP(x,y)是对应于深度图710的奇偶校验图中位置(x,y)处的相应像素的视差值。在一些实施方式中，控制指数p在[0.5，0.8]的范围内。在给定基线和用于采集RGB图像504的相机的相机参数(例如，焦距)时，视差图中的每个视差值DP(x,y)与图像深度D(x,y)的倒数相关。每个视差值以像素为单位测量，例如等于20或30个像素。在示例中，控制指数等于0.5。预设截止深度DP_cutoff等于20个像素。

具体来说，随着深度值D(x,y)从截止深度D_cutoff减小到0，视差DP(x,y)从预设截止视差DP_cutoff增加到无穷大，因为基于深度的控制部分1000和权重w(x,y)等于0(即，没有将NIR图像层506组合到组合图像层514中)，透视效果被完全抑制。反之，随着深度值D(x,y)从预设截止深度D_cutoff增加到无限大距离，视差DP(x,y)从预设截止视差DP_cutoff减小到0，随着基于深度的控制部分1000和权重w(x,y)的增加，透视效果得到控制。如图10所示，等式(5)中的权重分配函数的基于深度的控制部分1000在奇偶校验值DP大于20个像素时等于0，在奇偶校验值DP不大于20个像素时被表示为

图11是根据一些实施方式的在计算机系统中实施的图像融合方法1100的流程图。可选地，方法1100由存储在非暂时性计算机可读存储介质中并且由计算机系统的一个或多个处理器(例如，服务器102、客户端设备104或其组合)执行的指令控制。图11中所示的每个操作可以对应于存储在计算机系统200的计算机存储器或计算机可读存储介质(例如，图2中的存储器206)中的指令。计算机可读存储介质可以包括磁盘或光盘存储设备、诸如闪存的固态存储设备或其他非易失性存储设备或装置。存储在计算机可读存储介质上的计算机可读指令可以包括以下中的一种或多种：源代码、汇编语言代码、目标代码或由一个或多个处理器解释的其他指令格式。可以组合方法1000中的一些操作和/或可以改变一些操作的顺序。更具体地，方法1100由存储在图2中的基于深度的图像处理模块250、数据处理模块228或上述两者中的指令控制。

计算机系统获取(1102)场景的NIR图像502和RGB图像504。自NIR图像502生成(1104)具有第一分辨率的第一NIR图像层506。自RGB图像504生成(1106)第一RGB图像层508和第二RGB图像层510。第一RGB图像层508具有第一分辨率。生成深度图710，例如自RGB图像504生成深度图710，深度图710具有第一分辨率。基于根据深度图710的相应像素的深度值D(x,y)和预设截止深度D_cutoff确定的相应权重w(x,y)，计算机系统组合(1110)第一NIR图像层506的每个像素和第一RGB图像层508的相应像素以生成第一组合图像层。基于第一组合图像层512重建(1112)融合图像514。在一些实施方式中，预设截止深度D_cutoff介于5米和10米之间。

在一些实施方式中，对于第一NIR图像层506的每个像素，根据深度图710的相应像素的深度值大于或等于预设截止深度D_cutoff的判定，计算机系统基于第一NIR图像上相应像素的二维位置(x,y)确定第一NIR图像层506的相应像素层506的相应权重w(x,y)。相应权重w(x,y)基于独立于所述深度值D(x,y)的大小的相应第一权重(即，在等式(4)和(5)中的权重峰值f(I_RGB,I_NIR))。此外，在一些实施方式中，对于第一NIR图像层508的每个像素，根据深度图710的相应像素的深度值D(x,y)小于预设截止深度D_cutoff的判定，自相应第一权重值基于深度图的相应像素的深度值D(x,y)缩放第一NIR图像层506的相应像素的相应权重w(x,y)的值710。参考等式(4)或(5)，在一些实施方式中，相应权重w(x,y)的值是，基于深度图710的相应像素的深度值D(x,y)，非线性地缩放相应第一权重值(即，权重峰值f(I_RGB,I_NIR))得到。

在一些实施方式中，根据等式(1)组合第一NIR图像层506的每个像素和第一RGB图像层508的对应像素。此外，在一些实施方式中，对于每个像素，相应权重w(x,y)被表示为包括控制指数p的等式(5)。在一个示例中，控制指数p在[0.5,0.8]的范围内。

在一些实施方式中，在组合第一NIR图像层506的每个像素和第一RGB图像层508的对应像素之前，计算机系统至少部分地基于RGB图像中霾水平和/或NIR图像502中的反射率确定相应权重w(x,y)。例如，参考图6，监测(802)大气光以确定RGB图像504中的霾程度，监测(832)红外偏差并且创建植被图(514)以生成相应权重w(x,y)，特别是当NIR图像502的反射率高于RGB图像504的反射率时。

在一些实施方式中，第一NIR图像层506等同于NIR图像502，同时RGB图像504通过拉普拉斯分解转换成第一RGB图像层508和第二RGB图像层510。自第一组合图像层512和第二组合图像层510重建融合图像514。

参阅图6，在一些实施方式中，第二RGB图像层608具有大于第一分辨率的第二分辨率，深度图710包括第一深度图。计算机系统自NIR图像502生成具有第二分辨率的第二NIR图像层606和具有第二分辨率的第二深度图。基于相应权重组合第二NIR图像层406的每个像素和第二RGB图像层408的对应像素以生成第二组合图像层612，其中，相应权重是基于第二深度图的相应像素的深度值和预设截止深度D_cuoff确定。自第一组合图像层512和第二组合图像层612重建融合图像514。

此外，参阅图6，在一些实施方式中，深度图710包括第一深度图。计算机系统自NIR图像502生成具有第二分辨率的第二NIR图像层606和具有第二分辨率的第二深度图。第二分辨率大于第一分辨率。计算机系统从RGB图像生成具有第三分辨率的第三RGB图像层614。基于相应权重组合第二NIR图像层606的每个像素和第二RGB图像层608的相应像素生成第二组合图像层612，所述相应权重是基于第二深度图的相应像素的深度值和预设截止深度D_cutoff确定。自第一组合图像层512、第二组合图像层612和第三RGB图像层614重建融合图像。此外，在一些实施方式中，NIR图像502通过拉普拉斯分解转换为第二NIR图像层606，第一RGB图像层508、第二RGB图像层608和第三RGB图像层614是自RGB图像通过拉普拉斯分解转换得到并且形成拉普拉斯金字塔。

参照图9，在一些实施方式中，通过从RGB图像504生成具有深度分辨率的深度图像905，并将具有深度分辨率的深度图像905缩放为具有第一分辨率的深度图710，生成具有第一分辨率的深度图710。此外，在一些实施方式中，使用训练数据(例如，MegaDepth)来训练深度学习模型904。深度学习模型904被配置为生成单个RGB图像302中的像素对应的深度信息。基于深度学习模型904的输入要求缩放(902)RGB图像504。通过深度学习模型904使用缩放的RGB图像生成深度图像905。

在一些实施方式中，使用立体深度估计模型自RGB图像504和NIR图像502生成具有第一分辨率的深度图710。

在一些实施方式中，由具有相机的客户端设备104实现方法1100。分别使用相机的主传感器和辅助传感器采集RGB图像504和NIR图像502。RGB图像504具有等于或大于NIR图像502的分辨率。

在一些实施方式中，在服务器102处实现方法1100。由客户端设备104接收NIR图像502和RGB图像504。客户端设备104被配置为分别使用电子设备104的主传感器和辅传感器来采集获RGB图像和NIR图像。RGB图像504的分辨率大于或等于NIR图像502的分辨率。

应当理解，图11中描述的操作的特定顺序仅仅是示例性的，而非旨在指示所描述的顺序是可以执行操作的唯一顺序。本领域的普通技术人员将认识到如本文所述的融合图像的各种方式。另外，应当注意，关于图5-10上面描述细节也可以类似的方式适用于上面关于图11描述的方法1100。为简洁起见，细节不再赘述。

在一个或多个示例中，所描述的功能可以用硬件、软件、固件或其任何组合来实现。如果用软件来实现，则所述功能可以作为一个或多个指令或代码存储在计算机可读介质上或者通过其进行传输并且由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质，其对应于诸如数据存储介质之类的有形介质或者通信介质，所述通信介质包括例如根据通信协议来促进计算机程序从一个地方传送到另一个地方的任何介质。以这种方式，计算机可读介质通常可以对应于(1)非暂时性的有形计算机可读存储介质、或者(2)诸如信号或载波之类的通信介质。数据存储介质可以是可以由一个或多个计算机或者一个或多个处理器访问以取得用于实现在本公开内容中描述的技术的指令、代码和/或数据结构的任何可用的介质。计算机程序产品可以包括计算机可读介质。

在本文的实施方式的描述中使用的术语仅用于描述特定实施方式的目的，并不旨在限制权利要求的范围。如在实施方式和所附权利要求的描述中所使用的，单数形式“一”、“一个”和“所述”旨在也包括复数形式，除非上下文另有明确说明。还应理解，本文所用的术语“和/或”是指并包含一个或多个相关所列项目的任何和所有可能的组合。将进一步理解，当在本说明书中使用时，术语“包括”和/或“包含”指定所述特征、元件和/或部件的存在，但不排除存在或附加一个或多个其他特征、元件、部件和/或其组合。

还应该理解，尽管这里可以使用术语第一、第二等来描述各种元件，但是这些元件不应受这些术语的限制。这些术语仅用于区分一个元件与另一个元件。例如，第一电极可以被称为第二电极，类似地，第二电极可以被称为第一电极，而不脱离实施方式的范围。第一电极和第二电极都是电极，但它们不是相同的电极。

已经出于说明和描述的目的呈现了本申请的描述，并且不旨在以所公开的形式穷举或限制本发明。对于受益于前述描述和相关附图中呈现的教导的本领域普通技术人员来说，许多修改、变型和替换实施方式将是明显的。选择和描述实施方式是为了最好地解释本发明的原理和实际应用，并且使本领域其他技术人员能够理解本发明的各种实施方式，最好地利用基本原理和适合于预期的特定用途的具有各种修改的各种实施方式。因此，应该理解，权利要求的范围不限于所公开的实施方式的具体示例，并且修改和其他实施方式被确定为包括在所附权利要求的范围内。

Claims

1.一种图像融合方法，包括：

获取场景的近红外图像和RGB图像；

自所述近红外图像生成具有第一分辨率的第一近红外图像层；

自所述RGB图像生成第一RGB图像层和第二RGB图像层，所述第一RGB图像层具有所述第一分辨率；

生成具有所述第一分辨率的深度图；

生成第一组合图像层，包括：基于根据所述深度图的相应像素的深度值和预设截止深度确定的相应权重，组合所述第一近红外图像层的每个像素和所述第一RGB图像层的对应像素；以及

基于所述第一组合图像层重建融合图像。

2.根据权利要求1所述的方法，还包括：对于所述第一近红外图像层的每个像素，

根据所述深度图的所述相应像素的所述深度值大于或等于所述预设截止深度的判定，基于所述第一近红外图像层上所述相应像素的二维位置(x，y)确定所述第一近红外图像层的所述相应像素的所述相应权重，其中，所述相应权重基于独立于所述深度值的大小的相应第一权重。

3.根据权利要求2所述的方法，还包括：对于所述第一近红外图像层的每个像素，

根据所述深度图的所述相应像素的所述深度值小于所述预设截止深度的判定，基于所述深度图的所述相应像素的所述深度值，自所述相应第一权重值缩放所述第一近红外图像层的所述相应像素的所述相应权重的值。

4.根据权利要求3所述的方法，其中，所述相应权重的值是，基于所述深度图的所述相应像素的所述深度值，自所述相应第一权重值进行非线性缩放得到。

5.根据权利要求1所述的方法，其中，使用以下公式组合所述第一近红外图像层的每个像素和所述第一RGB图像层的对应像素：

I_COMB(x,y)＝w(x,y)×I_NIR(x,y)+(1-w(x,y))×I_RGB(x,y)

其中，I_RGB(x,y)和I_NIR(x,y)分别是所述第一RGB图像层和所述第一近红外图像层中位置(x，y)处的所述相应像素的值，w(x，y)是所述相应权重。

6.根据权利要求5所述的方法，其中，对于每个像素，所述相应权重表示为：

其中，D(x,y)是所述深度图中位置(x,y)处的所述相应像素的所述深度值，D_cutoff为所述预设截止深度，f(I_RGB(x,y),I_NIR(x,y))为权重峰值，p为控制指数。

7.根据权利要求5所述的方法，其中，对于每个像素，所述相应权重表示为：

其中，DP(x,y)为视差图中位置(x,y)处的所述相应像素的视差值，D_cutoff为预设截止视差，f(I_RGB(x,y),I_NIR(x,y))为权重峰值，p为控制指数，所述视差值与所述深度值相关，并且所述预设截止视差与所述预设截止深度相关。

8.根据权利要求7所述的方法，其中，所述控制指数p在[0.5，0.8]的范围内。

9.根据权利要求1-8中任一项所述的方法，在组合所述第一近红外图像层的每个像素和所述第一RGB图像层的对应像素之前，还包括：

至少部分地基于所述RGB图像中的霾水平和/或所述近红外图像中的反射率，确定所述相应权重。

10.根据权利要求1-9中任一项所述的方法，其中，所述预设截止深度在5到10米之间。

11.根据权利要求1-10中任一项所述的方法，其中，所述第一近红外图像层与所述近红外图像相同，所述RGB图像通过拉普拉斯分解转换为所述第一RGB图像层和所述第二RGB图像层，所述融合图像是自所述第一组合图像层和所述第二RGB图像层重建得到。

12.根据权利要求1-11中任一项所述的方法，其中，所述第二RGB图像层具有大于所述第一分辨率的第二分辨率，所述深度图包括第一深度图，所述方法还包括：

自所述近红外图像生成具有所述第二分辨率的第二近红外图像层；

生成具有所述第二分辨率的第二深度图；

生成第二组合图像层，包括：基于根据所述第二深度图的相应像素的深度值和所述预设截止深度确定的相应权重，组合所述第二近红外图像层的每个像素和所述第二RGB图像层的相应像素；以及

所述融合图像是自所述第一组合图像层和所述第二组合图像层重建得到。

13.根据权利要求1-11中任一项所述的方法，其中，所述深度图包括第一深度图，所述方法还包括：

自所述近红外图像生成具有第二分辨率的第二近红外图像层，所述第二分辨率大于所述第一分辨率；

生成具有所述第二分辨率的第二深度图；

自RGB图像生成具有第三分辨率的第三RGB图像层；以及

生成第二组合图像层，包括：基于根据所述第二深度图的相应像素的深度值和所述预设截止深度确定的相应权重，组合所述第二近红外图像层的每个像素和所述第二RGB图像层的相应像素；

其中，所述融合图像是自所述第一组合图像层、所述第二组合图像层和所述第三RGB图像层重建得到。

14.根据权利要求13所述的方法，其中，所述第二近红外图像层是自所述近红外图像经由拉普拉斯分解转换得到，所述第一RGB图像层、所述第二RGB图像层和所述第三RGB图像层是自所述RGB图像经由拉普拉斯分解转换得到且形成拉普拉斯金字塔。

15.根据权利要求1-14中任一项所述的方法，其中，生成具有所述第一分辨率的所述深度图，还包括：

自所述RGB图像生成具有深度分辨率的深度图；以及

将具有所述深度分辨率的所述深度图缩放成具有所述第一分辨率的所述深度图。

16.根据权利要求15所述的方法，还包括：

使用训练数据训练深度学习模型，所述机器学习模型被配置为产生对应单个RGB图像中的像素的深度信息；

基于所述深度学习模型的输入要求缩放所述RGB图像；

利用所述深度学习模型，使用所述缩放的RGB图像生成所述深度图。

17.根据权利要求1-14中任一项所述的方法，其中，具有所述第一分辨率的所述深度图是利用立体深度估计模型自所述RGB图像和所述近红外图像生成。

18.根据权利要求1-17中任一项所述的方法，其中，所述方法由具有相机的电子设备实现，且获取所述近红外图像和所述RGB图像包括：

使用所述相机的主传感器和副传感器分别采集所述RGB图像和所述近红外图像，所述RGB图像的分辨率大于所述近红外图像的分辨率。

19.根据权利要求1-17中任一项所述的方法，其中，所述方法在服务器上实现，且获取所述近红外图像和所述RGB图像包括：

从客户端设备接收所述RGB图像和所述近红外图像，其中，所述客户端设备被配置为使用电子设备的主传感器和副传感器分别采集所述RGB图像和所述近红外图像，并且所述RGB图像的分辨率大于所述近红外图像的分辨率。

20.一种计算机系统，包括：

一个或多个处理器；以及

存储有指令的存储器，当所述指令由所述一个或多个处理器执行时，使所述处理器执行权利要求1-19中任一项所述的方法。

21.一种非暂态计算机可读介质，存储有指令，且当所述指令由一个或多个处理器执行时，使所述处理器执行权利要求1-19中任一项所述的方法。