CN112733731B

CN112733731B - 基于单目多模态深度图生成方法、系统、设备和存储介质

Info

Publication number: CN112733731B
Application number: CN202110038637.XA
Authority: CN
Inventors: 廉洁; 张树; 俞益洲; 李一鸣; 乔昕
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2021-01-12
Filing date: 2021-01-12
Publication date: 2022-02-11
Anticipated expiration: 2041-01-12
Also published as: CN112733731A

Abstract

本发明提供了一种基于单目多模态深度图生成方法、系统、设备和存储介质，属于图像处理技术领域，解决现有深度图的获取方式无法满足全天候多场景的要求的技术问题。该方法包括：创建一个双支感知神经网络，将红外图像和可见光图像分别输入双支感知神经网络并生成红外特征图和可见光特征图；在双支感知神经网络的下采样过程中逐级将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图；将特征融合图经过双支感知神经网络的上采样生成一个全新的深度图。以红外图像和可见光图像两种模态的图像数据为基准在特征层面进行跨模态融合，最终生成集可见光图像和红外图像优点于一身的全新的深度图，可在全天候多场景下获得深度图。

Description

基于单目多模态深度图生成方法、系统、设备和存储介质

技术领域

本发明涉及图像处理技术领域，具体涉及基于单目多模态深度图生成方法、系统、设备和存储介质。

背景技术

深度图也被称为距离图，其像素值代表图像采集器到场景中各点的距离，这种深度信息有助于理解物体与环境之间的几何关系，在增强现实、在聚焦、目标检测及辅助盲人感知环境等领域具有重要作用。深度图可由深度相机获取，现有深度相机的成像方式大致可以分为三种，即基于结构光、ToF(Time of flight)和纯双目。然而，这三种成像方式均无法满足全天候多场景的深度图获取。现有技术中大多使用单一模态数据对已有深度图进行重建或增强。其中纯双目是唯一可以在户外使用的深度相机，但在户外光线条件较差时，纯双目深度相机也无法获得可用的深度图。基于这一限制，上述现有技术的应用场景有限。其次，仅使用单一模态的数据进行深度图的生成获得的效果并不理想。

发明内容

鉴于上述问题，本发明实施例一种基于单目多模态深度图生成方法、系统、设备和存储介质，解决现有深度图的获取方式无法满足全天候多场景的要求的技术问题。

为解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供一种基于单目多模态深度图生成方法，该方法包括：

创建一个双支感知神经网络，将红外图像和可见光图像分别输入双支感知神经网络并生成红外特征图和可见光特征图；

在双支感知神经网络的下采样过程中逐级将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图；

将特征融合图经过双支感知神经网络的上采样生成一个全新的深度图。

一实施例中，所述将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图包括：

将红外特征图表示为：

式中，m_i代表红外特征图每个像素点的特征向量；K代表像素点个数；

针对红外特征图中的每一个像素点在可见光特征图对应像素点位置周围进行采样获得可见光邻域节点集合

式中，u_n代表从可见光特征图采集的采样点；S代表采样点的个数；

将每一个可见光邻域节点集合传递给红外特征图中对应的像素点，红外特征图根据可见光邻域节点集合融合为红外融合特征图，其过程表示为：m'_i＝RELU(β_i∑_n∈U(n)E_i,nu_n+m_i)，

式中，m'_i代表红外融合特征图；β_i代表传递参数；E_i，j代表为每个u_n对m_i的贡献度；

将可见光特征图表示为：

式中，n_i代表可见光特征图每个像素点的特征向量；K代表像素点个数；

针对可见光特征图中的每一个像素点在红外特征图对应像素点位置周围进行采样获得红外邻域节点集合

式中，u_m代表从红外光特征图采集的采样点；S代表采样点的个数；

将每一个红外邻域节点集合传递给可见光特征图中对应的像素点，可见光特征图根据红外邻域节点集合融合为可见光融合特征图，其过程表示为：n'_i＝RELU(β_i∑_m∈U(m)E_i, _mu_m+n_i)；

式中，n'_i代表可见光融合特征图；β_i代表传递参数；E_i，j代表为每个u_m对n_i的贡献度；

将红外融合特征图与可见光融合特征图拼接为特征融合图。

一实施例中，还包括针对可见光邻域节点集合

进行优化，

将可见光邻域节点集合

中的采样点定义为原始可见光采样点；

优化后的可见光采样点以可见光原始采样点为基点进行偏移获取进行特征融合的采样位置，其过程表示为v_n＝SAMPLE(u_n|N,W_ju_n+b_j)，

式中，u_n|N代表将可见光采样点u_n限制在可见光特征图N中；W_ju_n+b_j代表优化后的可见光采样点相对于原始规则中可见光原始采样点的偏移；W_j代表卷积权重参数；b_j代表卷积偏置参数；

经过优化后的可见光邻域节点集合转变为

一实施例中，还包括针对红外邻域节点集合

进行优化，

将红外邻域节点集合

中的采样点定义为原始红外采样点；

优化后的红外采样点以红外原始采样点为基点进行偏移获取进行特征融合的采样位置，其过程表示为：v_m＝SAMPLE(u_m|M,(W_ju_m+b_j))，

式中，u_m|M代表将红外采样点u_m限制在红外特征图M中；W_ju_m+b_j代表优化后的红外采样点相对于原始规则中红外原始采样点的偏移；W_j代表卷积权重参数；b_j代表卷积偏置参数；

经过优化后的可见光邻域节点集合转变为

第二方面，本发明提供一种基于单目多模态深度图生成系统，该系统包括：

创建模块：用于创建一个双支感知神经网络，将红外图像和可见光图像分别输入双支感知神经网络并生成红外特征图和可见光特征图；

融合模块：用于在双支感知神经网络的下采样过程中逐级将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图；

生成模块：用于将特征融合图经过双支感知神经网络的上采样生成一个全新的深度图。

一实施例中，所述融合模块中包括：

第一融合模块：用于将红外特征图表示为：

式中，m'_i代表红外融合特征图；β_i代表传递参数；E_i,j代表为每个u_n对m_i的贡献度；

第二融合模块：用于将可见光特征图表示为：

将每一个红外邻域节点集合传递给可见光特征图中对应的像素点，可见光特征图根据红外邻域节点集合融合为可见光融合特征图，其过程表示为：n'_i＝RELU(β_i∑_m∈U(m)E_i, _mu_m+n_i)，

第三融合模块：用于将红外融合特征图与可见光融合特征图拼接为特征融合图。

一实施例中，还包括第一优化模块，

所述第一优化模块用于将可见光邻域节点集合

中的采样点定义为原始可见光采样点；

经过优化后的可见光邻域节点集合转变为

一实施例中，还包括第二优化模块，

所述第二优化模块用于将红外邻域节点集合

中的采样点定义为原始红外采样点；

经过优化后的红外邻域节点集合转变为

第三方面，本发明提供一种电子设备，包括：

处理器、存储器、与网关通信的接口；

存储器用于存储程序和数据，所述处理器调用存储器存储的程序，以执行第一方面任一项提供的一种基于单目多模态深度图生成方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质包括程序，所述程序在被处理器执行时用于执行第一方面任一项提供的一种基于单目多模态深度图生成方法。

从上述描述可知，本发明实施例提供一种基于单目多模态深度图生成方法、系统、设备和存储介质，以红外图像和可见光图像两种模态的图像数据为基准在特征层面进行跨模态融合，逐级充分学习神经网络中浅层信息和深层信息使得特征表达更加丰富，最终生成集可见光图像和红外图像优点于一身的全新的深度图，可在全天候多场景下获得深度图。

附图说明

图1所示为本发明一实施例提供的一种基于单目多模态深度图生成方法中双支感知神经网络的结构示意图；

图2所示为本发明一实施例提供的一种基于单目多模态深度图生成方法的流程示意图；

图3所示为本发明一实施例提供的一种基于单目多模态深度图生成系统的结构示意图；

图4所示为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于现有技术的缺点，本发明实施例提供了一种基于单目多模态深度图生成方法的具体实施方式，如图1和图2所示，该方法具体包括：

S110:创建一个双支感知神经网络，将红外图像和可见光图像分别输入双支感知神经网络并生成红外特征图和可见光特征图；

具体地，双支感知神网络由两个输入端口、下采样、上采样和一个输出端口构成。下采样采用ResNet50中的layer1-layer4作为骨干网络(Backbone)，用于提取红外图像和可见光图像中的特征信息，经过下采样将红外图像和可见光图像的图像分辨率缩小16倍；上采样采用四个反卷积和卷积交替网络(即layer5-layer8)组成，用于将图像分辨率放大形成清晰图像。红外图像可以不受光照条件影响即可收集。可见光图像分辨率较高并且具有细腻的纹理信息。红外图像和可见光图像是针对同一环境同一目标获取的。红外特征图为红外图像经过卷积操作形成的包含红外图像中每个像素点图像特征的集合。可见光特征图为可见光图像经过卷积操作形成的包含可见光图像中每个像素点图像特征的集合。图像特征包括颜色特征、纹理特征、形状特征以及空间关系特征。

S120：在双支感知神经网络的下采样过程中逐级将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图；

具体地，现有特征数据融合大多选择在神经网络的深层位置进行特征融合，但是这种位置的选择忽略了神经网络中浅层信息对目标任务的贡献。为了全面充分的利用神经网络中深层信息和浅层信息，红外特征图和可见光特征图在神经网络中的每个层级间都会进行特征数据的融合，形成特征层面的融合。在每个层级间特征数据的融合过程中，红外特征图中每个像素点均会感知可见光特征图相应位置像素点的特征，将感知的特征融合到对应的像素点中，同时可见光特征图中每个像素点也均会感知红外特征图相应位置像素点的特征，将感知的特征融合到对应的像素点中，构成双向数据传递机制，完成跨模态融合。红外特征图和可见光特征图经过跨模态融合后合二为一形成特征融合图。

S130：将特征融合图经过双支感知神经网络的上采样生成一个全新的深度图。

具体地，特征融合图为下采样的输入信号，经过卷积核过滤产生特征映射，将特征融合图的维度独逐步由小变大。利用反卷积和卷积交替网络生成全新的深度图。

在本实施例中，以红外图像和可见光图像两种模态的图像数据为基准在特征层面进行跨模态融合，逐级充分学习神经网络中浅层信息和深层信息使得特征表达更加丰富，最终生成集可见光图像和红外图像优点于一身的全新的深度图，可在全天候多场景下获得深度图。

基于上述实施例，在本发明一实施例中，S120中包括：

将红外特征图表示为：

式中，m_i代表红外特征图每个像素点的特征向量；K代表像素点个数。

式中u_n代表从可见光特征图采集的采样点；S代表采样点的个数。

将每一个可见光邻域节点集合传递给红外特征图中对应的像素点，红外特征图根据可见光邻域节点集合融合为红外融合特征图，其过程表示为：m'_i＝RELU(β_i∑_n∈U(n)E_i,nu_n+m_i),

式中，m'_i代表红外融合特征图；β_i代表传递参数；E_i，n代表为每个u_n对m_i的贡献度。

将可见光特征图表示为：

式中，n_i代表可见光特征图每个像素点的特征向量；K代表像素点个数。

式中,u_m代表从红外光特征图采集的采样点；S代表采样点的个数。

式中，n'_i代表可见光融合特征图；β_i代表传递参数；E_i，m代表为每个u_m对n_i的贡献度。

由上述步骤可有构成一个双向数据传递过程，即

将红外融合特征图与可见光融合特征图拼接为特征融合图。

在本实施例中，在可见光图像和红外图形的融合过程中构成一个双向数据传递机制，不同于使用直接相加或者拼接的特征融合机制，双向数据传递机制可以自主学习到不同模态图像对场景深度估计的贡献，使得生成的深度图特征表达更加丰富。

在本实施例中，针对可见光邻域节点集合

进行优化，

将可见光邻域节点集合

中的采样点定义为原始可见光采样点；

式中，u_n|N代表将可见光采样点u_n限制在可见光特征图N中；W_ju_n+b_j代表优化后的可见光采样点相对于原始规则中可见光原始采样点的偏移；W_j代表卷积权重参数；b_j代表卷积偏置参数。

经过优化后的可见光邻域节点集合转变为

对红外邻域节点集合

进行优化，

将红外邻域节点集合

中的采样点定义为原始红外采样点；

式中，u_m|M代表将红外采样点u_m限制在红外特征图M中；W_ju_m+b_j代表优化后的红外采样点相对于原始规则中红外原始采样点的偏移；W_j代表卷积权重参数；b_j代表卷积偏置参数。

经过优化后的红外邻域节点集合转变为

在本实施例中，红外特征图和可见光特征图在跨模融合过程中，在特征层面使得采样点可以在目标像素点周围游走，从而获取最适合进行特征融合的采样位置，解决了单目采集不同模态数据之间像素点不对齐的配准问题，同时避免了现有技术在原始图像先进行配准在送入神经网络带来的额外成本消耗。

基于同一发明构思，本申请实施例还提供了一种基于单目多模态深度图生成系统，可以用于实现上述实施例所描述的一种基于单目多模态深度图生成方法，如下面的实施例所述。由于一种基于单目多模态深度图生成系统解决问题的原理与一种基于单目多模态深度图生成方法相似，因此一种基于单目多模态深度图生成系统的实施可以参见一种基于单目多模态深度图生成方法实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的一种基于单目多模态深度图生成系统统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本发明提供了一种基于单目多模态深度图生成系统，如图3所示。在图3中，该系统包括：

创建模块210：用于创建一个双支感知神经网络，将红外图像和可见光图像分别输入双支感知神经网络并生成红外特征图和可见光特征图；

融合模块220：用于在双支感知神经网络的下采样过程中逐级将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图；

生成模块230：用于将特征融合图经过双支感知神经网络的上采样生成一个全新的深度图。

基于上述实施例，在本发明一实施例一种基于单目多模态深度图生成系统中，融合模块220中包括：

第一融合模块221：用于将红外特征图表示为：

将每一个可见光邻域节点集合传递给红外特征图中对应的像素点，红外特征图根据可见光邻域节点集合融合为红外融合特征图，其过程表示为：m'_i＝RELU(β_i∑_n∈U(n)E_i,nu_n+m_i)；

第二融合模块222：用于将可见光特征图表示为：

将每一个红外邻域节点集合传递给可见光特征图中对应的像素点，可见光特征图根据红外邻域节点集合融合为可见光融合特征图，其过程表示为：n'_i＝RELU(β_i∑_m∈U(m)E_i,mu_m+n_i)；

第三融合模块223：用于将红外融合特征图与可见光融合特征图拼接为特征融合图。

基于上述实施例，在本发明一实施例一种基于单目多模态深度图生成系统中，还包括第一优化模块224，

第一优化模块224用于将可见光邻域节点集合

中的采样点定义为原始可见光采样点；

经过优化后的可见光邻域节点集合转变为

基于上述实施例，在本发明一实施例一种基于单目多模态深度图生成系统中，还包括第二优化模块225，

第二优化模块225用于将红外邻域节点集合

中的采样点定义为原始红外采样点；

优化后的红外采样点以红外原始采样点为基点进行偏移获取进行特征融合的采样位置，其过程表示为：v_m＝SAMPLE(u_m|M,(W_ju_m+b_j))，经过优化后的可见光邻域节点集合转变为

本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式，参见图4，电子设备300具体包括如下内容：

处理器310、存储器320、通信单元330和总线340；

其中，处理器310、存储器320、通信单元330通过总线340完成相互间的通信；通信单元330用于实现服务器端设备以及终端设备等相关设备之间的数据传输。

处理器310用于调用存储器320中的计算机程序，处理器执行计算机程序时实现上述实施例中的基于单目多模态深度图生成方法中的全部步骤。

本领域普通技术人员应理解：存储器可以是，但不限于，随机存取存储器(RandomAccess Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(ErasableProgrammable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(ElectricErasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。进一步地，上述存储器内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质包括程序，所述程序在被处理器执行时用于执行前述任一方法实施例提供的一种基于单目多模态深度图生成方法。

本领域普通技术人员应理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质，具体的介质类型本申请不做限制。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。