CN112733731B - 基于单目多模态深度图生成方法、系统、设备和存储介质 - Google Patents

基于单目多模态深度图生成方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN112733731B
CN112733731B CN202110038637.XA CN202110038637A CN112733731B CN 112733731 B CN112733731 B CN 112733731B CN 202110038637 A CN202110038637 A CN 202110038637A CN 112733731 B CN112733731 B CN 112733731B
Authority
CN
China
Prior art keywords
visible light
infrared
fusion
sampling
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110038637.XA
Other languages
English (en)
Other versions
CN112733731A (zh
Inventor
廉洁
张树
俞益洲
李一鸣
乔昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Original Assignee
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenrui Bolian Technology Co Ltd, Shenzhen Deepwise Bolian Technology Co Ltd filed Critical Beijing Shenrui Bolian Technology Co Ltd
Priority to CN202110038637.XA priority Critical patent/CN112733731B/zh
Publication of CN112733731A publication Critical patent/CN112733731A/zh
Application granted granted Critical
Publication of CN112733731B publication Critical patent/CN112733731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于单目多模态深度图生成方法、系统、设备和存储介质,属于图像处理技术领域,解决现有深度图的获取方式无法满足全天候多场景的要求的技术问题。该方法包括:创建一个双支感知神经网络,将红外图像和可见光图像分别输入双支感知神经网络并生成红外特征图和可见光特征图;在双支感知神经网络的下采样过程中逐级将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图;将特征融合图经过双支感知神经网络的上采样生成一个全新的深度图。以红外图像和可见光图像两种模态的图像数据为基准在特征层面进行跨模态融合,最终生成集可见光图像和红外图像优点于一身的全新的深度图,可在全天候多场景下获得深度图。

Description

基于单目多模态深度图生成方法、系统、设备和存储介质
技术领域
本发明涉及图像处理技术领域,具体涉及基于单目多模态深度图生成方法、系统、设备和存储介质。
背景技术
深度图也被称为距离图,其像素值代表图像采集器到场景中各点的距离,这种深度信息有助于理解物体与环境之间的几何关系,在增强现实、在聚焦、目标检测及辅助盲人感知环境等领域具有重要作用。深度图可由深度相机获取,现有深度相机的成像方式大致可以分为三种,即基于结构光、ToF(Time of flight)和纯双目。然而,这三种成像方式均无法满足全天候多场景的深度图获取。现有技术中大多使用单一模态数据对已有深度图进行重建或增强。其中纯双目是唯一可以在户外使用的深度相机,但在户外光线条件较差时,纯双目深度相机也无法获得可用的深度图。基于这一限制,上述现有技术的应用场景有限。其次,仅使用单一模态的数据进行深度图的生成获得的效果并不理想。
发明内容
鉴于上述问题,本发明实施例一种基于单目多模态深度图生成方法、系统、设备和存储介质,解决现有深度图的获取方式无法满足全天候多场景的要求的技术问题。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种基于单目多模态深度图生成方法,该方法包括:
创建一个双支感知神经网络,将红外图像和可见光图像分别输入双支感知神经网络并生成红外特征图和可见光特征图;
在双支感知神经网络的下采样过程中逐级将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图;
将特征融合图经过双支感知神经网络的上采样生成一个全新的深度图。
一实施例中,所述将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图包括:
将红外特征图表示为:
Figure GDA0003362059520000021
式中,mi代表红外特征图每个像素点的特征向量;K代表像素点个数;
针对红外特征图中的每一个像素点在可见光特征图对应像素点位置周围进行采样获得可见光邻域节点集合
Figure GDA0003362059520000022
式中,un代表从可见光特征图采集的采样点;S代表采样点的个数;
将每一个可见光邻域节点集合传递给红外特征图中对应的像素点,红外特征图根据可见光邻域节点集合融合为红外融合特征图,其过程表示为:m'i=RELU(βin∈U(n)Ei,nun+mi),
式中,m'i代表红外融合特征图;βi代表传递参数;Ei,j代表为每个un对mi的贡献度;
将可见光特征图表示为:
Figure GDA0003362059520000023
式中,ni代表可见光特征图每个像素点的特征向量;K代表像素点个数;
针对可见光特征图中的每一个像素点在红外特征图对应像素点位置周围进行采样获得红外邻域节点集合
Figure GDA0003362059520000024
式中,um代表从红外光特征图采集的采样点;S代表采样点的个数;
将每一个红外邻域节点集合传递给可见光特征图中对应的像素点,可见光特征图根据红外邻域节点集合融合为可见光融合特征图,其过程表示为:n'i=RELU(βim∈U(m)Ei, mum+ni);
式中,n'i代表可见光融合特征图;βi代表传递参数;Ei,j代表为每个um对ni的贡献度;
将红外融合特征图与可见光融合特征图拼接为特征融合图。
一实施例中,还包括针对可见光邻域节点集合
Figure GDA0003362059520000031
进行优化,
将可见光邻域节点集合
Figure GDA0003362059520000032
中的采样点定义为原始可见光采样点;
优化后的可见光采样点以可见光原始采样点为基点进行偏移获取进行特征融合的采样位置,其过程表示为vn=SAMPLE(un|N,Wjun+bj),
式中,un|N代表将可见光采样点un限制在可见光特征图N中;Wjun+bj代表优化后的可见光采样点相对于原始规则中可见光原始采样点的偏移;Wj代表卷积权重参数;bj代表卷积偏置参数;
经过优化后的可见光邻域节点集合转变为
Figure GDA0003362059520000033
一实施例中,还包括针对红外邻域节点集合
Figure GDA0003362059520000034
进行优化,
将红外邻域节点集合
Figure GDA0003362059520000035
中的采样点定义为原始红外采样点;
优化后的红外采样点以红外原始采样点为基点进行偏移获取进行特征融合的采样位置,其过程表示为:vm=SAMPLE(um|M,(Wjum+bj)),
式中,um|M代表将红外采样点um限制在红外特征图M中;Wjum+bj代表优化后的红外采样点相对于原始规则中红外原始采样点的偏移;Wj代表卷积权重参数;bj代表卷积偏置参数;
经过优化后的可见光邻域节点集合转变为
Figure GDA0003362059520000041
第二方面,本发明提供一种基于单目多模态深度图生成系统,该系统包括:
创建模块:用于创建一个双支感知神经网络,将红外图像和可见光图像分别输入双支感知神经网络并生成红外特征图和可见光特征图;
融合模块:用于在双支感知神经网络的下采样过程中逐级将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图;
生成模块:用于将特征融合图经过双支感知神经网络的上采样生成一个全新的深度图。
一实施例中,所述融合模块中包括:
第一融合模块:用于将红外特征图表示为:
Figure GDA0003362059520000042
式中,mi代表红外特征图每个像素点的特征向量;K代表像素点个数;
针对红外特征图中的每一个像素点在可见光特征图对应像素点位置周围进行采样获得可见光邻域节点集合
Figure GDA0003362059520000043
式中,un代表从可见光特征图采集的采样点;S代表采样点的个数;
将每一个可见光邻域节点集合传递给红外特征图中对应的像素点,红外特征图根据可见光邻域节点集合融合为红外融合特征图,其过程表示为:m'i=RELU(βin∈U(n)Ei,nun+mi),
式中,m'i代表红外融合特征图;βi代表传递参数;Ei,j代表为每个un对mi的贡献度;
第二融合模块:用于将可见光特征图表示为:
Figure GDA0003362059520000051
式中,ni代表可见光特征图每个像素点的特征向量;K代表像素点个数;
针对可见光特征图中的每一个像素点在红外特征图对应像素点位置周围进行采样获得红外邻域节点集合
Figure GDA0003362059520000052
式中,um代表从红外光特征图采集的采样点;S代表采样点的个数;
将每一个红外邻域节点集合传递给可见光特征图中对应的像素点,可见光特征图根据红外邻域节点集合融合为可见光融合特征图,其过程表示为:n'i=RELU(βim∈U(m)Ei, mum+ni),
式中,n'i代表可见光融合特征图;βi代表传递参数;Ei,j代表为每个um对ni的贡献度;
第三融合模块:用于将红外融合特征图与可见光融合特征图拼接为特征融合图。
一实施例中,还包括第一优化模块,
所述第一优化模块用于将可见光邻域节点集合
Figure GDA0003362059520000053
中的采样点定义为原始可见光采样点;
优化后的可见光采样点以可见光原始采样点为基点进行偏移获取进行特征融合的采样位置,其过程表示为vn=SAMPLE(un|N,Wjun+bj),
式中,un|N代表将可见光采样点un限制在可见光特征图N中;Wjun+bj代表优化后的可见光采样点相对于原始规则中可见光原始采样点的偏移;Wj代表卷积权重参数;bj代表卷积偏置参数;
经过优化后的可见光邻域节点集合转变为
Figure GDA0003362059520000054
一实施例中,还包括第二优化模块,
所述第二优化模块用于将红外邻域节点集合
Figure GDA0003362059520000061
中的采样点定义为原始红外采样点;
优化后的红外采样点以红外原始采样点为基点进行偏移获取进行特征融合的采样位置,其过程表示为:vm=SAMPLE(um|M,(Wjum+bj)),
式中,um|M代表将红外采样点um限制在红外特征图M中;Wjum+bj代表优化后的红外采样点相对于原始规则中红外原始采样点的偏移;Wj代表卷积权重参数;bj代表卷积偏置参数;
经过优化后的红外邻域节点集合转变为
Figure GDA0003362059520000062
第三方面,本发明提供一种电子设备,包括:
处理器、存储器、与网关通信的接口;
存储器用于存储程序和数据,所述处理器调用存储器存储的程序,以执行第一方面任一项提供的一种基于单目多模态深度图生成方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质包括程序,所述程序在被处理器执行时用于执行第一方面任一项提供的一种基于单目多模态深度图生成方法。
从上述描述可知,本发明实施例提供一种基于单目多模态深度图生成方法、系统、设备和存储介质,以红外图像和可见光图像两种模态的图像数据为基准在特征层面进行跨模态融合,逐级充分学习神经网络中浅层信息和深层信息使得特征表达更加丰富,最终生成集可见光图像和红外图像优点于一身的全新的深度图,可在全天候多场景下获得深度图。
附图说明
图1所示为本发明一实施例提供的一种基于单目多模态深度图生成方法中双支感知神经网络的结构示意图;
图2所示为本发明一实施例提供的一种基于单目多模态深度图生成方法的流程示意图;
图3所示为本发明一实施例提供的一种基于单目多模态深度图生成系统的结构示意图;
图4所示为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于现有技术的缺点,本发明实施例提供了一种基于单目多模态深度图生成方法的具体实施方式,如图1和图2所示,该方法具体包括:
S110:创建一个双支感知神经网络,将红外图像和可见光图像分别输入双支感知神经网络并生成红外特征图和可见光特征图;
具体地,双支感知神网络由两个输入端口、下采样、上采样和一个输出端口构成。下采样采用ResNet50中的layer1-layer4作为骨干网络(Backbone),用于提取红外图像和可见光图像中的特征信息,经过下采样将红外图像和可见光图像的图像分辨率缩小16倍;上采样采用四个反卷积和卷积交替网络(即layer5-layer8)组成,用于将图像分辨率放大形成清晰图像。红外图像可以不受光照条件影响即可收集。可见光图像分辨率较高并且具有细腻的纹理信息。红外图像和可见光图像是针对同一环境同一目标获取的。红外特征图为红外图像经过卷积操作形成的包含红外图像中每个像素点图像特征的集合。可见光特征图为可见光图像经过卷积操作形成的包含可见光图像中每个像素点图像特征的集合。图像特征包括颜色特征、纹理特征、形状特征以及空间关系特征。
S120:在双支感知神经网络的下采样过程中逐级将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图;
具体地,现有特征数据融合大多选择在神经网络的深层位置进行特征融合,但是这种位置的选择忽略了神经网络中浅层信息对目标任务的贡献。为了全面充分的利用神经网络中深层信息和浅层信息,红外特征图和可见光特征图在神经网络中的每个层级间都会进行特征数据的融合,形成特征层面的融合。在每个层级间特征数据的融合过程中,红外特征图中每个像素点均会感知可见光特征图相应位置像素点的特征,将感知的特征融合到对应的像素点中,同时可见光特征图中每个像素点也均会感知红外特征图相应位置像素点的特征,将感知的特征融合到对应的像素点中,构成双向数据传递机制,完成跨模态融合。红外特征图和可见光特征图经过跨模态融合后合二为一形成特征融合图。
S130:将特征融合图经过双支感知神经网络的上采样生成一个全新的深度图。
具体地,特征融合图为下采样的输入信号,经过卷积核过滤产生特征映射,将特征融合图的维度独逐步由小变大。利用反卷积和卷积交替网络生成全新的深度图。
在本实施例中,以红外图像和可见光图像两种模态的图像数据为基准在特征层面进行跨模态融合,逐级充分学习神经网络中浅层信息和深层信息使得特征表达更加丰富,最终生成集可见光图像和红外图像优点于一身的全新的深度图,可在全天候多场景下获得深度图。
基于上述实施例,在本发明一实施例中,S120中包括:
将红外特征图表示为:
Figure GDA0003362059520000091
式中,mi代表红外特征图每个像素点的特征向量;K代表像素点个数。
针对红外特征图中的每一个像素点在可见光特征图对应像素点位置周围进行采样获得可见光邻域节点集合
Figure GDA0003362059520000092
式中un代表从可见光特征图采集的采样点;S代表采样点的个数。
将每一个可见光邻域节点集合传递给红外特征图中对应的像素点,红外特征图根据可见光邻域节点集合融合为红外融合特征图,其过程表示为:m'i=RELU(βin∈U(n)Ei,nun+mi),
式中,m'i代表红外融合特征图;βi代表传递参数;Ei,n代表为每个un对mi的贡献度。
将可见光特征图表示为:
Figure GDA0003362059520000093
式中,ni代表可见光特征图每个像素点的特征向量;K代表像素点个数。
针对可见光特征图中的每一个像素点在红外特征图对应像素点位置周围进行采样获得红外邻域节点集合
Figure GDA0003362059520000094
式中,um代表从红外光特征图采集的采样点;S代表采样点的个数。
将每一个红外邻域节点集合传递给可见光特征图中对应的像素点,可见光特征图根据红外邻域节点集合融合为可见光融合特征图,其过程表示为:n'i=RELU(βim∈U(m)Ei, mum+ni);
式中,n'i代表可见光融合特征图;βi代表传递参数;Ei,m代表为每个um对ni的贡献度。
由上述步骤可有构成一个双向数据传递过程,即
Figure GDA0003362059520000095
将红外融合特征图与可见光融合特征图拼接为特征融合图。
在本实施例中,在可见光图像和红外图形的融合过程中构成一个双向数据传递机制,不同于使用直接相加或者拼接的特征融合机制,双向数据传递机制可以自主学习到不同模态图像对场景深度估计的贡献,使得生成的深度图特征表达更加丰富。
在本实施例中,针对可见光邻域节点集合
Figure GDA0003362059520000101
进行优化,
将可见光邻域节点集合
Figure GDA0003362059520000102
中的采样点定义为原始可见光采样点;
优化后的可见光采样点以可见光原始采样点为基点进行偏移获取进行特征融合的采样位置,其过程表示为vn=SAMPLE(un|N,Wjun+bj),
式中,un|N代表将可见光采样点un限制在可见光特征图N中;Wjun+bj代表优化后的可见光采样点相对于原始规则中可见光原始采样点的偏移;Wj代表卷积权重参数;bj代表卷积偏置参数。
经过优化后的可见光邻域节点集合转变为
Figure GDA0003362059520000103
对红外邻域节点集合
Figure GDA0003362059520000104
进行优化,
将红外邻域节点集合
Figure GDA0003362059520000105
中的采样点定义为原始红外采样点;
优化后的红外采样点以红外原始采样点为基点进行偏移获取进行特征融合的采样位置,其过程表示为:vm=SAMPLE(um|M,(Wjum+bj)),
式中,um|M代表将红外采样点um限制在红外特征图M中;Wjum+bj代表优化后的红外采样点相对于原始规则中红外原始采样点的偏移;Wj代表卷积权重参数;bj代表卷积偏置参数。
经过优化后的红外邻域节点集合转变为
Figure GDA0003362059520000111
在本实施例中,红外特征图和可见光特征图在跨模融合过程中,在特征层面使得采样点可以在目标像素点周围游走,从而获取最适合进行特征融合的采样位置,解决了单目采集不同模态数据之间像素点不对齐的配准问题,同时避免了现有技术在原始图像先进行配准在送入神经网络带来的额外成本消耗。
基于同一发明构思,本申请实施例还提供了一种基于单目多模态深度图生成系统,可以用于实现上述实施例所描述的一种基于单目多模态深度图生成方法,如下面的实施例所述。由于一种基于单目多模态深度图生成系统解决问题的原理与一种基于单目多模态深度图生成方法相似,因此一种基于单目多模态深度图生成系统的实施可以参见一种基于单目多模态深度图生成方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的一种基于单目多模态深度图生成系统统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本发明提供了一种基于单目多模态深度图生成系统,如图3所示。在图3中,该系统包括:
创建模块210:用于创建一个双支感知神经网络,将红外图像和可见光图像分别输入双支感知神经网络并生成红外特征图和可见光特征图;
融合模块220:用于在双支感知神经网络的下采样过程中逐级将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图;
生成模块230:用于将特征融合图经过双支感知神经网络的上采样生成一个全新的深度图。
基于上述实施例,在本发明一实施例一种基于单目多模态深度图生成系统中,融合模块220中包括:
第一融合模块221:用于将红外特征图表示为:
Figure GDA0003362059520000121
针对红外特征图中的每一个像素点在可见光特征图对应像素点位置周围进行采样获得可见光邻域节点集合
Figure GDA0003362059520000122
将每一个可见光邻域节点集合传递给红外特征图中对应的像素点,红外特征图根据可见光邻域节点集合融合为红外融合特征图,其过程表示为:m'i=RELU(βin∈U(n)Ei,nun+mi);
第二融合模块222:用于将可见光特征图表示为:
Figure GDA0003362059520000123
针对可见光特征图中的每一个像素点在红外特征图对应像素点位置周围进行采样获得红外邻域节点集合
Figure GDA0003362059520000124
将每一个红外邻域节点集合传递给可见光特征图中对应的像素点,可见光特征图根据红外邻域节点集合融合为可见光融合特征图,其过程表示为:n'i=RELU(βim∈U(m)Ei,mum+ni);
第三融合模块223:用于将红外融合特征图与可见光融合特征图拼接为特征融合图。
基于上述实施例,在本发明一实施例一种基于单目多模态深度图生成系统中,还包括第一优化模块224,
第一优化模块224用于将可见光邻域节点集合
Figure GDA0003362059520000125
中的采样点定义为原始可见光采样点;
优化后的可见光采样点以可见光原始采样点为基点进行偏移获取进行特征融合的采样位置,其过程表示为vn=SAMPLE(un|N,Wjun+bj),
经过优化后的可见光邻域节点集合转变为
Figure GDA0003362059520000126
基于上述实施例,在本发明一实施例一种基于单目多模态深度图生成系统中,还包括第二优化模块225,
第二优化模块225用于将红外邻域节点集合
Figure GDA0003362059520000131
中的采样点定义为原始红外采样点;
优化后的红外采样点以红外原始采样点为基点进行偏移获取进行特征融合的采样位置,其过程表示为:vm=SAMPLE(um|M,(Wjum+bj)),经过优化后的可见光邻域节点集合转变为
Figure GDA0003362059520000132
本申请的实施例还提供能够实现上述实施例中的方法中全部步骤的一种电子设备的具体实施方式,参见图4,电子设备300具体包括如下内容:
处理器310、存储器320、通信单元330和总线340;
其中,处理器310、存储器320、通信单元330通过总线340完成相互间的通信;通信单元330用于实现服务器端设备以及终端设备等相关设备之间的数据传输。
处理器310用于调用存储器320中的计算机程序,处理器执行计算机程序时实现上述实施例中的基于单目多模态深度图生成方法中的全部步骤。
本领域普通技术人员应理解:存储器可以是,但不限于,随机存取存储器(RandomAccess Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,简称:EPROM),电可擦除只读存储器(ElectricErasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。进一步地,上述存储器内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质包括程序,所述程序在被处理器执行时用于执行前述任一方法实施例提供的一种基于单目多模态深度图生成方法。
本领域普通技术人员应理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质,具体的介质类型本申请不做限制。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (8)

1.一种基于单目多模态深度图生成方法,其特征在于,所述方法包括:
创建一个双支感知神经网络,将红外图像和可见光图像分别输入双支感知神经网络并生成红外特征图和可见光特征图;
在双支感知神经网络的下采样过程中逐级将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图;
将特征融合图经过双支感知神经网络的上采样生成一个全新的深度图;
将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图包括:
将红外特征图表示为:
Figure FDA0003362059510000011
式中,mi代表红外特征图每个像素点的特征向量;K代表像素点个数;
针对红外特征图中的每一个像素点在可见光特征图对应像素点位置周围进行采样获得可见光邻域节点集合
Figure FDA0003362059510000012
式中,un代表从可见光特征图采集的采样点;S代表采样点的个数;
将每一个可见光邻域节点集合传递给红外特征图中对应的像素点,红外特征图根据可见光邻域节点集合融合为红外融合特征图,其过程表示为:m′i=RELU(βin∈U(n)Ei,nun+mi),
式中,m′i代表红外融合特征图;βi代表传递参数;Ei,n代表为每个un对mi的贡献度;
将可见光特征图表示为:
Figure FDA0003362059510000013
式中,ni代表可见光特征图每个像素点的特征向量;K代表像素点个数;
针对可见光特征图中的每一个像素点在红外特征图对应像素点位置周围进行采样获得红外邻域节点集合
Figure FDA0003362059510000021
式中,um代表从红外光特征图采集的采样点;S代表采样点的个数;
将每一个红外邻域节点集合传递给可见光特征图中对应的像素点,可见光特征图根据红外邻域节点集合融合为可见光融合特征图,其过程表示为:n′i=RELU(βim∈U(m)Ei,mum+ni),
式中,n′i代表可见光融合特征图;βi代表传递参数;Ei,m代表为每个um对ni的贡献度;
将红外融合特征图与可见光融合特征图拼接为特征融合图。
2.如权利要求1所述的一种基于单目多模态深度图生成方法,其特征在于,还包括针对可见光邻域节点集合
Figure FDA0003362059510000022
进行优化,
将可见光邻域节点集合
Figure FDA0003362059510000023
中的采样点定义为原始可见光采样点;
优化后的可见光采样点以可见光原始采样点为基点进行偏移获取进行特征融合的采样位置,其过程表示为vn=SAMPLE(un|N,Wjun+bj),
式中,un|N代表将可见光采样点un限制在可见光特征图N中;Wjun+bj代表优化后的可见光采样点相对于原始规则中可见光原始采样点的偏移;Wj代表卷积权重参数;bj代表卷积偏置参数;
经过优化后的可见光邻域节点集合转变为
Figure FDA0003362059510000024
3.如权利要求1所述的一种基于单目多模态深度图生成方法,其特征在于,还包括针对红外邻域节点集合
Figure FDA0003362059510000025
进行优化,
将红外邻域节点集合
Figure FDA0003362059510000026
中的采样点定义为原始红外采样点;
优化后的红外采样点以红外原始采样点为基点进行偏移获取进行特征融合的采样位置,其过程表示为:vm=SAMPLE(um|M,(Wjum+bj)),
式中,um|M代表将红外采样点um限制在红外特征图M中;Wjum+bj代表优化后的红外采样点相对于原始规则中红外原始采样点的偏移;Wj代表卷积权重参数;bj代表卷积偏置参数;
经过优化后的红外邻域节点集合转变为
Figure FDA0003362059510000031
4.一种基于单目多模态深度图生成系统,其特征在于,所述系统包括:
创建模块:用于创建一个双支感知神经网络,将红外图像和可见光图像分别输入双支感知神经网络并生成红外特征图和可见光特征图;
融合模块:用于在双支感知神经网络的下采样过程中逐级将红外特征图和可见光特征图进行相互感知跨模态融合并获取特征融合图;
生成模块:用于将特征融合图经过双支感知神经网络的上采样生成一个全新的深度图;
融合模块中包括:
第一融合模块:用于将红外特征图表示为:
Figure FDA0003362059510000032
式中,mi代表红外特征图每个像素点的特征向量;K代表像素点个数;
针对红外特征图中的每一个像素点在可见光特征图对应像素点位置周围进行采样获得可见光邻域节点集合
Figure FDA0003362059510000033
式中,un代表从可见光特征图采集的采样点;S代表采样点的个数;
将每一个可见光邻域节点集合传递给红外特征图中对应的像素点,红外特征图根据可见光邻域节点集合融合为红外融合特征图,其过程表示为:m′i=RELU(βin∈U(n)Ei,nun+mi),
式中,m′i代表红外融合特征图;βi代表传递参数;Ei,n代表为每个un对mi的贡献度;
第二融合模块:用于将可见光特征图表示为:
Figure FDA0003362059510000041
式中,ni代表可见光特征图每个像素点的特征向量;K代表像素点个数;
针对可见光特征图中的每一个像素点在红外特征图对应像素点位置周围进行采样获得红外邻域节点集合
Figure FDA0003362059510000042
式中,um代表从红外光特征图采集的采样点;S代表采样点的个数;
将每一个红外邻域节点集合传递给可见光特征图中对应的像素点,可见光特征图根据红外邻域节点集合融合为可见光融合特征图,其过程表示为:n′i=RELU(βim∈U(m)Ei,mum+ni),
式中,n′i代表可见光融合特征图;βi代表传递参数;Ei,m代表为每个um对ni的贡献度;
第三融合模块:用于将红外融合特征图与可见光融合特征图拼接为特征融合图。
5.如权利要求4所述的一种基于单目多模态深度图生成系统,其特征在于,还包括第一优化模块,
所述第一优化模块用于将可见光邻域节点集合
Figure FDA0003362059510000043
中的采样点定义为原始可见光采样点;
优化后的可见光采样点以可见光原始采样点为基点进行偏移获取进行特征融合的采样位置,其过程表示为vn=SAMPLE(un|N,Wjun+bj),
式中,un|N代表将可见光采样点un限制在可见光特征图N中;Wjun+bj代表优化后的可见光采样点相对于原始规则中可见光原始采样点的偏移;Wj代表卷积权重参数;bj代表卷积偏置参数;
经过优化后的可见光邻域节点集合转变为
Figure FDA0003362059510000051
6.如权利要求4所述的一种基于单目多模态深度图生成系统,其特征在于,还包括第二优化模块,
所述第二优化模块用于将红外邻域节点集合
Figure FDA0003362059510000052
中的采样点定义为原始红外采样点;
优化后的红外采样点以红外原始采样点为基点进行偏移获取进行特征融合的采样位置,其过程表示为:vm=SAMPLE(um|M,(Wjum+bj)),
式中,um|M代表将红外采样点um限制在红外特征图M中;Wjum+bj代表优化后的红外采样点相对于原始规则中红外原始采样点的偏移;Wj代表卷积权重参数;bj代表卷积偏置参数;
经过优化后的红外邻域节点集合转变为
Figure FDA0003362059510000053
7.一种电子设备,其特征在于,包括:
处理器、存储器、与网关通信的接口;
存储器用于存储程序和数据,所述处理器调用存储器存储的程序,以执行权利要求1至3任一项所述的一种基于单目多模态深度图生成方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括程序,所述程序在被处理器执行时用于执行权利要求 1至3任一项所述的一种基于单目多模态深度图生成方法。
CN202110038637.XA 2021-01-12 2021-01-12 基于单目多模态深度图生成方法、系统、设备和存储介质 Active CN112733731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110038637.XA CN112733731B (zh) 2021-01-12 2021-01-12 基于单目多模态深度图生成方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110038637.XA CN112733731B (zh) 2021-01-12 2021-01-12 基于单目多模态深度图生成方法、系统、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112733731A CN112733731A (zh) 2021-04-30
CN112733731B true CN112733731B (zh) 2022-02-11

Family

ID=75591468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110038637.XA Active CN112733731B (zh) 2021-01-12 2021-01-12 基于单目多模态深度图生成方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112733731B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738314A (zh) * 2020-06-09 2020-10-02 南通大学 基于浅层融合的多模态图像能见度检测模型的深度学习方法
CN112116563A (zh) * 2020-08-28 2020-12-22 南京理工大学 一种基于谱维与空间协作邻域注意力的高光谱图像目标检测方法与系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111340864B (zh) * 2020-02-26 2023-12-12 浙江大华技术股份有限公司 基于单目估计的三维场景融合方法及装置
CN112016478B (zh) * 2020-08-31 2024-04-16 中国电子科技集团公司第三研究所 一种基于多光谱图像融合的复杂场景识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738314A (zh) * 2020-06-09 2020-10-02 南通大学 基于浅层融合的多模态图像能见度检测模型的深度学习方法
CN112116563A (zh) * 2020-08-28 2020-12-22 南京理工大学 一种基于谱维与空间协作邻域注意力的高光谱图像目标检测方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Infrared and Visible Cross-Modal Image Retrieval through Shared Features";Fangcen Liu等;《Transactions on Circuits and Systems for Video Technology》;20210104;第1-10页 *
"基于模态转换的红外与可见光图像配准方法";周美琪等;《计算机工程与设计》;20201031;第41卷(第10期);第2862-2866页 *

Also Published As

Publication number Publication date
CN112733731A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
WO2021233029A1 (en) Simultaneous localization and mapping method, device, system and storage medium
US11055866B2 (en) System and method for disparity estimation using cameras with different fields of view
CN113159151B (zh) 面向自动驾驶的多传感器深度融合3d目标检测方法
CN109815847B (zh) 一种基于语义约束的视觉slam方法
CN112418163B (zh) 一种多光谱目标检测导盲系统
JP6045378B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN113052066A (zh) 三维目标检测中基于多视图和图像分割的多模态融合方法
CN118160007A (zh) 图像修改技术
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法
Kogler et al. Enhancement of sparse silicon retina-based stereo matching using belief propagation and two-stage postfiltering
CN117496036A (zh) 一种纹理贴图的生成方法、装置、电子设备和存储介质
CN118038229A (zh) 一种目标检测方法、装置、设备及存储介质
CN112733731B (zh) 基于单目多模态深度图生成方法、系统、设备和存储介质
CN116363615B (zh) 数据融合方法、装置、车辆和存储介质
CN117036447A (zh) 基于多传感器融合的室内场景稠密三维重建方法及装置
CN116630953A (zh) 一种基于神经体渲染的单目图像3d目标检测方法
CN105323460B (zh) 图像处理设备及其控制方法
CN110298782B (zh) 一种rgb显著性到rgbd显著性的转换方法
AU2017300877B2 (en) Method and device for aiding the navigation of a vehicle
CN112950709A (zh) 一种位姿预测方法、位姿预测装置及机器人
CN112364693A (zh) 基于双目视觉的障碍识别方法、装置、设备及存储介质
Yan et al. Monocular catadioptric panoramic depth estimation via improved end-to-end neural network model
CN117541590B (zh) 图像处理方法和装置、存储介质及电子设备
Liu et al. Learning-based low light image enhancement for visual odometry
CN115906007B (zh) 智能驾驶特征参数生成方法、装置和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant