CN115375930A - 基于多尺度信息的立体匹配网络及立体匹配方法 - Google Patents

基于多尺度信息的立体匹配网络及立体匹配方法 Download PDF

Info

Publication number
CN115375930A
CN115375930A CN202211314567.7A CN202211314567A CN115375930A CN 115375930 A CN115375930 A CN 115375930A CN 202211314567 A CN202211314567 A CN 202211314567A CN 115375930 A CN115375930 A CN 115375930A
Authority
CN
China
Prior art keywords
size
feature
image
characteristic
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211314567.7A
Other languages
English (en)
Other versions
CN115375930B (zh
Inventor
方弘毅
王登奎
杨明
邹远禄
杨上峰
张帅
陈涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AECC Sichuan Gas Turbine Research Institute
Original Assignee
AECC Sichuan Gas Turbine Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AECC Sichuan Gas Turbine Research Institute filed Critical AECC Sichuan Gas Turbine Research Institute
Priority to CN202211314567.7A priority Critical patent/CN115375930B/zh
Publication of CN115375930A publication Critical patent/CN115375930A/zh
Application granted granted Critical
Publication of CN115375930B publication Critical patent/CN115375930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明提供了一种基于多尺度信息的立体匹配网络及立体匹配方法,立体匹配网络包括金字塔编码器、特征体构造模块、视差生成约束模块、特征体解码器。其中金字塔编码器包括两组带有跳层连接的编码器‑解码器模块;特征体解码器内设有多个解码器模块,所述解码器模块输出端连接有多尺度特征自适应融合模块,所述多尺度特征自适应融合模块输出两个红外图像融合后的立体图像。本发明设计的立体匹配网络及立体匹配方法,解决红外成像存在可用信息少,大面积弱纹理、无纹理的问题。

Description

基于多尺度信息的立体匹配网络及立体匹配方法
技术领域
本发明属于测试技术领域,涉及一种基于多尺度信息的立体匹配网络及立体匹配方法。
背景技术
近年来,随着人工智能领域的快速发展,研究双目视觉系统,使计算机进行快速分析和复杂计算,从而获得对外界环境辨别和感知能力的技术逐步进入人们的视野。其中,立体匹配作为计算机视觉研究的一个热点问题,最重要的任务是利用左右图像的成像差异寻找目标视图的视差值。而视差值是由左、右图像的相应像素位置的差异决定,这与人类视觉系统中左眼和右眼看到的图像相似。
立体匹配算法则是根据左右图像的信息来预测出视差值, 然后可以从视差图中得到相机和物体之间的距离。基于传统模型的立体匹配方法可分为局部方法和全局方法,局部方法计算量低并且运行速度快;全局方法通常基于马尔科夫随机场生成视差,全局方法为视差输出提供了更好的准确性,但也带来了计算的复杂。
众所周知,温度高于绝对零度的物体都在不停地向周围空间辐射能量,而物体的辐射特性决定了其辐射能量的大小,同时由于辐射测温的最佳工作波长全部落在红外波段内,因此通过测量物体自身的红外辐射能量,便可准确获得其表面温度值。其与常规测温技术相比,红外成像技术具有测温范围广、非接触的优点,并且可快速实时的测量面域温度分布。
但是由于红外热像纹理稀疏且分辨率低,导致现有的立体匹配算法难以使红外热像获得好的匹配结果;而且局部方法在处理弱纹理或无纹理的图像时,容易造成数据信息丢失的情况,因此针对红外热像立体匹配的研究更具有必要性。
发明内容
为了解决红外图像在处理弱纹理或无纹理的图像时,由于纹理信息弱且分辨率低,容易造成数据信息丢失的问题,本发明设计了一种基于多尺度信息的立体匹配网络及立体匹配方法,其能够在更大视差范围内进行匹配。
实现发明目的的技术方案如下:
第一方面,本发明提供了一种基于多尺度信息的立体匹配网络,包括:
金字塔编码器,所述金字塔编码器包括两组带有跳层连接的编码器-解码器模块;
特征体构造模块,所述特征体构造模块的输入端与所述金字塔编码器连接,输出端与特征体解码器的输入端连接;
视差生成约束模块,所述视差生成约束模块的输入端与所述金字塔编码器连接,输出端与特征体解码器的输入端连接;
所述特征体解码器内设有多个解码器模块,所述解码器模块输出端连接有多尺度特征自适应融合模块,所述多尺度特征自适应融合模块输出两个红外图像融合后的立体图像。
进一步的,金字塔编码器带有跳层连接的编码器-解码器模块包括卷积层、池化层、残差层;
所述卷积层提取红外图像的浅层特征,并输出红外图像的1/4尺寸特征图像;
所述池化层与所述卷积层连接,所述池化层将1/4尺寸特征图像还原为红外图像的大小并输出至所述残差层;
所述残差层与所述池化层连接,所述残差层包括4个依次连接的残差块,所述残差层对所述池化层输出的图像提取高级特征,并依次输出红外图像的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像;
所述池化层对所述残差层输出的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像进行整合后输出上下文信息。
进一步的,所述特征体构造模块与所述残差层中最末端的所述残差块连接,将最末端的所述残差块输出的1/64尺寸特征图像,依据上下文信息和预定义的视差范围,将两个红外图像的1/64尺寸特征图像之间的差异作为比配代价,构建并输出1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体。
进一步的,所述视差生成约束模块包括4个依次连接的视差注意力模块,且所述视差注意力模块与所述残差块一一对应并连接;
所述视差注意力模块对与其连接的各所述残差块输出的尺寸特征图像,利用门控自适应方法进行红外图像降噪及成像一致性调整,对1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体增加特征通道维度,输出1/8尺寸4D特征体、1/16尺寸4D特征体、1/32尺寸4D特征体、1/64尺寸4D特征体。
进一步的,每一个3D特征体均包含3个维度,分别为长度、宽度、视差。
进一步的,所述解码器模块有3个,第一个所述解码器模块输入1/64尺寸4D特征体,输出解码后特征;
第二个所述解码器模块与第一个所述解码器模块连接,输入第一个所述解码器模块输出的解码后特征,以及1/32尺寸4D特征体,输出解码后特征;
第三个所述解码器模块与第二个所述解码器模块连接,输入第二个所述解码器模块输出的解码后特征,以及1/16尺寸4D特征体,输出解码后特征;
所述多尺度特征自适应融合模块对3个所述解码器模块输出的解码后特征进行融合,并输出两个红外图像融合后的立体图像。
第二方面,本发明提供了一种基于多尺度信息的立体匹配方法,包括以下步骤:
S1、提取并输出两个红外图像的多尺度特征图像;
S2、依据多尺度特征图像中最小尺寸特征图像,并按照预先定义的视差范围,计算两个最小尺寸特征图像的差异作为比配代价,构建并输出1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体;
S3、对步骤S2中各3D特征体增加特征通道维度,构建并输出各尺寸3D特征体的4D特征体;
S4、对4D特征体进行解码,输出两个红外图像融合后的立体图像。
进一步的,多尺度特征图像为4个尺度特征图像,包括红外图像的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像,且步骤S1中,提取并输出两个红外图像的多尺度特征图像的方法,包括:
S101、分别提取两个红外图像的浅层特征,并将红外图像编码为1/4特征尺寸图像;
S102、将1/4特征尺寸图像经池化层还原为与原红外图像大小相同的图像;
S103、将步骤S102的图像输入4个步幅为2的残差块提取高级特征,分别编码为1/8尺寸图像、1/16尺寸图像、1/32尺寸图像、1/64尺寸图像;
S104、将1/8尺寸图像、1/16尺寸图像、1/32尺寸图像、1/64尺寸图像输入池化层中整合后输出上下文信息;
S105、对1/8尺寸图像、1/16尺寸图像、1/32尺寸图像、1/64尺寸图像分别解码,并融合步骤S104中的上下文信息,输出1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像。
进一步的,步骤S3中,各3D特征体增加特征通道维度的方法为:采用门控自适应方法对1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体进行红外图像降噪及成像一致性调整,对各尺寸3D特征体增加特征通道维度后输出各尺寸3D特征体的4D特征体。
进一步的,步骤S4中,4D特征体解码的方法包括:
S401、第一个所述解码器模块输入1/64尺寸4D特征体,输出解码后特征;
S402、第二个所述解码器模块与第一个所述解码器模块连接,输入第一个所述解码器模块输出的解码后特征,以及1/32尺寸4D特征体,输出解码后特征;
S403、第三个所述解码器模块与第二个所述解码器模块连接,输入第二个所述解码器模块输出的解码后特征,以及1/16尺寸4D特征体,输出解码后特征;
S404、对步骤S401~S403中输出的解码后特征进行融合,输出两个红外图像融合后的立体图像。
与现有技术相比,本发明的有益效果是:本发明设计的基于多尺度信息的立体匹配网络及立体匹配方法,获得的立体图像噪声更少且更加准确,其对于图像中纹理稀疏的部分也可以准确的匹配,解决了红外图像立体匹配时存在可用信息少、大面积弱纹理、无纹理的问题。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明为了更清楚地说明本发明实施例或现有技术中的技术方案,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例1中基于多尺度信息的立体匹配网络的架构图;
其中,100.金字塔编码器;200.特征体构造模块;300.视差生成约束模块;400.特征体解码器。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
在本实施例的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明创造和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明创造的限制。
此外,术语“第一”、“第二”、“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。
实施例1:
本实施例提供了一种基于多尺度信息的立体匹配网络,参阅图1所示,参阅图1所示,基于多尺度信息的立体匹配网络包括金字塔编码器100、特征体构造模块200、视差生成约束模块300、特征体解码器400。
其中,所述金字塔编码器100包括两组带有跳层连接的编码器-解码器模块,在本具体实施方式中,金字塔编码器100为FCN架构类型,其可以有效提取不同层次的特征,同时保存不同的尺度信息。
在一个可选的实施例中,带有跳层连接的编码器-解码器模块包括卷积层、池化层、残差层。
所述卷积层提取红外图像的浅层特征,并输出红外图像的1/4尺寸特征图像。
所述池化层与所述卷积层连接,所述池化层将1/4尺寸特征图像还原为红外图像的大小并输出至所述残差层。
所述残差层与所述池化层连接,所述残差层包括4个依次连接的残差块,所述残差层对所述池化层输出的图像提取高级特征,并依次输出红外图像的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像。
所述池化层对所述残差层输出的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像进行整合后输出上下文信息。
本实施例中,通过残差层取代了部分池化层,能够避免多层池化对红外图像中物体边界信息的影响,同时加速了立体匹配网络模型的收敛。
其中,特征体构造模块200的输入端与所述金字塔编码器100连接,输出端与特征体解码器400的输入端连接,在本具体实施方式中,特征体构造模块200具有两类特征体的构造方式,一类是引入相关层计算两个红外图像中特征的相关性,其通过点乘进行计算,另一类是显示编码不同视差之间的特征,然后通过3D卷积进一步的处理特征信息。
在一个可选的实施例中,所述特征体构造模块200与所述残差层中最末端的残差块连接(即特征体构造模块200分别与两组带有跳层连接的编码器-解码器模块中残差层的最后一个残差块连接),将最末端的所述残差块输出的1/64尺寸特征图像,依据上下文信息和预定义的视差范围,将两个红外图像的1/64尺寸特征图像之间的差异作为比配代价,构建并输出1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体。
其中,视差生成约束模块300的输入端与所述金字塔编码器100连接,输出端与特征体解码器400的输入端连接。
在一个可选的实施例中,所述视差生成约束模块300包括4个依次连接的视差注意力模块,且所述视差注意力模块与所述残差块一一对应并连接。本实施例中,视差生成约束模块300选用GFT模块(图信号傅里叶变换(Graph Fourier Transform,GFT))。
所述视差注意力模块对与其连接的各所述残差块输出的尺寸特征图像,利用门控自适应方法进行红外图像降噪及成像一致性调整,对1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体增加特征通道维度,输出1/8尺寸4D特征体、1/16尺寸4D特征体、1/32尺寸4D特征体、1/64尺寸4D特征体。
进一步的,上述每一个3D特征体均包含3个维度,分别为长度、宽度、视差。
其中,所述特征体解码器400内设有多个解码器模块,所述解码器模块输出端连接有多尺度特征自适应融合模块,所述多尺度特征自适应融合模块输出两个红外图像融合后的立体图像。
在一个可选的实施例中,解码器模块有多个,且解码器模块的数量与特征图像的尺寸数量有关,例如当金字塔编码器100处理后输出有1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像共3个尺寸时,此时解码器模块有两个;当金字塔编码器处理后输出有1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像、1/128尺寸特征图像时,此时解码器模块有4个。在本实施例中,所述解码器模块有3个(即对应金字塔编码器100处理后输出有1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像共4个尺寸特征图像)。
具体的,第一个所述解码器模块输入1/64尺寸4D特征体,输出解码后特征;第二个所述解码器模块与第一个所述解码器模块连接,输入第一个所述解码器模块输出的解码后特征,以及1/32尺寸4D特征体,输出解码后特征;第三个所述解码器模块与第二个所述解码器模块连接,输入第二个所述解码器模块输出的解码后特征,以及1/16尺寸4D特征体,输出解码后特征;
所述多尺度特征自适应融合模块对3个所述解码器模块输出的解码后特征进行融合,并输出两个红外图像融合后的立体图像。
本实施例提供的基于多尺度信息的立体匹配网络,获得的立体图像噪声更少且更加准确,其对于图像中纹理稀疏的部分也可以准确的匹配。
实施例2:
本实施例提供了一种基于多尺度信息的立体匹配方法,包括以下步骤:
S1、提取并输出两个红外图像的多尺度特征图像。
本步骤中,多尺度特征图像为4个尺度特征图像,包括红外图像的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像,且步骤S1中,提取并输出两个红外图像的多尺度特征图像的方法,包括:
S101、分别提取两个红外图像的浅层特征,并将红外图像编码为1/4特征尺寸图像;
S102、将1/4特征尺寸图像经池化层还原为与原红外图像大小相同的图像;
S103、将步骤S102的图像输入4个步幅为2的残差块提取高级特征,分别编码为1/8尺寸图像、1/16尺寸图像、1/32尺寸图像、1/64尺寸图像;
S104、将1/8尺寸图像、1/16尺寸图像、1/32尺寸图像、1/64尺寸图像输入池化层中整合后输出上下文信息;
S105、对1/8尺寸图像、1/16尺寸图像、1/32尺寸图像、1/64尺寸图像分别解码,并融合步骤S104中的上下文信息,输出1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像。
S2、依据多尺度特征图像中最小尺寸特征图像,并按照预先定义的视差范围,计算两个最小尺寸特征图像的差异作为比配代价,构建并输出1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体。
S3、对步骤S2中各3D特征体增加特征通道维度,构建并输出各尺寸3D特征体的4D特征体。
本步骤中,各3D特征体增加特征通道维度的方法为:采用门控自适应方法对1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体进行红外图像降噪及成像一致性调整,对各尺寸3D特征体增加特征通道维度后输出各尺寸3D特征体的4D特征体。
S4、对4D特征体进行解码,输出两个红外图像融合后的立体图像。
本步骤中,4D特征体解码的方法包括:
S401、第一个所述解码器模块输入1/64尺寸4D特征体,输出解码后特征;
S402、第二个所述解码器模块与第一个所述解码器模块连接,输入第一个所述解码器模块输出的解码后特征,以及1/32尺寸4D特征体,输出解码后特征;
S403、第三个所述解码器模块与第二个所述解码器模块连接,输入第二个所述解码器模块输出的解码后特征,以及1/16尺寸4D特征体,输出解码后特征;
S404、对步骤S401~S403中输出的解码后特征进行融合,输出两个红外图像融合后的立体图像。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (10)

1.一种基于多尺度信息的立体匹配网络,其特征在于,包括:
金字塔编码器,所述金字塔编码器包括两组带有跳层连接的编码器-解码器模块;
特征体构造模块,所述特征体构造模块的输入端与所述金字塔编码器连接,输出端与特征体解码器的输入端连接;
视差生成约束模块,所述视差生成约束模块的输入端与所述金字塔编码器连接,输出端与特征体解码器的输入端连接;
所述特征体解码器内设有多个解码器模块,所述解码器模块输出端连接有多尺度特征自适应融合模块,所述多尺度特征自适应融合模块输出两个红外图像融合后的立体图像。
2.根据权利要求1所述的基于多尺度信息的立体匹配网络,其特征在于:带有跳层连接的编码器-解码器模块包括卷积层、池化层、残差层;
所述卷积层提取红外图像的浅层特征,并输出红外图像的1/4尺寸特征图像;
所述池化层与所述卷积层连接,所述池化层将1/4尺寸特征图像还原为红外图像的大小并输出至所述残差层;
所述残差层与所述池化层连接,所述残差层包括4个依次连接的残差块,所述残差层对所述池化层输出的图像提取高级特征,并依次输出红外图像的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像;
所述池化层对所述残差层输出的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像进行整合后输出上下文信息。
3.根据权利要求2所述的基于多尺度信息的立体匹配网络,其特征在于:所述特征体构造模块与所述残差层中最末端的所述残差块连接,将最末端的所述残差块输出的1/64尺寸特征图像,依据上下文信息和预定义的视差范围,将两个红外图像的1/64尺寸特征图像之间的差异作为比配代价,构建并输出1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体。
4.根据权利要求3所述的基于多尺度信息的立体匹配网络,其特征在于:所述视差生成约束模块包括4个依次连接的视差注意力模块,且所述视差注意力模块与所述残差块一一对应并连接;
所述视差注意力模块对与其连接的各所述残差块输出的尺寸特征图像,利用门控自适应方法进行红外图像降噪及成像一致性调整,对1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体增加特征通道维度,输出1/8尺寸4D特征体、1/16尺寸4D特征体、1/32尺寸4D特征体、1/64尺寸4D特征体。
5.根据权利要求4所述的基于多尺度信息的立体匹配网络,其特征在于:每一个3D特征体均包含3个维度,分别为长度、宽度、视差。
6.根据权利要求5所述的基于多尺度信息的立体匹配网络,其特征在于:所述解码器模块有3个,第一个所述解码器模块输入修正后1/64尺寸4D特征体,输出解码后特征;
第二个所述解码器模块与第一个所述解码器模块连接,输入第一个所述解码器模块输出的解码后特征,以及1/32尺寸4D特征体,输出解码后特征;
第三个所述解码器模块与第二个所述解码器模块连接,输入第二个所述解码器模块输出的解码后特征,以及修正后1/16尺寸4D特征体,输出解码后特征;
所述多尺度特征自适应融合模块对3个所述解码器模块输出的解码后特征进行融合,并输出两个红外图像融合后的立体图像。
7.一种基于多尺度信息的立体匹配方法,其特征在于,包括以下步骤:
S1、提取并输出两个红外图像的多尺度特征图像;
S2、依据多尺度特征图像中最小尺寸特征图像,并按照预先定义的视差范围,计算两个最小尺寸特征图像的差异作为比配代价,构建并输出1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体;
S3、对步骤S2中各3D特征体增加特征通道维度,构建并输出各尺寸3D特征体的4D特征体;
S4、对4D特征体进行解码,输出两个红外图像融合后的立体图像。
8.根据权利要求7所述的基于多尺度信息的立体匹配方法,其特征在于,多尺度特征图像为4个尺度特征图像,包括红外图像的1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像,且步骤S1中,提取并输出两个红外图像的多尺度特征图像的方法,包括:
S101、分别提取两个红外图像的浅层特征,并将红外图像编码为1/4特征尺寸图像;
S102、将1/4特征尺寸图像经池化层还原为与原红外图像大小相同的图像;
S103、将步骤S102的图像输入4个步幅为2的残差块提取高级特征,分别编码为1/8尺寸图像、1/16尺寸图像、1/32尺寸图像、1/64尺寸图像;
S104、将1/8尺寸图像、1/16尺寸图像、1/32尺寸图像、1/64尺寸图像输入池化层中整合后输出上下文信息;
S105、对1/8尺寸图像、1/16尺寸图像、1/32尺寸图像、1/64尺寸图像分别解码,并融合步骤S104中的上下文信息,输出1/8尺寸特征图像、1/16尺寸特征图像、1/32尺寸特征图像、1/64尺寸特征图像。
9.根据权利要求8所述的基于多尺度信息的立体匹配方法,其特征在于:步骤S3中,各3D特征体增加特征通道维度的方法为:采用门控自适应方法对1/8尺寸3D特征体、1/16尺寸3D特征体、1/32尺寸3D特征体、1/64尺寸3D特征体进行红外图像降噪及成像一致性调整,对各尺寸3D特征体增加特征通道维度后输出各尺寸3D特征体的4D特征体。
10.根据权利要求9所述的基于多尺度信息的立体匹配方法,其特征在于:步骤S4中,4D特征体解码的方法包括:
S401、第一个所述解码器模块输入1/64尺寸4D特征体,输出解码后特征;
S402、第二个所述解码器模块与第一个所述解码器模块连接,输入第一个所述解码器模块输出的解码后特征,以及1/32尺寸4D特征体,输出解码后特征;
S403、第三个所述解码器模块与第二个所述解码器模块连接,输入第二个所述解码器模块输出的解码后特征,以及1/16尺寸4D特征体,输出解码后特征;
S404、对步骤S401~S403中输出的解码后特征进行融合,输出两个红外图像融合后的立体图像。
CN202211314567.7A 2022-10-26 2022-10-26 基于多尺度信息的立体匹配网络及立体匹配方法 Active CN115375930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211314567.7A CN115375930B (zh) 2022-10-26 2022-10-26 基于多尺度信息的立体匹配网络及立体匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211314567.7A CN115375930B (zh) 2022-10-26 2022-10-26 基于多尺度信息的立体匹配网络及立体匹配方法

Publications (2)

Publication Number Publication Date
CN115375930A true CN115375930A (zh) 2022-11-22
CN115375930B CN115375930B (zh) 2023-05-05

Family

ID=84074354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211314567.7A Active CN115375930B (zh) 2022-10-26 2022-10-26 基于多尺度信息的立体匹配网络及立体匹配方法

Country Status (1)

Country Link
CN (1) CN115375930B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015192117A1 (en) * 2014-06-14 2015-12-17 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US20200273192A1 (en) * 2019-02-26 2020-08-27 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
CN111696148A (zh) * 2020-06-17 2020-09-22 中国科学技术大学 基于卷积神经网络的端到端立体匹配方法
CN111833386A (zh) * 2020-07-22 2020-10-27 中国石油大学(华东) 一种基于多尺度信息和注意力机制的金字塔双目立体匹配方法
CN112150521A (zh) * 2020-08-24 2020-12-29 江苏大学 一种基于PSMNet优化的图像立体匹配方法
US20210103340A1 (en) * 2014-06-14 2021-04-08 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
CN113646705A (zh) * 2019-03-13 2021-11-12 光场实验室公司 用于车辆增强的光场显示系统
CN113850900A (zh) * 2021-05-27 2021-12-28 北京大学 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN114445480A (zh) * 2022-01-26 2022-05-06 安徽大学 基于Transformer的热红外图像立体匹配方法及装置
CN114692509A (zh) * 2022-04-21 2022-07-01 南京邮电大学 基于多阶段退化神经网络的强噪声单光子三维重建方法
CN114937461A (zh) * 2022-06-13 2022-08-23 华南农业大学 基于通道注意力与残差门控卷积的生猪声音事件检测方法及装置
CN114972822A (zh) * 2022-06-10 2022-08-30 哈尔滨理工大学 一种基于卷积神经网络的端到端双目立体匹配方法
US11450017B1 (en) * 2021-11-12 2022-09-20 Tsinghua University Method and apparatus for intelligent light field 3D perception with optoelectronic computing

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210103340A1 (en) * 2014-06-14 2021-04-08 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
WO2015192117A1 (en) * 2014-06-14 2015-12-17 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality
US20200273192A1 (en) * 2019-02-26 2020-08-27 Baidu Usa Llc Systems and methods for depth estimation using convolutional spatial propagation networks
CN113646705A (zh) * 2019-03-13 2021-11-12 光场实验室公司 用于车辆增强的光场显示系统
CN111696148A (zh) * 2020-06-17 2020-09-22 中国科学技术大学 基于卷积神经网络的端到端立体匹配方法
CN111833386A (zh) * 2020-07-22 2020-10-27 中国石油大学(华东) 一种基于多尺度信息和注意力机制的金字塔双目立体匹配方法
CN112150521A (zh) * 2020-08-24 2020-12-29 江苏大学 一种基于PSMNet优化的图像立体匹配方法
CN113850900A (zh) * 2021-05-27 2021-12-28 北京大学 三维重建中基于图像和几何线索恢复深度图的方法及系统
US11450017B1 (en) * 2021-11-12 2022-09-20 Tsinghua University Method and apparatus for intelligent light field 3D perception with optoelectronic computing
CN114445480A (zh) * 2022-01-26 2022-05-06 安徽大学 基于Transformer的热红外图像立体匹配方法及装置
CN114692509A (zh) * 2022-04-21 2022-07-01 南京邮电大学 基于多阶段退化神经网络的强噪声单光子三维重建方法
CN114972822A (zh) * 2022-06-10 2022-08-30 哈尔滨理工大学 一种基于卷积神经网络的端到端双目立体匹配方法
CN114937461A (zh) * 2022-06-13 2022-08-23 华南农业大学 基于通道注意力与残差门控卷积的生猪声音事件检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KYUNG-RAE等: "Multiscale Feature Extractors for Stereo Matching Cost Computation" *
雷春丽等: "结合改进ResNet与迁移学习的风力机滚动轴承故障诊断" *

Also Published As

Publication number Publication date
CN115375930B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN104835158B (zh) 基于格雷码结构光与极线约束的三维点云获取方法
CN112150521B (zh) 一种基于PSMNet优化的图像立体匹配方法
CN107886477A (zh) 无人驾驶中立体视觉与低线束激光雷达的融合矫正方法
CN106447661A (zh) 一种深度图快速生成方法
CN111709985B (zh) 一种基于双目视觉的水下目标测距方法
CN104794713B (zh) 基于arm和双目视觉的温室作物数字化成像方法
CN114529605B (zh) 一种基于多视图融合的人体三维姿态估计方法
CN111985551B (zh) 一种基于多重注意力网络的立体匹配算法
CN111583313A (zh) 一种基于PSMNet改进的双目立体匹配方法
CN111462302A (zh) 基于深度编码网络的多视点人体动态三维重建方法及系统
CN111127401A (zh) 一种基于深度学习的机器人立体视觉机械零件检测方法
CN110728745B (zh) 一种基于多层折射图像模型的水下双目立体视觉三维重建方法
CN116452748A (zh) 一种基于可微分体积渲染的隐式三维重建方法、系统、存储介质及终端
CN115375838A (zh) 一种基于无人机的双目灰度图像的三维重建方法
CN111105451A (zh) 一种克服遮挡效应的驾驶场景双目深度估计方法
CN112116646B (zh) 一种基于深度卷积神经网络的光场图像深度估计方法
CN117635444A (zh) 基于辐射差和空间距离的深度补全方法、装置和设备
CN115375930B (zh) 基于多尺度信息的立体匹配网络及立体匹配方法
CN112329723A (zh) 一种基于双目相机的多人人体3d骨骼关键点定位方法
CN109829939B (zh) 一种缩小多视影像匹配同名像点搜索范围的方法
CN110310337B (zh) 一种基于光场基本矩阵的多视光场成像系统全参数估计方法
CN116778091A (zh) 基于路径聚合的深度学习多视角立体三维重建算法
CN116486038A (zh) 一种三维构建网络训练方法、三维模型生成方法以及装置
CN111197976A (zh) 一种顾及弱纹理区域多阶段匹配传播的三维重建方法
Zhang et al. Multiresolution patch-based dense reconstruction integrating multiview images and laser point cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant