CN113936139A - 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统 - Google Patents

一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统 Download PDF

Info

Publication number
CN113936139A
CN113936139A CN202111271617.3A CN202111271617A CN113936139A CN 113936139 A CN113936139 A CN 113936139A CN 202111271617 A CN202111271617 A CN 202111271617A CN 113936139 A CN113936139 A CN 113936139A
Authority
CN
China
Prior art keywords
image
map
rgb
representing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111271617.3A
Other languages
English (en)
Other versions
CN113936139B (zh
Inventor
蔡英凤
饶中钰
滕成龙
刘泽
罗彤
刘擎超
李祎承
孙晓强
陈龙
王海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN202111271617.3A priority Critical patent/CN113936139B/zh
Publication of CN113936139A publication Critical patent/CN113936139A/zh
Application granted granted Critical
Publication of CN113936139B publication Critical patent/CN113936139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统,首先通过立体匹配模型得到深度图,随后采用语义分割模型得到前置语义分割图,将深度图与语义分割图坐标变换,得到具有类别信息的伪点云,并保留其鸟瞰图视角的类别信息,最后通过深度对抗模型对于图像中的空洞区域进行填充,得到最终语义鸟瞰图。本发明利用双目摄像头,能够有效进行前方区域鸟瞰图重建,为指导后续规划控制提供有效信息;在提取语义分割信息时,采用RGB‑D语义分割算法,充分利用RGB信息与前端深度估计模型的深度信息,进一步完善语义分割信息,选用生成对抗网络进行空洞及遮挡部分的信息修复和填充,丰富鸟瞰图图像的信息,提升重构鸟瞰图图像的精度。

Description

一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法 及系统
技术领域
本发明属于智能车自动驾驶领域,涉及一种立体匹配与语义分割的摄像头重构鸟瞰图方法及系统。
背景技术
随着深度学习与人工智能的快速发展,自动驾驶成为目前热门的研究方向。自动驾驶系统大致由环境感知模块,决策规划模块以及控制模块等组成。其中作为上游的环境感知模块需要快速高效的获取周边环境有效信息,包括障碍物、车辆、道路以及车道线等,并将提取到的信息输出到下游规划决策模块。因此,如何准确详细的获取周边有效信息,并选取有效的表征方式是自动驾驶环境感知领域的一个重要研究方向。
语义鸟瞰图是一种从上帝视角获取周边环境信息,并针对每个像素点进行分类得到的表征方式。相较于传统的前置摄像头,语义鸟瞰简洁高效的突出周围障碍物、道路以及车道线的位置以及类别信息。目前,语义鸟瞰图常常作为轨迹预测、行为规划等任务的模型输入。然而,目前的语义鸟瞰图大都采用人为标定的方式,成本过高,无法满足任意场景自动驾驶的需求。目前部分学者尝试利用激光雷达构建鸟瞰图,激光雷达可以很好的获得距离信息,然而其成本昂贵,且其具有分辨率低无法检测车道线,红绿灯状况等缺点。
发明内容
鉴于上述问题,本发明提出一种基于视觉结合深度信息与语义信息的语义鸟瞰图重构方法及系统,通过立体匹配算法构建深度图,采用语义分割算法得到前置语义分割图,将深度图与对应语义分割图进行坐标变换,得到具有类别信息的伪点云,并保留其鸟瞰图视角的类别信息,最后通过深度对抗模型对于图像中的空洞区域进行填充,得到最终的语义鸟瞰图。
一种基于前置摄像头结合立体匹配、语义分割算法的语义鸟瞰图重构系统主要包括四部分:1、立体匹配模型模块:用于得到深度图。2、RGB-D语义分割模型模块:用于得到语义分割图。3、获取伪点云及初步鸟瞰图的模块:结合深度图与语义分割图得到带有类别信息的伪点云,并利用坐标变换得到初步鸟瞰图信息。4、初步鸟瞰图填充模块:利用深度对抗学习模型对鸟瞰图空洞部分进行填充得到最终的鸟瞰图。
具体包括以下内容:
所述立体匹配模型采用自适应立体匹配网络作为基本模型,将前置摄像头的左右视图采集的RGB图像IL,IR作为模型输入,模型输出为左视图输入对应的视差预测值DL。整体模型主要包括特征提取、匹配代价计算,代价聚合以及视差优化四个部分。
进一步的为提高模型准确率,采用多层堆叠、密集连接的上采样下采样层对输入左右视图进行特征提取,同时采用特征金字塔的网络得到左右视图在三个不同分辨率下的特征图,得到FL1,FL2,FL3,FR1,FR2,FR3。所述匹配代价计算采用基于相关性的三维的代价匹配,所述的代价聚合模块为自适应聚合模块,通过稀疏点采样的方式进行高效聚合,主要包括同尺度聚合方法和跨尺度聚合方法。
进一步,所述的RGB-D语义分割模型为基于分离以及聚合的网络模型架构,首先利用上述预测得到的深度图转化为水平差异,对地高度以及表面法向量角度的三通道图像HHA,再将左视图RGB图像IL以及重构的三通道深度图HHA输入到模型中,本发明采用的模型其编码器结构主要为四个跨模态引导的特征提取模块,采用的解码器结构为Deeplabv3模型中的编码网络模块。
进一步的本发明利用得到的深度图以及语义分割图像得到伪语义点云图像,即对于每一个输入图像像素点都可以得到三维空间中对应的坐标以及其类别信息{xi,yi,zi,vi},随后依据所选取范围以及最终生成鸟瞰图大小,去除三维信息的高度信息得到初步鸟瞰图,本发明选取范围为40m,鸟瞰图大小为512,依据公式P(xi*40/512,zi*40/512)=vi得到所有点的类别信息,同时受限于深度图分辨率以及遮挡区域,鸟瞰图中会有一些无法观察到的点,对这类点取值为0。
进一步的为填充上述空洞信息,本发明初步鸟瞰图填充模块采用基于生成对抗的图像修复算法进行空洞填充。首先将伪鸟瞰图中的空洞区域提取出,作为掩膜Mask,结合鸟瞰图标签BEV构造图像修复模型的数据集,其次构造对抗的图像修复模型,并将鸟瞰图标签与掩膜结合后的图像输入到基于生成对抗的图像修复模型进行模型训练,从而得到最终的鸟瞰图预测结果。
本发明提出的场景鸟瞰图重构方法将在下面具体实施例部分作详细描述。
本发明的有益效果为:
1、本发明通过采用前置双目摄像头作为输入,结合立体匹配、语义分割以及生成对抗网络算法,对前方区域进行语义鸟瞰图重建。通过摄像头取代激光雷达,极大的降低了重构鸟瞰图的成本,同时利用网络得到的语义信息与深度信息,能够详细的提取出前方道路、车道线、障碍物以及红绿灯等信息,为后续决策规划提供有效信息。
2、本发明在提取语义分割信息时,采用RGB-D语义分割算法,充分利用RGB信息与前端深度估计模型的深度信息,能够进一步完善语义分割信息,加强网络模块之间的联系,提高语义分割的精度。
3、本发明在初步得到语义鸟瞰图图像时,选用生成对抗网络进行空洞以及遮挡部分的信息修复和填充,丰富鸟瞰图图像的信息,提升重构鸟瞰图图像的精度。
附图说明
图1为基于立体匹配与语义分割结合的摄像头重构语义鸟瞰图方法流程图;
图2为自适应立体匹配网络结构图;
图3为RGB-D网络流程图。
图4为生成对抗网络结构图。
具体实施方式
下面结合附图对本发明作进一步说明。
图1为基于立体匹配与语义分割结合的摄像头重构语义鸟瞰图方法流程图,主要包括如下步骤:
(1)制作数据集:鉴于传统语义鸟瞰图不易于获得,借助CARLA仿真模拟器,设置同一竖直方向,水平方向基线偏差50cm的左右两摄像头,采集对应的RGB图像IL,IR,深度图标签DL,DR,语义分割图标签sL,sR以及鸟瞰图标签BEV。其中数据集基本信息如下表所示
Figure BDA0003328168530000031
(2)搭建立体匹配模型,本发明采用自适应立体匹配网络作为基本模型,具体网络结构如附图2所示。其中,模型的输入为步骤(1)中数据集的左右前置摄像头RGB图像IL,IR,模型的输出为IL对应的视差预测值DsL,进一步根据下列公式:求得最终的深度图DpL
Figure BDA0003328168530000041
其中B代表摄像头基线的距离,FO代表摄像头在图片像素上的焦距。
本发明采用的立体匹配网络主要包括特征提取、匹配代价计算,代价聚合以及视差优化四个部分。其中特征提取模块采用堆叠沙漏的网络架构,通过多层堆叠、密集连接的上采样下采样层对输入左右图像进行特征提取,同时采用特征金字塔的网络得到左右视图在三个不同分辨率下的特征图,从而得到左右视图对应的特征图FL1,FL2,FL3,FR1,FR2,FR3,其中左右视图采用权重共享的方式进行训练,随后将得到的特征图采用基于相关性的方法构造出三维的代价匹配模块其计算公式如下:
Figure BDA0003328168530000042
其中<·,·>代表两个元素之间求点积,C(d,p)代表在像素点p处的关于视差d的匹配代价,FLs(p),FRs(p)分别为在像素点周围第s层特征图。
对于代价聚合模块,本发明采用自适应聚合模块,通过稀疏点采样的方式进行高效聚合主要包括同尺度聚合和跨尺度聚合。
同尺度聚合,即只针对相同分辨率的特征图进行代价聚合计算,公式如下所示:
Figure BDA0003328168530000043
其中
Figure BDA0003328168530000044
代表在像素p处的代价聚合,k2代表在像素点p周围的采样个数,wk是第k个像素点的聚合权重,pk是像素点的固定偏置,mk,Δpk是通过可变性卷积学习到的位置权重以及固定偏置,C(·)代表公式(1)中的匹配代价函数。
跨尺度聚合,则是用于聚合不同尺度特征图,通过不同尺度的自适应聚合模块,能够有效详细的弥补不同尺度之间的聚合误差。其具体公式如下:
Figure BDA0003328168530000045
Figure BDA0003328168530000046
其中
Figure BDA0003328168530000047
代表第S层跨尺度聚合之后的聚合代价,
Figure BDA0003328168530000048
代表第k个尺度经过同尺度聚合之后的匹配代价,式(4)中第一项代表恒等映射,第二项代表经过s-k个步长为2的3*3卷积操作,第三项代表先经过一个双线性插值以及一个上采样操作后接1*1卷积操作。
对于立体匹配整体的损失函数采用多尺度的L1损失函数定义为:
Figure BDA0003328168530000051
其中λi代表不同尺度下预测的权重,
Figure BDA0003328168530000052
代表第i个尺度下视差预测值以及真值,N代表所有像素点个数。
(3)搭建RGB-D语义分割模型,为提高语义分割模型预测的准确性,本发明进一步利用(2)中得到的深度信息,搭建了基于RGB-D的语义分割模型。本发明选用一种基于分离以及聚合的模型架构(SA-Net),模型结构如附图3所示。为提高模型预测精度,首先利用(3)中获得的深度图DpL转化为水平差异,对地高度以及表面法向量的角度的三通道图像HHA,模型的输入为左视图RGB图像IL以及重构的三通道深度图HHA,输出为对应的语义分割图SpL
本发明采用的模型其编码器结构主要为四个跨模态引导的特征提取模块,采用的解码器结构为Deeplabv3模型中的编码网络模块。
其中跨模态引导部分采用SA-GATE,其具体结构如附图3所示,主要包括特征分离以及特征聚合两个部分。特征分离部分主要完成对于深度信息以及RGB图像进行校准,具体操作为首先通拼接两种模态得到全局信息,随后通过全局平均池化以及多层感知机得到整体的注意力向量,具体计算公式如下:
WWA=σ(FMLP(FGP(RGBin,HHAin)) (7)
WWA代表最终得到的注意力向量,σ代表sigmoid激活函数,FGP(·)代表全局平均池化,FMLP(·)代表多层感知机,随后将得到的注意力向量与深度特征图进行通道相乘得到矫正后的深度特征图Dfileter,以及矫正后的RGB特征图RGBrec
Figure BDA0003328168530000053
RGBrec=Dfileter+IL (9)
Figure BDA0003328168530000054
代表通道相乘,特征聚合模块首先将重新矫正后的Dfileter以及RGBrec进行重新拼接,随后通过1*1卷积进行映射得到两个不同的门控注意力Grgb,Gdepth,并将其输入到一个softmax层得到软注意力权重Argb,Adepth,将其分别与原始RGB特征层输入和深度特征层输入做点乘,得到最终的输出M,计算公式如下:
Figure BDA0003328168530000055
M=RGBin·Argb+HHAin·Adep (11)
在得到特征图M之后,将其与原始特征图取平均并将其输入下一个特征提取模块,经过四个特征提取模块后输出到解码器即可得到最终的预测语义分割图SpL
(4)通过坐标变换得到伪语义点云图像:根据上述步骤(2)(3)得到左视图IL对应的模型预测的深度图DpL以及语义分割图SpL,首先得到左视图IL每一个点(u,v)对应的深度信息d以及语义信息v,因此可以得到一系列点的组合
Figure BDA0003328168530000061
其中N代表像素点的个素,随后采用坐标变换得到在卡迪尔坐标下一系列伪语义点云信息
Figure BDA0003328168530000062
计算公式如下:
zi=di (12)
Figure BDA0003328168530000063
Figure BDA0003328168530000064
其中fU,fV分别代表横向、纵向的焦距长度(坐标为像素),CU,CV代表图像中心点的坐标。
在得到伪语义点云信息后,根据设定鸟瞰图观察距离,选取距离内所有的点,构造新的鸟瞰图图像并设置每像素点值代表其类别信息,本发明选取纵向范围为[0,40],横向范围为[-20,20],鸟瞰图大小为(512*512),因此对鸟瞰图PSL中每个点其类别计算公式如下,
P(xi*40/512,zi*40/512)=vi (15)
P(othres)=0 (16)
即对于鸟瞰图范围内存在的点,其像素点信息为其类别信息,对于其他点(遮挡区域以及受深度图分辨率设置的区域)其类别信息为0,重复上述操作,遍历范围内所有的点,从而得到最终的伪语义点云图像PSL
(5)对于(4)中生成的伪语义点云图像PSL常常存在许多空洞的情况,本发明选用基于生成对抗的图像修复算法进行空洞填充。具体步骤如下:首先将伪语义点云图像PSL中的空洞区域提取出,作为掩膜Mask,结合鸟瞰图标签BEV构造图像修复模型的数据集,其次将鸟瞰图标签与掩膜结合后的图像用Canny边缘检测得到边缘图;随后构造基于生成对抗的图像修复模型,本发明采用基于EdgeConnect模型作为图像修复的主干网络,其网络结构如附图4所示,主要包括两个生成器以及两个判别器,第一生成器将灰图像,掩膜以及边缘图作为输入,用于生成完整的边缘图,可由下列公式表示:
Cpred=G1(Bgray,Cgt,Mask) (17)
其中G1代表第一生成器,Bgray代表输入鸟瞰图的灰度图像,Cpred代表生成的边缘图,Cgt代表正式的边缘图,Mask代表掩膜图像。
第一判别器则用于判别生成边缘图是否真实,其判断依据为对抗损失Ladv和特征损失LFM,计算公式如下:
Figure BDA0003328168530000071
其中G1为第一生成器,D1为第一判别器,γadv,1代表对抗损失的权重,γFM表示特征损失权重,对抗损失与特征损失的计算公式如下
Figure BDA0003328168530000072
Figure BDA0003328168530000073
Figure BDA0003328168530000074
表示真实数据的概率,
Figure BDA0003328168530000075
表示生成数据的概率,其中L特征层的个数,Ni代表在第i个特征层的像素点个数。
第二生成器将生成的边缘图与带掩膜的原始图像输入到生成器中,用于生成最终的预测结果,可由下式来表示:
BEVpred=G2(BEV,Cpred) (20)
其中G2表示第二生成器,BEV代表鸟瞰图标签,Cpred代表第一个生成器的生成结果,再将其结果用于第二判别器进行判别训练,其损失函数为:
Figure BDA0003328168530000076
经过上述模型处理,最终可得到完整的鸟瞰图图像BEVpred。上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims (10)

1.一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统,其特征在于,包括:用于获得深度图的立体匹配模型模块、用于获得语义分割图的语义分割模型模块、伪点云获取模块、初步鸟瞰图获取模块、初步鸟瞰图填充模块;
所述立体匹配模型:采用自适应立体匹配网络作为基本模型,将前置摄像头的左右视图采集的RGB图像IL,IR作为模型输入,模型输出为左视图对应的视差图DsL,进一步的可以由视差图得到深度图DpL
所述语义分割模型:采用基于分离以及聚合的SA-Net网络模型架构,首先将立体匹配模型预测得到的深度图DpL转化为水平差异、对地高度以及表面法向量角度的三通道图像HHA,再将左视图RGB图像IL以及重构的三通道深度图HHA输入到该模型中,获取预测语义分割图SpL
所述伪点云获取模块:对于每一个输入图像像素点都得到三维空间中对应的坐标以及其类别信息{xi,yi,zi,vi},得到伪语义点云信息;
所述初步鸟瞰图获取模块:根据获取的伪语义点云信息,依据选取范围以及最终生成鸟瞰图大小,去除三维信息的高度信息得到伪语义点云图像PSL,即为初步鸟瞰图;
所述初步鸟瞰图填充模块:基于生成对抗的图像修复算法对初步鸟瞰图进行空洞填充,获取完整的鸟瞰图结果。
2.根据权利要求1所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统,其特征在于,所述立体匹配模型包括特征提取、匹配代价计算,代价聚合以及视差优化四个部分;
所述特征提取部分采用堆叠沙漏的网络架构,通过多层堆叠、密集连接的上采样下采样层对输入左右视图进行特征提取,同时采用特征金字塔的网络得到左右视图在三个不同分辨率下的特征图,得到左右视图对应的特征图FL1,FL2,FL3,FR1,FR2,FR3;其中左右视图采用权重共享的方式进行训练;
所述匹配代价计算部分采用基于相关性的三维的代价匹配;计算公式如下:
Figure FDA0003328168520000011
其中<·,·>代表两个元素之间求点积,C(d,h,w)代表在(h,w)处的关于视差d的匹配代价,FLs(h,w),FRs(h,w)分别为在(h,w)周围第s层特征图;
所述代价聚合部分为自适应聚合模块,通过稀疏点采样的方式进行高效聚合,主要包括同尺度聚合和跨尺度聚合。
3.根据权利要求2所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统,其特征在于,所述同尺度聚合,是指只针对相同分辨率的特征图进行代价聚合计算,公式如下所示:
Figure FDA0003328168520000021
其中
Figure FDA0003328168520000022
代表在像素p处的代价聚合,k2代表在像素点p周围的采样个数,wk是第k个像素点的聚合权重,pk是像素点的固定偏置,mk,Δpk是通过可变性卷积学习到的位置权重以及固定偏置,C(·)代表公式(1)中的匹配代价函数;
所述跨尺度聚合,是指用于聚合不同尺度的特征图,通过不同尺度的自适应聚合,弥补不同尺度之间的聚合误差,具体公式如下:
Figure FDA0003328168520000023
Figure FDA0003328168520000024
其中
Figure FDA0003328168520000025
代表跨尺度聚合之后的聚合代价,
Figure FDA0003328168520000026
代表第k个尺度经过同尺度聚合之后的匹配代价,式(4)中第一项代表恒等映射,第二项代表经过S-k个步长为2的3*3卷积操作,第三项代表先经过一个双线性插值以及一个上采样操作后接1*1卷积操作。
4.根据权利要求2或3所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统,其特征在于,所述立体匹配模型的损失函数采用多尺度的L1损失函数,具体为:
Figure FDA0003328168520000027
其中λi代表不同尺度下预测的权重,
Figure FDA0003328168520000028
代表第i个尺度下视差预测值以及真值。
5.根据权利要求1所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统,其特征在于,所述语义分割模型,采用的编码器结构为四个跨模态引导的特征提取模块,采用的解码器结构为Deeplabv3模型中的编码网络模块;具体如下:
所述跨模态引导的特征提取模块采用SA-GATE,包括特征分离以及特征聚合两个部分;
特征分离部分:用于完成对于深度信息以及RGB图像进行校准,具体操作为:
首先通拼接两种模态得到全局信息,随后通过全局平均池化以及多层感知机得到整体的注意力向量,具体计算公式如下:
WWA=σ(FMLP(FGP(RGBin,HHAin)) (5)
WWA代表最终得到的注意力向量,σ代表sigmoid激活函数,PGP(·)代表全局平均池化,FMLP(·)代表多层感知机;
随后将得到的注意力向量与深度特征图进行通道相乘得到矫正后的深度特征图Dfileter,以及矫正后的RGB特征图RGBrec
Figure FDA0003328168520000031
RGBrec=Dfileter+IL (7)
特征聚合部分:首先将重新矫正后的Dfileter以及RGBrec进行重新拼接,随后通过1*1卷积进行映射得到两个不同的门控注意力Grgb,Gdepth,并将其输入到一个softmax层得到软注意力权重Argb,Adepth,将其分别与原始RGB特征层输入和深度特征层输入做点乘,得到最终的输出M,计算公式如下:
Figure FDA0003328168520000032
M=RGBin·Argb+HHAin·Adepth (9)
在得到特征图之后将其与原始特征图取平均并将其输入下一个特征提取模块,经过四个特征提取模块后输出到解码器即可得到最终的预测语义分割图SpL
6.根据权利要求1所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统,其特征在于,所述伪点云获取模块:根据左视图IL对应的模型预测深度图DpL以及语义分割预测图SpL,首先得到左视图IL每一个点(u,v)对应的深度信息d以及语义信息v,因此可以得到一系列点的组合
Figure FDA0003328168520000033
其中N代表像素点的个素,随后采用坐标变换得到在卡迪尔坐标下一系列伪语义点云信息
Figure FDA0003328168520000034
计算公式如下:
zi=di (9)
Figure FDA0003328168520000036
Figure FDA0003328168520000035
其中fU,fV分别代表横纵方向的焦距长度(坐标为像素),CU,CV代表图像中心点的坐标。
7.根据权利要求1所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统,其特征在于,所述初步鸟瞰图获取模块:根据得到的伪语义点云信息,设定鸟瞰图观察距离,选取距离内所有的点,构造新的鸟瞰图图像并设置每像素点值代表其类别信息,具体选取纵向范围为[0,40],横向范围为[-20,20],鸟瞰图大小为(512*512),对鸟瞰图中每个点其类别计算公式如下,
P(xi*40/512,zi*40/512)=vi (12)
P(others)=0 (13)
即对于鸟瞰图范围内存在的点,其像素点信息为其类别信息,对于其他点(遮挡区域以及受深度图分辨率设置的区域)其类别信息为0,
重复上述操作,遍历范围内所有的点,得到最终的伪语义点云图像PSL
8.根据权利要求1所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构系统,其特征在于,所述初步鸟瞰图填充模块,首先将伪语义点云图像PSL中的空洞区域提取出,作为掩膜Mask,结合鸟瞰图标签BEV构造图像修复模型的数据集,
其次将鸟瞰图标签与掩膜结合后的图像用Canny边缘检测得到边缘图;
随后构造基于生成对抗的图像修复模型,采用基于EdgeConnect模型作为图像修复的主干网络,包括两个生成器以及两个判别器,第一生成器将灰图像,掩膜以及边缘图作为输入,用于生成完整的边缘图,由下列公式表示:
Cpred=G1(Bgray,Cgt,Mask)
其中G1代表生成器,Bgray代表输入鸟瞰图的灰度图像,Cpred代表生成的边缘图,Cgt代表正式的边缘图,Mask代表掩膜图像;
第一判别器则用于判别生成边缘图是否真实,其判断依据为对抗损失Ladv和特征损失LFM,计算公式如下:
Figure FDA0003328168520000041
其中G1为第一生成器,D1为第一判别器,γadv,1代表对抗损失的权重,γFM表示特征损失权重,对抗损失与特征损失的计算公式如下
Figure FDA0003328168520000042
Figure FDA0003328168520000043
其中L代表最后一层特征层Ni表示第i层的激活结果;
第二生成器将生成的边缘图与带掩膜的原始图像作为输入,用于生成最终的预测结果,由下式来表示:
BEVpred=G2(BEV,Cpred)
其中G2表示第二生成器,BEV代表鸟瞰图标签,Cpred代表第一个生成器的生成结果,再将其结果输入第二判别器进行判别训练,其损失函数为:
Figure FDA0003328168520000051
经过上述处理,最终可得到生成的鸟瞰图图像BEVpred
9.一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法,其特征在于,包括如下步骤:
S1、制作数据集:借助CARLA仿真模拟器,设置同一竖直方向、水平方向基线偏差50cm的左右两摄像头,采集对应的RGB图像IL,IR,深度图标签DL,DR,语义分割图标签sL,sR以及鸟瞰图标签BEV,完成数据集的制作;
S2、搭建立体匹配模型:采用自适应立体匹配网络作为基本模型,模型的输入为S1中数据集的左右前置摄像头RGB图像IL,IR,模型的输出为IL对应的视差预测图DsL,进一步可以通过视差图与深度图转换公式求得深度图DpL
所述立体匹配网络包括特征提取、匹配代价计算,代价聚合以及视差优化四个部分;其中特征提取部分采用堆叠沙漏的网络架构,通过多层堆叠、密集连接的上采样下采样层对输入左右图像进行特征提取,同时采用特征金字塔的网络得到左右视图在三个不同分辨率下的特征图,从而得到左右视图对应的特征图FL1,PL2,FL3,FR1,FR2,FR3;其中左右视图采用权重共享的方式进行训练,随后将得到的特征图采用基于相关性的方法构造出三维的代价匹配,其计算公式如下:
Figure FDA0003328168520000052
其中<·,·>代表两个元素之间求点积,C(d,h,w)代表在(h,w)处的关于视差d的匹配代价,FLs(h,w),FRs(h,w)分别为在(h,w)周围第s层特征图;
代价聚合部分,采用自适应聚合,通过稀疏点采样的方式进行高效聚合,包括同尺度聚合和跨尺度聚合;
同尺度聚合,即只针对相同分辨率的特征图进行代价聚合计算,公式如下所示:
Figure FDA0003328168520000053
其中
Figure FDA0003328168520000054
代表在像素p处的代价聚合,k2代表在像素点p周围的采样个数,Wk是第k个像素点的聚合权重,pk是像素点的固定偏置,mk,Δpk是通过可变性卷积学习到的位置权重以及固定偏置,C(·)代表公式(1)中的匹配代价函数;
跨尺度聚合,则是用于聚合不同尺度特征图,通过不同尺度的自适应聚合模块,弥补不同尺度之间的聚合误差,其具体公式如下:
Figure FDA0003328168520000061
Figure FDA0003328168520000062
其中
Figure FDA0003328168520000063
代表跨尺度聚合之后的聚合代价,
Figure FDA0003328168520000064
代表第k个尺度经过同尺度聚合之后的匹配代价,式(4)中第一项代表恒等映射,第二项代表经过S-k个步长为2的3*3卷积操作,第三项代表先经过一个双线性插值以及一个上采样操作后接1*1卷积操作;对于立体匹配整体的损失函数采用多尺度的L1损失函数定义为:
Figure FDA0003328168520000065
其中λi代表不同尺度下预测的权重,
Figure FDA0003328168520000066
代表第i个尺度下视差预测值以及真值;
S3、搭建RGB-D语义分割模型:采用基于分离以及聚合的模型架构SA-Net,首先将获得的深度图DpL转化为水平差异,对地高度以及表面法向量的角度的三通道图像HHA,模型的输入为左视图RGB图像IL以及重构的三通道深度图HHA,输出为对应的语义分割预测值SpL
所述语义分割模型的编码器部分包括四个跨模态引导的特征提取模块,解码器部分为Deeplabv3模型中的编码网络结构;
其中跨模态引导部分采用SA-GATE,包括特征分离以及特征聚合两个部分;特征分离部分完成对于深度信息以及RGB图像进行校准,具体操作为:
首先通拼接两种模态得到全局信息,随后通过全局平均池化以及多层感知机得到整体的注意力向量,具体计算公式如下:
WWA=σ(FMLP(FGP(RGBin,HHAin)) (5)
WWA代表最终得到的注意力向量,σ代表sigmoid激活函数,PGP(·)代表全局平均池化,FMLP(·)代表多层感知机,
随后将得到的注意力向量与深度特征图进行通道相乘得到矫正后的深度特征图Dfileter,以及矫正后的RGB特征图RGBrec
Figure FDA0003328168520000067
RGBrec=Dfileter+IL (7)
特征聚合部分:首先将重新矫正后的Dfileter以及RGBrec进行重新拼接,随后通过1*1卷积进行映射得到两个不同的门控注意力Grgb,Gdepth,并将其输入到一个softmax层得到软注意力权重Argb,Adepth,将其分别与原始RGB特征层输入和深度特征层输入做点乘,得到最终的输出M,计算公式如下:
Figure FDA0003328168520000071
M=RGBin·Argb+HHAin·Adept (9)
在得到特征图M之后,将其与原始特征图取平均并将其输入下一个特征提取模块,经过四个特征提取模块后输出到解码器即可得到最终的语义分割图SpL
S4、通过坐标变换得到伪语义点云图像:根据上述得到左视图IL对应的模型预测深度图DpL以及语义分割图SpL,首先得到左视图IL每一个点(u,v)对应的深度信息d以及语义信息v,得到一系列点的组合
Figure FDA0003328168520000072
其中N代表像素点的个素,随后采用坐标变换得到在卡迪尔坐标下一系列伪语义点云信息
Figure FDA0003328168520000073
计算公式如下:
zi=di (9)
Figure FDA0003328168520000074
Figure FDA0003328168520000075
其中fU,fV分别代表横纵方向的焦距长度(坐标为像素),CU,CV代表图像中心点的坐标;
在得到伪语义点云信息后,根据设定鸟瞰图观察距离,选取距离内所有的点,构造新的鸟瞰图图像并设置每像素点值代表其类别信息,选取纵向范围为[0,40],横向范围为[-20,20],鸟瞰图大小为(512*512),因此对鸟瞰图中每个点其类别计算公式如下,
P(xi*40/512,zi*40/512)=vi (12)
P(others)=0 (13)
即对于鸟瞰图范围内存在的点,其像素点信息为其类别信息,对于其他点(遮挡区域以及受深度图分辨率设置的区域)其类别信息为0,重复上述操作,遍历到范围内若有的点,得到最终的伪语义点云图像PSL
S5、对的S4的伪语义点云图像PSL进行填充:首先将伪语义点云图像PSL中的空洞区域提取出,作为掩膜Mask,结合鸟瞰图标签BEV构造图像修复模型的数据集,其次将鸟瞰图标签与掩膜结合后的图像用Canny边缘检测得到边缘图;
随后构造基于生成对抗的图像修复模型,采用基于EdgeConnect模型作为图像修复的主干网络,包括两个生成器以及两个判别器,第一生成器将灰图像,掩膜以及边缘图作为输入,用于生成完整的边缘图,可由下列公式表示:
Cpred=G1(Bgray,Cgt,Mask)
其中G1代表第一生成器,Bgray代表输入鸟瞰图的灰度图像,Cpred代表生成的边缘图,Cgt代表正式的边缘图,Mask代表掩膜图像;
第一判别器用于判别生成边缘图是否真实,其判断依据为对抗损失Ladv和特征损失LFM,计算公式如下:
Figure FDA0003328168520000081
其中G1为第一生成器,D1为第一判别器,γadv,1代表对抗损失的权重,γFM表示特征损失权重,对抗损失与特征损失的计算公式如下
Figure FDA0003328168520000082
Figure FDA0003328168520000083
其中L代表最后一层特征层Ni表示第i层的激活结果;
第二生成器将生成的边缘图与带掩膜的原始图像作为输入,用于生成最终的预测结果,由下式来表示:
BEVpred=G2(BEV,Cpred)
其中G2表示第二生成器,BEV代表鸟瞰图标签,Cpred代表第一生成器的生成结果,再将其结果用于第二判别器进行判别训练,其损失函数为:
Figure FDA0003328168520000084
经过上述模型的处理,最终可得到生成的鸟瞰图图像BEVpred
10.根据权利要求9所述的一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法,其特征在于,所述S1中数据集的格式如下:
Figure FDA0003328168520000085
CN202111271617.3A 2021-10-29 2021-10-29 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统 Active CN113936139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111271617.3A CN113936139B (zh) 2021-10-29 2021-10-29 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111271617.3A CN113936139B (zh) 2021-10-29 2021-10-29 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统

Publications (2)

Publication Number Publication Date
CN113936139A true CN113936139A (zh) 2022-01-14
CN113936139B CN113936139B (zh) 2024-06-11

Family

ID=79285045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111271617.3A Active CN113936139B (zh) 2021-10-29 2021-10-29 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统

Country Status (1)

Country Link
CN (1) CN113936139B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445593A (zh) * 2022-01-30 2022-05-06 重庆长安汽车股份有限公司 基于多帧语义点云拼接的鸟瞰图语义分割标签生成方法
CN114692720A (zh) * 2022-02-25 2022-07-01 广州文远知行科技有限公司 基于鸟瞰图的图像分类方法、装置、设备及存储介质
CN114898313A (zh) * 2022-04-29 2022-08-12 广州文远知行科技有限公司 驾驶场景的鸟瞰图生成方法、装置、设备及存储介质
CN115049632A (zh) * 2022-06-28 2022-09-13 深圳市瀚德智能机器人有限公司 管带扭转检测方法、装置、设备和存储介质
CN115331012A (zh) * 2022-10-14 2022-11-11 山东建筑大学 基于零样本学习的联合生成式图像实例分割方法及系统
CN115760886A (zh) * 2022-11-15 2023-03-07 中国平安财产保险股份有限公司 基于无人机鸟瞰图的地块划分方法、装置及相关设备
CN116012806A (zh) * 2023-03-29 2023-04-25 苏州浪潮智能科技有限公司 一种车辆检测方法、装置、检测器、系统和模型训练方法
CN116030200A (zh) * 2023-03-27 2023-04-28 武汉零点视觉数字科技有限公司 一种基于视觉融合的场景重构方法与装置
CN116362318A (zh) * 2023-03-30 2023-06-30 复旦大学 基于自适应深度修正的纯视觉三维目标检测方法和系统
CN116503729A (zh) * 2023-03-17 2023-07-28 中国自然资源航空物探遥感中心 应用于遥感数字图像的道路提取方法和装置
CN116524195A (zh) * 2023-06-20 2023-08-01 中国科学院深圳先进技术研究院 语义分割方法、装置、电子设备及存储介质
CN118238832A (zh) * 2024-05-21 2024-06-25 广汽埃安新能源汽车股份有限公司 一种基于视觉感知的智能驾驶方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401150A (zh) * 2020-02-27 2020-07-10 江苏大学 一种基于实例分割和自适应变换算法的多车道线检测方法
CN111862101A (zh) * 2020-07-15 2020-10-30 西安交通大学 一种鸟瞰图编码视角下的3d点云语义分割方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN112793564A (zh) * 2021-02-07 2021-05-14 杨东杰 一种基于全景鸟瞰图和深度学习的自主泊车辅助系统
CN113159151A (zh) * 2021-04-12 2021-07-23 中国科学技术大学 面向自动驾驶的多传感器深度融合3d目标检测方法
CN113506300A (zh) * 2021-06-25 2021-10-15 江苏大学 一种基于雨天复杂道路场景下的图片语义分割方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401150A (zh) * 2020-02-27 2020-07-10 江苏大学 一种基于实例分割和自适应变换算法的多车道线检测方法
CN111862101A (zh) * 2020-07-15 2020-10-30 西安交通大学 一种鸟瞰图编码视角下的3d点云语义分割方法
AU2020103901A4 (en) * 2020-12-04 2021-02-11 Chongqing Normal University Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field
CN112793564A (zh) * 2021-02-07 2021-05-14 杨东杰 一种基于全景鸟瞰图和深度学习的自主泊车辅助系统
CN113159151A (zh) * 2021-04-12 2021-07-23 中国科学技术大学 面向自动驾驶的多传感器深度融合3d目标检测方法
CN113506300A (zh) * 2021-06-25 2021-10-15 江苏大学 一种基于雨天复杂道路场景下的图片语义分割方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
蔡英凤;张田田;王海;李祎承;孙晓强;陈龙;: "基于实例分割和自适应透视变换算法的多车道线检测", 东南大学学报(自然科学版), no. 04, 20 July 2020 (2020-07-20) *
陈震;马龙;张聪炫;黎明;吴俊劼;江少锋;: "基于语义分割的双目场景流估计", 电子学报, no. 04, 15 April 2020 (2020-04-15) *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114445593B (zh) * 2022-01-30 2024-05-10 重庆长安汽车股份有限公司 基于多帧语义点云拼接的鸟瞰图语义分割标签生成方法
CN114445593A (zh) * 2022-01-30 2022-05-06 重庆长安汽车股份有限公司 基于多帧语义点云拼接的鸟瞰图语义分割标签生成方法
CN114692720A (zh) * 2022-02-25 2022-07-01 广州文远知行科技有限公司 基于鸟瞰图的图像分类方法、装置、设备及存储介质
CN114692720B (zh) * 2022-02-25 2023-05-23 广州文远知行科技有限公司 基于鸟瞰图的图像分类方法、装置、设备及存储介质
CN114898313A (zh) * 2022-04-29 2022-08-12 广州文远知行科技有限公司 驾驶场景的鸟瞰图生成方法、装置、设备及存储介质
CN115049632A (zh) * 2022-06-28 2022-09-13 深圳市瀚德智能机器人有限公司 管带扭转检测方法、装置、设备和存储介质
CN115331012A (zh) * 2022-10-14 2022-11-11 山东建筑大学 基于零样本学习的联合生成式图像实例分割方法及系统
CN115331012B (zh) * 2022-10-14 2023-03-24 山东建筑大学 基于零样本学习的联合生成式图像实例分割方法及系统
CN115760886A (zh) * 2022-11-15 2023-03-07 中国平安财产保险股份有限公司 基于无人机鸟瞰图的地块划分方法、装置及相关设备
CN115760886B (zh) * 2022-11-15 2024-04-05 中国平安财产保险股份有限公司 基于无人机鸟瞰图的地块划分方法、装置及相关设备
CN116503729A (zh) * 2023-03-17 2023-07-28 中国自然资源航空物探遥感中心 应用于遥感数字图像的道路提取方法和装置
CN116030200A (zh) * 2023-03-27 2023-04-28 武汉零点视觉数字科技有限公司 一种基于视觉融合的场景重构方法与装置
CN116012806A (zh) * 2023-03-29 2023-04-25 苏州浪潮智能科技有限公司 一种车辆检测方法、装置、检测器、系统和模型训练方法
CN116362318B (zh) * 2023-03-30 2024-02-06 复旦大学 基于自适应深度修正的纯视觉三维目标检测方法和系统
CN116362318A (zh) * 2023-03-30 2023-06-30 复旦大学 基于自适应深度修正的纯视觉三维目标检测方法和系统
CN116524195A (zh) * 2023-06-20 2023-08-01 中国科学院深圳先进技术研究院 语义分割方法、装置、电子设备及存储介质
CN116524195B (zh) * 2023-06-20 2023-12-01 中国科学院深圳先进技术研究院 语义分割方法、装置、电子设备及存储介质
CN118238832A (zh) * 2024-05-21 2024-06-25 广汽埃安新能源汽车股份有限公司 一种基于视觉感知的智能驾驶方法及装置
CN118238832B (zh) * 2024-05-21 2024-08-09 广汽埃安新能源汽车股份有限公司 一种基于视觉感知的智能驾驶方法及装置

Also Published As

Publication number Publication date
CN113936139B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN113936139B (zh) 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统
CN109685842B (zh) 一种基于多尺度网络的稀疏深度稠密化方法
CN108803617B (zh) 轨迹预测方法及装置
CN110675418B (zh) 一种基于ds证据理论的目标轨迹优化方法
CN111563415B (zh) 一种基于双目视觉的三维目标检测系统及方法
CN109726627B (zh) 一种神经网络模型训练及通用接地线的检测方法
JP6766844B2 (ja) 物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置
CN110689008A (zh) 一种面向单目图像的基于三维重建的三维物体检测方法
CN110070025B (zh) 基于单目图像的三维目标检测系统及方法
CN116258817B (zh) 一种基于多视图三维重建的自动驾驶数字孪生场景构建方法和系统
CN114724120B (zh) 基于雷视语义分割自适应融合的车辆目标检测方法及系统
CN110197505B (zh) 基于深度网络及语义信息的遥感图像双目立体匹配方法
CN114821507A (zh) 一种用于自动驾驶的多传感器融合车路协同感知方法
CN115359372A (zh) 一种基于光流网络的无人机视频运动目标检测方法
CN113095152A (zh) 一种基于回归的车道线检测方法及系统
CN115187964A (zh) 基于多传感器数据融合的自动驾驶决策方法及SoC芯片
CN111325782A (zh) 一种基于多尺度统一的无监督单目视图深度估计方法
CN113624223B (zh) 一种室内停车场地图构建方法及装置
CN111914615A (zh) 基于立体视觉的消防区域可通过性分析系统
CN114091598A (zh) 一种基于语义级信息融合的多车协同环境感知方法
CN114155414A (zh) 面向无人驾驶的新型特征层数据融合的方法、系统及目标检测方法
CN115330935A (zh) 一种基于深度学习的三维重建方法及系统
CN114648669A (zh) 一种域自适应双目视差计算的动车组故障检测方法及系统
CN116912786A (zh) 一种基于车路协同的智能网联汽车多模态融合检测方法
CN116222577A (zh) 闭环检测方法、训练方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant