CN115187959B - 一种基于双目视觉的飞行汽车山地着陆方法及系统 - Google Patents
一种基于双目视觉的飞行汽车山地着陆方法及系统 Download PDFInfo
- Publication number
- CN115187959B CN115187959B CN202210833684.8A CN202210833684A CN115187959B CN 115187959 B CN115187959 B CN 115187959B CN 202210833684 A CN202210833684 A CN 202210833684A CN 115187959 B CN115187959 B CN 115187959B
- Authority
- CN
- China
- Prior art keywords
- landing
- semantic segmentation
- camera
- image
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000011218 segmentation Effects 0.000 claims abstract description 73
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000011176 pooling Methods 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012952 Resampling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 244000025254 Cannabis sativa Species 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/586—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of parking space
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60F—VEHICLES FOR USE BOTH ON RAIL AND ON ROAD; AMPHIBIOUS OR LIKE VEHICLES; CONVERTIBLE VEHICLES
- B60F5/00—Other convertible vehicles, i.e. vehicles capable of travelling in or on different media
- B60F5/02—Other convertible vehicles, i.e. vehicles capable of travelling in or on different media convertible into aircraft
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B64—AIRCRAFT; AVIATION; COSMONAUTICS
- B64D—EQUIPMENT FOR FITTING IN OR TO AIRCRAFT; FLIGHT SUITS; PARACHUTES; ARRANGEMENT OR MOUNTING OF POWER PLANTS OR PROPULSION TRANSMISSIONS IN AIRCRAFT
- B64D45/00—Aircraft indicators or protectors not otherwise provided for
- B64D45/04—Landing aids; Safety measures to prevent collision with earth's surface
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Computational Linguistics (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双目视觉的飞行汽车着陆方法,基于部署在飞行汽车上的左右两摄像机实现,所述方法包括:步骤1)对飞行汽车降落过程中左右两摄像机拍摄的双目视图进行矫正,使得左右两摄像机的图像为平行视图;步骤2)根据矫正后的平行视图利用双目视觉获得对应的深度图;步骤3)将左摄像机捕获的图像输入预先建立和训练好的语义分割模型得到语义分割结果;步骤4)基于语义分割结果和图像的深度图,确定用于降落的候选区域;步骤5)根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,发出控制信号控制飞行汽车降落;所述语义分割模型为改进后的DeepLab v3结构网络。
Description
技术领域
本发明属于语义分割和控制领域,尤其涉及一种基于双目视觉的飞行汽车着陆方法及系统。
背景技术
对飞行汽车来说,在高低起伏的山地上平稳着陆,非常具有挑战性。很多研究方法都是基于大范围的传感器,如激光雷达、GPS等。但激光雷达获得的点云数据稀疏且无序,处理时计算量大;GPS在处于卫星信号弱的地点或移动速度过快导致无法与卫星建立连接时,会出现定位错误或偏差。相比而言,相机捕获的图像信息,能提供丰富的环境信息,而且不会受到信号强弱的影响。
现有的基于图像的着陆方法,包括:着陆区域的语义分割、立体视觉的方法、SLAM等。语义分割可以划分出能用于着陆的区域(如草地、沙地等),以及不能用于着陆的区域(如建筑物覆盖区,人群、车辆、树木等)。立体视觉的方式,利用多目相机捕获不同角度的着陆区域图片,利用两个视觉信息的差异估计着陆区域的轮廓信息,通过对连续帧之间的像素进行密集采样,计算密集光流并计算同调误差,以检测图像对应区域是否能用于着陆。SLAM是基于信息,对环境进行三维重建,然后估计能够用于着陆的位置区域。基于SLAM的方式很适合没有着陆标记信息的未知环境,但当环境中周围的障碍物很高时,为获得整体的图片,需要很高的俯视信息,此时三维建图的效果不理想。
飞行汽车的着陆过程应主要包含两个阶段:一是着陆区域的检测;二是着陆区域的测距和着陆过程。随着神经网络模型的发展,现阶段着陆区域的检测方法主要包含使用CNN在RGB图像中进行深度估计,并选择平坦的表面着陆(草地,道路等),这种方式无法在具有不同高度的同一类别上平稳着陆(如高低起伏的山地)。另一种方式是使用语义分割的方式,将图像分割为不同的类别,以预测某一区域范围内是否适合着陆。距离的测量可以通过使用其他传感器,如毫米波雷达,也可以使用基于视觉的方法,如在机器人系统中常用到的基于平行视图的方法的双目测距。
当前的基于视觉的飞行汽车着陆方法的主要难题:(1)只能在某些特定种类的区域进行着陆,当同一类别的区域高度具有差异时,无法检测其不同,无法安全着陆;(2)基于其他传感器的辅助降落策略,需要处理其他的传感器数据,有些传感器信息(如点云信息)难以处理。
发明内容
本发明的目的在于克服现有技术缺陷,提出了一种基于双目视觉的飞行汽车着陆方法及系统。
为了实现上述目的,本发明提出了一种基于双目视觉的飞行汽车着陆方法,基于部署在飞行汽车上的左右两摄像机实现,所述方法包括:
步骤1)对飞行汽车降落过程中左右两摄像机拍摄的双目视图进行矫正,使得左右两摄像机的图像为平行视图;
步骤2)根据矫正后的平行视图利用双目视觉获得对应的深度图;
步骤3)将左摄像机捕获的图像输入预先建立和训练好的语义分割模型得到语义分割结果;
步骤4)基于语义分割结果和图像的深度图,确定用于降落的候选区域;
步骤5)根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,发出控制信号控制飞行汽车降落;
所述语义分割模型为改进后的DeepLab v3结构网络。
作为上述方法的一种改进,所述步骤1)包括:
在左右两个摄像机同时捕获的图片上找到不少于8个匹配点,通过计算基础矩阵求解左右图像中的两个极点e′1和e′2,选择透视变换将右视图极点映射到无穷远处,
H′=T-1GR
其中,H′为右摄像机捕获的图像需要矫正的透视变换矩阵,T,G,R分别为中间矩阵,分别满足下式:
其中,当e′1>0时,系数α=1,否则α=-1;f为相机焦距;width和height分别为图片的宽度和高度;
H为左摄像机捕获的图像需要矫正的透视变换矩阵,寻找H使得下式最小:
其中,pm,p′m分别为左和右摄像机捕获的图像中的第m对像素点的坐标,d(Hpm,H′p′m)表示通过矫正后pm和p′m点之间的距离;
利用两透视变换矩阵H和H′对左右两摄像机捕获的图像进行重采样,获得左右图像平行视图。
作为上述方法的一种改进,所述步骤2)包括:
步骤2-1)利用相关法做左右两矫正图像的对应点对,对于左矫正后的图像中,任一像素点pu,确定该像素点周边4×4范围内的窗格中所有像素点,构成16×1的向量;根据平行视图的性质,遍历右矫正视图中像素点p所在行的所有像素,依次构造同样大小的16×1向量,取与pu点的余弦相似度最大的点,得到与左矫正图像中pu像素点对应的点对p′u
步骤2-2)利用每个对应点对,得到物体的真实深度z:
其中,B为双目相机的基线,f为相机焦距;
步骤2-3)遍历图像中的所有点对,获得物体的深度图。
作为上述方法的一种改进,所述步骤3)的语义分割模型的输入为预处理后尺寸为(480,480)左摄像机捕获的图像,输出的数据尺寸为(480,480,num_class),其中,num_class为对应每个像素的语义分割类别,所述语义分割类别包括低植物、路、背景、树、建筑物、汽车或人;所述语义分割模型包括依次连接的主干网络、ASPP层和分类模块;其中,
所述主干网络采用ResNet50网络,包括依次连接的Block1,Block2,Block3和Block 4,其中,在Block3中,将所有卷积核大小为3×3的卷积层都替换为膨胀卷积,设置膨胀系数为2,在Block4中,将所有的3×3卷积核的卷积层都替换为膨胀卷积,设置膨胀系数为4;
所述ASPP层包括五个并联的分支,第一分支为卷积核大小为1×1的卷积层;第二分支、第三分支和第四分支均为卷积核大小为3×3的膨胀卷积,第二分支膨胀系数为12,第三分支膨胀系数为24,第四分支膨胀系数为36;第五分支为全局池化分支,包括一个池化核大小为1×1的全局池化层、卷积核大小为1×1的卷积层、BN和ReLU的激活函数以及双线性插值模块;
所述分类模块包括1×1的卷积层、BN和ReLU层以及通过双线性插值进行8倍的上采样层。
作为上述方法的一种改进,所述步骤4)包括:
步骤4-1)根据深度图,获得当前图像中的最大深度,作为飞行汽车的高度z;使用比例近似公式描述飞行汽车完整降落的边界框尺寸[Ws,Hs],满足下式:
z=k|Ws,Hs|
其中,k为常数,k=1.5;
步骤4-2)对获得的语义分割结果,根据确定的边界框尺寸[Ws,Hs],获得一系列候选区域,并根据自定义的着陆质量分数对其进行排序,并从中选定满足阈值要求的候选区域作为降落区域。
作为上述方法的一种改进,所述步骤4-2)包括:
步骤4-2-1)对于边界框尺寸[Ws,Hs],选取设定的步距,以边界框尺寸大小的窗格滑动遍历语义分割结果;如果在该窗格范围内均为允许降落的像素,则认定该窗格所占区域为可以降落的区域,并将其位置信息保存在着陆候选区域中,从而得到包括若干个着陆候选区域的集合;
步骤4-2-2)根据深度图,在同等像素点位置,分别计算集合中每个着陆候选区域中的像素点深度平均差异qn:
其中,xi,j,xi,j+1分别表示边界框尺寸[Ws,Hs]中位置(i,j)处和位置(i,j+1)处两个像素点的值;
步骤4-2-3)对集合中的每个着陆候选区域根据风险评估函数计算得到着陆质量分数,并递减排序,从递减排序的着陆质量分数中选定超过设定阈值的最大着陆质量分数,该着陆质量分数对应的候选区域即为降落区域。
作为上述方法的一种改进,所述步骤4-2-3)具体包括:
对每一个候选区域C,定义风险评估函数,得到着陆质量分数HQ:
HQ=α×Hs(C)+βHd(C)+(1-α-β)qn
其中,Hd(C)表示候选区域C到不安全类别的距离,α为平衡系数,α=0.2,β为距离系数,β=0.4,Hs(C)表示候选区域C中存在的语义分割类别,满足下式:
其中,maxl(sl)表示在语义分割类别l中取sl的最大值,ml表示l的像素比例,sl表示l对应的不安全系数,满足下式:
Hd(C)表示候选区域C的中心距离不允许降落像素的距离,满足下式:
其中,dmax表示设定的阈值;
对着陆质量分数HQ递减排序,从中选定满足条件的最大着陆质量分数,该着陆质量分数对应的候选区域即为降落区域。
作为上述方法的一种改进,所述步骤5)的当前时刻的飞行汽车状态为:
Zt=(Xc,Yc,Ws,Hs)T
其中,Xc,Yc表示边界框的形心坐标,由确定的降落区域的边界框[Ws,Hs]的位置计算得到,T表示转置。
一种基于双目视觉的飞行汽车着陆系统,基于部署在飞行汽车上的左右两摄像机实现,所述系统包括:矫正模块、深度图获取模块、语义分割输出模块、候选区域确定模块、控制输出模块和语义分割模型;其中,
所述矫正模块,用于对飞行汽车降落过程中左右两摄像机拍摄的双目视图进行矫正,使得左右两摄像机的图像为平行视图;
所述深度图获取模块,用于根据矫正后的平行视图利用双目视觉获得对应的深度图;
所述语义分割输出模块,用于将左摄像机捕获的图像输入预先建立和训练好的语义分割模型得到语义分割结果;
所述候选区域确定模块,用于基于语义分割结果和图像的深度图,确定用于降落的候选区域;
所述控制输出模块,用于根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,发出控制信号控制飞行汽车降落;
所述语义分割模型为改进后的DeepLab v3结构网络。
与现有技术相比,本发明的优势在于:
1、本发明的方法中对于候选区域的选择使用了自定义的风险评估函数,在评估过程中考虑了不同语义类别的降落危险程度;
2、本发明的方法使用基于双目视觉的深度估计过程,在整个下降过程中完全基于相机,无其他传感器的使用,设备简单,降低了成本。
附图说明
图1是本发明的基于双目视觉的飞行汽车着陆方法流程图;
图2是语义分割模型结构图;
图3是语义分类树状图。
具体实施方式
为了实现上述目的,本发明提出了一种基于双目视觉的飞行汽车着陆方法,所述方法包括:
步骤1)飞行汽车两个摄像机捕获的图像的矫正,令左右两相机的图像为平行视图;
步骤2)利用双目视觉获得图像的深度图;
步骤3)利用左相机捕获的图像做基于能否用于降落的语义分割任务;
步骤4)基于语义分割结果和图像的深度图,确定用于降落的候选区域。
步骤5)根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,由PID发出控制信号进行降落。
下面结合附图和实施例对本发明的技术方案进行详细的说明。
实施例1
如图1所示,本发明的实施例1提供了一种基于双目视觉的飞行汽车着陆方法,包括步骤:
1、飞行汽车两个摄像机捕获的图像的矫正,令左右两相机的图像为平行视图
飞行汽车在降落过程中距离地面的距离,通过双目视图生成的深度图获得,为使得计算得到得深度大致精确,需要首先保证左右相机捕获得图像为平行视图;
2、基于左相机捕获的图片的语义分割
在山地中,有时不仅有山地,还有其他植被(如森林)。在训练过程中需要充分考虑,为提高模型的鲁棒性,在训练过程中,使用类别标签更丰富的数据集。对左相机捕获的图像做多类别语义分割任务,对左相机图像,其输出为每个像素代表的类别标签,对于森林,房屋,人群等为不适合降落的标签,而草地,沙砾,道路等为适合降落的标签。
3、确定用于降落的候选区域
为保证平稳降落,需要在深度图中选择深度相差不多的区域,与此同时需要保证该区域的语义分割标签为同一类别,还要保证在当前高度下,飞行汽车自身的尺寸能够在该该区域完整降落,避免因空间不足发生磕碰。
4、PID根据当前时刻飞行汽车状态,发出控制信号。
PID控制器利用选定的候选区域边界框和深度图中的深度信息发出控制信号,控制飞行汽车的降落。
具体实施步骤如下:
步骤1)飞行汽车两个摄像机捕获的图像的矫正,令左右两相机的图像为平行视图;
在左右两个相机捕获的图片上找到不少于8个匹配点,计算基础矩阵求解左右图像中的两极点e′1和e′2,选择透视变换将右视图极点映射到无穷远处。
H′=Y-1GRT
式中,当e′1>0时,α=1,反之α=-1
寻找对应的透视变换矩阵H使得下式最小:
其中H和H′为左右摄像机捕获的图像需要矫正的透视变换矩阵,d表示通过变换后两对应点之间的距离;pm,p′m分别为左和右摄像机捕获的图像中的第m对像素点的坐标;
最后利用两变换矩阵H和H′对左右相机捕获的图像进行重采样,获得左右图像平行视图。
步骤2)利用双目视觉获得图像的深度图;
利用相关法做左右两矫正图像的对应点对,对于左矫正后的图像中,任一像素点pu,确定该像素点周边4×4范围内的窗格中所有像素点,构成16×1的向量;根据平行视图的性质,遍历右矫正视图中像素点pu所在行的所有像素,依次构造同样大小的16×1向量,取与pu点的余弦相似度最大的点,得到与左矫正图像中pu像素点对应的点对p′u;
利用每个对应点对,得到图像的深度图,如下式所示:
其中B为双目相机的基线,f为相机焦距,z为物体的真实深度。遍历图像中的所有点对,获得物体的深度图。
步骤3)利用左相机捕获的图片做基于能否用于降落的语义分割任务,具体包括:
对矫正后的图像做基于深度学习的语义分割任务,具体过程如下:图2为模型结构。
深度学习的网络架构使用以ResNet50为骨干网络的DeepLab v3,首先将左相机捕获的图像做透视变换,以便于和深度图对应,将透视变换后的矫正RGB图像缩放到(480,480)的大小,输入到DeepLab v3,输出的数据尺寸为(480,480,num_class),对应着每个像素处有类别个数个通道数,为每种类别预测的概率分数,其中最大的概率分数所在的通道对应的类别即为该像素的预测标签。
DeepLab v3结构中的Block1,2,3,和4与ResNet50网络中的conv_2,conv_3,conv_4和conv_5的残差结构相对应。为降低网络的计算量,会对输入的图像做下采样,设定卷积核尺寸为7×7,步距大小为2的卷积层,然后使用最大池化,池化核大小为3×3,步距设置为2。下采样后的左摄像机的矫正图像会通过ResNet网络中的一系列残差结构,但为避免分辨率过低,从Block3开始,第一个残差结构不再进行下采样,通过Block2之后,输入的左摄像机的矫正图像已经被下采样8倍,所以Block3和Block4中的第一个残差结构的第一个卷积层以及捷径分支上的步距都设置为1。此外为方便网络的搭建,在Block3当中将所有卷积核大小为3×3的卷积层都替换为膨胀卷积,并设置所有膨胀卷积的膨胀系数都为2。在Block4中,所有的3×3卷积核的卷积层也都改成了膨胀卷积,设置膨胀系数为4。
在Block4输出的特征图上,连接ASPP结构(Atrous Spatial Pyramid Pooling)空洞空间金字塔池化,通过五个并联的分支,其中第一个分支为卷积核大小为1×1的普通卷积层,另外三个分支为卷积核大小为3×3的膨胀卷积,对应的膨胀系数分别设置为(12,24,36),最后一个分支为全局池化分支,在该分支上,有一个池化核大小为1×1的全局池化层,然后使用卷积核大小为1×1的卷积层调整通道数,而后通过BN和ReLU的激活函数,最后通过双线性插值的方式,还原成与输入尺寸一样的特征图。
输出特征图尺寸为(60,60,1280),为实现对原图每一个像素的分类,通过1×1的卷积层更改通道数,使用的1×1卷积核个数为语义分割的类别个数,最后通过BN和ReLU层以及双线性插值做8倍的上采样,此时的特征图通道数不变,尺寸为原左相机的矫正图像的尺寸。此时每个像素处对应有类别个数的通道数,其中数值最大的通道对应的类别信息就是该像素预测的语义分割类别。
步骤4)基于语义分割结果和图像的深度图,确定用于降落的候选区域
根据深度图,获得当前图像中的最大深度,作为飞行汽车的高度z。确定飞行汽车的长度和宽度尺寸,确定当前高度下,在图像中能够保证飞行汽车完整降落的边界框尺寸记为[Ws,Hs],应当指出,在不同的高度下,在图像中,容纳飞行汽车的降落候选区边界框是不同的。使用比例近似公式描述宽度和高度对飞行汽车高度的依赖性:
z=k|Ws,Hs|
对获得的语义分割结果,根据确定的边界框尺寸,获得一系列候选区域,并根据自定义着陆质量分数对其进行排序。若着陆质量分数超过某一阈值,则可以进行降落,选择超过特定阈值的最大着陆质量分数的候选区域作为降落区域。
在当前高度z下,确定的着陆边界框尺寸为[Ws,Hs],选取的步距大小为3,以当前的边界框尺寸大小的窗格滑动遍历语义分割结果。如果在该窗格范围内没有不允许降落的像素,则该窗格所占的区域被认为是可以降落的区域,并将其位置信息保存在着陆候选区域中。
{c1,c2,...,cn}
根据深度图,在同等像素点位置,计算所有着陆候选区域中的像素点深度的平均差异qn:
其中,xi,j,xi,j+1分别表示边界框尺寸[Ws,Hs]中位置(i,j)处和位置(i,j+1)处两个像素点的值;
在所有的深度平均差异中,选择差异最小的,意味着在该区域中,其深度变化不明显,适合飞行汽车的平稳着陆,具体实施方式如下:
对每一个候选区域边界框,定义风险评估函数:
HQ=α×Hs(C)+βHd(C)+(1-α-β)qn
其中Hs(C)表示C中存在的语义分割类别,Hd(C)表示C到不安全类别的距离,α为平衡系数,取α=0.2,β=0.4;
其中ml表示C中类别l的像素比例,sl表示类别l的不安全系数,可以如下定义:
如图3所示,在该树状图中所处位置越低表示该区域越安全。
Hd(C)表示C的中心距离不允许降落像素的距离,如果Hd(C)超过某一阈值,说明该候选区域距离不安全区域的距离很远,表明是安全的。
根据计算得到的风险评估函数,排列得到候选区边界框,如果该值超过某一阈值,则将该边界框信息输入到PID控制器中,执行降落阶段。
步骤5)根据确定的降落候选区边界框,确定当前时刻的飞行汽车状态,结合深度图信息,由PID发出控制信号进行降落。
输入到PID中的数据为候选区边界框的位置和尺寸,根据这些数据,确定当前时刻的飞行汽车状态为:
Zt=(Xc,Yc,Ws,Hs)T
其中Xc,Yc表示边界框的形心坐标,由边界框的位置计算得到。
实施例2
本发明的实施例2提出了一种基于双目视觉的飞行汽车着陆系统,基于部署在飞行汽车上的左右两摄像机实现,所述系统包括:矫正模块、深度图获取模块、语义分割输出模块、候选区域确定模块、控制输出模块和语义分割模型;基于实施例1的方法实现,其中,
矫正模块,用于对飞行汽车降落过程中左右两摄像机拍摄的双目视图进行矫正,使得左右两摄像机的图像为平行视图;
深度图获取模块,用于根据矫正后的平行视图利用双目视觉获得对应的深度图;
语义分割输出模块,用于将左摄像机捕获的图像输入预先建立和训练好的语义分割模型得到语义分割结果;
候选区域确定模块,用于基于语义分割结果和图像的深度图,确定用于降落的候选区域;
控制输出模块,用于根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,发出控制信号控制飞行汽车降落;
语义分割模型为改进后的DeepLab v3结构网络。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (5)
1.一种基于双目视觉的飞行汽车着陆方法,基于部署在飞行汽车上的左右两摄像机实现,所述方法包括:
步骤1)对飞行汽车降落过程中左右两摄像机拍摄的双目视图进行矫正,使得左右两摄像机的图像为平行视图;
步骤2)根据矫正后的平行视图利用双目视觉获得对应的深度图;
步骤3)将左摄像机捕获的图像输入预先建立和训练好的语义分割模型得到语义分割结果;
步骤4)基于语义分割结果和图像的深度图,确定用于降落的候选区域;
步骤5)根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,发出控制信号控制飞行汽车降落;
所述语义分割模型为改进后的DeepLab v3结构网络;
所述步骤1)包括:
在左右两个摄像机同时捕获的图片上找到不少于8个匹配点,通过计算基础矩阵求解左右图像中的两个极点e′1和e′2,选择透视变换将右视图极点映射到无穷远处,
H′=T-1GR
其中,H′为右摄像机捕获的图像需要矫正的透视变换矩阵,T,G,R分别为中间矩阵,分别满足下式:
其中,当e′1>0时,系数α=1,否则α=-1;f为相机焦距;width和height分别为图片的宽度和高度;
H为左摄像机捕获的图像需要矫正的透视变换矩阵,寻找H使得下式最小:
其中,pm,p′m分别为左和右摄像机捕获的图像中的第m对像素点的坐标,d(Hpm,H′p′m)表示通过矫正后pm和p′m点之间的距离;
利用两透视变换矩阵H和H′对左右两摄像机捕获的图像进行重采样,获得左右图像平行视图;
所述步骤2)包括:
步骤2-1)利用相关法做左右两矫正图像的对应点对,对于左矫正后的图像中,任一像素点pu,确定该像素点周边4×4范围内的窗格中所有像素点,构成16×1的向量;根据平行视图的性质,遍历右矫正视图中像素点pu所在行的所有像素,依次构造同样大小的16×1向量,取与pu点的余弦相似度最大的点,得到与左矫正图像中pu像素点对应的点对p′u;
步骤2-2)利用每个对应点对,得到物体的真实深度z:
其中,B为双目相机的基线,f为相机焦距;
步骤2-3)遍历图像中的所有点对,获得物体的深度图;
所述步骤3)的语义分割模型的输入为预处理后尺寸为(480,480)左摄像机捕获的图像,输出的数据尺寸为(480,480,num_class),其中,num_class为对应每个像素的语义分割类别,所述语义分割类别包括低植物、路、背景、树、建筑物、汽车或人;所述语义分割模型包括依次连接的主干网络、ASPP层和分类模块;其中,
所述主干网络采用ResNet50网络,包括依次连接的Block1,Block2,Block3和Block 4,其中,在Block3中,将所有卷积核大小为3×3的卷积层都替换为膨胀卷积,设置膨胀系数为2,在Block4中,将所有的3×3卷积核的卷积层都替换为膨胀卷积,设置膨胀系数为4;
所述ASPP层包括五个并联的分支,第一分支为卷积核大小为1×1的卷积层;第二分支、第三分支和第四分支均为卷积核大小为3×3的膨胀卷积,第二分支膨胀系数为12,第三分支膨胀系数为24,第四分支膨胀系数为36;第五分支为全局池化分支,包括一个池化核大小为1×1的全局池化层、卷积核大小为1×1的卷积层、BN和ReLU的激活函数以及双线性插值模块;
所述分类模块包括1×1的卷积层、BN和ReLU层以及通过双线性插值进行8倍的上采样层;
所述步骤4)包括:
步骤4-1)根据深度图,获得当前图像中的最大深度,作为飞行汽车的高度z;使用比例近似公式描述飞行汽车完整降落的边界框尺寸[Ws,Hs],满足下式:
z=k|Ws,Hs|
其中,k为常数,k=1.5;
步骤4-2)对获得的语义分割结果,根据确定的边界框尺寸[Ws,Hs],获得一系列候选区域,并根据自定义的着陆质量分数对其进行排序,并从中选定满足阈值要求的候选区域作为降落区域。
2.根据权利要求1所述的基于双目视觉的飞行汽车着陆方法,其特征在于,所述步骤4-2)包括:
步骤4-2-1)对于边界框尺寸[Ws,Hs],选取设定的步距,以边界框尺寸大小的窗格滑动遍历语义分割结果;如果在该窗格范围内均为允许降落的像素,则认定该窗格所占区域为可以降落的区域,并将其位置信息保存在着陆候选区域中,从而得到包括若干个着陆候选区域的集合;
步骤4-2-2)根据深度图,在同等像素点位置,分别计算集合中每个着陆候选区域中的像素点深度平均差异qn:
其中,xi,j,xi,j+1分别表示边界框尺寸[Ws,Hs]中位置(i,j)处和位置(i,j+1)处两个像素点的值;
步骤4-2-3)对集合中的每个着陆候选区域根据风险评估函数计算得到着陆质量分数,并递减排序,从递减排序的着陆质量分数中选定超过设定阈值的最大着陆质量分数,该着陆质量分数对应的候选区域即为降落区域。
3.根据权利要求2所述的基于双目视觉的飞行汽车着陆方法,其特征在于,所述步骤4-2-3)具体包括:
对每一个候选区域C,定义风险评估函数,得到着陆质量分数HQ:
HQ=τ×Hs(C)+βHd(C)+(1-τ-β)qn
其中,Hd(C)表示候选区域C到不安全类别的距离,τ为平衡系数,τ=0.2,β为距离系数,β=0.4,Hs(C)表示候选区域C中存在的语义分割类别,满足下式:
其中,maxl(sl)表示在语义分割类别l中取sl的最大值,ml表示l的像素比例,sl表示l对应的不安全系数,满足下式:
Hd(C)表示候选区域C的中心距离不允许降落像素的距离,满足下式:
其中,dmax表示设定的阈值;
对着陆质量分数HQ递减排序,从中选定满足条件的最大着陆质量分数,该着陆质量分数对应的候选区域即为降落区域。
4.根据权利要求1所述的基于双目视觉的飞行汽车着陆方法,其特征在于,所述步骤5)的当前时刻的飞行汽车状态为:
Zt=(Xc,Yc,Ws,Hs)T
其中,Xc,Yc表示边界框的形心坐标,由确定的降落区域的边界框[Ws,Hs]的位置计算得到,T表示转置。
5.一种基于双目视觉的飞行汽车着陆系统,基于部署在飞行汽车上的左右两摄像机实现,其特征在于,所述系统包括:矫正模块、深度图获取模块、语义分割输出模块、候选区域确定模块、控制输出模块和语义分割模型;其中,
所述矫正模块,用于对飞行汽车降落过程中左右两摄像机拍摄的双目视图进行矫正,使得左右两摄像机的图像为平行视图;
所述深度图获取模块,用于根据矫正后的平行视图利用双目视觉获得对应的深度图;
所述语义分割输出模块,用于将左摄像机捕获的图像输入预先建立和训练好的语义分割模型得到语义分割结果;
所述候选区域确定模块,用于基于语义分割结果和图像的深度图,确定用于降落的候选区域;
所述控制输出模块,用于根据确定的降落候选区域边界框,确定当前时刻的飞行汽车状态,结合深度图信息,发出控制信号控制飞行汽车降落;
所述语义分割模型为改进后的DeepLab v3结构网络;
所述矫正模块用于:
在左右两个摄像机同时捕获的图片上找到不少于8个匹配点,通过计算基础矩阵求解左右图像中的两个极点e′1和e′2,选择透视变换将右视图极点映射到无穷远处,
H′=T-1GR
其中,H′为右摄像机捕获的图像需要矫正的透视变换矩阵,T,G,R分别为中间矩阵,分别满足下式:
其中,当e′1>0时,系数α=1,否则α=-1;f为相机焦距;width和height分别为图片的宽度和高度;
H为左摄像机捕获的图像需要矫正的透视变换矩阵,寻找H使得下式最小:
其中,pm,p′m分别为左和右摄像机捕获的图像中的第m对像素点的坐标,d(Hpm,H′p′m)表示通过矫正后pm和p′m点之间的距离;
利用两透视变换矩阵H和H′对左右两摄像机捕获的图像进行重采样,获得左右图像平行视图;
所述深度图获取模块用于:
利用相关法做左右两矫正图像的对应点对,对于左矫正后的图像中,任一像素点pu,确定该像素点周边4×4范围内的窗格中所有像素点,构成16×1的向量;根据平行视图的性质,遍历右矫正视图中像素点pu所在行的所有像素,依次构造同样大小的16×1向量,取与pu点的余弦相似度最大的点,得到与左矫正图像中pu像素点对应的点对p′u;
利用每个对应点对,得到物体的真实深度z:
其中,B为双目相机的基线,f为相机焦距;
遍历图像中的所有点对,获得物体的深度图;
语义分割模型的输入为预处理后尺寸为(480,480)左摄像机捕获的图像,输出的数据尺寸为(480,480,num_class),其中,num_class为对应每个像素的语义分割类别,所述语义分割类别包括低植物、路、背景、树、建筑物、汽车或人;所述语义分割模型包括依次连接的主干网络、ASPP层和分类模块;其中,
所述主干网络采用ResNet50网络,包括依次连接的Block1,Block2,Block3和Block 4,其中,在Block3中,将所有卷积核大小为3×3的卷积层都替换为膨胀卷积,设置膨胀系数为2,在Block4中,将所有的3×3卷积核的卷积层都替换为膨胀卷积,设置膨胀系数为4;
所述ASPP层包括五个并联的分支,第一分支为卷积核大小为1×1的卷积层;第二分支、第三分支和第四分支均为卷积核大小为3×3的膨胀卷积,第二分支膨胀系数为12,第三分支膨胀系数为24,第四分支膨胀系数为36;第五分支为全局池化分支,包括一个池化核大小为1×1的全局池化层、卷积核大小为1×1的卷积层、BN和ReLU的激活函数以及双线性插值模块;
所述分类模块包括1×1的卷积层、BN和ReLU层以及通过双线性插值进行8倍的上采样层;
所述候选区域确定模块用于:
根据深度图,获得当前图像中的最大深度,作为飞行汽车的高度z;使用比例近似公式描述飞行汽车完整降落的边界框尺寸[Ws,Hs],满足下式:
z=k|Ws,Hs|
其中,k为常数,k=1.5;
对获得的语义分割结果,根据确定的边界框尺寸[Ws,Hs],获得一系列候选区域,并根据自定义的着陆质量分数对其进行排序,并从中选定满足阈值要求的候选区域作为降落区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210833684.8A CN115187959B (zh) | 2022-07-14 | 2022-07-14 | 一种基于双目视觉的飞行汽车山地着陆方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210833684.8A CN115187959B (zh) | 2022-07-14 | 2022-07-14 | 一种基于双目视觉的飞行汽车山地着陆方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115187959A CN115187959A (zh) | 2022-10-14 |
CN115187959B true CN115187959B (zh) | 2023-04-14 |
Family
ID=83519060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210833684.8A Active CN115187959B (zh) | 2022-07-14 | 2022-07-14 | 一种基于双目视觉的飞行汽车山地着陆方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115187959B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115861938B (zh) * | 2023-02-06 | 2023-05-26 | 北京中超伟业信息安全技术股份有限公司 | 一种基于无人机识别的无人机反制方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685762A (zh) * | 2018-11-09 | 2019-04-26 | 五邑大学 | 一种基于多尺度深度语义分割网络的天线下倾角测量方法 |
CN110008848A (zh) * | 2019-03-13 | 2019-07-12 | 华南理工大学 | 一种基于双目立体视觉的道路可行驶区域识别方法 |
CN113359810B (zh) * | 2021-07-29 | 2024-03-15 | 东北大学 | 一种基于多传感器的无人机着陆区域识别方法 |
-
2022
- 2022-07-14 CN CN202210833684.8A patent/CN115187959B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115187959A (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11734918B2 (en) | Object identification apparatus, moving body system, object identification method, object identification model learning method, and object identification model learning apparatus | |
CN113359810B (zh) | 一种基于多传感器的无人机着陆区域识别方法 | |
CN107576960B (zh) | 视觉雷达时空信息融合的目标检测方法及系统 | |
WO2019223582A1 (en) | Target detection method and system | |
CN111429514A (zh) | 一种融合多帧时序点云的激光雷达3d实时目标检测方法 | |
US20220101548A1 (en) | Point cloud intensity completion method and system based on semantic segmentation | |
CN113936139A (zh) | 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统 | |
CN109726627A (zh) | 一种神经网络模型训练及通用接地线的检测方法 | |
CN111563415A (zh) | 一种基于双目视觉的三维目标检测系统及方法 | |
US20220024549A1 (en) | System and method for measuring the distance to an object in water | |
CN116258817B (zh) | 一种基于多视图三维重建的自动驾驶数字孪生场景构建方法和系统 | |
CN113255589B (zh) | 一种基于多卷积融合网络的目标检测方法及系统 | |
CN108288047A (zh) | 一种行人/车辆检测方法 | |
EP3690744A1 (en) | Method for integrating driving images acquired from vehicles performing cooperative driving and driving image integrating device using same | |
CN111738071B (zh) | 一种基于单目摄像机的运动变化的逆透视变换方法 | |
CN115115859A (zh) | 基于无人机航拍的长线性工程施工进度智能识别与分析方法 | |
CN115359474A (zh) | 适用于移动端的轻量级三维目标检测方法、装置及介质 | |
CN117058646B (zh) | 基于多模态融合鸟瞰图的复杂道路目标检测方法 | |
CN116279592A (zh) | 一种用于无人物流车的可行驶区域划分方法 | |
CN115187959B (zh) | 一种基于双目视觉的飞行汽车山地着陆方法及系统 | |
Vaibhav et al. | Real-time fog visibility range estimation for autonomous driving applications | |
CN115880658A (zh) | 一种夜间场景下汽车车道偏离预警方法及系统 | |
CN114048536A (zh) | 一种基于多任务神经网络的道路结构预测与目标检测方法 | |
Shi et al. | Obstacle type recognition in visual images via dilated convolutional neural network for unmanned surface vehicles | |
CN117333846A (zh) | 恶劣天气下基于传感器融合和增量学习的检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |