CN115497061A - 一种基于双目视觉的道路可行驶区域识别方法及装置 - Google Patents

一种基于双目视觉的道路可行驶区域识别方法及装置 Download PDF

Info

Publication number
CN115497061A
CN115497061A CN202211072227.8A CN202211072227A CN115497061A CN 115497061 A CN115497061 A CN 115497061A CN 202211072227 A CN202211072227 A CN 202211072227A CN 115497061 A CN115497061 A CN 115497061A
Authority
CN
China
Prior art keywords
image
road
sample
map
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211072227.8A
Other languages
English (en)
Inventor
冉盛辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Geely Holding Group Co Ltd
Radar New Energy Vehicle Zhejiang Co Ltd
Original Assignee
Zhejiang Geely Holding Group Co Ltd
Radar New Energy Vehicle Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Geely Holding Group Co Ltd, Radar New Energy Vehicle Zhejiang Co Ltd filed Critical Zhejiang Geely Holding Group Co Ltd
Priority to CN202211072227.8A priority Critical patent/CN115497061A/zh
Publication of CN115497061A publication Critical patent/CN115497061A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/588Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Image Processing (AREA)

Abstract

本申请提出了一种基于双目视觉的道路可行驶区域识别方法,该方法可以包括:通过双目相机采集道路的左右图像;基于空间注意力机制对所述左右图像进行特征提取与匹配,得到注意力矩阵和图像特征,并根据所述注意力矩阵和所述图像特征生成视差图;将所述视差图中各个像素点进行第一次坐标转换,得到相应的深度图,以及将所述深度图中各个像素点进行第二次坐标转换,得到相应的高度图;根据所述高度图识别出所述道路的可行驶区域。本申请的技术方案不仅适用于铺装路面的路面信息感知,同时适用于非铺装路面的路面信息感知,且感知结果是道路前方的可行驶区域,可以便于自动驾驶决策模块直接基于可行驶区域做出决策。

Description

一种基于双目视觉的道路可行驶区域识别方法及装置
技术领域
本申请一个或多个实施例涉及车辆自动驾驶领域,尤其涉及一种基于双目视觉的道路可行驶区域识别方法及装置。
背景技术
近年来,随着人工智能技术的快速发展,自动驾驶技术在世界范围内受到了越来越多的关注。对于自动驾驶车辆来说,环境感知是车辆实现决策和控制的基础。目前自动驾驶感知技术主要研究对公路场景下的车辆、行人、信号灯、车道线等目标的检测、分割、跟踪等研究。同时,由于双目视觉技术相对激光雷达而言,低成本,感知范围大,因此在自动驾驶领域,双目视觉技术也逐步开始被应用在感知系统中。
相关技术中,通过双目视觉技术对车辆、行人等障碍物之外的信息进行过滤,并获取障碍物距离车辆的位置信息,从而实现对行驶路面的感知。但是该方案往往只适用于车辆行驶在水泥路、公路等铺装路面的场景下,不适用于如没有修好的毛坯公路、野外道路等道路交通环境非常复杂的非铺装路面。因此,如何准确高效地进行路面信息的感知、识别出道路前方的可行驶区域是自动驾驶领域的重要问题。
发明内容
本申请提供一种基于双目视觉的道路可行驶区域识别方法及装置,以解决相关技术中的不足。
根据本申请一个或多个实施例的第一方面,提供一种基于双目视觉的道路可行驶区域识别方法,该方法包括:
通过双目相机采集道路的左右图像;
基于空间注意力机制对所述左右图像进行特征提取与匹配,得到注意力矩阵和图像特征,并根据所述注意力矩阵和所述图像特征生成视差图;
将所述视差图中各个像素点进行第一次坐标转换,得到相应的深度图,以及将所述深度图中各个像素点进行第二次坐标转换,得到相应的高度图;
根据所述高度图识别出所述道路的可行驶区域。
根据本申请一个或多个实施例的第二方面,提供一种基于双目视觉的道路可行驶区域识别模型的训练方法,该方法包括:
获取样本道路的样本左右图像、目标样本视差图和目标可行驶区域;
基于空间注意力机制对所述样本左右图像进行特征提取与匹配,得到注意力矩阵和样本图像特征,并根据所述注意力矩阵和所述样本图像特征生成样本视差图;
将所述样本视差图中各个像素点进行第一次坐标转换,得到相应的样本深度图,以及将所述样本深度图中各个像素点进行第二次坐标转换,得到相应的样本高度图;
根据所述样本高度图识别出所述样本道路的可行驶区域;
根据所述样本道路的可行驶区域与所述目标可行驶区域,以及所述样本视差图与所述目标样本视差图对所述道路可行驶区域识别模型进行迭代训练。
根据本申请一个或多个实施例的第三方面,提供一种基于双目视觉的道路可行驶区域识别装置,该装置包括:
采集单元,用于通过双目相机采集道路的左右图像;
匹配单元,用于基于空间注意力机制对所述左右图像进行特征提取与匹配,得到注意力矩阵和图像特征,并根据所述注意力矩阵和所述图像特征生成视差图;
坐标转换单元,用于将所述视差图中各个像素点进行第一次坐标转换,得到相应的深度图,以及将所述深度图中各个像素点进行第二次坐标转换,得到相应的高度图;
识别单元,用于根据所述高度图识别出所述道路的可行驶区域。
根据本申请一个或多个实施例的第四方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如上述第一方面/第二方面的实施例中所述的方法。
根据本申请一个或多个实施例的第五方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述第一方面/第二方面的实施例中所述方法的步骤。
根据本申请一个或多个实施例的第六方面,提供一种车辆,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面/第二方面的实施例中所述方法的步骤。
由以上技术方案可见,本申请一个或多个实施例中,通过空间注意力机制对双目相机采集的左右图像进行特征提取与匹配,可以更好地捕捉左右图像之间的相关性,从而得到更加准确的视差图,并对视差图进行两次坐标转换得到高度图,进而得到道路的可行驶区域。本申请提供的技术方案不仅适用于铺装路面的路面信息感知,同时适用于非铺装路面的路面信息感知,且感知结果包括道路的高低起伏与道路前方的可行驶区域,可以便于自动驾驶决策模块直接基于可行驶区域做出决策。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是一示例性实施例提供的一种基于双目视觉的道路可行驶区域识别方法的流程图。
图2是一示例性实施例提供的利用预标定的相机信息进行图像校正前的左右图像。
图3是一示例性实施例提供的利用预标定的相机信息进行图像校正后的左右图像。
图4是一示例性实施例提供的基于空间注意力机制对左右图像进行特征提取与匹配的网络结构示意图。
图5是一示例性实施例提供的一种道路可行驶区域识别模型的训练方法的流程图。
图6是一示例性实施例示出的一种电子设备的结构示意图。
图7是一示例性实施例示出的一种基于双目视觉的道路可行驶区域识别装置的框图。
图8是一示例性实施例示出的一种基于双目视觉的道路可行驶区域识别模型的训练装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本申请示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本申请所描述的更多或更少。此外,本申请中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本申请中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
现有技术中,通过双目视觉技术实现对路面信息的感知,仅仅是对道路中显著障碍物进行检测和深度重建,这导致相关技术方案不适用于如野外道路等道路交通环境非常复杂的非铺装路面,且感知结果仅仅是表示障碍物到车辆的空间距离的深度图。自动驾驶决策模块无法根据深度图直接判断出道路的可行驶区域,从而做出下一步的驾驶决策。
本申请提供一种基于双目视觉的道路可行驶区域识别的模型的训练方法以及基于双目视觉的道路可行驶区域识别方法,不仅适用于铺装路面的路面信息感知,同时适用于非铺装路面的路面信息感知,且感知结果包括道路的高低起伏与道路前方的可行驶区域,以便于自动驾驶决策模块直接基于可行驶区域做出决策。
图1是一示例性实施例提供的一种基于双目视觉的道路可行驶区域识别方法的流程图。如图1所示,该方法可以包括以下步骤:
S101:通过双目相机采集道路的左右图像。
利用车辆上已经完成安装、标定完成的双目相机,对道路环境信息进行图像采集,获取道路的左右图像。
在一实施例中,需要先对双目相机进行标定,获取左、右两个相机的内外参数以及相对位置关系,为后续左右图像的校正和深度图的生成做准备。具体相机标定的方法有很多,比如离线标定可以采用张正友标定法、在线标定可以采用自标定算法,本领域技术人员可以根据相关技术和具体需求自行确定,本申请并不对此进行限定。标定过程中,相机内参的作用的是确定相机从三维空间到二维图像的投影关系,相机外参的作用是确定相机坐标系与世界坐标系之间的相对位置关系。从世界坐标系到图像坐标系之间的转换原理如公式(1)所示:
Figure BDA0003828712800000051
其中,α是比例系数,(XW,YW,ZW)是道路场景中某点在世界坐标系下的坐标表示,(x,y)是前述道路场景中某点转换到图像坐标系下的坐标表示。
Figure BDA0003828712800000061
是相机的内参矩阵,fx、fy表示内参中的焦距,(u0,v0)表示图像的主点坐标,主点指的是相机光心发出的光轴与成像平面的交点。[R3×3 T3×1]是相机3d坐标系相对于世界坐标系的外参矩阵。整体从世界坐标系到图像坐标系的转换过程为:世界坐标系与R、T矩阵相乘,将世界坐标系转换到相机3d坐标系;再由相机3d坐标系与相机的内参矩阵相乘,将相机3d坐标系转换到图像坐标系。
由于相机镜头通常都存在径向畸变和切向畸变,因此在内参标定时,需要获取畸变系数。如公式(2)所示:
Figure BDA0003828712800000062
其中,(x′,y′)是前述道路场景中某点转换到像素坐标系下的坐标表示,k1、k2、k3、p1、p2都是畸变系数。
Figure BDA0003828712800000063
表示在畸变校正图上与前述道路场景中某点对应的点与主点的距离。通过公式(2)完成了从图像坐标系到像素坐标系的转换。
在一实施例中,相机标定完成后,可以利用预标定的相机信息对左右图像进行图像校正,获得行对齐的校正后左右图像。其中,预标定的相机信息包括左、右两个相机的内外参数以及相对位置关系。
图2是一示例性实施例提供的校正前左右图像。其中,Ol是左相机的光心,Or是右相机的光心,Pl是校正前道路的左图像,Pr是校正前道路的右图像。显然,校正前的左右图像既不平行也不共面,不利于后续的图像匹配过程。因此,可以根据预标定的左右相机的相对位置关系对左右图像进行校正,具体右相机相对于左相机的位置变化矩阵如公式(3)所示:
Figure BDA0003828712800000064
其中,R表示旋转矩阵,T表示平移矩阵,Rr表示右相机的旋转矩阵,Tr表示右相机的平移矩阵;同理,Rl表示左相机的旋转矩阵,Tl表示左相机的平移矩阵。根据公式(3)对右相机进行旋转,可以使得右图像与左图像共面且平行,如图3所示。
S102:基于空间注意力机制对所述左右图像进行特征提取与匹配,得到注意力矩阵和图像特征,并根据所述注意力矩阵和所述图像特征生成视差图。
通过卷积神经网络(Convolutional Neural Network,CNN)对校正后的左右图像进行特征提取,获得左右图像的底层特征。在一实施例中,为了减少卷积神经网络的参数个数,可以采用一个共享权重的卷积神经网络对左右图像进行特征提取。至于具体的卷积神经网络,本领域技术人员可以根据相关技术和具体需求自行确定,本申请不对此进行限制。
如图4所示,获得左右图像的底层特征后,将底层特征分别输入空间注意力层和特征计算层,可以获得注意力矩阵和图像高层特征。图像的底层特征一般指轮廓、边缘、颜色、纹理等特征,其包含的语义信息比较少,而图像的高层特征指图像表达出的最接近人类理解的东西。比如对一张人脸进行特征提取,提取到的底层特征是人脸轮廓、鼻子、眼镜等等,而高层特征就显示为一张人脸。所以图像的高层特征所包含的语义信息更丰富。
在一实施例中,将左右图像的底层特征输入特征计算层,该特征计算层可以包括池化层和激活函数层,经过多层卷积计算,提取出图像的高层特征。其中,激活函数层可以采用relu激活函数,以便减小计算量,提高计算效率。获取图像的高层特征之后,将图像的高层特征与底层特征进行通道维度的拼接,得到图像特征。对特征进行通道维度的拼接可以增加图像本身的特征数(通道数),以便于后续图像匹配过程中,可以根据底层特征与高层特征从局部细节到整体语义进行特征匹配,提高图像特征匹配的准确性。
在一实施例中,将左右图像的底层特征输入空间注意力层,生成注意力矩阵。空间注意力机制旨在提高关键区域的特征表达,本质上是将原始图片中的空间信息变换到另一个空间中,并保留关键信息,为每个位置生成权重并加权输出,从而增强感兴趣的特定目标区域同时弱化不相关的背景区域。空间注意力层可以分为池化层、卷积层和计算层。在神经网络中,常用的池化操作有四种:平均池化(average pooling)、最大池化(max pooling)、随机池化(Stochastic pooling)和全局平均池化(Global Average Pooling)。池化操作可以减少特征图大小,即减小计算量。在本实施例中,输入的左右图像的底层特征是框×高×通道的一个三维数组,底层特征先经过池化层,采用平均池化和最大池化两种池化操作,缩减底层特征的框、高,得到双通道特征图。再将双通道特征图输入一层卷积层进行卷积运算。卷积层可以减小通道数,输出单通道特征图。然后在计算层对单通道特征图中的每个像素点计算注意力权重,输出注意力矩阵。可以采用sigmiod函数或者双曲正切函数(Tanh函数)将注意力权重的范围限定在0到1,从而增大强特征的权重、降低弱特征的权重,能够更好地捕捉左右图像之间的相关性,实现提高后续特征匹配的准确性。将空间注意力层输出的注意力矩阵与由底层特征和高层特征拼接得到的图像特征进行点乘,得到结合了空间注意力的特征匹配图。至此,完成对道路左右图像的特征提取与匹配。
将特征匹配图输入预先训练的视差图生成网络,生成视差图。在本实施例中,视差图生成网络可以是卷积神经网络,也可以是图神经网络(Graph Neural Networks,GNN),并且卷积神经网络和图神经网络可以是一层的,也可以是多层的。本领域技术人员可以根据具体需求自行确定。视差图生成网络的训练过程详见图5。结合上述实施例,在公式(3)中,获得的是右相机相对于左相机的变化矩阵,因此本步骤中通过视差图生成网络生成的视差图是以左图像为基准图像,大小与基准图像相同、元素值为视差值的图像。视差值表征校正后的左右图像上同一点的横坐标差异。当然,在这一步也可以生成以右图像为基准图像,大小与基准图像相同、元素值为视差值的视差图。
S103:将所述视差图中各个像素点进行第一次坐标转换,得到相应的深度图,以及将所述深度图中各个像素点进行第二次坐标转换,得到相应的高度图。
双目视觉算法的一般步骤,是在获取视差图后,根据视差、相机内参等计算实际深度,即根据视差图生成深度图。深度图中各个像素点的值表示道路场景中各点到双目相机的实际距离。在一个标定且校正完成的双目系统中,视差图与相机3d坐标之间的关系如公式(4)所示:
Figure BDA0003828712800000091
其中,(u,v)表示视差图中某像素点坐标,d表示同一像素点的视差值,矩阵Q是重投影矩阵,可以实现将图像平面中的二维点映射回物理世界中的三维坐标系。在矩阵Q中,Tx表示公式(3)中的平移向量在x方向上的分量,(u0,v0)表示左图像的主点坐标,u′0表示右图像的主点坐标,f表示焦距。(X,Y,Z)表示视差图上某像素点映射到物理世界中的三维坐标,W表示尺度因子,在计算过程中可以抵消。
结合上述实施例,基于公式(4)和视差图,可以通过坐标转换,得到视差图中各个像素点在左相机坐标系下的3d坐标,进而得到深度图,深度图中各个像素点的值表示道路场景中各点到双目相机的实际距离。
根据S101中左相机3d坐标系相对于世界坐标系的外参矩阵[R3×3 T3×1],对深度图中各个像素点进行第二次坐标转换,得到世界坐标系下各像素点的坐标,从而得到俯视视角的高度图。高度图中各个像素点的值表示道路场景中各点距离地面的高度。
S104:根据所述高度图识别出所述道路的可行驶区域。
将高度图输入预先训练的语义分割(Semantic Segmentation)网络,对高度图中的可行驶区域与不可行驶区域进行识别和分割。语义分割网络的训练过程详见图5。图像的语义分割是将输入图像中的每个像素分配一个语义类别,以得到像素化的密集分类。比如,若一个像素被标记为绿色,那么代表这个像素所在的位置是一棵树。但是如果有两个绿色的像素,语义分割网络只能判断出这两个像素的位置都是树,无法判断出是同一棵树还是两棵树。正是基于这种特性,语义分割非常适合用于识别道路的可行驶区域和不可行驶区域。一般的语义分割网络可以认为是一个编码器-解码器网络,具体有全卷积网络(FullyConvolution Networks,FCNs)、SegNet网络、U-Net网络等,本领域技术人员可以根据实际需求自行确定,本申请不对此进行限制。
在一实施例中,采用预先训练的U-Net网络对高度图进行语义分割。先通过U-Net网络的编码器对输入的高度图进行编码及特征提取,逐级缩减特征的框、高,同时增加每个特征的通道数。然后U-Net网络简单地将编码后的特征图拼接至解码器的上采样特征图。解码器类似于特征上采样操作,通过反卷积层,逐级增加特征的框、高,并减少通道数,最终生成只包含一个通道的语义分割图像,该语义分割图像中精准分割了可行驶区域与不可行驶区域。通过上述方法对路面信息进行感知,不仅可以感知道路前方的可行驶区域,还可以感知道路的高低起伏,比如对非铺装路面的石头、凹陷等路面信息有较强的感知能力,因此本申请的技术方案不仅适用于铺装路面的路面信息感知,还适用于非铺装路面的路面信息感知,并且通过直接输出道路前方的可行驶区域,有利于车辆的自动驾驶决策模块直接根据可行驶区域做出自动驾驶决策方案,提高用户的自动驾驶体验。
以上实施例中,介绍了本申请基于双目视觉的道路可行驶区域的识别方法。在具体实现过程中,可以通过建立并训练道路可行驶区域识别模型,从而基于该模型来准确地实现上述道路可行驶区域的识别。
图5是一示例性实施例提供的一种道路可行驶区域识别模型的训练方法的流程图。如图5所示,该方法可以包括以下步骤:
S501:获取样本道路的样本左右图像、目标样本视差图和目标可行驶区域。
在本实施例中,样本道路可以包括水泥路、柏油马路等铺装路面或者野外道路、毛坯公路等非铺装路面。选定一条样本道路,获取该样本道路的目标可行驶区域,并通过车辆上已经完成安装、标定完成的双目相机采集该样本道路的样本左右图像。相机的具体标定方法、以及通过预标定的相机信息对样本左右图像进行图像校正的具体过程可以参考上述实施例S101。目标样本视差图的生成方式有很多,本领域技术人员可以根据相关技术和具体需求自行确定,本申请无需进行详细限定。比如可以通过激光雷达获取样本左右图像的目标样本深度图,进而根据目标样本深度图获取相应的目标样本视差图。
S502:基于空间注意力机制对所述样本左右图像进行特征提取与匹配,得到注意力矩阵和样本图像特征,并根据所述注意力矩阵和所述样本图像特征生成样本视差图。
在一实施例中,先通过一个共享权重的卷积神经网络对校正后的样本左右图像进行特征提取,获得样本左右图像的底层特征。再将样本左右图像的底层特征分别输入空间注意力层和特征计算层,输出注意力矩阵和样本图像高层特征。将样本图像高层特征与样本左右图像的底层特征进行通道维度的拼接,得到样本图像特征。具体生成方式可以参考上述实施例S102,此处不再赘述。
在一实施例中,将样本注意力矩阵与样本图像特征进行点乘,生成样本左右图像的特征匹配图。并将特征匹配图输入视差图生成网络,输出样本视差图。具体生成方式可以参考上述实施例S102,此处不再赘述。
S503:将所述样本视差图中各个像素点进行第一次坐标转换,得到相应的样本深度图,以及将所述样本深度图中各个像素点进行第二次坐标转换,得到相应的样本高度图。
在一实施例中,基于双目视觉算法对样本视差图中各个像素点进行第一次坐标转换,得到样本视差图中各个像素点在相机坐标系下的3d坐标,进而得到样本深度图。再将样本深度图中各个像素点进行第二次坐标转换,得到样本深度图中各个像素点在世界坐标系下的3d坐标,进而得到俯视视角的样本高度图。
S504:根据所述样本高度图识别出所述样本道路的可行驶区域。
在一实施例中,将样本高度图输入语义分割网络,对样本高度图中的可行驶区域与不可行驶区域进行识别和分割,输出样本道路的可行驶区域。具体识别和分割方式可以参考上述实施例S104,此处不再赘述。
S505:根据所述样本道路的可行驶区域与所述目标可行驶区域,以及所述样本视差图与所述目标样本视差图对所述道路可行驶区域识别模型进行迭代训练。
根据模型输出的样本道路的可行驶区域与目标可行驶区域,以及模型生成的样本视差图与目标样本视差图两个方面对模型进行训练监督,可以进一步确保基于空间注意力机制生成视差图的准确性。通过多次迭代训练后,在得到的道路可行驶区域识别模型满足预定义的训练目标或达到预定义的迭代次数后,完成对道路可行驶区域识别模型的训练,并可以用于实现如图1所示的道路可行驶区域的识别方案。
与上述方法实施例相对应,本申请还提供了一种装置的实施例。
图6是根据本申请一示例性实施例示出的一种电子设备的结构示意图。参考图6,在硬件层面,该电子设备包括处理器602、内部总线604、网络接口606、内存608以及非易失性存储器610,当然还可能包括其他业务所需要的硬件。处理器602从非易失性存储器610中读取对应的计算机程序到内存608中然后运行。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
图7是根据本申请一示例性实施例示出的一种基于双目视觉的道路可行驶区域识别装置的框图。参照图7,该装置包括采集单元702、匹配单元704、坐标转换单元706、识别单元708,其中:
采集单元702,被配置为通过双目相机采集道路的左右图像。
可选的,所述装置还包括:
图像校正单元710,被配置为利用预标定的相机信息对所述左右图像进行图像校正,获得行对齐的校正后左右图像;所述预标定的相机信息包括所述双目相机的内外参数、两个相机的相对位置关系。
匹配单元704,被配置为基于空间注意力机制对所述左右图像进行特征提取与匹配,得到注意力矩阵和图像特征,并根据所述注意力矩阵和所述图像特征生成视差图。
可选的,所述匹配单元704具体用于:基于空间注意力机制对所述校正后左右图像分别进行特征提取,得到所述校正后左右图像的底层特征;将所述底层特征分别输入空间注意力层和特征计算层;所述特征计算层用于对所述底层特征进行卷积计算,得到图像高层特征;所述空间注意力层包括池化层、卷积层、计算层,其中:
池化层用于对所述底层特征进行池化处理,得到双通道特征图;
卷积层用于对所述双通道特征图进行卷积,得到单通道特征图;
计算层用于计算所述单通道特征图中各个像素点对应的注意力权重,输出注意力矩阵。
将所述图像高层特征与所述底层特征进行拼接,得到所述图像特征,并将所述注意力矩阵与所述图像特征进行点乘,得到所述左右图像对应的特征匹配图;将所述特征匹配图输入预先训练的视差图生成网络,生成所述左右图像对应的视差图。
坐标转换单元706,被配置为将所述视差图中各个像素点进行第一次坐标转换,得到相应的深度图,以及将所述深度图中各个像素点进行第二次坐标转换,得到相应的高度图。
识别单元708,被配置为根据所述高度图识别出所述道路的可行驶区域。
可选的,所述识别单元708具体用于:将所述高度图输入预先训练的语义分割网络,所述语义分割网络包含编码器和解码器;基于所述编码器和解码器,对所述高度图中的可行驶区域与不可行驶区域进行识别和分割,并输出可行驶区域。
图8是根据本申请一示例性实施例示出的一种基于双目视觉的道路可行驶区域识别模型的训练装置的框图。参照图8,该装置包括样本获取单元802、样本匹配单元804、样本坐标转换单元806、样本识别单元808,迭代单元810,其中:
样本获取单元802,被配置为获取样本道路的样本左右图像、目标样本视差图和目标可行驶区域。
可选的,所述装置还包括:
样本校正单元812,被配置为利用预标定的相机信息对所述样本左右图像进行图像校正,获得行对齐的校正后样本左右图像;所述预标定的相机信息包括所述双目相机的内外参数、两个相机的相对位置关系。
样本匹配单元804,被配置为基于空间注意力机制对所述样本左右图像进行特征提取与匹配,得到注意力矩阵和样本图像特征,并根据所述注意力矩阵和所述样本图像特征生成样本视差图。
可选的,样本匹配单元804具体用于:基于空间注意力机制对所述行对齐的校正后样本左右图像进行特征提取与匹配。
样本坐标转换单元806,被配置为将所述样本视差图中各个像素点进行第一次坐标转换,得到相应的样本深度图,以及将所述样本深度图中各个像素点进行第二次坐标转换,得到相应的样本高度图。
样本识别单元808,被配置为根据所述样本高度图识别出所述样本道路的可行驶区域。
迭代单元810,被配置为根据所述样本道路的可行驶区域与目标可行驶区域,以及所述样本视差图与所述目标样本视差图对所述道路可行驶区域识别模型进行迭代训练。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
上述实施例阐明的装置或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种基于双目视觉的道路可行驶区域识别方法,其特征在于,所述方法包括:
通过双目相机采集道路的左右图像;
基于空间注意力机制对所述左右图像进行特征提取与匹配,得到注意力矩阵和图像特征,并根据所述注意力矩阵和所述图像特征生成视差图;
将所述视差图中各个像素点进行第一次坐标转换,得到相应的深度图,以及将所述深度图中各个像素点进行第二次坐标转换,得到相应的高度图;
根据所述高度图识别出所述道路的可行驶区域。
2.根据权利要求1所述的方法,其特征在于,
所述方法还包括:利用预标定的相机信息对所述左右图像进行图像校正,获得行对齐的校正后左右图像;所述预标定的相机信息包括所述双目相机的内外参数、两个相机的相对位置关系;
所述基于空间注意力机制对所述左右图像进行特征提取与匹配,包括:基于空间注意力机制对所述行对齐的校正后左右图像进行特征提取与匹配。
3.根据权利要求1所述的方法,其特征在于,所述基于空间注意力机制对所述左右图像进行特征提取与匹配,得到注意力矩阵和图像特征,包括:
对所述左右图像分别进行特征提取,得到所述左右图像的底层特征;
将所述左右图像的底层特征分别输入空间注意力层和特征计算层;所述特征计算层用于对所述底层特征进行卷积计算,得到图像高层特征;所述空间注意力层包括池化层、卷积层、计算层,其中:
所述池化层用于对所述底层特征进行池化处理,得到双通道特征图;
所述卷积层用于对所述双通道特征图进行卷积,得到单通道特征图;
所述计算层用于计算所述单通道特征图中各个像素点对应的注意力权重,输出所述注意力矩阵;
将所述图像高层特征与所述底层特征进行拼接,得到所述图像特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述注意力矩阵和所述图像特征生成视差图,包括:
将所述注意力矩阵与所述图像特征进行点乘,得到所述左右图像对应的特征匹配图;
将所述特征匹配图输入预先训练的视差图生成网络,生成所述左右图像对应的视差图。
5.根据权利要求1所述的方法,其特征在于,所述根据所述高度图识别出所述道路的可行驶区域,包括:
将所述高度图输入预先训练的语义分割网络,所述语义分割网络包含编码器和解码器;
基于所述编码器和解码器,对所述高度图中的可行驶区域与不可行驶区域进行识别和分割,并输出可行驶区域。
6.一种基于双目视觉的道路可行驶区域识别模型的训练方法,其特征在于,所述方法包括:
获取样本道路的样本左右图像、目标样本视差图和目标可行驶区域;
基于空间注意力机制对所述样本左右图像进行特征提取与匹配,得到注意力矩阵和样本图像特征,并根据所述注意力矩阵和所述样本图像特征生成样本视差图;
将所述样本视差图中各个像素点进行第一次坐标转换,得到相应的样本深度图,以及将所述样本深度图中各个像素点进行第二次坐标转换,得到相应的样本高度图;
根据所述样本高度图识别出所述样本道路的可行驶区域;
根据所述样本道路的可行驶区域与所述目标可行驶区域,以及所述样本视差图与所述目标样本视差图对所述道路可行驶区域识别模型进行迭代训练。
7.一种基于双目视觉的道路可行驶区域识别装置,其特征在于,所述装置包括:
采集单元,用于通过双目相机采集道路的左右图像;
匹配单元,用于基于空间注意力机制对所述左右图像进行特征提取与匹配,得到注意力矩阵和图像特征,并根据所述注意力矩阵和所述图像特征生成视差图;
坐标转换单元,用于将所述视差图中各个像素点进行第一次坐标转换,得到相应的深度图,以及将所述深度图中各个像素点进行第二次坐标转换,得到相应的高度图;
识别单元,用于根据所述高度图识别出所述道路的可行驶区域。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
10.一种车辆,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述方法的步骤。
CN202211072227.8A 2022-09-01 2022-09-01 一种基于双目视觉的道路可行驶区域识别方法及装置 Pending CN115497061A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211072227.8A CN115497061A (zh) 2022-09-01 2022-09-01 一种基于双目视觉的道路可行驶区域识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211072227.8A CN115497061A (zh) 2022-09-01 2022-09-01 一种基于双目视觉的道路可行驶区域识别方法及装置

Publications (1)

Publication Number Publication Date
CN115497061A true CN115497061A (zh) 2022-12-20

Family

ID=84468312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211072227.8A Pending CN115497061A (zh) 2022-09-01 2022-09-01 一种基于双目视觉的道路可行驶区域识别方法及装置

Country Status (1)

Country Link
CN (1) CN115497061A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315152A (zh) * 2023-09-27 2023-12-29 杭州一隅千象科技有限公司 双目立体成像方法及其系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117315152A (zh) * 2023-09-27 2023-12-29 杭州一隅千象科技有限公司 双目立体成像方法及其系统
CN117315152B (zh) * 2023-09-27 2024-03-29 杭州一隅千象科技有限公司 双目立体成像方法及其系统

Similar Documents

Publication Publication Date Title
CN108961327B (zh) 一种单目深度估计方法及其装置、设备和存储介质
CN104833370B (zh) 用于映射、定位和位姿校正的系统和方法
CN112507862B (zh) 基于多任务卷积神经网络的车辆朝向检测方法及系统
CN113312983B (zh) 基于多模态数据融合的语义分割方法、系统、装置及介质
Panek et al. Meshloc: Mesh-based visual localization
CN111209840B (zh) 一种基于多传感器数据融合的3d目标检测方法
CN112446227A (zh) 物体检测方法、装置及设备
CN114419568A (zh) 一种基于特征融合的多视角行人检测方法
Gao et al. A general deep learning based framework for 3D reconstruction from multi-view stereo satellite images
CN114519772A (zh) 一种基于稀疏点云和代价聚合的三维重建方法及系统
CN115497061A (zh) 一种基于双目视觉的道路可行驶区域识别方法及装置
Xie et al. A flexible free-space detection system based on stereo vision
Song et al. Automatic detection and classification of road, car, and pedestrian using binocular cameras in traffic scenes with a common framework
CN112270701B (zh) 基于分组距离网络的视差预测方法、系统及存储介质
CN117173399A (zh) 一种跨模态交叉注意力机制的交通目标检测方法及系统
US20230049383A1 (en) Systems and methods for determining road traversability using real time data and a trained model
CN116152800A (zh) 基于跨视图特征融合的3d动态多目标检测方法、系统及存储介质
CN116129386A (zh) 可行驶区域检测方法、系统及计算机可读介质
CN116246119A (zh) 3d目标检测方法、电子设备及存储介质
JP7423500B2 (ja) 情報処理装置、情報処理方法、プログラムおよび車両制御システム
Li et al. An efficient stereo matching based on fragment matching
CN116883770A (zh) 深度估计模型的训练方法、装置、电子设备及存储介质
Jhong et al. Density-Aware and Semantic-Guided Fusion for 3D Object Detection using LiDAR-Camera Sensors
CN112183378A (zh) 一种基于颜色和深度图像的道路坡度估计方法及装置
Zhu et al. Toward the ghosting phenomenon in a stereo-based map with a collaborative RGB-D repair

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination