CN110245553A - 路面测距方法及装置 - Google Patents

路面测距方法及装置 Download PDF

Info

Publication number
CN110245553A
CN110245553A CN201910354405.8A CN201910354405A CN110245553A CN 110245553 A CN110245553 A CN 110245553A CN 201910354405 A CN201910354405 A CN 201910354405A CN 110245553 A CN110245553 A CN 110245553A
Authority
CN
China
Prior art keywords
residual error
parallax
picture
stride
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910354405.8A
Other languages
English (en)
Other versions
CN110245553B (zh
Inventor
邓志东
杨国润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910354405.8A priority Critical patent/CN110245553B/zh
Publication of CN110245553A publication Critical patent/CN110245553A/zh
Application granted granted Critical
Publication of CN110245553B publication Critical patent/CN110245553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种路面测距方法及装置,其中方法包括:将左、右视角的两张图片输入至预先训练的视差子网络中,输出所述两张图片的视差结果和所述两张图片中主视角图片的特征图;将所述主视角图片的特征图输入至预先训练的语义子网络,输出所述主视角图片的场景分割结果;根据场景分割结果的路面区域,从所述视差结果中提取出所述路面区域的视差结果,并将所述路面区域的视差结果转换为距离值;从所述主视角图片中确定关键距离值的像素位置并拟合出示距线。本发明实施例相比现有技术更加鲁棒快速,并且能够更精准地表达出图像中的距离。

Description

路面测距方法及装置
技术领域
本发明涉及测距技术领域,更具体地,涉及一种路面测距方法及装置。
背景技术
双目视觉和场景分割分属于计算机视觉领域中的低层级(low-level)问题和高层级(high-level)问题,其中双目视觉是视觉领域中最基础的问题之一,与人类使用双眼观察世界类似。双目视觉系统一般由双摄像机从不同的视点同时获取场景的数字图像,并基于视差原理恢复出物体的三维几何信息,估计与场景中不同物体的距离。双目视觉具有成本低、效率高、精度合适和系统结构简单等优点,被广泛应用于深度预测、场景建模、视觉里程计、工业视觉测量等多个任务中。场景分割是视觉中的另一个经典问题,它是从像素水平理解整幅图像,其目标是给出每一个像素区域的高级语义类别,它常用于场景理解、环境感知等任务中。
最近几年,随着对深度卷积神经网络模型的深入研究,特别是全卷积(fullyconvolutional)模型在立体匹配和语义分割上的成功应用,视差估计和像素分类的准确率不断提升,同时端到端(end-to-end)模型还可以快速地预测出像素级别的视差图和语义图。然而,目前的大部分工作将视差估计和语义分割作为两个独立的问题进行研究。
发明内容
本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的路面测距方法及装置。
第一个方面,本发明实施例提供一种路面测距方法,包括:
将左、右视角的两张图片输入至预先训练的视差子网络中,输出所述两张图片的视差结果和所述两张图片中主视角图片的特征图;
将所述主视角图片的特征图输入至预先训练的语义子网络,输出所述主视角图片的场景分割结果;
根据场景分割结果的路面区域,从所述视差结果中提取出所述路面区域的视差结果,并将所述路面区域的视差结果转换为距离值;
从所述主视角图片中确定关键距离值的像素位置并拟合出示距线;
其中,所述视差子网络根据左、右视角的两张样本图片以及所述两张样本图片的视差结果标签训练而成,所述语义子网络根据所述两张样本图片中主视角样本图片的特征图以及所述主视角样本图片的场景分割标签训练而成。
第二个方面,本发明实施例提供一种路面测距装置,包括:
视差结果获取模块,用于将左、右视角的两张图片输入至预先训练的视差子网络中,输出所述两张图片的视差结果和所述两张图片中主视角图片的特征图;
场景分割结果获取模块,用于将所述主视角图片的特征图输入至预先训练的语义子网络,输出所述主视角图片的场景分割结果;
距离转换模块,用于根据场景分割结果的路面区域,从所述视差结果中提取出所述路面区域的视差结果,并将所述路面区域的视差结果转换为距离值;
示距线模块,用于从所述主视角图片中确定关键距离值的像素位置并拟合出示距线;
其中,所述视差子网络根据左、右视角的两张样本图片以及所述两张样本图片的视差结果训练而成,所述语义子网络根据所述两张样本图片中主视角样本图片的特征图以及所述主视角样本图片的场景分割结果训练而成。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的路面测距方法及装置,将视差分析和场景分割相关联,视差分析子网络和语义分析子网络共享特征提取,能够实时预测密集视差图和场景分割图,通过确定测距场景,从场景分割结构中获得路面区域,并根据路面区域的视差结构计算路面区域的聚类,针对示距需求,通过提取关键聚类像素拟合示距线以克服视差图中存在的噪声,并且能够更精准地表达出图像中的距离。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单介绍。显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的路面测距方法的流程示意图;
图2为本发明实施例的视差子网络和语义子网络的处理流程示意图;
图3为本发明实施例提供的路面测距装置的结构示意图;
图4为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的路面测距方法的流程示意图,如图1所示,包括:
S101、将左、右视角的两张图片输入至预先训练的视差子网络中,输出所述两张图片的视差结果和所述两张图片中主视角图片的特征图。
需要说明的是,本发明实施例区别与现有技术采用两个独立的网络模型进行视差估计和语义分割,本发明采用联合网络模型,即用于语义分割的网络模型(即语义子网络)和用于视差估计的网络模型(即视差子网络)共享特征提取的结果,视差子网络在生成两种图片的视差结果的过程中,会首先生产两种图片的特征图,通过从两个视角的图片选择一张图片作为主视角图片(惯例以左视角的图片作为主视角图片),从而确定主视角图片的特征图。
可以理解的是,本发明实施例的视差子网络根据左、右视角的两张样本图片以及所述两张样本图片的视差结果标签训练而成。通过选择样本图片作为训练样本以及训练样本的视差结果作为样本标签,在确定训练样本和与训练样本对应的样本标签后,将训练安保输入视差子网络中,训练视差子网络,直至视差子网络能够输出与训练样本对应的样本标签匹配的输出结果,完成对视差子网络的训练。
S102、将所述主视角图片的特征图输入至预先训练的语义子网络,输出所述主视角图片的场景分割结果。
需要说明的是,所述语义子网络根据所述两张样本图片中主视角样本图片的特征图以及所述主视角样本图片的场景分割结果训练而成,由于本发明实施例的语义子网络的输入为主视角图片的特征图,所以从结构上讲,本发明实施例的两个子网络共享特征图提取部分,从而能够更好地表达图像,相比原图更加鲁邦,也更适合获得视差信息和语义信息的计算。
本发明实施例的语义子网络用于实现图像分割(image segmentation),即将图片中代表不同场景区域的像素进行确定,将数字图像划分成互不相交的区域。作为一种可选实施例,语义子网络可以采用PSPNet,可参考以下文献:Zhao,H.,Shi,J.,Qi,X.,Wang,X.,&Jia,J.(2017).Pyramid scene parsing network.In Proceedings of the IEEEconference on computer vision and pattern recognition(pp.2881-2890)。需要说明的是,本发明实施例的场景分割结果用于表征图片中各区域像素所代表的物体,例如路面、车辆、行人、建筑、植被等等。
图2为本发明实施例的视差子网络和语义子网络的处理流程示意图,如图2所示,左图(即左视角图片)和右图(即右视角图片)一起输入至视差子网络中,视差子网络首先分别生成两个图的特征图,然后再根据两个图的特征图获得视差结果,由于惯例以左视角的图片作为主视角图片,因此,语义子网络的输入为左图的特征图,输出为场景分割结果。
S103、根据场景分割结果的路面区域,从所述视差结果中提取出所述路面区域的视差结果,并将所述路面区域的视差结果转换为距离值。
由于场景分割结果是对图像中的每一个像素进行的场景物体分类,因此可以轻而易举地获得属于路面区域的像素,通过现有技术可以将属于路面区域的像素转换为距离值。可以理解的是,本发明实施例既可以先获取路面区域的像素,再根据路面区域的像素获得路面区域对应的距离值,也可以先计算所有区域的像素对应的距离值,然后选择路面区域的像素对应的距离值。
S104、从所述主视角图片中确定关键距离值的像素位置并拟合出示距线
一般在驾驶场景的图像中,路面的距离是连续变化的,我们为了标示距离线,会专门选取几个关键距离值,例如15米和50米,指定这两个关键距离值(15米、50米)之后,从主视角图片中确定关键距离值的像素,最后通过现有的拟合方法(例如RANSAC算法)即可拟合出一条二次曲线。
需要说明的是,本发明实施例将视差分析和场景分割相关联,视差分析子网络和语义分析子网络共享特征提取,能够实时预测密集视差图和场景分割图,通过确定测距场景,从场景分割结构中获得路面区域,并根据路面区域的视差结构计算路面区域的聚类,针对示距需求,通过提取关键聚类像素拟合示距线以克服视差图中存在的噪声。
在上述各实施例的基础上,作为一种可选实施例,视差子网络包括:特征提取模块,匹配代价聚合模块和视差回归模块,具体地:
特征提取模块,用于输入左、右视角的两张图片,输出左视角图片的特征图和右视角图片的特征图。作为一种可选实施例,特征提取模块具体为深度卷积神经网络。
匹配代价聚合模块,用于输入所述左、右视角图片的特征图,对所述左、右视角图片的特征图进行关联计算得到匹配特征,对主视角图片的特征图进行卷积操作得到主视角图片的转换特征,将所述匹配特征和主视角的转换特征进行连接,输出聚合特征;
视差回归模块,采用编码-解码结构,用于输入所述聚合特征,输出预测的视差结果。在本发明实施例中,编码器主要采用残差块,解码器主要采用反卷积块。
需要说明的是,关联计算可以计算两个特征图之间的匹配代价,先从微观上来看,假定pl和pr分别是左右图像中的某个位置,以它们各自位置为中心,可以取出一定尺寸的图像块,这两个图像块之间的关联运算定义为:
这里图像块的大小为2k+1,fl(pl+o)表示pl+o位置处的特征图,fr(pr+o)表示pr+o位置处的特征图,关联计算实际上是两个图像块之间做卷积计算,本身没有额外参数。如果两个图像块或者特征块之间的相似度较高,那么匹配z值c较大,反之匹配值较小,所以关联计算的结果蕴含了图像块之间的相似度信息。
在关联特征计算时,需要事先指定搜索范围s和图像块尺寸k,针对左图中(主视角)的每一个像素位置,取出该位置的像素之后,根据极限约束,遍历右图中搜索范围中的每一个图像块,计算关联值,总结会得到s+1个匹配值,最后匹配特征的大小为w×h×(s+1)。
需要说明的,特征图连接是将两个或者两个以上的特征图在通道(channel)维度上进行拼接,在我们的匹配代价聚合模块中,就是将左视角转换特征图、关联特征图这两个特征图拼接在一起。
在上述各实施例的基础上,作为一种可选实施例,特征提取模块包括:
第一卷积层,用于输入左、右视角的两张图片,输出左、右视角的两张图片的第一卷积特征值,所述第一卷积层的输入通道为3,输出通道为64,卷积核大小为3,步幅为2,尺寸缩放为1/2;
第二卷积层,用于输入所述两张图片的第一卷积特征值,输出两张图片的第二卷积特征值,所述第二卷积层的输入通道为64,输出通道为64,卷积核大小为3,步幅为1,尺寸缩放为1/2;
第三卷积层,用于输入所述两张图片的第二卷积特征值,输出两张图片的第三卷积特征值,所述第三卷积层的输入通道为64,输出通道为128,卷积核大小为3,步幅为1,尺寸缩放为1/2;
池化层,用于输入所述两张图片的第三卷积特征值,输出两张图片的池化特征值,所述池化层的输入通道为128,输出通道为128,卷积核大小为3,步幅为2,尺寸缩放为1/4;
第一残差层,用于输入所述两张图片的池化特征值,输出两张图片的第一残差特征值,所述第一残差层的输入通道为128,输出通道为256,卷积核大小为3,步幅为1,尺寸缩放为1/4;
第二残差层,用于输入所述两张图片的第一残差特征值,输出两张图片的第二残差特征值,所述第二残差层的输入通道为256,输出通道为256,卷积核大小为3,步幅为1,尺寸缩放为1/4;
第三残差层,用于输入所述两张图片的第二残差特征值,输出两张图片的第三残差特征值,所述第三残差层的输入通道为256,输出通道为256,卷积核大小为3,步幅为1,尺寸缩放为1/4;
第四残差层,用于输入所述两张图片的第三残差特征值,输出两张图片的第四残差特征值,作为两张图片的特征图,所述第四残差层的输入通道为512,输出通道为512,卷积核大小为3,步幅为1,尺寸缩放为1/8。
本发明实施例之所以设计3层卷积层,是为了初步提取图像特征,在卷积层后设置池化层是为了减小特征图尺寸,在池化层后再设置4层残差层,是为了进一步计算图像特征,增加特征的鲁棒性。
在上述各实施例的基础上,作为一种可选实施例,匹配代价聚合模块包括:
前置卷积层,用于输入两张图片的特征图,输出两张图片的第四卷积特征值,所述前置卷积层的输入通道为512,输出通道为256,卷积核大小为3,步幅为1,尺寸缩放为1/8;
关联层,用于输入两张图片的第四卷积特征值,输出两张图片的匹配特征,所述关联层的输入通道为256,输出通道为33,最大位移为32,尺寸缩放为1/8;
主视角卷积层,用于输入主视角图片的第四卷积特征值,输出主视角图片的转换特征,所述主视角卷积层的输入通道为256,输出通道为256,卷积核大小为3,步幅为1,尺寸缩放为1/8;
连接层,用于输入两张图片的匹配特征和主视角图片的转换特征,输出聚合特征,所述连接层的输入通道为289,输出通道为289,尺寸缩放为1/8。
匹配代价特征聚合模块的益处在于实现了图像特征与关联特征的结合,其中图像特征能够表达图像的结构及纹理信息,关联特征能够表达图像之间的匹配信息,因此匹配代价聚合模块能够将匹配信息融合到图像特征之中,辅助后续的视差预测。
在上述各实施例的基础上,作为一种可选实施例,视差回归模块中的编码结构包括:
第五残差层,用于输入聚合特征,输出第五残差特征,所述第五残差层的输入通道为409,输出通道为512,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第六残差层,用于输入第五残差特征,输出第六残差特征,所述第六残差层的输入通道为512,输出通道为512,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第七残差层,用于输入第六残差特征,输出第七残差特征,所述第七残差层的输入通道为512,输出通道为512,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第八残差层,用于输入第七残差特征,输出第八残差特征,所述第八残差层的输入通道为512,输出通道为1024,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第九残差层,用于输入第八残差特征,输出第九残差特征,所述第九残差层的输入通道为1024,输出通道为1024,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十残差层,用于输入第九残差特征,输出第十残差特征,所述第十残差层的输入通道为1024,输出通道为1024,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十一残差层,用于输入第十残差特征,输出第十一残差特征,所述第十一残差层的输入通道为1024,输出通道为1024,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十二残差层,用于输入第十一残差特征,输出第十二残差特征,所述第十二残差层的输入通道为1024,输出通道为1024,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十三残差层,用于输入第十二残差特征,输出第十三残差特征,所述第十三残差层的输入通道为1024,输出通道为1024,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十四残差层,用于输入第十三残差特征,输出第十四残差特征,所述第十四残差层的输入通道为1024,输出通道为2048,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十五残差层,用于输入第十四残差特征,输出第十五残差特征,所述第十五残差层的输入通道为2048,输出通道为2048,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十六残差层,用于输入第十五残差特征,输出第十六残差特征,所述第十六残差层的输入通道为2048,输出通道为2048,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十六残差层,用于输入第十五残差特征,输出第十六残差特征,所述第十六残差层的输入通道为2048,输出通道为2048,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第四卷积层,用于输入第四六残差特征,输出第四卷积特征,所述第四卷积层的输入通道为2048,输出通道为512,卷积核大小为3,步幅为1,尺寸缩放为1/8。
本发明的视差回归模块中的编码结构能够对聚合特征做进一步的特征计算,从图像特征和匹配特征中提取出所需的视差特征。
在上述各实施例的基础上,作为一种可选实施例,视差回归模块中的解码结构包括:
第一解卷积层,用于输入第四卷积特征,输出第一解卷积特征,所述第一解卷积层的输入通道为512,输出通道为256,卷积核大小为3,步幅为2,尺寸缩放为1/4;
第二解卷积层,用于输入第一解卷积特征,输出第二解卷积特征,所述第二解卷积层的输入通道为256,输出通道为128,卷积核大小为3,步幅为2,尺寸缩放为1/2;
第三解卷积层,用于输入第二解卷积特征,输出第三解卷积特征,所述第三解卷积层的输入通道为128,输出通道为64,卷积核大小为3,步幅为2,尺寸缩放为1;
分配卷积层,用于输入第三解卷积特征,输出预测的视差结果,所述分配卷积层的输入通道为128,输出通道为64,卷积核大小为3,步幅为1,尺寸缩放为1。
在上述各实施例的基础上,作为一种可选实施例,所述将所述路面区域的视差结果转换为距离值,具体为:
获取拍摄所述两张图片的相机的焦距f和双目基线距离b;
根据以下公式计算距离值Z;
其中,d表示所述路面区域的视差结果。
图3为本发明实施例提供的路面测距装置的结构示意图,如图3所示,该路面测距装置包括:视差结果获取模块301、场景分割结果获取模块302、距离转换模块303和示距线模块304,其中:
视差结果获取模块301,用于将左、右视角的两张图片输入至预先训练的视差子网络中,输出所述两张图片的视差结果和所述两张图片中主视角图片的特征图。
需要说明的是,本发明实施例区别与现有技术采用两个独立的网络模型进行视差估计和语义分割,本发明采用联合网络模型,即用于语义分割的网络模型(即语义子网络)和用于视差估计的网络模型(即视差子网络)共享特征提取的结果,视差子网络在生成两种图片的视差结果的过程中,会首先生产两种图片的特征图,通过从两个视角的图片选择一张图片作为主视角图片(惯例以左视角的图片作为主视角图片),从而确定主视角图片的特征图。
可以理解的是,本发明实施例的视差子网络根据左、右视角的两张样本图片以及所述两张样本图片的视差结果标签训练而成。通过选择样本图片作为训练样本以及训练样本的视差结果作为样本标签,在确定训练样本和与训练样本对应的样本标签后,将训练安保输入视差子网络中,训练视差子网络,直至视差子网络能够输出与训练样本对应的样本标签匹配的输出结果,完成对视差子网络的训练。
场景分割结果获取模块302,用于将所述主视角图片的特征图输入至预先训练的语义子网络,输出所述主视角图片的场景分割结果。
需要说明的是,所述语义子网络根据所述两张样本图片中主视角样本图片的特征图以及所述主视角样本图片的场景分割结果训练而成,由于本发明实施例的语义子网络的输入为主视角图片的特征图,所以从结构上讲,本发明实施例的两个子网络共享特征图提取部分,从而能够更好地表达图像,相比原图更加鲁邦,也更适合获得视差信息和语义信息的计算。
本发明实施例的语义子网络用于实现图像分割(image segmentation),即将图片中代表不同场景区域的像素进行确定,将数字图像划分成互不相交的区域。作为一种可选实施例,语义子网络可以采用PSPNet,可参考以下文献:Zhao,H.,Shi,J.,Qi,X.,Wang,X.,&Jia,J.(2017).Pyramid scene parsing network.In Proceedings of the IEEEconference on computer vision and pattern recognition(pp.2881-2890)。需要说明的是,本发明实施例的场景分割结果用于表征图片中各区域像素所代表的物体,例如路面、车辆、行人、建筑、植被等等。
距离转换模块303,用于根据场景分割结果的路面区域,从所述视差结果中提取出所述路面区域的视差结果,并将所述路面区域的视差结果转换为距离值。
由于场景分割结果是对图像中的每一个像素进行的场景分类,因此可以轻而易举地获得属于路面区域的像素,通过现有技术可以将属于路面区域的像素转换为距离值。可以理解的是,本发明实施例既可以先获取路面区域的像素,再根据路面区域的像素获得路面区域对应的距离值,也可以先计算所有区域的像素对应的距离值,然后选择路面区域的像素对应的距离值。
示距线模块304,用于从所述主视角图片中确定关键距离值的像素位置并拟合出示距线。
一般在驾驶场景的图像中,路面的距离是连续变化的,我们为了标示距离线,会专门选取几个关键距离值,例如15米和50米,指定这两个关键距离值(15米、50米)之后,从主视角图片中确定关键距离值的像素,最后通过现有的拟合方法(例如RANSAC算法)即可拟合出一条二次曲线。
需要说明的是,本发明实施例提供的路面测距装置,具体执行上述各路面测距方法实施例流程,具体请详见上述各路面测距方法实施例的内容,在此不再赘述。本发明实施例提供的路面测距装置本发明实施例将视差分析和场景分割相关联,视差分析子网络和语义分析子网络共享特征提取,能够实时预测密集视差图和场景分割图,通过确定测距场景,从场景分割结构中获得路面区域,并根据路面区域的视差结构计算路面区域的聚类,针对示距需求,通过提取关键聚类像素拟合示距线以克服视差图中存在的噪声。
图4为本发明实施例提供的电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(communication interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储在存储器430上并可在处理器410上运行的计算机程序,以执行上述各实施例提供的路面测距方法,例如包括:将左、右视角的两张图片输入至预先训练的视差子网络中,输出所述两张图片的视差结果和所述两张图片中主视角图片的特征图,将所述主视角图片的特征图输入至预先训练的语义子网络,输出所述主视角图片的场景分割结果;根据场景分割结果的路面区域,从所述视差结果中提取出所述路面区域的视差结果,并将所述路面区域的视差结果转换为距离值;从所述主视角图片中确定关键距离值的像素位置并拟合出示距线;其中,所述视差子网络根据左、右视角的两张样本图片以及所述两张样本图片的视差结果标签训练而成,所述语义子网络根据所述两张样本图片中主视角样本图片的特征图以及所述主视角样本图片的场景分割标签训练而成。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-only memory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的路面测距方法,例如包括:将左、右视角的两张图片输入至预先训练的视差子网络中,输出所述两张图片的视差结果和所述两张图片中主视角图片的特征图,将所述主视角图片的特征图输入至预先训练的语义子网络,输出所述主视角图片的场景分割结果;根据场景分割结果的路面区域,从所述视差结果中提取出所述路面区域的视差结果,并将所述路面区域的视差结果转换为距离值;从所述主视角图片中确定关键距离值的像素位置并拟合出示距线;其中,所述视差子网络根据左、右视角的两张样本图片以及所述两张样本图片的视差结果标签训练而成,所述语义子网络根据所述两张样本图片中主视角样本图片的特征图以及所述主视角样本图片的场景分割标签训练而成。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种路面测距方法,其特征在于,包括:
将左、右视角的两张图片输入至预先训练的视差子网络中,输出所述两张图片的视差结果和所述两张图片中主视角图片的特征图;
将所述主视角图片的特征图输入至预先训练的语义子网络,输出所述主视角图片的场景分割结果;
根据场景分割结果的路面区域,从所述视差结果中提取出所述路面区域的视差结果,并将所述路面区域的视差结果转换为距离值;
从所述主视角图片中确定关键距离值的像素位置并拟合出示距线;
其中,所述视差子网络根据左、右视角的两张样本图片以及所述两张样本图片的视差结果标签训练而成,所述语义子网络根据所述两张样本图片中主视角样本图片的特征图以及所述主视角样本图片的场景分割标签训练而成。
2.根据权利要求1所述的路面测距方法,其特征在于,所述视差子网络包括:
特征提取模块,用于输入左、右视角的两张图片,输出左视角图片的特征图和右视角图片的特征图;
匹配代价聚合模块,用于输入所述左、右视角图片的特征图,对所述左、右视角图片的特征图进行关联计算得到匹配特征,对主视角图片的特征图进行卷积操作得到主视角图片的转换特征,将所述匹配特征和主视角的转换特征进行连接,输出聚合特征;
视差回归模块,采用编码-解码结构,用于输入所述聚合特征,输出预测的视差结果。
3.根据权利要求2所述的路面测距方法,其特征在于,所述特征提取模块包括:
第一卷积层,用于输入左、右视角的两张图片,输出左、右视角的两张图片的第一卷积特征值,所述第一卷积层的输入通道为3,输出通道为64,卷积核大小为3,步幅为2,尺寸缩放为1/2;
第二卷积层,用于输入所述两张图片的第一卷积特征值,输出两张图片的第二卷积特征值,所述第二卷积层的输入通道为64,输出通道为64,卷积核大小为3,步幅为1,尺寸缩放为1/2;
第三卷积层,用于输入所述两张图片的第二卷积特征值,输出两张图片的第三卷积特征值,所述第三卷积层的输入通道为64,输出通道为128,卷积核大小为3,步幅为1,尺寸缩放为1/2;
池化层,用于输入所述两张图片的第三卷积特征值,输出两张图片的池化特征值,所述池化层的输入通道为128,输出通道为128,卷积核大小为3,步幅为2,尺寸缩放为1/4;
第一残差层,用于输入所述两张图片的池化特征值,输出两张图片的第一残差特征值,所述第一残差层的输入通道为128,输出通道为256,卷积核大小为3,步幅为1,尺寸缩放为1/4;
第二残差层,用于输入所述两张图片的第一残差特征值,输出两张图片的第二残差特征值,所述第二残差层的输入通道为256,输出通道为256,卷积核大小为3,步幅为1,尺寸缩放为1/4;
第三残差层,用于输入所述两张图片的第二残差特征值,输出两张图片的第三残差特征值,所述第三残差层的输入通道为256,输出通道为256,卷积核大小为3,步幅为1,尺寸缩放为1/4;
第四残差层,用于输入所述两张图片的第三残差特征值,输出两张图片的第四残差特征值,作为两张图片的特征图,所述第四残差层的输入通道为512,输出通道为512,卷积核大小为3,步幅为1,尺寸缩放为1/8。
4.根据权利要求3所述的路面测距方法,其特征在于,所述匹配代价聚合模块包括:
前置卷积层,用于输入两张图片的特征图,输出两张图片的第四卷积特征值,所述前置卷积层的输入通道为512,输出通道为256,卷积核大小为3,步幅为1,尺寸缩放为1/8;
关联层,用于输入两张图片的第四卷积特征值,输出两张图片的匹配特征,所述关联层的输入通道为256,输出通道为33,最大位移为32,尺寸缩放为1/8;
主视角卷积层,用于输入主视角图片的第四卷积特征值,输出主视角图片的转换特征,所述主视角卷积层的输入通道为256,输出通道为256,卷积核大小为3,步幅为1,尺寸缩放为1/8;
连接层,用于输入两张图片的匹配特征和主视角图片的转换特征,输出聚合特征,所述连接层的输入通道为289,输出通道为289,尺寸缩放为1/8。
5.根据权利要求4所述的路面测距方法,其特征在于,所述视差回归模块中的编码结构包括:
第五残差层,用于输入聚合特征,输出第五残差特征,所述第五残差层的输入通道为409,输出通道为512,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第六残差层,用于输入第五残差特征,输出第六残差特征,所述第六残差层的输入通道为512,输出通道为512,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第七残差层,用于输入第六残差特征,输出第七残差特征,所述第七残差层的输入通道为512,输出通道为512,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第八残差层,用于输入第七残差特征,输出第八残差特征,所述第八残差层的输入通道为512,输出通道为1024,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第九残差层,用于输入第八残差特征,输出第九残差特征,所述第九残差层的输入通道为1024,输出通道为1024,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十残差层,用于输入第九残差特征,输出第十残差特征,所述第十残差层的输入通道为1024,输出通道为1024,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十一残差层,用于输入第十残差特征,输出第十一残差特征,所述第十一残差层的输入通道为1024,输出通道为1024,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十二残差层,用于输入第十一残差特征,输出第十二残差特征,所述第十二残差层的输入通道为1024,输出通道为1024,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十三残差层,用于输入第十二残差特征,输出第十三残差特征,所述第十三残差层的输入通道为1024,输出通道为1024,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十四残差层,用于输入第十三残差特征,输出第十四残差特征,所述第十四残差层的输入通道为1024,输出通道为2048,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十五残差层,用于输入第十四残差特征,输出第十五残差特征,所述第十五残差层的输入通道为2048,输出通道为2048,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十六残差层,用于输入第十五残差特征,输出第十六残差特征,所述第十六残差层的输入通道为2048,输出通道为2048,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第十六残差层,用于输入第十五残差特征,输出第十六残差特征,所述第十六残差层的输入通道为2048,输出通道为2048,卷积核大小为3,步幅为1,尺寸缩放为1/8;
第四卷积层,用于输入第四六残差特征,输出第四卷积特征,所述第四卷积层的输入通道为2048,输出通道为512,卷积核大小为3,步幅为1,尺寸缩放为1/8。
6.根据权利要求5所述的路面测距方法,其特征在于,所述视差回归模块中的解码结构包括:
第一解卷积层,用于输入第四卷积特征,输出第一解卷积特征,所述第一解卷积层的输入通道为512,输出通道为256,卷积核大小为3,步幅为2,尺寸缩放为1/4;
第二解卷积层,用于输入第一解卷积特征,输出第二解卷积特征,所述第二解卷积层的输入通道为256,输出通道为128,卷积核大小为3,步幅为2,尺寸缩放为1/2;
第三解卷积层,用于输入第二解卷积特征,输出第三解卷积特征,所述第三解卷积层的输入通道为128,输出通道为64,卷积核大小为3,步幅为2,尺寸缩放为1;
分配卷积层,用于输入第三解卷积特征,输出预测的视差结果,所述分配卷积层的输入通道为128,输出通道为64,卷积核大小为3,步幅为1,尺寸缩放为1。
7.根据权利要求2所述的路面测距方法,其特征在于,所述将所述路面区域的视差结果转换为距离值,具体为:
获取拍摄所述两张图片的相机的焦距f和双目基线距离b;
根据以下公式计算距离值Z;
其中,d表示所述路面区域的视差结果。
8.一种路面测距装置,其特征在于,包括:
视差结果获取模块,用于将左、右视角的两张图片输入至预先训练的视差子网络中,输出所述两张图片的视差结果和所述两张图片中主视角图片的特征图;
场景分割结果获取模块,用于将所述主视角图片的特征图输入至预先训练的语义子网络,输出所述主视角图片的场景分割结果;
距离转换模块,用于根据场景分割结果的路面区域,从所述视差结果中提取出所述路面区域的视差结果,并将所述路面区域的视差结果转换为距离值;
示距线模块,用于从所述主视角图片中确定关键距离值的像素位置并拟合出示距线;
其中,所述视差子网络根据左、右视角的两张样本图片以及所述两张样本图片的视差结果训练而成,所述语义子网络根据所述两张样本图片中主视角样本图片的特征图以及所述主视角样本图片的场景分割结果训练而成。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述路面测距方法的步骤。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7中任意一项所述的路面测距方法。
CN201910354405.8A 2019-04-29 2019-04-29 路面测距方法及装置 Active CN110245553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910354405.8A CN110245553B (zh) 2019-04-29 2019-04-29 路面测距方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910354405.8A CN110245553B (zh) 2019-04-29 2019-04-29 路面测距方法及装置

Publications (2)

Publication Number Publication Date
CN110245553A true CN110245553A (zh) 2019-09-17
CN110245553B CN110245553B (zh) 2022-02-22

Family

ID=67883478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910354405.8A Active CN110245553B (zh) 2019-04-29 2019-04-29 路面测距方法及装置

Country Status (1)

Country Link
CN (1) CN110245553B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808187A (zh) * 2021-09-18 2021-12-17 京东鲲鹏(江苏)科技有限公司 视差图生成方法、装置、电子设备和计算机可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952274A (zh) * 2017-03-14 2017-07-14 西安电子科技大学 基于立体视觉的行人检测与测距方法
CN107832764A (zh) * 2017-11-27 2018-03-23 山东鲁能智能技术有限公司 一种电力设备状态检测方法及装置
CN108681753A (zh) * 2018-05-29 2018-10-19 武汉环宇智行科技有限公司 一种基于语义分割及神经网络的图像立体匹配方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106952274A (zh) * 2017-03-14 2017-07-14 西安电子科技大学 基于立体视觉的行人检测与测距方法
CN107832764A (zh) * 2017-11-27 2018-03-23 山东鲁能智能技术有限公司 一种电力设备状态检测方法及装置
CN108681753A (zh) * 2018-05-29 2018-10-19 武汉环宇智行科技有限公司 一种基于语义分割及神经网络的图像立体匹配方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
GUORUN YANG 等: "SegStereo: Exploiting Semantic Information for Disparity Estimation", 《SPRINGLINK》 *
HENGSHUANG ZHAO 等: "Pyramid Scene Parsing Network", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
孙怡 等: "双目视差测距中的图像配准技术研究", 《物联网技术》 *
郭 攀 等: "机器人双目测距算法研究", 《无线互联科技》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113808187A (zh) * 2021-09-18 2021-12-17 京东鲲鹏(江苏)科技有限公司 视差图生成方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN110245553B (zh) 2022-02-22

Similar Documents

Publication Publication Date Title
CN109753885B (zh) 一种目标检测方法、装置以及行人检测方法、系统
Qi et al. Volumetric and multi-view cnns for object classification on 3d data
Li et al. Rgbd based dimensional decomposition residual network for 3d semantic scene completion
Jancosek et al. Multi-view reconstruction preserving weakly-supported surfaces
CN104574342B (zh) 视差深度图像的噪声识别方法和噪声识别装置
CN111832655A (zh) 一种基于特征金字塔网络的多尺度三维目标检测方法
CN108491848B (zh) 基于深度信息的图像显著性检测方法和装置
EP3907660A1 (en) Method, apparatus, electronic device, and storage medium for recognizing license plate
Wang et al. Reconfigurable voxels: A new representation for lidar-based point clouds
CN113901909B (zh) 基于视频的目标检测方法、装置、电子设备和存储介质
CN115984494A (zh) 一种基于深度学习的月面导航影像三维地形重建方法
CN112651881A (zh) 图像合成方法、装置、设备、存储介质以及程序产品
CN113327319A (zh) 一种复杂场景建模方法、装置、服务器及可读存储介质
CN113592940A (zh) 基于图像确定目标物位置的方法及装置
Lei et al. C2FNet: A coarse-to-fine network for multi-view 3D point cloud generation
CN113592015B (zh) 定位以及训练特征匹配网络的方法和装置
CN115861601A (zh) 一种多传感器融合感知方法及装置
CN115131634A (zh) 图像识别方法、装置、设备、存储介质及计算机程序产品
CN110889868A (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
Zhu et al. Occlusion-free scene recovery via neural radiance fields
CN110245553A (zh) 路面测距方法及装置
Nicolescu et al. Layered 4D representation and voting for grouping from motion
CN109087344A (zh) 三维重建中的图像选择方法及装置
Lahiri et al. Deep learning-based stereopsis and monocular depth estimation techniques: a review
CN115471901A (zh) 基于生成对抗网络的多姿态人脸正面化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant