CN109253722B - 融合语义分割的单目测距系统、方法、设备及存储介质 - Google Patents

融合语义分割的单目测距系统、方法、设备及存储介质 Download PDF

Info

Publication number
CN109253722B
CN109253722B CN201810957944.6A CN201810957944A CN109253722B CN 109253722 B CN109253722 B CN 109253722B CN 201810957944 A CN201810957944 A CN 201810957944A CN 109253722 B CN109253722 B CN 109253722B
Authority
CN
China
Prior art keywords
target
image
area
bearing area
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810957944.6A
Other languages
English (en)
Other versions
CN109253722A (zh
Inventor
胡志恒
宋翔
杨小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN201810957944.6A priority Critical patent/CN109253722B/zh
Publication of CN109253722A publication Critical patent/CN109253722A/zh
Application granted granted Critical
Publication of CN109253722B publication Critical patent/CN109253722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • G01C11/04Interpretation of pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种融合语义分割的单目测距方法、系统及设备。接将待测图像输入检测模型进行目标检测,标注出待测图像的目标及承载区,并通过语义分割,输出目标标注区图像及承载区的分割结果,所述检测模型是将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;根据所述目标标注区图像及承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;将相接点信息输入小孔成像模型得目标的距离信息。创新性的采用基于深度学习的语义分割技术来寻找目标与承载区的相接点信息,融合语义分割技术定位,解决使用目标检测得到的外接边框无法准确贴合目标外轮廓的问题。

Description

融合语义分割的单目测距系统、方法、设备及存储介质
技术领域
本发明涉及图像处理和视觉测量领域,尤其涉及一种融合语义分割的单目测距系统、方法、设备及存储介质。
背景技术
在视频监控应用场景中,测距是一种比较常见的需求。现有技术中,几乎所有的单目测距方法都是基于针孔成像模型的,通过先验知识对目标进行约束。例如目标在一个固定高度上(例如在地面上),或目标的高度或宽度是一个固定值,这样就能够通过模型计算出目标的真实距离。无论哪种方案,都存在着某一类缺陷。对于前者,待检测的目标的形态和姿态可能是不固定的,这会导致高度、宽度为固定值的先验性假设失效;对于后者,当地面不平坦时,固定高度的先验性假设也会失效。在视频监控领域,通常采用后者进行测距。其一,待测距的对象种类繁多,尺寸不固定,无法满足尺寸固定的假设;其二,对于实际的应用需求,往往对测距精度也有一定的容忍度,即使地面不平坦,产生的误差也还在可接受的范围内。
单目测距的流程如下:
1.采用目标检测的方法找到目标,该目标用boundingbox(最小外接矩形)进行表示
2.取目标的boundingbox的底边作为目标的接地点,基于该点利用小孔成像模型计算目标的距离。因此,测距的准确度取决于boundingbox的底边是否贴合目标,底边的位置产生偏差,也会导致测距产生偏差。
随着深度学习技术的兴起,目标检测的精度得到了很大的提升,相比于传统的机器学习方法,深度学习得到的检测目标的boundingbox(最小外接矩形)能够更好的贴合目标,即使是这样,boundingbox也常常会或大或小的偏离目标真实轮廓。这导致了测距的误差。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种融合语义分割的单目测距方法、系统及设备。
根据本发明的一个方面,提供了一种融合语义分割的单目测距方法,包括以下步骤:
将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
将所述相接点信息输入小孔成像模型,得目标的距离信息。
进一步,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练得所述检测模型,包括:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
进一步,根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
进一步,对待测图像或训练样本图像进行目标检测,标注出目标,包括:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
进一步,目标的承载区为路面区。
进一步,目标标注区域图像中路面区为前景,其它区作为背景。
进一步,目标与承载区的相接点信息为目标接地点信息。
进一步,最小外接边框为最小外接矩形外框。
标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、掩模所生成的损失所得。
进一步,标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
Figure GDA0002864473660000031
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
Figure GDA0002864473660000032
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Figure GDA0002864473660000033
Lmask为mask的损失函数,定义为:
Figure GDA0002864473660000034
其中,
Si为像素i对应的真实的mask标签,
Figure GDA0002864473660000041
为像素i所对应的mask属性的softmax输出,
N为最小外接矩形外框内的像素总数。
进一步,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息,包括:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
进一步,将所述相接点信息输入小孔成像模型,得目标的距离信息,包括:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
进一步,目标距离的计算公式为:
Figure GDA0002864473660000042
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
Figure GDA0002864473660000043
根据本发明的另一个方面,提供了一种融合语义分割的单目测距系统,包括:
目标检测承载区分割单元,配置用于将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
目标与承载区的相接点信息获取单元,配置用于根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
距离信息获取单元,配置用于将所述相接点信息输入小孔成像模型,得目标的距离信息。
进一步,目标检测承载区分割单元还配置用于:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
进一步,目标与承载区的相接点信息获取单元还配置用于:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
进一步,目标检测承载区分割单元还配置用于:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
进一步,目标的承载区为路面区。
进一步,目标标注区域图像中路面区为前景,其它区作为背景。
进一步,目标与承载区的相接点信息为目标接地点信息。
进一步,最小外接边框为最小外接矩形外框。
进一步,目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、掩模所生成的损失所得。
进一步,目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
Figure GDA0002864473660000061
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
Figure GDA0002864473660000062
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Figure GDA0002864473660000063
Lmask为mask的损失函数,定义为:
Figure GDA0002864473660000064
其中,
Si为像素i对应的真实的mask标签,
Figure GDA0002864473660000065
为像素i所对应的mask属性的softmax输出,
N为最小外接矩形外框内的像素总数。
进一步,目标与承载区的相接点信息获取单元,还配置用于:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
进一步,距离信息获取单元,还配置用于:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
进一步,距离信息获取单元,还配置目标距离计算公式:
Figure GDA0002864473660000071
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
Figure GDA0002864473660000072
根据本发明的另一个方面,提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。
根据本发明的另一个方面,提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现如上任一项所述的方法。
与现有技术相比,本发明具有以下有益效果:
1、本发明示例的融合语义分割的单目测距方法,创新性的采用基于深度学习的语义分割技术来寻找目标与承载区的相接点信息,融合语义分割技术定位,解决使用目标检测得到的外接边框无法准确贴合目标外轮廓的问题,相比于仅通过包含区域的最小矩形或其他基于图像处理的方法,精度更高,鲁棒性更强,从而使最终获取的目标实际距离精确。
2、本发明示例的融合语义分割的单目测距系统,各个单元相互配合,通过融合语义分割技术定位目标与承载区的相接点,精确获取目标的实际距离。
3、本发明示例的登录异常检测设备、通过存储有计算机程序的计算机可读介质,创新性的采用基于深度学习的语义分割技术来寻找目标与承载区的相接点信息,融合语义分割技术定位,解决使用目标检测得到的外接边框无法准确贴合目标外轮廓的问题,精确获取目标实际距离。
附图说明
图1为本发明流程图。
具体实施方式
为了更好的了解本发明的技术方案,下面结合具体实施例、说明书附图对本发明作进一步说明。
实施例一:
本实施例提供了一种融合语义分割的单目测距方法,包括以下步骤:
S1、将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得。
将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练得所述检测模型,包括:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
对待测图像或训练样本图像进行目标检测,标注出目标,包括:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
S2、根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息。
根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
S3、将所述相接点信息输入小孔成像模型,得目标的距离信息。
上述目标的承载区为路面区。
目标标注区域图像中路面区为前景,其它区作为背景。
目标与承载区的相接点信息为目标接地点信息。
最小外接边框为最小外接矩形外框。
S1中标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、mask(掩模)所生成的损失所得。
标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
Figure GDA0002864473660000091
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
Figure GDA0002864473660000092
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Figure GDA0002864473660000101
Lmask为mask的损失函数,定义为:
Figure GDA0002864473660000102
其中,
Si为像素i对应的真实的mask标签,
Figure GDA0002864473660000103
为像素i所对应的mask属性的softmax输出,
N为最小外接矩形外框内的像素总数。
沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息,包括:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
将所述相接点信息输入小孔成像模型,得目标的距离信息,包括:
将接地点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
目标距离的计算公式为:
Figure GDA0002864473660000104
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
Figure GDA0002864473660000111
上述融合语义分割的单目测距方法步骤具体为:
1、使用语义分割寻找接地点。该步骤可以分拆为三个子功能,目标检测、路面分割及接地点搜索。对于目标检测和路面分割,本实施例具体提供了一种end-to-end(端到端)的网络结构同时进行目标检测和路面分割,同时实现了目标检测和路面分割功能。
(1)训练数据集准备阶段,标注训练样本图像每一个目标的boundingbox(最小外接矩形外框),以及图像中的路面区。加载数据时,对于单个目标,将boundingbox中的路面作为前景,其它区域作为背景。即输入设计网络的所述图像包含最小外接矩形标注以及矩形框内部的路面区标注。
(2)设计网络时,基础网络采用经典VGG16,在VGG16中添加一个mask分支。
其中,Ltotal为总的损失函数,定义为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu)
Lbox为boundingbox的损失函数,定义为:
Figure GDA0002864473660000112
其中,SmoothL1定义为:
Figure GDA0002864473660000113
Lmask为mask的损失函数,定义为:
Figure GDA0002864473660000114
其中,
Figure GDA0002864473660000115
为像素i所对应的mask属性的softmax输出。
通过上述网络结构及损失函数训练后,将待测图像输入,该网络可以输出待测图像目标的Boundingbox以及内部的局部Segmentation(即输出boundingbox内部的路面分割结果)。
该网络包括目标检测分支和mask分支,其中,
训练阶段,目标检测分支和mask分支为并行关系,基于标注数据,使用随机梯度下降法最小化损失函数,得到最终的检测模型。
检测阶段,目标检测分支和mask分支为串联关系,目标检测分支检测并输出目标的boundingbox,并作为mask分支的输入,由mask分支在该boundingbox内部生成路面的分割图像。
(3)对于待测图像的每一个目标,将Boundingbox内的Segmentation进行二值化,路面区域为背景,非路面区域为前景之后,在垂直方向进行投影,统计每一行前景像素的个数,之后自底向上进行搜索,找到第一个大于设定阈值threshold的坐标,该坐标即为目标的接地点。该阈值一般取boundingbox*0.1个像素。
2、使用小孔成像模型,将接地点作为基准点(假设Zw为0),可以得到实际距离。计算公式如下:
Figure GDA0002864473660000121
其中,M为R|T矩阵,A为相机内参,(u,v)为像素坐标系中的坐标,Xw,Yw分别为世界坐标系下坐标。可得到最终距离
Figure GDA0002864473660000122
本实施例提供一种融合语义分割的单目测距系统,包括:
目标检测承载区分割单元,配置用于:
将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
还配置用于:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
还配置用于:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
目标与承载区的相接点信息获取单元,配置用于:
根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
还配置用于:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
距离信息获取单元,配置用于将所述相接点信息输入小孔成像模型,得目标的距离信息。
当目标的承载区为路面区时。
目标标注区域图像中路面区为前景,其它区作为背景。
目标与承载区的相接点信息为目标接地点信息。
最小外接边框为最小外接矩形外框。
目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
Figure GDA0002864473660000141
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
Figure GDA0002864473660000142
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Figure GDA0002864473660000143
Lmask为mask的损失函数,定义为:
Figure GDA0002864473660000144
其中,
Si为像素i对应的真实的mask标签,
Figure GDA0002864473660000145
为像素i所对应的mask属性的softmax输出,
N为最小外接矩形外框内的像素总数。
目标与承载区的相接点信息获取单元,还配置用于:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
距离信息获取单元,还配置用于:
将接地点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
距离信息获取单元,还配置目标距离计算公式:
Figure GDA0002864473660000151
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
Figure GDA0002864473660000152
本实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。
本实施例还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现如上任一项所述的方法。
实施例二
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
本实施例提供了一种融合语义分割的单目测距方法,包括以下步骤:
S1、将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得。
将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练得所述检测模型,包括:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
对待测图像或训练样本图像进行目标检测,标注出目标,包括:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
S2、根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息。
根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
S3、将所述相接点信息输入小孔成像模型,得目标的距离信息。
最小外接边框为最小外接矩形外框。
S1中标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
Figure GDA0002864473660000161
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
Figure GDA0002864473660000171
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Figure GDA0002864473660000172
Lmask为mask的损失函数,定义为:
Figure GDA0002864473660000173
其中,
Si为像素i对应的真实的mask标签,
Figure GDA0002864473660000174
为像素i所对应的mask属性的softmax输出,
N为最小外接矩形外框内的像素总数。
将所述相接点信息输入小孔成像模型,得目标的距离信息,包括:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
目标距离的计算公式为:
Figure GDA0002864473660000175
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
Figure GDA0002864473660000181
上述融合语义分割的单目测距方法步骤具体为:
1、使用语义分割寻找接地点。该步骤可以分拆为三个子功能,目标检测、承载区分割及接地点搜索。对于目标检测和承载区分割,我们设计了一种end-to-end(端到端)的网络结构同时进行目标检测和承载区分割,同时实现了目标检测和承载区分割功能。
(1)训练数据集准备阶段,标注训练样本图像每一个目标的boundingbox(最小外接矩形外框),以及图像中的承载区。加载数据时,对于单个目标,将boundingbox中的承载区作为前景,其它区域作为背景。即输入设计网络的所述图像包含最小外接矩形标注以及矩形框内部的承载区标注。
(2)设计网络时,基础网络采用经典VGG16,在VGG16中添加一个mask分支。
其中,Ltotal为总的损失函数,定义为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu)
Lbox为boundingbox的损失函数,定义为:
Figure GDA0002864473660000182
其中,SmoothL1定义为:
Figure GDA0002864473660000183
Lmask为mask的损失函数,定义为:
Figure GDA0002864473660000184
其中,
Figure GDA0002864473660000185
为像素i所对应的mask属性的softmax输出。
通过上述网络结构及损失函数训练后,将待测图像输入,该网络可以输出待测图像目标的Boundingbox以及内部的局部Segmentation(即输出boundingbox内部的承载区分割结果)。
该网络包括目标检测分支和mask分支,其中,
训练阶段,目标检测分支和mask分支为并行关系,基于标注数据,使用随机梯度下降法最小化损失函数,得到最终的检测模型。
检测阶段,目标检测分支和mask分支为串联关系,目标检测分支检测并输出目标的boundingbox,并作为mask分支的输入,由mask分支在该boundingbox内部生成承载区的分割图像。
(3)对于待测图像的每一个目标,将Boundingbox内的Segmentation进行二值化,承载区为背景,非承载区为前景之后,在垂直方向进行投影,统计每一行前景像素的个数,之后自底向上进行搜索,找到第一个大于设定阈值threshold的坐标,该坐标即为目标的接地点。该阈值一般取boundingbox*0.1个像素。
2、使用小孔成像模型,将目标与承载区相接点作为基准点(假设Zw为0),可以得到实际距离。计算公式如下:
Figure GDA0002864473660000191
其中,M为R|T矩阵,A为相机内参,(u,v)为像素坐标系中的坐标,Xw,Yw分别为世界坐标系下坐标。可得到最终距离
Figure GDA0002864473660000192
本实施例提供一种融合语义分割的单目测距系统,包括:
目标检测承载区分割单元,配置用于:
将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
还配置用于:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
还配置用于:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
目标与承载区的相接点信息获取单元,配置用于:
根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
还配置用于:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
距离信息获取单元,配置用于将所述相接点信息输入小孔成像模型,得目标的距离信息。
最小外接边框为最小外接矩形外框。
目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
Figure GDA0002864473660000201
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
Figure GDA0002864473660000211
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Figure GDA0002864473660000212
Lmask为mask的损失函数,定义为:
Figure GDA0002864473660000213
其中,
Si为像素i对应的真实的mask标签,
Figure GDA0002864473660000214
为像素i所对应的mask属性的softmax输出,
N为最小外接矩形外框内的像素总数。
距离信息获取单元,还配置用于:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
距离信息获取单元,还配置目标距离计算公式:
Figure GDA0002864473660000215
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
Figure GDA0002864473660000221
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能。

Claims (18)

1.一种融合语义分割的单目测距方法,其特征是,包括以下步骤:
将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
将所述相接点信息输入小孔成像模型,得目标的距离信息。
2.根据权利要求1所述的融合语义分割的单目测距方法,其特征是,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练得所述检测模型,包括:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
3.根据权利要求1所述的融合语义分割的单目测距方法,其特征是,
根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
4.根据权利要求1所述的融合语义分割的单目测距方法,其特征是,对待测图像或训练样本图像进行目标检测,标注出目标,包括:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
5.根据权利要求1-4任一所述的融合语义分割的单目测距方法,其特征是,目标的承载区为路面区,目标标注区域图像中路面区为前景,其它区作为背景。
6.根据权利要求5所述的融合语义分割的单目测距方法,其特征是,标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、掩模所生成的损失所得。
7.根据权利要求5所述的融合语义分割的单目测距方法,其特征是,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息,包括:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
8.根据权利要求3或7所述的融合语义分割的单目测距方法,其特征是,将所述相接点信息输入小孔成像模型,得目标的距离信息,包括:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
9.一种融合语义分割的单目测距系统,其特征是,包括:
目标检测承载区分割单元,配置用于将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
目标与承载区的相接点信息获取单元,配置用于根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
距离信息获取单元,配置用于将所述相接点信息输入小孔成像模型,得目标的距离信息。
10.根据权利要求9所述的融合语义分割的单目测距系统,其特征是,目标检测承载区分割单元还配置用于:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
11.根据权利要求9所述的融合语义分割的单目测距系统,其特征是,
目标与承载区的相接点信息获取单元还配置用于:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
12.根据权利要求9所述的融合语义分割的单目测距系统,其特征是,目标检测承载区分割单元还配置用于:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
13.根据权利要求9-12任一所述的融合语义分割的单目测距系统,其特征是,目标的承载区为路面区,目标标注区域图像中路面区为前景,其它区作为背景。
14.根据权利要求13所述的融合语义分割的单目测距系统,其特征是,目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、掩模所生成的损失所得。
15.根据权利要求13所述的融合语义分割的单目测距系统,其特征是,目标与承载区的相接点信息获取单元,还配置用于:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
16.根据权利要求11或15所述的融合语义分割的单目测距系统,其特征是,距离信息获取单元,还配置用于:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
17.一种设备,其特征是,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-8中任一项所述的方法。
18.一种存储有计算机程序的计算机可读存储介质,其特征是,该程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
CN201810957944.6A 2018-08-22 2018-08-22 融合语义分割的单目测距系统、方法、设备及存储介质 Active CN109253722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810957944.6A CN109253722B (zh) 2018-08-22 2018-08-22 融合语义分割的单目测距系统、方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810957944.6A CN109253722B (zh) 2018-08-22 2018-08-22 融合语义分割的单目测距系统、方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109253722A CN109253722A (zh) 2019-01-22
CN109253722B true CN109253722B (zh) 2021-07-02

Family

ID=65049623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810957944.6A Active CN109253722B (zh) 2018-08-22 2018-08-22 融合语义分割的单目测距系统、方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109253722B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858486B (zh) * 2019-01-27 2019-10-25 中国人民解放军国防科技大学 一种基于深度学习的数据中心云端目标识别方法
CN110276317B (zh) * 2019-06-26 2022-02-22 Oppo广东移动通信有限公司 一种物体尺寸检测方法、物体尺寸检测装置及移动终端
CN110390314B (zh) * 2019-07-29 2022-02-15 深兰科技(上海)有限公司 一种视觉感知方法及设备
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN111260659A (zh) * 2020-01-13 2020-06-09 镇江优瞳智能科技有限公司 一种基于初始标注点指导的图像交互分割方法
CN112084864A (zh) * 2020-08-06 2020-12-15 中国科学院空天信息创新研究院 模型优化方法、装置、电子设备和存储介质
CN112084364A (zh) * 2020-09-11 2020-12-15 苏州科达科技股份有限公司 对象分析方法、局部图像搜索方法、设备及存储介质
CN112528974B (zh) * 2021-02-08 2021-05-14 成都睿沿科技有限公司 测距方法、装置、电子设备及可读存储介质
CN114018215B (zh) * 2022-01-04 2022-04-12 智道网联科技(北京)有限公司 基于语义分割的单目测距方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9488492B2 (en) * 2014-03-18 2016-11-08 Sri International Real-time system for multi-modal 3D geospatial mapping, object recognition, scene annotation and analytics
US9874878B2 (en) * 2014-07-22 2018-01-23 Sikorsky Aircraft Corporation System and method for adaptive multi-scale perception
CN106295139B (zh) * 2016-07-29 2019-04-02 汤一平 一种基于深度卷积神经网络的舌体自诊健康云服务系统
CN106709924B (zh) * 2016-11-18 2019-11-22 中国人民解放军信息工程大学 基于深度卷积神经网络和超像素的图像语义分割方法
CN107226087B (zh) * 2017-05-26 2019-03-26 西安电子科技大学 一种结构化道路自动驾驶运输车及控制方法

Also Published As

Publication number Publication date
CN109253722A (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN109253722B (zh) 融合语义分割的单目测距系统、方法、设备及存储介质
Koch et al. Evaluation of cnn-based single-image depth estimation methods
CN112734852B (zh) 一种机器人建图方法、装置及计算设备
Li et al. Automatic registration of panoramic image sequence and mobile laser scanning data using semantic features
CN108648194B (zh) 基于cad模型三维目标识别分割和位姿测量方法及装置
CN109035292B (zh) 基于深度学习的运动目标检测方法及装置
Rashidi et al. Innovative stereo vision-based approach to generate dense depth map of transportation infrastructure
CN108197604A (zh) 基于嵌入式设备的快速人脸定位跟踪方法
CN111192293A (zh) 一种运动目标位姿跟踪方法及装置
CN115376109B (zh) 障碍物检测方法、障碍物检测装置以及存储介质
CN106504274A (zh) 一种基于红外摄像头下的视觉跟踪方法及系统
CN112017243B (zh) 一种介质能见度识别方法
CN112634368A (zh) 场景目标的空间与或图模型生成方法、装置及电子设备
CA3232479A1 (en) Inspection method for inspecting an object and machine vision system
Deng et al. Binocular video-based 3D reconstruction and length quantification of cracks in concrete structures
CN110443228B (zh) 一种行人匹配方法、装置、电子设备及存储介质
CN112016558B (zh) 一种基于图像质量的介质能见度识别方法
CN117788790A (zh) 面向通用场景的物料安装检测方法、系统、设备及介质
CN116758006B (zh) 脚手架质量检测方法及装置
CN117237681A (zh) 图像处理方法、装置及相关设备
Li et al. Deep learning-based automatic monitoring method for grain quantity change in warehouse using semantic segmentation
CN114373144B (zh) 一种用于高速视频中圆形标识点的自动识别方法
CN115358529A (zh) 基于计算机视觉和模糊推理的施工安全评估方法
CN112014393B (zh) 一种基于目标视觉效果的介质能见度识别方法
Zhu et al. Toward the ghosting phenomenon in a stereo-based map with a collaborative RGB-D repair

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant