CN109253722B - 融合语义分割的单目测距系统、方法、设备及存储介质 - Google Patents
融合语义分割的单目测距系统、方法、设备及存储介质 Download PDFInfo
- Publication number
- CN109253722B CN109253722B CN201810957944.6A CN201810957944A CN109253722B CN 109253722 B CN109253722 B CN 109253722B CN 201810957944 A CN201810957944 A CN 201810957944A CN 109253722 B CN109253722 B CN 109253722B
- Authority
- CN
- China
- Prior art keywords
- target
- image
- area
- bearing area
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 86
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 103
- 238000001514 detection method Methods 0.000 claims abstract description 93
- 230000006870 function Effects 0.000 claims abstract description 74
- 238000002372 labelling Methods 0.000 claims abstract description 59
- 238000013528 artificial neural network Methods 0.000 claims abstract description 35
- 238000003384 imaging method Methods 0.000 claims abstract description 17
- 238000000691 measurement method Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims 1
- 238000005259 measurement Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 description 7
- 238000004091 panning Methods 0.000 description 6
- 238000005192 partition Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C11/00—Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
- G01C11/04—Interpretation of pictures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种融合语义分割的单目测距方法、系统及设备。接将待测图像输入检测模型进行目标检测,标注出待测图像的目标及承载区,并通过语义分割,输出目标标注区图像及承载区的分割结果,所述检测模型是将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;根据所述目标标注区图像及承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;将相接点信息输入小孔成像模型得目标的距离信息。创新性的采用基于深度学习的语义分割技术来寻找目标与承载区的相接点信息,融合语义分割技术定位,解决使用目标检测得到的外接边框无法准确贴合目标外轮廓的问题。
Description
技术领域
本发明涉及图像处理和视觉测量领域,尤其涉及一种融合语义分割的单目测距系统、方法、设备及存储介质。
背景技术
在视频监控应用场景中,测距是一种比较常见的需求。现有技术中,几乎所有的单目测距方法都是基于针孔成像模型的,通过先验知识对目标进行约束。例如目标在一个固定高度上(例如在地面上),或目标的高度或宽度是一个固定值,这样就能够通过模型计算出目标的真实距离。无论哪种方案,都存在着某一类缺陷。对于前者,待检测的目标的形态和姿态可能是不固定的,这会导致高度、宽度为固定值的先验性假设失效;对于后者,当地面不平坦时,固定高度的先验性假设也会失效。在视频监控领域,通常采用后者进行测距。其一,待测距的对象种类繁多,尺寸不固定,无法满足尺寸固定的假设;其二,对于实际的应用需求,往往对测距精度也有一定的容忍度,即使地面不平坦,产生的误差也还在可接受的范围内。
单目测距的流程如下:
1.采用目标检测的方法找到目标,该目标用boundingbox(最小外接矩形)进行表示
2.取目标的boundingbox的底边作为目标的接地点,基于该点利用小孔成像模型计算目标的距离。因此,测距的准确度取决于boundingbox的底边是否贴合目标,底边的位置产生偏差,也会导致测距产生偏差。
随着深度学习技术的兴起,目标检测的精度得到了很大的提升,相比于传统的机器学习方法,深度学习得到的检测目标的boundingbox(最小外接矩形)能够更好的贴合目标,即使是这样,boundingbox也常常会或大或小的偏离目标真实轮廓。这导致了测距的误差。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种融合语义分割的单目测距方法、系统及设备。
根据本发明的一个方面,提供了一种融合语义分割的单目测距方法,包括以下步骤:
将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
将所述相接点信息输入小孔成像模型,得目标的距离信息。
进一步,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练得所述检测模型,包括:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
进一步,根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
进一步,对待测图像或训练样本图像进行目标检测,标注出目标,包括:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
进一步,目标的承载区为路面区。
进一步,目标标注区域图像中路面区为前景,其它区作为背景。
进一步,目标与承载区的相接点信息为目标接地点信息。
进一步,最小外接边框为最小外接矩形外框。
标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、掩模所生成的损失所得。
进一步,标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Lmask为mask的损失函数,定义为:
其中,
Si为像素i对应的真实的mask标签,
N为最小外接矩形外框内的像素总数。
进一步,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息,包括:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
进一步,将所述相接点信息输入小孔成像模型,得目标的距离信息,包括:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
进一步,目标距离的计算公式为:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
根据本发明的另一个方面,提供了一种融合语义分割的单目测距系统,包括:
目标检测承载区分割单元,配置用于将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
目标与承载区的相接点信息获取单元,配置用于根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
距离信息获取单元,配置用于将所述相接点信息输入小孔成像模型,得目标的距离信息。
进一步,目标检测承载区分割单元还配置用于:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
进一步,目标与承载区的相接点信息获取单元还配置用于:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
进一步,目标检测承载区分割单元还配置用于:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
进一步,目标的承载区为路面区。
进一步,目标标注区域图像中路面区为前景,其它区作为背景。
进一步,目标与承载区的相接点信息为目标接地点信息。
进一步,最小外接边框为最小外接矩形外框。
进一步,目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、掩模所生成的损失所得。
进一步,目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Lmask为mask的损失函数,定义为:
其中,
Si为像素i对应的真实的mask标签,
N为最小外接矩形外框内的像素总数。
进一步,目标与承载区的相接点信息获取单元,还配置用于:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
进一步,距离信息获取单元,还配置用于:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
进一步,距离信息获取单元,还配置目标距离计算公式:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
根据本发明的另一个方面,提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。
根据本发明的另一个方面,提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现如上任一项所述的方法。
与现有技术相比,本发明具有以下有益效果:
1、本发明示例的融合语义分割的单目测距方法,创新性的采用基于深度学习的语义分割技术来寻找目标与承载区的相接点信息,融合语义分割技术定位,解决使用目标检测得到的外接边框无法准确贴合目标外轮廓的问题,相比于仅通过包含区域的最小矩形或其他基于图像处理的方法,精度更高,鲁棒性更强,从而使最终获取的目标实际距离精确。
2、本发明示例的融合语义分割的单目测距系统,各个单元相互配合,通过融合语义分割技术定位目标与承载区的相接点,精确获取目标的实际距离。
3、本发明示例的登录异常检测设备、通过存储有计算机程序的计算机可读介质,创新性的采用基于深度学习的语义分割技术来寻找目标与承载区的相接点信息,融合语义分割技术定位,解决使用目标检测得到的外接边框无法准确贴合目标外轮廓的问题,精确获取目标实际距离。
附图说明
图1为本发明流程图。
具体实施方式
为了更好的了解本发明的技术方案,下面结合具体实施例、说明书附图对本发明作进一步说明。
实施例一:
本实施例提供了一种融合语义分割的单目测距方法,包括以下步骤:
S1、将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得。
将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练得所述检测模型,包括:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
对待测图像或训练样本图像进行目标检测,标注出目标,包括:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
S2、根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息。
根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
S3、将所述相接点信息输入小孔成像模型,得目标的距离信息。
上述目标的承载区为路面区。
目标标注区域图像中路面区为前景,其它区作为背景。
目标与承载区的相接点信息为目标接地点信息。
最小外接边框为最小外接矩形外框。
S1中标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、mask(掩模)所生成的损失所得。
标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Lmask为mask的损失函数,定义为:
其中,
Si为像素i对应的真实的mask标签,
N为最小外接矩形外框内的像素总数。
沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息,包括:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
将所述相接点信息输入小孔成像模型,得目标的距离信息,包括:
将接地点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
目标距离的计算公式为:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
上述融合语义分割的单目测距方法步骤具体为:
1、使用语义分割寻找接地点。该步骤可以分拆为三个子功能,目标检测、路面分割及接地点搜索。对于目标检测和路面分割,本实施例具体提供了一种end-to-end(端到端)的网络结构同时进行目标检测和路面分割,同时实现了目标检测和路面分割功能。
(1)训练数据集准备阶段,标注训练样本图像每一个目标的boundingbox(最小外接矩形外框),以及图像中的路面区。加载数据时,对于单个目标,将boundingbox中的路面作为前景,其它区域作为背景。即输入设计网络的所述图像包含最小外接矩形标注以及矩形框内部的路面区标注。
(2)设计网络时,基础网络采用经典VGG16,在VGG16中添加一个mask分支。
其中,Ltotal为总的损失函数,定义为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu)
Lbox为boundingbox的损失函数,定义为:
其中,SmoothL1定义为:
Lmask为mask的损失函数,定义为:
通过上述网络结构及损失函数训练后,将待测图像输入,该网络可以输出待测图像目标的Boundingbox以及内部的局部Segmentation(即输出boundingbox内部的路面分割结果)。
该网络包括目标检测分支和mask分支,其中,
训练阶段,目标检测分支和mask分支为并行关系,基于标注数据,使用随机梯度下降法最小化损失函数,得到最终的检测模型。
检测阶段,目标检测分支和mask分支为串联关系,目标检测分支检测并输出目标的boundingbox,并作为mask分支的输入,由mask分支在该boundingbox内部生成路面的分割图像。
(3)对于待测图像的每一个目标,将Boundingbox内的Segmentation进行二值化,路面区域为背景,非路面区域为前景之后,在垂直方向进行投影,统计每一行前景像素的个数,之后自底向上进行搜索,找到第一个大于设定阈值threshold的坐标,该坐标即为目标的接地点。该阈值一般取boundingbox*0.1个像素。
2、使用小孔成像模型,将接地点作为基准点(假设Zw为0),可以得到实际距离。计算公式如下:
本实施例提供一种融合语义分割的单目测距系统,包括:
目标检测承载区分割单元,配置用于:
将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
还配置用于:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
还配置用于:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
目标与承载区的相接点信息获取单元,配置用于:
根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
还配置用于:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
距离信息获取单元,配置用于将所述相接点信息输入小孔成像模型,得目标的距离信息。
当目标的承载区为路面区时。
目标标注区域图像中路面区为前景,其它区作为背景。
目标与承载区的相接点信息为目标接地点信息。
最小外接边框为最小外接矩形外框。
目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Lmask为mask的损失函数,定义为:
其中,
Si为像素i对应的真实的mask标签,
N为最小外接矩形外框内的像素总数。
目标与承载区的相接点信息获取单元,还配置用于:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
距离信息获取单元,还配置用于:
将接地点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
距离信息获取单元,还配置目标距离计算公式:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
本实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。
本实施例还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现如上任一项所述的方法。
实施例二
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
本实施例提供了一种融合语义分割的单目测距方法,包括以下步骤:
S1、将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得。
将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练得所述检测模型,包括:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
对待测图像或训练样本图像进行目标检测,标注出目标,包括:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
S2、根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息。
根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
S3、将所述相接点信息输入小孔成像模型,得目标的距离信息。
最小外接边框为最小外接矩形外框。
S1中标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Lmask为mask的损失函数,定义为:
其中,
Si为像素i对应的真实的mask标签,
N为最小外接矩形外框内的像素总数。
将所述相接点信息输入小孔成像模型,得目标的距离信息,包括:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
目标距离的计算公式为:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
上述融合语义分割的单目测距方法步骤具体为:
1、使用语义分割寻找接地点。该步骤可以分拆为三个子功能,目标检测、承载区分割及接地点搜索。对于目标检测和承载区分割,我们设计了一种end-to-end(端到端)的网络结构同时进行目标检测和承载区分割,同时实现了目标检测和承载区分割功能。
(1)训练数据集准备阶段,标注训练样本图像每一个目标的boundingbox(最小外接矩形外框),以及图像中的承载区。加载数据时,对于单个目标,将boundingbox中的承载区作为前景,其它区域作为背景。即输入设计网络的所述图像包含最小外接矩形标注以及矩形框内部的承载区标注。
(2)设计网络时,基础网络采用经典VGG16,在VGG16中添加一个mask分支。
其中,Ltotal为总的损失函数,定义为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu)
Lbox为boundingbox的损失函数,定义为:
其中,SmoothL1定义为:
Lmask为mask的损失函数,定义为:
通过上述网络结构及损失函数训练后,将待测图像输入,该网络可以输出待测图像目标的Boundingbox以及内部的局部Segmentation(即输出boundingbox内部的承载区分割结果)。
该网络包括目标检测分支和mask分支,其中,
训练阶段,目标检测分支和mask分支为并行关系,基于标注数据,使用随机梯度下降法最小化损失函数,得到最终的检测模型。
检测阶段,目标检测分支和mask分支为串联关系,目标检测分支检测并输出目标的boundingbox,并作为mask分支的输入,由mask分支在该boundingbox内部生成承载区的分割图像。
(3)对于待测图像的每一个目标,将Boundingbox内的Segmentation进行二值化,承载区为背景,非承载区为前景之后,在垂直方向进行投影,统计每一行前景像素的个数,之后自底向上进行搜索,找到第一个大于设定阈值threshold的坐标,该坐标即为目标的接地点。该阈值一般取boundingbox*0.1个像素。
2、使用小孔成像模型,将目标与承载区相接点作为基准点(假设Zw为0),可以得到实际距离。计算公式如下:
本实施例提供一种融合语义分割的单目测距系统,包括:
目标检测承载区分割单元,配置用于:
将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
还配置用于:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
还配置用于:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
目标与承载区的相接点信息获取单元,配置用于:
根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
还配置用于:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
距离信息获取单元,配置用于将所述相接点信息输入小孔成像模型,得目标的距离信息。
最小外接边框为最小外接矩形外框。
目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Lmask为mask的损失函数,定义为:
其中,
Si为像素i对应的真实的mask标签,
N为最小外接矩形外框内的像素总数。
距离信息获取单元,还配置用于:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
距离信息获取单元,还配置目标距离计算公式:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能。
Claims (18)
1.一种融合语义分割的单目测距方法,其特征是,包括以下步骤:
将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
将所述相接点信息输入小孔成像模型,得目标的距离信息。
2.根据权利要求1所述的融合语义分割的单目测距方法,其特征是,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练得所述检测模型,包括:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
3.根据权利要求1所述的融合语义分割的单目测距方法,其特征是,
根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
4.根据权利要求1所述的融合语义分割的单目测距方法,其特征是,对待测图像或训练样本图像进行目标检测,标注出目标,包括:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
5.根据权利要求1-4任一所述的融合语义分割的单目测距方法,其特征是,目标的承载区为路面区,目标标注区域图像中路面区为前景,其它区作为背景。
6.根据权利要求5所述的融合语义分割的单目测距方法,其特征是,标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、掩模所生成的损失所得。
7.根据权利要求5所述的融合语义分割的单目测距方法,其特征是,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息,包括:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
8.根据权利要求3或7所述的融合语义分割的单目测距方法,其特征是,将所述相接点信息输入小孔成像模型,得目标的距离信息,包括:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
9.一种融合语义分割的单目测距系统,其特征是,包括:
目标检测承载区分割单元,配置用于将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
目标与承载区的相接点信息获取单元,配置用于根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
距离信息获取单元,配置用于将所述相接点信息输入小孔成像模型,得目标的距离信息。
10.根据权利要求9所述的融合语义分割的单目测距系统,其特征是,目标检测承载区分割单元还配置用于:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
11.根据权利要求9所述的融合语义分割的单目测距系统,其特征是,
目标与承载区的相接点信息获取单元还配置用于:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
12.根据权利要求9所述的融合语义分割的单目测距系统,其特征是,目标检测承载区分割单元还配置用于:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
13.根据权利要求9-12任一所述的融合语义分割的单目测距系统,其特征是,目标的承载区为路面区,目标标注区域图像中路面区为前景,其它区作为背景。
14.根据权利要求13所述的融合语义分割的单目测距系统,其特征是,目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、掩模所生成的损失所得。
15.根据权利要求13所述的融合语义分割的单目测距系统,其特征是,目标与承载区的相接点信息获取单元,还配置用于:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
16.根据权利要求11或15所述的融合语义分割的单目测距系统,其特征是,距离信息获取单元,还配置用于:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
17.一种设备,其特征是,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-8中任一项所述的方法。
18.一种存储有计算机程序的计算机可读存储介质,其特征是,该程序被处理器执行时实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810957944.6A CN109253722B (zh) | 2018-08-22 | 2018-08-22 | 融合语义分割的单目测距系统、方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810957944.6A CN109253722B (zh) | 2018-08-22 | 2018-08-22 | 融合语义分割的单目测距系统、方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109253722A CN109253722A (zh) | 2019-01-22 |
CN109253722B true CN109253722B (zh) | 2021-07-02 |
Family
ID=65049623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810957944.6A Active CN109253722B (zh) | 2018-08-22 | 2018-08-22 | 融合语义分割的单目测距系统、方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109253722B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109858486B (zh) * | 2019-01-27 | 2019-10-25 | 中国人民解放军国防科技大学 | 一种基于深度学习的数据中心云端目标识别方法 |
CN110276317B (zh) * | 2019-06-26 | 2022-02-22 | Oppo广东移动通信有限公司 | 一种物体尺寸检测方法、物体尺寸检测装置及移动终端 |
CN110390314B (zh) * | 2019-07-29 | 2022-02-15 | 深兰科技(上海)有限公司 | 一种视觉感知方法及设备 |
CN110674807A (zh) * | 2019-08-06 | 2020-01-10 | 中国科学院信息工程研究所 | 一种基于半监督与弱监督学习的曲形场景文字检测方法 |
CN111260659A (zh) * | 2020-01-13 | 2020-06-09 | 镇江优瞳智能科技有限公司 | 一种基于初始标注点指导的图像交互分割方法 |
CN112084864A (zh) * | 2020-08-06 | 2020-12-15 | 中国科学院空天信息创新研究院 | 模型优化方法、装置、电子设备和存储介质 |
CN112084364A (zh) * | 2020-09-11 | 2020-12-15 | 苏州科达科技股份有限公司 | 对象分析方法、局部图像搜索方法、设备及存储介质 |
CN112528974B (zh) * | 2021-02-08 | 2021-05-14 | 成都睿沿科技有限公司 | 测距方法、装置、电子设备及可读存储介质 |
CN114018215B (zh) * | 2022-01-04 | 2022-04-12 | 智道网联科技(北京)有限公司 | 基于语义分割的单目测距方法、装置、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9488492B2 (en) * | 2014-03-18 | 2016-11-08 | Sri International | Real-time system for multi-modal 3D geospatial mapping, object recognition, scene annotation and analytics |
US9874878B2 (en) * | 2014-07-22 | 2018-01-23 | Sikorsky Aircraft Corporation | System and method for adaptive multi-scale perception |
CN106295139B (zh) * | 2016-07-29 | 2019-04-02 | 汤一平 | 一种基于深度卷积神经网络的舌体自诊健康云服务系统 |
CN106709924B (zh) * | 2016-11-18 | 2019-11-22 | 中国人民解放军信息工程大学 | 基于深度卷积神经网络和超像素的图像语义分割方法 |
CN107226087B (zh) * | 2017-05-26 | 2019-03-26 | 西安电子科技大学 | 一种结构化道路自动驾驶运输车及控制方法 |
-
2018
- 2018-08-22 CN CN201810957944.6A patent/CN109253722B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109253722A (zh) | 2019-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109253722B (zh) | 融合语义分割的单目测距系统、方法、设备及存储介质 | |
Koch et al. | Evaluation of cnn-based single-image depth estimation methods | |
CN112734852B (zh) | 一种机器人建图方法、装置及计算设备 | |
Li et al. | Automatic registration of panoramic image sequence and mobile laser scanning data using semantic features | |
CN108648194B (zh) | 基于cad模型三维目标识别分割和位姿测量方法及装置 | |
CN109035292B (zh) | 基于深度学习的运动目标检测方法及装置 | |
Rashidi et al. | Innovative stereo vision-based approach to generate dense depth map of transportation infrastructure | |
CN108197604A (zh) | 基于嵌入式设备的快速人脸定位跟踪方法 | |
CN111192293A (zh) | 一种运动目标位姿跟踪方法及装置 | |
CN115376109B (zh) | 障碍物检测方法、障碍物检测装置以及存储介质 | |
CN106504274A (zh) | 一种基于红外摄像头下的视觉跟踪方法及系统 | |
CN112017243B (zh) | 一种介质能见度识别方法 | |
CN112634368A (zh) | 场景目标的空间与或图模型生成方法、装置及电子设备 | |
CA3232479A1 (en) | Inspection method for inspecting an object and machine vision system | |
Deng et al. | Binocular video-based 3D reconstruction and length quantification of cracks in concrete structures | |
CN110443228B (zh) | 一种行人匹配方法、装置、电子设备及存储介质 | |
CN112016558B (zh) | 一种基于图像质量的介质能见度识别方法 | |
CN117788790A (zh) | 面向通用场景的物料安装检测方法、系统、设备及介质 | |
CN116758006B (zh) | 脚手架质量检测方法及装置 | |
CN117237681A (zh) | 图像处理方法、装置及相关设备 | |
Li et al. | Deep learning-based automatic monitoring method for grain quantity change in warehouse using semantic segmentation | |
CN114373144B (zh) | 一种用于高速视频中圆形标识点的自动识别方法 | |
CN115358529A (zh) | 基于计算机视觉和模糊推理的施工安全评估方法 | |
CN112014393B (zh) | 一种基于目标视觉效果的介质能见度识别方法 | |
Zhu et al. | Toward the ghosting phenomenon in a stereo-based map with a collaborative RGB-D repair |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |