CN109253722A - 融合语义分割的单目测距系统、方法、设备及存储介质 - Google Patents

融合语义分割的单目测距系统、方法、设备及存储介质 Download PDF

Info

Publication number
CN109253722A
CN109253722A CN201810957944.6A CN201810957944A CN109253722A CN 109253722 A CN109253722 A CN 109253722A CN 201810957944 A CN201810957944 A CN 201810957944A CN 109253722 A CN109253722 A CN 109253722A
Authority
CN
China
Prior art keywords
target
supporting region
image
phase contact
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810957944.6A
Other languages
English (en)
Other versions
CN109253722B (zh
Inventor
胡志恒
宋翔
杨小平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SF Technology Co Ltd
SF Tech Co Ltd
Original Assignee
SF Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SF Technology Co Ltd filed Critical SF Technology Co Ltd
Priority to CN201810957944.6A priority Critical patent/CN109253722B/zh
Publication of CN109253722A publication Critical patent/CN109253722A/zh
Application granted granted Critical
Publication of CN109253722B publication Critical patent/CN109253722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • G01C11/04Interpretation of pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Abstract

本发明涉及一种融合语义分割的单目测距方法、系统及设备。接将待测图像输入检测模型进行目标检测,标注出待测图像的目标及承载区,并通过语义分割,输出目标标注区图像及承载区的分割结果,所述检测模型是将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;根据所述目标标注区图像及承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;将相接点信息输入小孔成像模型得目标的距离信息。创新性的采用基于深度学习的语义分割技术来寻找目标与承载区的相接点信息,融合语义分割技术定位,解决使用目标检测得到的外接边框无法准确贴合目标外轮廓的问题。

Description

融合语义分割的单目测距系统、方法、设备及存储介质
技术领域
本发明涉及图像处理和视觉测量领域,尤其涉及一种融合语义分割的单目测距系统、方法、设备及存储介质。
背景技术
在视频监控应用场景中,测距是一种比较常见的需求。现有技术中,几乎所有的单目测距方法都是基于针孔成像模型的,通过先验知识对目标进行约束。例如目标在一个固定高度上(例如在地面上),或目标的高度或宽度是一个固定值,这样就能够通过模型计算出目标的真实距离。无论哪种方案,都存在着某一类缺陷。对于前者,待检测的目标的形态和姿态可能是不固定的,这会导致高度、宽度为固定值的先验性假设失效;对于后者,当地面不平坦时,固定高度的先验性假设也会失效。在视频监控领域,通常采用后者进行测距。其一,待测距的对象种类繁多,尺寸不固定,无法满足尺寸固定的假设;其二,对于实际的应用需求,往往对测距精度也有一定的容忍度,即使地面不平坦,产生的误差也还在可接受的范围内。
单目测距的流程如下:
1.采用目标检测的方法找到目标,该目标用boundingbox(最小外接矩形)进行表示
2.取目标的boundingbox的底边作为目标的接地点,基于该点利用小孔成像模型计算目标的距离。因此,测距的准确度取决于boundingbox的底边是否贴合目标,底边的位置产生偏差,也会导致测距产生偏差。
随着深度学习技术的兴起,目标检测的精度得到了很大的提升,相比于传统的机器学习方法,深度学习得到的检测目标的boundingbox(最小外接矩形)能够更好的贴合目标,即使是这样,boundingbox也常常会或大或小的偏离目标真实轮廓。这导致了测距的误差。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种融合语义分割的单目测距方法、系统及设备。
根据本发明的一个方面,提供了一种融合语义分割的单目测距方法,包括以下步骤:
将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
将所述相接点信息输入小孔成像模型,得目标的距离信息。
进一步,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练得所述检测模型,包括:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
进一步,根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
进一步,对待测图像或训练样本图像进行目标检测,标注出目标,包括:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
进一步,目标的承载区为路面区。
进一步,目标标注区域图像中路面区为前景,其它区作为背景。
进一步,目标与承载区的相接点信息为目标接地点信息。
进一步,最小外接边框为最小外接矩形外框。
标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
进一步,标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Lmask为mask的损失函数,定义为:
其中,
Si为像素i对应的真实的mask标签,
为像素i所对应的mask属性的softmax输出,
N为最小外接矩形外框内的像素总数。
进一步,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息,包括:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
进一步,将所述相接点信息输入小孔成像模型,得目标的距离信息,包括:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
进一步,目标距离的计算公式为:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
根据本发明的另一个方面,提供了一种融合语义分割的单目测距系统,包括:
目标检测承载区分割单元,配置用于将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
目标与承载区的相接点信息获取单元,配置用于根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
距离信息获取单元,配置用于将所述相接点信息输入小孔成像模型,得目标的距离信息。
进一步,目标检测承载区分割单元还配置用于:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
进一步,目标与承载区的相接点信息获取单元还配置用于:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
进一步,目标检测承载区分割单元还配置用于:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
进一步,目标的承载区为路面区。
进一步,目标标注区域图像中路面区为前景,其它区作为背景。
进一步,目标与承载区的相接点信息为目标接地点信息。
进一步,最小外接边框为最小外接矩形外框。
进一步,目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
进一步,目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Lmask为mask的损失函数,定义为:
其中,
Si为像素i对应的真实的mask标签,
为像素i所对应的mask属性的softmax输出,
N为最小外接矩形外框内的像素总数。
进一步,目标与承载区的相接点信息获取单元,还配置用于:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
进一步,距离信息获取单元,还配置用于:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
进一步,距离信息获取单元,还配置目标距离计算公式:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
根据本发明的另一个方面,提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。
根据本发明的另一个方面,提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现如上任一项所述的方法。
与现有技术相比,本发明具有以下有益效果:
1、本发明示例的融合语义分割的单目测距方法,创新性的采用基于深度学习的语义分割技术来寻找目标与承载区的相接点信息,融合语义分割技术定位,解决使用目标检测得到的外接边框无法准确贴合目标外轮廓的问题,相比于仅通过包含区域的最小矩形或其他基于图像处理的方法,精度更高,鲁棒性更强,从而使最终获取的目标实际距离精确。
2、本发明示例的融合语义分割的单目测距系统,各个单元相互配合,通过融合语义分割技术定位目标与承载区的相接点,精确获取目标的实际距离。
3、本发明示例的登录异常检测设备、通过存储有计算机程序的计算机可读介质,创新性的采用基于深度学习的语义分割技术来寻找目标与承载区的相接点信息,融合语义分割技术定位,解决使用目标检测得到的外接边框无法准确贴合目标外轮廓的问题,精确获取目标实际距离。
附图说明
图1为本发明流程图。
具体实施方式
为了更好的了解本发明的技术方案,下面结合具体实施例、说明书附图对本发明作进一步说明。
实施例一:
本实施例提供了一种融合语义分割的单目测距方法,包括以下步骤:
S1、将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得。
将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练得所述检测模型,包括:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
对待测图像或训练样本图像进行目标检测,标注出目标,包括:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
S2、根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息。
根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
S3、将所述相接点信息输入小孔成像模型,得目标的距离信息。
上述目标的承载区为路面区。
目标标注区域图像中路面区为前景,其它区作为背景。
目标与承载区的相接点信息为目标接地点信息。
最小外接边框为最小外接矩形外框。
S1中标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Lmask为mask的损失函数,定义为:
其中,
Si为像素i对应的真实的mask标签,
为像素i所对应的mask属性的softmax输出,
N为最小外接矩形外框内的像素总数。
沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息,包括:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
将所述相接点信息输入小孔成像模型,得目标的距离信息,包括:
将接地点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
目标距离的计算公式为:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
上述融合语义分割的单目测距方法步骤具体为:
1、使用语义分割寻找接地点。该步骤可以分拆为三个子功能,目标检测、路面分割及接地点搜索。对于目标检测和路面分割,本实施例具体提供了一种end-to-end(端到端)的网络结构同时进行目标检测和路面分割,同时实现了目标检测和路面分割功能。
(1)训练数据集准备阶段,标注训练样本图像每一个目标的boundingbox(最小外接矩形外框),以及图像中的路面区。加载数据时,对于单个目标,将boundingbox中的路面作为前景,其它区域作为背景。即输入设计网络的所述图像包含最小外接矩形标注以及矩形框内部的路面区标注。
(2)设计网络时,基础网络采用经典VGG16,在VGG16中添加一个mask分支。
其中,Ltotal为总的损失函数,定义为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu)
Lbox为boundingbox的损失函数,定义为:
其中,SmoothL1定义为:
Lmask为mask的损失函数,定义为:
其中,为像素i所对应的mask属性的softmax输出。
通过上述网络结构及损失函数训练后,将待测图像输入,该网络可以输出待测图像目标的Boundingbox以及内部的局部Segmentation(即输出boundingbox内部的路面分割结果)。
该网络包括目标检测分支和mask分支,其中,
训练阶段,目标检测分支和mask分支为并行关系,基于标注数据,使用随机梯度下降法最小化损失函数,得到最终的检测模型。
检测阶段,目标检测分支和mask分支为串联关系,目标检测分支检测并输出目标的boundingbox,并作为mask分支的输入,由mask分支在该boundingbox内部生成路面的分割图像。
(3)对于待测图像的每一个目标,将Boundingbox内的Segmentation进行二值化,路面区域为背景,非路面区域为前景之后,在垂直方向进行投影,统计每一行前景像素的个数,之后自底向上进行搜索,找到第一个大于设定阈值threshold的坐标,该坐标即为目标的接地点。该阈值一般取boundingbox*0.1个像素。
2、使用小孔成像模型,将接地点作为基准点(假设Zw为0),可以得到实际距离。计算公式如下:
其中,M为R|T矩阵,A为相机内参,(u,v)为像素坐标系中的坐标,Xw,Yw分别为世界坐标系下坐标。可得到最终距离
本实施例提供一种融合语义分割的单目测距系统,包括:
目标检测承载区分割单元,配置用于:
将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
还配置用于:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
还配置用于:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
目标与承载区的相接点信息获取单元,配置用于:
根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
还配置用于:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
距离信息获取单元,配置用于将所述相接点信息输入小孔成像模型,得目标的距离信息。
当目标的承载区为路面区时。
目标标注区域图像中路面区为前景,其它区作为背景。
目标与承载区的相接点信息为目标接地点信息。
最小外接边框为最小外接矩形外框。
目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Lmask为mask的损失函数,定义为:
其中,
Si为像素i对应的真实的mask标签,
为像素i所对应的mask属性的softmax输出,
N为最小外接矩形外框内的像素总数。
目标与承载区的相接点信息获取单元,还配置用于:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
距离信息获取单元,还配置用于:
将接地点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
距离信息获取单元,还配置目标距离计算公式:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
本实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上任一项所述的方法。
本实施例还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现如上任一项所述的方法。
实施例二
本实施例与实施例一相同的特征不再赘述,本实施例与实施例一不同的特征在于:
本实施例提供了一种融合语义分割的单目测距方法,包括以下步骤:
S1、将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得。
将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练得所述检测模型,包括:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
对待测图像或训练样本图像进行目标检测,标注出目标,包括:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
S2、根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息。
根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
S3、将所述相接点信息输入小孔成像模型,得目标的距离信息。
最小外接边框为最小外接矩形外框。
S1中标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Lmask为mask的损失函数,定义为:
其中,
Si为像素i对应的真实的mask标签,
为像素i所对应的mask属性的softmax输出,
N为最小外接矩形外框内的像素总数。
将所述相接点信息输入小孔成像模型,得目标的距离信息,包括:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
目标距离的计算公式为:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
上述融合语义分割的单目测距方法步骤具体为:
1、使用语义分割寻找接地点。该步骤可以分拆为三个子功能,目标检测、承载区分割及接地点搜索。对于目标检测和承载区分割,我们设计了一种end-to-end(端到端)的网络结构同时进行目标检测和承载区分割,同时实现了目标检测和承载区分割功能。
(1)训练数据集准备阶段,标注训练样本图像每一个目标的boundingbox(最小外接矩形外框),以及图像中的承载区。加载数据时,对于单个目标,将boundingbox中的承载区作为前景,其它区域作为背景。即输入设计网络的所述图像包含最小外接矩形标注以及矩形框内部的承载区标注。
(2)设计网络时,基础网络采用经典VGG16,在VGG16中添加一个mask分支。
其中,Ltotal为总的损失函数,定义为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu)
Lbox为boundingbox的损失函数,定义为:
其中,SmoothL1定义为:
Lmask为mask的损失函数,定义为:
其中,为像素i所对应的mask属性的softmax输出。
通过上述网络结构及损失函数训练后,将待测图像输入,该网络可以输出待测图像目标的Boundingbox以及内部的局部Segmentation(即输出boundingbox内部的承载区分割结果)。
该网络包括目标检测分支和mask分支,其中,
训练阶段,目标检测分支和mask分支为并行关系,基于标注数据,使用随机梯度下降法最小化损失函数,得到最终的检测模型。
检测阶段,目标检测分支和mask分支为串联关系,目标检测分支检测并输出目标的boundingbox,并作为mask分支的输入,由mask分支在该boundingbox内部生成承载区的分割图像。
(3)对于待测图像的每一个目标,将Boundingbox内的Segmentation进行二值化,承载区为背景,非承载区为前景之后,在垂直方向进行投影,统计每一行前景像素的个数,之后自底向上进行搜索,找到第一个大于设定阈值threshold的坐标,该坐标即为目标的接地点。该阈值一般取boundingbox*0.1个像素。
2、使用小孔成像模型,将目标与承载区相接点作为基准点(假设Zw为0),可以得到实际距离。计算公式如下:
其中,M为R|T矩阵,A为相机内参,(u,v)为像素坐标系中的坐标,Xw,Yw分别为世界坐标系下坐标。可得到最终距离
本实施例提供一种融合语义分割的单目测距系统,包括:
目标检测承载区分割单元,配置用于:
将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
还配置用于:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
还配置用于:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
目标与承载区的相接点信息获取单元,配置用于:
根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
还配置用于:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
距离信息获取单元,配置用于将所述相接点信息输入小孔成像模型,得目标的距离信息。
最小外接边框为最小外接矩形外框。
目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数Ltotal为:
Ltotal=Lcls+Lbox+Lmask
Lcls为目标分类的损失函数,定义为:
Lcls(p,u)=log(pu),
其中,
u为目标的真实类别,
p为目标真实类别所对应的目标概率,
pu为目标被预测为u类的概率,
Lbox为最小外接矩形外框的损失函数,定义为:
其中,
tu为预测最小外接矩形外框的平移缩放参数,
u为索引号,
v为对应的真实最小外接矩形外框的平移缩放参数,
v=(vx,vy,vw,vh),
SmoothL1为鲁棒的损失函数,定义为:
Lmask为mask的损失函数,定义为:
其中,
Si为像素i对应的真实的mask标签,
为像素i所对应的mask属性的softmax输出,
N为最小外接矩形外框内的像素总数。
距离信息获取单元,还配置用于:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
距离信息获取单元,还配置目标距离计算公式:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能。

Claims (20)

1.一种融合语义分割的单目测距方法,其特征是,包括以下步骤:
将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
将所述相接点信息输入小孔成像模型,得目标的距离信息。
2.根据权利要求1所述的融合语义分割的单目测距方法,其特征是,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练得所述检测模型,包括:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
3.根据权利要求1所述的融合语义分割的单目测距方法,其特征是,
根据目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息包括:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
4.根据权利要求1所述的融合语义分割的单目测距方法,其特征是,对待测图像或训练样本图像进行目标检测,标注出目标,包括:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
5.根据权利要求1-4任一所述的融合语义分割的单目测距方法,其特征是,目标的承载区为路面区,目标标注区域图像中路面区为前景,其它区作为背景。
6.根据权利要求5所述的融合语义分割的单目测距方法,其特征是,标注后的训练样本图像输入至预制的神经网络训练时所基于的损失函数根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
7.根据权利要求5所述的融合语义分割的单目测距方法,其特征是,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息,包括:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
8.根据权利要求3或7所述的融合语义分割的单目测距方法,其特征是,将所述相接点信息输入小孔成像模型,得目标的距离信息,包括:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
9.根据权利要求8所述的融合语义分割的单目测距方法,其特征是,目标距离的计算公式为:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
10.一种融合语义分割的单目测距系统,其特征是,包括:
目标检测承载区分割单元,配置用于将待测图像输入检测模型进行目标检测,标注出待测图像的目标及目标的承载区,并通过语义分割,输出待测图像的目标标注区图像及目标标注区图像中承载区的分割结果,所述检测模型是对训练样本图像进行目标检测,标注出训练样本图像的目标及目标的承载区,将标注后的训练样本图像输入至预制的神经网络,基于损失函数训练所得;
目标与承载区的相接点信息获取单元,配置用于根据所述目标标注区图像及目标标注区图像中承载区的分割结果统计承载区的像素信息,将承载区像素信息与预设位置阈值比对得出目标与承载区的相接点信息;
距离信息获取单元,配置用于将所述相接点信息输入小孔成像模型,得目标的距离信息。
11.根据权利要求10所述的融合语义分割的单目测距系统,其特征是,目标检测承载区分割单元还配置用于:
将标注后的训练样本图像输入至预制的神经网络,基于最小化损失函数训练得所述检测模型。
12.根据权利要求10所述的融合语义分割的单目测距系统,其特征是,
目标与承载区的相接点信息获取单元还配置用于:
对目标标注区图像进行二值化处理,二值化处理后的目标标注区图像中承载区为背景,其他区为前景;
沿二值化处理后的目标标注区图像的垂直方向投影,统计所述目标标注区图像中承载区各行像素的个数,与预设位置阈值比对,沿承载区至目标方向首个超过所述预设位置阈值的点即为目标与承载区的相接点,并获取目标与承载区的相接点信息。
13.根据权利要求10所述的融合语义分割的单目测距系统,其特征是,目标检测承载区分割单元还配置用于:
找出所述图像中的所有的目标,并用最小外接边框标注出所述目标。
14.根据权利要求10-13任一所述的融合语义分割的单目测距系统,其特征是,目标的承载区为路面区,目标标注区域图像中路面区为前景,其它区作为背景。
15.根据权利要求14所述的融合语义分割的单目测距系统,其特征是,目标检测承载区分割单元中输入至预制的神经网络的标注后的训练样本图像在训练时所基于的损失函数是根据训练期间针对目标分类、最小外接矩形外框、mask所生成的损失所得。
16.根据权利要求14所述的融合语义分割的单目测距系统,其特征是,目标与承载区的相接点信息获取单元,还配置用于:
沿路面区至目标方向首个超过所述预设位置阈值的点即为目标与路面区的相接点,并获取目标与路面区的接地点信息。
17.根据权利要求12或16所述的融合语义分割的单目测距系统,其特征是,距离信息获取单元,还配置用于:
将目标与承载区的相接点作为基准点;
根据R|T矩阵、相机内参、目标像素、目标坐标信息的预设关系得出目标的距离。
18.根据权利要求17所述的融合语义分割的单目测距系统,其特征是,距离信息获取单元,还配置目标距离计算公式:
其中,
M为R|T矩阵,
A为相机内参,
(u,v)为像素坐标系中的坐标,
Xw,Yw分别为世界坐标系下坐标,
可得到最终距离
19.一种设备,其特征是,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1-9中任一项所述的方法。
20.一种存储有计算机程序的计算机可读存储介质,其特征是,该程序被处理器执行时实现如权利要求1-9中任一项所述的方法。
CN201810957944.6A 2018-08-22 2018-08-22 融合语义分割的单目测距系统、方法、设备及存储介质 Active CN109253722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810957944.6A CN109253722B (zh) 2018-08-22 2018-08-22 融合语义分割的单目测距系统、方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810957944.6A CN109253722B (zh) 2018-08-22 2018-08-22 融合语义分割的单目测距系统、方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109253722A true CN109253722A (zh) 2019-01-22
CN109253722B CN109253722B (zh) 2021-07-02

Family

ID=65049623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810957944.6A Active CN109253722B (zh) 2018-08-22 2018-08-22 融合语义分割的单目测距系统、方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109253722B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858486A (zh) * 2019-01-27 2019-06-07 中国人民解放军国防科技大学 一种基于深度学习的数据中心云端目标识别方法
CN110276317A (zh) * 2019-06-26 2019-09-24 Oppo广东移动通信有限公司 一种物体尺寸检测方法、物体尺寸检测装置及移动终端
CN110390314A (zh) * 2019-07-29 2019-10-29 深兰科技(上海)有限公司 一种视觉感知方法及设备
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN111260659A (zh) * 2020-01-13 2020-06-09 镇江优瞳智能科技有限公司 一种基于初始标注点指导的图像交互分割方法
CN112084864A (zh) * 2020-08-06 2020-12-15 中国科学院空天信息创新研究院 模型优化方法、装置、电子设备和存储介质
CN112084364A (zh) * 2020-09-11 2020-12-15 苏州科达科技股份有限公司 对象分析方法、局部图像搜索方法、设备及存储介质
CN112528974A (zh) * 2021-02-08 2021-03-19 成都睿沿科技有限公司 测距方法、装置、电子设备及可读存储介质
CN114018215A (zh) * 2022-01-04 2022-02-08 智道网联科技(北京)有限公司 基于语义分割的单目测距方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150268058A1 (en) * 2014-03-18 2015-09-24 Sri International Real-time system for multi-modal 3d geospatial mapping, object recognition, scene annotation and analytics
CN106295139A (zh) * 2016-07-29 2017-01-04 姹ゅ钩 一种基于深度卷积神经网络的舌体自诊健康云服务系统
US20170075359A1 (en) * 2014-07-22 2017-03-16 Sikorsky Aircraft Corporation System and method for adaptive multi-scale perception
CN106709924A (zh) * 2016-11-18 2017-05-24 中国人民解放军信息工程大学 基于深度卷积神经网络和超像素的图像语义分割方法
CN107226087A (zh) * 2017-05-26 2017-10-03 西安电子科技大学 一种结构化道路自动驾驶运输车及控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150268058A1 (en) * 2014-03-18 2015-09-24 Sri International Real-time system for multi-modal 3d geospatial mapping, object recognition, scene annotation and analytics
US20170075359A1 (en) * 2014-07-22 2017-03-16 Sikorsky Aircraft Corporation System and method for adaptive multi-scale perception
CN106295139A (zh) * 2016-07-29 2017-01-04 姹ゅ钩 一种基于深度卷积神经网络的舌体自诊健康云服务系统
CN106709924A (zh) * 2016-11-18 2017-05-24 中国人民解放军信息工程大学 基于深度卷积神经网络和超像素的图像语义分割方法
CN107226087A (zh) * 2017-05-26 2017-10-03 西安电子科技大学 一种结构化道路自动驾驶运输车及控制方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858486A (zh) * 2019-01-27 2019-06-07 中国人民解放军国防科技大学 一种基于深度学习的数据中心云端目标识别方法
CN110276317A (zh) * 2019-06-26 2019-09-24 Oppo广东移动通信有限公司 一种物体尺寸检测方法、物体尺寸检测装置及移动终端
CN110276317B (zh) * 2019-06-26 2022-02-22 Oppo广东移动通信有限公司 一种物体尺寸检测方法、物体尺寸检测装置及移动终端
CN110390314A (zh) * 2019-07-29 2019-10-29 深兰科技(上海)有限公司 一种视觉感知方法及设备
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN111260659A (zh) * 2020-01-13 2020-06-09 镇江优瞳智能科技有限公司 一种基于初始标注点指导的图像交互分割方法
CN112084864A (zh) * 2020-08-06 2020-12-15 中国科学院空天信息创新研究院 模型优化方法、装置、电子设备和存储介质
CN112084364A (zh) * 2020-09-11 2020-12-15 苏州科达科技股份有限公司 对象分析方法、局部图像搜索方法、设备及存储介质
CN112528974A (zh) * 2021-02-08 2021-03-19 成都睿沿科技有限公司 测距方法、装置、电子设备及可读存储介质
CN112528974B (zh) * 2021-02-08 2021-05-14 成都睿沿科技有限公司 测距方法、装置、电子设备及可读存储介质
CN114018215A (zh) * 2022-01-04 2022-02-08 智道网联科技(北京)有限公司 基于语义分割的单目测距方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109253722B (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN109253722A (zh) 融合语义分割的单目测距系统、方法、设备及存储介质
Koch et al. Evaluation of cnn-based single-image depth estimation methods
CN112734852B (zh) 一种机器人建图方法、装置及计算设备
CN108197604A (zh) 基于嵌入式设备的快速人脸定位跟踪方法
CN105844621A (zh) 一种印刷品质量检测方法
CN109284674A (zh) 一种确定车道线的方法及装置
CN109035292A (zh) 基于深度学习的运动目标检测方法及装置
CN110008947A (zh) 一种基于卷积神经网络的粮仓粮食数量监测方法及装置
CN112946679B (zh) 一种基于人工智能的无人机测绘果冻效应检测方法及系统
CN114089330B (zh) 一种基于深度图像修复的室内移动机器人玻璃检测与地图更新方法
CN111209822A (zh) 一种热红外图像的人脸检测方法
CN106504274A (zh) 一种基于红外摄像头下的视觉跟踪方法及系统
CN114091620B (zh) 一种模板匹配检测方法、计算机设备及存储介质
CN103852034A (zh) 一种电梯导轨垂直度检测方法
CN108154513A (zh) 基于双光子成像数据的细胞自动探测和分割方法
Sun et al. Geographic, geometrical and semantic reconstruction of urban scene from high resolution oblique aerial images.
CN113237633B (zh) 一种基于图像处理的光电平台稳定精度检测的方法
CN112699748B (zh) 基于yolo及rgb图像的人车距离估计方法
Motayyeb et al. Fusion of UAV-based infrared and visible images for thermal leakage map generation of building facades
CN106558069A (zh) 一种基于视频监控下的目标跟踪方法及系统
CN112304512A (zh) 一种基于人工智能的多工件场景气密性检测方法及系统
CN112017243A (zh) 一种介质能见度识别方法
CN112016558A (zh) 一种基于图像质量的介质能见度识别方法
US20230138821A1 (en) Inspection method for inspecting an object and machine vision system
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant