CN111553252B - 一种基于深度学习及u-v视差算法的道路行人自动识别定位方法 - Google Patents
一种基于深度学习及u-v视差算法的道路行人自动识别定位方法 Download PDFInfo
- Publication number
- CN111553252B CN111553252B CN202010336272.4A CN202010336272A CN111553252B CN 111553252 B CN111553252 B CN 111553252B CN 202010336272 A CN202010336272 A CN 202010336272A CN 111553252 B CN111553252 B CN 111553252B
- Authority
- CN
- China
- Prior art keywords
- parallax
- pedestrian
- road
- image
- disparity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种基于深度学习及U‑V视差算法的道路行人自动识别定位方法,通过双目道路智能感知系统采集道路前景双目图像,采用RetinaNet深度学习算法训练目标行人识别模型;基于深度学习识别结果,采用半全局块匹配(Semi‑Global Block Matching,SGBM)算法实现行人道路前景双目图像的视差计算;基于计算得出的视差图,分别统计U‑V方向的视差值,根据双目立体相机成像原理获得目标行人的三维坐标,最终实现道路行人的定位。本发明可以实现道路行人的检测,辅助驾驶员对行驶车辆前方的行人距离判断,提高驾驶车辆在交通环境下的行驶安全性。
Description
技术领域
本发明涉及自动驾驶交通安全技术领域,特别是一种基于深度学习及U-V视差算法的道路行人自动识别定位方法。
背景技术
目前,国内外对于障碍物检测研究可以分为基于单目视觉和基于双目视觉的障碍物检测方法:单目视觉方法主要是采用颜色、形状、纹理等特征进行图像分割或边缘检测,并利用相关先验知识实现检测,该类方法在特定和简单的行车条件下可以取得较好的效果,但不适于复杂背景和多障碍物的情况;另外一类是采用单目视觉通过图像序列特征点的匹配与跟踪,运用运动估计得到深度信息检测障碍物,但该类方法中图像序列特征点的提取、匹配、跟踪以及场景的投影重建相对困难,且存在较大计算量,不利于实时性。双目视觉具有与人类视觉系统的感知过程类似的特点,检测过程中获取的信息量大,且较易获取场景的深度信息,通过标定双目摄像机和相应的坐标变换,对获取的三维信息采用构建车前环境的图像,并通过边缘提取来最终检测障碍物。
近年来,研究者将双目视觉中U-V视差的提取用于障碍物的研究,其基本原理主要是通过获取U-V视差图像将原图像中的二维平面信息转化为线段的检测,通过最小二乘法或Hough变换等直线提取方法提取道路相关线段,进一步实现障碍物检测,该类方法计算简单,有利于实时性,且在大多道路环境下的检测中获得了良好的效果。但在道路信息相对较少的场景,传统U-V视差算法存在如下缺点:
(1)V-视差分析时,使用Hough变换提取道路相关线,容易受到噪声和阈值的影响,精度较低,需要复杂的试验确定模型参数,有时会提取失败,进而导致整个算法失效。
(2)U-视差分析时,由于同一个障碍物存在微小的视差变化,使用Hough变换提取相关线会形成直线簇,难以确定障碍物具体位置。
综上所述,现有的道路障碍物检测方法存在一定的局限性。主要问题是对于复杂背景以及多障碍物特征提取困难,噪声影响严重导致算法失效,在复杂的道路交通环境泛化能力不够。
发明内容
有鉴于此,本发明的目的是提供一种基于深度学习及U-V视差算法的道路行人自动识别定位方法,能够实现道路行人的定位。
本发明采用以下方案实现:一种基于深度学习及U-V视差算法的道路行人自动识别定位方法,包括以下步骤:
步骤S1:利用双目道路智能感知系统采集道路行人前景双目图像;
步骤S2:基于RetinaNet算法训练道路行人识别模型;
步骤S3:提供测试集,基于步骤S2中训练的行人识别模型,识别测试集中道路前景左图像中目标行人,以获取检测边界框的坐标信息;
步骤S4:基于SGBM立体匹配算法完成双目图像的立体匹配,计算左右图像视差值,从而获得视差图;
步骤S5:结合步骤S3得到的道路行人识别结果图和视差图,仅保留检测框内的视差值,剔除检测框以外的无关视差,获得改进视差图;
步骤S6:对步骤S5中改进的视差图,统计U-V方向上的视差值,获得U-视差图和V-视差图,基于U-V视差图获取目标行人的坐标定位视差,根据双目立体视觉成像原理计算得到目标行人的三维坐标。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:建立数据库:采用双目道路智能感知系统采集城市道路及城郊公路数据,经过初步数据筛选,去除无效图像数据即图像模糊或图像中未出现行人的图像数据,数据集共包含有效图像14500张,图像分辨率为2208×1242;并通过人工标注数据样本,生成行人标签信息;
步骤S22:模型训练:将数据库样本导入RetinaNet网络进行模型训练,设置迭代次数为100,每轮训练步数为24,学习率设为0.0001;训练结束,统计每轮迭代的损失值以及验证信息,最后保存损失值最小和验证准确率最高的权重模型作为道路行人识别模型。
进一步地,步骤S3中所述获取道路行人检测框坐标信息的具体内容为:利用训练获得的行人识别模型,对测试集中道路前景左图像进行行人目标识别,用以获取目标行人识别检测框像素坐标信息。
进一步地,所述步骤S4具体包括以下步骤:
步骤S41:对道路前景左图像采用水平Sobel算子进行初步除噪处理,如公式(1);并通过Birchfield和Tomasi的方法(简称BT方法),如公式(2)计算左右图像的BT代价值;
式中,P表示像素值,对于一个匹配序列M,其代价函数γ(M)表示匹配结果不准确的程度,其值越小越好,kocc表示未匹配的惩罚项(constantocclusionpenalty),kr表示匹配的奖励项,Nocc和Nm分别表示未匹配和匹配的点数,d(xi,yi)是像素间的视差;
步骤S42:对步骤S41计算获得的BT代价值进行代价聚合,逐像素遍历BT代价值,计算各方向上当前像素点处的路径代价,如公式(3);各个方向总聚合代价取代当前BT代价值,如公式(4);
式中,Lr(p,d)为当前像素点p的路径代价,C(p,d)为当前代价值即BT代价,Lr(p-r,d)为r方向上p的路径代价,P1为视差值为1的像素的惩罚系数;P2为视差值大于1的像素的惩罚系数,S(p,d)总聚合代价;
步骤S43:聚合代价对BT代价进行优化,利用半全局匹配代价聚合算法(Semi-GlobalMatching,SGM),并根据赢家通吃(Winner-Take-All,WTA)选出代价最小的视差值,以获得使能量函数E(D)最小的视差图D,见公式(5);即
式中,D为视差图(disparitymap);E(D)为该视差图对应的能量函数;Np为像素点p的相邻像素点(一般认为8连通);C(p,Dp)为像素点p视差为Dp的代价值;T[.]为返回函数,若函数中的参数为真则返回1,否则返回0;
步骤S44:通过置信度检测以剔除错误的视差值,并利用亚像素插值进行视差空洞补充,最后采用左右一致性消除左右遮挡带来的视差错误;
步骤S45:受交通道路复杂环境干扰,视差图存在噪声,采取中值滤波对视差图进一步除噪处理,以得到效果最佳的视差图,具体见公式(6);
A为5×5的滤波窗口;Med{}为中值滤波函数;dij为第i行,第j列的视差值。进一步地,所述步骤S5具体包括以下步骤:
步骤S51:基于步骤S3行人识别结果,确定目标行人矩形检测框坐标信息;基于步骤S4,得到道路前景行人图像对应的视差图;结合识别结果和视差图,在矩形检测框范围内遍历所有的视差值,找到最大视差值dmax见公式(7),用以减小检测框位置不准确和视差噪声对提取行人视差的影响,通过公式(8)-(11)确定dmax计算的相关参数;
dmax=max(△nm(δij)),(i∈(y1,y2),j∈(x1,x2)) (7)
δij=dmax,(i∈(y1,y2),j∈(x1,x2)) (8)
n=y2-y1+1 (9)
m=x2-x1+1 (10)
式中,(x1,y1)为目标行人矩形检测框左上角顶点在图像中的坐标;(x2,y2)为目标行人矩形检测框右下角顶点在图像中的坐标;δij为原视差图第i行,第j列的视差值;Δnm为与检测框尺寸一致的视差值矩阵;
步骤S52:提取检测框内的最大视差值替换检测框内的其他像素,检测框范围以外的视差值全部赋值为0,由此获得改进视差图,用于后续的U-V视差统计,用以确定目标行人的位置。进一步地,所述步骤S6具体包括以下步骤:
步骤S61:获取行人检测框在图像中的坐标信息,通过公式(12)-(13)定义行人在图像中的坐标信息;
yL=y2 (13)
式中,(xL,yL)为行人在图像中的坐标;
步骤S62:在V视差图上根据yL值获取行人y轴方向的视差值dy;同时,在U-视差图上根据xL值获取行人x轴方向的视差值dx;利用公式(14)对dy、dx取均值,获得目标行人的定位视差dp;
式中,dp为目标行人的定位视差;dx为行人x轴方向的视差值dx;dy为行人y轴方向的视差值;
步骤S63:利用公式(15)获得目标行人到相机成像平面的距离ZW;并根据ZW计算目标行人的世界坐标,见公式(16)、(17);
式中,ZW为目标行人到相机成像平面的距离;(XW,YW,ZW)为目标行人的世界坐标。
与现有技术相比,本发明具有以下有益效果:
本发明可以实现道路行人位置的检测,辅助驾驶员对行驶车辆前方的行人距离判断,提高驾驶车辆在交通环境下的行驶安全性。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例的采集设备结构图,其中图2(a)为设备样机,图2(b)为采集界面。
图3为本发明实施例的RetinaNet网络结构图。
图4为本发明实施例的立体匹配结合识别模型统计U-V视差示例图,其中图4(a)为立体匹配计算视差,图4(b)为基于识别结果改进的视差图,图4(c)为统计U-V视差图。
图5为本发明实施例的视差算法改进示例图,其中图5(a)为视差算法改进前的图像,图5(b)为视差算法改进后的图像。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在本实例中,总体技术方案如下:
(1)基于RetinaNet算法的道路行人自动识别
本实例采用在目标检测精度和检测速度上达到较佳协调的RetinaNet算法。图3为RetinaNet算法的网络结构,其以深度残差网络(ResNet)作为特征提取网络,采用FPN形成多尺度特征,以强化包含多尺度目标信息的特征网络,并在特征网络上分别使用两个结构相同但不同参数的FCN子网络实现目标框类别分类和bbox位置回归任务,并利用focalloss损失函数来解决“类别不平衡”问题,以达到更好的检测精度;由于采集城市道路及城郊公路数据,训练库包含不同的路况环境,道路行人的背景丰富多样,使得模型有较高的召回率,能较好的识别不同交通环境下的行人,泛化能力较好。
(2)基于深度学习模型结合SGBM立体匹配算法改进对道路前景双目图像的视差计算
本实例利用SGBM算法完成双目图像的立体匹配,从而计算左右图像视差,如图4(a);并基于利用RetinaNet算法进行行人识别,获取行人识别检测框的位置信息;结合行人识别结果和视差图,如图4(b),保留目标行人识别检测框范围内的视差,检测框以外的视差赋值为零;考虑到检测框位置不精准以及噪声对计算视差的影响,进一步改进视差图,在检测框范围内遍历所有像素对应的视差值,找到最大视差值,将检测框内的最大视差值替换检测框内其他像素的视差,以填补检测框范围内的视差空洞,并将检测框范围以外的视差值赋值为0,剔除无关视差的干扰,以提高行人定位的准确性。
(3)基于U-V视差统计实现道路行人定位
本实例对改进后的视差图统计U-V方向的视差图,并由识别结果获取行人在图像中的坐标信息;在U-V视差图上根据图像坐标信息获取目标行人的对应横向和纵向两个方向上的视差值,如图4(c),两者取均值获得目标行人的定位视差;根据双目立体视觉原理,计算得到目标行人三维坐标。
如图1所示,本实施例提供一种基于深度学习及U-V视差算法的道路行人自动识别定位方法,包括以下步骤:
步骤S1:利用双目道路智能感知系统采集道路行人前景双目图像;如图1所示;
步骤S2:基于RetinaNet算法训练道路行人识别模型;
步骤S3:提供测试集,基于步骤S2中训练的行人识别模型,识别测试集中道路前景左图像中目标行人,以获取检测边界框的坐标信息;
步骤S4:基于SGBM立体匹配算法完成双目图像的立体匹配,计算左右图像视差值,从而获得视差图;
步骤S5:结合步骤S3得到的道路行人识别结果图和视差图,仅保留检测框内的视差值,剔除检测框以外的无关视差,获得改进视差图;
步骤S6:对步骤S5中改进的视差图,统计U-V方向上的视差值,获得U-视差图和V-视差图,基于U-V视差图获取目标行人的坐标定位视差,根据双目立体视觉成像原理计算得到目标行人的三维坐标。
在本实施例中,具体实施方式如下:
(1)设备参数及工作原理
为采集道路前景高清图像,精准定位识别目标物,本实例采用自主开发的双目道路智能感知系统采集道路行人前景图像。该设备由双目相机、GPS,以及惯性测量单元组成,设备外观见图2(a)。设备可通过强力吸盘安装于车顶,通过惯性测量单元自动定位双目相机三轴方向的姿态角,同时GPS可实现亚米级定位,并通过距离控制相机的数据采集频率。设备的采集界面见图2(b),通过双目视觉可实现道路前景景深图像的实时显示。
(2)基于RetinaNet算法的道路行人自动识别
A)RetinaNet算法框架
本实例采用RetinaNet算法实现目标行人的识别,图3为RetinaNet算法的网络结构,其以深度残差网络(ResNet)作为特征提取网络,采用FPN形成多尺度特征,以强化包含多尺度目标信息的特征网络,并在特征网络上分别使用两个结构相同但不同参数的FCN子网络实现目标框类别分类和bbox位置回归任务,其利用focalloss损失函数来解决“类别不平衡”问题,以达到更好的检测精度。
B)行人识别模型训练库构建
本实例采集城市道路及城郊公路数据,总计里程20公里。经过初步数据筛选,去除无效图像数据(图像模糊或图像中未出现行人),数据集共包含有效图像14500张,图像分辨率为2208×1242;并通过人工标注数据样本,生成行人标签信息,构建行人识别训练库。
C)模型训练
搭建行人样本数据库,将样本训练集和验证集输入RetinaNet网络进行识别模型训练和验证。迭代次数100次,每轮训练步数为24,学习率为0.0001。结果显示,第79迭代损失达到最小值,因此实验优先选择第79次迭代训练得到的权重构建行人识别模型。
(3)基于深度学习模型结合SGBM立体匹配算法改进对道路前景双目图像的视差计算
a.识别道路目标行人
本实例中训练好的模型,能够自动识别出道路前景图像中的目标行人。由识别结果获取检测框的坐标信息,由此确定道路前景图像中目标行人可能出现的范围。
b.基于SGBM算法的双目图像立体匹配
基于双目立体视觉相机拍摄双目图像,利用SGBM立体匹配算法计算左右双目图像视差值,获得视差图。
步骤1:对道路前景左图像进行水平方向的滤波除噪,本实例采用水平Sobel算子对左图像进行初步处理,公式(1);并通过Birchfield和Tomasi的方法(简称BT方法),如公式(2)计算左右图像的BT代价值;
式中,P表示像素值,对于一个匹配序列M,其代价函数γ(M)表示匹配结果不准确的程度,其值越小越好,kocc表示未匹配的惩罚项(constant occlusion penalty),kr表示匹配的奖励项,Nocc和Nm分别表示未匹配和匹配的点数,d(xi,yi)是像素间的视差;
步骤2:对步骤S41计算获得的BT代价值进行代价聚合,逐像素遍历BT代价值,计算各方向上当前像素点处的路径代价,如公式(3);各个方向总聚合代价取代当前BT代价值,如公式(4);
式中,Lr(p,d)为当前像素点p的路径代价,C(p,d)为当前代价值即BT代价,Lr(p-r,d)为r方向上p的路径代价,P1为视差值为1的像素的惩罚系数;P2为视差值大于1的像素的惩罚系数,S(p,d)总聚合代价;
步骤3:聚合代价对BT代价进行优化,利用半全局匹配代价聚合算法(Semi-GlobalMatching,SGM),并根据赢家通吃(Winner-Take-All,WTA)选出代价最小的视差值,以获得使能量函数E(D)最小的视差图D,见公式(5);
式中,D为视差图(disparity map);E(D)为该视差图对应的能量函数;Np为像素点p的相邻像素点(一般认为8连通);C(p,Dp)为像素点p视差为Dp的代价值;T[.]为返回函数,若函数中的参数为真则返回1,否则返回0;
步骤4:通过置信度检测以剔除错误的视差值,并利用亚像素插值进行视差空洞补充,本实例采用抛物线插值,即当前像素视差值以及其左右视差值拟合抛物线,选取抛物线极值作为插值填补视差空洞;最后采用左右一致性消除左右遮挡带来的视差错误;
步骤5:受交通道路复杂环境干扰,视差图存在噪声,采取中值滤波对视差图进行初步除噪处理,以得到效果最佳的视差图,具体见公式(6);
A为5×5的滤波窗口;Med{}为中值滤波函数;dij为第i行,第j列的视差值。
c.基于识别结果视差图改进算法
本实例针对行人识别检测框的位置不精准,加之复杂道路环境对SGBM双目立体匹配计算视差影响的问题如图5(a)所示,视差空洞以及噪声视差干扰行人视差的提取,提出了视差改进算法。
步骤1:基于行人识别结果,确定目标行人矩形检测框坐标信息,结合行人前景图像对应得到的视差图,在矩形检测框范围内遍历所有的视差值,找到最大视差值dmax见公式(7),用以减小检测框位置不准确以及视差噪声对提取行人视差的影响,通过公式(8)-(11)确定dmax计算的相关参数;
dmax=max(△nm(δij)),(i∈(y1,y2),j∈(x1,x2)) (7)
δij=dmax,(i∈y1,y2),j∈(x1,x2)) (8)
n=y2-y1+1 (9)
m=x2-x1+1 (10)
式中,(x1,y1)为目标行人矩形检测框左上角顶点在图像中的坐标;(x2,y2)为目标行人矩形检测框右下角顶点在图像中的坐标;δij为原视差图第i行,第j列的视差值;Δnm为与检测框尺寸一致的视差值矩阵;
步骤2:提取检测框内的最大视差值替换检测框内的其他像素,检测框范围以外的视差值全部赋值为0,由此获得改进视差图;如图5(b),最大视差值不仅填补了检测边界框内的空洞,还凸显了行人视差并扩大至整个检测框范围,检测框以外视差赋值为零,使目标行人与背景视差对比更加明显,使得后续的U-V方向视差统计结果更加准确,如图4(c),用以确定目标行人的位置。
(4)基于U-V视差统计实现道路行人定位
a.基于U-V算法的双目图像视差计算
基于改进视差图统计U-V方向的视差,具体算法公式如(12)-(13):
Dmax=max(Du,v(dij)),(i∈(0,u),j∈(0,v)) (11)
式中,Du,v(dij)是尺寸为u行v列的视差图,dij为视差值,uj,d是第j列视差值为d的像素个数,vi,d是第i行视差值为d的像素个数。
b.目标行人世界坐标获取
步骤1:获取行人检测框在图像中的坐标信息,通过公式(14)-(15)定义行人在图像中的坐标信息。
yL=y2 (15)
式中,(x1,y1)为目标行人矩形检测框左上角顶点在图像中的坐标;(x2,y2)为目标行人矩形检测框右下角顶点在图像中的坐标;(xL,yL)为行人在图像中的坐标。
步骤2:在V视差图上根据yL值获取行人y轴方向的视差值dy;同时,在U-视差图上根据xL值获取行人x轴方向的视差值dx。利用公式(15)对dy、dx取均值,获得目标行人的定位视差dp。
式中,dp为目标行人的定位视差;dx为行人x轴方向的视差值dx;dy为行人y轴方向的视差值。
步骤3:利用公式(16)获得目标行人到相机成像平面的距离ZW;并根据ZW计算目标行人的世界坐标,见公式(17)、(18)。
式中,ZW为目标行人到相机成像平面的距离;(XW,YWZW)为目标行人的世界坐标。
较佳的,本实例结合双目道路智能感知系统,提出了一种可以自动化、高效、准确检测道路行人的方法。该方法可以自动识别以及定位道路行人。基于自动地道路行人检测,该方法可以被应用于智能车辆的前方行人检测中去。
同时,本实例充分考虑到交通道路环境复杂对识别模型鲁棒性的影响的实情。本实例有针对性的建立道路交通实景的模型训练数据库,数据库的多样性使得行人识别模型的泛化能力较强。
特别的,本实例针对复杂道路交通环境下立体匹配计算视差存在噪声影响严重,难以统计U-V视差,导致提取道路行人视差困难的实情。本实例提出结合深度学习方法和U-V视差算法实现道路行人自动识别定位方法。具体方法如下:通过双目道路智能感知系统采集道路行人前景双目图像,采用RetinaNet深度学习算法训练目标行人识别模型;采用SGBM立体匹配算法实现行人道路前景双目图像的视差计算;结合深度学习识别结果和视差图改进视差图,首先,保留行人识别检测框范围内的视差,检测框范围以外的视差赋值为零,最大程度剔除检测框以外的背景视差;针对行人识别检测框的位置不精准以及检测框内噪声对提取行人视差影响的问题,本实例对视差图进一步改进:在目标行人矩形检测框范围内遍历所有的视差值,找到最大视差值,进而赋值给检测框内的其他像素,由此填补检测框范围内的视差空洞和以及剔除检测框内不属于行人的视差,以获得效果更佳的视差图。
本实例基于改进的视差图统计U-V方向视差值,以获得U-V视差图;由行人在图像中的坐标信息,对应U-V视差图的横纵两个方向的视差值,取均值利用两个方向约束获得更加精准的行人定位视差;根据双目立体成像原理计算目标行人三维坐标,实现道路行人的定位。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (4)
1.一种基于深度学习及U-V视差算法的道路行人自动识别定位方法,其特征在于:包括以下步骤:
步骤S1:利用双目道路智能感知系统采集道路行人前景双目图像;
步骤S2:基于RetinaNet算法训练道路行人识别模型;
步骤S3:提供测试集,基于步骤S2中训练的行人识别模型,识别测试集中道路前景左图像中目标行人,以获取检测边界框的坐标信息;
步骤S4:基于SGBM立体匹配算法完成双目图像的立体匹配,计算左右图像视差值,从而获得视差图;
步骤S5:结合步骤S3得到的道路行人识别结果图和视差图,仅保留检测框内的视差值,剔除检测框以外的无关视差,获得改进视差图;
步骤S6:对步骤S5中改进的视差图,统计U-V方向上的视差值,获得U-视差图和V-视差图,基于U-V视差图获取目标行人的坐标定位视差,根据双目立体视觉成像原理计算得到目标行人的三维坐标;
所述步骤S2具体包括以下步骤:
步骤S21:建立数据库:采用双目道路智能感知系统采集城市道路及城郊公路数据,经过初步数据筛选,去除无效图像数据即图像模糊或图像中未出现行人的图像数据,数据集共包含有效图像14500张,图像分辨率为2208×1242;并通过人工标注数据样本,生成行人标签信息;
步骤S22:模型训练:将数据库样本导入RetinaNet网络进行模型训练,设置迭代次数为100,每轮训练步数为24,学习率设为0.0001;训练结束,统计每轮迭代的损失值以及验证信息,最后保存损失值最小和验证准确率最高的权重模型作为道路行人识别模型;
所述步骤S4具体包括以下步骤:
步骤S41:对道路前景左图像采用水平Sobel算子进行初步除噪处理,如公式(1);并通过Birchfield和Tomasi的方法,如公式(2)计算左右图像的BT代价值;
式中,P表示像素值,对于一个匹配序列M,其代价函数γ(M)表示匹配结果不准确的程度,其值越小越好,kocc表示未匹配的惩罚项,kr表示匹配的奖励项,Nocc和Nm分别表示未匹配和匹配的点数,d(xi,yi)是像素间的视差;
步骤S42:对步骤S41计算获得的BT代价值进行代价聚合,逐像素遍历BT代价值,计算各方向上当前像素点处的路径代价,如公式(3);各个方向总聚合代价取代当前BT代价值,如公式(4);
式中,Lr(p,d)为当前像素点p的路径代价,C(p,d)为当前代价值即BT代价,Lr(p-r,d)为r方向上p的路径代价,P1为视差值为1的像素的惩罚系数;P2为视差值大于1的像素的惩罚系数,S(p,d)总聚合代价;
步骤S43:聚合代价对BT代价进行优化,利用半全局匹配代价聚合算法,并根据赢家通吃选出代价最小的视差值,以获得使能量函数E(D)最小的视差图D,见公式(5);即
式中,D为视差图;E(D)为该视差图对应的能量函数;Np为像素点p的相邻像素点;C(p,Dp)为像素点p视差为Dp的代价值;T[.]为返回函数,若函数中的参数为真则返回1,否则返回0;
步骤S44:通过置信度检测以剔除错误的视差值,并利用亚像素插值进行视差空洞补充,最后采用左右一致性消除左右遮挡带来的视差错误;
步骤S45:受交通道路复杂环境干扰,视差图存在噪声,采取中值滤波对视差图进一步除噪处理,以得到效果最佳的视差图,具体见公式(6);
A为5×5的滤波窗口;Med{}为中值滤波函数;dij为第i行,第j列的视差值;
2.根据权利要求1所述的一种基于深度学习及U-V视差算法的道路行人自动识别定位方法,其特征在于:步骤S3中获取道路行人检测框坐标信息的具体内容为:利用训练获得的行人识别模型,对测试集中道路前景左图像进行行人目标识别,用以获取目标行人识别检测框像素坐标信息。
3.根据权利要求1所述的一种基于深度学习及U-V视差算法的道路行人自动识别定位方法,其特征在于:所述步骤S5具体包括以下步骤:
步骤S51:基于步骤S3行人识别结果,确定目标行人矩形检测框坐标信息;基于步骤S4,得到道路前景行人图像对应的视差图;结合识别结果和视差图,在矩形检测框的范围内遍历所有的视差值,找到最大视差值dmax见公式(7),用以减小检测框位置不准确以及视差噪声对提取目标行人视差的影响,通过公式(8)-(11)确定dmax计算的相关参数;
dmax=max(△nm(δij)),(i∈(y1,y2),j∈(x1,x2)) (7)
δij=dmax,(i∈(y1,y2),j∈(x1,x2)) (8)
n=y2-y1+1 (9)
m=x2-x1+1 (10)
式中,(x1,y1)为目标行人矩形检测框左上角顶点在图像中的坐标;(x2,y2)为目标行人矩形检测框右下角顶点在图像中的坐标;δij为原视差图第i行,第j列的视差值;Δnm为与检测框尺寸一致的视差值矩阵;
步骤S52:将检测框内提取的最大视差值替换检测框内的其他像素,检测框范围以外的视差值全部赋值为0,由此获得改进视差图,用于后续的U-V视差统计,用以确定目标行人的位置。
4.根据权利要求1所述的一种基于深度学习及U-V视差算法的道路行人自动识别定位方法,其特征在于:所述步骤S6具体包括以下步骤:
步骤S61:获取行人检测框在图像中的坐标信息,通过公式(12)-(13)定义行人在图像中的坐标信息;
yL=y2 (13)
式中,(xL,yL)为行人在图像中的坐标;
步骤S62:在V视差图上根据yL值获取行人y轴方向的视差值dy;同时,在U-视差图上根据xL值获取行人x轴方向的视差值dx;利用公式(14)对dy、dx取均值,获得目标行人的定位视差dp;
式中,dp为目标行人的定位视差;dx为行人x轴方向的视差值dx;dy为行人y轴方向的视差值;
步骤S63:利用公式(15)获得目标行人到相机成像平面的距离ZW;并根据ZW计算目标行人的世界坐标,见公式(16)、(17);
式中,ZW为目标行人到相机成像平面的距离;(XW,YW,ZW)为目标行人的世界坐标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010336272.4A CN111553252B (zh) | 2020-04-24 | 2020-04-24 | 一种基于深度学习及u-v视差算法的道路行人自动识别定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010336272.4A CN111553252B (zh) | 2020-04-24 | 2020-04-24 | 一种基于深度学习及u-v视差算法的道路行人自动识别定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111553252A CN111553252A (zh) | 2020-08-18 |
CN111553252B true CN111553252B (zh) | 2022-06-07 |
Family
ID=72005818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010336272.4A Active CN111553252B (zh) | 2020-04-24 | 2020-04-24 | 一种基于深度学习及u-v视差算法的道路行人自动识别定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111553252B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111862511B (zh) * | 2020-08-10 | 2021-08-24 | 湖南海森格诺信息技术有限公司 | 基于双目立体视觉的目标入侵检测装置及其方法 |
CN112348859B (zh) * | 2020-10-26 | 2024-09-06 | 浙江理工大学 | 一种渐近全局匹配的双目视差获取方法和系统 |
CN112395961B (zh) * | 2020-10-31 | 2022-08-09 | 太原理工大学 | 一种洒水车的视觉主动行人避让及水压自适应控制方法 |
CN112561996A (zh) * | 2020-12-08 | 2021-03-26 | 江苏科技大学 | 一种自主水下机器人回收对接中目标检测方法 |
CN112598738B (zh) * | 2020-12-25 | 2024-03-19 | 南京大学 | 一种基于深度学习的人物定位方法 |
CN112733671A (zh) * | 2020-12-31 | 2021-04-30 | 新大陆数字技术股份有限公司 | 行人检测方法、装置及可读存储介质 |
CN113298773A (zh) * | 2021-05-20 | 2021-08-24 | 山东大学 | 基于深度学习的心脏视图识别与左心室检测装置、系统 |
CN113207509B (zh) * | 2021-06-08 | 2023-01-24 | 重庆市农业科学院 | 一种蔬菜无人化育苗物流系统 |
CN113450335B (zh) * | 2021-06-30 | 2023-03-17 | 湖南三一华源机械有限公司 | 一种路沿检测方法、路沿检测装置及路面施工车辆 |
CN113963254A (zh) * | 2021-08-30 | 2022-01-21 | 武汉众智鸿图科技有限公司 | 一种融合目标识别的车载式智能巡检方法及系统 |
CN114049399B (zh) * | 2022-01-13 | 2022-04-12 | 上海景吾智能科技有限公司 | 一种结合rgbd图像的镜面定位方法 |
TWI787141B (zh) * | 2022-06-21 | 2022-12-11 | 鴻海精密工業股份有限公司 | 深度估計模型訓練方法、深度估計方法及電子設備 |
CN115307640A (zh) * | 2022-07-29 | 2022-11-08 | 西安现代控制技术研究所 | 基于改进人工势场法的无人车双目视觉导航方法 |
CN117011355B (zh) * | 2023-07-27 | 2024-01-30 | 三峡大学 | 一种基于数字图像处理技术的换流站防灾系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103868460A (zh) * | 2014-03-13 | 2014-06-18 | 桂林电子科技大学 | 基于视差优化算法的双目立体视觉自动测量方法 |
CN108205658A (zh) * | 2017-11-30 | 2018-06-26 | 中原智慧城市设计研究院有限公司 | 基于单双目视觉融合的障碍物检测预警系统 |
CN108230351A (zh) * | 2016-12-15 | 2018-06-29 | 上海杰轩智能科技有限公司 | 基于双目立体视觉行人检测的柜台评价方法与系统 |
CN110334678A (zh) * | 2019-07-12 | 2019-10-15 | 哈尔滨理工大学 | 一种基于视觉融合的行人检测方法 |
WO2019196131A1 (zh) * | 2018-04-12 | 2019-10-17 | 广州飒特红外股份有限公司 | 面向车载热成像行人检测的感兴趣区域过滤方法和装置 |
CN110390691A (zh) * | 2019-06-12 | 2019-10-29 | 合肥合工安驰智能科技有限公司 | 一种基于深度学习的矿石尺度测量方法及应用系统 |
-
2020
- 2020-04-24 CN CN202010336272.4A patent/CN111553252B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103868460A (zh) * | 2014-03-13 | 2014-06-18 | 桂林电子科技大学 | 基于视差优化算法的双目立体视觉自动测量方法 |
CN108230351A (zh) * | 2016-12-15 | 2018-06-29 | 上海杰轩智能科技有限公司 | 基于双目立体视觉行人检测的柜台评价方法与系统 |
CN108205658A (zh) * | 2017-11-30 | 2018-06-26 | 中原智慧城市设计研究院有限公司 | 基于单双目视觉融合的障碍物检测预警系统 |
WO2019196131A1 (zh) * | 2018-04-12 | 2019-10-17 | 广州飒特红外股份有限公司 | 面向车载热成像行人检测的感兴趣区域过滤方法和装置 |
CN110390691A (zh) * | 2019-06-12 | 2019-10-29 | 合肥合工安驰智能科技有限公司 | 一种基于深度学习的矿石尺度测量方法及应用系统 |
CN110334678A (zh) * | 2019-07-12 | 2019-10-15 | 哈尔滨理工大学 | 一种基于视觉融合的行人检测方法 |
Non-Patent Citations (3)
Title |
---|
Research and Optimization of Real-time Simultaneous Localization and Mapping of Indoor Robot Based on Binocular Vision;Zhang Qiwei at el.;《2019 3RD INTERNATIONAL CONFERENCE ON ARTIFICIAL INTELLIGENCE, AUTOMATION AND CONTROL TECHNOLOGIES (AIACT 2019)》;20191230;第1267卷;全文 * |
双目机器视觉及RetinaNet模型的路测行人感知定位;连丽蓉 等;《中国图像图形学报》;20211130;第26卷(第12期);全文 * |
基于双目图像的行人检测与定位系统研究;杨荣坚 等;《计算机应用研究》;20170401(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111553252A (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553252B (zh) | 一种基于深度学习及u-v视差算法的道路行人自动识别定位方法 | |
CN110569704B (zh) | 一种基于立体视觉的多策略自适应车道线检测方法 | |
CN107341453B (zh) | 一种车道线提取方法及装置 | |
CN105225482B (zh) | 基于双目立体视觉的车辆检测系统和方法 | |
CN110285793B (zh) | 一种基于双目立体视觉系统的车辆智能测轨迹方法 | |
CN106681353B (zh) | 基于双目视觉与光流融合的无人机避障方法及系统 | |
CN105300403B (zh) | 一种基于双目视觉的车辆里程计算法 | |
CN105667518B (zh) | 车道检测的方法及装置 | |
CN104318561B (zh) | 基于双目立体视觉与光流融合的车辆运动信息检测方法 | |
CN104700414B (zh) | 一种基于车载双目相机的前方道路行人快速测距方法 | |
CN104574393B (zh) | 一种三维路面裂缝图像生成系统和方法 | |
CN109460709A (zh) | 基于rgb和d信息融合的rtg视觉障碍物检测的方法 | |
CN111967360B (zh) | 基于车轮的目标车辆姿态检测方法 | |
CN112801074B (zh) | 一种基于交通摄像头的深度图估计方法 | |
CN111723778B (zh) | 基于MobileNet-SSD的车辆测距系统及方法 | |
CN113903011A (zh) | 一种适用于室内停车场的语义地图构建及定位方法 | |
CN105913013A (zh) | 双目视觉人脸识别算法 | |
CN110648362B (zh) | 一种双目立体视觉的羽毛球定位识别与姿态计算方法 | |
WO2021017211A1 (zh) | 一种基于视觉的车辆定位方法、装置及车载终端 | |
CN113781562A (zh) | 一种基于道路模型的车道线虚实配准和自车定位方法 | |
CN116978009A (zh) | 基于4d毫米波雷达的动态物体滤除方法 | |
CN112749584A (zh) | 一种基于图像检测的车辆定位方法及车载终端 | |
CN116188417A (zh) | 基于slam和图像处理的裂缝检测及其三维定位方法 | |
CN113920254B (zh) | 一种基于单目rgb的室内三维重建方法及其系统 | |
CN107944350A (zh) | 一种基于外观和几何信息融合的单目视觉道路识别算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |