CN115100741A - 一种点云行人距离风险检测方法、系统、设备和介质 - Google Patents
一种点云行人距离风险检测方法、系统、设备和介质 Download PDFInfo
- Publication number
- CN115100741A CN115100741A CN202210678837.6A CN202210678837A CN115100741A CN 115100741 A CN115100741 A CN 115100741A CN 202210678837 A CN202210678837 A CN 202210678837A CN 115100741 A CN115100741 A CN 115100741A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- point cloud
- detection
- dimensional
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种点云行人距离风险检测方法、系统、设备和介质,包括以下步骤:对获取的点云数据及图像数据进行预处理,得到三维BEV图像;使用训练后的YOLOv3网络模型对生成的三维BEV图像进行特征提取和目标检测,得到BEV图像上的行人的二维检测框;基于相邻帧的目标检测结果对各个行人的风险进行判定,并对判定结果进行显示。本发明可以广泛应用于点云检测与跟踪领域。
Description
技术领域
本发明属于点云检测与跟踪领域,涉及一种深度学习算法,具体涉及一种基于YOLOv3和SORT的点云行人距离风险检测方法、系统、设备和介质。
背景技术
伴随着激光雷达在精度、分辨率等方面的提升,其在室外交通领域得到了广泛应用,目前,精确的三维点云数据被广泛应用于交通感知中目标的检测、分类、分割、定位等任务中。这些技术与无人驾驶、交通状态感知等领域的发展息息相关。
目前,激光雷达通过向目标发射探测信号,在将接收到的目标的反射信号与发射信号进行比对与处理产生点云数据,进而获得目标的距离、位置、方位等信息,以完成对目标的分类识别、检测与跟踪等。点云数据具有丰富的几何信息,相比于其他的摄像头、毫米波雷达等单模态传感器,其不仅有着更高的检测准确率,还同时可以输出物体的类别,位置,角度等几何信息。因此,在追求高度精确的自动驾驶与车路协同系统中,点云数据的应用扮演着重要的角色。
然而,激光雷达点云的应用主要集中于车辆,使用一些深度神经网络算法可以准确预测出车辆的位置、偏转角度等信息,如PointRCNN,3DSSD等,而对于智能交通领域中另一个非常重要的载体行人,由于其点云的稀疏性和不确定性,其效果也并不是很理想。
发明内容
针对上述问题,本发明的目的是提供一种点云行人距离风险检测方法、系统、设备和介质,通过将Complex-YOLO与SORT算法相融合,来完成点云数据的行人检测与跟踪。
为实现上述目的,本发明采取以下技术方案:
第一方面,本发明提供一种点云行人距离风险检测方法,包括以下步骤:
对获取的点云数据及图像数据进行预处理,得到三维BEV图像;
使用训练后的YOLOv3网络模型对生成的三维BEV图像进行特征提取和目标检测,得到三维BEV图像上各行人的检测框;
基于相邻帧三维BEV图像上各行人的检测框对行人距离风险进行判定,并对判定结果进行显示。
进一步,所述对获取的点云数据及图像数据进行预处理,得到三维BEV图像的方法,包括:
获取激光雷达所采集到的初始点云数据和摄像机采集到的图像数据;
对初始点云数据进行提取处理,得到提取点云;
对提取点云进行数据增强,并生成三维BEV图像。
进一步,所述对提取点云进行数据增强,并生成三维BEV图像的方法,包括:
设置三维BEV图像的大小,并计算出点云分辨率;
根据点云分辨率,计算提取点云中的每一个点在三维BEV图像中的像素位置;
根据三维BEV图像中各像素位置处的最大高度,反射强度与密度,计算BEV图像中的RGB三通道的像素值,并生成三维BEV图像。
进一步,所述使用训练后的YOLOv3网络模型对生成的三维BEV图像进行特征提取和目标检测,得到三维BEV图像上各行人的检测框的方法,包括:
对训练数据进行处理,并基于确定的损失函数、网络参数和训练策略对搭建的YOLOv3网络模型进行训练;
采用训练好的YOLOv3网络模型对各三维鸟瞰图图像进行目标检测,得到各三维鸟瞰图图像的所有预测的检测框;
使用非极大值抑制算法,从各三维鸟瞰图图像的所有预测的检测框中进行挑选,挑选得到的最优检测框即为三维BEV图像上各行人的检测框。
进一步,所述使用非极大值抑制算法,从各三维鸟瞰图图像的所有预测的检测框中进行挑选,挑选得到的最优检测框即为三维BEV图像上各行人的检测框的方法,包括:
令初始集合H包含全部预测的检测框,最优检测框集合M为空集;设定NMS的阈值为α;
选出初始集合H中置信度最高的检测框m到最优检测框集合M;
遍历初始集合H中所有剩余的检测框,计算各剩余的检测框与置信度最高的检测框m的IOU值,当IOU值超过α时,该检测框从初始集合H中移出;
重复上述步骤,直至初始集合H为空集,得到最优检测框。
进一步,所述基于相邻帧的目标检测结果对各个行人的风险进行判定,并对判定结果进行显示的方法,包括:
使用SORT算法对相邻帧三维BEV图像上各行人的检测框进行跟踪,并对相邻帧三维BEV图像上各行人的检测框进行匹配,融合,得到更新后的检测框;
根据更新后的各个行人的检测框,使用反距离权重法,计算各个行人的安全风险系数;
将不同风险行人的位置映射到图像上,并根据其风险值来选取行人检测框的颜色,将其在图像数据中显示。
进一步,所述根据更新后的各个行人的检测框,使用反距离权重法,计算各个行人的安全风险系数的方法,包括:
根据得到的各个行人的检测框,计算各个行人之间的欧式距离;
使用局部反距离权值法,计算各个行人的安全风险系数;
根据预设风险阈值以及各行人的安全风险系数,将各行人的安全风险行为进行划分,得到低风险行人和高风险行人。
第二方面,本发明提供一种点云行人距离风险检测系统,包括:
图像获取模块,用于对获取的点云数据及图像数据进行预处理,得到三维BEV图像;
目标检测模块,用于使用训练后的YOLOv3网络模型对生成的三维BEV图像进行特征提取和目标检测,得到三维BEV图像上各行人的检测框;
风险判定模块,用于基于相邻帧三维BEV图像上各行人的检测框对行人距离风险进行判定,并对判定结果进行显示。
第三方面,本发明提供一种处理设备,所述处理设备至少包括处理器和存储器,所述存储器上存储有计算机程序,所述处理器运行所述计算机程序时执行以实现所述点云行人距离风险检测方法的步骤。
第四方面,本发明提供一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现所述点云行人距离风险检测方法的步骤。
本发明由于采取以上技术方案,其具有以下优点:
1)使用点云数据进行检测,可以得到更高的准确率。相较于图像信息,点云数据对行人在位置、形状等几何信息上有着更好的体现,因此,对于行人等具有特殊特性的物体来说,使用点云检测会有更好效果,并且,点云数据可以克服光照、遮挡等因素的影响,从而提高行人检测的准确性。
2)使用激光雷达点云数据来进行行人的检测与跟踪,可以直接将点云数据输出的三维坐标进而进行距离的计算,增加了风险计算的准确性和实用性,也避免了因图像的视觉偏差而导致距离计算存在的误差。因为图像在位置信息提供上的缺陷,导致使用图像计算距离会有一定的偏差,而点云数据具有更多的空间维度信息,以点云为依据会有更加的效果。
3)使用鸟瞰图形式对点云数据进行处理,依据点云的三维位置信息,将激光雷达点云数据依据平面位置进行划分,将其平面位置与生成的图像像素位置一一对应,并根据点云密度、反射强度和最大高度等信息决定BEV图像的RGB信息,使用鸟瞰图同样可以避免遮挡,增加算法的准确率与实用性,从而增加YOLO算法的检测效果。
4)使用YOLOv3目标检测算法和SORT目标跟踪算法来对行人进行检测与跟踪,算法的复杂度较低,可以在保证精度的同时提升算法的运行速度。
因此,本发明可以广泛应用于点云检测与跟踪领域。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在整个附图中,用相同的附图标记表示相同的部件。在附图中:
图1是本发明实施例提供的一种点云行人距离风险检测方法流程图;
图2是本发明实施例提供的改进的YOLOv3生成模型框架;
图3是SORT算法基本框架;
图4是本发明实施例提供的训练过程中的损失函数。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
疫情期间,众多公共场所忌惮新冠病毒的传染性,严格把控着行人之间的距离,从而阻止病毒的传播与扩散,降低感染新冠肺炎的可能性,保证行人的出行与生活安全。因此,本发明认为通过使用激光雷达点云数据求取行人坐标并计算其安全风险是比较重要的。
本发明的出发点是探求行人的安全距离风险,利用深度神经网络模型的探索性和泛化性,实时输出点云数据中行人的三维位置坐标,并计算各个行人的距离风险值,进而实现一种具有实时性、准确性和可用性的检测跟踪算法。
本发明的一些实施例中,提供一种点云行人距离风险检测方法,该方法通过对激光雷达点云的处理、训练,从而完成对行人位置的检测与跟踪,计算各行人之间的位置,来完成行人风险的求取。首先,将点云数据转化为鸟瞰图(BEV图像)的形式,在使用图像卷积神经网络算法(YOLOv3)和跟踪算法SORT对BEV图像进行检测与跟踪,得到行人的位置信息,再通过行人互相之间的位置,使用反距离权重法(IBW),得到行人的社交风险,来对行人的安全距离的检测与探究。
与之相对应地,本发明的另一些实施例中提供一种点云行人距离风险检测系统、设备和介质。
实施例1
如图1所示,本实施例提供的一种点云行人距离风险检测方法,使用深度神经网络模型,将YOLOv3目标检测算法和SORT目标跟踪算法联系在一起,同时完成对点云数据中行人目标的检测与跟踪,并根据各个行人在点云坐标系中的相互位置,使用反距离权重法计算出各个行人的安全距离风险。具体地,包括以下步骤:
(1)对获取的点云数据及图像数据进行预处理,得到三维BEV图像。
具体地,上述步骤(1)可以通过以下步骤实现:
(1.1)获取激光雷达所采集到的初始点云数据和摄像机采集到的图像数据。其中,点云数据用于模型的输入。图像数据用于可视化,通过标定矩阵将点云数据与图像数据联系在一起,可以将点云数据的检测结果映射到图像数据中。
(1.2)对获取的初始点云数据进行预处理,得到提取点云PΩ。
具体地,对点云数据进行预处理时,包括以下步骤:
(1.2.1)确定点云数据的提取格式和存储方式。
本实施例中,将提取的点云数据保存为numpy矩阵数据,矩阵大小为N×4,其中,N为点云数据中点的个数,对于每一个点可表示为(x,y,z,r)的形式,其中,x,y,z为该点在点云坐标系中对应的点的坐标,r表示该点对应的反射强度。
(1.2.2)确定提取范围(也即需要保存的点的范围),对激光雷达采集到的初始点云P进行粗提取,并按照确定的提取格式和存储方式进行保存,得到提取点云PΩ。
优选地,本实施例中,设置的提取范围为激光雷达前方50m×50m的区域,对该范围之外的行人,本实施例不做考虑,以此来减少点云中点的数目,加快算法的运行效率。
具体地,本实施例选择x∈[0,50m],y∈[-25m,25m],z∈[-2.73m.1.27m]作为提取范围,其公式如(1)式:
PΩ={P=[x,y,z,r]|x∈[0,50],y∈[-25,25],z∈[-2.73,1.27]} (1)
其中,P为初始点云,PΩ为提取点云。
(1.3)对提取点云PΩ进行数据增强。
为了加强模型对数据检测的稳定性,需要对训练数据进行增强。本实施例选择点云随机旋转以及随机放大与缩小的方式来加强训练模型的鲁棒性。其中,随机旋转的方式为沿着点云的高度轴,将点云中所有的数据随机旋转-45°~45°中的一个值。随机放大与缩小的策略为将点云坐标值与三维检测框的各个数据乘上任意[0.95,1.05]之间的一个数。变换之后得到BEV图像,再对BEV图像进行大小不同的尺度变换。
其中,对点云数据进行随机旋转的公式为:
其中,x′,y′,z′为旋转后该点在点云坐标系中对应的点的坐标,r′为旋转后该点对应的反射强度;l′,w′,h′转化到鸟瞰图后的标签框长度、宽度与高度;l,w,h点云坐标系的标签框的长度、宽度与高度;R为旋转矩阵,公式为:
式中,θ为旋转角。
随机放大与缩小:
其中,x″,y″,z″为放大或缩小后该点在点云坐标系中对应的点的坐标;r″为放大或缩小后该点对应的反射强度;α∈[0.95,1.05]为放大或缩小尺度;l″,w″,h″为转化到鸟瞰图后的标签框长度、宽度与高度。
(1.4)根据数据增强后的提取点云PΩ,生成三维BEV图像。
具体地,生成三维BEV图像的方法,包括以下步骤:
(1.4.1)设置三维BEV图像的大小,并计算出点云分辨率。
根据BEV图像的大小计算出点云分辨率的计算方式为:
其中,discritization为点云分辨率,range为点云的范围,size为三维BEV图像的大小。本实施例中,将三维BEV图像的大小设置为608×608。
(1.4.2)根据点云分辨率,计算提取点云PΩ中的每一个点在三维BEV图像中的像素位置,其计算公式为:
xBEV=int(Px/discritization) (6)
yBEV=int(Py/discritization) (7)
其中,xBEV,yBEV为该点在三维BEV图像中的位置,xBEV与yBEV为整数且位于0与608之间;Px与Py为点云在点云坐标系中的横、纵坐标,设Px,y表示提取点云PΩ中所有表示在三维BEV图像中x,y位置的点,则有:
Px,y=(xBEV,yBEV) (8)
(1.4.3)根据三维BEV图像中各像素位置处的最大高度,反射强度与密度,计算BEV图像中的RGB三通道的像素值,并生成三维BEV图像。
其中,BEV图像中,R通道为Px,y中最高点的z轴坐标归一化后的位置,G通道表示Px,y中最高点反射强度值,B通道表示Px,y中的点云密度。其计算公式为:
Gxy=I(max(Pxy·[0,0,1,0]T)) (10)
其中,Rxy,Gxy,Bxy分别表示BEV图像在x,y位置处的R,G,B通道的值;zmin=-2.73m表示点云PΩ中的点的最小高度;zmax=1.27m表示点云中的点的最大高度;N表示Pxy中点云的密度。根据公式可以看出,Rxy,Gxy,Bxy均是0-1之间的数,将其乘上256即可将鸟瞰图进行可视化。
(2)使用训练后的YOLOv3网络模型对生成的三维BEV图像进行特征提取和目标检测,得到三维BEV图像上各行人的检测框。
由于YOLOv3网络模型中并没有全连接层,可以适应不同大小的输入图片,而且参数量也没有那么多,相比于其他的两阶段目标检测网络,YOLOv3网络模型可以在准确率相差不大的条件下大大地降低算法的运行时间,所以在工业界应用比较广泛。
如图2所示,为本实施例中YOLOv3网络模型的整体框架。YOLOv3网络模型包括特征提取器和检测模块(图中未显示)。其中,特征提取器包括Darknet-53残差网络模型和特征融合模块,Darknet-53残差网络模型用于对输入的三维BEV图像进行特征提取,得到第一特征图;特征融合模块用于对第一特征图进行上采样、融合、卷积提取等得到与第一特征图不同大小的第二特征图和第三特征图(如图2右侧的三个正方体框);检测模块用于基于预设的先验框对第一特征图、第二特征图和第三特征图进行检测,得到检测框。
本实施例中,YOLOv3网络模型总共包含106个卷积层与上采样层,并且由于没有全连接层,可以对不同大小的图片进行检测。
其中,Darknet-53残差网络模型的结构参数如下表1所示,其输入为608*608*3大小的三维RGB鸟瞰图。
表1 Darknet-53结构
如图2所示,CBL模块包含一个卷积层、一个BN层和一个Leaky Relu层。其中,BN层为Batch Normalize层,用以加快网络训练的速度、防止梯度爆炸与过拟合;Leaky Relu为激活函数,用于对上一层的输出进行处理,并将处理结果传递到下一单元。res1,res2,res8为大小不同的残差块,由一个CBL与相应数量的ResNet残差模块组成,用以解决层数增加导致的梯度消失的问题。
具体地,对于608*608*3大小的BEV图像,将其经过Darknet-53残差网络模型后,提取出大小为19*19*21的第一特征图,该第一特征图用于检测大目标,Darknet-53残差网络模型对应图2中第一行。特征融合模块用于对第一特征图进行上采样,并与Darknet-53残差网络模型输出的第一特征图进行融合,并继续卷积提取特征得到大小为38*38*21的第二特征图,同理基于第二特征图得到大小为76*76*21的第三特征图,用以检测较小的目标。
然后,通过设置不同的锚(anchors),即先验框,可以在特征图上做不同大小的位置的检测。对于每一个特征图对应的小格,YOLOv3网络模型输出三个预测的检测框。因此需要在YOLOv3中每一个特征图中的cell预置3个先验框,先验框的大小通过聚类获得。本实施例中,先验框大小为如表2所示。
表2先验框大小
特征图大小 | 先验框数目 | 先验框大小 |
19*19*21 | 3 | 23×51,35×35,51×23 |
38*38*21 | 3 | 11×25,18×18,25×11 |
76*76*21 | 3 | 11×14,12×12,14×11 |
基于先验框对各特征图进行检测,对于每一个先验框,其输出结果均包括7个参数,即(bx,by,bl,bh,c,p1,…,pn,bz),其中,bx,by,bl,bh表示检测框的中心位置,c表示这个小格是否存在物体的置信度;p1,…,pn表示该物体属于各个类别的概率,由于本实施例只有行人一类,因此n=1;bz表示该行人在z轴上预测的中心位置,而该行人的高度则直接采用一个先验值进行预测,算法中选择1.80m。因此,对于每一个特征图的每个小格,由于有三个先验框,每个先验框都会输出bx,by,bl,bh,c,p1,bz共7个参数,因此每一个特征图的输出维度为3*7=21维。最终在三个预测的检测框中选择置信度最大的作为该小格的最终检测框。
其中,每一个特征图输出的检测框与先验框之间的关系为:
bx=σ(tx)+cx (12)
by=σ(ty)+cy (13)
bz=(zmax-zmin)tz+zmin (14)
其中,cx,cy表示当前小格(cell)在鸟瞰图图像上左上角的坐标位置,zmin,zmax表示点云中选取的最小高度和最大高度,本发明中为zmin=-2.73m,zmax=1.27m。pw,ph分别表示先验框的宽度与高度,σ(·)为sigmoid函数,其可以将tx,ty转化为[0,1]的形式,从而增加检测的准确性。tx,ty,tz,tw,th表示特征图的小格对应的预测量。
具体地,上述步骤(2)包括以下步骤:
(2.1)对训练数据进行处理,并基于确定的损失函数、网络参数和训练策略对搭建的YOLOv3网络模型进行训练。
对YOLOv3网络模型进行训练的方法,包括以下步骤:
(2.1.1)提取点云数据标注文件中的行人数据与骑自行车的人的三维物体框用以训练,并将其转化到BEV图像中。
其中,三维物体框用(x,y,z,l,w,h,rls)表示,x,y,z表示物体在点云坐标系的中心位置;l,w,h为物体三维检测框的长度,宽度,高度;rls为物体的偏转角;将其转换到BEV图像中时,转换公式如下:
tx=iht(x/discritization) (17)
ty=int(y/discritization) (18)
tl=int(l/discritization) (20)
tw=int(w/discritization) (21)
其中,tx,ty为该行人在BEV图像中的中心位置;tl,tw为该行人在BEV图像中的宽度与高度;tz表示该行人的转化高度,在(0,1)范围内。由于对于行人,偏转位置并不是像车辆一样比较重要,所以本发明中忽略了角度的预测。
(2.1.2)确定损失函数
和YOLOv3 Loss一样,本实施例使用YOLO Loss和一个z-loss作为检测模型的最终损失,可以表示为:
其中,bx,by,bw,bh,bz为特征图输出的检测框的基本信息,为真实的物体框的基本信息,ci为特征图中物体的置信度,pi为属于不同类别的概率。 为示性函数,用以判断该处是否存在物体,λcoord为位置损失的权重系数,本实施例中取值为5;S为特征图的大小,B为先验框的数目,故B=3,λnoobj为负样本的权重系数,对于负样本,应该赋予更小的权重,故本实施例中取值为0.5。
与YOLOv3不同的是,本发明使用和而不是bw与bh,使用根号可以增大高度与宽度误差的计算来使得检测框更为准确。同时,由于图像中普遍包含物体数目较少,数据集中负样本数目远远高于正样本数目,这也是一阶段检测算法的准确率普遍不如两阶段检测算法的原因。由于负样本数目多大且多易于区分,损失函数中负样本的损失函数占据绝大部分,影响优化效率,容易导致模型没办法像本发明希望的方向进行优化。因此,本发明中使用Focal Loss来代替传统的二分类交叉熵损失,降低负样本权重。并让模型更专注于难以区分的样本,对其进行优化。其计算公式为:
FL(pt)=-αt(1-pt)γlog(pt) (23)
其中,αt为平衡因子,用来对正负样本进行平衡。本实施例中选择αt=0.25,来加大损失函数中正样本所占的比重。pt为属于正样本的概率;γ用来调节简单样本权重减低的速率。当γ=0,αt=1时即为交叉熵损失函数。本实施例中γ的取值为2。
(2.1.3)设置网络参数和训练策略。
本实施例中,选择的优化器为Adam optimizer,迭代次数为300,初始学习率设置为0.01.每经过80个,学习率变为原来的0.1。训练300个epoch之后,得到最终的YOLOv3网络模型。
(2.2)采用训练好的YOLOv3网络模型对各三维鸟瞰图图像进行目标检测,得到各三维鸟瞰图图像的所有预测的检测框。
(2.3)使用非极大值抑制算法(NMS),从各三维鸟瞰图图像的所有预测的检测框中进行挑选,挑选得到的最优检测框即为三维BEV图像上各行人的检测框。
其中,非极大值抑制算法包括以下步骤:
(2.3.1)令初始集合M0包含全部预测的检测框,最优检测框集合M为空集;设定NMS的阈值为α,通常设定为0.5。
(2.3.2)选出初始集合M0中置信度最高的检测框m到最优检测框集合M;
(2.3.3)遍历初始集合M0中所有剩余的检测框,计算各剩余的检测框与置信度最高的检测框m的IOU值(IoU值表示两个检测框交集面积与并集面积之比),当IoU值超过α时,该检测框从初始集合M0中移出;
(2.3.4)重复步骤2.3.2)~2.3.3),直至初始集合M0为空集,将此时的最优检测框集合M作为最优检测框。
通过非极大值抑制算法,可以得到检测框中选择最优的预测框集合,并在三维鸟瞰图图像上预测出的行人检测结果和置信度。
(3)基于相邻帧三维BEV图像上各行人的检测框对行人距离风险进行判定,并对判定结果进行显示。
具体的,包括以下步骤:
(3.1)使用SORT算法对相邻帧三维BEV图像上各行人的检测框进行跟踪,并利用卡尔曼滤波和匈牙利算法的特性,对相邻帧三维BEV图像上各行人的检测框进行匹配,融合,得到更新后的检测框。
如图3所示,具体步骤为:
(3.1.1)对于当前帧三维BEV图像中的每一个行人目标,使用卡尔曼滤波算法预测其下一帧所在的位置。
卡尔曼滤波算法从一系列观测数据中,估计出数据的真实样子。卡尔曼滤波器中为每一个行人目标定义如下状态:
其中,u,v分别表示行人目标在三维BEV图像中心位置的横纵坐标,z为表示行人目标在三维BEV图像的高度中心;s表示目标框的面积,r表示目标框的纵横比,分别表示目标在横纵方向的行进速度,表示目标框的面积的变化率,并在预测过程中,假设目标框的纵横比是不变的。根据下式从前一帧预测出当前目标的状态。
其中,Zt表示t时刻的观测状态,即t时刻目标框的基本信息,包含目标框的中心位置、面积与纵横比;Xt,Xt-1分别表示t时刻与t-1时刻的目标状态;At|t-1为状态转移矩阵,对应目标的运动方式;H为观察矩阵,表示当前目标状态与观测值之间的关系;ωt-1为系统噪声,vt为观测噪声,均满足均值为0的正态分布。
(3.1.2)使用匈牙利算法将t时刻的检测框与t-1时刻的预测框进行匹配,并计算预测框与检测框之间的IoU(二者交集与并集之比)。
得到最终的分配方式之后,还需要对所有的分配结果进行判断,如果得到的某个关联检测框的IoU的值小于某个阈值,则将二者进行匹配,而并非将二者分配为同一个ID。此外,如果某一个检测的结果没有与任何目标匹配成功,则在Kalman滤波器中产生一个新的目标,而一个目标在连续的Tlost帧中都未与任何的检测结果进行匹配,则需要在Kalman滤波器中删除该目标,视为该目标在视野中消失,以防止Kalman滤波器中的目标增多造成的显存增大。
(3.1.3)通过卡尔曼滤波器对目标状态进行更新。更新公式为:
X′=X+K′(Z-HX) (26)
K′=PHT(HPHT+R)-1 (27)
其中,X′为更新后的目标状态,Z为观测状态,K′为中间值,P为状态协方差矩阵,R为检测网络对检测框的误差矩阵。因为检测结果存在误差,需要对轨迹进行更新,使得检测框更加接近真实的位置。
(3.2)根据更新后的各个行人的检测框,使用反距离权重法,计算各个行人的安全风险系数。
具体实现方法为:
(3.2.1)根据得到的各个行人的检测框,计算各个行人之间的欧式距离。
(3.2.2)使用局部反距离权值法,计算各个行人的安全风险系数。
其中,局部反距离权值计算公式为:
其中,ωij为两个行人之间的权值,sij为两个行人之间的欧式距离,s0为距离阈值,本发明中设置为2m。
行人安全风险系数的计算公式为:
其中,wi表示第i个行人的社交距离风险,并设置一个阈值,当某个人的社交距离风险指数高于该阈值时,则将其判断为高风险行人。
(3.2.3)根据预设风险阈值以及各行人的安全风险系数,将各行人的安全风险行为进行划分,得到低风险行人和高风险行人。
(3.3)将不同风险行人的位置映射到图像上,并根据其风险值来选取行人检测框的颜色,将其在图像数据中显示。
基于预设风险阈值以及计算得到的各个行人的安全风险系数,对行人风险进行划分,并将低风险行人与高风险行人的位置映射到BEV图像或者映射到原图像中,同时可以根据其风险值以不同颜色进行表示。
本实施例采用YOLOv3目标检测模型对KITTI数据集进行训练,经过300个epoch,损失函数值接近于0,其损失值下降过程如图4所示。
YOLOv3目标检测在KITTI验证集上的平均准确了可以达到86.5%,并且通过使用KITTI官方给的evaluate测试准则进行测试,也同样有着不错的效果,并且速度可以达到15FPS,其结果如表3所示;SORT跟踪算法,也同样取得不错进展,结果如表4所示。
表3目标检测算法对比
表4目标跟踪算法性能结果
MOTA | MOTP | Recall | Precision | IDF1 | IDP | IDs | FPS |
0.745 | 0.259 | 0.886 | 0.886 | 0.828 | 0.851 | 68 | 400 |
实施例2
上述实施例1提供了一种点云行人距离风险检测方法,与之相对应地,本实施例提供一种点云行人距离风险检测系统。本实施例提供的系统可以实施实施例1的一种点云行人距离风险检测方法,该系统可以通过软件、硬件或软硬结合的方式来实现。例如,该系统可以包括集成的或分开的功能模块或功能单元来执行实施例1各方法中的对应步骤。由于本实施例的系统基本相似于方法实施例,所以本实施例描述过程比较简单,相关之处可以参见实施例1的部分说明即可,本实施例提供的系统的实施例仅仅是示意性的。
本实施例提供的一种点云行人距离风险检测系统,包括:
图像获取模块,用于对获取的点云数据及图像数据进行预处理,得到三维BEV图像;
目标检测模块,用于使用训练后的YOLOv3网络模型对生成的三维BEV图像进行特征提取和目标检测,得到三维BEV图像上各行人的检测框;
风险判定模块,用于基于相邻帧三维BEV图像上各行人的检测框对行人距离风险进行判定,并对判定结果进行显示。
实施例3
本实施例提供一种与本实施例1所提供的点云行人距离风险检测方法对应的处理设备,处理设备可以是用于客户端的处理设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行实施例1的方法。
所述处理设备包括处理器、存储器、通信接口和总线,处理器、存储器和通信接口通过总线连接,以完成相互间的通信。存储器中存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行本实施例1所提供的一种点云行人距离风险检测方法。
在一些实施例中,存储器可以是高速随机存取存储器(RAM:Random AccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
在另一些实施例中,处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器,在此不做限定。
实施例4
本实施例1的一种点云行人距离风险检测方法可被具体实现为一种计算机程序产品,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本实施例1所述的一种点云行人距离风险检测方法的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种点云行人距离风险检测方法,其特征在于,包括以下步骤:
对获取的点云数据及图像数据进行预处理,得到三维BEV图像;
使用训练后的YOLOv3网络模型对生成的三维BEV图像进行特征提取和目标检测,得到三维BEV图像上各行人的检测框;
基于相邻帧三维BEV图像上各行人的检测框对行人距离风险进行判定,并对判定结果进行显示。
2.如权利要求1所述的一种点云行人距离风险检测方法,其特征在于,所述对获取的点云数据及图像数据进行预处理,得到三维BEV图像的方法,包括:
获取激光雷达所采集到的初始点云数据和摄像机采集到的图像数据;
对初始点云数据进行提取处理,得到提取点云;
对提取点云进行数据增强,并生成三维BEV图像。
3.如权利要求2所述的一种点云行人距离风险检测方法,其特征在于,所述对提取点云进行数据增强,并生成三维BEV图像的方法,包括:
设置三维BEV图像的大小,并计算出点云分辨率;
根据点云分辨率,计算提取点云中的每一个点在三维BEV图像中的像素位置;
根据三维BEV图像中各像素位置处的最大高度,反射强度与密度,计算BEV图像中的RGB三通道的像素值,并生成三维BEV图像。
4.如权利要求1所述的一种点云行人距离风险检测方法,其特征在于,所述使用训练后的YOLOv3网络模型对生成的三维BEV图像进行特征提取和目标检测,得到三维BEV图像上各行人的检测框的方法,包括:
对训练数据进行处理,并基于确定的损失函数、网络参数和训练策略对搭建的YOLOv3网络模型进行训练;
采用训练好的YOLOv3网络模型对各三维鸟瞰图图像进行目标检测,得到各三维鸟瞰图图像的所有预测的检测框;
使用非极大值抑制算法,从各三维鸟瞰图图像的所有预测的检测框中进行挑选,挑选得到的最优检测框即为三维BEV图像上各行人的检测框。
5.如权利要求4所述的一种点云行人距离风险检测方法,其特征在于,所述使用非极大值抑制算法,从各三维鸟瞰图图像的所有预测的检测框中进行挑选,挑选得到的最优检测框即为三维BEV图像上各行人的检测框的方法,包括:
令初始集合H包含全部预测的检测框,最优检测框集合M为空集;设定NMS的阈值为α;
选出初始集合H中置信度最高的检测框m到最优检测框集合M;
遍历初始集合H中所有剩余的检测框,计算各剩余的检测框与置信度最高的检测框m的IOU值,当IOU值超过α时,该检测框从初始集合H中移出;
重复上述各步骤,直至初始集合H为空集,得到最优检测框。
6.如权利要求1所述的一种点云行人距离风险检测方法,其特征在于,所述基于相邻帧的目标检测结果对各个行人的风险进行判定,并对判定结果进行显示的方法,包括:
使用SORT算法对相邻帧三维BEV图像上各行人的检测框进行跟踪,并对相邻帧三维BEV图像上各行人的检测框进行匹配,融合,得到更新后的检测框;
根据更新后的各个行人的检测框,使用反距离权重法,计算各个行人的安全风险系数;
将不同风险行人的位置映射到图像上,并根据其风险值来选取行人检测框的颜色,将其在图像数据中显示。
7.如权利要求6所述的一种点云行人距离风险检测方法,其特征在于,所述根据更新后的各个行人的检测框,使用反距离权重法,计算各个行人的安全风险系数的方法,包括:
根据得到的各个行人的检测框,计算各个行人之间的欧式距离;
使用局部反距离权值法,计算各个行人的安全风险系数;
根据预设风险阈值以及各行人的安全风险系数,将各行人的安全风险行为进行划分,得到低风险行人和高风险行人。
8.一种点云行人距离风险检测系统,其特征在于,包括:
图像获取模块,用于对获取的点云数据及图像数据进行预处理,得到三维BEV图像;
目标检测模块,用于使用训练后的YOLOv3网络模型对生成的三维BEV图像进行特征提取和目标检测,得到三维BEV图像上各行人的检测框;
风险判定模块,用于基于相邻帧三维BEV图像上各行人的检测框对行人距离风险进行判定,并对判定结果进行显示。
9.一种处理设备,所述处理设备至少包括处理器和存储器,所述存储器上存储有计算机程序,其特征在于,所述处理器运行所述计算机程序时执行以实现权利要求1到7任一项所述点云行人距离风险检测方法的步骤。
10.一种计算机存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现根据权利要求1到7任一项所述点云行人距离风险检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210678837.6A CN115100741A (zh) | 2022-06-16 | 2022-06-16 | 一种点云行人距离风险检测方法、系统、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210678837.6A CN115100741A (zh) | 2022-06-16 | 2022-06-16 | 一种点云行人距离风险检测方法、系统、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115100741A true CN115100741A (zh) | 2022-09-23 |
Family
ID=83291914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210678837.6A Pending CN115100741A (zh) | 2022-06-16 | 2022-06-16 | 一种点云行人距离风险检测方法、系统、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115100741A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115345908A (zh) * | 2022-10-18 | 2022-11-15 | 四川启睿克科技有限公司 | 一种基于毫米波雷达的人体姿态识别方法 |
CN115984805A (zh) * | 2023-03-15 | 2023-04-18 | 安徽蔚来智驾科技有限公司 | 一种数据增强方法、目标检测方法及车辆 |
-
2022
- 2022-06-16 CN CN202210678837.6A patent/CN115100741A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115345908A (zh) * | 2022-10-18 | 2022-11-15 | 四川启睿克科技有限公司 | 一种基于毫米波雷达的人体姿态识别方法 |
CN115345908B (zh) * | 2022-10-18 | 2023-03-07 | 四川启睿克科技有限公司 | 一种基于毫米波雷达的人体姿态识别方法 |
CN115984805A (zh) * | 2023-03-15 | 2023-04-18 | 安徽蔚来智驾科技有限公司 | 一种数据增强方法、目标检测方法及车辆 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111626217B (zh) | 一种基于二维图片和三维点云融合的目标检测和追踪方法 | |
CN111429514B (zh) | 一种融合多帧时序点云的激光雷达3d实时目标检测方法 | |
CN111563442B (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及系统 | |
CN113902897B (zh) | 目标检测模型的训练、目标检测方法、装置、设备和介质 | |
Chen et al. | Vehicle detection in high-resolution aerial images via sparse representation and superpixels | |
WO2022100470A1 (en) | Systems and methods for target detection | |
CN113506318B (zh) | 一种车载边缘场景下的三维目标感知方法 | |
WO2022188663A1 (zh) | 一种目标检测方法及装置 | |
CN113128348A (zh) | 一种融合语义信息的激光雷达目标检测方法及系统 | |
CN115100741A (zh) | 一种点云行人距离风险检测方法、系统、设备和介质 | |
CN115797736B (zh) | 目标检测模型的训练和目标检测方法、装置、设备和介质 | |
CN111339830A (zh) | 一种基于多模态数据特征的目标分类方法 | |
CN113762003B (zh) | 一种目标对象的检测方法、装置、设备和存储介质 | |
CN110909656B (zh) | 一种雷达与摄像机融合的行人检测方法和系统 | |
Bieder et al. | Exploiting multi-layer grid maps for surround-view semantic segmentation of sparse lidar data | |
CN114972758A (zh) | 一种基于点云弱监督的实例分割方法 | |
Zhang et al. | Front vehicle detection based on multi-sensor fusion for autonomous vehicle | |
Huang et al. | An object detection algorithm combining semantic and geometric information of the 3D point cloud | |
CN113255555A (zh) | 中国交通标志牌识别方法、系统、处理设备及存储介质 | |
Huang et al. | A coarse-to-fine LiDar-based SLAM with dynamic object removal in dense urban areas | |
Zhao et al. | DHA: Lidar and vision data fusion-based on road object classifier | |
CN116612450A (zh) | 一种面向点云场景的差异化知识蒸馏3d目标检测方法 | |
CN113887455B (zh) | 一种基于改进fcos的人脸口罩检测系统及方法 | |
Wu et al. | Research on asphalt pavement disease detection based on improved YOLOv5s | |
Zhang et al. | Depth Monocular Estimation with Attention-based Encoder-Decoder Network from Single Image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |