CN111178158B

CN111178158B - 一种骑车人检测方法及系统

Info

Publication number: CN111178158B
Application number: CN201911260144.XA
Authority: CN
Inventors: 刘春生; 郭钰; 常发亮
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2024-02-23
Anticipated expiration: 2039-12-10
Also published as: CN111178158A

Abstract

本发明公开了一种骑车人检测方法及系统，包括：获得待检测图像；利用基于局部去相关特征的区域提取方法获得边界框，根据边界框对原图进行裁剪得到最终的候选区域；将候选区域多分支YOLO金字塔网络进行进一步的检测，获得各分支的检测结果；将各分支的检测结果进行后期处理，将所有的边界框映射到原图之后，针对多边界框检测一个目标的情况使用了非最大值抑制的方法寻找置信度最高的边界框以获得最终的检测结果。借助图像金字塔和多分支的YOLO网络，搭建了检测网络(PM‑YOLO)，以解决漏检问题。

Description

一种骑车人检测方法及系统

技术领域

本发明属于智能交通领域，尤其涉及人工智能与计算机视觉。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

检测是指在场景中对目标物体进行分类，并对其进行准确定位。检测的主要方式有两种，一种是基于传感器的检测方法，一种是基于视觉的检测方法。而传感器(如：激光雷达、雷达等)价格普遍较高，因此，基于视觉的检测方法是目前研究的重点，且本发明研究的是基于视觉的骑车人检测方法。

骑车人检测是检测的一种，其旨在场景中对寻找是否具有骑车人，并对其进行准确定位。目前普遍的骑车人检测方法是基于机器学习和深度学习两种，深度学习方法的主要思想是先搭建好卷积神经网络，将带有骑车人的图像以及骑车人在图像中的位置信息输入网络，让网络去学习。从而在检测时，网络能够在一张新的图像上判断是否有骑车人以及找到起准确的位置。由于骑车人的速度相对较快，活动自由度较大等问题，因此更易发生交通事故。近年来，检测骑车人成为先进辅助驾驶系统的研究重点。然而，由于遮挡、骑车姿势的多样性、自行车的多样性、以及车速太快导致的阴影等问题，骑车人检测面临着很大的挑战。

因为低分辨率的图像对于远处的目标通常较为模糊，且对于车速较快的目标成像较为模糊，因此，基于低分辨率图像的目标检测对于骑车人检测意义不大，车载摄像头通常得到的图像为高分辨率的图像。尽管现在有很多骑车人检测的方法，但是其在解决高分辨率图像时仍存在很大的困难。

发明内容

为克服上述现有技术的不足，本发明鉴于机器学习、深度学习在计算机视觉领域的广泛应用，本发明采用了局部去相关特征来设计区域提取算法(LDCF-RP)，结合多分支YOLO网络(PM-YOLO)进行骑车人检测，并设计了后期处理过程，有效的提升了骑车人检测的准确率。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种骑车人检测方法，包括：

获得待检测图像；

利用基于局部去相关特征的区域提取方法获得边界框，根据边界框对原图进行裁剪得到最终的候选区域；

将候选区域多分支YOLO金字塔网络进行进一步的检测，获得各分支的检测结果；

将各分支的检测结果进行后期处理，将所有的边界框映射到原图之后，针对多边界框检测一个目标的情况使用了非最大值抑制的方法寻找置信度最高的边界框以获得最终的检测结果。

进一步的技术方案，对于待检测图像，利用LDCF计算十个通道特征，包括LUV三个色彩通道、一个归一化的梯度幅值以及六个方向梯度，并对这些通道进行去相关化的操作。

进一步的技术方案，对于每个通道x中的m×m块p，一个去相关表示由Q^Tp和一个正交树计算得到，这里的Q代表一个正交矩阵，通过特征分解Σ＝QΛQ得到，其中∑代表一个独立类别的协方差阵。

进一步的技术方案，对经过LDCF(locally decorrelated channel feature)局部去相关通道特征得到的边界框按其位置从上至下、从左至右进行排序。

进一步的技术方案，两个边界框距离小于一定阈值或者部分遮挡；

将这两个边界框合并成一个大的边界框，边界框的左上角坐标为两个边界框的x方向最小坐标和y方向最小坐标，边界框的右下角坐标为两个边界框的x方向最大坐标和y方向最大坐标，对得到的边界框向外扩充到固定尺寸b×b。

进一步的技术方案，两个边界框距离较远：直接对边界框进行扩充到固定尺寸b×b。

进一步的技术方案，建立了一个图像金字塔，以得到不同的图像尺寸；

建立多个YOLO分支，每一个分支为一个YOLO网络，其分支数与金字塔层数相同，即金字塔的每一层对应一个YOLO网络。将多分支的YOLO网络与金字塔合在一起，得到总的检测网络；

将候选区域输入该金字塔，得到多个不同尺寸的候选区域；

将不同尺寸的候选区域送入对应输入尺寸的YOLO分支，进行各个尺度上的检测。

进一步的技术方案，YOLO网络是指YOLOv3网络，其是基于锚点的，采用了K-means聚类算法，距离采用的是欧式距离，将训练样本的尺寸聚类到九个尺寸，作为锚点的尺寸。

进一步的技术方案，将各分支的检测结果进行后期处理：包含放缩、合并、映射和非最大值抑制的操作；

具体的，将各分支的检测结果进行放缩；

将放缩后的结果映射回原图；

使用了非最大值抑制的方法去寻找置信度最高的边界框。

以上一个或多个技术方案存在以下有益效果：

1，对于高分辨率的图像，由于将一整幅图像送入YOLO网络而不进行候选区域提取，其效果不好。本发明提出了一种全新的基于局部去相关特征的候选区域提取方法(LDCF-RP)，以解决上述问题。用基于局部去相关特征的检测器去得到候选区域，并对得到的候选区域进行分析。

2，借助图像金字塔和多分支的YOLO网络，搭建了检测网络(PM-YOLO)，以解决漏检问题。

3，设计了特殊的后期处理过程，旨在将各分支的检测结果合并、映射到原图，对检测结果进行筛选，去掉效果不好的结果，进一步提升了检测器的检测效果。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例骑车人检测流程图；

图2为本发明实施例基于局部去相关特征的区域提取方法流程图；

图3为本发明实施例多分支的YOLO金字塔结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

由于骑车人的方向不同、尺寸大小和遮挡等问题，因此基于车载相机的骑车人检测是先进辅助驾驶系统中的一大难点，本发明公开了一种基于局部去相关区域提取和多分支YOLO(You only look once)金字塔网络的骑车人检测方法。参见附图1所示，该方法包含三个部分，首先，为了提取高质量图像中的候选区域，该发明设计了一种新的基于局部去相关特征的区域提取方法(LDCF-RP)来生成可能性区域。其次，为了准确检测各个方向和不同尺寸的骑车人，该发明设计了一种多分支的YOLO金字塔结构(PM-YOLO)，对区域提取方法生成的可能性区域区域进行检测。最后，该发明还包含了一个后期处理过程来对横城的边界框进行处理，以获得更准确的定位。本发明具有很好的骑车人检测效果。

具体的，基于局部去相关特征的区域提取方法(LDCF-RP)：当图像分辨率较高而待检测目标尺寸跨度大，YOLO的效果较差，为解决这一问题，本发明提出一种基于局部去相关特征的区域提取方法。流程如图2所示。

输入任意一张三通道图像，本发明利用LDCF计算十个通道特征(LUV三个色彩通道、一个归一化的梯度幅值以及六个方向梯度)，并对这些通道进行去相关化的操作，即对于每个通道x中的m像素*m像素大小的方块p，一个去相关表示由Q^Tp和一个正交树计算得到。Q代表一个正交矩阵，由对图像进行计算所得，通过特征分解Σ＝QΛQ得到，其中Σ代表一个独立类别的协方差阵。本发明中的局部去相关通道特征LDCF中包含了Adaboost分类器，其包含深度为5的决策树，能够对目标和背景进行分类。此时的结果包含了很多背景误检和只检测了部分目标的边界框。

在该实施例子中，训练数据集由图像构成以及图像的标签，标签内容包括是否含有目标以及目标的具体位置和类别信息。

本发明对经过LDCF得到的边界框按其位置从上至下、从左至右进行排序。并将这些边界框分两种情况进行处理。

两个边界框距离小于一定阈值或者部分遮挡

将这两个边界框合并成一个大的边界框，边界框的左上角坐标为两个边界框的x方向最小坐标和y方向最小坐标，边界框的右下角坐标为两个边界框的x方向最大坐标和y方向最大坐标。对得到的边界框向外扩充到固定尺寸b×b。

两个边界框距离较远：直接对边界框进行扩充到固定尺寸b×b。

根据公式1计算得到边界框在原图中的位置和大小，(x_p,y_p)是待剪裁的边界框左上角在原图中的坐标，(x_bb,y_bb,w_bb,h_bb)是在扩充前的边界框左上角坐标和宽高。本发明根据边界框对原图进行裁剪得到最终的候选区域。

(x_p,y_p)是待剪裁的边界框左上角在原图中的坐标，(x_bb,y_bb,w_bb,h_bb)是在扩充前的边界框左上角坐标和宽高。

具体实施例子中，多分支的YOLO金字塔结构(PM-YOLO)：

YOLO是同时进行分类和边界框定位的一阶段网络，其在三个特征尺度上进行检测，但当待检测目标尺寸跨度较大且目标较为集中时，其检测性能不佳。为了解决这一问题并提升检测得性能，本发明设计了金字塔结构和多分支的YOLO网络。

为了能够在多个分支多个尺度上进行检测，本发明首先建立了一个图像金字塔，以得到不同的图像尺寸。其次，本发明设计了多个YOLO分支，每一个分支为一个YOLO网络，其分支数与金字塔层数相同，将所分支的YOLO网络与金字塔和在一起，得到总的检测网络。将候选区域输入该金字塔，得到多个不同尺寸的候选区域这里的/>代表在第i个候选区域在经图像金字塔第j层缩放后得到的候选区域。将不同尺寸的候选区域送入对应输入尺寸的YOLO分支，进行各个尺度上的检测，其中分支2的输入图像尺寸是分支1输入图像尺寸的1/2。网络结构简图如图3所示。

本发明采用的YOLO网络是指YOLOv3网络，其是基于锚点的。为了得到检测的锚点，本发明采用了K-means聚类算法，距离采用的是欧式距离。将训练样本的尺寸聚类到九个尺寸，作为锚点的尺寸。

具体实施例子中，后期处理过程：

为了综合各分支的结果并提升检测性能，本发明设计了后期处理过程，包含了放缩、合并、映射和非最大值抑制的操作。

由分支2得出的检测结果是基于低分辨率的，因此需要将检测结果按公式2进行放缩。x，y，w，h代表放缩前的x，y坐标，宽，高，x′，y′，w′，h′代表放缩后的x，y坐标，宽，高。

从而可以得到基于原来尺寸的检测结果。而此时的结果是基于候选区域的，因此需要将结果映射回原图，映射公式如公式3所示。

x_bbs＝x_cbb+x_p，y_bbs＝y_cbb+y_p，w_bbs＝w_cbb，h_bbs＝h_cbb，c_bbs＝c_cbb (3)

其中，x，y，w，h，c分别代表x轴y轴坐标，宽，高和类别。下表bbs代表基于原图的边界框坐标信息，cbb代表基于候选区域的边界框坐标信息，p代表候选区域在原图的坐标位置。

定位得到边界框，对得到的边界框进行筛选：在将所有的边界框映射到原图之后，会出现许多边界框检测一个目标的情况，因此，该发明还使用了非最大值抑制的方法去寻找置信度最高的边界框。

实验：

在训练时，为节省参数量，该发明仅训练分支1的YOLO网络，在进行检测时，分支1与其他分支共享参数。

此外，在训练时，为了训练PM-YOLO网络，本发明提取给定的边界框真值(groundtruth)，并扩充至固定的大小b×b，截取原图以获得训练样本。Groundtruth在截取图像之后的坐标计算公式如下：

x_cgt＝x_gt-x_p，y_cgt＝y_gt-y_p，w_cgt＝w_gt，h_cgt＝h_gt，c_cgt＝c_gt (4)

这里的下标cgt代表groundtruth基于截取图像上的左上角坐标，gt代表groundtruth基于原图的左上角坐标，p代表截图基于原图的左上角坐标。训练样本时，难免会出现部分的其他目标进入当前候选区域的情况，因此，为了不影响检测效果在训练时，本发明将只有部分目标的区域用黑色遮住。

实验结果：在TDCB数据集上进行实验。包括骑车人检测和骑车人与行人联合检测两部分。

本申请的方案可以进行联合监测，不改变方案的内容，在输入图像时，需包含行人的标签，即是否包含行人以及行人在图像中的位置信息，输出时，添加一个行人检测的输出接口，即可得到行人的检测结果。

骑车人检测：

该数据集包含一万多个骑车人样本和少部分行人样本，本发明基于重建后的TDCB数据集，数据集重建后的训练、评估、测试样本比为7:2:1。样本大小最大>832像素，最小约为20像素。

采用的评价指标为平均精确率mAP，mAP越高，则代表效果越好。实验结果较其他卷积神经网络如下表1：

表1

骑车人与行人联合检测：

由于TDCB仅评估和测试集有少部分的行人样本，因此，本发明基于重建后的TDCB数据集，重建的TDCB数据集仅包含原数据集中部分只有骑车人的训练集和评估集、测试集。重建后的数据集包含>2000的行人样本和>3000的骑车人样本。训练、评估、测试样本比为7:2:1。评价指标为mAP。该实验证明本方法具备骑车人与行人联合检测的能力，并可以获得很好的效果，见表2。

表2

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

获得待检测图像；

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行以下步骤：

获得待检测图像；

实施例四

本实施例的目的是提供一种骑车人检测系统，包括服务器，所述服务器被配置为：

获得待检测图像；

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种骑车人检测方法，其特征是，包括：

获得待检测图像；对于待检测图像，利用LDCF计算十个通道特征，包括LUV三个色彩通道、一个归一化的梯度幅值以及六个方向梯度，并对这些通道进行去相关化的操作；

将各分支的检测结果进行后期处理，将所有的边界框映射到原图之后，针对多边界框检测一个目标的情况使用了非最大值抑制的方法寻找置信度最高的边界框以获得最终的检测结果；后期处理包括：将YOLO分支2得出的检测结果按公式2进行放缩得到基于原来尺寸的检测结果；其中，x,y,w,h代表放缩前的x,y坐标，宽，高，x′,y′,w′,h′代表放缩后的x,y坐标，宽，高；

将结果映射回原图，映射公式如公式3所示；

x_bbs＝x_cbb+x_p，y_bbs＝y_cbb+y_p,w_bbs＝w_cbb,h_bbs＝h_cbb，c_bbs＝c_cbb (3)

其中，x,y,w,h,c分别代表x轴y轴坐标，宽，高和类别；下标bbs代表基于原图的边界框坐标信息，cbb代表基于候选区域的边界框坐标信息，p代表候选区域在原图的坐标位置。

2.如权利要求1所述的一种骑车人检测方法，其特征是，对于每个通道x中的m×m块p，一个去相关表示由Q^Tp和一个正交树计算得到，这里的Q代表一个正交矩阵，通过特征分解Σ＝QΛQ得到，其中∑代表一个独立类别的协方差阵。

3.如权利要求1所述的一种骑车人检测方法，其特征是，对经过LDCF得到的边界框按其位置从上至下、从左至右进行排序。

4.如权利要求3所述的一种骑车人检测方法，其特征是，两个边界框距离小于一定阈值或者部分遮挡；

5.如权利要求3所述的一种骑车人检测方法，其特征是，两个边界框距离较远：直接对边界框进行扩充到固定尺寸b×b。

6.如权利要求1所述的一种骑车人检测方法，其特征是，建立了一个图像金字塔，以得到不同的图像尺寸；

建立多个YOLO分支，每一个分支为一个YOLO网络，其分支数与金字塔层数相同，即金字塔的每一层对应一个YOLO网络，将多分支的YOLO网络与金字塔合在一起，得到总的检测网络；

将候选区域输入该金字塔，得到多个不同尺寸的候选区域；

将不同尺寸的候选区域送入对应输入尺寸的YOLO分支，进行各个尺度上的检测；

进一步的技术方案，YOLO网络是指YOLOv3网络，其是基于锚点的，采用了K-means聚类算法，距离采用的是欧式距离，将训练样本的尺寸聚类到九个尺寸，作为锚点的尺寸；

具体的，将各分支的检测结果进行放缩；

将放缩后的结果映射回原图；

使用了非最大值抑制的方法去寻找置信度最高的边界框。

7.一种计算装置,包括存储器、其特征是，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤，包括：

将结果映射回原图，映射公式如公式3所示；

其中，x，y，w，h，c分别代表x轴y轴坐标，宽，高和类别；下标bbs代表基于原图的边界框坐标信息，cbb代表基于候选区域的边界框坐标信息，p代表候选区域在原图的坐标位置。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行以下步骤：

将各分支的检测结果进行后期处理，将所有的边界框映射到原图之后，针对多边界框检测一个目标的情况使用了非最大值抑制的方法寻找置信度最高的边界框以获得最终的检测结果；后期处理包括：将YOLO分支2得出的检测结果按公式2进行放缩得到基于原来尺寸的检测结果；其中，x，y，w，h代表放缩前的x，y坐标，宽，高，x′，y′，w′，h′代表放缩后的x，y坐标，宽，高；

将结果映射回原图，映射公式如公式3所示；

9.一种骑车人检测系统，包括服务器，其特征是，所述服务器被配置为：

将结果映射回原图，映射公式如公式3所示；