CN116453205A

CN116453205A - 一种营运车辆滞站揽客行为识别方法、装置及系统

Info

Publication number: CN116453205A
Application number: CN202211468900.XA
Authority: CN
Inventors: 陈磊; 黄金叶
Original assignee: Shenzhen Qiyang Special Equipment Technology Engineering Co ltd
Current assignee: Shenzhen Qiyang Special Equipment Technology Engineering Co ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-07-18

Abstract

本发明公开了一种营运车辆滞站揽客行为识别方法、装置及系统，涉及交通监管技术领域。所述方法是先根据实时采集的雷达数据和视频数据，采用雷视融合跟踪方式跟踪出现在目标监管区域中的各个行人以及各个营运车辆，得到人车跟踪结果，然后针对各个营运车辆，将在低速时的且对应的车体框内图像输入车身关键点检测模型，得到对应的车身关键点，以及针对各个行人，根据对应的人体标记框确定对应的运动轨迹，最后在判定某个行人的运动轨迹与由某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交时，确认所述某个营运车辆存在滞站揽客行为，并留存相关证据，如此可以有效提升针对营运车辆滞站揽客行为的交通监管效率。

Description

一种营运车辆滞站揽客行为识别方法、装置及系统

技术领域

本发明属于交通监管技术领域，具体涉及一种营运车辆滞站揽客行为识别方法、装置及系统。

背景技术

营运车辆是指根据交通运输行业标准《营运客车类型划分及等级评定》(JT/T325-2013)所定义的且用于经营性旅客运输的汽车。营运车辆按类型划分有乘用车和客车两类，其中，乘用车符合《机动车辆及挂车分类》(GB/T 15089-2001)规定的M1类(包括驾驶员座位在内座位数不超过九座的载客汽车)，客车主要以符合《机动车辆及挂车分类》(GB/T15089-2001)规定的M2类和M3类中的B级及Ⅲ级客车为适用对象，并按车长(L)分为特大型(13.7m≥L>12m)、大型(12m≥L>9m)、中型(9m≥L>6m)和小型(6m≥L>3.5m)等四种。

随着我国国民经济和公路建设的快速发展，公路客运人数和货物运输量也在快速增长，但在发展的同时，道路运输事故率也居高不下，道路交通重特大事故80％发生在营运企业，因此提高营运车辆监管水平，减少人民群众生命财产损失，成为亟待解决的重要问题。

在我国城市汽车客运管理条例中，普遍要求营运车辆禁止滞站揽客(即临时停靠站点揽客)，以便确保交通顺畅无阻，但是在现有的交通监管技术中，还未提供有能够基于交通现场监控数据自动进行营运车辆滞站揽客行为识别并留存证据的可行技术方案，导致针对营运车辆滞站揽客行为的交通监管效率极低，制约了我国交通监管系统朝智能化方向发展。

发明内容

本发明的目的是提供一种营运车辆滞站揽客行为识别方法、装置、交通监管系统、计算机设备及计算机可读存储介质，用以解决现有交通监管技术无法基于交通现场监控数据自动进行营运车辆滞站揽客行为识别以及证据留存，导致针对营运车辆滞站揽客行为的交通监管效率极低的问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，提供了一种营运车辆滞站揽客行为识别方法，包括：

获取由雷达对目标监管区域实时采集的雷达数据以及由摄像头对所述目标监管区域实时采集的视频数据；

根据所述雷达数据和所述视频数据，采用雷视融合跟踪方式跟踪出现在所述目标监管区域中的各个行人以及各个营运车辆，得到人车跟踪结果，其中，所述人车跟踪结果包含有所述各个行人的人体标记框以及所述各个营运车辆的车体标记框和车速；

针对所述各个营运车辆，当根据所述人车跟踪结果发现对应的车速低于预设的速度阈值时，将在所述人车跟踪结果中的且对应的车体标记框的框内图像输入车身关键点检测模型，得到对应的车身关键点；

针对所述各个行人，根据在所述人车跟踪结果中的且对应的人体标记框，确定对应的运动轨迹；

在判定某个行人的运动轨迹与由某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交时，确认所述某个营运车辆存在滞站揽客行为，并留存在所述人车跟踪结果中的且用于判定所述某个营运车辆存在滞站揽客行为的证据。

基于上述发明内容，提供了一种基于交通现场监控数据自动进行营运车辆滞站揽客行为识别并留存证据的交通监管方案，即先根据实时采集的雷达数据和视频数据，采用雷视融合跟踪方式跟踪出现在目标监管区域中的各个行人以及各个营运车辆，得到人车跟踪结果，然后针对各个营运车辆，将在低速时的且对应的车体框内图像输入车身关键点检测模型，得到对应的车身关键点，以及针对各个行人，根据对应的人体标记框确定对应的运动轨迹，最后在判定某个行人的运动轨迹与由某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交时，确认所述某个营运车辆存在滞站揽客行为，并留存相关证据，如此可以有效提升针对营运车辆滞站揽客行为的交通监管效率，有力促进我国交通监管系统朝智能化方向发展，便于实际应用和推广。

在一个可能的设计中，根据所述雷达数据和所述视频数据，采用雷视融合跟踪方式跟踪出现在所述目标监管区域中的各个行人以及各个营运车辆，得到人车跟踪结果，包括有：雷达目标检测环节、雷达目标跟踪环节、图像目标检测环节、图像目标跟踪环节和目标识别跟踪结果融合环节；

所述雷达目标检测环节，用于根据所述雷达数据检测得到出现在所述目标监管区域中的各个障碍物体的位置、速度和方位角；

所述雷达目标跟踪环节，用于根据所述雷达数据，采用HM对象跟踪器跟踪所述各个障碍物体，得到所述各个障碍物体的雷达目标跟踪结果；

所述图像目标检测环节，用于根据所述视频数据，采用yolo v4目标检测模型识别得到出现在所述目标监管区域中的各个目标物体，得到所述各个目标物体的物体标记框，其中，所述目标物体包含有行人和营运车辆；

所述图像目标跟踪环节，用于根据所述视频数据，采用deepsort多目标跟踪算法跟踪所述各个目标物体，得到所述各个目标物体的视频目标跟踪结果；

所述目标识别跟踪结果融合环节，用于根据所述各个障碍物体的位置和方位角以及基于相机标定法确定的所述各个目标物体相对所述摄像头的位置方位，确定为同一物体的至少一对障碍物体与目标物体，并针对所述至少一对障碍物体与目标物体中的各对障碍物体与目标物体，融合对应障碍物体的速度和雷达目标跟踪结果以及对应目标物体的物体标记框和视频目标跟踪结果，得到人车跟踪结果，其中，所述人车跟踪结果包含有出现在所述目标监管区域中的各个行人的人体标记框以及出现在所述目标监管区域中的各个营运车辆的车体标记框和车速。

在一个可能的设计中，所述车身关键点检测模型采用MonoGRNet V2模型，其中，所述MonoGRNet V2模型用于检测如下车身关键点：位于车体左/右侧的两个车体顶点以及车轮中心点和/或车窗角点。

在一个可能的设计中，针对所述各个行人，根据在所述人车跟踪结果中的且对应的人体标记框，确定对应的运动轨迹，包括：

针对所述各个行人，将在所述人车跟踪结果中的且对应的人体标记框的框体中心点作为对应的人体中心点，并基于该人体中心点在时序上的三维坐标形成对应的运动轨迹。

在一个可能的设计中，判定某个行人的运动轨迹与由某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交，包括：

针对某个行人，根据对应的运动轨迹，确定对应的且用于连接当前运动轨迹点与前一运动轨迹点的当前运动直线；

采用直线与平面的相交点求解算法，计算得到所述当前运动直线与由某个营运车辆的多个左/右侧车身关键点确定的平面的交点坐标；

判断所述交点坐标是否位于所述当前运动轨迹点与所述前一运动轨迹点之间且位于由所述某个营运车辆的多个左/右侧车身关键点确定的多边形区域内部；

若是，则判定所述某个行人的运动轨迹与由所述某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交。

在一个可能的设计中，留存在所述人车跟踪结果中的且用于判定所述某个营运车辆存在滞站揽客行为的证据，包括：

从所述人车跟踪结果中抽取包含有所述某个营运车辆的车辆图像、车体标记框和所述多边形车身侧面以及所述某个行人的人体图像和运动轨迹的视频画面；

从所述视频画面中截取所述某个营运车辆的车辆图像，并将该车辆图像导入车牌号识别模型，得到所述某个营运车辆的车牌号码；

将所述视频画面和所述车牌号码绑定作为用于判定所述某个营运车辆存在滞站揽客行为的证据并进行留存。

第二方面，提供了一种营运车辆滞站揽客行为识别装置，包括有数据获取模块、人车跟踪模块、关键点检测模块、轨迹确定模块和行为确认模块；

所述数据获取模块，用于获取由雷达对目标监管区域实时采集的雷达数据以及由摄像头对所述目标监管区域实时采集的视频数据；

所述人车跟踪模块，通信连接所述数据获取模块，用于根据所述雷达数据和所述视频数据，采用雷视融合跟踪方式跟踪出现在所述目标监管区域中的各个行人以及各个营运车辆，得到人车跟踪结果，其中，所述人车跟踪结果包含有所述各个行人的人体标记框以及所述各个营运车辆的车体标记框和车速；

所述关键点检测模块，通信连接所述人车跟踪模块，用于针对所述各个营运车辆，当根据所述人车跟踪结果发现对应的车速低于预设的速度阈值时，将在所述人车跟踪结果中的且对应的车体标记框的框内图像输入车身关键点检测模型，得到对应的车身关键点；

所述轨迹确定模块，通信连接所述人车跟踪模块，用于针对所述各个行人，根据在所述人车跟踪结果中的且对应的人体标记框，确定对应的运动轨迹；

所述行为确认模块，分别通信连接所述人车跟踪模块、所述关键点检测模块和所述轨迹确定模块，用于在判定某个行人的运动轨迹与由某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交时，确认所述某个营运车辆存在滞站揽客行为，并留存在所述人车跟踪结果中的且用于判定所述某个营运车辆存在滞站揽客行为的证据。

在一个可能的设计中，所述人车跟踪模块包括有雷达目标检测单元、雷达目标跟踪单元、图像目标检测单元、图像目标跟踪单元和目标识别跟踪结果融合单元；

所述雷达目标检测单元，用于根据所述雷达数据检测得到出现在所述目标监管区域中的各个障碍物体的位置、速度和方位角；

所述雷达目标跟踪单元，用于根据所述雷达数据，采用HM对象跟踪器跟踪所述各个障碍物体，得到所述各个障碍物体的雷达目标跟踪结果；

所述图像目标检测单元，用于根据所述视频数据，采用yolo v4目标检测模型识别得到出现在所述目标监管区域中的各个目标物体，得到所述各个目标物体的物体标记框，其中，所述目标物体包含有行人和营运车辆；

所述图像目标跟踪单元，用于根据所述视频数据，采用deepsort多目标跟踪算法跟踪所述各个目标物体，得到所述各个目标物体的视频目标跟踪结果；

所述目标识别跟踪结果融合单元，分别通信连接所述雷达目标检测单元、所述雷达目标跟踪单元、所述图像目标检测单元和所述图像目标跟踪单元，用于根据所述各个障碍物体的位置和方位角以及基于相机标定法确定的所述各个目标物体相对所述摄像头的位置方位，确定为同一物体的至少一对障碍物体与目标物体，并针对所述至少一对障碍物体与目标物体中的各对障碍物体与目标物体，融合对应障碍物体的速度和雷达目标跟踪结果以及对应目标物体的物体标记框和视频目标跟踪结果，得到人车跟踪结果，其中，所述人车跟踪结果包含有出现在所述目标监管区域中的各个行人的人体标记框以及出现在所述目标监管区域中的各个营运车辆的车体标记框和车速。

第三方面，本发明提供了一种交通监管系统，包括有雷达、摄像头、智能路侧设备和后台服务器，其中，所述智能路侧设备分别通信连接所述雷达、所述摄像头和所述后台服务器；

所述雷达，用于实时采集获取目标监管区域的雷达数据，并将所述雷达数据实时传输至所述智能路侧设备；

所述摄像头，用于实时采集获取所述目标监管区域的视频数据，并将所述视频数据实时传输至所述智能路侧设备；

所述智能路侧设备，用于执行如第一方面或第一方面中任意可能设计所述的营运车辆滞站揽客行为识别方法，并将得到的留存证据上传至所述后台服务器。

第四方面，本发明提供了一种计算机设备，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面或第一方面中任意可能设计所述的营运车辆滞站揽客行为识别方法。

第五方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或第一方面中任意可能设计所述的营运车辆滞站揽客行为识别方法。

第六方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面或第一方面中任意可能设计所述的营运车辆滞站揽客行为识别方法。

上述方案的有益效果：

(1)本发明创造性提供了一种基于交通现场监控数据自动进行营运车辆滞站揽客行为识别并留存证据的交通监管方案，即先根据实时采集的雷达数据和视频数据，采用雷视融合跟踪方式跟踪出现在目标监管区域中的各个行人以及各个营运车辆，得到人车跟踪结果，然后针对各个营运车辆，将在低速时的且对应的车体框内图像输入车身关键点检测模型，得到对应的车身关键点，以及针对各个行人，根据对应的人体标记框确定对应的运动轨迹，最后在判定某个行人的运动轨迹与由某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交时，确认所述某个营运车辆存在滞站揽客行为，并留存相关证据，如此可以有效提升针对营运车辆滞站揽客行为的交通监管效率，有力促进我国交通监管系统朝智能化方向发展；

(2)还可从人车跟踪结果中提取出违规营运车辆进行滞站揽客的有力证据以及车牌号码，足以保证留存证据的充分必要性，进而可利于节省证据存储空间，提升证据留存效率，进一步提升针对营运车辆滞站揽客行为的交通监管效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的营运车辆滞站揽客行为识别方法的流程示意图。

图2为本申请实施例提供的基于雷达数据进行障碍物体方位角检测的原理图。

图3为本申请实施例提供的基于雷视融合跟踪方式所得人车跟踪结果的示例图。

图4为本申请实施例提供的营运车辆的左/右侧车身关键点及多边形车身侧面的示例图，其中，图4(a)示出了营运车辆的左侧车身关键点及多边形车身侧面，图4(b)示出了营运车辆的右侧车身关键点及多边形车身侧面。

图5为本申请实施例提供的MonoGRNet V2模型的结构示意图。

图6为本申请实施例提供的进行目标深度推理的示例图。

图7为本申请实施例提供的判断直线与平面相交的示例图。

图8为本申请实施例提供的营运车辆滞站揽客行为识别装置的结构示意图。

图9为本申请实施例提供的交通监管系统的结构示意图。

图10为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍，显而易见地，下面关于附图结构的描述仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

应当理解，尽管本文可能使用术语第一和第二等等来描述各种对象，但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A、单独存在B或者同时存在A和B等三种情况；又例如，A、B和/或C，可以表示存在A、B和C中的任意一种或他们的任意组合；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A或者同时存在A和B等两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

实施例：

如图1所示，本实施例第一方面提供的所述营运车辆滞站揽客行为识别方法，可以但不限于由具有一定计算资源的且通信连接雷达和摄像头的计算机设备执行，例如由智能路侧设备(Road Side Unit,RSU，是一种作为车路协同系统中道路基础设施网络化及智能化的关键基础设备)、平台服务器、个人计算机(Personal Computer，PC，指一种大小、价格和性能适用于个人使用的多用途计算机；台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personal DigitalAssistant，PDA)或可穿戴设备等电子设备执行。如图1所示，所述营运车辆滞站揽客行为识别方法，可以但不限于包括有如下步骤S1～S5。

S1.获取由雷达对目标监管区域实时采集的雷达数据以及由摄像头对所述目标监管区域实时采集的视频数据。

在所述步骤S1中，所述雷达的探测范围涵盖所述目标监管区域，用于通过电磁波的发射及接收方式实时采集得到作为交通现场监控数据的雷达数据；所述雷达可以但不限于具体采用毫米波雷达。所述摄像头的镜头视野也涵盖所述目标监管区域，用于实时采集所述目标监管区域的视频帧图像，得到包含有若干连续视频帧图像的且作为另一交通现场监控数据的的视频数据；所述摄像头可以但不限于具体采用双目相机。所述目标监管区域可以但不限于为客运车站进出口或其它严令禁止营运车辆滞站揽客的区域，所述雷达和所述摄像头可以通过常规方式进行布置，并将采集得到的数据传输至本地设备。

S2.根据所述雷达数据和所述视频数据，采用雷视融合跟踪方式跟踪出现在所述目标监管区域中的各个行人以及各个营运车辆，得到人车跟踪结果，其中，所述人车跟踪结果包含有所述各个行人的人体标记框以及所述各个营运车辆的车体标记框和车速。

在所述步骤S2中，雷视融合是将视频数据与毫米波雷达数据进行多维融合，并结合相关算法能力，以多频段感知实现对路面信息的数据采集和特征分析，并作出决策。具体的，根据所述雷达数据和所述视频数据，采用雷视融合跟踪方式跟踪出现在所述目标监管区域中的各个行人以及各个营运车辆，得到人车跟踪结果，包括但不限于有：雷达目标检测环节、雷达目标跟踪环节、图像目标检测环节、图像目标跟踪环节和目标识别跟踪结果融合环节。

所述雷达目标检测环节，用于根据所述雷达数据检测得到出现在所述目标监管区域中的各个障碍物体的位置、速度和方位角。所述障碍物体可以但不限于为车辆等物体，其位置、速度和方位角的具体获取方式，可以但不限于包括如下：(1)针对位置，由于毫米波雷达是通过发射天线发出相应波段的且有指向性的毫米波，当毫米波遇到障碍物体后会反射回来，再通过接收天线接收反射回来的毫米波，如此可根据毫米波的波段，通过公式计算毫米波在途中飞行的时间×光速÷2，再结合雷达的静止特点和车辆的行驶速度等因素，就可以知道毫米波雷达与障碍物体之间的相对距离了，同时也就知道该障碍物体的位置。(2)针对速度，由于根据多普勒效应，毫米波反射回波的频率变化与车辆相对雷达的速度是紧密相关的，因此根据毫米波反射回波的频率变化，可以得知在雷达前方实时跟踪的障碍物体与静止雷达相比的相对运动速度，即表现出来就是，障碍物体减速，毫米波反射回波的频率将会越来越高，反之则频率越来越低。(3)针对方位角，由于毫米雷达的探测原理是：通过毫米波雷达的发射天线发射出毫米波后，若毫米波遇到障碍物体会反射回来，通过毫米波雷达并列的接收天线，可收到同一障碍物体反射回来的毫米波的相位差，就可以计算出被障碍物体的所处方位角了；举例的，如图2所示，通过毫米波雷达接收天线RX1和接收天线RX2之间的几何距离d，以及这两根毫米波雷达天线所收到反射回波的相位差b，即可利用三角函数计算得到方位角α_AZ的值，这样就可以知道障碍物体Target的所处方位角了。

所述雷达目标跟踪环节，用于根据所述雷达数据，采用HM对象跟踪器跟踪所述各个障碍物体，得到所述各个障碍物体的雷达目标跟踪结果。所述HM对象跟踪器(HM ObjectTracker)是一种跟踪分段检测到的障碍物的现有感知分析工具；通常它是通过将当前检测与现有跟踪列表相关联，来形成和更新跟踪列表，如不再存在，则删除旧的跟踪列表，并在识别出新的检测时生成新的跟踪列表；更新后的跟踪列表的运动状态将在关联后进行估计。在所述HM对象跟踪器中，匈牙利算法用于检测到跟踪关联，并采用鲁棒卡尔曼滤波器进行运动估计。所述HM对象跟踪器的主要跟踪流程如下：(1)预处理，包括物体对象坐标系转换；对每个物体创建跟踪对象，加入跟踪列表；记录现在被跟踪的对象；(2)卡尔曼滤波器滤波，预测物体当前位置与速度(卡尔曼滤波阶段1：预测阶段)；(3)匈牙利算法匹配，关联检测物体和跟踪物体；(4)卡尔曼滤波，更新跟踪物体位置与速度信息(卡尔曼滤波阶段2：更新阶段)。

所述图像目标检测环节，用于根据所述视频数据，采用yolo v4目标检测模型识别得到出现在所述目标监管区域中的各个目标物体，得到所述各个目标物体的物体标记框，其中，所述目标物体包含有行人和营运车辆。所述yolo v4目标检测模型由三部分组成，分别是骨干网络backbone、颈部网络neck和头部网络head。所述骨干网络Backbone可采用CSPDarknet53(CSP表示Cross Stage Partial)网络，用于提取特征。所述颈部网络neck由SPP(Spatial Pyramid Pooling block)块和PANet(Path Aggregation Network)网络组成，前者用于增加感受野以及分离出最重要的特征，后者用于保证同时从高级别层接受语义特征和从横向骨干网络的低级别层接收细粒度的特征。所述头部网络head是基于锚框进行检测，并对三种不同尺寸的特征图：尺寸为13×13的特征图、尺寸为26×26的特征图和尺寸为52×52的特征图进行检测，分别用于检测从大到小的目标(在这里，尺寸大的特征图包含到信息更加丰富，因此，尺寸为52×52的特征图用于检测小目标，反之亦然)。此外，利用所述yolo v4目标检测模型进行目标物体检测的具体用法为现有技术，于此不再赘述。

所述图像目标跟踪环节，用于根据所述视频数据，采用deepsort多目标跟踪算法跟踪所述各个目标物体，得到所述各个目标物体的视频目标跟踪结果。所述deepsort多目标跟踪算法的具体流程如下：(1)在第一帧视频图像进来时，以检测到的目标初始化并创建新的跟踪器，标注id；(2)在后面视频图像帧进来时，先到卡尔曼滤波器中得到由前面帧box产生的状态预测和协方差预测，求跟踪器所有目标状态预测与本帧检测的box的IOU(Intersection over Union)，通过匈牙利指派算法得到IOU最大的唯一匹配(数据关联部分)，再去掉匹配值小于iou_threshold的匹配对；(3)用本帧中匹配到的目标检测box去更新卡尔曼跟踪器，计算卡尔曼增益、状态更新和协方差更新，并将状态更新值输出，作为本帧的跟踪box，同时对于本帧中没有匹配到的目标重新初始化跟踪器。考虑在未匹配的跟踪目标中可能就包含了被遮挡的目标，只是在当前帧图像中没有被检测到，因此在所述deepsort多目标跟踪算法中，优选包括有：针对未匹配的跟踪目标，根据对应的当前预测位置判断是否离开所述目标监管区域(即根据当前预测位置与帧图像边界的位置关系，判断是否仍出现在帧图像中，若在，则判定未离开所述目标监管区域，否则判定离开所述目标监管区域)，若是，则在下一次位置预测时舍弃该跟踪目标，否则在下一次位置预测时依然使用卡尔曼滤波法预测对应的位置。如此在发现跟踪目标被遮挡时(即在跟踪目标未匹配有检测目标且当前预测位置仍出现在当前帧图像中)，可将该跟踪目标标记为被遮挡masked，然后依旧使用卡尔曼滤波法预测在下一帧图像中的位置，直到匹配有检测目标或发现该跟踪目标超出图像的范围为止，进而相对于一般的丢弃处理方法，可以避免因遮挡而提前终止视频跟踪，确保跟踪的长期持续性。

所述目标识别跟踪结果融合环节，用于根据所述各个障碍物体的位置和方位角以及基于相机标定法确定的所述各个目标物体相对所述摄像头的位置方位，确定为同一物体的至少一对障碍物体与目标物体，并针对所述至少一对障碍物体与目标物体中的各对障碍物体与目标物体，融合对应障碍物体的速度和雷达目标跟踪结果以及对应目标物体的物体标记框和视频目标跟踪结果，得到人车跟踪结果，其中，所述人车跟踪结果包含有出现在所述目标监管区域中的各个行人的人体标记框以及出现在所述目标监管区域中的各个营运车辆的车体标记框和车速。前述的相机标定就是通过输入带有标定pattern的标定板来计算相机参数，以便用简单的数学模型(求解这个数学模型，也就是求解相机的参数，包括相机的内参、外参以及畸变参数等)来表达复杂的成像过程。本实施例采用传统相机标定法，该方法需要使用尺寸已知的标定物，通过建立标定物上坐标已知的点与其图像点之间的对应，利用一定的算法获得相机模型的内外参数；根据标定物的不同可分为三维标定物和平面型标定物，其中，所述三维标定物可由单幅图像进行标定，标定精度较高，但高精密三维标定物的加工和维护较困难，所述平面型标定物比三维标定物制作简单，精度易保证，但标定时必须采用两幅或两幅以上的图像。所述传统相机标定法在标定过程中始终需要标定物，且标定物的制作精度会影响标定结果。前述融合的具体细节为现有技术细节，最终可得到如图3所示的雷视融合效果，举例的，在显示标签“car(79:45)”中，car表示目标检测的类别——营运车辆，79表示车辆id，45则表示车辆速度(单位为千米每小时)。

S3.针对所述各个营运车辆，当根据所述人车跟踪结果发现对应的车速低于预设的速度阈值时，将在所述人车跟踪结果中的且对应的车体标记框的框内图像输入车身关键点检测模型，得到对应的车身关键点。

在所述步骤S3中，所述速度阈值可以举例为5千米每小时，即行人的一般行走速度，若车速低于此速度阈值，则有可能存在上下车行为。所述车身关键点检测模型可具体采用MonoGRNet V2模型，其中，所述MonoGRNet V2模型用于检测如下车身关键点：位于车体左/右侧的两个车体顶点以及车轮中心点和/或车窗角点，等等。如图4所示，除了需要检测位于车体左/右侧的两个车体顶点之外，还需要检测前车轮中心点和后车轮中心点，以便基于这些同侧车身关键点，确定一个四边形的车身侧面。所述MonoGRNet V2模型的模型结构如图5所示，由如下三个子任务组成：二维目标检测任务，二维关键点检测任务和三维关键点估计及几何分类任务。

在所述MonoGRNet V2模型中，所述二维目标检测任务具体使用Mask R-CNN架构，包括有特征金字塔网络(Feature Pyramid Network，FPN)、区域生成网络(RegionProposal Network，RPN)和RoIAlign模块，其中，FPN主要解决的是物体检测中的多尺度问题，即通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体检测的性能；RPN用于在所提供的特征图的整个区域内生成一组具有固定纵横比的二维锚框；RoIAlign模块用于将每个由感兴趣区域框定的特征图转换为一个固定尺寸的网格，并通过双线性插值法保证空间位置的准确性。最后是全连接层，网络分为两个特征共享分支，分别用于边界框回归和目标分类。此外，所述MonoGRNet V2模型并不会直接利用二维目标检测，而是会利用该RoIAlign模块来稳定训练过程。

在所述MonoGRNet V2模型中，所述二维关键点检测任务用于预测手动选择的车身关键点的坐标和可视状态，并直接对二维关键点坐标进行回归，其中，所述可视状态由实例受到的遮挡和截断决定，是一个二元变量。添加可视性评估可以帮助在训练过程中只传播可视关键点的信息，并且可以作为方向子网络的辅助监督。所述二维关键点检测任务的损失函数如下：

L_kp＝L_coords+L_vis

式中，K表示车身关键点的总数，例如为8，表示第k个车身关键点的可视性指示器，/>表示真实的二维关键点坐标，/>表示预测的二维关键点坐标，/>表示真实的可见性状态，/>表示第k个车身关键点可视性的评估概率。

在所述MonoGRNet V2模型中，所述三维关键点估计及几何分类任务用于从预先定义的3D CAD样板模型中，为数据集中每个标注好的3D实例分配一个，其中，具体分配规则是基于长宽高比例进行的。同时对于每个几何类别，会计算出所有指定的带标注的3D实例的均值(μ_w,μ_l,μ_h)。在训练过程中，所述三维关键点估计及几何分类任务会预测偏置，即预测值和3D实例均值的差异D_offset＝(Δw,Δl,Δh)＝(w-μ_w,l-μ_l,h-μ_h)，这一部分的损失函数为：

式中，gt代表真实值每个维度相对于类别均值的偏置，pred代表预测值每个维度相对于类别均值的偏置。

在所述MonoGRNet V2模型中，还会进行目标深度的推理、方向估计、三维目标检测和计算多头重投影一致性损失。目标深度表示为相机坐标系中，两个相距最近的可视关键点连成垂直平面的深度Z，参考图6。要计算该深度Z，需要依赖于之前预测的二维关键点以及几何类别：首先，选择图像中的两个关键点(x₁,y₁)，(x₂,y₂)，并且计算它们在y轴正方形上的差异h_p＝|y₁-y₂|；然后选择CAD模型坐标系中对应的两个关键点和并计算它们的高度比率/>则深度Z可定义为：

式中，f表示相机的焦距；然后便可以根据深度Z使用反向投影映射计算其中一个选定的车身关键点的其它3D位置坐标。

式中，(p_x,p_y)是相机主点的像素坐标。在进行方向估计时，可将全局方向看作是两个旋转方位角的组合，定义如下：

R＝θ_loc+θ_ray

式中，θ_loc是目标在图像感兴趣区域上的方向，θ_ray是从摄像机到目标中心光线的方向，可以直接从三维位置坐标中得到。所述MonoGRNet V2模型会将360度离散化为72个非重叠分区，然后通过softmax函数计算这些角度集合的概率分布。要得到θ_loc预测值，需要用到分区中位数的加权平均值，可采用softmax函数的输出作为权重。全局方向则可以表示如下：在进行三维目标检测时，所要得到三维边界框的中心点C，需要用到全局方向R和关键点与目标中心之间的距离，具体公式如下：

C＝(X,Y,Z)±R·D⊙r_cad

式中，D为(w,h,l)，⊙表示点积，此外，在计算多头重投影一致性损失时，考虑每个子网络除了共享卷积骨干网络外均是独立的，尽管几何组件是强相关的，但并不会影响到彼此的预测，因此为了保证网络分支之间的一致性，所述MonoGRNet V2模型会将所有预测整合在一起作为损失函数，即关键点集合K中的车身关键点在CAD模型坐标系统的三维坐标经过D的缩放，R的旋转和C的转换，并通过相机投影矩阵反向投影到图像上来得到二维关键点坐标，然后与真实值做比较。

S4.针对所述各个行人，根据在所述人车跟踪结果中的且对应的人体标记框，确定对应的运动轨迹。

在所述步骤S4中，具体的，包括但不限于有：针对所述各个行人，将在所述人车跟踪结果中的且对应的人体标记框的框体中心点作为对应的人体中心点，并基于该人体中心点在时序上的三维坐标形成对应的运动轨迹。前述的三维坐标可以基于传统相机标定法确定得到。此外，所述步骤S4与所述步骤S3的先后顺序可以不限，例如也可以同时执行，等等。

S5.在判定某个行人的运动轨迹与由某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交时，确认所述某个营运车辆存在滞站揽客行为，并留存在所述人车跟踪结果中的且用于判定所述某个营运车辆存在滞站揽客行为的证据。

在所述步骤S5中，具体的，判定某个行人的运动轨迹与由某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交，包括但不限于有如下步骤S511～S514。

S511.针对某个行人，根据对应的运动轨迹，确定对应的且用于连接当前运动轨迹点与前一运动轨迹点的当前运动直线。

在所述步骤S511中，所述前一运动轨迹点是指在时序上位于所述当前运动轨迹点之前的一个运动轨迹点。

S512.采用直线与平面的相交点求解算法，计算得到所述当前运动直线与由某个营运车辆的多个左/右侧车身关键点确定的平面的交点坐标。

在所述步骤S512中，所述直线与平面的相交点求解算法的原理可如图7所示，在三维图形学中一般使用一个点和方向向量的方式来描述线形对象，假设有一个点P位于线形对象上，方向向量是则直线方程可表示为：

如图7，假设平面为ax+by+cz+D＝0，假设二者有交点，且为则直线上的点Q同样满足平面方程，将Q带入平面方程为：

a(P_x+t_Qd_x)+b(P_y+t_Qd_y)+c(P_z+t_Qd_z)+D＝0

则有：

写成向量形式为：

其中，如果那么直线和平面有唯一的交点，将t_Q值带入到/>可以求出二者的交点坐标。

S513.判断所述交点坐标是否位于所述当前运动轨迹点与所述前一运动轨迹点之间且位于由所述某个营运车辆的多个左/右侧车身关键点确定的多边形区域内部。

在所述步骤S513中，所述多边形区域可举例为如图4所示的四边形区域。

S514.若是，则判定所述某个行人的运动轨迹与由所述某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交。

在所述步骤S5中，若发现某个行人的运动轨迹与由某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交，则可表明所述某个行人刚好从所述某个营运车辆中出来或者刚好进入所述某个营运车辆，即存在上下车行为，此时可确认所述某个营运车辆存在滞站揽客行为，反之则无法确认。

由此基于前述步骤S1～S5所描述的营运车辆滞站揽客行为识别方法，提供了一种基于交通现场监控数据自动进行营运车辆滞站揽客行为识别并留存证据的交通监管方案，即先根据实时采集的雷达数据和视频数据，采用雷视融合跟踪方式跟踪出现在目标监管区域中的各个行人以及各个营运车辆，得到人车跟踪结果，然后针对各个营运车辆，将在低速时的且对应的车体框内图像输入车身关键点检测模型，得到对应的车身关键点，以及针对各个行人，根据对应的人体标记框确定对应的运动轨迹，最后在判定某个行人的运动轨迹与由某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交时，确认所述某个营运车辆存在滞站揽客行为，并留存相关证据，如此可以有效提升针对营运车辆滞站揽客行为的交通监管效率，有力促进我国交通监管系统朝智能化方向发展，便于实际应用和推广。

本实施例在前述第一方面的技术方案基础上，还提供了一种如何具体进行证据留存的可能设计一，即留存在所述人车跟踪结果中的且用于判定所述某个营运车辆存在滞站揽客行为的证据，包括但不限于有如下步骤S521～S523。

S521.从所述人车跟踪结果中抽取包含有所述某个营运车辆的车辆图像、车体标记框和所述多边形车身侧面以及所述某个行人的人体图像和运动轨迹的视频画面。

在所述步骤S521中，具体抽取方式可采用常规的抽帧方式实现。此外，所述视频画面可以是单个视频图像，也可以是由多个连续视频图像组成的短视频。

S522.从所述视频画面中截取所述某个营运车辆的车辆图像，并将该车辆图像导入车牌号识别模型，得到所述某个营运车辆的车牌号码。

在所述步骤S522中，所述车牌号识别模型为现有识别模型/算法，可以通过它识别得到所述某个营运车辆的车牌号码。

S523.将所述视频画面和所述车牌号码绑定作为用于判定所述某个营运车辆存在滞站揽客行为的证据并进行留存。

由此基于前述可能设计一，还可从人车跟踪结果中提取出违规营运车辆进行滞站揽客的有力证据以及车牌号码，足以保证留存证据的充分必要性，进而可利于节省证据存储空间，提升证据留存效率，进一步提升针对营运车辆滞站揽客行为的交通监管效率。

如图8所示，本实施例第二方面提供了一种实现第一方面或可能设计一所述的营运车辆滞站揽客行为识别方法的虚拟装置，包括有数据获取模块、人车跟踪模块、关键点检测模块、轨迹确定模块和行为确认模块；

在一个可能设计中，所述人车跟踪模块包括有雷达目标检测单元、雷达目标跟踪单元、图像目标检测单元、图像目标跟踪单元和目标识别跟踪结果融合单元；

本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果，可以参见第一方面或可能设计一所述的营运车辆滞站揽客行为识别方法，于此不再赘述。

如图9所示，本实施例第三方面提供了一种应用如第一方面或可能设计一所述的营运车辆滞站揽客行为识别方法的交通监管系统，包括有雷达、摄像头、智能路侧设备和后台服务器，其中，所述智能路侧设备分别通信连接所述雷达、所述摄像头和所述后台服务器；所述雷达，用于实时采集获取目标监管区域的雷达数据，并将所述雷达数据实时传输至所述智能路侧设备；所述摄像头，用于实时采集获取所述目标监管区域的视频数据，并将所述视频数据实时传输至所述智能路侧设备；所述智能路侧设备，用于执行如第一方面或可能设计一所述的营运车辆滞站揽客行为识别方法，并将得到的留存证据上传至所述后台服务器。此外，所述雷达、所述摄像头和所述智能路侧设备可以分别有多个，以便构成多组来一一对应地监管多个不同的目标监管区域。

本实施例第三方面提供的前述系统的工作过程、工作细节和技术效果，可以参见第一方面或可能设计一所述的营运车辆滞站揽客行为识别方法，于此不再赘述。

如图10所示，本实施例第四方面提供了一种执行如第一方面或可能设计一所述的营运车辆滞站揽客行为识别方法的计算机设备，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如第一方面或可能设计一所述的营运车辆滞站揽客行为识别方法。具体举例的，所述存储器可以但不限于包括随机存取存储器(Random-AccessMemory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(First Input First Output，FIFO)和/或先进后出存储器(First Input Last Output，FILO)等等；所述处理器可以但不限于采用型号为STM32F105系列的微处理器。此外，所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。

本实施例第四方面提供的前述计算机设备的工作过程、工作细节和技术效果，可以参见第一方面或可能设计一所述的营运车辆滞站揽客行为识别方法，于此不再赘述。

本实施例第五方面提供了一种存储包含如第一方面或可能设计一所述的营运车辆滞站揽客行为识别方法的指令的计算机可读存储介质，即所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面或可能设计一所述的营运车辆滞站揽客行为识别方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等计算机可读存储介质，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

本实施例第五方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果，可以参见如第一方面或可能设计一所述的营运车辆滞站揽客行为识别方法，于此不再赘述。

本实施例第六方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面或可能设计一所述的营运车辆滞站揽客行为识别方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种营运车辆滞站揽客行为识别方法，其特征在于，包括：

2.根据权利要求1所述的营运车辆滞站揽客行为识别方法，其特征在于，根据所述雷达数据和所述视频数据，采用雷视融合跟踪方式跟踪出现在所述目标监管区域中的各个行人以及各个营运车辆，得到人车跟踪结果，包括有：雷达目标检测环节、雷达目标跟踪环节、图像目标检测环节、图像目标跟踪环节和目标识别跟踪结果融合环节；

3.根据权利要求1所述的营运车辆滞站揽客行为识别方法，其特征在于，所述车身关键点检测模型采用MonoGRNet V2模型，其中，所述MonoGRNet V2模型用于检测如下车身关键点：位于车体左/右侧的两个车体顶点以及车轮中心点和/或车窗角点。

4.根据权利要求1所述的营运车辆滞站揽客行为识别方法，其特征在于，针对所述各个行人，根据在所述人车跟踪结果中的且对应的人体标记框，确定对应的运动轨迹，包括：

5.根据权利要求1所述的营运车辆滞站揽客行为识别方法，其特征在于，判定某个行人的运动轨迹与由某个营运车辆的多个左/右侧车身关键点确定的多边形车身侧面相交，包括：

6.根据权利要求1所述的营运车辆滞站揽客行为识别方法，其特征在于，留存在所述人车跟踪结果中的且用于判定所述某个营运车辆存在滞站揽客行为的证据，包括：

7.一种营运车辆滞站揽客行为识别装置，其特征在于，包括有数据获取模块、人车跟踪模块、关键点检测模块、轨迹确定模块和行为确认模块；

8.一种交通监管系统，其特征在于，包括有雷达、摄像头、智能路侧设备和后台服务器，其中，所述智能路侧设备分别通信连接所述雷达、所述摄像头和所述后台服务器；

所述智能路侧设备，用于执行如权利要求1～6中任意一项所述的营运车辆滞站揽客行为识别方法，并将得到的留存证据上传至所述后台服务器。

9.一种计算机设备，其特征在于，包括有依次通信连接的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～6中任意一项所述的营运车辆滞站揽客行为识别方法。

10.一种计算机可读存储介质，其特征在于,所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～6中任意一项所述的营运车辆滞站揽客行为识别方法。