CN112785564A

CN112785564A - 一种基于机械臂的行人检测跟踪系统与方法

Info

Publication number: CN112785564A
Application number: CN202110052568.8A
Authority: CN
Inventors: 蔡浩; 郭淼伊
Original assignee: Wuhan Textile University
Current assignee: Wuhan Textile University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-05-11
Anticipated expiration: 2041-01-15
Also published as: CN112785564B

Abstract

本发明公开了一种基于机械臂的行人检测跟踪系统与方法，包括视频图像采集单元、行人检测与定位单元、图像视频处理单元、视频图像显示单元，以及机械臂控制单元；视频图像采集单元是利用摄像头和与其连接的机械臂实时采集目标区域的视频图像；行人检测与定位单元是利用预先训练好的行人检测模型对实时的视频目标图像进行初步的识别定位，得到含有行人图像的数据；图像视频处理单元是对有效的图像视频进行实时本地存储；视频图像显示单元将摄像头以及算法处理过的整合图像实时显示在界面上的；机械臂控制单元是将采集到的行人信息过滤、筛选，并相应的传输到舵机控制模块用PID算法进行机械臂的实时控制，以达到对行人的准确跟踪。

Description

一种基于机械臂的行人检测跟踪系统与方法

技术领域

本发明属于行人检测和目标跟踪技术领域，更具体地，涉及一种基于机械臂的行人检测跟踪系统与方法。

背景技术

目前，在计算机应用领域,行人检测有着非常广泛的应用，比如车辆辅助驾驶系统、智能视频监控、机器人、航拍图像、人机交互系统、运动分析等。行人检测系统在近几年也已成为研发热点。此外，工作人员户外作业的安全事故时有发生，其中诸多因素比如违规操作，或监管员安全监管不到位等都会导致极其严重的安全事故发生，传统的机器监管得益于广泛布置的监控摄像头网络，很多智能分析的算法可以直接对从摄像头网络中获取的视频流进行实时分析，从而消除人为监测的不准确性以及加强对作业人员的实时安防，控制灾难事件的发生，把各类损失降到最低。

传统的行人检测系统只做到了多摄像头同时监控，这种方法局限于只能在特定区域或者小范围区域使用，如果要在任意灵活的变换场地进行行人检测跟踪，使用多摄像头方法往往是不可行的，而且，对特定的人的作业行为进行实时监控，传统方法只能用到人力监视安防，但人类情绪往往带有主观性，导致判断的不准确。因此设计一种计算机系统对从监控摄像头网络中获取的视频流进行智能分析并得到行人数据，实时跟踪并存储图像信息，具有巨大的应用价值。由于场景的复杂性以及分析数据与行人跟踪的时效性，现存文献中采用的行人检测算法普遍采用语义分割信息来进行行人检测，这类方法背景简单且与行人有明显颜色差别才能准确给出行人边界以达到较好的效果，但是当场景一旦变得复杂难以辨认，就不易区分不同的物体，也就是检测出的目标不准确，或在检测中失去焦点。因此，传统的行人检测方法无法在复杂场景进行准确检测，还有当有类人形的物体，传统方法难以对其进行区分，进而对真实检测结果产生干扰。

公开号为CN110427905A的中国专利“行人跟踪方法、装置以及终端”采用的是对视频中提取的图像中的行人进行检测，标识出多个行人检测框，对图像中的人脸进行检测，标识出多个人脸检测框，将图像中的多个行人检测和多个人脸检测框进行匹配，得到匹配结果，并根据匹配结果标识出多个人体框，最后对人体框进行跟踪计算，得到行人跟踪结果；该方法先检测行人，再标出人脸，最后将人脸和人体框进行匹配，使得图像处理步骤繁琐，同时检测精度过低，时效性过差，也为做到多人场合下的行人跟踪。公开号为CN106778570B的中国专利“一种行人实时检测与跟踪方法”是通过背景建模模块进行前景检测，对前景检测的结果进行处理后找出动态目标所在的区域，通过行人检测模块对动态目标所在的区域进行行人检测，通过行人跟踪模块用行人检测的结果进行行人跟踪。这种方式，要开始对前景进行复杂的检测分析，根据结果寻找动态目标，计算成本较大且需要较多的准备时间，且需要多次的区域检测计算，算法较为复杂。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于机械臂的行人检测跟踪系统与方法，其目的在于增加行人检测速度与精度以及加快跟踪准确度和灵敏度，简化现有的行人检测和行人跟踪的算法。

为实现上述目的，按照本发明的一个方面，提供了一种基于机械臂的行人检测跟踪系统，包括视频图像采集单元、行人检测与定位单元、视频图像处理单元、视频图像显示单元，以及机械臂控制单元；

所述视频图像采集单元用于采集目标区域内的行人视频图像序列；

所述行人检测与定位单元是利用行人检测模型对行人视频图像序列中的行人进行定位，并实时计算行人的坐标位置；

所述视频图像处理单元用于将采集到的行人视频图像进行实时的存储和传输；

所述视频图像显示单元用于实时显示行人的坐标位置以及行人的标定显示；

所述机械臂控制单元用于将计算到的行人位置数据处理后进行实时计算角度后控制机械臂转动进行行人跟踪。

进一步的，所述视频图像采集单元包括摄像机和与摄像机连接的机械臂；

所述机械臂用于带动摄像机进行自由的转动，进行垂直方向以及水平方向的自由拍摄；

所述摄像机用于拍摄采集行人活动的视频图像。

进一步的，所述的机械臂控制单元，是将识别检测出的行人位置数据通过网络传输到机械臂控制终端后，控制终端通过PID算法将行人位置数据转换成机械臂能够运行的转动角度数据，实时对行人的位移进行相应比例的角度变换跟踪，设定方向阈值，若某时刻不存在被检测对象时，控制系统会控制机械臂进入无应答状态；

所述的无应答状态，是机械臂会从起始点开始从左至右做最大限度的平稳慢速循环转动，直到发现检测到行人之后会立刻终止巡视，转而进入行人跟踪模式；

所述阈值，是设定水平以及垂直方向的角度进行行人的检测跟踪，转动的角度到达一个水平角度R和垂直角度S后不再转动。

进一步的，所述行人检测模型的网络结构包括基础网络模块，用于提取样本的浅层特征；附加特征提取模块，用于提取样本的深层特征；两级特征融合模块，用于将深层特征与浅层特征融合；分类与回归模块，用于计算损失，实现分类和行人框的回归；

所述基础网络模块采用VGG16模型，其Conv4_3作为浅层特征提取层；

所述附加特征提取模块，包括全连接层和多个卷积层；

所述两级特征融合模块，用于将全连接层和多个卷积层中的特征信息融合到Conv4_3中；

第一级融合，先将Conv4_3经过3×3卷积并以ReLU方式激活，再将全连接层和多个卷积层分别经过3×3卷积、ReLU方式激活以及双线性插值操作，使其与Conv4_3尺度一致；然后将经过卷积、激活和插值操作的多个特征提取层分别与经过卷积、激活操作的Conv4_3按照Eltwise-SUM方式融合在一起，即将特征图对应位置单元进行相加，得到多个融合图；最后，将每一个融合图再次以ReLU方式激活，并进行BatchNorm操作；

第二级融合，将所得的多个融合特征图按照Eltwise-SUM方式融合，即将每个特征融合图对应位置单元进行相加，得到新的融合图，然后再将新融合层以ReLU方式激活，并进行BatchNorm操作，得到最终的两级特征融合图。

进一步的，分类与回归模块的损失函数如公式(1)所示，包括分类损失与定位损失：

其中λ_coord和λ_noobj均表示权重；WxH表示两级特征融合图栅格尺寸，B表示每个栅格的预测边界框的个数，i表示两级特征融合图上所划分栅格的个数，

表示栅格中是否有行人出现，若出现值取为1，不出现为0；x_i、y_i与

表示预测边界框的中心点坐标与宽高值的平方根，

与

表示ground truth里的标注边界框的中心点坐标与宽高值的平方根；

表示含有行人的边界框预测值，C_i为预测置信度，

为ground truth里目标置信度，显然值为1，

表示不含行人的边界框预测值；

表示类别预测，p_i(c)表示预测类别概率值，

表示ground truth里的目标概率值，值取1，c表示类别，classes表示目标类别即行人。

进一步的，机械臂控制单元，是将识别检测出的行人边界框中心坐标x_i，y_i，宽度w_i和高度h_i数据通过网络传输到机械臂控制终端后，控制终端通过算法将数据转换成机械臂能够运行的转动角度数据，公式为U(t)＝K_P*err(t)，其中U(t)代表计算得到的图像中心和行人边界框中心之间的加权偏移量，K_P为比例系数，err(t)代表时刻t的误差，通过计算当前时刻t行人的中心坐标信息totalValue以及前一时刻的中心坐标信息cuttentValue得到err(t)，即分别对当前时刻和前一时刻两个方向上行人边界框中心与图像中心的坐标进行求差并取绝对值，然后将得到的偏移量U(t)利用公式S_p＝500+(100/9)×U(t)转化成机械臂舵机控制所需的PWM值，因为机械臂的横方向和纵方向是分别由两个舵机进行控制的，所以分别计算和调度得到的x和y方向的U(t)和S_p值，实现机械臂随着图像中行人坐标点变化而转动。

本发明还提供一种基于机械臂的行人检测跟踪方法，包括如下步骤：

步骤1，利用连接有机械臂的摄像头采集目标区域内的行人视频图像序列；

步骤2，构建行人检测模型，所述行人检测模型的网络结构包括基础网络模块，用于提取样本的浅层特征；附加特征提取模块，用于提取样本的深层特征；两级特征融合模块，用于将深层特征与浅层特征融合；分类与回归模块，用于计算损失，实现分类和行人框的回归；

所述附加特征提取模块，包括全连接层和多个卷积层；

第二级融合，将所得的多个融合特征图按照Eltwise-SUM方式融合，即将每个特征融合图对应位置单元进行相加，得到新的融合图，然后再将新融合层以ReLU方式激活，并进行BatchNorm操作，得到最终的两级特征融合图；

步骤3，获取训练样本并训练行人检测模型；

步骤4，利用训练好的行人检测模型，对实时采集的行人视频图像序列中的行人进行定位，并计算行人的坐标位置；

步骤5，机械臂控制终端将行人位置数据处转换为机械臂能够运行的转动角度数据，并控制机械臂转动进行行人跟踪。

表示预测边界框的中心点坐标与宽高值的平方根，

与

表示含有行人的边界框预测值，C_i为预测置信度，

为ground truth里目标置信度，显然值为1，

表示不含行人的边界框预测值；

表示类别预测，p_i(c)表示预测类别概率值，

进一步的，步骤5的具体实现方式和如下；

将识别检测出的行人边界框中心坐标x_i，y_i，宽度w_i和高度h_i数据通过网络传输到机械臂控制终端后，控制终端通过算法将数据转换成机械臂能够运行的转动角度数据，公式为U(t)＝K_P*err(t)，其中U(t)代表计算得到的图像中心和行人边界框中心之间的加权偏移量，K_P为比例系数，err(t)代表时刻t的误差，通过计算当前时刻t行人的中心坐标信息totalValue以及前一时刻的中心坐标信息cuttentValue得到err(t)，即分别对当前时刻和前一时刻两个方向上行人边界框中心与图像中心的坐标进行求差并取绝对值，然后将得到的偏移量U(t)利用公式S_p＝500+(100/9)×U(t)转化成机械臂舵机控制所需的PWM值，因为机械臂的横方向和纵方向是分别由两个舵机进行控制的，所以分别计算和调度得到的x和y方向的U(t)和S_p值，实现机械臂随着图像中行人坐标点变化而转动。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明提供的行人检测跟踪系统，利用深度学习算法，对实时采集的系列图像进行处理，从采集，分析，目标的定位，目标的位置坐标的计算，再到，针对计算结果的传输等处理。通过轻量级且高精度的算法，减少了计算的开销和监控场景中的多行人对跟踪目标选定影响。同时，利用PID算法，加强了目标跟踪的精确度和灵活性，同时对多人合成框的算法也可以排除若干行人对跟踪目标不确定的影响。相比于现有技术，可极大减少计算成本和降低系统复杂性，提高了图像处理以及摄像机跟踪效率和实时性；

在户外灵活作业的时候，传统设备无法灵活搬运，且执行危险作业时，人们无法做到客观详细的监测与记录，也就无法保证做到对每个工人实时的安防；本发明提供的行人检测跟踪系统，其所显示的视频图像可在作业过程中实时、醒目的反应工人的位置信息，为野外作业监测提供极大便利，在提高执行效率的同时，可降低因监管不到位导致的事故的发生概率，极大程度的避免工人灵活移动的时候无法实时跟踪监护的隐患；

(2)本发明提供的这种行人检测跟踪系统，可以应用到实际视频监控监视领域，解决了现存行人实时监测跟踪的局限性。

附图说明

图1是本发明提供的行人检测跟踪系统的一个实施例的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

参照图1所示，是本发明提供的行人检测跟踪系统一个实施例的示意图。实施例提供的这种行人检测跟踪系统包括视频图像数据单元、行人检测与定位单元、视频图像处理单元、视频图像显示单元，以及机械臂控制单元；

其中，视频图像采集单元，包括摄像机和与其相连的机械臂；

其中机械臂用于架设摄像机并为其提供一个自由度非常大的拍摄空间，机械臂底部舵机负责水平方向的旋转，旋转角度可达到R，我们将R设为180度，顶部舵机负责垂直方向的旋转，旋转方向可达到S，我们将R设为180度，大于这些值时，被判定为无效区域。

其中摄像机用于拍摄行人活动的视频图像，该摄像机可以拍摄到在目标空间(室内，作业场所等)有效范围内活动的人。

人检测与定位单元是利用行人检测模型对行人视频图像序列中的行人进行定位，并实时计算行人的坐标位置。其中所述行人检测模型的网络结构包括基础网络模块，用于提取样本的浅层特征；附加特征提取模块，用于提取样本的深层特征；两级特征融合模块，用于将深层特征与浅层特征融合；分类与回归模块，用于计算损失，实现分类和行人框的回归；

所述附加特征提取模块，包括全连接层和多个卷积层；

具体实施时，分类与回归模块可以采用YOLO模型，本实施例中分类与回归模块定义的损失函数如公式(1)所示，包括分类损失与定位损失：

其中λ_coord和λ_noobj均表示权重，前两项可以看作回归损失，后三项可以看作是分类损失；WxH表示两级特征融合图栅格尺寸，B表示每个栅格的预测边界框的个数，i表示两级特征融合图上所划分栅格的个数，

表示预测边界框的中心点坐标与宽高值的平方根，

与

表示含有行人的边界框预测值，C_i为预测置信度，

为groundtruth里目标置信度，显然值为1，

表示不含行人的边界框预测值；

表示类别预测，p_i(c)表示预测类别概率值，

利用预先训练好的行人检测模型，对实时的视频目标图像进行识别，将检查到的行人和位置坐标(包括边界框的中间坐标和宽高值)信息实时传输给机械臂控制单元。

其中，机械臂采用树莓派控制，行人检测模型采用计算机进行运算，计算机与树莓派之间的采用无线网络模块进行通信实时传输。

视频图像处理单元，是将识别检测出的有效行人数据，比如站立，行走的清晰图像视频数据存储到物理本地磁盘上。

视频图像显示单元，是将视频图像显示程序设置在后台主机上，会将目标区域内的视频数据经过识别计算检测后标出行人的视频实时的通过窗口显示出来。

机械臂控制单元，是将识别检测出的行人边界框中心坐标x_i，y_i，宽度w_i和高度h_i数据通过网络传输到机械臂控制终端后，控制终端通过算法将数据转换成机械臂能够运行的转动角度数据，公式为U(t)＝K_P*err(t)。其中U(t)代表计算得到的图像中心和行人边界框中心之间的加权偏移量，控制作用的强弱取决于比例系数K_P，比例系数K_P越大，控制作用越强，行人跟踪过程也越快，控制过程的静态偏差也就越小；但是过大的K_P系数，也越容易产生机械振荡，破坏系统的稳定性，该值可以通过手动调试调整合适的大小值。err(t)代表时刻t的误差，由于该任务的特殊性，我们可以将图像中心和行人边界框中心在一次检测时段内的差距作为误差。通过计算当前时刻t行人的中心坐标信息totalValue以及变化前的坐标信息cuttentValue得到err(t)，可以将该公式简化为err(t)＝|totalValue-currentValue|，即分别对当前时刻和前一时刻两个方向上行人边界框中心与图像中心的坐标进行求差并取绝对值，x_d＝|x_i-x_c|，y_d＝|y_i-y_c|，其中x_d和y_d表示中心坐标差，x_i和y_i表示行人边界框坐标中心，x_c和y_c|代表图像中心坐标值。我们将得到的偏移量U(t)利用公式S_p＝500+(100/9)×U(t)转化成机械臂舵机控制所需的PWM值，因为机械臂的横方向和纵方向是分别由两个舵机进行控制的，所以要分别计算和调度得到的x和y方向的U(t)和S_p值，就可以实现机械臂随着图像中人体坐标点变化而转动。

其中，对于多行人的场景，我们采用了合成框的方法，将若干个人的坐标参数整合为一个目标坐标参数进行跟踪监视，以便消除跟踪的局限性。

当目标区域内没人时，或者机器刚开始启动时，机械臂终端会自己运行进入巡视模式，机械臂会从起始点开始从左到右或从右到左做最大限度S的平稳慢速循环转动，限度S被设为了180度的范围，来寻找行人，直到发现检测到行人之后会立刻终止巡视，转而进入行人跟踪模式，直到行人离开极限视野后若干秒，再次转入巡视模式。

本发明提供的行人检测跟踪系统，可以实时准确的检测出行人的位置信息，并控制摄像头实时跟踪行人的动向，将其应用于户外人工作业中，则可以避免安防的不到位；且相比于现有技术而言，无需进行图像复杂处理，极大减少了计算量和计算成本，降低了对图像处理单元处理性能的要求，并可提高实时性，是室内户外行人检测或工人作业检测最高效的技术方案，具有极大的价值。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机械臂的行人检测跟踪系统，其特征在于：包括视频图像采集单元、行人检测与定位单元、图像视频处理单元、视频图像显示单元，以及机械臂控制单元；

2.如权利要求1所述的一种基于机械臂的行人检测跟踪系统，其特征在于：所述视频图像采集单元包括摄像机和与摄像机连接的机械臂；

所述摄像机用于拍摄采集行人活动的视频图像。

3.如权利要求1所述的一种基于机械臂的行人检测跟踪系统，其特征在于：所述的机械臂控制单元，是将识别检测出的行人位置数据通过网络传输到机械臂控制终端后，控制终端通过PID算法将行人位置数据转换成机械臂能够运行的转动角度数据，实时对行人的位移进行相应比例的角度变换跟踪，设定方向阈值，若某时刻不存在被检测对象时，控制系统会控制机械臂进入无应答状态；

4.如权利要求1所述的一种基于机械臂的行人检测跟踪系统，其特征在于：所述行人检测模型的网络结构包括基础网络模块，用于提取样本的浅层特征；附加特征提取模块，用于提取样本的深层特征；两级特征融合模块，用于将深层特征与浅层特征融合；分类与回归模块，用于计算损失，实现分类和行人框的回归；

所述附加特征提取模块，包括全连接层和多个卷积层；

5.如权利要求4所述的一种基于机械臂的行人检测跟踪系统，其特征在于：分类与回归模块的损失函数如公式(1)所示，包括分类损失与定位损失：

表示预测边界框的中心点坐标与宽高值的平方根，

与

表示含有行人的边界框预测值，C_i为预测置信度，

为groundtruth里目标置信度，显然值为1，

表示不含行人的边界框预测值；

表示类别预测，p_i(c)表示预测类别概率值，

表示groundtruth里的目标概率值，值取1，c表示类别，classes表示目标类别即行人。

6.如权利要求5所述的一种基于机械臂的行人检测跟踪系统，其特征在于：机械臂控制单元，是将识别检测出的行人边界框中心坐标x_i，y_i，宽度w_i和高度h_i数据通过网络传输到机械臂控制终端后，控制终端通过算法将数据转换成机械臂能够运行的转动角度数据，公式为U(t)＝K_P*err(t)，其中U(t)代表计算得到的图像中心和行人边界框中心之间的加权偏移量，K_P为比例系数，err(t)代表时刻t的误差，通过计算当前时刻t行人的中心坐标信息totalValue以及前一时刻的中心坐标信息cuttentValue得到err(t)，即分别对当前时刻和前一时刻两个方向上行人边界框中心与图像中心的坐标进行求差并取绝对值，然后将得到的偏移量U(t)利用公式S_p＝500+(100/9)×U(t)转化成机械臂舵机控制所需的PWM值，因为机械臂的横方向和纵方向是分别由两个舵机进行控制的，所以分别计算和调度得到的x和y方向的U(t)和S_p值，实现机械臂随着图像中行人坐标点变化而转动。

7.一种基于机械臂的行人检测跟踪方法，其特征在于，包括如下步骤：

所述附加特征提取模块，包括全连接层和多个卷积层；

步骤3，获取训练样本并训练行人检测模型；

8.如权利要求7所述的一种基于机械臂的行人检测跟踪方法，其特征在于：分类与回归模块的损失函数如公式(1)所示，包括分类损失与定位损失：