CN112785564A - 一种基于机械臂的行人检测跟踪系统与方法 - Google Patents

一种基于机械臂的行人检测跟踪系统与方法 Download PDF

Info

Publication number
CN112785564A
CN112785564A CN202110052568.8A CN202110052568A CN112785564A CN 112785564 A CN112785564 A CN 112785564A CN 202110052568 A CN202110052568 A CN 202110052568A CN 112785564 A CN112785564 A CN 112785564A
Authority
CN
China
Prior art keywords
pedestrian
mechanical arm
fusion
pedestrian detection
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110052568.8A
Other languages
English (en)
Other versions
CN112785564B (zh
Inventor
蔡浩
郭淼伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Textile University
Original Assignee
Wuhan Textile University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Textile University filed Critical Wuhan Textile University
Priority to CN202110052568.8A priority Critical patent/CN112785564B/zh
Publication of CN112785564A publication Critical patent/CN112785564A/zh
Application granted granted Critical
Publication of CN112785564B publication Critical patent/CN112785564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于机械臂的行人检测跟踪系统与方法,包括视频图像采集单元、行人检测与定位单元、图像视频处理单元、视频图像显示单元,以及机械臂控制单元;视频图像采集单元是利用摄像头和与其连接的机械臂实时采集目标区域的视频图像;行人检测与定位单元是利用预先训练好的行人检测模型对实时的视频目标图像进行初步的识别定位,得到含有行人图像的数据;图像视频处理单元是对有效的图像视频进行实时本地存储;视频图像显示单元将摄像头以及算法处理过的整合图像实时显示在界面上的;机械臂控制单元是将采集到的行人信息过滤、筛选,并相应的传输到舵机控制模块用PID算法进行机械臂的实时控制,以达到对行人的准确跟踪。

Description

一种基于机械臂的行人检测跟踪系统与方法
技术领域
本发明属于行人检测和目标跟踪技术领域,更具体地,涉及一种基于机械臂的行人检测跟踪系统与方法。
背景技术
目前,在计算机应用领域,行人检测有着非常广泛的应用,比如车辆辅助驾驶系统、智能视频监控、机器人、航拍图像、人机交互系统、运动分析等。行人检测系统在近几年也已成为研发热点。此外,工作人员户外作业的安全事故时有发生,其中诸多因素比如违规操作,或监管员安全监管不到位等都会导致极其严重的安全事故发生,传统的机器监管得益于广泛布置的监控摄像头网络,很多智能分析的算法可以直接对从摄像头网络中获取的视频流进行实时分析,从而消除人为监测的不准确性以及加强对作业人员的实时安防,控制灾难事件的发生,把各类损失降到最低。
传统的行人检测系统只做到了多摄像头同时监控,这种方法局限于只能在特定区域或者小范围区域使用,如果要在任意灵活的变换场地进行行人检测跟踪,使用多摄像头方法往往是不可行的,而且,对特定的人的作业行为进行实时监控,传统方法只能用到人力监视安防,但人类情绪往往带有主观性,导致判断的不准确。因此设计一种计算机系统对从监控摄像头网络中获取的视频流进行智能分析并得到行人数据,实时跟踪并存储图像信息,具有巨大的应用价值。由于场景的复杂性以及分析数据与行人跟踪的时效性,现存文献中采用的行人检测算法普遍采用语义分割信息来进行行人检测,这类方法背景简单且与行人有明显颜色差别才能准确给出行人边界以达到较好的效果,但是当场景一旦变得复杂难以辨认,就不易区分不同的物体,也就是检测出的目标不准确,或在检测中失去焦点。因此,传统的行人检测方法无法在复杂场景进行准确检测,还有当有类人形的物体,传统方法难以对其进行区分,进而对真实检测结果产生干扰。
公开号为CN110427905A的中国专利“行人跟踪方法、装置以及终端”采用的是对视频中提取的图像中的行人进行检测,标识出多个行人检测框,对图像中的人脸进行检测,标识出多个人脸检测框,将图像中的多个行人检测和多个人脸检测框进行匹配,得到匹配结果,并根据匹配结果标识出多个人体框,最后对人体框进行跟踪计算,得到行人跟踪结果;该方法先检测行人,再标出人脸,最后将人脸和人体框进行匹配,使得图像处理步骤繁琐,同时检测精度过低,时效性过差,也为做到多人场合下的行人跟踪。公开号为CN106778570B的中国专利“一种行人实时检测与跟踪方法”是通过背景建模模块进行前景检测,对前景检测的结果进行处理后找出动态目标所在的区域,通过行人检测模块对动态目标所在的区域进行行人检测,通过行人跟踪模块用行人检测的结果进行行人跟踪。这种方式,要开始对前景进行复杂的检测分析,根据结果寻找动态目标,计算成本较大且需要较多的准备时间,且需要多次的区域检测计算,算法较为复杂。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于机械臂的行人检测跟踪系统与方法,其目的在于增加行人检测速度与精度以及加快跟踪准确度和灵敏度,简化现有的行人检测和行人跟踪的算法。
为实现上述目的,按照本发明的一个方面,提供了一种基于机械臂的行人检测跟踪系统,包括视频图像采集单元、行人检测与定位单元、视频图像处理单元、视频图像显示单元,以及机械臂控制单元;
所述视频图像采集单元用于采集目标区域内的行人视频图像序列;
所述行人检测与定位单元是利用行人检测模型对行人视频图像序列中的行人进行定位,并实时计算行人的坐标位置;
所述视频图像处理单元用于将采集到的行人视频图像进行实时的存储和传输;
所述视频图像显示单元用于实时显示行人的坐标位置以及行人的标定显示;
所述机械臂控制单元用于将计算到的行人位置数据处理后进行实时计算角度后控制机械臂转动进行行人跟踪。
进一步的,所述视频图像采集单元包括摄像机和与摄像机连接的机械臂;
所述机械臂用于带动摄像机进行自由的转动,进行垂直方向以及水平方向的自由拍摄;
所述摄像机用于拍摄采集行人活动的视频图像。
进一步的,所述的机械臂控制单元,是将识别检测出的行人位置数据通过网络传输到机械臂控制终端后,控制终端通过PID算法将行人位置数据转换成机械臂能够运行的转动角度数据,实时对行人的位移进行相应比例的角度变换跟踪,设定方向阈值,若某时刻不存在被检测对象时,控制系统会控制机械臂进入无应答状态;
所述的无应答状态,是机械臂会从起始点开始从左至右做最大限度的平稳慢速循环转动,直到发现检测到行人之后会立刻终止巡视,转而进入行人跟踪模式;
所述阈值,是设定水平以及垂直方向的角度进行行人的检测跟踪,转动的角度到达一个水平角度R和垂直角度S后不再转动。
进一步的,所述行人检测模型的网络结构包括基础网络模块,用于提取样本的浅层特征;附加特征提取模块,用于提取样本的深层特征;两级特征融合模块,用于将深层特征与浅层特征融合;分类与回归模块,用于计算损失,实现分类和行人框的回归;
所述基础网络模块采用VGG16模型,其Conv4_3作为浅层特征提取层;
所述附加特征提取模块,包括全连接层和多个卷积层;
所述两级特征融合模块,用于将全连接层和多个卷积层中的特征信息融合到Conv4_3中;
第一级融合,先将Conv4_3经过3×3卷积并以ReLU方式激活,再将全连接层和多个卷积层分别经过3×3卷积、ReLU方式激活以及双线性插值操作,使其与Conv4_3尺度一致;然后将经过卷积、激活和插值操作的多个特征提取层分别与经过卷积、激活操作的Conv4_3按照Eltwise-SUM方式融合在一起,即将特征图对应位置单元进行相加,得到多个融合图;最后,将每一个融合图再次以ReLU方式激活,并进行BatchNorm操作;
第二级融合,将所得的多个融合特征图按照Eltwise-SUM方式融合,即将每个特征融合图对应位置单元进行相加,得到新的融合图,然后再将新融合层以ReLU方式激活,并进行BatchNorm操作,得到最终的两级特征融合图。
进一步的,分类与回归模块的损失函数如公式(1)所示,包括分类损失与定位损失:
Figure BDA0002899644130000041
其中λcoord和λnoobj均表示权重;WxH表示两级特征融合图栅格尺寸,B表示每个栅格的预测边界框的个数,i表示两级特征融合图上所划分栅格的个数,
Figure BDA0002899644130000042
表示栅格中是否有行人出现,若出现值取为1,不出现为0;xi、yi
Figure BDA0002899644130000043
表示预测边界框的中心点坐标与宽高值的平方根,
Figure BDA0002899644130000044
Figure BDA0002899644130000045
表示ground truth里的标注边界框的中心点坐标与宽高值的平方根;
Figure BDA0002899644130000046
表示含有行人的边界框预测值,Ci为预测置信度,
Figure BDA0002899644130000047
为ground truth里目标置信度,显然值为1,
Figure BDA0002899644130000048
表示不含行人的边界框预测值;
Figure BDA0002899644130000049
表示类别预测,pi(c)表示预测类别概率值,
Figure BDA00028996441300000410
表示ground truth里的目标概率值,值取1,c表示类别,classes表示目标类别即行人。
进一步的,机械臂控制单元,是将识别检测出的行人边界框中心坐标xi,yi,宽度wi和高度hi数据通过网络传输到机械臂控制终端后,控制终端通过算法将数据转换成机械臂能够运行的转动角度数据,公式为U(t)=KP*err(t),其中U(t)代表计算得到的图像中心和行人边界框中心之间的加权偏移量,KP为比例系数,err(t)代表时刻t的误差,通过计算当前时刻t行人的中心坐标信息totalValue以及前一时刻的中心坐标信息cuttentValue得到err(t),即分别对当前时刻和前一时刻两个方向上行人边界框中心与图像中心的坐标进行求差并取绝对值,然后将得到的偏移量U(t)利用公式Sp=500+(100/9)×U(t)转化成机械臂舵机控制所需的PWM值,因为机械臂的横方向和纵方向是分别由两个舵机进行控制的,所以分别计算和调度得到的x和y方向的U(t)和Sp值,实现机械臂随着图像中行人坐标点变化而转动。
本发明还提供一种基于机械臂的行人检测跟踪方法,包括如下步骤:
步骤1,利用连接有机械臂的摄像头采集目标区域内的行人视频图像序列;
步骤2,构建行人检测模型,所述行人检测模型的网络结构包括基础网络模块,用于提取样本的浅层特征;附加特征提取模块,用于提取样本的深层特征;两级特征融合模块,用于将深层特征与浅层特征融合;分类与回归模块,用于计算损失,实现分类和行人框的回归;
所述基础网络模块采用VGG16模型,其Conv4_3作为浅层特征提取层;
所述附加特征提取模块,包括全连接层和多个卷积层;
所述两级特征融合模块,用于将全连接层和多个卷积层中的特征信息融合到Conv4_3中;
第一级融合,先将Conv4_3经过3×3卷积并以ReLU方式激活,再将全连接层和多个卷积层分别经过3×3卷积、ReLU方式激活以及双线性插值操作,使其与Conv4_3尺度一致;然后将经过卷积、激活和插值操作的多个特征提取层分别与经过卷积、激活操作的Conv4_3按照Eltwise-SUM方式融合在一起,即将特征图对应位置单元进行相加,得到多个融合图;最后,将每一个融合图再次以ReLU方式激活,并进行BatchNorm操作;
第二级融合,将所得的多个融合特征图按照Eltwise-SUM方式融合,即将每个特征融合图对应位置单元进行相加,得到新的融合图,然后再将新融合层以ReLU方式激活,并进行BatchNorm操作,得到最终的两级特征融合图;
步骤3,获取训练样本并训练行人检测模型;
步骤4,利用训练好的行人检测模型,对实时采集的行人视频图像序列中的行人进行定位,并计算行人的坐标位置;
步骤5,机械臂控制终端将行人位置数据处转换为机械臂能够运行的转动角度数据,并控制机械臂转动进行行人跟踪。
进一步的,分类与回归模块的损失函数如公式(1)所示,包括分类损失与定位损失:
Figure BDA0002899644130000051
其中λcoord和λnoobj均表示权重;WxH表示两级特征融合图栅格尺寸,B表示每个栅格的预测边界框的个数,i表示两级特征融合图上所划分栅格的个数,
Figure BDA0002899644130000061
表示栅格中是否有行人出现,若出现值取为1,不出现为0;xi、yi
Figure BDA0002899644130000062
表示预测边界框的中心点坐标与宽高值的平方根,
Figure BDA0002899644130000063
Figure BDA0002899644130000064
表示ground truth里的标注边界框的中心点坐标与宽高值的平方根;
Figure BDA0002899644130000065
表示含有行人的边界框预测值,Ci为预测置信度,
Figure BDA0002899644130000066
为ground truth里目标置信度,显然值为1,
Figure BDA0002899644130000067
表示不含行人的边界框预测值;
Figure BDA0002899644130000068
表示类别预测,pi(c)表示预测类别概率值,
Figure BDA0002899644130000069
表示ground truth里的目标概率值,值取1,c表示类别,classes表示目标类别即行人。
进一步的,步骤5的具体实现方式和如下;
将识别检测出的行人边界框中心坐标xi,yi,宽度wi和高度hi数据通过网络传输到机械臂控制终端后,控制终端通过算法将数据转换成机械臂能够运行的转动角度数据,公式为U(t)=KP*err(t),其中U(t)代表计算得到的图像中心和行人边界框中心之间的加权偏移量,KP为比例系数,err(t)代表时刻t的误差,通过计算当前时刻t行人的中心坐标信息totalValue以及前一时刻的中心坐标信息cuttentValue得到err(t),即分别对当前时刻和前一时刻两个方向上行人边界框中心与图像中心的坐标进行求差并取绝对值,然后将得到的偏移量U(t)利用公式Sp=500+(100/9)×U(t)转化成机械臂舵机控制所需的PWM值,因为机械臂的横方向和纵方向是分别由两个舵机进行控制的,所以分别计算和调度得到的x和y方向的U(t)和Sp值,实现机械臂随着图像中行人坐标点变化而转动。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提供的行人检测跟踪系统,利用深度学习算法,对实时采集的系列图像进行处理,从采集,分析,目标的定位,目标的位置坐标的计算,再到,针对计算结果的传输等处理。通过轻量级且高精度的算法,减少了计算的开销和监控场景中的多行人对跟踪目标选定影响。同时,利用PID算法,加强了目标跟踪的精确度和灵活性,同时对多人合成框的算法也可以排除若干行人对跟踪目标不确定的影响。相比于现有技术,可极大减少计算成本和降低系统复杂性,提高了图像处理以及摄像机跟踪效率和实时性;
在户外灵活作业的时候,传统设备无法灵活搬运,且执行危险作业时,人们无法做到客观详细的监测与记录,也就无法保证做到对每个工人实时的安防;本发明提供的行人检测跟踪系统,其所显示的视频图像可在作业过程中实时、醒目的反应工人的位置信息,为野外作业监测提供极大便利,在提高执行效率的同时,可降低因监管不到位导致的事故的发生概率,极大程度的避免工人灵活移动的时候无法实时跟踪监护的隐患;
(2)本发明提供的这种行人检测跟踪系统,可以应用到实际视频监控监视领域,解决了现存行人实时监测跟踪的局限性。
附图说明
图1是本发明提供的行人检测跟踪系统的一个实施例的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
参照图1所示,是本发明提供的行人检测跟踪系统一个实施例的示意图。实施例提供的这种行人检测跟踪系统包括视频图像数据单元、行人检测与定位单元、视频图像处理单元、视频图像显示单元,以及机械臂控制单元;
其中,视频图像采集单元,包括摄像机和与其相连的机械臂;
其中机械臂用于架设摄像机并为其提供一个自由度非常大的拍摄空间,机械臂底部舵机负责水平方向的旋转,旋转角度可达到R,我们将R设为180度,顶部舵机负责垂直方向的旋转,旋转方向可达到S,我们将R设为180度,大于这些值时,被判定为无效区域。
其中摄像机用于拍摄行人活动的视频图像,该摄像机可以拍摄到在目标空间(室内,作业场所等)有效范围内活动的人。
人检测与定位单元是利用行人检测模型对行人视频图像序列中的行人进行定位,并实时计算行人的坐标位置。其中所述行人检测模型的网络结构包括基础网络模块,用于提取样本的浅层特征;附加特征提取模块,用于提取样本的深层特征;两级特征融合模块,用于将深层特征与浅层特征融合;分类与回归模块,用于计算损失,实现分类和行人框的回归;
所述基础网络模块采用VGG16模型,其Conv4_3作为浅层特征提取层;
所述附加特征提取模块,包括全连接层和多个卷积层;
所述两级特征融合模块,用于将全连接层和多个卷积层中的特征信息融合到Conv4_3中;
第一级融合,先将Conv4_3经过3×3卷积并以ReLU方式激活,再将全连接层和多个卷积层分别经过3×3卷积、ReLU方式激活以及双线性插值操作,使其与Conv4_3尺度一致;然后将经过卷积、激活和插值操作的多个特征提取层分别与经过卷积、激活操作的Conv4_3按照Eltwise-SUM方式融合在一起,即将特征图对应位置单元进行相加,得到多个融合图;最后,将每一个融合图再次以ReLU方式激活,并进行BatchNorm操作;
第二级融合,将所得的多个融合特征图按照Eltwise-SUM方式融合,即将每个特征融合图对应位置单元进行相加,得到新的融合图,然后再将新融合层以ReLU方式激活,并进行BatchNorm操作,得到最终的两级特征融合图。
具体实施时,分类与回归模块可以采用YOLO模型,本实施例中分类与回归模块定义的损失函数如公式(1)所示,包括分类损失与定位损失:
Figure BDA0002899644130000081
其中λcoord和λnoobj均表示权重,前两项可以看作回归损失,后三项可以看作是分类损失;WxH表示两级特征融合图栅格尺寸,B表示每个栅格的预测边界框的个数,i表示两级特征融合图上所划分栅格的个数,
Figure BDA0002899644130000091
表示栅格中是否有行人出现,若出现值取为1,不出现为0;xi、yi
Figure BDA0002899644130000092
表示预测边界框的中心点坐标与宽高值的平方根,
Figure BDA0002899644130000093
Figure BDA0002899644130000094
表示ground truth里的标注边界框的中心点坐标与宽高值的平方根;
Figure BDA0002899644130000095
表示含有行人的边界框预测值,Ci为预测置信度,
Figure BDA0002899644130000096
为groundtruth里目标置信度,显然值为1,
Figure BDA0002899644130000097
表示不含行人的边界框预测值;
Figure BDA0002899644130000098
表示类别预测,pi(c)表示预测类别概率值,
Figure BDA0002899644130000099
表示ground truth里的目标概率值,值取1,c表示类别,classes表示目标类别即行人。
利用预先训练好的行人检测模型,对实时的视频目标图像进行识别,将检查到的行人和位置坐标(包括边界框的中间坐标和宽高值)信息实时传输给机械臂控制单元。
其中,机械臂采用树莓派控制,行人检测模型采用计算机进行运算,计算机与树莓派之间的采用无线网络模块进行通信实时传输。
视频图像处理单元,是将识别检测出的有效行人数据,比如站立,行走的清晰图像视频数据存储到物理本地磁盘上。
视频图像显示单元,是将视频图像显示程序设置在后台主机上,会将目标区域内的视频数据经过识别计算检测后标出行人的视频实时的通过窗口显示出来。
机械臂控制单元,是将识别检测出的行人边界框中心坐标xi,yi,宽度wi和高度hi数据通过网络传输到机械臂控制终端后,控制终端通过算法将数据转换成机械臂能够运行的转动角度数据,公式为U(t)=KP*err(t)。其中U(t)代表计算得到的图像中心和行人边界框中心之间的加权偏移量,控制作用的强弱取决于比例系数KP,比例系数KP越大,控制作用越强,行人跟踪过程也越快,控制过程的静态偏差也就越小;但是过大的KP系数,也越容易产生机械振荡,破坏系统的稳定性,该值可以通过手动调试调整合适的大小值。err(t)代表时刻t的误差,由于该任务的特殊性,我们可以将图像中心和行人边界框中心在一次检测时段内的差距作为误差。通过计算当前时刻t行人的中心坐标信息totalValue以及变化前的坐标信息cuttentValue得到err(t),可以将该公式简化为err(t)=|totalValue-currentValue|,即分别对当前时刻和前一时刻两个方向上行人边界框中心与图像中心的坐标进行求差并取绝对值,xd=|xi-xc|,yd=|yi-yc|,其中xd和yd表示中心坐标差,xi和yi表示行人边界框坐标中心,xc和yc|代表图像中心坐标值。我们将得到的偏移量U(t)利用公式Sp=500+(100/9)×U(t)转化成机械臂舵机控制所需的PWM值,因为机械臂的横方向和纵方向是分别由两个舵机进行控制的,所以要分别计算和调度得到的x和y方向的U(t)和Sp值,就可以实现机械臂随着图像中人体坐标点变化而转动。
其中,对于多行人的场景,我们采用了合成框的方法,将若干个人的坐标参数整合为一个目标坐标参数进行跟踪监视,以便消除跟踪的局限性。
当目标区域内没人时,或者机器刚开始启动时,机械臂终端会自己运行进入巡视模式,机械臂会从起始点开始从左到右或从右到左做最大限度S的平稳慢速循环转动,限度S被设为了180度的范围,来寻找行人,直到发现检测到行人之后会立刻终止巡视,转而进入行人跟踪模式,直到行人离开极限视野后若干秒,再次转入巡视模式。
本发明提供的行人检测跟踪系统,可以实时准确的检测出行人的位置信息,并控制摄像头实时跟踪行人的动向,将其应用于户外人工作业中,则可以避免安防的不到位;且相比于现有技术而言,无需进行图像复杂处理,极大减少了计算量和计算成本,降低了对图像处理单元处理性能的要求,并可提高实时性,是室内户外行人检测或工人作业检测最高效的技术方案,具有极大的价值。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于机械臂的行人检测跟踪系统,其特征在于:包括视频图像采集单元、行人检测与定位单元、图像视频处理单元、视频图像显示单元,以及机械臂控制单元;
所述视频图像采集单元用于采集目标区域内的行人视频图像序列;
所述行人检测与定位单元是利用行人检测模型对行人视频图像序列中的行人进行定位,并实时计算行人的坐标位置;
所述视频图像处理单元用于将采集到的行人视频图像进行实时的存储和传输;
所述视频图像显示单元用于实时显示行人的坐标位置以及行人的标定显示;
所述机械臂控制单元用于将计算到的行人位置数据处理后进行实时计算角度后控制机械臂转动进行行人跟踪。
2.如权利要求1所述的一种基于机械臂的行人检测跟踪系统,其特征在于:所述视频图像采集单元包括摄像机和与摄像机连接的机械臂;
所述机械臂用于带动摄像机进行自由的转动,进行垂直方向以及水平方向的自由拍摄;
所述摄像机用于拍摄采集行人活动的视频图像。
3.如权利要求1所述的一种基于机械臂的行人检测跟踪系统,其特征在于:所述的机械臂控制单元,是将识别检测出的行人位置数据通过网络传输到机械臂控制终端后,控制终端通过PID算法将行人位置数据转换成机械臂能够运行的转动角度数据,实时对行人的位移进行相应比例的角度变换跟踪,设定方向阈值,若某时刻不存在被检测对象时,控制系统会控制机械臂进入无应答状态;
所述的无应答状态,是机械臂会从起始点开始从左至右做最大限度的平稳慢速循环转动,直到发现检测到行人之后会立刻终止巡视,转而进入行人跟踪模式;
所述阈值,是设定水平以及垂直方向的角度进行行人的检测跟踪,转动的角度到达一个水平角度R和垂直角度S后不再转动。
4.如权利要求1所述的一种基于机械臂的行人检测跟踪系统,其特征在于:所述行人检测模型的网络结构包括基础网络模块,用于提取样本的浅层特征;附加特征提取模块,用于提取样本的深层特征;两级特征融合模块,用于将深层特征与浅层特征融合;分类与回归模块,用于计算损失,实现分类和行人框的回归;
所述基础网络模块采用VGG16模型,其Conv4_3作为浅层特征提取层;
所述附加特征提取模块,包括全连接层和多个卷积层;
所述两级特征融合模块,用于将全连接层和多个卷积层中的特征信息融合到Conv4_3中;
第一级融合,先将Conv4_3经过3×3卷积并以ReLU方式激活,再将全连接层和多个卷积层分别经过3×3卷积、ReLU方式激活以及双线性插值操作,使其与Conv4_3尺度一致;然后将经过卷积、激活和插值操作的多个特征提取层分别与经过卷积、激活操作的Conv4_3按照Eltwise-SUM方式融合在一起,即将特征图对应位置单元进行相加,得到多个融合图;最后,将每一个融合图再次以ReLU方式激活,并进行BatchNorm操作;
第二级融合,将所得的多个融合特征图按照Eltwise-SUM方式融合,即将每个特征融合图对应位置单元进行相加,得到新的融合图,然后再将新融合层以ReLU方式激活,并进行BatchNorm操作,得到最终的两级特征融合图。
5.如权利要求4所述的一种基于机械臂的行人检测跟踪系统,其特征在于:分类与回归模块的损失函数如公式(1)所示,包括分类损失与定位损失:
Figure FDA0002899644120000021
其中λcoord和λnoobj均表示权重;WxH表示两级特征融合图栅格尺寸,B表示每个栅格的预测边界框的个数,i表示两级特征融合图上所划分栅格的个数,
Figure FDA0002899644120000022
表示栅格中是否有行人出现,若出现值取为1,不出现为0;xi、yi
Figure FDA0002899644120000023
表示预测边界框的中心点坐标与宽高值的平方根,
Figure FDA0002899644120000024
Figure FDA0002899644120000025
表示ground truth里的标注边界框的中心点坐标与宽高值的平方根;
Figure FDA0002899644120000026
表示含有行人的边界框预测值,Ci为预测置信度,
Figure FDA0002899644120000027
为groundtruth里目标置信度,显然值为1,
Figure FDA0002899644120000028
表示不含行人的边界框预测值;
Figure FDA0002899644120000029
表示类别预测,pi(c)表示预测类别概率值,
Figure FDA00028996441200000210
表示groundtruth里的目标概率值,值取1,c表示类别,classes表示目标类别即行人。
6.如权利要求5所述的一种基于机械臂的行人检测跟踪系统,其特征在于:机械臂控制单元,是将识别检测出的行人边界框中心坐标xi,yi,宽度wi和高度hi数据通过网络传输到机械臂控制终端后,控制终端通过算法将数据转换成机械臂能够运行的转动角度数据,公式为U(t)=KP*err(t),其中U(t)代表计算得到的图像中心和行人边界框中心之间的加权偏移量,KP为比例系数,err(t)代表时刻t的误差,通过计算当前时刻t行人的中心坐标信息totalValue以及前一时刻的中心坐标信息cuttentValue得到err(t),即分别对当前时刻和前一时刻两个方向上行人边界框中心与图像中心的坐标进行求差并取绝对值,然后将得到的偏移量U(t)利用公式Sp=500+(100/9)×U(t)转化成机械臂舵机控制所需的PWM值,因为机械臂的横方向和纵方向是分别由两个舵机进行控制的,所以分别计算和调度得到的x和y方向的U(t)和Sp值,实现机械臂随着图像中行人坐标点变化而转动。
7.一种基于机械臂的行人检测跟踪方法,其特征在于,包括如下步骤:
步骤1,利用连接有机械臂的摄像头采集目标区域内的行人视频图像序列;
步骤2,构建行人检测模型,所述行人检测模型的网络结构包括基础网络模块,用于提取样本的浅层特征;附加特征提取模块,用于提取样本的深层特征;两级特征融合模块,用于将深层特征与浅层特征融合;分类与回归模块,用于计算损失,实现分类和行人框的回归;
所述基础网络模块采用VGG16模型,其Conv4_3作为浅层特征提取层;
所述附加特征提取模块,包括全连接层和多个卷积层;
所述两级特征融合模块,用于将全连接层和多个卷积层中的特征信息融合到Conv4_3中;
第一级融合,先将Conv4_3经过3×3卷积并以ReLU方式激活,再将全连接层和多个卷积层分别经过3×3卷积、ReLU方式激活以及双线性插值操作,使其与Conv4_3尺度一致;然后将经过卷积、激活和插值操作的多个特征提取层分别与经过卷积、激活操作的Conv4_3按照Eltwise-SUM方式融合在一起,即将特征图对应位置单元进行相加,得到多个融合图;最后,将每一个融合图再次以ReLU方式激活,并进行BatchNorm操作;
第二级融合,将所得的多个融合特征图按照Eltwise-SUM方式融合,即将每个特征融合图对应位置单元进行相加,得到新的融合图,然后再将新融合层以ReLU方式激活,并进行BatchNorm操作,得到最终的两级特征融合图;
步骤3,获取训练样本并训练行人检测模型;
步骤4,利用训练好的行人检测模型,对实时采集的行人视频图像序列中的行人进行定位,并计算行人的坐标位置;
步骤5,机械臂控制终端将行人位置数据处转换为机械臂能够运行的转动角度数据,并控制机械臂转动进行行人跟踪。
8.如权利要求7所述的一种基于机械臂的行人检测跟踪方法,其特征在于:分类与回归模块的损失函数如公式(1)所示,包括分类损失与定位损失:
Figure FDA0002899644120000041
其中λcoord和λnoobj均表示权重;WxH表示两级特征融合图栅格尺寸,B表示每个栅格的预测边界框的个数,i表示两级特征融合图上所划分栅格的个数,
Figure FDA0002899644120000042
表示栅格中是否有行人出现,若出现值取为1,不出现为0;xi、yi
Figure FDA0002899644120000043
表示预测边界框的中心点坐标与宽高值的平方根,
Figure FDA0002899644120000044
Figure FDA0002899644120000045
表示ground truth里的标注边界框的中心点坐标与宽高值的平方根;
Figure FDA0002899644120000046
表示含有行人的边界框预测值,Ci为预测置信度,
Figure FDA0002899644120000047
为groundtruth里目标置信度,显然值为1,
Figure FDA0002899644120000048
表示不含行人的边界框预测值;
Figure FDA0002899644120000049
表示类别预测,pi(c)表示预测类别概率值,
Figure FDA00028996441200000410
表示groundtruth里的目标概率值,值取1,c表示类别,classes表示目标类别即行人。
9.如权利要求7所述的一种基于机械臂的行人检测跟踪方法,其特征在于:步骤5的具体实现方式和如下;
将识别检测出的行人边界框中心坐标xi,yi,宽度wi和高度hi数据通过网络传输到机械臂控制终端后,控制终端通过算法将数据转换成机械臂能够运行的转动角度数据,公式为U(t)=KP*err(t),其中U(t)代表计算得到的图像中心和行人边界框中心之间的加权偏移量,KP为比例系数,err(t)代表时刻t的误差,通过计算当前时刻t行人的中心坐标信息totalValue以及前一时刻的中心坐标信息cuttentValue得到err(t),即分别对当前时刻和前一时刻两个方向上行人边界框中心与图像中心的坐标进行求差并取绝对值,然后将得到的偏移量U(t)利用公式Sp=500+(100/9)×U(t)转化成机械臂舵机控制所需的PWM值,因为机械臂的横方向和纵方向是分别由两个舵机进行控制的,所以分别计算和调度得到的x和y方向的U(t)和Sp值,实现机械臂随着图像中行人坐标点变化而转动。
CN202110052568.8A 2021-01-15 2021-01-15 一种基于机械臂的行人检测跟踪系统与方法 Active CN112785564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110052568.8A CN112785564B (zh) 2021-01-15 2021-01-15 一种基于机械臂的行人检测跟踪系统与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110052568.8A CN112785564B (zh) 2021-01-15 2021-01-15 一种基于机械臂的行人检测跟踪系统与方法

Publications (2)

Publication Number Publication Date
CN112785564A true CN112785564A (zh) 2021-05-11
CN112785564B CN112785564B (zh) 2023-06-06

Family

ID=75756786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110052568.8A Active CN112785564B (zh) 2021-01-15 2021-01-15 一种基于机械臂的行人检测跟踪系统与方法

Country Status (1)

Country Link
CN (1) CN112785564B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469099A (zh) * 2021-07-13 2021-10-01 北京航科威视光电信息技术有限公司 目标检测模型的训练方法、检测方法、装置、设备及介质
CN116572264A (zh) * 2023-05-22 2023-08-11 中铁九局集团电务工程有限公司 一种基于轻量模型的软体机械臂自由眼系统目标追踪方法
CN116572264B (zh) * 2023-05-22 2024-06-04 中铁九局集团电务工程有限公司 一种基于轻量模型的软体机械臂自由眼系统目标追踪方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015188840A1 (ar) * 2014-06-09 2015-12-17 العال، شريف محمد العربي حسن عبد طريقة لبناء المدينة عن طريق تقسيمها إلى أحياء دائرية
CN106803071A (zh) * 2016-12-29 2017-06-06 浙江大华技术股份有限公司 一种图像中的物体检测方法及装置
CN107985189A (zh) * 2017-10-26 2018-05-04 西安科技大学 面向高速驾驶环境下的驾驶员变道深度预警方法
CN108918540A (zh) * 2018-09-20 2018-11-30 苏州华维诺智能科技有限公司 基于机械臂摄像视觉对产品零件的捕捉与检测装置及方法
CN110046626A (zh) * 2019-04-03 2019-07-23 工极智能科技(苏州)有限公司 基于pico算法的图像智能学习动态跟踪系统及方法
CN110956116A (zh) * 2019-11-26 2020-04-03 上海海事大学 基于卷积神经网络的人脸图像性别识别模型及识别方法
CN111119093A (zh) * 2019-12-31 2020-05-08 北京海纳川汽车部件股份有限公司 防事故装置及防事故装置的控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015188840A1 (ar) * 2014-06-09 2015-12-17 العال، شريف محمد العربي حسن عبد طريقة لبناء المدينة عن طريق تقسيمها إلى أحياء دائرية
CN106803071A (zh) * 2016-12-29 2017-06-06 浙江大华技术股份有限公司 一种图像中的物体检测方法及装置
CN107985189A (zh) * 2017-10-26 2018-05-04 西安科技大学 面向高速驾驶环境下的驾驶员变道深度预警方法
CN108918540A (zh) * 2018-09-20 2018-11-30 苏州华维诺智能科技有限公司 基于机械臂摄像视觉对产品零件的捕捉与检测装置及方法
CN110046626A (zh) * 2019-04-03 2019-07-23 工极智能科技(苏州)有限公司 基于pico算法的图像智能学习动态跟踪系统及方法
CN110956116A (zh) * 2019-11-26 2020-04-03 上海海事大学 基于卷积神经网络的人脸图像性别识别模型及识别方法
CN111119093A (zh) * 2019-12-31 2020-05-08 北京海纳川汽车部件股份有限公司 防事故装置及防事故装置的控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李昕昕 等: "《面向复杂道路场景小尺度行人的实时检测算法》", 《计算机工程与应用》 *
李昕昕 等: "《面向复杂道路场景小尺度行人的实时检测算法》", 《计算机工程与应用》, 27 July 2020 (2020-07-27), pages 4 - 9 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469099A (zh) * 2021-07-13 2021-10-01 北京航科威视光电信息技术有限公司 目标检测模型的训练方法、检测方法、装置、设备及介质
CN113469099B (zh) * 2021-07-13 2024-03-15 北京航科威视光电信息技术有限公司 目标检测模型的训练方法、检测方法、装置、设备及介质
CN116572264A (zh) * 2023-05-22 2023-08-11 中铁九局集团电务工程有限公司 一种基于轻量模型的软体机械臂自由眼系统目标追踪方法
CN116572264B (zh) * 2023-05-22 2024-06-04 中铁九局集团电务工程有限公司 一种基于轻量模型的软体机械臂自由眼系统目标追踪方法

Also Published As

Publication number Publication date
CN112785564B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
KR102129893B1 (ko) 딥러닝 네트워크 및 평균 이동을 기반으로 하는 선박 자동추적 방법 및 시스템
CN109034018A (zh) 一种基于双目视觉的低空小型无人机障碍物感知方法
CN111080659A (zh) 一种基于视觉信息的环境语义感知方法
CN111832400B (zh) 一种基于概率神经网络的口罩佩戴情况的监测系统及方法
CN109255298A (zh) 一种动态背景中的安全帽检测方法与系统
CN103278170A (zh) 基于显著场景点检测的移动机器人级联地图创建方法
CN112200106A (zh) 跨相机行人重识别与跟踪方法
CN105243664A (zh) 一种基于视觉的轮式移动机器人快速目标跟踪方法
CN112085003A (zh) 公共场所异常行为自动识别方法及装置、摄像机设备
CN105760846A (zh) 基于深度数据的目标检测与定位方法及系统
CN113568435B (zh) 一种基于无人机自主飞行态势感知趋势的分析方法与系统
CN116630394A (zh) 一种三维建模约束的多模态目标物体姿态估计方法及系统
CN115376034A (zh) 一种基于人体三维姿态时空关联动作识别的运动视频采集剪辑方法及装置
CN117197676A (zh) 一种基于特征融合的目标检测识别方法
CN112785564B (zh) 一种基于机械臂的行人检测跟踪系统与方法
CN114325573A (zh) 变电站运维人员身份及位置信息快速检测方法
CN110276379A (zh) 一种基于视频图像分析的灾情信息快速提取方法
CN115979250B (zh) 基于uwb模块、语义地图与视觉信息的定位方法
Moolan-Feroze et al. Improving drone localisation around wind turbines using monocular model-based tracking
CN117115728A (zh) 一种应用于变电站现场作业的风险识别方法及系统
CN115994911B (zh) 一种基于多模态视觉信息融合的游泳馆目标检测方法
CN117423157A (zh) 一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法
CN103903269B (zh) 球机监控视频的结构化描述方法和系统
CN113743380B (zh) 一种基于视频图像动态监测的主动跟踪方法
CN114299141A (zh) 应用于消防灭火机器人的两自由度火焰识别装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant