CN116259002A - 一种基于视频的人体危险行为分析方法 - Google Patents

一种基于视频的人体危险行为分析方法 Download PDF

Info

Publication number
CN116259002A
CN116259002A CN202211738972.1A CN202211738972A CN116259002A CN 116259002 A CN116259002 A CN 116259002A CN 202211738972 A CN202211738972 A CN 202211738972A CN 116259002 A CN116259002 A CN 116259002A
Authority
CN
China
Prior art keywords
target
dangerous
video
dangerous behavior
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211738972.1A
Other languages
English (en)
Inventor
刘成菊
陈启军
吴勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202211738972.1A priority Critical patent/CN116259002A/zh
Publication of CN116259002A publication Critical patent/CN116259002A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/247Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于视频的人体危险行为分析方法,包括:读取视频流信息;利用改进的YOLOv5从中提取行人目标以及与危险行为有关的目标物体;以提取到的目标人员区域作为人体姿态检测的输入,利用AlphaPose提取出行人的骨架姿态;结合人员骨架姿态与目标小物体位置信息,判断视频中人员是否在与目标物体进行互动、以及是否存在设定的危险行为;使用ST‑GCN对目标人员行为进行判断,并结合空间信息确定人员是否出现跌倒行为或者闯入禁区;根据骨架信息提取出目标人员的肢体末端部位,结合色彩分析判断其是否存在工装穿戴不规范的行为;将判断得出的危险行为信息传输到前端进行显示以及警报。与现有技术相比,本发明能够高精度低延迟地进行多种危险行为的识别及预警。

Description

一种基于视频的人体危险行为分析方法
技术领域
本发明涉及自动化安全巡视技术领域,尤其是涉及一种基于视频的人体危险行为分析方法。
背景技术
随着工业生产的自动化程度进一步加深,工人在生产中难以避免会更多地面对机器,一些不安全的行为和状态很可能会导致较大的生产事故,因此,确保生产过程的安全高效将变得尤为重要。作为一种智能化生产巡视的方法,人体危险行为分析检测是视频理解与计算机视觉领域炙手可热的研究内容,备受国内外学者的关注,在智能监控、人机交互等多领域被广泛应用。
当前,工业生产和建设现场的危险行为预警通常是采用摄像头采集视频数据配合人工监管的方式,但人工巡视存在人力成本开销大、容易疲劳,人员情绪化等问题,导致漏检或误检,而且往往只能做到事后监控,无法进行及时预警。并且,常见的行为识别方法只能对人员的行为进行粗略判断,针对与环境相关度极大的危险行为,则无法进行针对性识别,导致无法正确进行危险行为识别及相应预警。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于视频的人体危险行为分析方法,能够及时、准确地识别出与环境相关度极大的危险行为并进行预警。
本发明的目的可以通过以下技术方案来实现:一种基于视频的人体危险行为分析方法,包括以下步骤:
S1、读取网络高清摄像头获取的视频流信息,以作为系统输入;
S2、利用改进的YOLOv5,提取输入视频流中的行人目标以及与危险行为有关的目标物体;
S3、以提取到的目标人员区域作为人体姿态检测的输入,利用AlphaPose提取出视频流中行人的骨架姿态;
S4、结合AlphaPose提取到的人员骨架姿态与YOLOv5提取到的目标小物体位置信息,判断视频中人员是否在与目标物体进行互动、以及是否存在设定的危险行为;
S5、使用ST-GCN对目标人员行为进行判断,并结合空间信息确定人员是否出现跌倒行为或者闯入禁区;
S6、根据骨架信息提取出目标人员的肢体末端部位,结合色彩分析判断其是否存在工装穿戴不规范的行为;
S7、将判断得出的危险行为信息传输到前端进行显示以及警报。
进一步地,所述步骤S2中改进的YOLOv5具体为:
在输入上,使用检测得到的行人区域进行预裁剪作为输入;
在网络结构上,在标准YOLOv5框架上增加一组Anchor:[5x6,8x14,15x11],对应增加一组输出head(152x152),得到最小的感受野(4x4),适应极小目标物体的检测;
在数据集上,采用交叉标注的三种小物体数据集进行训练。
进一步地,所述步骤S3的具体过程为:
首先对目标进行实时跟踪,对目标模型的状态建模形式如下:
Figure BDA0004032170060000021
其中,u为目标中心的水平像素坐标,v为目标中心的垂直像素坐标,s和r分别为追踪目标的边界框的面积比例与纵横比,且r通常为常数;
在检测到目标对象后,对目标对象进行模型估计,得出其运动模型并将检测框与目标之间相互关联,用新的检测框边界对目标对象进行状态更新,其中目标运动模型的速度分量通过卡尔曼滤波框架来进行迭代优化求解,以确保对目标的正确估计;而当系统未能检测到目标对象时,系统无法用新检测到的边界框来更新目标对象的状态,此时则使用线性速度模型来对目标对象的状态进行简单的预测,完成边界框预测后使用匈牙利指派算法来得到IoU的最大匹配结果用于数据关联;
之后以行人检测框的内容作为输入,利用AlphaPose进行姿态估计,首先使用空间变换网络(STN)进行一个2D仿射变换来修正输入的行人检测框:
Figure BDA0004032170060000031
其中,θ1,θ2和θ3都是二维空间的向量,
Figure BDA0004032170060000032
和/>
Figure BDA0004032170060000033
分别表示转换之前的坐标和转换之后的坐标;
在SPPE结束之后,采用一个空间逆变换网络(SDTN)来将估计的人体姿态反映射回对应的原图坐标中,SDTN需要为逆变换和生成网格计算出一个γ:
Figure BDA0004032170060000034
SDTN与STN互为逆运算,γ可由θ1,θ2和θ3推导得出,而θ1,θ2和θ3则由模型迭代优化得出。
进一步地,所述步骤S3使用YOLOv5算法作为AlphaPose的行人推荐区域算法,并对得到的部分冗余姿态点进行裁剪,其中包括:左眼、右眼、左耳以及右耳姿态点。
进一步地,所述步骤S4中设定的危险行为包括但不限于未正确佩戴头盔、手机使用和吸烟。
进一步地,所述步骤S4中检测头盔的具体步骤为:首先检测是否存在工作人员,然后对每一位工作人员的头部和安全头盔的位置进行匹配,判断是否正确佩戴头盔,如果连续5帧均检测出未佩戴头盔,则进行警报;
检测手机使用的具体步骤为:对手机和人员姿态进行匹配,只有当存在设定两种情况之一时,则认为工作人员在使用手机,其中,两种情况中第一种情况认为工作人员正在浏览手机页面,第二种情况认为工作人员正在接听电话,如果连续5帧均检测出使用手机,则进行警报;
第一种情况具体为手机处在手的以人体宽度为半径的圆内且相应的手臂弯曲角度大于120°,第二种情况具体为手机处在头部的以人体宽度为半径的圆内且存在一只手的手臂弯曲角度小于120°;
检测吸烟的具体步骤为:在视频中存在工作人员的前提下,对工作人员的边界区域进行扩张和裁剪,然后进一步识别香烟的存在,如果成功识别到香烟,并且香烟处于目标工作人员的手部或者头部附近时,认为存在吸烟行为,如果连续5帧均检测出吸烟,则进行警报。
进一步地,所述步骤S5使用ST-GCN算法判断目标人员是否存在跌倒行为,所述步骤S5中,检测禁区闯入的具体步骤为:使用区域检测算法,通过鼠标选点的方式确定具体的危险区域多边形,然后检测视频流中是否存在目标工作人员,检测到目标工作人员后对其进行骨架检测,进而通过骨架信息中的脚部信息确定目标工作人员的空间位置,将其与设定的危险区域范围进行比对,判断目标工作人员是否处于危险区域内,如果发现目标工作人员在连续30帧视频中都被判断处于危险区域内,则判定出现了违法越界危险行为并做出警报;如果ST-GCN算法判断目标人员处于运动状态并在禁区边缘出入,则判定禁区闯入并进行警报。
进一步地,所述步骤S6中,判断工装是否正确穿戴的具体步骤为:首先检测工作人员的存在,如果存在目标工作人员,则对其骨架姿态进行分析估计,裁剪出手臂、躯干以及腿部等经常裸露皮肤的关节所在部分的框图区域,针对这些区域的框图内容进行颜色分析,判断是否存在裸露的皮肤,如果存在皮肤裸露的情况,且目标人员连续5帧图像中都处于皮肤裸露状态,则在相应的关节框图中标注未正确穿戴工装(No Work Clothes)。
进一步地,所述步骤S7中,后端与前端采用WebSocket进行通信,后端将标注危险行为的图像传送到前端显示,前端通过控制云台转向、选择预警目标危险行为、记录并显示危险行为日志、图像预警并标出危险行为、选取视频源操作,以修改后端检测内容。
进一步地,所述YOLOv5、4Heads YOLOv5、AlphaPose、ST-GCN模型均在Pytorch框架下进行训练,并使用Tensorrt框架进行深度学习推理优化,以降低系统的分析延时。
与现有技术相比,本发明具有以下优点:
(1)本发明提出了一种基于视频的人体危险行为分析方法,通过对常见的多种危险行为进行针对性设计和优化,有效解决了生产场景下的自动化安全巡视问题,大大降低生产中的安全隐患,极大程度上保证生产安全高效进行。。
(2)本发明通过改进YOLOv5算法,以提高在识别极小物体上的准确率,经过测试验证,在识别手机,香烟和头盔的准确率上比标准YOLOv5分别提高了10.2%,4%和2.3%。
(3)本发明针对常见的多种危险行为的特点,设计了基于小物体识别、基于时序动作和基于肢体色彩的三种危险行为分析方案以应对不同危险行为的特征。
(4)相较于传统深度学习模型部署方式,本发明使用Tensorrt框架对整个人体危险行为分析系统进行加速,以实现较高的识别精度和较快速度,检测帧率能够达到30fps,通过针对深度神经网络的特点进行相应的优化加速,得到了能够高精度低延时的进行危险行为预警效果。
附图说明
图1为本发明的方法流程示意图;
图2为本发明算法系统的流程图;
图3为改进后的4Heads YOLOv5网络结构;
图4a、4b、4c为4Heads YOLOv5和标准YOLOv5的检测效果对比示意图;
图5为目标实时追踪算法流程图;
图6为AlphaPose算法训练流程图;
图7a~7e为小物体检测以及六种危险行为检测的具体流程图;
图8为前端显示界面;
图9为Tensorrt张量融合示意图;
图10为实施例中系统检测准确率示意图;
图11为实施例中系统检测速度示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于视频的人体危险行为分析方法,包括以下步骤:
S1、读取网络高清摄像头获取的视频流信息,以作为系统输入;
S2、利用改进的YOLOv5,提取输入视频流中的行人目标以及与危险行为有关的目标物体;
S3、以提取到的目标人员区域作为人体姿态检测的输入,利用AlphaPose提取出视频流中行人的骨架姿态;
S4、结合AlphaPose提取到的人员骨架姿态与YOLOv5提取到的目标小物体位置信息,判断视频中人员是否在与目标物体进行互动、以及是否存在设定的危险行为;
S5、使用ST-GCN对目标人员行为进行判断,并结合空间信息确定人员是否出现跌倒行为或者闯入禁区;
S6、根据骨架信息提取出目标人员的肢体末端部位,结合色彩分析判断其是否存在工装穿戴不规范的行为;
S7、将判断得出的危险行为信息传输到前端进行显示以及警报。
本实施例应用上述技术方案,用于对生产作业环境下的人员危险行为进行安全巡视和预警,该方法的框架示意图如图2所示,主要包括:
一、读取网络高清摄像头获取的视频流信息用于系统输入;
二、利用改进的YOLOv5提取输入视频流中的行人目标以及与危险行为有关的目标物体;
三、采用SORT算法进行实时行人追踪,并以提取到的目标人员区域作为人体姿态检测的输入,利用AlphaPose提取出视频流中行人的骨架姿态;
四、结合AlphaPose提取到的人员骨架姿态与YOLOv5提取到的目标小物体位置信息,判断视频中人员是否在与目标物体进行互动以及是否有未正确佩戴头盔、玩手机和吸烟等危险行为;
五、使用ST-GCN对目标人员行为进行判断,并结合空间信息确定人员是否出现跌倒行为或者闯入禁区;
六、根据骨架信息提取出目标人员的肢体末端部位,结合色彩分析判断其是否存在工装穿戴不规范的行为;
七、将判断得出的危险行为信息传输到前端进行显示以及警报。
八、系统所采用的YOLOv5、AlphaPose、ST-GCN网络均采用Tensorrt框架进行部署加速。
具体的,在步骤一,系统采用高清布控球获取生产现场的实时画面,并将获取视频通过服务器传输到后端。通过将高清布控球安装在云台上的方式,可以操控摄像头进行旋转,从而达到全方位安全巡视的效果。
在步骤二,图3展示了改进的4Heads YOLOv5的网络结构,通过在标准YOLOv5结构上增加一组Anchor:[5x6,8x14,15x11],对应地增加一组输出Head(152x152),得到最小的感受野(4x4),以此来完成极小目标物体的检测。图4a、4b和4c是改进后的YOLOv5与标准YOLOv5在检测手机、香烟和头盔上的性能对比,准确率分别提高了10.2%,4%和2.3%。此外,图7a展示了小物体检测地具体流程:首先进行行人识别,将识别到的区域裁剪下来,输入到训练好的4Heads YOLOv5网络中,得出相应的小物体坐标,然后将其反变换回原图中进行标注。
在步骤三,以YOLOv5检测到的行人区域为基础,首先使用SORT算法进行行人实时跟踪,然后裁剪出初步的行人区域,作为AlphaPose算法的输入。在AlphaPose算法中,首先使用空间变换网络对初步的行人区域进行修正,得到较高质量的行人检测区域,然后送入SPPE网络进行姿态估计,将得到的姿态结果通过空间反变换网络重新映射回原图上进行结果显示。图5和图6显示了SORT算法的主要流程以及AlphaPose的主要网络训练过程。同时,得出的姿态估计结果通过参数化非最大值抑制方法进行处理,避免出现冗余姿态。
本实施例在步骤三中,首先对目标进行实时跟踪,对目标模型的状态建模形式如下:
Figure BDA0004032170060000071
其中,u为目标中心的水平像素坐标,v为目标中心的垂直像素坐标,s和r分别为追踪目标的边界框的面积比例与纵横比,且r通常为常数。
在检测到目标对象后,对目标对象进行模型估计,得出其运动模型并将检测框与目标之间相互关联,用新的检测框边界对目标对象进行状态更新,其中目标运动模型的速度分量通过卡尔曼滤波框架来进行迭代优化求解,以确保对目标的正确估计。而当系统未能检测到目标对象时,系统无法用新检测到的边界框来更新目标对象的状态,此时则使用线性速度模型来对目标对象的状态进行简单的预测。完成边界框预测后使用匈牙利指派算法来得到IoU的最大匹配结果用于数据关联。
之后以行人检测框的内容作为输入,利用AlphaPose进行姿态估计。首先使用空间变换网络(STN)进行一个2D仿射变换来修正输入的行人检测框:
Figure BDA0004032170060000074
其中θ1,θ2和θ3都是二维空间的向量,
Figure BDA0004032170060000072
和/>
Figure BDA0004032170060000073
分别表示转换之前的坐标和转换之后的坐标。
在SPPE结束之后,采用一个空间逆变换网络(SDTN)来将估计的人体姿态反映射回对应的原图坐标中。SDTN需要为逆变换和生成网格计算出一个γ:
Figure BDA0004032170060000081
SDTN与STN互为逆运算,γ可由θ1,θ2和θ3推导得出,而θ1,θ2和θ3则由模型迭代优化得出。
此外,本技术方案使用速度更快的YOLOv5算法作为AlphaPose的行人推荐区域算法,并对得到的部分冗余姿态点进行裁剪,其中包括:左眼,右眼,左耳,右耳姿态点。
在步骤四,图7b展示了基于小物体识别方案的三种危险行为的检测具体流程。其中,检测头盔的具体步骤为:首先检测是否存在工作人员,然后对每一位工作人员的头部和安全头盔的位置进行匹配,判断是否正确佩戴头盔,如果连续5帧均检测出未佩戴头盔,则进行警报。检测手机使用的具体步骤为:对手机和人员姿态进行匹配,只有当存在以下两种情况(手机处在手的以人体宽度为半径的圆内且相应的手臂弯曲角度大于120°,手机处在头部的以人体宽度为半径的圆内且存在一只手的手臂弯曲角度小于120°)之一时,认为工作人员在使用手机。两种情况中第一种情况认为工作人员正在浏览手机页面,第二种情况认为工作人员正在接听电话。如果连续5帧均检测出使用手机,则进行警报。检测吸烟的具体步骤为:在视频中存在工作人员的前提下,对工作人员的边界区域进行扩张和裁剪,然后进一步识别香烟的存在,如果成功识别到香烟,并且香烟处于目标工作人员的手部或者头部附近时,认为存在吸烟行为。如果连续5帧均检测出吸烟,则进行警报。
在步骤五,图7c、图7d展示了基于时序动作识别方案的两种危险行为的检测具体流程。其中,对于跌倒行为,直接将视频流送入ST-GCN网络中进行判断即可。检测禁区闯入的具体步骤为:使用区域检测算法,通过鼠标选点的方式确定具体的危险区域多边形,然后检测视频流中是否存在目标工作人员,检测到目标工作人员后对其进行骨架检测,进而通过骨架信息中的脚部信息确定目标工作人员的空间位置,将其与设定的危险区域范围进行比对,判断目标工作人员是否处于危险区域内,如果发现目标工作人员在连续30帧视频中都被判断处于危险区域内,则判定出现了违法越界危险行为并做出警报。如果ST-GCN算法判断目标人员处于运动状态并在禁区边缘出入,则判定禁区闯入并进行警报。
在步骤六,图7e展示了基于肢体色彩分析方案的工装穿戴不规范危险行为的检测具体流程:首先检测工作人员的存在,如果存在目标工作人员,则对其骨架姿态进行分析估计,裁剪出手臂、躯干以及腿部等经常裸露皮肤的关节所在部分的框图区域,针对这些区域的框图内容进行颜色分析,判断是否存在裸露的皮肤,如果存在皮肤裸露的情况,且目标人员连续5帧图像中都处于皮肤裸露状态,则在相应的关节框图中标注未正确穿戴工装(NoWork Clothes)。
在步骤七,图8展示了系统前端的设计效果,后端与前端采用WebSocket进行通信,后端将标注危险行为的图像传送到前端显示,前端可以通过控制云台转向、选择预警目标危险行为、选取视频源等操作修改后端检测内容。前端拥有记录并显示危险行为日志、显示图像预警并标出危险行为等功能。
在步骤八,针对系统所使用的深度网络模型,包括YOLOv5、4Heads YOLOv5、AlphaPose、ST-GCN模型在内,使用Tensorrt框架进行深度学习推理加速。在Tensorrt部署的环境上,本实施例采用cuda11.0+cudann8.2.0+Tensorrt8.0.0.3的版本配合。通过张量融合、精度剪枝等方法来提升模型的推理速度,图9展示了张量融合的具体过程。
综上可知,本发明提出了一种基于视频的人体危险行为分析系统,有效解决了生产场景下的自动化安全巡视问题。本技术方案针对小物体识别做出改进,使用改进的4HeadYOLOv5作为系统的小物体识别算法模块。基于改进后的目标识别算法,通过SORT算法实现了对于目标行人的跟踪,同时考虑到AlphaPose中SSTN结构的特点,通过将YOLOv5作为推荐区域生成器、裁剪姿态关节点和修改储存方式的方法,构建了更加快速的目标姿态估计模块。不仅如此,还针对常见的几种危险行为提出了不同的分析方法:针对未佩戴头盔、使用手机和吸烟这一类与小物体互动相关的危险行为设计了基于物体识别的危险行为分析方案;针对跌倒和违法越界这一类包括一系列时序动作的危险行为,设计了基于时序动作识别的危险行为分析方案;针对不正确工装穿戴这一类与色彩相关的危险行为,设计了基于色彩分析的危险行为识别方案,由此使得本技术方案能够涵盖更多场景下的不同危险情况,并针对不同的危险行为采用不同的分析策略进行分析,适应的环境更为广泛,本技术方案采用更快的一步检测算法,并在部署时使用Tensorrt对所有深度网络模型进行推理优化,保障了系统的低延时,同时采用适应检测框的AlphaPose进行姿态估计,达到了危险行为分析精度和速度的良好互补。图10、图11展示了完成部署的整个系统对于各种危险行为检测任务的准确率以及检测速度。可见,本技术方案在自动化巡视任务上本系统有着出色的性能。

Claims (10)

1.一种基于视频的人体危险行为分析方法,其特征在于,包括以下步骤:
S1、读取网络高清摄像头获取的视频流信息,以作为系统输入;
S2、利用改进的YOLOv5,提取输入视频流中的行人目标以及与危险行为有关的目标物体;
S3、以提取到的目标人员区域作为人体姿态检测的输入,利用AlphaPose提取出视频流中行人的骨架姿态;
S4、结合AlphaPose提取到的人员骨架姿态与YOLOv5提取到的目标小物体位置信息,判断视频中人员是否在与目标物体进行互动、以及是否存在设定的危险行为;
S5、使用ST-GCN对目标人员行为进行判断,并结合空间信息确定人员是否出现跌倒行为或者闯入禁区;
S6、根据骨架信息提取出目标人员的肢体末端部位,结合色彩分析判断其是否存在工装穿戴不规范的行为;
S7、将判断得出的危险行为信息传输到前端进行显示以及警报。
2.根据权利要求1所述的一种基于视频的人体危险行为分析方法,其特征在于,所述步骤S2中改进的YOLOv5具体为:
在输入上,使用检测得到的行人区域进行预裁剪作为输入;
在网络结构上,在标准YOLOv5框架上增加一组Anchor:[5x6,8x14,15x11],对应增加一组输出head(152x152),得到最小的感受野(4x4),适应极小目标物体的检测;
在数据集上,采用交叉标注的三种小物体数据集进行训练。
3.根据权利要求1所述的一种基于视频的人体危险行为分析方法,其特征在于,所述步骤S3的具体过程为:
首先对目标进行实时跟踪,对目标模型的状态建模形式如下:
Figure FDA0004032170050000011
其中,u为目标中心的水平像素坐标,v为目标中心的垂直像素坐标,s和r分别为追踪目标的边界框的面积比例与纵横比,且r通常为常数;
在检测到目标对象后,对目标对象进行模型估计,得出其运动模型并将检测框与目标之间相互关联,用新的检测框边界对目标对象进行状态更新,其中目标运动模型的速度分量通过卡尔曼滤波框架来进行迭代优化求解,以确保对目标的正确估计;而当系统未能检测到目标对象时,系统无法用新检测到的边界框来更新目标对象的状态,此时则使用线性速度模型来对目标对象的状态进行简单的预测,完成边界框预测后使用匈牙利指派算法来得到IoU的最大匹配结果用于数据关联;
之后以行人检测框的内容作为输入,利用AlphaPose进行姿态估计,首先使用空间变换网络进行一个2D仿射变换来修正输入的行人检测框:
Figure FDA0004032170050000021
其中,θ1,θ2和θ3都是二维空间的向量,
Figure FDA0004032170050000022
和/>
Figure FDA0004032170050000023
分别表示转换之前的坐标和转换之后的坐标;
在SPPE结束之后,采用一个空间逆变换网络来将估计的人体姿态反映射回对应的原图坐标中,SDTN需要为逆变换和生成网格计算出一个γ:
Figure FDA0004032170050000024
SDTN与STN互为逆运算,γ可由θ1,θ2和θ3推导得出,而θ1,θ2和θ3则由模型迭代优化得出。
4.根据权利要求3所述的一种基于视频的人体危险行为分析方法,其特征在于,所述步骤S3使用YOLOv5算法作为AlphaPose的行人推荐区域算法,并对得到的部分冗余姿态点进行裁剪,其中包括:左眼、右眼、左耳以及右耳姿态点。
5.根据权利要求1所述的一种基于视频的人体危险行为分析方法,其特征在于,所述步骤S4中设定的危险行为包括但不限于未正确佩戴头盔、手机使用和吸烟。
6.根据权利要求5所述的一种基于视频的人体危险行为分析方法,其特征在于,所述步骤S4中检测头盔的具体步骤为:首先检测是否存在工作人员,然后对每一位工作人员的头部和安全头盔的位置进行匹配,判断是否正确佩戴头盔,如果连续5帧均检测出未佩戴头盔,则进行警报;
检测手机使用的具体步骤为:对手机和人员姿态进行匹配,只有当存在设定两种情况之一时,则认为工作人员在使用手机,其中,两种情况中第一种情况认为工作人员正在浏览手机页面,第二种情况认为工作人员正在接听电话,如果连续5帧均检测出使用手机,则进行警报;
第一种情况具体为手机处在手的以人体宽度为半径的圆内且相应的手臂弯曲角度大于120°,第二种情况具体为手机处在头部的以人体宽度为半径的圆内且存在一只手的手臂弯曲角度小于120°;
检测吸烟的具体步骤为:在视频中存在工作人员的前提下,对工作人员的边界区域进行扩张和裁剪,然后进一步识别香烟的存在,如果成功识别到香烟,并且香烟处于目标工作人员的手部或者头部附近时,认为存在吸烟行为,如果连续5帧均检测出吸烟,则进行警报。
7.根据权利要求1所述的一种基于视频的人体危险行为分析方法,其特征在于,所述步骤S5使用ST-GCN算法判断目标人员是否存在跌倒行为,所述步骤S5中,检测禁区闯入的具体步骤为:使用区域检测算法,通过鼠标选点的方式确定具体的危险区域多边形,然后检测视频流中是否存在目标工作人员,检测到目标工作人员后对其进行骨架检测,进而通过骨架信息中的脚部信息确定目标工作人员的空间位置,将其与设定的危险区域范围进行比对,判断目标工作人员是否处于危险区域内,如果发现目标工作人员在连续30帧视频中都被判断处于危险区域内,则判定出现了违法越界危险行为并做出警报;如果ST-GCN算法判断目标人员处于运动状态并在禁区边缘出入,则判定禁区闯入并进行警报。
8.根据权利要求1所述的一种基于视频的人体危险行为分析方法,其特征在于,所述步骤S6中,判断工装是否正确穿戴的具体步骤为:首先检测工作人员的存在,如果存在目标工作人员,则对其骨架姿态进行分析估计,裁剪出手臂、躯干以及腿部等经常裸露皮肤的关节所在部分的框图区域,针对这些区域的框图内容进行颜色分析,判断是否存在裸露的皮肤,如果存在皮肤裸露的情况,且目标人员连续5帧图像中都处于皮肤裸露状态,则在相应的关节框图中标注未正确穿戴工装。
9.根据权利要求1所述的一种基于视频的人体危险行为分析方法,其特征在于,所述步骤S7中,后端与前端采用WebSocket进行通信,后端将标注危险行为的图像传送到前端显示,前端通过控制云台转向、选择预警目标危险行为、记录并显示危险行为日志、图像预警并标出危险行为、选取视频源操作,以修改后端检测内容。
10.根据权利要求2所述的一种基于视频的人体危险行为分析方法,其特征在于,所述YOLOv5、4Heads YOLOv5、AlphaPose、ST-GCN模型均在Pytorch框架下进行训练,并使用Tensorrt框架进行深度学习推理优化,以降低系统的分析延时。
CN202211738972.1A 2022-12-30 2022-12-30 一种基于视频的人体危险行为分析方法 Pending CN116259002A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211738972.1A CN116259002A (zh) 2022-12-30 2022-12-30 一种基于视频的人体危险行为分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211738972.1A CN116259002A (zh) 2022-12-30 2022-12-30 一种基于视频的人体危险行为分析方法

Publications (1)

Publication Number Publication Date
CN116259002A true CN116259002A (zh) 2023-06-13

Family

ID=86687189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211738972.1A Pending CN116259002A (zh) 2022-12-30 2022-12-30 一种基于视频的人体危险行为分析方法

Country Status (1)

Country Link
CN (1) CN116259002A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117173795A (zh) * 2023-11-03 2023-12-05 赋之科技(深圳)有限公司 一种危险动作检测方法及终端
CN117392876A (zh) * 2023-10-13 2024-01-12 辽宁艾特斯智能交通技术有限公司 一种道路安全施工智能穿戴设备监控管理系统
CN117636480A (zh) * 2024-01-25 2024-03-01 中科方寸知微(南京)科技有限公司 基于动态区域检测和多目标追踪的实时人体检测方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117392876A (zh) * 2023-10-13 2024-01-12 辽宁艾特斯智能交通技术有限公司 一种道路安全施工智能穿戴设备监控管理系统
CN117392876B (zh) * 2023-10-13 2024-04-12 辽宁艾特斯智能交通技术有限公司 一种道路安全施工智能穿戴设备监控管理系统
CN117173795A (zh) * 2023-11-03 2023-12-05 赋之科技(深圳)有限公司 一种危险动作检测方法及终端
CN117173795B (zh) * 2023-11-03 2024-02-23 赋之科技(深圳)有限公司 一种危险动作检测方法及终端
CN117636480A (zh) * 2024-01-25 2024-03-01 中科方寸知微(南京)科技有限公司 基于动态区域检测和多目标追踪的实时人体检测方法及系统
CN117636480B (zh) * 2024-01-25 2024-04-12 中科方寸知微(南京)科技有限公司 基于动态区域检测和多目标追踪的实时人体检测方法及系统

Similar Documents

Publication Publication Date Title
CN110543867B (zh) 一种多摄像头条件下的人群密度估测系统及方法
CN110419048B (zh) 用于标识所定义的对象的系统
CN116259002A (zh) 一种基于视频的人体危险行为分析方法
CN108960067B (zh) 基于深度学习的实时的列车驾驶员动作识别系统和方法
CN109506628A (zh) 一种基于深度学习的卡车环境下目标物测距方法
CN104077568A (zh) 一种高精度的驾驶员行为识别与监控方法及系统
CN114155492A (zh) 高空作业安全带挂绳高挂低用识别方法、装置和电子设备
CN114140745A (zh) 施工现场人员属性检测方法、系统、装置及介质
CN111985387A (zh) 一种基于深度学习的安全帽佩戴预警方法及系统
CN112949457A (zh) 基于增强现实技术的维修方法、装置及系统
WO2023104557A1 (en) Machine-learning for safety rule violation determination
CN117726991B (zh) 一种高空吊篮安全带检测方法及终端
CN106611165B (zh) 一种基于相关滤波和颜色匹配的汽车车窗检测方法及装置
CN113688759A (zh) 一种基于深度学习的安全帽识别方法
KR101862545B1 (ko) 로봇을 이용한 구조구난 서비스 제공방법 및 시스템
CN113537019A (zh) 基于关键点识别变电站人员安全帽佩戴的检测方法
CN116704017B (zh) 一种基于视觉混合的机械臂位姿检测方法
CN106803937B (zh) 一种具有文本日志的双摄像头视频监控方法、系统和监控装置
CN112989958A (zh) 基于YOLOv4与显著性检测的安全帽佩戴识别方法
CN117475353A (zh) 基于视频的异常烟雾识别方法及系统
CN112422895A (zh) 基于无人机的图像分析跟踪、定位系统及方法
CN117423157A (zh) 一种结合迁移学习、区域入侵的矿井下异常视频动作理解方法
CN116977909A (zh) 一种基于多模态数据的深度学习火灾强度识别方法及系统
CN114663805A (zh) 一种基于换流站阀厅消防机器人的火焰定位报警系统及方法
CN114694090A (zh) 一种基于改进PBAS算法与YOLOv5的校园异常行为检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination