CN114694075B - 一种基于深度强化学习的危险行为识别方法 - Google Patents

一种基于深度强化学习的危险行为识别方法 Download PDF

Info

Publication number
CN114694075B
CN114694075B CN202210362415.8A CN202210362415A CN114694075B CN 114694075 B CN114694075 B CN 114694075B CN 202210362415 A CN202210362415 A CN 202210362415A CN 114694075 B CN114694075 B CN 114694075B
Authority
CN
China
Prior art keywords
fishing rod
action
target
positioning
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210362415.8A
Other languages
English (en)
Other versions
CN114694075A (zh
Inventor
李帷韬
杨盛世
丁美双
丁立健
孙伟
李奇越
刘鑫
王旗
常文婧
侯建平
胡平路
管树志
张雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Super High Voltage Branch Of State Grid Anhui Electric Power Co ltd
Hefei University of Technology
Original Assignee
Super High Voltage Branch Of State Grid Anhui Electric Power Co ltd
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Super High Voltage Branch Of State Grid Anhui Electric Power Co ltd, Hefei University of Technology filed Critical Super High Voltage Branch Of State Grid Anhui Electric Power Co ltd
Priority to CN202210362415.8A priority Critical patent/CN114694075B/zh
Publication of CN114694075A publication Critical patent/CN114694075A/zh
Application granted granted Critical
Publication of CN114694075B publication Critical patent/CN114694075B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度强化学习的危险行为识别方法,包括:1通过摄像头进行数据采集,得到危险行为视频并生成鱼竿数据集;2建立用于检测鱼竿的鱼竿检测器、用于鱼竿精准定位的鱼竿定位器、用于检测人体姿态的姿态检测器;3通过鱼竿数据集训练鱼竿检测器,并通过测试进行验证;4通过训练完成的鱼竿检测器进行鱼竿目标检测,得到定位数据集;5将定位数据集送入鱼竿定位器中进行训练,并通过测试进行验证;6将危险行为视频送入鱼竿检测和人体动作识别模型中,通过综合逻辑判断得到危险行为的动作。本发明能利用深度强化学习算法实现对高电压环境中危险行为者的动作识别,可以及时警告危险行为者的危险动作,保证该环境中的人员安全。

Description

一种基于深度强化学习的危险行为识别方法
技术领域
本发明属于目标检测和图像识别领域,具体的说是一种基于深度强化学习的危险行为识别方法。
背景技术
近年来,随着经济取得的巨大发展,人民的生活水平发生了翻天覆地的变化,人们在享受经济带来的现代化生活之外,也追求着自己的兴趣爱好。其中,钓鱼就是比较受欢迎的运动之一。最早的钓鱼是狩猎的一种形式,骨钓鱼据历史考证距今有六千多年的历史,而现今成为一项活动。但是,在许多池塘等钓鱼环境中往往伴随着高压电线,因此钓鱼活动也就伴随着一定的危险性。所以,如何提醒钓鱼者身处危险具有重要意义。针对危险提醒,首先就需要判断有人在高压附近钓鱼,因此需要一种方法能够检测钓鱼行为这种具有潜在危险的行为动作,即主要是对鱼竿进行目标检测和人体姿态行为检测。
目标检测领域的研究最早可以追溯到1991年提出的人脸检测算法。随着近些年硬件算力的提高、深度学习的发展和高质量数据集的公开,研究者们提出越来越多的目标检测算法。目标检测算法大致分为两个阶段:传统的目标检测算法和基于深度学习的目标检测算法。第一阶段在2000年前后,这期间所提出的方法大多基于滑动窗口和人工特征提取,存在计算复杂度高以及复杂场景下鲁棒性差的缺陷。第二阶段是2014年至今,以2014年提出的R-CNN算法为开端。这些算法利用深度学习技术自动的抽取输入图像中的隐藏特征,对样本进行更高精度的分类和预测。在R-CNN之后,有涌现出Fast R-CNN、Faster R-CNN、SPPNet、YOLO系列等众多基于深度学习的图像目标检测算法。但是针对鱼竿这种细长物的目标检测,现有算法仍存在不足,并不能十分准确的定位出物体的位置。也有算法提出了针对车道线这种细长结构的目标检测,通过直接预测参数得到车道线位置,并达到了比较好的结果,但是并不适用于钓鱼时这种特定场景中鱼竿特征不明显、位置不固定的情况。所以,设计一种针对危险行为管控的方法,如钓鱼时能够准确且快速的鱼竿检测和动作识别方法就具有重要意义。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于深度强化学习的危险行为识别方法,以期能实时监测危险行为人员,得到危险行为者动作,从而能避免危险行为人员发生危险,并能够对危险情况及时反馈。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于深度强化学习的危险行为识别方法的特点在于,包括如下步骤:
步骤1、获取危险行为视频并进行预处理,得到危险行为图像数据集,按预设的比例将所述危险行为图像数据集划分为用于鱼竿检测的图像数据集和用于鱼竿定位的图像数据集;
对所述用于鱼竿检测的图像数据集进行人工标注后,按一定比例划分为鱼竿检测训练集和鱼竿检测验证集;
步骤2、建立用于检测鱼竿的鱼竿检测器、用于鱼竿定位的鱼竿定位器、用于检测人体姿态的姿态检测器;
所述鱼竿检测器的组成包括:Resnet-101主干网络、多尺度可形变自注意力模块、编码器、解码器;
所述鱼竿定位器的组成包括:一个actor网络、两个critic网络、一个目标actor网络、两个目标critic网络、空间卷积神经网络;
所述空间卷积神经网络包括:卷积层、空间信息传递模块和全连接层;
所述空间信息传递模块包括:从上到下的特征提取层SCNN_D、从下到上的特征提取层SCNN_U、从左到右的特征提取层SCNN_R和从右到左的特征提取层SCNN_L;
所述姿态检测器是由尺度感知的高分辨网络构成,并包括:ResNet主干网络和高分辨率网络;
所述高分辨网络是由并行连接的若干个多分辨子网构成,且若干个多分辨子网的分辨率由高到低排序;
步骤3、将所述鱼竿检测训练集送入所述鱼竿检测器中进行训练,并通过鱼竿检测验证集进行验证,从而得到训练好的鱼竿检测器;
步骤4、将所述用于鱼竿定位的图像数据集送入所述训练好的鱼竿检测器中进行鱼竿目标检测,得到每个图像的鱼竿预测包围框并构成定位数据集,再对所述定位数据集进行人工标注后,按照一定比例划分为定位训练集和定位验证集;
步骤5、将所述定位训练集送入鱼竿定位器中进行训练,并通过定位验证集进行验证,从而得到训练好的鱼竿定位器;
步骤6、鱼竿检测和人体动作识别;
步骤6.1、定义危险行为动作种类,包括:无危险行为、潜在危险行为、收杆动作和甩杆动作;定义缓存队列QUEUE,并用于存放连续t帧的姿态信息;
步骤6.2、将待检测的危险行为视频中的一帧图像送入训练好的鱼竿检测器进行检测,得到当前帧图像的鱼竿目标包围框;
步骤6.3、将当前帧图像的鱼竿目标包围框送入训练好的鱼竿定位器进行定位,得到定位后的鱼竿参数,并作为鱼竿目标;
步骤6.5、将当前帧图像送入姿态检测器中进行姿态检测,得到人体姿态关键点:
所述当前帧图像经过ResNet主干网络进行特征提取,得到高分辨率特征图;所述高分辨率特征图输入所述高分辨率网络中,并经过并行连接的若干个多分辨率子网络的多尺度特征融合处理,得到高分辨率表示的估计关键点信息,并作为人体姿态关键点;
步骤6.6、获取人体姿态关键点中手臂上的关键点信息,从而利用式(1)计算得到当前帧图像的手臂的状态cosθ,并作为姿态信息保存在缓存队列QUEUE中:
式(1)中,θ表示手臂中小臂与大臂之间的夹角,d1、d2小臂与大臂的长度,d3表示对边长度;
步骤6.7、按照步骤6.2-步骤6.5的过程获取缓存队列QUEUE中连续t帧的姿态信息,并通过反余弦函数求出危险行为者的手臂夹角θ的变化范围,从而利用式(2)计算危险行为者手臂的动作A:
式(2)中,当A=0表示无明显动作,当A=1表示有明显动作,且θ的变化从大到小表示抬手动作,否则表示甩手动作;
步骤6.8、若检测到所述鱼竿目标且伴随抬手动作或者甩手动作,则判定为抬杆动作或者甩杆动作,发出高压危险警报;否则,判定为潜在危险行为;若未检测所述鱼竿目标,则判定为未无危险行为。
本发明所述的一种基于深度强化学习的危险行为识别方法的特点也在于,所述步骤3包括:
步骤3.1、所述鱼竿检测训练集送入鱼竿检测器中,先经过Resnet-101主干网络进行多尺度特征提取,得到多尺度特征图;
步骤3.2、所述多尺度特征图输入所述多尺度可形变自注意力模块中进行聚合处理,得到聚合多尺度特征图;对所述多尺度特征图进行位置编码后,再与聚合多尺度特征图相加并输入所述编码器中进行编码处理,得到编码后的候选特征向量;
步骤3.3、所述候选特征向量输入所述解码器中进行解码处理,得到鱼竿预测目标的包围框;
步骤3.4、采用焦点损失函数计算损失,并通过匈牙利匹配算法对所述焦点损失函数进行监督求解,从而得到训练后的鱼竿检测器;
步骤3.5、将所述鱼竿检测验证集输入所述训练后的鱼竿检测器中进行预测,得到预测结果,并计算其准确率后与预设的正确率阈值进行对比,若达到正确率阈值或者达到训练迭代次数,则表示得到训练好的鱼竿检测器,并保存模型参数;否则,返回步骤3.1继续对训练后的鱼竿检测器进行训练。
所述步骤5包括:
步骤5.1、定义动作空间的动作类型包括,旋转动作、平移动作和终止动作;
所述旋转动作包括:顺时针方向和逆时针方向旋转;
所述平移动作包括:向上平移和向下平移;
所述终止动作表示目标经过旋转和平移后的当前位置与期望位置达到所设阈值;
步骤5.2、使用随机参数φ初始化actor网络πφ,使用随机参数θ1、θ2初始化两critic网络Vθ1、Vθ2,再使用随机参数φ′初始化目标actor网络πφ′、使用随机参数θ1′、θ2′初始化两个目标critic网络Vθ1′、Vθ2′,并使φ′=φ、θ1′=θ1、θ2′=θ2
步骤5.3、定义当前训练迭代次数为lim,并初始化lim=1;
步骤5.4、初始化鱼竿参数为G、动作历史向量为空;
步骤5.5、定义当前回合数为lun,并初始化lun=1;
步骤5.6、在第lim次迭代的第lun回合下,将所述定位数据集送入鱼竿检测器中,并经过空间卷积神经网络进行图像特征提取,得到编码后的图像特征向量:
所述卷积层对所述定位数据集进行特征提取,得到定位特征图;所述上到下的特征提取层SCNN_D对定位特征图进行切片,得到特征图D;所述从下到上的特征提取层SCNN_U对特征图D进行切片,得到特征图U;所述从左到右的特征提取层SCNN_R对特征图U进行切片,得到特征图R;所述从右到左的特征提取层SCNN_L对特征图R进行切片,得到特征图L;所述特征图L经过所述全连接层的处理后,得到编码后的图像特征向量;
步骤5.7、将所述鱼竿参数G、动作历史向量和图像编码后的特征向量相加,得到当前环境状态s;
步骤5.8、将所述当前环境状态s送入actor网络πφ中进行动作选择,得到当前动作a,并将当前动作a保存在动作历史向量中,再通过当前动作a计算得到鱼竿参数的变化,用于更新鱼竿参数G;
步骤5.9、将所述当前动作a分别送入critic网络Vθ1、Vθ2中进行评价,得到两个动作值Q1、Q2
步骤5.10、将所述当前环境状态s通过当前动作a进行状态转移得到下一状态s′,记录奖励r,再将状态s′送入目标actor网络πφ′,得到下一动作a′并分别送入目标critic网络Vθ1′、Vθ2′中进行评价,得到两个目标动作值Q1 a′、Q2 a′并选取最小值,作为状态s′的目标动作值Y′;
步骤5.11、通过式(3)计算当前环境状态s的目标动作值Y,并通过均方误差损失函数分别计算与动作值Q1、Q2之间的损失,从而更新critic网络Vθ1、Vθ2的参数θ1、θ2
Y=r+γmin(Q1 a′,Q2 a′) (3)
式(3)中,γ表示学习率;
步骤5.12、若连续两次更新critic网络,则通过梯度上升法更新actor网络πφ的参数φ,否则,不更新actor网络πφ
步骤5.13、通过式(4)进行软更新,更新目标actor网络πφ′和目标critic网络Vθ1′、Vθ2′
式(4)中,←表示赋值,τ表示更新比例;
步骤5.14、若当前动作a为终止动作或者达到预设的回合次数阈值,结束当前迭代并继续执行步骤5.12;否则,将下一状态s′作为当前环境状态s,并将lun+1赋值给lun后返回步骤5.7顺序执行;
步骤5.15、将所述定位验证集送入定位器中进行验证,得到定位精度和定位速度,如果满足预设标准或者达到最大训练迭代次数,则表示得到训练好的鱼竿定位器,并保存最优模型参数;否则,将lim+1赋值给lim后返回步骤5.4顺序执行。
与现有技术相比,本发明的有益效果在于:
1、本发明采用目标检测和图像识别算法使用摄像头对危险行为者进行实时监测,实现了对危险行为者危险动作及时警告,从而避免了发生危险;
2、本发明通过深度强化学习的方法,解决了鱼竿这种细长物体难以精准定位的问题,实现了鱼竿的精准定位,从而使检测结果更加可靠;
3、本发明通过空间卷积神经网络进行空间特征提取,以获取细长物体这种具有空间沿伸的特征,解决了细长结构特征难以提取的问题,从而有利于提高定位的精度;
4、本发明通过尺度感知的高分辨网络构建的人体姿态识别方法,实现了对人体姿态的检测并通过定义的先验规则得到人体动作,从而对危险行为者危险动作进行准确判断。
附图说明
图1为本发明危险行为识别方法流程图;
图2为本发明强化学习基本架构示意图;
图3为鱼竿定位流程图。
具体实施方式
本实施例中,参照图1所示,一种基于深度强化学习的危险行为识别方法,其特征在于,包括如下步骤:
步骤1、获取危险行为视频并进行预处理,得到危险行为图像数据集,按预设的比例将危险行为图像数据集划分为用于鱼竿检测的图像数据集和用于鱼竿定位的图像数据集;
对用于鱼竿检测的图像数据集进行人工标注后,按一定比例划分为鱼竿检测训练集和鱼竿检测验证集;本实施例中,训练集和验证集的比例为9:1;
步骤2、建立用于检测鱼竿的鱼竿检测器、用于鱼竿定位的鱼竿定位器、用于检测人体姿态的姿态检测器;
鱼竿检测器的组成包括:Resnet-101主干网络、多尺度可形变自注意力模块、编码器、解码器;
鱼竿定位器的组成包括:一个actor网络、两个critic网络、一个目标actor网络、两个目标critic网络、空间卷积神经网络;
空间卷积神经网络包括:卷积层、空间信息传递模块和全连接层;
空间信息传递模块包括:从上到下的特征提取层SCNN_D、从下到上的特征提取层SCNN_U、从左到右的特征提取层SCNN_R和从右到左的特征提取层SCNN_L;
姿态检测器是由尺度感知的高分辨网络构成,并包括:ResNet主干网络和高分辨率网络;
高分辨网络是由并行连接的若干个多分辨子网构成,且若干个多分辨子网的分辨率由高到低排序;
步骤3、将鱼竿检测训练集送入鱼竿检测器中进行训练,并通过鱼竿检测验证集进行验证,从而得到训练好的鱼竿检测器;
步骤3.1、鱼竿检测训练集送入鱼竿检测器中,先经过Resnet-101主干网络进行多尺度特征提取,得到多尺度特征图;
步骤3.2、多尺度特征图输入多尺度可形变自注意力模块中进行聚合处理,得到聚合多尺度特征图;对多尺度特征图进行位置编码后,再与聚合多尺度特征图相加并输入编码器中进行编码处理,得到编码后的候选特征向量;
步骤3.3、候选特征向量输入解码器中进行解码处理,得到鱼竿预测目标的包围框;
步骤3.4、采用焦点损失函数计算损失,并通过匈牙利匹配算法对焦点损失函数进行监督求解,从而得到训练后的鱼竿检测器;
步骤3.5、将鱼竿检测验证集输入训练后的鱼竿检测器中进行预测,得到预测结果,并计算其准确率后与预设的正确率阈值进行对比,若达到正确率阈值或者达到训练迭代次数,则表示得到训练好的鱼竿检测器,并保存模型参数;否则,返回步骤3.1继续对训练后的鱼竿检测器进行训练。
步骤4、将用于鱼竿定位的图像数据集送入训练好的鱼竿检测器中进行鱼竿目标检测,得到每个图像的鱼竿预测包围框并构成定位数据集,再对定位数据集进行人工标注后,按照一定比例划分为定位训练集和定位验证集;本实施例中,训练集和验证集的比例为9:1;
步骤5、将定位训练集送入鱼竿定位器中进行训练,并通过定位验证集进行验证,从而得到训练好的鱼竿定位器;本实施例中,参照图3所示,
步骤5.1、定义动作空间的动作类型包括,旋转动作、平移动作和终止动作;
旋转动作包括:顺时针方向和逆时针方向旋转;
平移动作包括:向上平移和向下平移;
终止动作表示目标经过旋转和平移后的当前位置与期望位置达到所设阈值;
步骤5.2、使用随机参数φ初始化actor网络πφ,使用随机参数θ1、θ2初始化两critic网络Vθ1、Vθ2,再使用随机参数φ′初始化目标actor网络πφ′、使用随机参数θ1′、θ2′初始化两个目标critic网络Vθ1′、Vθ2′,并使φ′=φ、θ1′=θ1、θ2′=θ2
步骤5.3、定义当前训练迭代次数为lim,并初始化lim=1;
步骤5.4、初始化鱼竿参数为G、动作历史向量为空;本实施例中,获取定位数据集中每张图像的对角线位置,作为初始化鱼竿位置,计算斜率及中点位置坐标作为初始化鱼竿参数;
步骤5.5、定义当前回合数为lun,并初始化lun=1;
步骤5.6、在第lim次迭代的第lun回合下,将定位数据集送入鱼竿检测器中,并经过空间卷积神经网络进行图像特征提取,得到编码后的图像特征向量:
卷积层对定位数据集进行特征提取,得到定位特征图;上到下的特征提取层SCNN_D对定位特征图进行切片,得到特征图D;从下到上的特征提取层SCNN_U对特征图D进行切片,得到特征图U;从左到右的特征提取层SCNN_R对特征图U进行切片,得到特征图R;从右到左的特征提取层SCNN_L对特征图R进行切片,得到特征图L;特征图L经过全连接层的处理后,得到编码后的图像特征向量;
步骤5.7、将鱼竿参数G、动作历史向量和图像编码后的特征向量相加,得到当前环境状态s;
步骤5.8、将当前环境状态s送入actor网络πφ中进行动作选择,得到当前动作a,并将当前动作a保存在动作历史向量中,并通过当前动作计算得到鱼竿参数的变化,用于更新鱼竿参数G;
步骤5.9、将当前动作a分别送入critic网络Vθ1、Vθ2中进行评价,得到两个动作值Q1、Q2
步骤5.10、如图2所示;将当前环境状态s通过当前动作a进行状态转移得到下一状态s′,记录奖励r,再将状态s′送入目标actor网络πφ′,得到下一动作a′并分别送入目标critic网络Vθ1′、Vθ2′中进行评价,得到两个目标动作值Q1 a′、Q2 a′并选取最小值,作为状态s′的目标动作值Y′;
步骤5.11、通过式(3)计算当前环境状态s的目标动作值Y,并通过均方误差损失函数分别计算与动作值Q1、Q2之间的损失,从而更新critic网络Vθ1、Vθ2的参数θ1、θ2
Y=r+γmin(Q1 a′,Q2 a′) (3)
式(3)中,γ表示学习率;
步骤5.12、若连续两次更新critic网络后,则通过梯度上升法更新actor网络πφ的参数φ,否则,不更新actor网络πφ
步骤5.13、通过式(4)进行软更新,更新目标actor网络πφ′和目标critic网络Vθ1′、Vθ2′
式(4)中,←表示赋值,τ表示更新比例;
步骤5.14、若当前动作a为终止动作或者达到预设的回合次数阈值,结束当前迭代并继续执行步骤5.12;否则,将下一状态s′作为当前环境状态s,并将lun+1赋值给lun后返回步骤5.7顺序执行;
步骤5.15、将定位验证集送入定位器中进行验证,得到定位精度和定位速度,如果满足预设标准或者达到最大训练迭代次数,则表示得到训练好的鱼竿定位器,并保存最优模型参数;否则,将lim+1赋值给lim后返回步骤5.4顺序执行。
步骤6、鱼竿检测和人体动作识别;
步骤6.1、定义危险行为动作种类,包括:无危险行为、潜在危险行为、收杆动作和甩杆动作;定义缓存队列QUEUE,并用于存放连续t帧的姿态信息;本实施例中,设置t=7,储存连续7帧的姿态信息;
步骤6.2、将待检测的危险行为视频中的一帧图像送入训练好的鱼竿检测器进行检测,得到当前帧图像的鱼竿目标包围框;
步骤6.3、将当前帧图像的鱼竿目标包围框送入训练好的鱼竿定位器进行定位,得到定位后的鱼竿参数,并作为鱼竿目标;
步骤6.5、将当前帧图像送入姿态检测器中进行姿态检测,得到人体姿态关键点:
当前帧图像经过ResNet主干网络进行特征提取,得到高分辨率特征图;高分辨率特征图输入高分辨率网络中,并经过并行连接的若干个多分辨率子网络的多尺度特征融合处理,得到高分辨率表示的估计关键点信息,并作为人体姿态关键点;
步骤6.6、获取人体姿态关键点中手臂上的关键点信息,从而利用式(1)计算得到当前帧图像的手臂的状态cosθ,并作为姿态信息保存在缓存队列QUEUE中:
式(1)中,θ表示手臂中小臂与大臂之间的夹角,d1、d2小臂与大臂的长度,d3表示对边长度;
步骤6.7、按照步骤6.2-步骤6.5的过程获取缓存队列QUEUE中连续t帧的姿态信息,并通过反余弦函数求出危险行为者的手臂夹角θ的变化范围,从而利用式(2)计算危险行为者手臂的动作A:
式(2)中,当A=0表示无明显动作,当A=1表示有明显动作,且θ的变化从大到小表示抬手动作,否则表示甩手动作;
步骤6.8、若检测到鱼竿目标且伴随抬手动作或者甩手动作,则判定为抬杆动作或者甩杆动作,发出高压危险警报;否则,判定为潜在危险行为;若未检测鱼竿目标,则判定为无危险行为。

Claims (3)

1.一种基于深度强化学习的危险行为识别方法,其特征在于,包括如下步骤:
步骤1、获取危险行为视频并进行预处理,得到危险行为图像数据集,按预设的比例将所述危险行为图像数据集划分为用于鱼竿检测的图像数据集和用于鱼竿定位的图像数据集;
对所述用于鱼竿检测的图像数据集进行人工标注后,按一定比例划分为鱼竿检测训练集和鱼竿检测验证集;
步骤2、建立用于检测鱼竿的鱼竿检测器、用于鱼竿定位的鱼竿定位器、用于检测人体姿态的姿态检测器;
所述鱼竿检测器的组成包括:Resnet-101主干网络、多尺度可形变自注意力模块、编码器、解码器;
所述鱼竿定位器的组成包括:一个actor网络、两个critic网络、一个目标actor网络、两个目标critic网络、空间卷积神经网络;
所述空间卷积神经网络包括:卷积层、空间信息传递模块和全连接层;
所述空间信息传递模块包括:从上到下的特征提取层SCNN_D、从下到上的特征提取层SCNN_U、从左到右的特征提取层SCNN_R和从右到左的特征提取层SCNN_L;
所述姿态检测器是由尺度感知的高分辨网络构成,并包括:ResNet主干网络和高分辨率网络;
所述高分辨网络是由并行连接的若干个多分辨子网构成,且若干个多分辨子网的分辨率由高到低排序;
步骤3、将所述鱼竿检测训练集送入所述鱼竿检测器中进行训练,并通过鱼竿检测验证集进行验证,从而得到训练好的鱼竿检测器;
步骤4、将所述用于鱼竿定位的图像数据集送入所述训练好的鱼竿检测器中进行鱼竿目标检测,得到每个图像的鱼竿预测包围框并构成定位数据集,再对所述定位数据集进行人工标注后,按照一定比例划分为定位训练集和定位验证集;
步骤5、将所述定位训练集送入鱼竿定位器中进行训练,并通过定位验证集进行验证,从而得到训练好的鱼竿定位器;
步骤6、鱼竿检测和人体动作识别;
步骤6.1、定义危险行为动作种类,包括:无危险行为、潜在危险行为、收杆动作和甩杆动作;定义缓存队列QUEUE,并用于存放连续t帧的姿态信息;
步骤6.2、将待检测的危险行为视频中的一帧图像送入训练好的鱼竿检测器进行检测,得到当前帧图像的鱼竿目标包围框;
步骤6.3、将当前帧图像的鱼竿目标包围框送入训练好的鱼竿定位器进行定位,得到定位后的鱼竿参数,并作为鱼竿目标;
步骤6.5、将当前帧图像送入姿态检测器中进行姿态检测,得到人体姿态关键点:
所述当前帧图像经过ResNet主干网络进行特征提取,得到高分辨率特征图;所述高分辨率特征图输入所述高分辨率网络中,并经过并行连接的若干个多分辨率子网络的多尺度特征融合处理,得到高分辨率表示的估计关键点信息,并作为人体姿态关键点;
步骤6.6、获取人体姿态关键点中手臂上的关键点信息,从而利用式(1)计算得到当前帧图像的手臂的状态cosθ,并作为姿态信息保存在缓存队列QUEUE中:
式(1)中,θ表示手臂中小臂与大臂之间的夹角,d1、d2小臂与大臂的长度,d3表示对边长度;
步骤6.7、按照步骤6.2-步骤6.5的过程获取缓存队列QUEUE中连续t帧的姿态信息,并通过反余弦函数求出危险行为者的手臂夹角θ的变化范围,从而利用式(2)计算危险行为者手臂的动作A:
式(2)中,当A=0表示无明显动作,当A=1表示有明显动作,且θ的变化从大到小表示抬手动作,否则表示甩手动作;
步骤6.8、若检测到所述鱼竿目标且伴随抬手动作或者甩手动作,则判定为抬杆动作或者甩杆动作,发出高压危险警报;否则,判定为潜在危险行为;若未检测所述鱼竿目标,则判定为未无危险行为。
2.根据权利要求1所述的一种基于深度强化学习的危险行为识别方法,其特征在于,所述步骤3包括:
步骤3.1、所述鱼竿检测训练集送入鱼竿检测器中,先经过Resnet-101主干网络进行多尺度特征提取,得到多尺度特征图;
步骤3.2、所述多尺度特征图输入所述多尺度可形变自注意力模块中进行聚合处理,得到聚合多尺度特征图;对所述多尺度特征图进行位置编码后,再与聚合多尺度特征图相加并输入所述编码器中进行编码处理,得到编码后的候选特征向量;
步骤3.3、所述候选特征向量输入所述解码器中进行解码处理,得到鱼竿预测目标的包围框;
步骤3.4、采用焦点损失函数计算损失,并通过匈牙利匹配算法对所述焦点损失函数进行监督求解,从而得到训练后的鱼竿检测器;
步骤3.5、将所述鱼竿检测验证集输入所述训练后的鱼竿检测器中进行预测,得到预测结果,并计算其准确率后与预设的正确率阈值进行对比,若达到正确率阈值或者达到训练迭代次数,则表示得到训练好的鱼竿检测器,并保存模型参数;否则,返回步骤3.1继续对训练后的鱼竿检测器进行训练。
3.根据权利要求1所述的一种基于深度强化学习的危险行为识别方法,其特征在于,所述步骤5包括:
步骤5.1、定义动作空间的动作类型包括,旋转动作、平移动作和终止动作;
所述旋转动作包括:顺时针方向和逆时针方向旋转;
所述平移动作包括:向上平移和向下平移;
所述终止动作表示目标经过旋转和平移后的当前位置与期望位置达到所设阈值;
步骤5.2、使用随机参数φ初始化actor网络πφ,使用随机参数θ1、θ2初始化两critic网络Vθ1、Vθ2,再使用随机参数φ′初始化目标actor网络πφ′、使用随机参数θ′1、θ2′初始化两个目标critic网络Vθ1′、Vθ2′,并使φ′=φ、θ′1=θ1、θ′2=θ2
步骤5.3、定义当前训练迭代次数为lim,并初始化lim=1;
步骤5.4、初始化鱼竿参数为G、动作历史向量为空;
步骤5.5、定义当前回合数为lun,并初始化lun=1;
步骤5.6、在第lim次迭代的第lun回合下,将所述定位数据集送入鱼竿检测器中,并经过空间卷积神经网络进行图像特征提取,得到编码后的图像特征向量:
所述卷积层对所述定位数据集进行特征提取,得到定位特征图;所述上到下的特征提取层SCNN_D对定位特征图进行切片,得到特征图D;所述从下到上的特征提取层SCNN_U对特征图D进行切片,得到特征图U;所述从左到右的特征提取层SCNN_R对特征图U进行切片,得到特征图R;所述从右到左的特征提取层SCNN_L对特征图R进行切片,得到特征图L;所述特征图L经过所述全连接层的处理后,得到编码后的图像特征向量;
步骤5.7、将所述鱼竿参数G、动作历史向量和图像编码后的特征向量相加,得到当前环境状态s;
步骤5.8、将所述当前环境状态s送入actor网络πφ中进行动作选择,得到当前动作a,并将当前动作a保存在动作历史向量中,再通过当前动作a计算得到鱼竿参数的变化,用于更新鱼竿参数G;
步骤5.9、将所述当前动作a分别送入critic网络Vθ1、Vθ2中进行评价,得到两个动作值Q1、Q2
步骤5.10、将所述当前环境状态s通过当前动作a进行状态转移得到下一状态s′,记录奖励r,再将状态s′送入目标actor网络πφ′,得到下一动作a′并分别送入目标critic网络Vθ1′、Vθ2′中进行评价,得到两个目标动作值Q1 a′、Q2 a′并选取最小值,作为状态s′的目标动作值Y′;
步骤5.11、通过式(3)计算当前环境状态s的目标动作值Y,并通过均方误差损失函数分别计算与动作值Q1、Q2之间的损失,从而更新critic网络Vθ1、Vθ2的参数θ1、θ2
Y=r+γmin(Q1 a′,Q2 a′) (3)
式(3)中,γ表示学习率;
步骤5.12、若连续两次更新critic网络,则通过梯度上升法更新actor网络πφ的参数φ,否则,不更新actor网络πφ
步骤5.13、通过式(4)进行软更新,更新目标actor网络πφ′和目标critic网络Vθ1′、Vθ2′
式(4)中,←表示赋值,τ表示更新比例;
步骤5.14、若当前动作a为终止动作或者达到预设的回合次数阈值,结束当前迭代并继续执行步骤5.12;否则,将下一状态s′作为当前环境状态s,并将lun+1赋值给lun后返回步骤5.7顺序执行;
步骤5.15、将所述定位验证集送入定位器中进行验证,得到定位精度和定位速度,如果满足预设标准或者达到最大训练迭代次数,则表示得到训练好的鱼竿定位器,并保存最优模型参数;否则,将lim+1赋值给lim后返回步骤5.4顺序执行。
CN202210362415.8A 2022-04-07 2022-04-07 一种基于深度强化学习的危险行为识别方法 Active CN114694075B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210362415.8A CN114694075B (zh) 2022-04-07 2022-04-07 一种基于深度强化学习的危险行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210362415.8A CN114694075B (zh) 2022-04-07 2022-04-07 一种基于深度强化学习的危险行为识别方法

Publications (2)

Publication Number Publication Date
CN114694075A CN114694075A (zh) 2022-07-01
CN114694075B true CN114694075B (zh) 2024-02-13

Family

ID=82142877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210362415.8A Active CN114694075B (zh) 2022-04-07 2022-04-07 一种基于深度强化学习的危险行为识别方法

Country Status (1)

Country Link
CN (1) CN114694075B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240278B (zh) * 2022-09-23 2023-01-06 东莞先知大数据有限公司 钓鱼行为检测方法
CN117409517B (zh) * 2023-10-19 2024-05-07 光谷技术有限公司 基于视频ai行为分析的语音告警系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102126498B1 (ko) * 2019-11-15 2020-06-25 한국건설기술연구원 영상 인식 기반의 위험상황 감지방법, 위험 관리 장치 및 위험상황 감지시스템
CN112966589A (zh) * 2021-03-03 2021-06-15 中润油联天下网络科技有限公司 一种在危险区域的行为识别方法
WO2021129569A1 (zh) * 2019-12-25 2021-07-01 神思电子技术股份有限公司 一种人体动作识别方法
CN114220176A (zh) * 2021-12-22 2022-03-22 南京华苏科技有限公司 一种基于深度学习的人体行为的识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102126498B1 (ko) * 2019-11-15 2020-06-25 한국건설기술연구원 영상 인식 기반의 위험상황 감지방법, 위험 관리 장치 및 위험상황 감지시스템
WO2021129569A1 (zh) * 2019-12-25 2021-07-01 神思电子技术股份有限公司 一种人体动作识别方法
CN112966589A (zh) * 2021-03-03 2021-06-15 中润油联天下网络科技有限公司 一种在危险区域的行为识别方法
CN114220176A (zh) * 2021-12-22 2022-03-22 南京华苏科技有限公司 一种基于深度学习的人体行为的识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于OpenPose人体姿态识别的变电站危险行为检测;朱建宝;许志龙;孙玉玮;马青山;;自动化与仪表;20200224(第02期);全文 *

Also Published As

Publication number Publication date
CN114694075A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
US11908244B2 (en) Human posture detection utilizing posture reference maps
CN114694075B (zh) 一种基于深度强化学习的危险行为识别方法
WO2020228446A1 (zh) 模型训练方法、装置、终端及存储介质
CN110120064B (zh) 一种基于互强化与多注意机制学习的深度相关目标跟踪算法
Migdal et al. Background subtraction using markov thresholds
CN108230291B (zh) 物体识别系统训练方法、物体识别方法、装置和电子设备
CN109325440B (zh) 人体动作识别方法及系统
CN110009060B (zh) 一种基于相关滤波与目标检测的鲁棒性长期跟踪方法
CN109902565B (zh) 多特征融合的人体行为识别方法
CN112307883B (zh) 训练方法、装置、电子设备以及计算机可读存储介质
CN112883896B (zh) 一种基于bert网络的微表情检测方法
CN110555975A (zh) 一种防溺水的监控方法及系统
CN111931654A (zh) 一种人员跟踪智能监测方法、系统和装置
CN111199556A (zh) 基于摄像头的室内行人检测和跟踪方法
Salem et al. Semantic image inpainting using self-learning encoder-decoder and adversarial loss
CN114038011A (zh) 一种室内场景下人体异常行为的检测方法
Guha A report on automatic face recognition: Traditional to modern deep learning techniques
CN108985216B (zh) 一种基于多元logistic回归特征融合的行人头部检测方法
CN112380966B (zh) 基于特征点重投影的单眼虹膜匹配方法
CN114360058A (zh) 一种基于行走视角预测的跨视角步态识别方法
CN113470073A (zh) 一种基于深度学习的动物中心追踪方法
CN111160179A (zh) 一种基于头部分割和卷积神经网络的摔倒检测方法
CN106803080B (zh) 一种基于形状玻尔兹曼机的补全式行人检测方法
Lee et al. Design of face recognition attendance
CN117037049B (zh) 基于YOLOv5深度学习的图像内容检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant