CN115147817A - 一种姿态引导的实例感知网络的驾驶员分心行为识别方法 - Google Patents

一种姿态引导的实例感知网络的驾驶员分心行为识别方法 Download PDF

Info

Publication number
CN115147817A
CN115147817A CN202210686565.4A CN202210686565A CN115147817A CN 115147817 A CN115147817 A CN 115147817A CN 202210686565 A CN202210686565 A CN 202210686565A CN 115147817 A CN115147817 A CN 115147817A
Authority
CN
China
Prior art keywords
hand
coordinate
human body
spatial
coordinates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210686565.4A
Other languages
English (en)
Other versions
CN115147817B (zh
Inventor
高尚兵
李少凡
张莹莹
陈浩霖
张海艳
朱全银
李翔
胡序洋
李�杰
张秦涛
刘宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202210686565.4A priority Critical patent/CN115147817B/zh
Publication of CN115147817A publication Critical patent/CN115147817A/zh
Application granted granted Critical
Publication of CN115147817B publication Critical patent/CN115147817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种姿态引导的实例感知网络的驾驶员分心行为识别方法,利用人体检测器检测到人体框,利用人体姿态估计获取具有辨识性的手部相关区域;将人体和手部区域的特征作为实例级别的特征,提出一种实例感知模块充分获取不同层级的上下文语义信息;利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时,对视觉特征进行优化;组建成一个多分支的深度神经网络,最后将不同分支的结果进行融合。发明提出的姿态引导的实例感知网络,在一定程度上降低了环境的干扰,准确度高,能辅助驾驶员安全行车,减少交通事故的发生。

Description

一种姿态引导的实例感知网络的驾驶员分心行为识别方法
技术领域
本发明属于自动驾驶领域,具体涉及一种姿态引导的实例感知网络的驾驶员分心行为识别方法。
背景技术
分心驾驶是交通事故的主要原因,约有80%的交通事故都是由驾驶员分心造成的,因此对其进行针对性的分析对预防交通事故尤为重要。
多年以来,基于静态图片和视频的动作识别一直是计算机视觉的经典问题,吸引了众多学者对其开展研究。然而由于车内狭小复杂的环境和驾驶员分心时微小的体态差异,这些方法并不适用于驾驶员分心行为识别,部分也是因为建立一个标准的通用范式对人体行为进行统一解释仍然是一个具有挑战性的任务。
现有的对驾驶员进行分心行为的方法主要分为基于传统的手工特征的方法和基于深度卷积神经网络的方法。
1)在之前的研究中,传统手工特征通过许多方法对分心驾驶进行检测,Guo等人利用颜色和形状信息对驾驶行为进行检测。Yan等人联合运动历史图和金字塔式梯度方向直方图进行驾驶员的行为识别。Sharma等人在多个尺度上进行密集的灰度SIFT特征采样,模拟每个图片局域对于分类的贡献,然后采用SVM分类器对带有权重的热力图进行分类。
2)近些年,深度卷积神经网络(CNN)在各个领域均取得了巨大的成功,其中也包括驾驶员分心行为识别。Koesdwiady利用深度卷积神经网络(VGGNET)对驾驶员进行分心检测。Hu使用一个多流CNN来提取不同尺度的特征融合并进行分心行为检测。Ou等人则对神经网络进行迁移学习来改善分心驾驶行为识别的效果。Li提出了一种结合Depth-wise卷积和Point-wise卷积的轻量化网络OLCMNet对驾驶员行为进行识别,在嵌入式设备Nvidia-TX2上实现了实时检测。Tran等人提出了一种基于双摄像头的驾驶员行为检测系统,使用来自双摄像头的数据进行融合效果要优于单摄像头数据输入的结果。Wu等人利用体姿态估计获取手部特征并与人体骨架数据进行多特征融合来对驾驶员进行行为识别。
以上这些方法大都是集中利用图片层级的特征对驾驶员行为进行识别,环境的噪声和视角多变的问题依然没有得到很好的解决。近些年,人体骨架数据被广泛的运用到动作识别中,和传统的RGB图像相比,人体骨架数据已经证明在面对复杂环境,视角不一、光照变化、人体特征变化有着较强的鲁棒性。驾驶员的手部相关区域对驾驶员分心行为识别有着较强的语义线索作用,能为当前行为识别任务提供更加细粒度的表征。如玩手机和喝水时,手上拿什么和两只手的位置信息很重要,左右手的区域视觉特征和空间位置存在显著差异,在驾驶员行为识别属于辨识性的特征,因此对这种辨识性的特征进行针对性的分析是有必要的,而人体骨架恰好可以帮助进行更加准确的手部区域定位。以往的驾驶员行为识别工作虽然也有通过目标检测方法或人体姿态对驾驶员身体部分进行解析利用传统检测器检测身体部位,但是容易受到复杂场景干扰。虽然利用人体姿态估计获取人体信息,但都是进行单一的特征提取,缺少对实例级别上下文特征的挖掘。也没有研究空间位置对驾驶员行为识别的线索作用。
发明内容
发明目的:本发明提出了一种姿态引导的实例感知网络的驾驶员分心行为识别方法,降低了环境的干扰,准确度高,能辅助驾驶员安全行车,减少交通事故的发生。
技术方案:本发明提出一种姿态引导的实例感知网络的驾驶员分心行为识别方法,具体包括以下步骤:
(1)利用人体检测器检测到人体框,利用人体姿态估计获取具有辨识性的手部相关区域;
(2)将人体和手部区域的特征作为实例级别的特征,提出一种实例感知模块充分获取不同层级的上下文语义信息;
(3)利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时,对视觉特征进行优化;
(4)组建成一个多分支的深度神经网络,最后将不同分支的结果进行融合。
进一步地,所述步骤(1)实现过程如下:
利用姿态估计对手部关键点进行定位,通过借助手肘关键点和手腕关键点像素坐标,对其矢量方向进行延长二分之一得到手部关键点:
Figure BDA0003699899140000021
Figure BDA0003699899140000022
式中XLwrist代表左手腕X坐标,YLwrist代表左手腕Y坐标,XLbow代表左肘X坐标,YLbow代表左肘Y坐标;XRwrist代表右手腕X坐标,YRwrist代表右手腕Y坐标,XRbow代表右肘X坐标,YRbow代表右肘Y坐标;XLhand代表左手X坐标,YLhand代表左手Y坐标;XRhand代表右手X坐标,YRhand代表右手Y坐标;
以手部坐标为中心确定手部区域范围,手部区域的偏移量Cet设定为人体关节点手腕至手肘的长度较长长度的那一个的二分之一:
Cet=Max(length(CLwrist,CLbow),length(CRwrist,CRbow))/2
其中,CLwrist代表左手腕的坐标,CLbow代表左手肘的坐标,CRwrist代表右手腕的坐标,CRbow代表右手肘的坐标,length()代表计算两点之间的距离,Max()代表计算序列集合中的最大值;
将左右手的坐标分别加上和减上偏移量Cet得到手部区域的左上角的坐标Htop和右下角的坐标Hbottom
Htop=hand(x,y)-Cet
Hbottom=hand(x,y)-Cet
其中,hand(x,y)为手部坐标,Cet为偏移量,Htop,Hbottom则为手部区域左上角的坐标和右下角的坐标;人体区域由YOLOv5目标检测模型检测得到人体区域检测框xh
进一步地,所述步骤(2)实现过程如下:
利用感兴趣区域对手部区域和人体区域进行特征提取;具体运算是在ROI后加入一个残差块,之后进行全局平均池化得到视觉特征向量;对获取到的左右手特征图进行、拼接得到手部特征Finst
XL=GAP(Resl(RoI(F,xl)))
XR=GAP(Resr(RoI(F,xr)))
Figure BDA0003699899140000031
其中,F为图片经过主干网络ResNet50的特征图,Res{}为代表残差块,XL和XR为左右手的视觉特征,Finst为手部特征;
通过对xh的检测框的区域进行特征提取获得周围上下文信息XH;为获得感知系数矩阵,将Finst和XH都映射到相同维度的空间,通过向量点乘的方式计算特征间的自相关性,然后通过Softmax层获取相关度系数矩阵:
XH=GAP(Resh(RoI(F,xh)))
Figure BDA0003699899140000041
其中,XH为当前实例特征的上下文信息,W{}代表映射矩阵,
Figure BDA0003699899140000042
代表哈达玛积运算,再将相关系数矩阵对应乘回上下文特征矩阵XH,得到融合了实例特征语义信息的全局特征:
Figure BDA0003699899140000043
Figure BDA0003699899140000044
其中,FContext为当前实例特征的全局特征,pHuman当前手部感知流分支的得分。
进一步地,所述步骤(3)实现过程如下:
通过姿态关节点得到两个xl,xr手部区域框之后,将两个手部区域包含的最小区域作为一个注意力窗口,并将注意力窗口以外的像素移除;将两个手部区域框转换成一个双通道的二值图像;其中第一个通道除了左手部区域的值是0之外,其他区域的值全是1,而第二个通道除了右手区域的值是1之外,其他区域的值全是0,将二值图重塑为64*64像素的大小并进行相应的补零操作,生成一个能够输入到深度神经网络中的双通道的二值空间配置图Bh,之后将Bh送入深度神经网络中获得空间特征:
ah=Ws(GAP(Conv(Bh)))
其中,ah为空间特征向量,代表了两只手的空间配置信息;二值空间配置图的Bh将两只手的区域定义在不同通道,利用深度神经网络去学习两只手的空间关系,ah在辅助进行预测的同时,利用空间特征对视觉特征进行优化:
Figure BDA0003699899140000045
Figure BDA0003699899140000046
其中,
Figure BDA0003699899140000047
是优化过的特征,将优化过的特征和空间特征结合得出最后的空间流的得分;pSpa是长度为N的空间流各动作类概率得分,G为激活函数。
进一步地,所述步骤(4)通过以下公式实现:
p=pSpa+pHand+pHuman
其中,p为模型最后的预测结果,长度为目标分类数,pSpa是长度为N的空间流各动作类概率得分,pHuman为当前人体感知流分支的得分,pHand为手部感知流分支的得分。
有益效果:与现有技术相比,本发明的有益效果:本发明在AUC数据集和自建三客一危数据集上的测试准确率分别达到96.17%和96.97%,相较于未使用实例感知模块和通道交互的模型,准确率得到较为显著的改善,在复杂数据集下效果提升明显;本发明提出的姿态引导的实例感知网络,在一定程度上降低了环境的干扰,准确度高,能辅助驾驶员安全行车,减少交通事故的发生。
附图说明
图1为检测流程示意图;
图2姿态引导的实例感知网络结构示意图;
图3为实例感知模块结构示意图;
图4为空间特征构建示意图;
图5为三客一危分心驾驶数据集样例图;
图6为AUC分心驾驶数据集样例图;
图7为AUC数据集测试混淆矩阵示意图;
图8为三危一化驾驶数据集混淆矩阵示意图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提出一种姿态引导的实例感知网络的驾驶员分心行为识别方法,结合目标检测和人体姿态估计获取人体和手部区域作为实例级别的特征并建立感知模块,并利用手部相关区域构建双通道交互模块来对关键空间信息进行表征。如图1所示,具体包括以下步骤:
步骤1:利用人体检测器检测到人体框,利用人体姿态估计获取具有辨识性的手部相关区域。
目标检测算法对手部区域进行容易受到环境影响导致检测率低下,本发明利用人体姿态估计手部相关区域进行定位。利用姿态估计对手部关键点进行定位,通过借助手肘关键点和手腕关键点像素坐标,对其矢量方向进行延长二分之一得到手部关键点:
Figure BDA0003699899140000061
Figure BDA0003699899140000062
式中,XLwrist代表左手腕X坐标,YLwrist代表左手腕Y坐标,XLbow代表左肘X坐标,YLbow代表左肘Y坐标;XRwrist代表右手腕X坐标,YRwrist代表右手腕Y坐标,XRbow代表右肘X坐标,YRbow代表右肘Y坐标;XLhand代表左手X坐标,YLhand代表左手Y坐标;XRhand代表右手X坐标,YRhand代表右手Y坐标。
如图2所示,通过检测到的人体框和关键点信息获得人体信息和手部信息,全局信息为整张图片,人体信息为M-p对应的区域,手部信息为M-h对应的区域。利用人体信息和整张图片的全局信息构建人体感知流,利用手部和人体区域组成手部感知流,将手部相关特征构建双通道交互模块组成空间流。以此组建成一个多分支的深度神经网络,并在不同分支的最后进行score层面的晚融合。
手部区域的特征能够为驾驶行为识别提供更加细粒度且具辨识度的表征,然而手部区域的定位和获取却比较困难。为了解决这个问题,本文利用检测出的人体关节点获取手部区域
以手部坐标为中心确定手部区域范围,手部区域的偏移量Cet设定为人体关节点手腕至手肘的长度较长长度的那一个的二分之一:
Cet=Max(length(CLwrist,CLbow),length(CRwrist,CRbow))/2
其中CLwrist代表左手腕的坐标,CLbow代表左手肘的坐标,CRwrist代表右手腕的坐标,CRbow代表右手肘的坐标,length()代表计算两点之间的距离,Max()代表计算序列集合中的最大值。
将左右手的坐标分别加上和减上偏移量Cet得到手部区域的左上角的坐标Htop和右下角的坐标Hbottom
Htop=hand(x,y)-Cet
Hbottom=hand(x,y)-Cet
其中,hand(x,y)为手部坐标,Cet为偏移量。Htop,Hbottom则为手部区域左上角的坐标和右下角的坐标。人体区域由YOLOv5目标检测模型检测得到人体区域检测框xh
步骤2:将人体和手部区域的特征作为实例级别的特征,提出一种实例感知模块充分获取不同层级的上下文语义信息。
考虑到为了获取不同实例特征间的依赖关系,提出了一种实例感知模块用来捕捉上下文语义信息。图3为本文提出的实例感知模块结构中的手部感知流示例。以手部感知流为例,其中M-p对应检测框xh和M-h对应的检测框xl,xr分别代表实例特征人和左右手的区域。
得出实例特征的区域之后,利用感兴趣区域(ROI)对手部区域和人体区域进行特征提取。具体运算是再ROI后加入一个(Res)残差块,之后进行全局平均池化得到视觉特征向量。考虑到左右手对某些特定的动作存在的联合线索作用,因此对获取到的左右手特征图进行、拼接得到手部特征Fins)
XL=GAP(Resl(RoI(F,xl)))
XR=GAP(Resr(RoI(F,xr)))
Figure BDA0003699899140000071
其中,F为图片经过主干网络ResNet50的特征图,Res{}为代表残差块,XL和XR为左右手的视觉特征。
实例特征的上下文信息在行为识别中扮演着重要角色,周围的背景能够对驾驶员的行为检测起到一定的促进作用。为了能够让次级的实例特征对周围信息进行感知,这里通过对xh的检测框的区域进行特征提取获得周围上下文信息XH。为获得感知系数矩阵,将Finst和XH都映射到相同维度的空间,通过向量点乘的方式计算特征间的自相关性,然后通过Softmax层获取相关度系数矩阵MH
XH=GAP(Resh(RoI(F,xh)))
Figure BDA0003699899140000072
其中,XH为当前实例特征的上下文信息,W{}代表映射矩阵,
Figure BDA0003699899140000073
代表哈达玛积运算,再将相关系数矩阵MH对应乘回上下文特征矩阵XH,得到融合了实例特征语义信息的全局特征。
Figure BDA0003699899140000081
Figure BDA0003699899140000082
其中,Fcontext为当前实例特征的全局特征,pHand当前手部感知流分支的得分。
步骤3:利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时,对视觉特征进行优化。
双手的空间特征为驾驶员行为分析提供了重要的线索作用,如正常驾驶和其他异常驾驶如玩手机,抽烟等行为,双手的位置有显著差异。如图4所示,通过姿态关节点得到两个xl,xr手部区域框之后,将两个区域包含的最小区域作为一个注意力窗口,并将注意力窗口以外的像素移除。为了能让神经网络学习到空间相关位置信息,将两个手部区域框转换成一个双通道的二值图像。其中第一个通道除了左手部区域的值是0之外,其他区域的值全是1,而第二个通道除了右手区域的值是1之外,其他区域的值全是0,将二值图重塑为64*64像素的大小并进行相应的补零操作,以此生成一个能够输入到深度神经网络中的双通道的二值空间配置图Bh,之后将Bh送入深度神经网络中获得空间特征。
ah=Ws(GAP(Conv(Bh)))
其中,ah为空间特征向量,代表了两只手的空间配置信息。二值空间配置图的Bh将两只手的区域定义在不同通道,因此可利用深度神经网络去学习两只手的空间关系。ah在辅助进行预测的同时,利用空间特征对视觉特征进行优化。
Figure BDA0003699899140000083
Figure BDA0003699899140000084
其中,
Figure BDA0003699899140000085
是优化过的特征,将优化过的特征和空间特征结合得出最后的空间流的得分,pSpa是长度为N的空间流各动作类概率得分,G为激活函数。
步骤4:组建成一个多分支的深度神经网络,最后将不同分支的结果进行融合。
将三个分支的输出结合相加得出最后模型的预测结果。
p=pSpa+pHand+pHuman
其中,pSpa是长度为N的空间流各动作类概率得分,pHuman为当前人体感知流分支的得分,pHand为手部感知流分支的得分。p则为模型最后的预测结果,长度为目标分类数。
本发明建立了一个三客一危分心驾驶数据集。三客一危指的是客运车、校车、旅游车和危化品运输车这类大型车,这类车辆驾驶舱结构和小型车有明显差异,发生交通事故的后果相对比较严重。因此,对这类车型环境中的驾驶员进行分心行为进行针对性的分析是有必要的。数据来自交通监管平台所提供的车内监控视频数据,共780段视频,大小634GB,每段视频分辨率为1280*720,帧率为15FPS。图5为数据集中的五个动作里的一些样例图,分别是安全驾驶、分神、打电话、使用手机和抽烟。如图5所示,车内的环境相对复杂多变,视频监控的摄像头安装的位置并不是固定的,而是安装在驾驶员不同的角度,这种多视角有效提升了数据的丰富程度,同时也给检测带来挑战。首先人工将长监控视频中的带有分心行为的短视频剪切出来,然后将短分心行为视频截取成一帧帧的图片,选取其中有代表性的帧作为数据集。数据集总共包括31694张图片,其中26095张作为训练集,8699张作为测试集。表1为数据集的具体描述。
表1三危一客分心驾驶数据集
Figure BDA0003699899140000091
AUC分心驾驶数据集来源于十个不同国家的志愿者完成,AUC视频数据集随机分割为3:1比例的训练测试数据集。图6是AUC数据集十个动作的样例图,分别为:C0:安全驾驶、C1:右手打字、C2:右手打电话、C3:左手打字、C4:左手打电话、C5:调试收音机、C6:喝水、C7:拿东西、C8:化妆和弄头发、C9:和乘客说话。数据集总共有图片17308张,其中12977张用于训练,4331张用于测试。
本发明属于分类问题,最常见的指标有准确率(Accuracy)、召回率(Recall)、混淆矩阵。在实际分类过程中,会出现真反例(TN)、真正例(TP)、假反例(FN)、假真例(FP)和这几种情况。准确率和召回率的公式为:
Figure BDA0003699899140000101
Figure BDA0003699899140000102
本发明提出的方法在三客一危驾驶数据集的测试集上和一些常见的网络模型和方法进行比较,同时在公开数据集AUC上和一些近些年提出的方法进行了比较。表2为本发明和ResNet50在HYD驾驶数据集上的结果,可以看出本发明,在各类别上的召回率和总体准确率最高,其中整体准确率高ResNet50网络模型7.5%,结果可以看出本方法在各类别上的召回率和准确率上均表现优异。
表2在三危一客数据集上的结果
主干网络 C0 C1 C2 C3 C4 总准确率
AlexNet 0.5851 0.7373 0.9537 0.8372 0.8474 0.7906
DenseNet 0.8423 0.7361 0.9493 0.9637 0.8298 0.8752
ResNet-50 0.8225 0.8647 0.9949 0.9593 0.8235 0.8952
Fusion[19] 0.9095 0.7251 0.9115 0.9747 0.9523 0.9053
Ours 0.9557 0.8891 0.9967 0.9879 0.9761 0..9697
为了进一步验证本方法的有有效性,将本发明和在公开数据集AUC上进行测试,并和近些年提出的方法进行了对比。实验结果如表3所示,本发明取得了96.17%的准确率,算法的准确率优于其他方法。
表3在AUC数据集上的结果
Figure BDA0003699899140000103
图7、图8为本发明在AUC数据集和上测试混淆矩阵,其中左侧行代表真实类别,而列代表预测的类别。矩阵每个方格中的数值分别代表预测类别所占比重和对应的样本数量。
混淆矩阵中,对角线上的数值即为预测正确的结果,而其他数值则为预测错误的结果。计算得知,本发明的整体的准确率和召回率均为96.17%,在三危一化驾驶数据集上,整体准确率为96.97%。
为了验证本发明提出的各个组件有效性,本文对各个分支进行了相应的消融实验。实验结果如表4所示,图其中Human代表人体感应分支,Hand代表手部感应分支,Spatial代表双通道空间交互分支。数据集第一行代表的是基线模型ResNet50网络。
表4消融实验
Table 3 Ablation study on tow different datasets
Figure BDA0003699899140000111
由表中数据可知,本发明在单独引入人体分支时,准确度提高了3%,这说明基于目标检测人体分支抑制了部分背景噪声,而当单独使用手部分支时,准确度有所下降,这是因为单手部特征新对于模型分类还是不够充分,随着人体分支、手部分支、空间分支都引入到多流网络中时,准确率达到最高。由结果可以看出,在自建的三客一危数据集上,提升较为显著,而在公开数据集上提升却不是特别大,这是由于自建数据集存在的视角多变,环境杂乱,体态多样的问题。而姿态引导的实例感知网络能有效减少这些外部因素的干扰,让模型集中去学习那些有益的特征。
消融实验的结果说明本方法所提出组件可以有效改善驾驶员行为识别的结果,当结合人体分支,手部分支,空间分支时,准确率达到最高。在自建大型车驾驶员数据集上提高了7.5%的准确度,在公开数据集上也提升了3%以上。实验结果可以看出本文提出的结合人体检测和姿态估计的驾驶员行为识别方法在复杂环境和视角多变的驾驶环境下有更好的表现。
实验结果表明,本发明在自建复杂环境数据集上和公开数据集上的准确率均优于其他模型。相较于传统的基于RGB模型,人体骨架引导的方法在复杂环境下效果提升明显,有效降低了背景杂乱,视角不一、光照和人体特征变化所带来的影响。

Claims (5)

1.一种姿态引导的实例感知网络的驾驶员分心行为识别方法,其特征在于,包括以下步骤:
(1)利用人体检测器检测到人体框,利用人体姿态估计获取具有辨识性的手部相关区域;
(2)将人体和手部区域的特征作为实例级别的特征,提出一种实例感知模块充分获取不同层级的上下文语义信息;
(3)利用手部相关特征构建双通道交互模块来对关键空间信息进行表征的同时,对视觉特征进行优化;
(4)组建成一个多分支的深度神经网络,最后将不同分支的结果进行融合。
2.根据权利要求1所述的一种姿态引导的实例感知网络的驾驶员分心行为识别方法,其特征在于,所述步骤(1)实现过程如下:
利用姿态估计对手部关键点进行定位,通过借助手肘关键点和手腕关键点像素坐标,对其矢量方向进行延长二分之一得到手部关键点:
Figure FDA0003699899130000011
Figure FDA0003699899130000012
式中XLwrist代表左手腕X坐标,YLwrist代表左手腕Y坐标,XLbow代表左肘X坐标,YLbow代表左肘Y坐标;XRwrist代表右手腕X坐标,YRwrist代表右手腕Y坐标,XRbow代表右肘X坐标,YRbow代表右肘Y坐标;XLhand代表左手X坐标,YLhand代表左手Y坐标;XRhand代表右手X坐标,YRhand代表右手Y坐标;
以手部坐标为中心确定手部区域范围,手部区域的偏移量Cet设定为人体关节点手腕至手肘的长度较长长度的那一个的二分之一:
Cet=Max(1ength(CLwrist,CLbow),length(CRwrist,CRbow))/2
其中,CLwrist代表左手腕的坐标,CLbow代表左手肘的坐标,CRwrist代表右手腕的坐标,CRbow代表右手肘的坐标,length()代表计算两点之间的距离,Max()代表计算序列集合中的最大值;
将左右手的坐标分别加上和减上偏移量Cet得到手部区域的左上角的坐标Htop和右下角的坐标Hbottom
Htop=hand(x,y)-Cet
Hbottom=hand(x,y)-Cet
其中,hand(x,y)为手部坐标,Cet为偏移量,Htop,Hbottom则为手部区域左上角的坐标和右下角的坐标;人体区域由YOLOv5目标检测模型检测得到人体区域检测框xh
3.根据权利要求1所述的一种姿态引导的实例感知网络的驾驶员分心行为识别方法,其特征在于,所述步骤(2)实现过程如下:
利用感兴趣区域对手部区域和人体区域进行特征提取;具体运算是在ROI后加入一个残差块,之后进行全局平均池化得到视觉特征向量;对获取到的左右手特征图进行、拼接得到手部特征Finst
XL=GAP(Resl(RoI(F,xl)))
XR=GAP(Resr(RoI(F,xr)))
Figure FDA0003699899130000021
其中,F为图片经过主干网络ResNet50的特征图,Res{}为代表残差块,XL和XR为左右手的视觉特征,Finst为手部特征;
通过对xh的检测框的区域进行特征提取获得周围上下文信息XH;为获得感知系数矩阵,将Finst和XH都映射到相同维度的空间,通过向量点乘的方式计算特征间的自相关性,然后通过Softmax层获取相关度系数矩阵:
XH=GAP(Resh(RoI(F,xh)))
Figure FDA0003699899130000022
其中,XH为当前实例特征的上下文信息,W{}代表映射矩阵,
Figure FDA0003699899130000023
代表哈达玛积运算,再将相关系数矩阵对应乘回上下文特征矩阵XH,得到融合了实例特征语义信息的全局特征:
Figure FDA0003699899130000024
Figure FDA0003699899130000025
其中,Fcontext为当前实例特征的全局特征,pHuman当前手部感知流分支的得分。
4.根据权利要求1所述的一种姿态引导的实例感知网络的驾驶员分心行为识别方法,其特征在于,所述步骤(3)实现过程如下:
通过姿态关节点得到两个xl,xr手部区域框之后,将两个手部区域包含的最小区域作为一个注意力窗口,并将注意力窗口以外的像素移除;将两个手部区域框转换成一个双通道的二值图像;其中第一个通道除了左手部区域的值是0之外,其他区域的值全是1,而第二个通道除了右手区域的值是1之外,其他区域的值全是0,将二值图重塑为64*64像素的大小并进行相应的补零操作,生成一个能够输入到深度神经网络中的双通道的二值空间配置图Bh,之后将Bh送入深度神经网络中获得空间特征:
ah=Ws(GAP(Conv(Bh)))
其中,ah为空间特征向量,代表了两只手的空间配置信息;二值空间配置图的Bh将两只手的区域定义在不同通道,利用深度神经网络去学习两只手的空间关系,ah在辅助进行预测的同时,利用空间特征对视觉特征进行优化:
Figure FDA0003699899130000031
Figure FDA0003699899130000032
其中,
Figure FDA0003699899130000033
是优化过的特征,将优化过的特征和空间特征结合得出最后的空间流的得分;pSpa是长度为N的空间流各动作类概率得分,σ为激活函数。
5.根据权利要求1所述的一种姿态引导的实例感知网络的驾驶员分心行为识别方法,其特征在于,所述步骤(4)通过以下公式实现:
p=pSpa+pHand+pHuman
其中,p为模型最后的预测结果,长度为目标分类数,pSpa是长度为N的空间流各动作类概率得分,pHuman为当前人体感知流分支的得分,pHand为手部感知流分支的得分。
CN202210686565.4A 2022-06-17 2022-06-17 一种姿态引导的实例感知网络的驾驶员分心行为识别方法 Active CN115147817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210686565.4A CN115147817B (zh) 2022-06-17 2022-06-17 一种姿态引导的实例感知网络的驾驶员分心行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210686565.4A CN115147817B (zh) 2022-06-17 2022-06-17 一种姿态引导的实例感知网络的驾驶员分心行为识别方法

Publications (2)

Publication Number Publication Date
CN115147817A true CN115147817A (zh) 2022-10-04
CN115147817B CN115147817B (zh) 2023-06-20

Family

ID=83408510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210686565.4A Active CN115147817B (zh) 2022-06-17 2022-06-17 一种姿态引导的实例感知网络的驾驶员分心行为识别方法

Country Status (1)

Country Link
CN (1) CN115147817B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052136A (zh) * 2023-03-27 2023-05-02 中国科学技术大学 分心检测方法、车载控制器和计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368696A (zh) * 2020-02-28 2020-07-03 淮阴工学院 基于视觉协同的危化品运输车违规驾驶行为检测方法及系统
US20200394413A1 (en) * 2019-06-17 2020-12-17 The Regents of the University of California, Oakland, CA Athlete style recognition system and method
CN113158766A (zh) * 2021-02-24 2021-07-23 北京科技大学 面向无人驾驶的基于姿态估计的行人行为识别方法
CN113343764A (zh) * 2021-05-10 2021-09-03 武汉理工大学 一种基于级联式网络架构的驾驶员分心检测方法及系统
CN113378676A (zh) * 2021-06-01 2021-09-10 上海大学 基于多特征融合的图像中人物交互检测方法
CN114120439A (zh) * 2021-10-12 2022-03-01 江苏大学 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200394413A1 (en) * 2019-06-17 2020-12-17 The Regents of the University of California, Oakland, CA Athlete style recognition system and method
CN111368696A (zh) * 2020-02-28 2020-07-03 淮阴工学院 基于视觉协同的危化品运输车违规驾驶行为检测方法及系统
CN113158766A (zh) * 2021-02-24 2021-07-23 北京科技大学 面向无人驾驶的基于姿态估计的行人行为识别方法
CN113343764A (zh) * 2021-05-10 2021-09-03 武汉理工大学 一种基于级联式网络架构的驾驶员分心检测方法及系统
CN113378676A (zh) * 2021-06-01 2021-09-10 上海大学 基于多特征融合的图像中人物交互检测方法
CN114120439A (zh) * 2021-10-12 2022-03-01 江苏大学 一种智能汽车自车视角下的行人意图多任务识别及轨迹预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
白中浩;王韫宇;张林伟;: "基于图卷积网络的多信息融合驾驶员分心行为检测", 汽车工程, no. 08 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052136A (zh) * 2023-03-27 2023-05-02 中国科学技术大学 分心检测方法、车载控制器和计算机存储介质
CN116052136B (zh) * 2023-03-27 2023-09-05 中国科学技术大学 分心检测方法、车载控制器和计算机存储介质

Also Published As

Publication number Publication date
CN115147817B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN110084850B (zh) 一种基于图像语义分割的动态场景视觉定位方法
CN110246181B (zh) 基于锚点的姿态估计模型训练方法、姿态估计方法和系统
CN107992819B (zh) 一种车辆属性结构化特征的确定方法与装置
CN110599537A (zh) 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统
D’Eusanio et al. A transformer-based network for dynamic hand gesture recognition
CN111563418A (zh) 一种基于注意力机制的非对称多模态融合显著性检测方法
CN111104867A (zh) 基于部件分割的识别模型训练、车辆重识别方法及装置
CN106529441B (zh) 基于模糊边界分片的深度动作图人体行为识别方法
CN113610046B (zh) 一种基于深度视频联动特征的行为识别方法
CN113657409A (zh) 车辆损失检测方法、装置、电子设备及存储介质
CN104966054A (zh) 无人机可见光图像中的弱小目标检测方法
CN111126143A (zh) 一种基于深度学习的运动评判指导方法及系统
CN115861981A (zh) 基于视频姿态不变性的驾驶员疲劳行为检测方法及系统
CN115984537A (zh) 图像处理方法、装置及相关设备
CN115147817A (zh) 一种姿态引导的实例感知网络的驾驶员分心行为识别方法
CN101369312A (zh) 检测图像中交叉口的方法和设备
Wang et al. Driver action recognition based on attention mechanism
CN111310720A (zh) 基于图度量学习的行人重识别方法及系统
CN110728214B (zh) 一种基于尺度匹配的弱小人物目标检测方法
CN109359543B (zh) 一种基于骨骼化的人像检索方法及装置
CN114639168B (zh) 一种用于跑步姿态识别的方法和系统
CN106778504A (zh) 一种行人检测方法
CN112381068B (zh) 一种检测人“玩手机”的方法及系统
CN112446292B (zh) 一种2d图像显著目标检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20221004

Assignee: Jiangsu Kesheng Xuanyi Technology Co.,Ltd.

Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY

Contract record no.: X2023980048436

Denomination of invention: A posture guided instance perception network based driver distraction behavior recognition method

Granted publication date: 20230620

License type: Common License

Record date: 20231129

EE01 Entry into force of recordation of patent licensing contract