CN115457518B - 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 - Google Patents
基于姿态感知与几何约束下的驾驶员行为识别方法及系统 Download PDFInfo
- Publication number
- CN115457518B CN115457518B CN202211045364.2A CN202211045364A CN115457518B CN 115457518 B CN115457518 B CN 115457518B CN 202211045364 A CN202211045364 A CN 202211045364A CN 115457518 B CN115457518 B CN 115457518B
- Authority
- CN
- China
- Prior art keywords
- driver
- geometric
- features
- joint
- joint point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000008447 perception Effects 0.000 title claims abstract description 13
- 230000006399 behavior Effects 0.000 claims abstract description 38
- 230000000007 visual effect Effects 0.000 claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 210000003128 head Anatomy 0.000 claims description 6
- 210000000707 wrist Anatomy 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims 1
- 208000024891 symptom Diseases 0.000 claims 1
- 230000008859 change Effects 0.000 abstract description 11
- 238000012512 characterization method Methods 0.000 abstract description 5
- 238000005286 illumination Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 239000003651 drinking water Substances 0.000 description 1
- 235000020188 drinking water Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于姿态感知与几何约束下的驾驶员行为识别方法及系统,首先,采用HRNet对图片中的驾驶员进行姿态估计,获取驾驶员的关节点信息;其次,将视频输入到ResNet50中获取全局特征图,利用关节点的位置获取各个关节点相关的视觉特征;然后,对驾驶员的上半身人体关节点进行解构,同时根据各点的坐标位置获取几何特征;最后,将视觉表观特征与几何特征融合,通过线性层预测相应的行为。本发明克服了传统驾驶员行为检测方法检测准确率低、检测手段单一的问题,大幅提升了在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下的检测能力;同时能够应对复杂环境下对驾驶员人体和关键表征的定位检测;能适应不同时段车辆行驶环境。
Description
技术领域
本发明属于图像处理及交通安全领域,具体涉及一种基于姿态感知与几何约束下的驾驶员行为识别方法及系统。
背景技术
根据世界卫生组织(WHO)全球道路安全状况报告,大约每年有135万人死于道路交通事故,其中有5000万人受伤,其中许多终身残疾。而分心驾驶是这些事故发生的主要原因。
Seshadri等人创建一个用于检测手机使用情况的数据集,并提出了一个基于HOG方法的Adaboost分类器对手机进行检测,准确率为93.9%。黄等人提出了一种基于RCNN的手机和人脸检测器并达到了准确度94.2%。赵等人提出了一种隐藏的条件随机场的模型来检测驾驶员使用智能手机的使用情况。Abouelnaga等人建立了一个AUC分心驾驶数据集,使用ImageNet预训练过的的AlexNet和InceptionV3模型提取图片特征,同时用肤色分割器对驾驶员的人脸和手部图片进行分割并进行联合训练,最后用基因算法来评估不同的各个部分不同的权重并进行结合来预测最后的结果。
现有的方法没有利用神经网络模型去学习驾驶员身体部位的几何坐标位置关系来对驾驶员行为进行识别,也没有注意到驾驶员局部身体关节点对应的微小密集的视觉表征。本方发明利用姿态估计对驾驶员人体进行解构,让神经网络学习几何特征的同时,用人体骨架的位置来获取密集准确的驾驶员人体局部特征,并将这些特征进行融合,实现高准确率和强鲁棒性的检测效果。
发明内容
发明目的:本发明提供一种基于姿态感知与几何约束下的驾驶员行为识别方法及系统,克服了传统驾驶员行为检测方法检测准确率低、检测手段单一的问题,大幅提升了在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下的检测能力。
技术方案:本发明提出一种基于姿态感知与几何约束下的驾驶员行为识别方法,具体包括以下步骤:
(1)输入预先获取的驾驶员行车视频,抽取首帧图片作为数据源,通过YOLOv5目标检测检测到最大占比人体驾驶员的位置;采用HRNet对图片中的驾驶员进行姿态估计,获取驾驶员的关节点信息;
(2)将视频输入到ResNet50中获取全局特征图,利用关节点的位置获取各个关节点相关的视觉特征;
(3)对驾驶员的上半身人体关节点进行解构,同时根据各点的坐标位置获取几何特征;
(4)将视觉表观特征与几何特征融合,通过线性层预测相应的行为。
进一步地,步骤(1)所述驾驶员的关节点信息包含关节点的位置的坐标和置信度。
进一步地,步骤(1)所述对图片中的驾驶员进行姿态估计只考虑对驾驶员上半身12个关节点进行姿态估计;所述12个关节点包括颈部、左肩、左肘、左手腕、右肩、右肘、右手腕、鼻子、左眼、右眼、左耳和右耳。
进一步地,所述步骤(2)实现过程如下:
(21)采用ResNet-50网络作为主干网络,将整张图片作为全局特征提取的输入,使用的ResNet-50在ImageNet进行过预训练模型,并对模型进行微调,将模型的最后的全连接层进行修改以适应驾驶员行为识别任务;整张图片经过主干网络后得到特征图F,在其后面再添加一个残差块结构得到全局特征fC:
fC=(ResC(F))
(22)为了获取对应人体关节点的相关视觉特征,利用关节点的位置获取视觉表观特征;具体的操作为以人体关节点为中心,设定每个获取特征的检测框的尺寸为Wh×Hh,具体的大小由检测出的人体关节点的范围决定:
Wh=Hh=λh·max{xmax-xmin,ymax-ymin}
其中,λh为超参数,xmax,xmin为检测出来的人体关节点横坐标最大和最小的值,检测框区域设为xh;
(23)每个部位相关区域的特征按以下公式进行提取:
fA=σ(wA·GAP(Resl(RoI(F,xh)))+bA)
其中,fA为单个关节点相关区域的特征,σ为Relu激活函数,{WA,bA}为表观权重矩阵和偏置,GAP为全局平均池化,Res为残差块,RoI为感兴趣区域。
进一步地,所述步骤(3)实现过程如下:
对驾驶员上半身人体进行解构操作,将其分为4个区域,分别为头部、颈部、左肩和右肩;其中头部区域以眼部为中心点,颈部区域以颈部为中心点,左肩和右肩区域分别以左肘和右肘为中心点;以颈部点为中心学习更具鲁棒的几何特征:
计算几何特征的过程如下,计算相对距离向量/>的方法为:[log(|xm-xn|),log(|ym-yn|)],将得出的向量进行拼接得到/>xm,ym区域中各点坐标,xn,yn为各区域中心坐标;计算绝对姿态不变向量/>的方法为[log(|xi-x*|),log(|yi-y*|)],xi,yi为上半身关节点各点坐标,xn,yn为颈部坐标;为了利用复杂的非线性空间关系,将这些几何特征嵌入到高维特征,具体表示为:
其中,fG为空间特征,{WG,bG}为几何权重矩阵和偏置,CONCAT为拼接操作。
进一步地,所述步骤(4)实现过程如下:
将各组空间特征和表观视觉特征进行融合:
fSR=CONCAT[fG,fA(1),fA(2),...,fA(12)]
其中,fSR为最后融合的特征,fG为空间特征,fA(n)为各个区域的视觉表观特征,总共12个区域,依次进行拼接;
最后通过线性层预测各类的概率分布:
其中,p为长度为10的最终预测向量,{WC,b}为融合特征权重矩阵和偏置。
基于相同的发明构思,本发明还提出一种基于姿态感知与几何约束下的驾驶员行为识别系统,包括驾驶员姿态估计模块、视觉表观特征模块和几何特征模块;所述驾驶员姿态估计模块对驾驶员人体进行检测并获取驾驶员的关节点信息,包含关节点坐标位置和置信度;所述视觉表观特征模块获取驾驶员的关节点对应的局部表征;所述几何特征模块对驾驶员人体进行解构,设置各区域局部中心坐标和全局不变中心坐标点,并学习驾驶员不同行为下的几何特征。
有益效果:与现有技术相比,本发明的有益效果:本发明克服了传统驾驶员行为检测方法检测准确率低、检测手段单一的问题,大幅提升了在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下的检测能力;同时能够应对复杂环境下对驾驶员人体和关键表征的定位检测;能适应不同时段车辆行驶环境,适用性高,实用性强。
附图说明
图1为基于姿态感知与几何约束下的驾驶员行为识别方法的流程图;
图2为基于姿态感知与几何约束下的驾驶员行为识别系统框架图;
图3为驾驶员姿态估计示意图;
图4为驾驶员空间解构示意图;
图5为AUC数据集上的测试混淆矩阵图;
图6为三客一危数据集上的测试混淆矩阵图;
图7为三客一危数据集例图;
图8为AUC公开数据集数据集例图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
考虑到相邻的人体关节点的表观和几何特征与驾驶员行为之间强相关性,本发明提出一种基于姿态感知与几何约束下的驾驶员行为识别方法,将驾驶员分为正常驾驶行为和分心驾驶行为,在分心驾驶行为中又具体分为玩手机、喝水等9种分心行为。如图2所示,本发明构建了一种基于姿态感知与几何约束下的驾驶员行为识别系统,包括驾驶员姿态估计模块,视觉表观特征模块和几何特征模块;驾驶员姿态估计模块主要用来对驾驶员人体进行检测并获取驾驶员的关节点信息,包含关节点坐标位置和置信度;视觉表观特征模块主要用来获取驾驶员的关节点对应得局部表征;几何特征模块对驾驶员人体进行解构,设置各区域局部中心坐标和全局不变中心坐标点,并确立计算模型来学习驾驶员不同行为下的几何特征。如图1所示,具体包括以下步骤:
步骤1:输入预先获取的驾驶员行车视频,抽取首帧图片作为数据源,通过YOLOv5目标检测检测到最最大占比人体驾驶员的位置。用HRNet对图片中的驾驶员进行姿态估计,获取驾驶员的关节点信息,包含点的位置的坐标和置信度。
本发明基于驾驶员的姿态信息,人体骨架及其关节轨迹在在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下具有较强的鲁棒性。人体骨架能帮助本算法定位关键表征的同时,其本身带有的几何特征属性也为驾驶员行为的识别提供强有力的线索。
本发明采用的人体姿态估计的算法为HRNet,该方法是微软亚洲研究院提出的基于高分辨率网络的模型,兼具准确率和实时性,是现人体姿态估计的最优模型之一。在HRNet中,训练的COCO网络模型共有18个关节点,如图3中(a)所示。
考虑到驾驶员在正常驾驶情况下,摄像头一般只能捕捉到上半身图像,而且由于驾驶员行车过程中体态变化比较微小,重要的信息都在驾驶员的上半身体现。同时由于驾驶环境导致遮挡,下半身的关节点的检测会不可避免的收到较强的干扰,从而对驾驶员的行为检测造成不利影响。为了消除下半身对行为识别的影响,本发明只考虑对上半身12个关节点进行姿态估计,如图3中(b)所示:1颈部,2左肩,3左肘,4左手腕,5右肩,6右肘,7右手腕,0鼻子,14左眼,15右眼,16左耳,17右耳。
步骤2:将视频输入到ResNet50中获取全局特征图,利用关节点的位置获取各个关节点相关的视觉特征。
全局特征在驾驶员行为识别中扮演着重要角色,描述了驾驶员动作与车辆和整张图片的关系,本发明采用广泛使用的ResNet-50网络作为主干网络,将整张图片作为全局特征提取的输入。使用的ResNet-50在ImageNet进行过预训练模型,并对模型进行微调,将模型的最后的全连接层进行修改以适应驾驶员行为识别任务。整张图片经过主干网络后得到特征图F,在其后面再添加一个残差块结构得到全局特征fC:
fC=(ResC(F))
为了获取对应人体关节点的相关视觉特征,利用关节点的位置获取视觉表观特征。具体的操作为以人体关节点为中心,设定每个获取特征的检测框的尺寸为Wh×Hh,具体的大小由检测出的人体关节点的范围决定:
Wh=Hh=λh·max{xmax-xmin,ymax-ymin}
其中,λh为超参数,xmax,xmin为检测出来的人体关节点横坐标最大和最小的值,检测框区域设为xh。
每个部位相关区域的特征按以下步骤来进行提取:
fA=σ(wA·GAP(Resl(RoI(F,xh)))+bA)
其中,fA为单个关节点相关区域的特征,σ为Relu激活函数,{WA,bA}为表观权重矩阵和偏置,GAP为全局平均池化,Res为残差块,RoI为感兴趣区域。
步骤3:对驾驶员的上半身人体关节点进行解构,同时根据各点的坐标位置获取几何特征。
为了更好利用空间位置特征,对人体上半身人体进行解构操作,将其分为4个区域,分别为头部、颈部、左肩和右肩。其中头部区域以眼部为中心点,颈部区域以颈部为中心点,左肩和右肩区域分别以左肘和右肘为中心点。同时为了能够使得几何特征在面对面对不同姿态的仿射变换具有不变性,本发明以颈部点为中心学习更具鲁棒的几何特征,具体如图4所示。
计算几何特征的过程如下,计算相对距离向量/>的方法为:[log(|xm-xn|),log(|ym-yn|)],将得出的向量进行拼接得到/>xm,ym区域中各点坐标,xn,yn为各区域中心坐标。计算绝对姿态不变向量/>的方法为[log(|xi-x*|),log(|yi-y*|)],xi,yi为上半身关节点各点坐标,xn,yn为颈部坐标。为了利用复杂的非线性空间关系,将这些几何特征嵌入到高维特征,具体表示为:
其中,fG为空间特征,{WG,bG}为几何权重矩阵和偏置,CONCAT为拼接操作。
步骤4:将视觉表观特征与几何特征融合,通过线性层预测相应的行为。
将各组空间特征和表观视觉特征进行融合:
fSR=CONCAT[fG,fA(1),fA(2),...,fA(12)]
其中,fSR为最后融合的特征,fG为空间特征,fA(n)为各个区域的视觉表观特征,总共12个区域,依次进行拼接。
最后通过线性层预测各类的概率分布:
其中,p为长度为10的最终预测向量,{WC,b}为融合特征权重矩阵和偏置。
为验证本发明的有效性,在两个数据集上进行了实验。分别是自建的三客一危分心驾驶数据集和AUC分心驾驶数据集,如图7、图8所示。如表1所示,三客一危指的是客运车、校车、旅游车和危化品运输车这类大型车,这类车辆驾驶舱结构和小型车有明显差异,发生交通事故的后果相对比较严重。因此,对这类车型环境中的驾驶员进行分心行为进行针对性的分析是有必要的。数据来自交通监管平台所提供的车内监控视频数据,共780段视频,大小634GB,每段视频分辨率为1280*720,帧率为15FPS。相较于国际公开数据集来看,存在着视角不一,环境复杂多变等多类干扰因素。
表1淮安三客一危分心驾驶数据集
AUC数据集有十个动作类别,分别为:C0:安全驾驶、C1:右手打字、C2:右手打电话、C3:左手打字、C4:左手打电话、C5:调试收音机、C6:喝水、C7:拿东西、C8:化妆和弄头发、C9:和乘客说话。图5、图6为本发明在AUC数据集和自建三客一危数据集上的测试混淆矩阵,其中左侧行代表真实类别,而列代表预测的类别。矩阵每个方格中的数值分别代表预测类别所占比重和对应的样本数量。混淆矩阵中,对角线上的数值即为预测正确的结果,而其他数值则为预测错误的结果。在AUC数据集中,计算得知,本方法的整体的准确率为96.51%,各个类别的召回率均在93%以上。在三客一危数据集上的整体的准确率为95.86%,各个类别的召回率均在94%以上。
综上,本发明的驾驶员行为检测方法克服了传统驾驶员行为检测方法检测准确率低、检测手段单一的问题,大幅提升了在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下的检测能力;同时能够应对复杂环境下对驾驶员人体和关键表征的定位检测;能适应不同时段车辆行驶环境,适用性高,实用性强。
Claims (2)
1.一种基于姿态感知与几何约束下的驾驶员行为识别方法,其特征在于,包括以下步骤:
(1)输入预先获取的驾驶员行车视频,抽取首帧图片作为数据源,通过YOLOv5目标检测检测到最大占比人体驾驶员的位置;采用HRNet对图片中的驾驶员进行姿态估计,获取驾驶员的关节点信息;
(2)将视频输入到ResNet50中获取全局特征图,利用关节点的位置获取各个关节点相关的视觉特征;
(3)对驾驶员的上半身人体关节点进行解构,同时根据各点的坐标位置获取几何特征;
(4)将视觉表观特征与几何特征融合,通过线性层预测相应的行为;
步骤(1)所述驾驶员的关节点信息包含关节点的位置的坐标和置信度;
步骤(1)所述对图片中的驾驶员进行姿态估计只考虑对驾驶员上半身12个关节点进行姿态估计;所述12个关节点包括颈部、左肩、左肘、左手腕、右肩、右肘、右手腕、鼻子、左眼、右眼、左耳和右耳;
所述步骤(2)实现过程如下:
(21)采用ResNet-50网络作为主干网络,将整张图片作为全局特征提取的输入,使用的ResNet-50在ImageNet进行过预训练模型,并对模型进行微调,将模型的最后的全连接层进行修改以适应驾驶员行为识别任务;整张图片经过主干网络后得到特征图F,在其后面再添加一个残差块结构得到全局特征fC:
fC=(ResC(F))
(22)为了获取对应人体关节点的相关视觉特征,利用关节点的位置获取视觉表观特征;具体的操作为以人体关节点为中心,设定每个获取特征的检测框的尺寸为Wh×Hh,具体的大小由检测出的人体关节点的范围决定:
Wh=Hh=λh·max{xmax-xmin,ymax-ymin}
其中,λh为超参数,xmax,xmin为检测出来的人体关节点横坐标最大和最小的值,检测框区域设为xh;
(23)每个部位相关区域的特征按以下公式进行提取:
fA=σ(WA·GAP(Resl(RoI(fC,xh)))+bA)
其中,fA为单个关节点相关区域的特征,σ为Relu激活函数,{WA,bA}为表观权重矩阵和偏置,GAP为全局平均池化,Res为残差块,RoI为感兴趣区域;
所述步骤(3)实现过程如下:
对驾驶员上半身人体进行解构操作,将其分为4个区域,分别为头部、颈部、左肩和右肩;其中头部区域以眼部为中心点,颈部区域以颈部为中心点,左肩和右肩区域分别以左肘和右肘为中心点;以颈部点为中心学习更具鲁棒的几何特征:
计算几何特征的过程如下,计算相对距离向量/>的方法为:[log(|xm-xn|),log(|ym-yn|)],将得出的向量进行拼接得到/>xm,ym区域中各点坐标,xn,yn为各区域中心坐标;计算绝对姿态不变向量/>的方法为[log(|xi-x*|),log(|yi-y*|)],xi,yi为上半身关节点各点坐标,x*,y*为颈部坐标;为了利用复杂的非线性空间关系,将这些几何特征嵌入到高维特征,具体表示为:
其中,fG为空间特征,{WG,bG}为几何权重矩阵和偏置,CONCAT为拼接操作;
所述步骤(4)实现过程如下:
将各组空间特征和表观视觉特征进行融合:
fSR=CONCAT[fG,fA(1),fA(2),...,fA(12)]
其中,fSR为最后融合的特征,fG为空间特征,fA(n)为各个区域的视觉表观特征,总共12个区域,依次进行拼接;
最后通过线性层预测各类的概率分布:
其中,p为长度为10的最终预测向量,{WC,bC}为融合特征权重矩阵和偏置。
2.一种采用如权利要求1所述方法的基于姿态感知与几何约束下的驾驶员行为识别系统,其特征在于,包括驾驶员姿态估计模块、视觉表观特征模块和几何特征模块;所述驾驶员姿态估计模块对驾驶员人体进行检测并获取驾驶员的关节点信息,包含关节点坐标位置和置信度;所述视觉表观特征模块获取驾驶员的关节点对应的局部表征;所述几何特征模块对驾驶员人体进行解构,设置各区域局部中心坐标和全局不变中心坐标点,并学习驾驶员不同行为下的几何特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211045364.2A CN115457518B (zh) | 2022-08-30 | 2022-08-30 | 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211045364.2A CN115457518B (zh) | 2022-08-30 | 2022-08-30 | 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115457518A CN115457518A (zh) | 2022-12-09 |
CN115457518B true CN115457518B (zh) | 2024-01-26 |
Family
ID=84300046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211045364.2A Active CN115457518B (zh) | 2022-08-30 | 2022-08-30 | 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115457518B (zh) |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358149A (zh) * | 2017-05-27 | 2017-11-17 | 深圳市深网视界科技有限公司 | 一种人体姿态检测方法和装置 |
CN107392131A (zh) * | 2017-07-14 | 2017-11-24 | 天津大学 | 一种基于人体骨骼节点距离的动作识别方法 |
CN110059598A (zh) * | 2019-04-08 | 2019-07-26 | 南京邮电大学 | 基于姿态关节点的长时程快慢网络融合的行为识别方法 |
CN110309723A (zh) * | 2019-06-04 | 2019-10-08 | 东南大学 | 一种基于人体特征细分类的驾驶员行为识别方法 |
CN110427831A (zh) * | 2019-07-09 | 2019-11-08 | 淮阴工学院 | 一种基于融合特征的人体动作分类方法 |
CN110728192A (zh) * | 2019-09-16 | 2020-01-24 | 河海大学 | 一种基于新型特征金字塔深度网络的高分遥感图像分类方法 |
CN111160162A (zh) * | 2019-12-18 | 2020-05-15 | 江苏比特达信息技术有限公司 | 一种级联的驾驶员人体姿态估计方法 |
CN111191630A (zh) * | 2020-01-07 | 2020-05-22 | 中国传媒大学 | 适用于智能交互观演场景的演艺动作识别方法 |
CN111523559A (zh) * | 2020-03-11 | 2020-08-11 | 浙江工业大学 | 一种基于多特征融合的异常行为检测方法 |
CN111860417A (zh) * | 2020-07-29 | 2020-10-30 | 山东大学 | 一种人体动作识别方法 |
CN111950412A (zh) * | 2020-07-31 | 2020-11-17 | 陕西师范大学 | 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法 |
CN112507990A (zh) * | 2021-02-04 | 2021-03-16 | 北京明略软件系统有限公司 | 视频时空特征学习、抽取方法、装置、设备及存储介质 |
CN112560604A (zh) * | 2020-12-04 | 2021-03-26 | 中南大学 | 一种基于局部特征关系融合的行人重识别方法 |
CN112668359A (zh) * | 2019-10-15 | 2021-04-16 | 富士通株式会社 | 动作识别方法、动作识别装置和电子设备 |
CN112784765A (zh) * | 2021-01-27 | 2021-05-11 | 北京百度网讯科技有限公司 | 用于识别动作的方法、装置、设备以及存储介质 |
CN113269111A (zh) * | 2021-06-03 | 2021-08-17 | 昆山杜克大学 | 一种基于视频监控的电梯异常行为检测方法及系统 |
CN113392706A (zh) * | 2021-05-13 | 2021-09-14 | 上海湃道智能科技有限公司 | 抽烟及使用手机行为检测装置及方法 |
CN113486784A (zh) * | 2021-07-02 | 2021-10-08 | 北京航空航天大学 | 一种双阶段的时序动作检测方法、装置、设备和介质 |
CN113989927A (zh) * | 2021-10-27 | 2022-01-28 | 东北大学 | 一种基于骨骼数据的视频群体暴力行为识别方法及系统 |
CN114241458A (zh) * | 2021-12-20 | 2022-03-25 | 东南大学 | 一种基于姿态估计特征融合的驾驶员行为识别方法 |
CN114882588A (zh) * | 2022-05-05 | 2022-08-09 | 济南中科泛在智能计算研究院 | 基于神经网络的肢体语言识别系统 |
-
2022
- 2022-08-30 CN CN202211045364.2A patent/CN115457518B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358149A (zh) * | 2017-05-27 | 2017-11-17 | 深圳市深网视界科技有限公司 | 一种人体姿态检测方法和装置 |
CN107392131A (zh) * | 2017-07-14 | 2017-11-24 | 天津大学 | 一种基于人体骨骼节点距离的动作识别方法 |
CN110059598A (zh) * | 2019-04-08 | 2019-07-26 | 南京邮电大学 | 基于姿态关节点的长时程快慢网络融合的行为识别方法 |
CN110309723A (zh) * | 2019-06-04 | 2019-10-08 | 东南大学 | 一种基于人体特征细分类的驾驶员行为识别方法 |
CN110427831A (zh) * | 2019-07-09 | 2019-11-08 | 淮阴工学院 | 一种基于融合特征的人体动作分类方法 |
CN110728192A (zh) * | 2019-09-16 | 2020-01-24 | 河海大学 | 一种基于新型特征金字塔深度网络的高分遥感图像分类方法 |
CN112668359A (zh) * | 2019-10-15 | 2021-04-16 | 富士通株式会社 | 动作识别方法、动作识别装置和电子设备 |
CN111160162A (zh) * | 2019-12-18 | 2020-05-15 | 江苏比特达信息技术有限公司 | 一种级联的驾驶员人体姿态估计方法 |
CN111191630A (zh) * | 2020-01-07 | 2020-05-22 | 中国传媒大学 | 适用于智能交互观演场景的演艺动作识别方法 |
CN111523559A (zh) * | 2020-03-11 | 2020-08-11 | 浙江工业大学 | 一种基于多特征融合的异常行为检测方法 |
CN111860417A (zh) * | 2020-07-29 | 2020-10-30 | 山东大学 | 一种人体动作识别方法 |
CN111950412A (zh) * | 2020-07-31 | 2020-11-17 | 陕西师范大学 | 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法 |
CN112560604A (zh) * | 2020-12-04 | 2021-03-26 | 中南大学 | 一种基于局部特征关系融合的行人重识别方法 |
CN112784765A (zh) * | 2021-01-27 | 2021-05-11 | 北京百度网讯科技有限公司 | 用于识别动作的方法、装置、设备以及存储介质 |
CN112507990A (zh) * | 2021-02-04 | 2021-03-16 | 北京明略软件系统有限公司 | 视频时空特征学习、抽取方法、装置、设备及存储介质 |
CN113392706A (zh) * | 2021-05-13 | 2021-09-14 | 上海湃道智能科技有限公司 | 抽烟及使用手机行为检测装置及方法 |
CN113269111A (zh) * | 2021-06-03 | 2021-08-17 | 昆山杜克大学 | 一种基于视频监控的电梯异常行为检测方法及系统 |
CN113486784A (zh) * | 2021-07-02 | 2021-10-08 | 北京航空航天大学 | 一种双阶段的时序动作检测方法、装置、设备和介质 |
CN113989927A (zh) * | 2021-10-27 | 2022-01-28 | 东北大学 | 一种基于骨骼数据的视频群体暴力行为识别方法及系统 |
CN114241458A (zh) * | 2021-12-20 | 2022-03-25 | 东南大学 | 一种基于姿态估计特征融合的驾驶员行为识别方法 |
CN114882588A (zh) * | 2022-05-05 | 2022-08-09 | 济南中科泛在智能计算研究院 | 基于神经网络的肢体语言识别系统 |
Non-Patent Citations (3)
Title |
---|
Action Recognition in Video Using Human Keypoint Detection;L. Song et al;《ICCSE》;第465-470页 * |
基于图像的动作识别与评价方法;刘倩等;《微处理机》(第5期);第44-48页 * |
基于深度学习的驾乘人员异常行为识别算法研究;赵雄;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;第第2021年卷卷(第第9期期);C035-93 * |
Also Published As
Publication number | Publication date |
---|---|
CN115457518A (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11557150B2 (en) | Gesture control for communication with an autonomous vehicle on the basis of a simple 2D camera | |
CN110119676B (zh) | 一种基于神经网络的驾驶员疲劳检测方法 | |
CN107145842B (zh) | 结合lbp特征图与卷积神经网络的人脸识别方法 | |
CN109614939B (zh) | 基于人体姿态估计的“玩手机”行为检测识别方法 | |
CN108447078B (zh) | 基于视觉显著性的干扰感知跟踪算法 | |
CN107038422B (zh) | 基于空间几何约束深度学习的疲劳状态识别方法 | |
CN112560741A (zh) | 一种基于人体关键点的安全穿戴检测方法 | |
CN110298257B (zh) | 一种基于人体多部位特征的驾驶员行为识别方法 | |
CN104978550A (zh) | 基于大规模人脸数据库的人脸识别方法及系统 | |
CN111027481B (zh) | 基于人体关键点检测的行为分析方法及装置 | |
CN111401188B (zh) | 一种基于人体关键点特征的交警手势识别方法 | |
CN111611874A (zh) | 基于ResNet和Canny的人脸口罩佩戴检测方法 | |
KR101903127B1 (ko) | 시선방향 예측 방법 및 장치 | |
CN110119726A (zh) | 一种基于YOLOv3模型的车辆品牌多角度识别方法 | |
CN105868690A (zh) | 识别驾驶员打手机行为的方法和装置 | |
GB2604964A (en) | Systems and methods for detecting symptoms of occupant illness | |
Li et al. | Fall detection based on fused saliency maps | |
CN112668493B (zh) | 基于gan和深度学习的换装行人再识别定位跟踪系统 | |
WO2022042203A1 (zh) | 一种人体关键点的检测方法及装置 | |
CN115457518B (zh) | 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 | |
Yi et al. | Safety belt wearing detection algorithm based on human joint points | |
CN115147817B (zh) | 一种姿态引导的实例感知网络的驾驶员分心行为识别方法 | |
CN116935361A (zh) | 一种基于深度学习的驾驶员分心行为检测方法 | |
CN112541930A (zh) | 基于级联式的图像超像素目标行人分割方法 | |
CN105740783B (zh) | 基于姿态检测与衣帽特征的交警检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |