CN115457518B - 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 - Google Patents

基于姿态感知与几何约束下的驾驶员行为识别方法及系统 Download PDF

Info

Publication number
CN115457518B
CN115457518B CN202211045364.2A CN202211045364A CN115457518B CN 115457518 B CN115457518 B CN 115457518B CN 202211045364 A CN202211045364 A CN 202211045364A CN 115457518 B CN115457518 B CN 115457518B
Authority
CN
China
Prior art keywords
driver
geometric
features
joint
joint point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211045364.2A
Other languages
English (en)
Other versions
CN115457518A (zh
Inventor
高尚兵
李少凡
张莹莹
陈浩霖
张海艳
朱全银
李翔
胡序洋
李�杰
张秦涛
刘宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202211045364.2A priority Critical patent/CN115457518B/zh
Publication of CN115457518A publication Critical patent/CN115457518A/zh
Application granted granted Critical
Publication of CN115457518B publication Critical patent/CN115457518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于姿态感知与几何约束下的驾驶员行为识别方法及系统,首先,采用HRNet对图片中的驾驶员进行姿态估计,获取驾驶员的关节点信息;其次,将视频输入到ResNet50中获取全局特征图,利用关节点的位置获取各个关节点相关的视觉特征;然后,对驾驶员的上半身人体关节点进行解构,同时根据各点的坐标位置获取几何特征;最后,将视觉表观特征与几何特征融合,通过线性层预测相应的行为。本发明克服了传统驾驶员行为检测方法检测准确率低、检测手段单一的问题,大幅提升了在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下的检测能力;同时能够应对复杂环境下对驾驶员人体和关键表征的定位检测;能适应不同时段车辆行驶环境。

Description

基于姿态感知与几何约束下的驾驶员行为识别方法及系统
技术领域
本发明属于图像处理及交通安全领域,具体涉及一种基于姿态感知与几何约束下的驾驶员行为识别方法及系统。
背景技术
根据世界卫生组织(WHO)全球道路安全状况报告,大约每年有135万人死于道路交通事故,其中有5000万人受伤,其中许多终身残疾。而分心驾驶是这些事故发生的主要原因。
Seshadri等人创建一个用于检测手机使用情况的数据集,并提出了一个基于HOG方法的Adaboost分类器对手机进行检测,准确率为93.9%。黄等人提出了一种基于RCNN的手机和人脸检测器并达到了准确度94.2%。赵等人提出了一种隐藏的条件随机场的模型来检测驾驶员使用智能手机的使用情况。Abouelnaga等人建立了一个AUC分心驾驶数据集,使用ImageNet预训练过的的AlexNet和InceptionV3模型提取图片特征,同时用肤色分割器对驾驶员的人脸和手部图片进行分割并进行联合训练,最后用基因算法来评估不同的各个部分不同的权重并进行结合来预测最后的结果。
现有的方法没有利用神经网络模型去学习驾驶员身体部位的几何坐标位置关系来对驾驶员行为进行识别,也没有注意到驾驶员局部身体关节点对应的微小密集的视觉表征。本方发明利用姿态估计对驾驶员人体进行解构,让神经网络学习几何特征的同时,用人体骨架的位置来获取密集准确的驾驶员人体局部特征,并将这些特征进行融合,实现高准确率和强鲁棒性的检测效果。
发明内容
发明目的:本发明提供一种基于姿态感知与几何约束下的驾驶员行为识别方法及系统,克服了传统驾驶员行为检测方法检测准确率低、检测手段单一的问题,大幅提升了在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下的检测能力。
技术方案:本发明提出一种基于姿态感知与几何约束下的驾驶员行为识别方法,具体包括以下步骤:
(1)输入预先获取的驾驶员行车视频,抽取首帧图片作为数据源,通过YOLOv5目标检测检测到最大占比人体驾驶员的位置;采用HRNet对图片中的驾驶员进行姿态估计,获取驾驶员的关节点信息;
(2)将视频输入到ResNet50中获取全局特征图,利用关节点的位置获取各个关节点相关的视觉特征;
(3)对驾驶员的上半身人体关节点进行解构,同时根据各点的坐标位置获取几何特征;
(4)将视觉表观特征与几何特征融合,通过线性层预测相应的行为。
进一步地,步骤(1)所述驾驶员的关节点信息包含关节点的位置的坐标和置信度。
进一步地,步骤(1)所述对图片中的驾驶员进行姿态估计只考虑对驾驶员上半身12个关节点进行姿态估计;所述12个关节点包括颈部、左肩、左肘、左手腕、右肩、右肘、右手腕、鼻子、左眼、右眼、左耳和右耳。
进一步地,所述步骤(2)实现过程如下:
(21)采用ResNet-50网络作为主干网络,将整张图片作为全局特征提取的输入,使用的ResNet-50在ImageNet进行过预训练模型,并对模型进行微调,将模型的最后的全连接层进行修改以适应驾驶员行为识别任务;整张图片经过主干网络后得到特征图F,在其后面再添加一个残差块结构得到全局特征fC
fC=(ResC(F))
(22)为了获取对应人体关节点的相关视觉特征,利用关节点的位置获取视觉表观特征;具体的操作为以人体关节点为中心,设定每个获取特征的检测框的尺寸为Wh×Hh,具体的大小由检测出的人体关节点的范围决定:
Wh=Hh=λh·max{xmax-xmin,ymax-ymin}
其中,λh为超参数,xmax,xmin为检测出来的人体关节点横坐标最大和最小的值,检测框区域设为xh
(23)每个部位相关区域的特征按以下公式进行提取:
fA=σ(wA·GAP(Resl(RoI(F,xh)))+bA)
其中,fA为单个关节点相关区域的特征,σ为Relu激活函数,{WA,bA}为表观权重矩阵和偏置,GAP为全局平均池化,Res为残差块,RoI为感兴趣区域。
进一步地,所述步骤(3)实现过程如下:
对驾驶员上半身人体进行解构操作,将其分为4个区域,分别为头部、颈部、左肩和右肩;其中头部区域以眼部为中心点,颈部区域以颈部为中心点,左肩和右肩区域分别以左肘和右肘为中心点;以颈部点为中心学习更具鲁棒的几何特征:
计算几何特征的过程如下,计算相对距离向量/>的方法为:[log(|xm-xn|),log(|ym-yn|)],将得出的向量进行拼接得到/>xm,ym区域中各点坐标,xn,yn为各区域中心坐标;计算绝对姿态不变向量/>的方法为[log(|xi-x*|),log(|yi-y*|)],xi,yi为上半身关节点各点坐标,xn,yn为颈部坐标;为了利用复杂的非线性空间关系,将这些几何特征嵌入到高维特征,具体表示为:
其中,fG为空间特征,{WG,bG}为几何权重矩阵和偏置,CONCAT为拼接操作。
进一步地,所述步骤(4)实现过程如下:
将各组空间特征和表观视觉特征进行融合:
fSR=CONCAT[fG,fA(1),fA(2),...,fA(12)]
其中,fSR为最后融合的特征,fG为空间特征,fA(n)为各个区域的视觉表观特征,总共12个区域,依次进行拼接;
最后通过线性层预测各类的概率分布:
其中,p为长度为10的最终预测向量,{WC,b}为融合特征权重矩阵和偏置。
基于相同的发明构思,本发明还提出一种基于姿态感知与几何约束下的驾驶员行为识别系统,包括驾驶员姿态估计模块、视觉表观特征模块和几何特征模块;所述驾驶员姿态估计模块对驾驶员人体进行检测并获取驾驶员的关节点信息,包含关节点坐标位置和置信度;所述视觉表观特征模块获取驾驶员的关节点对应的局部表征;所述几何特征模块对驾驶员人体进行解构,设置各区域局部中心坐标和全局不变中心坐标点,并学习驾驶员不同行为下的几何特征。
有益效果:与现有技术相比,本发明的有益效果:本发明克服了传统驾驶员行为检测方法检测准确率低、检测手段单一的问题,大幅提升了在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下的检测能力;同时能够应对复杂环境下对驾驶员人体和关键表征的定位检测;能适应不同时段车辆行驶环境,适用性高,实用性强。
附图说明
图1为基于姿态感知与几何约束下的驾驶员行为识别方法的流程图;
图2为基于姿态感知与几何约束下的驾驶员行为识别系统框架图;
图3为驾驶员姿态估计示意图;
图4为驾驶员空间解构示意图;
图5为AUC数据集上的测试混淆矩阵图;
图6为三客一危数据集上的测试混淆矩阵图;
图7为三客一危数据集例图;
图8为AUC公开数据集数据集例图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
考虑到相邻的人体关节点的表观和几何特征与驾驶员行为之间强相关性,本发明提出一种基于姿态感知与几何约束下的驾驶员行为识别方法,将驾驶员分为正常驾驶行为和分心驾驶行为,在分心驾驶行为中又具体分为玩手机、喝水等9种分心行为。如图2所示,本发明构建了一种基于姿态感知与几何约束下的驾驶员行为识别系统,包括驾驶员姿态估计模块,视觉表观特征模块和几何特征模块;驾驶员姿态估计模块主要用来对驾驶员人体进行检测并获取驾驶员的关节点信息,包含关节点坐标位置和置信度;视觉表观特征模块主要用来获取驾驶员的关节点对应得局部表征;几何特征模块对驾驶员人体进行解构,设置各区域局部中心坐标和全局不变中心坐标点,并确立计算模型来学习驾驶员不同行为下的几何特征。如图1所示,具体包括以下步骤:
步骤1:输入预先获取的驾驶员行车视频,抽取首帧图片作为数据源,通过YOLOv5目标检测检测到最最大占比人体驾驶员的位置。用HRNet对图片中的驾驶员进行姿态估计,获取驾驶员的关节点信息,包含点的位置的坐标和置信度。
本发明基于驾驶员的姿态信息,人体骨架及其关节轨迹在在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下具有较强的鲁棒性。人体骨架能帮助本算法定位关键表征的同时,其本身带有的几何特征属性也为驾驶员行为的识别提供强有力的线索。
本发明采用的人体姿态估计的算法为HRNet,该方法是微软亚洲研究院提出的基于高分辨率网络的模型,兼具准确率和实时性,是现人体姿态估计的最优模型之一。在HRNet中,训练的COCO网络模型共有18个关节点,如图3中(a)所示。
考虑到驾驶员在正常驾驶情况下,摄像头一般只能捕捉到上半身图像,而且由于驾驶员行车过程中体态变化比较微小,重要的信息都在驾驶员的上半身体现。同时由于驾驶环境导致遮挡,下半身的关节点的检测会不可避免的收到较强的干扰,从而对驾驶员的行为检测造成不利影响。为了消除下半身对行为识别的影响,本发明只考虑对上半身12个关节点进行姿态估计,如图3中(b)所示:1颈部,2左肩,3左肘,4左手腕,5右肩,6右肘,7右手腕,0鼻子,14左眼,15右眼,16左耳,17右耳。
步骤2:将视频输入到ResNet50中获取全局特征图,利用关节点的位置获取各个关节点相关的视觉特征。
全局特征在驾驶员行为识别中扮演着重要角色,描述了驾驶员动作与车辆和整张图片的关系,本发明采用广泛使用的ResNet-50网络作为主干网络,将整张图片作为全局特征提取的输入。使用的ResNet-50在ImageNet进行过预训练模型,并对模型进行微调,将模型的最后的全连接层进行修改以适应驾驶员行为识别任务。整张图片经过主干网络后得到特征图F,在其后面再添加一个残差块结构得到全局特征fC
fC=(ResC(F))
为了获取对应人体关节点的相关视觉特征,利用关节点的位置获取视觉表观特征。具体的操作为以人体关节点为中心,设定每个获取特征的检测框的尺寸为Wh×Hh,具体的大小由检测出的人体关节点的范围决定:
Wh=Hh=λh·max{xmax-xmin,ymax-ymin}
其中,λh为超参数,xmax,xmin为检测出来的人体关节点横坐标最大和最小的值,检测框区域设为xh
每个部位相关区域的特征按以下步骤来进行提取:
fA=σ(wA·GAP(Resl(RoI(F,xh)))+bA)
其中,fA为单个关节点相关区域的特征,σ为Relu激活函数,{WA,bA}为表观权重矩阵和偏置,GAP为全局平均池化,Res为残差块,RoI为感兴趣区域。
步骤3:对驾驶员的上半身人体关节点进行解构,同时根据各点的坐标位置获取几何特征。
为了更好利用空间位置特征,对人体上半身人体进行解构操作,将其分为4个区域,分别为头部、颈部、左肩和右肩。其中头部区域以眼部为中心点,颈部区域以颈部为中心点,左肩和右肩区域分别以左肘和右肘为中心点。同时为了能够使得几何特征在面对面对不同姿态的仿射变换具有不变性,本发明以颈部点为中心学习更具鲁棒的几何特征,具体如图4所示。
计算几何特征的过程如下,计算相对距离向量/>的方法为:[log(|xm-xn|),log(|ym-yn|)],将得出的向量进行拼接得到/>xm,ym区域中各点坐标,xn,yn为各区域中心坐标。计算绝对姿态不变向量/>的方法为[log(|xi-x*|),log(|yi-y*|)],xi,yi为上半身关节点各点坐标,xn,yn为颈部坐标。为了利用复杂的非线性空间关系,将这些几何特征嵌入到高维特征,具体表示为:
其中,fG为空间特征,{WG,bG}为几何权重矩阵和偏置,CONCAT为拼接操作。
步骤4:将视觉表观特征与几何特征融合,通过线性层预测相应的行为。
将各组空间特征和表观视觉特征进行融合:
fSR=CONCAT[fG,fA(1),fA(2),...,fA(12)]
其中,fSR为最后融合的特征,fG为空间特征,fA(n)为各个区域的视觉表观特征,总共12个区域,依次进行拼接。
最后通过线性层预测各类的概率分布:
其中,p为长度为10的最终预测向量,{WC,b}为融合特征权重矩阵和偏置。
为验证本发明的有效性,在两个数据集上进行了实验。分别是自建的三客一危分心驾驶数据集和AUC分心驾驶数据集,如图7、图8所示。如表1所示,三客一危指的是客运车、校车、旅游车和危化品运输车这类大型车,这类车辆驾驶舱结构和小型车有明显差异,发生交通事故的后果相对比较严重。因此,对这类车型环境中的驾驶员进行分心行为进行针对性的分析是有必要的。数据来自交通监管平台所提供的车内监控视频数据,共780段视频,大小634GB,每段视频分辨率为1280*720,帧率为15FPS。相较于国际公开数据集来看,存在着视角不一,环境复杂多变等多类干扰因素。
表1淮安三客一危分心驾驶数据集
AUC数据集有十个动作类别,分别为:C0:安全驾驶、C1:右手打字、C2:右手打电话、C3:左手打字、C4:左手打电话、C5:调试收音机、C6:喝水、C7:拿东西、C8:化妆和弄头发、C9:和乘客说话。图5、图6为本发明在AUC数据集和自建三客一危数据集上的测试混淆矩阵,其中左侧行代表真实类别,而列代表预测的类别。矩阵每个方格中的数值分别代表预测类别所占比重和对应的样本数量。混淆矩阵中,对角线上的数值即为预测正确的结果,而其他数值则为预测错误的结果。在AUC数据集中,计算得知,本方法的整体的准确率为96.51%,各个类别的召回率均在93%以上。在三客一危数据集上的整体的准确率为95.86%,各个类别的召回率均在94%以上。
综上,本发明的驾驶员行为检测方法克服了传统驾驶员行为检测方法检测准确率低、检测手段单一的问题,大幅提升了在背景复杂、光照变化、视角不一和驾驶员体态变化等情况下的检测能力;同时能够应对复杂环境下对驾驶员人体和关键表征的定位检测;能适应不同时段车辆行驶环境,适用性高,实用性强。

Claims (2)

1.一种基于姿态感知与几何约束下的驾驶员行为识别方法,其特征在于,包括以下步骤:
(1)输入预先获取的驾驶员行车视频,抽取首帧图片作为数据源,通过YOLOv5目标检测检测到最大占比人体驾驶员的位置;采用HRNet对图片中的驾驶员进行姿态估计,获取驾驶员的关节点信息;
(2)将视频输入到ResNet50中获取全局特征图,利用关节点的位置获取各个关节点相关的视觉特征;
(3)对驾驶员的上半身人体关节点进行解构,同时根据各点的坐标位置获取几何特征;
(4)将视觉表观特征与几何特征融合,通过线性层预测相应的行为;
步骤(1)所述驾驶员的关节点信息包含关节点的位置的坐标和置信度;
步骤(1)所述对图片中的驾驶员进行姿态估计只考虑对驾驶员上半身12个关节点进行姿态估计;所述12个关节点包括颈部、左肩、左肘、左手腕、右肩、右肘、右手腕、鼻子、左眼、右眼、左耳和右耳;
所述步骤(2)实现过程如下:
(21)采用ResNet-50网络作为主干网络,将整张图片作为全局特征提取的输入,使用的ResNet-50在ImageNet进行过预训练模型,并对模型进行微调,将模型的最后的全连接层进行修改以适应驾驶员行为识别任务;整张图片经过主干网络后得到特征图F,在其后面再添加一个残差块结构得到全局特征fC
fC=(ResC(F))
(22)为了获取对应人体关节点的相关视觉特征,利用关节点的位置获取视觉表观特征;具体的操作为以人体关节点为中心,设定每个获取特征的检测框的尺寸为Wh×Hh,具体的大小由检测出的人体关节点的范围决定:
Wh=Hh=λh·max{xmax-xmin,ymax-ymin}
其中,λh为超参数,xmax,xmin为检测出来的人体关节点横坐标最大和最小的值,检测框区域设为xh
(23)每个部位相关区域的特征按以下公式进行提取:
fA=σ(WA·GAP(Resl(RoI(fC,xh)))+bA)
其中,fA为单个关节点相关区域的特征,σ为Relu激活函数,{WA,bA}为表观权重矩阵和偏置,GAP为全局平均池化,Res为残差块,RoI为感兴趣区域;
所述步骤(3)实现过程如下:
对驾驶员上半身人体进行解构操作,将其分为4个区域,分别为头部、颈部、左肩和右肩;其中头部区域以眼部为中心点,颈部区域以颈部为中心点,左肩和右肩区域分别以左肘和右肘为中心点;以颈部点为中心学习更具鲁棒的几何特征:
计算几何特征的过程如下,计算相对距离向量/>的方法为:[log(|xm-xn|),log(|ym-yn|)],将得出的向量进行拼接得到/>xm,ym区域中各点坐标,xn,yn为各区域中心坐标;计算绝对姿态不变向量/>的方法为[log(|xi-x*|),log(|yi-y*|)],xi,yi为上半身关节点各点坐标,x*,y*为颈部坐标;为了利用复杂的非线性空间关系,将这些几何特征嵌入到高维特征,具体表示为:
其中,fG为空间特征,{WG,bG}为几何权重矩阵和偏置,CONCAT为拼接操作;
所述步骤(4)实现过程如下:
将各组空间特征和表观视觉特征进行融合:
fSR=CONCAT[fG,fA(1),fA(2),...,fA(12)]
其中,fSR为最后融合的特征,fG为空间特征,fA(n)为各个区域的视觉表观特征,总共12个区域,依次进行拼接;
最后通过线性层预测各类的概率分布:
其中,p为长度为10的最终预测向量,{WC,bC}为融合特征权重矩阵和偏置。
2.一种采用如权利要求1所述方法的基于姿态感知与几何约束下的驾驶员行为识别系统,其特征在于,包括驾驶员姿态估计模块、视觉表观特征模块和几何特征模块;所述驾驶员姿态估计模块对驾驶员人体进行检测并获取驾驶员的关节点信息,包含关节点坐标位置和置信度;所述视觉表观特征模块获取驾驶员的关节点对应的局部表征;所述几何特征模块对驾驶员人体进行解构,设置各区域局部中心坐标和全局不变中心坐标点,并学习驾驶员不同行为下的几何特征。
CN202211045364.2A 2022-08-30 2022-08-30 基于姿态感知与几何约束下的驾驶员行为识别方法及系统 Active CN115457518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211045364.2A CN115457518B (zh) 2022-08-30 2022-08-30 基于姿态感知与几何约束下的驾驶员行为识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211045364.2A CN115457518B (zh) 2022-08-30 2022-08-30 基于姿态感知与几何约束下的驾驶员行为识别方法及系统

Publications (2)

Publication Number Publication Date
CN115457518A CN115457518A (zh) 2022-12-09
CN115457518B true CN115457518B (zh) 2024-01-26

Family

ID=84300046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211045364.2A Active CN115457518B (zh) 2022-08-30 2022-08-30 基于姿态感知与几何约束下的驾驶员行为识别方法及系统

Country Status (1)

Country Link
CN (1) CN115457518B (zh)

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358149A (zh) * 2017-05-27 2017-11-17 深圳市深网视界科技有限公司 一种人体姿态检测方法和装置
CN107392131A (zh) * 2017-07-14 2017-11-24 天津大学 一种基于人体骨骼节点距离的动作识别方法
CN110059598A (zh) * 2019-04-08 2019-07-26 南京邮电大学 基于姿态关节点的长时程快慢网络融合的行为识别方法
CN110309723A (zh) * 2019-06-04 2019-10-08 东南大学 一种基于人体特征细分类的驾驶员行为识别方法
CN110427831A (zh) * 2019-07-09 2019-11-08 淮阴工学院 一种基于融合特征的人体动作分类方法
CN110728192A (zh) * 2019-09-16 2020-01-24 河海大学 一种基于新型特征金字塔深度网络的高分遥感图像分类方法
CN111160162A (zh) * 2019-12-18 2020-05-15 江苏比特达信息技术有限公司 一种级联的驾驶员人体姿态估计方法
CN111191630A (zh) * 2020-01-07 2020-05-22 中国传媒大学 适用于智能交互观演场景的演艺动作识别方法
CN111523559A (zh) * 2020-03-11 2020-08-11 浙江工业大学 一种基于多特征融合的异常行为检测方法
CN111860417A (zh) * 2020-07-29 2020-10-30 山东大学 一种人体动作识别方法
CN111950412A (zh) * 2020-07-31 2020-11-17 陕西师范大学 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法
CN112507990A (zh) * 2021-02-04 2021-03-16 北京明略软件系统有限公司 视频时空特征学习、抽取方法、装置、设备及存储介质
CN112560604A (zh) * 2020-12-04 2021-03-26 中南大学 一种基于局部特征关系融合的行人重识别方法
CN112668359A (zh) * 2019-10-15 2021-04-16 富士通株式会社 动作识别方法、动作识别装置和电子设备
CN112784765A (zh) * 2021-01-27 2021-05-11 北京百度网讯科技有限公司 用于识别动作的方法、装置、设备以及存储介质
CN113269111A (zh) * 2021-06-03 2021-08-17 昆山杜克大学 一种基于视频监控的电梯异常行为检测方法及系统
CN113392706A (zh) * 2021-05-13 2021-09-14 上海湃道智能科技有限公司 抽烟及使用手机行为检测装置及方法
CN113486784A (zh) * 2021-07-02 2021-10-08 北京航空航天大学 一种双阶段的时序动作检测方法、装置、设备和介质
CN113989927A (zh) * 2021-10-27 2022-01-28 东北大学 一种基于骨骼数据的视频群体暴力行为识别方法及系统
CN114241458A (zh) * 2021-12-20 2022-03-25 东南大学 一种基于姿态估计特征融合的驾驶员行为识别方法
CN114882588A (zh) * 2022-05-05 2022-08-09 济南中科泛在智能计算研究院 基于神经网络的肢体语言识别系统

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358149A (zh) * 2017-05-27 2017-11-17 深圳市深网视界科技有限公司 一种人体姿态检测方法和装置
CN107392131A (zh) * 2017-07-14 2017-11-24 天津大学 一种基于人体骨骼节点距离的动作识别方法
CN110059598A (zh) * 2019-04-08 2019-07-26 南京邮电大学 基于姿态关节点的长时程快慢网络融合的行为识别方法
CN110309723A (zh) * 2019-06-04 2019-10-08 东南大学 一种基于人体特征细分类的驾驶员行为识别方法
CN110427831A (zh) * 2019-07-09 2019-11-08 淮阴工学院 一种基于融合特征的人体动作分类方法
CN110728192A (zh) * 2019-09-16 2020-01-24 河海大学 一种基于新型特征金字塔深度网络的高分遥感图像分类方法
CN112668359A (zh) * 2019-10-15 2021-04-16 富士通株式会社 动作识别方法、动作识别装置和电子设备
CN111160162A (zh) * 2019-12-18 2020-05-15 江苏比特达信息技术有限公司 一种级联的驾驶员人体姿态估计方法
CN111191630A (zh) * 2020-01-07 2020-05-22 中国传媒大学 适用于智能交互观演场景的演艺动作识别方法
CN111523559A (zh) * 2020-03-11 2020-08-11 浙江工业大学 一种基于多特征融合的异常行为检测方法
CN111860417A (zh) * 2020-07-29 2020-10-30 山东大学 一种人体动作识别方法
CN111950412A (zh) * 2020-07-31 2020-11-17 陕西师范大学 一种序列多尺度深度特征融合的层级舞蹈动作姿态估计方法
CN112560604A (zh) * 2020-12-04 2021-03-26 中南大学 一种基于局部特征关系融合的行人重识别方法
CN112784765A (zh) * 2021-01-27 2021-05-11 北京百度网讯科技有限公司 用于识别动作的方法、装置、设备以及存储介质
CN112507990A (zh) * 2021-02-04 2021-03-16 北京明略软件系统有限公司 视频时空特征学习、抽取方法、装置、设备及存储介质
CN113392706A (zh) * 2021-05-13 2021-09-14 上海湃道智能科技有限公司 抽烟及使用手机行为检测装置及方法
CN113269111A (zh) * 2021-06-03 2021-08-17 昆山杜克大学 一种基于视频监控的电梯异常行为检测方法及系统
CN113486784A (zh) * 2021-07-02 2021-10-08 北京航空航天大学 一种双阶段的时序动作检测方法、装置、设备和介质
CN113989927A (zh) * 2021-10-27 2022-01-28 东北大学 一种基于骨骼数据的视频群体暴力行为识别方法及系统
CN114241458A (zh) * 2021-12-20 2022-03-25 东南大学 一种基于姿态估计特征融合的驾驶员行为识别方法
CN114882588A (zh) * 2022-05-05 2022-08-09 济南中科泛在智能计算研究院 基于神经网络的肢体语言识别系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Action Recognition in Video Using Human Keypoint Detection;L. Song et al;《ICCSE》;第465-470页 *
基于图像的动作识别与评价方法;刘倩等;《微处理机》(第5期);第44-48页 *
基于深度学习的驾乘人员异常行为识别算法研究;赵雄;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;第第2021年卷卷(第第9期期);C035-93 *

Also Published As

Publication number Publication date
CN115457518A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
US11557150B2 (en) Gesture control for communication with an autonomous vehicle on the basis of a simple 2D camera
CN110119676B (zh) 一种基于神经网络的驾驶员疲劳检测方法
CN107145842B (zh) 结合lbp特征图与卷积神经网络的人脸识别方法
CN109614939B (zh) 基于人体姿态估计的“玩手机”行为检测识别方法
CN108447078B (zh) 基于视觉显著性的干扰感知跟踪算法
CN107038422B (zh) 基于空间几何约束深度学习的疲劳状态识别方法
CN112560741A (zh) 一种基于人体关键点的安全穿戴检测方法
CN110298257B (zh) 一种基于人体多部位特征的驾驶员行为识别方法
CN104978550A (zh) 基于大规模人脸数据库的人脸识别方法及系统
CN111027481B (zh) 基于人体关键点检测的行为分析方法及装置
CN111401188B (zh) 一种基于人体关键点特征的交警手势识别方法
CN111611874A (zh) 基于ResNet和Canny的人脸口罩佩戴检测方法
KR101903127B1 (ko) 시선방향 예측 방법 및 장치
CN110119726A (zh) 一种基于YOLOv3模型的车辆品牌多角度识别方法
CN105868690A (zh) 识别驾驶员打手机行为的方法和装置
GB2604964A (en) Systems and methods for detecting symptoms of occupant illness
Li et al. Fall detection based on fused saliency maps
CN112668493B (zh) 基于gan和深度学习的换装行人再识别定位跟踪系统
WO2022042203A1 (zh) 一种人体关键点的检测方法及装置
CN115457518B (zh) 基于姿态感知与几何约束下的驾驶员行为识别方法及系统
Yi et al. Safety belt wearing detection algorithm based on human joint points
CN115147817B (zh) 一种姿态引导的实例感知网络的驾驶员分心行为识别方法
CN116935361A (zh) 一种基于深度学习的驾驶员分心行为检测方法
CN112541930A (zh) 基于级联式的图像超像素目标行人分割方法
CN105740783B (zh) 基于姿态检测与衣帽特征的交警检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant