CN114882478B - 权重优化下的局部多尺度特征融合的驾驶员行为识别方法 - Google Patents
权重优化下的局部多尺度特征融合的驾驶员行为识别方法 Download PDFInfo
- Publication number
- CN114882478B CN114882478B CN202210294364.XA CN202210294364A CN114882478B CN 114882478 B CN114882478 B CN 114882478B CN 202210294364 A CN202210294364 A CN 202210294364A CN 114882478 B CN114882478 B CN 114882478B
- Authority
- CN
- China
- Prior art keywords
- features
- driver
- human body
- fusion
- scale
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000005457 optimization Methods 0.000 title claims abstract description 23
- 238000001514 detection method Methods 0.000 claims abstract description 22
- 238000011176 pooling Methods 0.000 claims abstract description 21
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000006399 behavior Effects 0.000 claims description 34
- 238000012544 monitoring process Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 4
- 210000000746 body region Anatomy 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 7
- 239000000284 extract Substances 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 5
- 206010039203 Road traffic accident Diseases 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法,首先用YOLOv5对驾驶员进行检测,得到驾驶人体检测框相对位置信息;将原图片送入ResNet50中进行特征提取,在主干网络ResNet50的三个不同尺度利用驾驶人相对位置信息进行ROI+Pooling操作,得到三个不同尺度的驾员人体的特征,并进行重复多尺度特征融合;最后将Resnet最终得到的全局特征与多尺度特征融合后的驾驶员人体特征进行权重优化策略后结合,通过Softmax层预测相应的类别。本发明在结合目标检测和局部多尺度重复融合结构充分提取人体特征的同时,也兼顾了全局背景对预测产生的效应;在复杂驾驶环境下的检测效果良好,准确度高,具有较好的鲁棒性。
Description
技术领域
本发明属于计算机视觉和自动驾驶领域,具体涉及一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法。
背景技术
分心驾驶是交通事故发生的首要原因,据交通管理局的数据显示,每年大约发生200万起交通事故,其中超过80%是由分心驾驶造成的。近年来,ADAS(高级驾驶辅助系统)被许多汽车厂商采用,ADAS使用一系列的传感器来收集车内外的数据,并对车内外的静态和动态目标进行检测和识别。驾驶行为监控是ADAS的关键技术,利用这些技术,可以有效提醒驾驶员安全行为,避免车祸的发生。因而,驾驶员分心行为检测在计算机视觉和自动驾驶领域有着广阔的研究前景。
尽管驾驶员分心行为识别是人类动作识别的一个通用问题,但是由于车内狭小复杂的环境和驾驶员分心时的体态的细微差异,目前用于人体动作识别的方法并不适用于驾驶员分心识别。
随着深度学习和计算机视觉的快速发展,许多研究者都用各种方式来对分心驾驶检测进行研究。在近些年,深度学习开始广泛的使用在图像分类和复原领域。和传统算法相比较,深度学习在性能和准确率方面得到了大幅提升。在深度卷积神经网络的应用领域如分类和目标检测等场景,各类有着优异表现的模型被提出,如AlexNet,VGG,GoogleNet,ResNet等,这些都在计算机视觉领域取得了优异的表现。
由于分心驾驶导致交通事故频发,分心驾驶检测吸引了工业界和学术研究团体大量的关注,现有的研究都致力于对各种分心行为进行检测,也都取得了不错的改进成果。然而,现有的大多数研究都集中在利用全局特征,驶员行为识别的主体是驾驶员,在复杂多变的驾驶环境下对驾驶员的特征提取容易受到噪声干扰。为了获得驾驶员丰富的特征,同时考虑到全局背景也有一定的线索作用。本发明提出了一种权重优化下的多尺度特征融合的驾驶员行为识别方法,在充分提取人体特征的同时,也兼顾了全局背景对预测产生的效应。
发明内容
发明目的:针对现有技术中存在的问题,本发明提出一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法,结合目标检测和局部多尺度重复融合结构充分提取人体特征的同时,也兼顾了全局背景对预测产生的效应;在复杂驾驶环境下的检测效果良好,准确度高,具有较好的鲁棒性。
技术方案:本发明提出一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法,具体包括以下步骤:
(1)预先获取驾驶室的监控视频,选取其中的分心驾驶行为并分割成相应图片,作为数据集;
(2)采用YOLOv5对驾驶员进行检测,得到驾驶人体检测框相对位置信息;
(3)将原图片送入ResNet50网络中进行特征提取;
(4)分别在ResNet50网络的28*28、14*14和7*7尺度的特征图上,利用步骤(2)所得到人体检测框相对位置,进行ROI+Pooling得到驾驶人的底层细节特征和高层抽象特征,并对三个尺度的特征进行重复多尺度融合,得到更加全面丰富的驾驶人特征;
(5)提出一种权重分配方法用于对驾驶人特征和全局特征进权衡,将分配后的驾驶人的特征和全局特征相结合,并对驾驶员行为进行识别。
进一步地,所述步骤(2)实现过程如下:
其中,YOLOv5网络为Y(x),其中将图片x作为输入,输出一个包含网格的特征图,其中(tx,ty)为偏移量,(cx,cy)为相当于左上角的坐标位置,(tw,th)为尺度缩放比例,(pw,ph)为先验框的长宽;bx,by为检测框的中心坐标,bw,bh为检测框的长宽,将检测出的人体框命名为xh。
进一步地,所述步骤(3)实现过程如下:
将整张图片作为全局特征提取的输入,使用ResNet-50在ImageNet进行过预训练模型,并对模型进行微调,将模型的最后的全连接层进行相应修改以适应具体驾驶员行为识别任务;整张图片经过主干网络后得到特征图F,对特征图F添加残差块结构得到全局特征fC:
fV=(ResC (F))。 (1)
进一步地,所述步骤(4)实现过程如下:
利用步骤(2)目标检测得到人体框xh,用感兴趣区域和池化对人体区域进行特征提取的到局部人体特征,在局部人体特征后面跟上残差结构和全局最大池化来获取单个尺度的人体特征fh:
fh=GAP(Resh (RoI(F,xh))) (3)
设主干网络要输入到多尺度特征融合结构的三个尺度的输入特征Pin=(Pin l1,Pin l2,Pin l4),输出特征为Pout=h(Pin),h()为多尺度融合运算,其中Pin l1代表分辨率为输入图像的1/2,Pin l2代表分辨率为输入图像的1/4,Pin l4代表原图的1/16;多尺度重复融合采样操作可表示如下:
Pout l1=Conv(UpSample(Pin l2)⊕UpSample(Pin l4)+Pin l1) (4)
Pout l2=Conv(DownSample(Pin l1)⊕UpSample(Pin l4)+Pin l2) (5)
Pout l4=Conv(DownSample(Pin l1)⊕DownSample(Pin l2)+Pin l4) (6)
其中,⊕代表concat运算;最后通过一种阶梯型的特征融合方式将融合后的不同尺度的向量进行相加,得到最终多特征融合后的fh fusion:
进一步地,所述步骤(5)实现过程如下:
引入权重ρ对全局特征fC特征和fh fusion进行合理分配:
其中,代表对特征进行最大池化操作,/>代表进行平均池化操作。
有益效果:与现有技术相比,本发明的有益效果:本发明提出一种局部人体多尺度特征重复融合方法,充分提取驾驶人底层和高层并进行重复多尺度融合获取丰富的特征;本发明提出一种权重优化策略对局部人体多尺度特征和全局特征进行权重优化,使得模型能够充分考虑上下文信息,学习到更为合理的特征;本发明在复杂驾驶环境下的检测效果良好,准确度高,具有较好的鲁棒性。
附图说明
图1为本发明的流程图;
图2为本发明提出的权重优化下的局部多尺度特征融合的驾驶员行为识别系统结构示意图;
图3为本发明提出的权重优化下的局部多尺度特征融合的驾驶员行为识别网络结构示意图;
图4为江苏省淮安市三危一客数据集样例图;
图5为AUC分心驾驶数据集样例图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提出一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法,人体信息在本方法中扮演着重要角色,为了能够更加准确的对驾驶员进行定位,本发明利用YOLOv5对驾驶员的人体进行检测,并对人体坐标进行归一化。然后在主干网络的三个尺度利用坐标对驾驶员特征进行提取并进行重复多尺度特征融合,并与主干网络的全局特征进行权重策略优化融合对驾驶员行为进行识别。本发明主要分为2个并行的分支,一个全局分支利用基础的ResNet50来获取图片的高级特征图。另一个局部人体分支测专注结合YOLOv5目标检测网络和多尺度结构来获取局部驾驶员的丰富的来自底层和高层的尺度特征。其次本发明还提出了一种结合全局平均池化和全局最大池化的权重优化策略。如图1、图2所示,具体包括以下步骤:
步骤1:预先获取驾驶室的监控视频,选取其中的分心驾驶行为并分割成相应图片,人工筛选特征相应动作的图片作为数据集。
本实施方式中选取江苏省淮安市三客一危(三客是指客运车辆、校车、旅游车辆,一危是指危化品运输车辆)数据集。这类车和传统小型汽车空间结构不同,数据场景相对复杂。数据集来自工业界的合作公司所提供的车内监控视频,图4为数据集中五个动作里面的一些样例图,分别是安全驾驶、分神、打电话、使用手机和抽烟。如图4所示,不同车内摄像头的安装位置不是固定的,而是安装在驾驶员的不同角度,有效提升了数据的丰富性,场景相对复杂多变。首先将长监控视频分割成有分心动作的短视频,然后将短监控视频分割成视频帧,选取其中具有代表性的帧作为数据集。数据集总共包括43776张图片,其中38756张作为训练集,5020张作为测试集;训练集和测试集的类是没有交叉的。表1为数据集的具体描述。
表1淮安三客一危分心驾驶数据集
步骤2:如图3所示,首先采用YOLOv5对驾驶员进行检测,得到驾驶人体检测框相对位置信息。
由于现在存在大量公开可用的人体图像数据集和高性能的目标检测器,使用现有的目标检测器很容易对人体进行检测。本文采用YOLOv5作为人体检测器,YOLOv5会对图片中的人体位置进行预测。
其中,YOLOv5网络为为Y(x),其中将图片x作为输入,输出一个包含网格的特征图,其中(tx,ty)为偏移量,(cx,cy)为相当于左上角的坐标位置,(tw,th)为尺度缩放比例,(pw,ph)为先验框的长宽;bx,by为检测框的中心坐标,bw,bh为检测框的长宽,将检测出的人体框命名为xh。
步骤3:将原图片送入ResNet50网络中进行特征提取。
全局特征在驾驶员行为识别中扮演着重要角色,描述了驾驶员动作与车辆和整张图片的关系,本发明采用广泛使用的ResNet-50网络作为主干网络。将整张图片作为全局特征提取的输入。使用的ResNet-50在ImageNet进行过预训练模型,并对模型进行微调,将模型的最后的全连接层进行修改以适应驾驶员行为识别任务。整张图片经过主干网络后得到特征图F,对特征图F进行残差连接得到全局特征fC:
fC=(ResC (F))。 (2)
步骤4:分别在ResNet50网络的28*28、14*14和7*7尺度的特征图上,利用步骤2所得到人体检测框相对位置,进行ROI+Pooling得到驾驶人的底层细节特征和高层抽象特征,图3黑色的方块代表人体局部特征。并对三个尺度的特征进行重复多尺度融合,得到更加全面丰富的驾驶人特征。
这个分支主要用来提取图片局部人体的丰富特征,首先进行目标检测得到人体框xh,随后用感兴趣区域(ROI)池化对人体区域进行特征提取。之后在其后面跟上残差结构和全局最大池化来获取单个尺度的人体特征fh。
fh=GAP(Resh (RoI(F,xh))) (3)
多尺度特征融合模块需要来自主干网络的三个尺度的输入特征Pin=Pin l1,Pin l2,Pin l5),输出特征为Pout=h(Pin),h()为多尺度融合运算,其中Pin l1代表分辨率为输入图像的1/2,Pin l2代表分辨率为输入图像的1/4,Pin l4代表原图的1/16。例如,如果输入分辨率为512×512,则Pin l1代表的2倍下采样后分辨率为256×256的特征图(512÷21=256),而Pin l4代表16倍下采样后分辨率为32×32。多尺度重复融合采样操作可表示如下:
其中,代表concat运算。如图3结构所示,最后通过一种阶梯型的特征融合方式将融合后的不同尺度的向量进行相加,阶梯型的融合方式相比于上下采样聚合的方式,所需的参数更少。得到最终多特征融合后的fh fusion:
步骤5:提出一种权重分配方法用于对驾驶人特征和全局特征进权衡,将分配后的驾驶人的特征和全局特征相结合,并对驾驶员行为进行识别。
全局特征fC能为驾驶员行为识别提供一些可分辨的线索信息,而局部人体多尺度融合特征fh fusion则提供了丰富的人体特征。通常来说是将两者特征用GAP(全局平均池化)或GMP(全局最大池化)将特征进行聚合并通过全连接层进行分类。可以将其看作是一个有结构的正则化,在不需要其他参数的同时将特征强制映射到所要区分的C个类上,因而,可以有效的避免过拟合的现象。然而,对与GAP和GMP的使用是完全取决于所要实现具体任务,GAP是将所有的值进行平均的聚合,这种就比较适合局部人体特征fh fusion,但是也有一个问题就是GAP总会过多的注意那些频繁出现的块状特征,而GMP则恰恰相反。GMP只注意特征中最大的值,但也会丢失一些对当前识别重要的信息,两者是一种互补的关系,因而为了获取更加全面合理的信息,本文引入权重ρ对全局特征fC特征和fh fusion进行合理分配。权重优化策略对应为图3中的OW(OptimalWeight)模块:
其中,代表对特征进行最大池化操作,/>代表进行平均池化操作。
对于全局特征,本发明采用了ResNet-50进行特征提取,输入的尺寸缩放到224*224。对于局部特征,采用YOLOv5进行人体框的检测,并对人体框进行归一化,以便于在主干网络的不同尺度对局部特征进行提取,局部特征提取的手段为ROI+Pooling操作,主干网络提取的三个尺度的特征分别28*28,14*14,7*7。进行重复多尺度特征融合的后的三个尺度的特征仍保持原有分辨率。
网络训练采用交叉熵损失函数对网络模型的权重进行更新,初始化学习率初始设为1e-3,算法训练的批次大小为64,采用momentum进行优化,同时将学习率衰减权重设置外0.0006,训练的批次为50个epochs。实验在Python3.8和Pytorch1.8的深度学习框架上进行。使用的操作系统为Ubuntu16.04,GPU为一块显存为16GB的英伟达Tesla V100。
AUC分心驾驶数据集是Yehya等发布,数据集仅有两个视角,AUC视频数据集随机分割为3:1比例的训练测试数据集。图片的训练数据集和测试集包括同一司机的动作,这样会导致训练集和测试集有着相近的分布比例。
为了能够使得数据集更加接近真实世界场景,Yehya等又在2019年发布了AUC第二个版本数据集,AUC V2数据集的训练集和测试集没有包含相同驾驶员。38个驾驶员的视频帧里用于进行训练,剩余的6个驾驶员的视频帧用作测试。V1数据集总共有图片17308张,其中12977张用于训练,4331张用于测试。V2数据集总共包括14478张数据集,12555张用于训练,1923张用于测试。图5是AUC数据集十个动作的样例图。
将本发明分别在公开数据集AUCV1和AUCV2上进行测试,表2为本发明在淮安三客一危驾驶数据集上的结果,结果表明本发明的准确率较原ResNet50的网络的准确率的到了显著提升,增强了在复杂驾驶环境下的检测能力,证明了本发明方法的有效性。表3为本发明和其他方法准确率对比结果,由于AUCV1的测试数据集存在交叉驾驶员,结果可以看出,AUCV1数据集的准确率普遍要高于AUCV2的准确率。本发明在利用局部多尺度特征融合结构充分提取融合了驾驶行为识别主体的驾驶员的底层细节和高层抽象特征,并且同时也考量了背景全局特征所带来的上下文线索信息,又对GMP全局特征和GAP局部特征进行权重分配,取得了比其他几种方法更高的准确率。
表2在淮安三客一危数据集上的结果
表3在AUCV1和AUCV2数据集上的准确率
本发明提出了一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法,结合目标检测和局部多尺度重复特征融合结构获取丰富的人体特征的同时,又利用带有GMP和GAP的权重优化策略去侧重学习那些具有代表性的全局特征和局部人体特征。本发明在充分考虑以人为中心的驾驶行为识别的同时,也注意了全局的上下文线索,在自建的复杂场景数据集和公开数据集AUC上都取得了较为理想的效果。
Claims (3)
1.一种权重优化下的局部多尺度特征融合的驾驶员行为识别方法,其特征在于,包括以下步骤:
(1)预先获取驾驶室的监控视频,选取其中的分心驾驶行为并分割成相应图片,作为数据集;
(2)采用YOLOv5对驾驶员进行检测,得到驾驶人体检测框相对位置信息;
(3)将原图片送入ResNet50网络中进行特征提取;
(4)分别在ResNet50网络的28*28、14*14和7*7尺度的特征图上,利用步骤(2)所得到人体检测框相对位置,进行ROI+Pooling得到驾驶人的底层细节特征和高层抽象特征,并对三个尺度的特征进行重复多尺度融合,得到更加全面丰富的驾驶人特征;
(5)提出一种权重分配方法用于对驾驶人特征和全局特征进权衡,将分配后的驾驶人的特征和全局特征相结合,并对驾驶员行为进行识别;
所述步骤(4)实现过程如下:
利用步骤(2)目标检测得到人体框xh,用感兴趣区域和池化对人体区域进行特征提取得到局部人体特征,在局部人体特征后面跟上残差结构和全局平均池化来获取单个尺度的人体特征fh:
fh=GAP(Resh(RoI(F,xh))) (3)
F为整张图片的特征图;设主干网络要输入到多尺度特征融合结构的三个尺度的输入特征Pin=(Pin l1,Pin l2,Pin l4),输出特征为Pout=h(Pin),h()为多尺度融合运算,其中Pin l1代表分辨率为输入图像的1/2,Pin l2代表分辨率为输入图像的1/4,Pin l4代表原图的1/16;多尺度重复融合采样操作可表示如下:
其中,代表concat运算;最后通过一种阶梯型的特征融合方式将融合后的不同尺度的向量进行相加,得到最终多特征融合后的fh fusion:
所述步骤(5)实现过程如下:
通过引入权重系数ρ对全局特征图fC和局部多尺度人体融合特征图fh fusion进行合理分配:
其中,代表对特征进行最大池化操作,/>代表进行平均池化操作。
2.根据权利要求1所述的权重优化下的局部多尺度特征融合的驾驶员行为识别方法,其特征在于,所述步骤(2)实现过程如下:
其中,YOLOv5网络为Y(x),其中将图片x作为输入,输出一个包含网格的特征图,其中(tx,ty)为偏移量,(cx,cy)为相当于左上角的坐标位置,(tw,th)为尺度缩放比例,(pw,ph)为先验框的长宽;bx,by为检测框的中心坐标,bw,bh为检测框的长宽,将检测出的人体框命名为xh。
3.根据权利要求1所述的权重优化下的局部多尺度特征融合的驾驶员行为识别方法,其特征在于,所述步骤(3)实现过程如下:
将整张图片作为全局特征提取的输入,使用ResNet-50在ImageNet进行过预训练模型,并对模型进行微调,将模型的最后的全连接层进行相应修改以适应具体驾驶员行为识别任务;整张图片经过主干网络后得到特征图F,对特征图F添加残差块结构得到全局特征fC:
fC=(ResC(F)) (1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210294364.XA CN114882478B (zh) | 2022-03-24 | 2022-03-24 | 权重优化下的局部多尺度特征融合的驾驶员行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210294364.XA CN114882478B (zh) | 2022-03-24 | 2022-03-24 | 权重优化下的局部多尺度特征融合的驾驶员行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882478A CN114882478A (zh) | 2022-08-09 |
CN114882478B true CN114882478B (zh) | 2023-08-22 |
Family
ID=82667967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210294364.XA Active CN114882478B (zh) | 2022-03-24 | 2022-03-24 | 权重优化下的局部多尺度特征融合的驾驶员行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882478B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875674A (zh) * | 2018-06-29 | 2018-11-23 | 东南大学 | 一种基于多列融合卷积神经网络的驾驶员行为识别方法 |
CN110796109A (zh) * | 2019-11-05 | 2020-02-14 | 哈尔滨理工大学 | 一种基于模型融合的驾驶员分心行为识别方法 |
CN111008567A (zh) * | 2019-11-07 | 2020-04-14 | 郑州大学 | 一种驾驶员行为识别方法 |
CN112819068A (zh) * | 2021-01-29 | 2021-05-18 | 南京长江油运有限公司 | 一种基于深度学习的船舶作业违章行为实时侦测方法 |
CN113052071A (zh) * | 2021-03-25 | 2021-06-29 | 淮阴工学院 | 危化品运输车驾驶员分心行为快速检测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11651599B2 (en) * | 2020-08-17 | 2023-05-16 | Verizon Patent And Licensing Inc. | Systems and methods for identifying distracted driver behavior from video |
-
2022
- 2022-03-24 CN CN202210294364.XA patent/CN114882478B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108875674A (zh) * | 2018-06-29 | 2018-11-23 | 东南大学 | 一种基于多列融合卷积神经网络的驾驶员行为识别方法 |
CN110796109A (zh) * | 2019-11-05 | 2020-02-14 | 哈尔滨理工大学 | 一种基于模型融合的驾驶员分心行为识别方法 |
CN111008567A (zh) * | 2019-11-07 | 2020-04-14 | 郑州大学 | 一种驾驶员行为识别方法 |
CN112819068A (zh) * | 2021-01-29 | 2021-05-18 | 南京长江油运有限公司 | 一种基于深度学习的船舶作业违章行为实时侦测方法 |
CN113052071A (zh) * | 2021-03-25 | 2021-06-29 | 淮阴工学院 | 危化品运输车驾驶员分心行为快速检测方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于级联卷积神经网络的驾驶员分心驾驶行为检测;陈军;张黎;周博;罗维平;马双宝;;科学技术与工程(第14期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114882478A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188705B (zh) | 一种适用于车载系统的远距离交通标志检测识别方法 | |
CN111461083A (zh) | 基于深度学习的快速车辆检测方法 | |
CN108416292B (zh) | 一种基于深度学习的无人机航拍图像道路提取方法 | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
CN114445430B (zh) | 轻量级多尺度特征融合的实时图像语义分割方法及系统 | |
CN113688836A (zh) | 一种基于深度学习的实时性道路图像语义分割方法及系统 | |
CN113762209A (zh) | 一种基于yolo的多尺度并行特征融合路标检测方法 | |
CN112560693B (zh) | 基于深度学习目标检测的高速公路异物识别方法和系统 | |
CN112287983B (zh) | 一种基于深度学习的遥感图像目标提取系统和方法 | |
CN112581409B (zh) | 一种基于端到端的多重信息蒸馏网络的图像去雾方法 | |
CN112434723B (zh) | 一种基于注意力网络的日/夜间图像分类及物体检测方法 | |
CN111611918B (zh) | 基于航拍数据和深度学习的交通流数据集采集及构建方法 | |
CN112132205B (zh) | 一种基于卷积神经网络的遥感图像分类方法 | |
CN114742799A (zh) | 基于自监督异构网络的工业场景未知类型缺陷分割方法 | |
CN116596792B (zh) | 一种面向智能船舶的内河雾天场景恢复方法、系统及设备 | |
CN114332473A (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN112766409A (zh) | 一种遥感图像目标检测的特征融合方法 | |
CN115019201B (zh) | 一种基于特征精细化深度网络的弱小目标检测方法 | |
CN116258940A (zh) | 一种多尺度特征及自适应权重的小目标检测方法 | |
CN116469020A (zh) | 一种基于多尺度和高斯Wasserstein距离的无人机图像目标检测方法 | |
CN115115973A (zh) | 一种基于多感受野与深度特征的弱小目标检测方法 | |
CN114782949A (zh) | 一种边界引导上下文聚合的交通场景语义分割方法 | |
CN113486712B (zh) | 一种基于深度学习的多人脸识别方法、系统和介质 | |
CN112560799B (zh) | 基于自适应目标区域搜索和博弈的无人机智能车辆目标检测方法和应用 | |
CN113052071A (zh) | 危化品运输车驾驶员分心行为快速检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20220809 Assignee: Jiangsu Kesheng Xuanyi Technology Co.,Ltd. Assignor: HUAIYIN INSTITUTE OF TECHNOLOGY Contract record no.: X2023980048436 Denomination of invention: Driver behavior recognition method based on local multi-scale feature fusion under weight optimization Granted publication date: 20230822 License type: Common License Record date: 20231129 |
|
EE01 | Entry into force of recordation of patent licensing contract |