CN110852190B - 一种融合目标检测与手势识别的驾驶行为识别方法及系统 - Google Patents
一种融合目标检测与手势识别的驾驶行为识别方法及系统 Download PDFInfo
- Publication number
- CN110852190B CN110852190B CN201911009347.1A CN201911009347A CN110852190B CN 110852190 B CN110852190 B CN 110852190B CN 201911009347 A CN201911009347 A CN 201911009347A CN 110852190 B CN110852190 B CN 110852190B
- Authority
- CN
- China
- Prior art keywords
- driving behavior
- recognition
- target
- behavior recognition
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000006399 behavior Effects 0.000 claims abstract description 259
- 238000012549 training Methods 0.000 claims abstract description 47
- 230000002411 adverse Effects 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims description 25
- 238000001914 filtration Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000003651 drinking water Substances 0.000 description 3
- 235000020188 drinking water Nutrition 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 description 1
- 101100230509 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) hat-1 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种融合目标检测和手势识别的驾驶行为识别方法及系统,属于驾驶行为识别领域,包括:在模型训练步骤中,收集驾驶行为图片和视频,对其中与第一不良驾驶行为相关的目标进行标注,得到目标检测数据集,并筛选出包含与第二不良驾驶行为相关的手势的视频帧,得到手势识别数据集;构建基于神经网络的驾驶行为识别模型,用于对输入图像进行目标检测和手势识别并融合,完成驾驶行为识别;利用两个数据集进行模型训练,得到目标驾驶行为识别模型;在驾驶行为识别步骤中,利用目标驾驶行为识别模型对待识别的目标图片或者目标视频中的各视频帧进行驾驶行为识别,以判断是否存在不良驾驶行为。本发明能够提高驾驶行为识别的识别精度和实时性。
Description
技术领域
本发明属于驾驶行为识别领域,更具体地,涉及一种融合目标检测和手势识别的驾驶行为识别方法及系统。
背景技术
驾驶员的实时行为识别是计算机视觉运用领域中的一个重要研究课题,在复杂的驾驶环境中实时识别驾驶行为并及时对不良驾驶行为做出预警是安全行车的重要保障。
驾驶行为识别是动作识别的一种,目前,动作识别方法既有基于滤波、纹理特征等的传统机器视觉方法,也有基于深度学习的方法。传统的方法将图片进行网格划分后在多个尺度上分别密集采样特征点,并滤除一些变换少的点,然后利用光流法计算特征点的运动速度,进而获得运动目标轨迹,再沿着轨迹提取方向梯度直方图(HOG)、光流直方图(HOF)、运动边界直方图(MBH)等特征,最后对这些特征进行编码并使用SVM分类,获得行为识别结果。传统的方法在背景简单、光线变化不大的场景下有较好效果,但实际的驾驶场景往往是复杂的,且光线是多变的,导致传统的行为识别方法在识别驾驶行为时往往不能获得很稳定的识别性能。而且,驾驶员在驾驶过程中,动作变化往往不大,传统的方法不易提取到驾驶员的动作轨迹,或存在特征冗余,导致对分类器驾驶行为的判别性不高,相应地驾驶行为识别精度也不高。此外,传统的方法计算量大,不易满足驾驶行为识别的实时性要求。使用深度学习方法构建的模型可以自动提取驾驶员在驾驶过程中的特征,且相较于传统方法更具有通用性和鲁棒性,因此,在驾驶行为识别中获得了广泛的应用。
基于深度学习的方法往往在UCF-101、HMDB-51和Kinetics这样的公共大型数据集进行训练和测试,其所学习获得的参数不能直接运用于实际的驾驶行为识别中。另外,基于深度学习框架设计的动作识别算法往往是在一段行为视频上同时提取空间和时间特征,并基于这些特征获得最终的行为识别结果,这样的方法面临着参数量大,需要的计算成本高的问题,难以做到实时运行,限制了其在实时识别驾驶员行为中的应用。总的来说,在实际的驾驶行为识别中,现有的驾驶行为识别方法在识别精度和实时性仍有待提高。
发明内容
针对现有技术的缺陷和改进需求,本发明提供了一种融合目标检测和手势识别的驾驶行为识别方法及系统,其目的在于,提高驾驶行为识别的识别精度和实时性。
为实现上述目的,按照本发明的第一方面,提供了一种融合目标检测和手势识别的驾驶行为识别方法,包括模型训练步骤和驾驶行为识别步骤;
模型训练步骤包括:
收集驾驶行为图片和驾驶行为视频,对各图片和各视频帧中与第一不良驾驶行为相关的目标进行标注,得到目标检测数据集,并筛选出驾驶行为视频中包含与第二不良驾驶行为相关的手势的视频帧,得到手势识别数据集;第一不良驾驶行为表示与手势无关的不良驾驶行为,第二不良驾驶行为表示与手势相关的不良驾驶行为;
构建基于神经网络模型的驾驶行为识别模型,用于对输入图像进行目标检测和手势识别,并融合目标检测结果和手势识别结果完成对输入图像的驾驶行为识别;
利用目标检测数据集和手势识别数据集对驾驶行为识别模型进行训练,从而在训练完成后得到目标驾驶行为识别模型;
驾驶行为识别步骤包括:
获得待识别的目标图片或目标视频,利用目标驾驶行为识别模型对目标图片或者目标视频中的各视频帧进行驾驶行为识别,以判断是否存在不良驾驶行为。
实际的不良驾驶行为,具体可分为两类,其中一类在行为发生时,仅与特定目标相关,而与特定手势无关,如戴口罩、戴帽子、戴墨镜等驾驶行为,另一类在行为发生时,则与特定手势相关,如使用手机、吃东西、喝水等驾驶行为;本发明所提供的融合目标检测和手势识别的驾驶行为识别方法,根据实际驾驶行为的特点,从实际的驾驶图片和驾驶视频中,通过标注目标和筛选特定手势帧的方式分别建立用于模型训练的目标检测数据集和手势识别数据集,针对仅与特定目标(口罩、帽子、墨镜等)相关的驾驶行为进行目标检测,针对与特定手势相关的驾驶行为进行手势识别,既能保证训练所得的模型在实际的驾驶行为识别中能够获得较好的识别效果,提高识别精度,也无需在一段行为视频上同时提取空间和时间特征,有效减少了计算的时间复杂度,提高了实时性。总的来说,本发明能够有效提高驾驶行为识别的识别精度和实时性。
进一步地,所构建的驾驶行为识别模型,包括:第一tinyYOLOv3网络、tinyDarknet网络以及第一融合层;
第一tinyYOLOv3网络和tiny Darknet网络共用一个特征提取网络;
第一tinyYOLOv3网络用于对输入图像进行目标检测,以检测输入图像中与第一不良驾驶行为相关的目标;
tiny Darknet网络用于对输入图像进行手势识别,以识别输入图像中与第二不良驾驶行为相关的手势;
融合层用于融合第一tinyYOLOv3网络的目标检测结果和tiny Darknet网络的手势识别结果,完成对输入图像的驾驶行为识别。
本发明所构建的驾驶行为识别模型中,用于目标检测的tinyYOLOv3网络和用于手势识别的tiny Darknet网络本身是轻量级的网络,并且在精度和速度上均表现良好,因此,本发明所构建的驾驶行为识别模型,模型参数较少,能够在保证驾驶行为识别精度的基础上,减小计算量,提高驾驶行为识别的实时性;在目标检测和手势识别的过程中,特征提取的过程极为复杂,tinyYOLOv3网络和tiny Darknet网络的特征提取网络结构相同,本发明所构建的驾驶行为识别模型中,tinyYOLOv3网络和tiny Darknet网络共用一个特征提取网络,构建了一个单通道的驾驶行为识别模型,能够进一步简化模型结构,并且在驾驶行为识别过程中,仅需进行一次特征提取,有效减少了计算的时间复杂度。因此,本发明能够有效提高驾驶行为识别的实时性。
进一步地,利用目标检测数据集和手势识别数据集对驾驶行为识别模型进行训练,包括:利用目标检测数据集和手势识别数据集共同对驾驶行为识别模型进行训练,以完成对驾驶行为识别模型的训练。
进一步地,所构建的驾驶行为识别模型,包括:第二tinyYOLOv3网络、ResNet-18网络以及第二融合层;
第二tinyYOLOv3网络用于对输入图像进行目标检测,以检测输入图像中与第一不良驾驶行为相关的目标;
ResNet-18网络用于对输入图像进行手势识别,以识别输入图像中与第二不良驾驶行为相关的手势;
第二融合层用于融合第二tinyYOLOv3网络的目标检测结果和ResNet-18网络的手势识别结果,完成对输入图像的驾驶行为识别。
本发明所构建的驾驶行为识别模型中,用于目标检测的tinyYOLOv3网络和用于手势识别的ResNet-18网络本身是轻量级的网络,并且与同类别的网络相比,在精度和速度上表现最好,tinyYOLOv3网络和用于手势识别的ResNet-18网络分别使用各自的特征提取网络独立完成特征提取,因此,本发明构建了一个双通道的驾驶行为识别模型,模型参数较少,能够在简化模型结构、提高实时性的基础上,有效提高驾驶行为识别的识别精度。
进一步地,利用目标检测数据集和手势识别数据集对驾驶行为识别模型进行训练,包括:分别利用目标检测数据集对第二tinyYOLOv3网络进行训练,并利用手势识别数据集对ResNet-18网络进行训练,从而在第二tinyYOLOv3网络和ResNet-18网络均训练完成后,完成对驾驶行为识别模型的训练。
进一步地,若待识别的对象为目标视频,则在利用目标驾驶行为识别模型对目标视频中的各视频帧进行驾驶行为识别之后,还包括:对各视频帧的驾驶行为识别结果做滤波处理,以剔除其中的异常识别结果。
本发明通过对视频的驾驶行为识别结果做滤波处理,剔除其中的异常识别结果,能够进一步提高对视频的驾驶行为识别精度。
进一步地,对各视频帧的驾驶行为识别结果做滤波处理,通过巴特沃兹低通滤波器完成。
进一步地,利用目标驾驶行为识别模型对目标图片或者目标视频中的各视频帧进行驾驶行为识别之前,还包括:
对目标图片或者目标视频中的各视频帧进行预处理,以规范化图片尺寸并增强数据集。
按照本发明的第二方面,提供了一种融合目标检测和手势识别的驾驶行为识别系统,包括:计算机可读存储介质和处理器,计算机可读存储介质用于存储可执行程序;
处理器用于读取计算机可读存储介质中存储的可执行程序,执行本发明第一方面提供的融合目标检测和手势识别的驾驶行为识别方法。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明所提供的融合目标检测和手势识别的驾驶行为识别方法及系统,根据实际驾驶行为的特点,从实际的驾驶图片和驾驶视频中,通过标注目标和筛选特定手势帧的方式分别建立用于模型训练的目标检测数据集和手势识别数据集,针对仅与特定目标(口罩、帽子、墨镜等)相关的驾驶行为进行目标检测,针对与特定手势相关的驾驶行为进行手势识别,既能保证训练所得的模型在实际的驾驶行为识别中能够获得较好的识别效果,提高识别精度,也无需在一段行为视频上同时提取空间和时间特征,有效减少了计算的时间复杂度,提高了实时性。总的来说,本发明能够有效提高驾驶行为识别的识别精度和实时性。
(2)本发明所提供的融合目标检测和手势识别的驾驶行为识别方法及系统,在其优选方案中,所构建的驾驶行为识别模型中,使用tinyYOLOv3网络进行目标检测,使用tinyDarknet网络进行手势识别,并且tinyYOLOv3网络和tiny Darknet网络共用一个特征提取网络,构建了一个单通道的驾驶行为识别模型,由于tinyYOLOv3网络和tiny Darknet网络本身是轻量级的网络,并且在精度和速度上均表现良好,因此,本发明能够在保证驾驶行为识别精度的基础上,简化模型结构,并减少耗时的特征提取过程,有效提高驾驶行为识别的实时性。
(3)本发明所提供的融合目标检测和手势识别的驾驶行为识别方法及系统,在其优选方案中,使用tinyYOLOv3网络进行目标检测,使用ResNet-18网络进行手势识别,构造了一个双通道的驾驶行为识别模型,由于tinyYOLOv3网络和ResNet-18网络本身是轻量级的网络,并且与同类别的网络相比,在精度和速度上表现最好,因此,本发明能够在简化模型结构、提高实时性的基础上,有效提高驾驶行为识别的识别精度。
(4)本发明所提供的融合目标检测和手势识别的驾驶行为识别方法及系统,通过对视频的驾驶行为识别结果做滤波处理,剔除其中的异常识别结果,能够进一步提高对视频的驾驶行为识别精度。
附图说明
图1为本发明实施例提供的融合目标检测和手势识别的驾驶行为识别方法流程图;
图2为本发明实施例提供的单通道的驾驶行为识别模型示意图;
图3为本发明是实施例提供的利用单通道的驾驶行为识别模型进行驾驶行为识别的方法流程图;
图4为本发明实施例提供的利用双通道的驾驶行为识别模型进行驾驶行为识别的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实时性对于识别驾驶员行为来说具有重要意义,特别是在识别不良驾驶行为方面。驾驶员在驾驶过程中的戴帽子、戴墨镜和喝水等行为显然没有明显的时间变化特征,且这些驾驶行为往往与一系列特定目标或特定手势有关,本发明根据实际驾驶行为的特性,通过在单帧上实时检测与驾驶行为相关的特定目标(帽子、眼镜、口罩等)和识别特定手势来判别驾驶员的驾驶行为,而避免了在一段行为视频上同时提取空间和时间特征,既能提高驾驶行为识别的精度,又能够提高驾驶行为识别的实时性。
本发明所提供的融合目标检测和手势识别的方法,如图1所示,包括模型训练步骤和驾驶行为识别步骤;
模型训练步骤包括:
收集驾驶行为图片和驾驶行为视频,对各图片和各视频帧中与第一不良驾驶行为相关的目标进行标注,得到目标检测数据集,并筛选出驾驶行为视频中包含与第二不良驾驶行为相关的手势的视频帧,得到手势识别数据集;第一不良驾驶行为表示与手势无关的不良驾驶行为,如戴口罩、戴帽子、戴眼镜等不良驾驶行为,第二不良驾驶行为表示与手势相关的不良驾驶行为,如使用手机、喝水、吃东西等不良驾驶行为;在本实施例中,利用labelImg标注工具完成对目标的标注,具体对2400张驾驶行为图片进行标注,获得3065个目标标签,从而得到目标检测数据集,采集驾驶视频中的特定手势帧4000张,并对这些帧用相应的不良驾驶行为的类别名称(如使用手机、喝水等)重命名,即可获得手势识别数据集;
构建基于神经网络模型的驾驶行为识别模型,用于对输入图像进行目标检测和手势识别,并融合目标检测结果和手势识别结果完成对输入图像的驾驶行为识别;
利用目标检测数据集和手势识别数据集对驾驶行为识别模型进行训练,从而在训练完成后得到目标驾驶行为识别模型;
驾驶行为识别步骤包括:
获得待识别的目标图片或目标视频,利用目标驾驶行为识别模型对目标图片或者目标视频中的各视频帧进行驾驶行为识别,以判断是否存在不良驾驶行为。
上述融合目标检测和手势识别的驾驶行为识别方法,根据实际驾驶行为的特点,从实际的驾驶图片和驾驶视频中,通过标注目标和筛选特定手势帧的方式分别建立用于模型训练的目标检测数据集和手势识别数据集,针对仅与特定目标相关的驾驶行为进行目标检测,针对与特定手势相关的驾驶行为进行手势识别,既能保证训练所得的模型在实际的驾驶行为识别中能够获得较好的识别效果,提高识别精度,也无需在一段行为视频上同时提取空间和时间特征,有效减少了计算的时间复杂度,提高了实时性。总的来说,上述融合目标检测和手势识别的驾驶行为识别方法,能够有效提高驾驶行为识别的识别精度和实时性。
在一个可选的实施方式中,如图2所示,所构建的驾驶行为识别模型,包括:第一tinyYOLOv3网络、tiny Darknet网络以及第一融合层;第一tinyYOLOv3网络和tinyDarknet网络共用一个特征提取网络;图2中的卷积层、全局平均池化和Softmax共同构成tiny Darknet网络的分类层,图2中的特征提取网络和分类层共同构成tiny Darknet网络;图2中的预测支路1和预测支路2共同构成第一tinyYOLOv3网络的检测层,图2中的特征提取网络和检测层共同构成第一tinyYOLOv3网络,检测层中的全连接层均使用平均池化层来代替;由于第一tinyYOLOv3网络和tiny Darknet网络共用一个特征提取网络,在此所构建的驾驶行为识别模型实际上是一种单通道的驾驶行为识别模型;
第一tinyYOLOv3网络用于对输入图像进行目标检测,以检测输入图像中与第一不良驾驶行为相关的目标;
tiny Darknet网络用于对输入图像进行手势识别,以识别输入图像中与第二不良驾驶行为相关的手势;
融合层用于融合第一tinyYOLOv3网络的目标检测结果和tiny Darknet网络的手势识别结果,完成对输入图像的驾驶行为识别;
上述单通道的驾驶行为识别模型中,用于目标检测的tinyYOLOv3网络和用于手势识别的tiny Darknet网络本身是轻量级的网络,并且在精度和速度上均表现良好,因此,模型参数较少,能够在保证驾驶行为识别精度的基础上,减小计算量,提高驾驶行为识别的实时性;在目标检测和手势识别的过程中,特征提取的过程极为复杂,tinyYOLOv3网络和tinyDarknet网络的特征提取网络结构相同,上述单通道的驾驶行为识别模型中,tinyYOLOv3网络和tiny Darknet网络共用一个特征提取网络,能够进一步简化模型结构,并且在驾驶行为识别过程中,仅需进行一次特征提取,有效减少了计算的时间复杂度。因此,本实施例利用上述单通道驾驶行为识别模型,能够有效提高驾驶行为识别的实时性;
与上述单通道的驾驶行为识别模型相对应地,利用目标检测数据集和手势识别数据集对驾驶行为识别模型进行训练,包括:利用目标检测数据集和手势识别数据集共同对驾驶行为识别模型进行训练,以完成对驾驶行为识别模型的训练;在本实施例中,在进行模型训练之前,使用K均值聚类算法对目标检测数据集中的目标尺寸进行聚类,生成六个anchor尺寸为:(39.5371,48.6495),(81.2164,62.8158),(56.4214,112.4011),(150.4483,108.0347),(107.0620,218.6808),(249.5029,169.3843),以此来使网络训练收敛更好,网络精度更高;训练所采用的损失函数为L=LDetection+SSE,其中,LDetection表示tinyYOLOv3网络的损失函数,SSE表示tiny Darknet网络的和方差损失函数。
在上述单通道的驾驶行为识别模型训练完成后,利用所得到的目标驾驶行为识别模型,对目标图片或者目标视频中的各视频帧进行驾驶行为识别的流程,如图3所示,具体为,由第一tinyYOLOv3网络和tiny Darknet网络所共用的特征提取网络对输入图像(目标图片或视频帧)进行特征提取后,由第一tinyYOLOv3网络的检测层根据输入图像特征进行目标检测,由tiny Darknet网络的Softmax分类层根据输入图像特征进行手势识别,并且由第一融合层融合目标检测结果和手势识别结果完成最终的驾驶行为识别,以判断是否存在不良驾驶行为。
在另外一个可选的实施方式中,所构建的驾驶行为识别模型,包括:第二tinyYOLOv3网络、ResNet-18网络以及第二融合层;第二tinyYOLOv3网络和ResNet-18网络分别使用各自的特征提取网络进行特征提取,因此,在此所构建的模型实际上是一种双通道的驾驶行为识别模型;
第二tinyYOLOv3网络用于对输入图像进行目标检测,以检测输入图像中与第一不良驾驶行为相关的目标;
ResNet-18网络用于对输入图像进行手势识别,以识别输入图像中与第二不良驾驶行为相关的手势;
第二融合层用于融合第二tinyYOLOv3网络的目标检测结果和ResNet-18网络的手势识别结果,完成对输入图像的驾驶行为识别;
在上述双通道的驾驶行为识别模型中,用于目标检测的tinyYOLOv3网络和用于手势识别的ResNet-18网络本身是轻量级的网络,并且与同类别的网络相比,在精度和速度上表现最好,具体来说,将同类别的tinyYOLOv3网络与FaceBoxes目标检测算法进行比较,利用目标检测数据集对这两个模型进行训练之后,tinyYOLOv3网络在目标检测的精度和速度上均优于FaceBoxes目标检测算法;将同类别的AlexNet网络、VGG-16网络,InceptionNet网络、ResNet-18网络、ResNet-34网络、Darknet-8网络、Darknet-19网络和tiny Darknet网络进行比较,利用手势识别数据集对这个8个图像分类网络进行训练之后,ResNet-18网络在手势识别的精度和速度上均优于其他图像分类网络;因此,本实施例所构建的上述双通道的驾驶行为识别模型,模型参数较少,能够在简化模型结构、提高实时性的基础上,有效提高驾驶行为识别的识别精度;
与上述双通道的驾驶行为识别模型相对应地,利用目标检测数据集和手势识别数据集对驾驶行为识别模型进行训练,包括:分别利用目标检测数据集对第二tinyYOLOv3网络进行训练,并利用手势识别数据集对ResNet-18网络进行训练,从而在第二tinyYOLOv3网络和ResNet-18网络均训练完成后,完成对驾驶行为识别模型的训练;同样地,在进行模型训练之前,使用K均值聚类算法对目标检测数据集中的目标尺寸进行聚类,生成六个anchor尺寸为:(39.5371,48.6495),(81.2164,62.8158),(56.4214,112.4011),(150.4483,108.0347),(107.0620,218.6808),(249.5029,169.3843),以此来使网络训练收敛更好,网络精度更高。
在上述双通道的驾驶行为识别模型训练完成后,利用所得到的目标驾驶行为识别模型,对目标图片或者目标视频中的各视频帧进行驾驶行为识别的流程,如图4所示,具体为,由第二tinyYOLOv3网络和ResNet-18网络各自的特征提取网络分别对输入图像(目标图片或视频帧)进行特征提取,由第二tinyYOLOv3网络的检测层根据其自身的特征提取网络提取到的输入图像特征进行目标检测,由ResNet-18网络的Softmax分类层根据其自身的特征提取网络提取到的输入图像特征进行手势识别,并且由第二融合层融合目标检测结果和手势识别结果完成最终的驾驶行为识别,以判断是否存在不良驾驶行为。
为了进一步地提高驾驶行为识别的识别精度,如图3和图4所示,若待识别的对象为目标视频,则在利用目标驾驶行为识别模型对目标视频中的各视频帧进行驾驶行为识别之后,还可包括:对各视频帧的驾驶行为识别结果做滤波处理,以剔除其中的异常识别结果;
通过对视频的驾驶行为识别结果做滤波处理,剔除其中的异常识别结果,能够进一步提高对视频的驾驶行为识别精度;
对各视频帧的驾驶行为识别结果做滤波处理,通过巴特沃兹低通滤波器完成;应当理解的是,此处的描述仅仅是本发明的一种优选的实施方式,而不应理解为对本发明的唯一限定。
进一步地,如图3和图4所示,利用目标驾驶行为识别模型对目标图片或者目标视频中的各视频帧进行驾驶行为识别之前,还可括:
对目标图片或者目标视频中的各视频帧进行预处理,以规范化图片尺寸并增强数据集;具体可通过缩放操作规范化图片尺寸,以使得图片尺寸与驾驶行为识别模型相适应,可通过翻转,裁剪,平移、改变对比度等操作增强数据集,以防止驾驶行为识别模型在训练过程中出现过拟合。
在实际应用中,可对每一类具体的驾驶行为(包括第一不良驾驶行为、第二不良驾驶行为和正常驾驶行为)分别进行编号,例如在本实施例中,共对7种驾驶行为进行识别,各种行为及对应的变化为:戴口罩—0,戴帽子—1,戴墨镜—2,使用手机—3,吃东西—4,喝水—5,正常驾驶—6;如图3和图4所示,在利用上述融合目标检测和手势识别的驾驶行为识别方法得到最终的驾驶行为类别编号之后,若编号小于等于5,则说明存在不良驾驶行为,否则,说明不存在不良驾驶行为。应当理解的是,此处描述仅为示例性说明,在实际应用中,具体需要识别的行为种类、对行为种类的编号方法以及根据识别结果判断是否存在不良驾驶行为的具体方式,应根据实际情况确定。
本发明还提供了一种融合目标检测和手势识别的驾驶行为识别系统,包括:计算机可读存储介质和处理器,计算机可读存储介质用于存储可执行程序;
处理器用于读取计算机可读存储介质中存储的可执行程序,执行上述融合目标检测和手势识别的驾驶行为识别方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种融合目标检测和手势识别的驾驶行为识别方法,其特征在于,包括模型训练步骤和驾驶行为识别步骤;
所述模型训练步骤包括:
收集驾驶行为图片和驾驶行为视频,对各图片和各视频帧中与第一不良驾驶行为相关的目标进行标注,得到目标检测数据集,并筛选出所述驾驶行为视频中包含与第二不良驾驶行为相关的手势的视频帧,得到手势识别数据集;所述第一不良驾驶行为表示与手势无关的不良驾驶行为,所述第二不良驾驶行为表示与手势相关的不良驾驶行为;
构建基于神经网络模型的驾驶行为识别模型,用于对输入图像进行目标检测和手势识别,并融合目标检测结果和手势识别结果完成对所述输入图像的驾驶行为识别;
利用所述目标检测数据集和所述手势识别数据集对所述驾驶行为识别模型进行训练,从而在训练完成后得到目标驾驶行为识别模型;
所述驾驶行为识别步骤包括:
获得待识别的目标图片或目标视频,利用所述目标驾驶行为识别模型对所述目标图片或者所述目标视频中的各视频帧进行驾驶行为识别,以判断是否存在不良驾驶行为;
所构建的驾驶行为识别模型,包括:第一tinyYOLOv3网络、tiny Darknet网络以及第一融合层;
所述第一tinyYOLOv3网络和tiny Darknet网络共用一个特征提取网络;
所述第一tinyYOLOv3网络用于对输入图像进行目标检测,以检测输入图像中与第一不良驾驶行为相关的目标;
所述tiny Darknet网络用于对输入图像进行手势识别,以识别输入图像中与第二不良驾驶行为相关的手势;
所述融合层用于融合所述第一tinyYOLOv3网络的目标检测结果和所述tiny Darknet网络的手势识别结果,完成对所述输入图像的驾驶行为识别。
2.如权利要求1所述的融合目标检测和手势识别的驾驶行为识别方法,其特征在于,利用所述目标检测数据集和所述手势识别数据集对所述驾驶行为识别模型进行训练,包括:利用所述目标检测数据集和所述手势识别数据集共同对所述驾驶行为识别模型进行训练,以完成对所述驾驶行为识别模型的训练。
3.如权利要求1或2所述的融合目标检测和手势识别的驾驶行为识别方法,其特征在于,若待识别的对象为目标视频,则在利用所述目标驾驶行为识别模型对所述目标视频中的各视频帧进行驾驶行为识别之后,还包括:对各视频帧的驾驶行为识别结果做滤波处理,以剔除其中的异常识别结果。
4.如权利要求3所述的融合目标检测和手势识别的驾驶行为识别方法,其特征在于,对各视频帧的驾驶行为识别结果做滤波处理,通过巴特沃兹低通滤波器完成。
5.如权利要求1或2所述的融合目标检测和手势识别的驾驶行为识别方法,其特征在于,利用所述目标驾驶行为识别模型对所述目标图片或者所述目标视频中的各视频帧进行驾驶行为识别之前,还包括:
对所述目标图片或者所述目标视频中的各视频帧进行预处理,以规范化图片尺寸并增强数据集。
6.一种融合目标检测和手势识别的驾驶行为识别系统,包括:计算机可读存储介质和处理器,其特征在于,所述计算机可读存储介质用于存储可执行程序;
所述处理器用于读取计算机可读存储介质中存储的可执行程序,执行权利要求1-5任一项所述的融合目标检测和手势识别的驾驶行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911009347.1A CN110852190B (zh) | 2019-10-23 | 2019-10-23 | 一种融合目标检测与手势识别的驾驶行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911009347.1A CN110852190B (zh) | 2019-10-23 | 2019-10-23 | 一种融合目标检测与手势识别的驾驶行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110852190A CN110852190A (zh) | 2020-02-28 |
CN110852190B true CN110852190B (zh) | 2022-05-20 |
Family
ID=69596731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911009347.1A Expired - Fee Related CN110852190B (zh) | 2019-10-23 | 2019-10-23 | 一种融合目标检测与手势识别的驾驶行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852190B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111598875A (zh) * | 2020-05-18 | 2020-08-28 | 北京小白世纪网络科技有限公司 | 甲状腺结节自动检测模型构建方法、系统及装置 |
CN112287740B (zh) * | 2020-05-25 | 2022-08-30 | 国网江苏省电力有限公司常州供电分公司 | 基于YOLOv3-tiny实现的输电线路的目标检测方法、装置、无人机 |
CN111709310B (zh) * | 2020-05-26 | 2024-02-02 | 重庆大学 | 一种基于深度学习的手势跟踪与识别方法 |
CN112016461B (zh) * | 2020-08-28 | 2024-06-11 | 深圳市信义科技有限公司 | 一种多目标的行为识别方法及系统 |
CN112528824B (zh) * | 2020-12-02 | 2022-11-25 | 创新奇智(深圳)技术有限公司 | 防止幼儿食用异物的方法及装置、电子设备、存储介质 |
CN112906617B (zh) * | 2021-03-08 | 2023-05-16 | 济南中凌电子科技有限公司 | 一种基于手部检测的驾驶员异常行为识别方法与系统 |
CN114565878B (zh) * | 2022-03-01 | 2024-05-03 | 北京赛思信安技术股份有限公司 | 一种支持类别可配置的视频标志物检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130058991A (ko) * | 2011-11-28 | 2013-06-05 | 현대자동차주식회사 | 제스처 인식 운전보조시스템 |
CN108216252A (zh) * | 2017-12-29 | 2018-06-29 | 中车工业研究院有限公司 | 一种地铁司机车载驾驶行为分析方法、车载终端及系统 |
CN108509902A (zh) * | 2018-03-30 | 2018-09-07 | 湖北文理学院 | 一种驾驶员行车过程中手持电话通话行为检测方法 |
CN108614995A (zh) * | 2018-03-27 | 2018-10-02 | 深圳市智能机器人研究院 | 用于yolo网络的手势数据集采集方法、手势识别方法和装置 |
CN109376634A (zh) * | 2018-10-15 | 2019-02-22 | 北京航天控制仪器研究所 | 一种基于神经网络的公交司机违规行为检测系统 |
CN110096957A (zh) * | 2019-03-27 | 2019-08-06 | 苏州清研微视电子科技有限公司 | 基于面部识别和行为识别融合的疲劳驾驶监测方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017040519A1 (en) * | 2015-08-31 | 2017-03-09 | Sri International | Method and system for monitoring driving behaviors |
-
2019
- 2019-10-23 CN CN201911009347.1A patent/CN110852190B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130058991A (ko) * | 2011-11-28 | 2013-06-05 | 현대자동차주식회사 | 제스처 인식 운전보조시스템 |
CN108216252A (zh) * | 2017-12-29 | 2018-06-29 | 中车工业研究院有限公司 | 一种地铁司机车载驾驶行为分析方法、车载终端及系统 |
CN108614995A (zh) * | 2018-03-27 | 2018-10-02 | 深圳市智能机器人研究院 | 用于yolo网络的手势数据集采集方法、手势识别方法和装置 |
CN108509902A (zh) * | 2018-03-30 | 2018-09-07 | 湖北文理学院 | 一种驾驶员行车过程中手持电话通话行为检测方法 |
CN109376634A (zh) * | 2018-10-15 | 2019-02-22 | 北京航天控制仪器研究所 | 一种基于神经网络的公交司机违规行为检测系统 |
CN110096957A (zh) * | 2019-03-27 | 2019-08-06 | 苏州清研微视电子科技有限公司 | 基于面部识别和行为识别融合的疲劳驾驶监测方法和系统 |
Non-Patent Citations (2)
Title |
---|
Detection of Airplanes on the Ground Using YOLO Neural Network;Volodymyr Kharchenko et al;《2018 IEEE 17th International Conference on Mathematical Methods in Electromagnetic Theory (MMET)》;20180913;全文 * |
驾驶人手机通话行为中基于图像特征决策融合的手势识别方法;程文冬等;《交通运输工程学报》;20190831;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110852190A (zh) | 2020-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852190B (zh) | 一种融合目标检测与手势识别的驾驶行为识别方法及系统 | |
CN112418117B (zh) | 一种基于无人机图像的小目标检测方法 | |
CN108537117B (zh) | 一种基于深度学习的乘客检测方法和系统 | |
CN110929593A (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN110298297A (zh) | 火焰识别方法和装置 | |
CN110119726A (zh) | 一种基于YOLOv3模型的车辆品牌多角度识别方法 | |
CN111274886B (zh) | 一种基于深度学习的行人闯红灯违法行为分析方法及系统 | |
CN111539320B (zh) | 基于互相学习网络策略的多视角步态识别方法及系统 | |
CN104615986A (zh) | 利用多检测器对场景变化的视频图像进行行人检测的方法 | |
CN112434723B (zh) | 一种基于注意力网络的日/夜间图像分类及物体检测方法 | |
CN114332473B (zh) | 目标检测方法、装置、计算机设备、存储介质及程序产品 | |
CN106778650A (zh) | 基于多类型信息融合的场景自适应行人检测方法和系统 | |
CN111295666A (zh) | 一种车道线检测方法、装置、控制设备及存储介质 | |
CN114049572A (zh) | 识别小目标的检测方法 | |
CN115760870A (zh) | 一种图像重点区域的分割方法、装置、设备及存储介质 | |
Dhawan et al. | Identification of traffic signs for advanced driving assistance systems in smart cities using deep learning | |
CN115861981A (zh) | 基于视频姿态不变性的驾驶员疲劳行为检测方法及系统 | |
CN111382638B (zh) | 一种图像检测方法、装置、设备和存储介质 | |
CN109002808B (zh) | 一种人体行为识别方法及系统 | |
CN113269119B (zh) | 一种夜间车辆检测方法及装置 | |
CN113205060A (zh) | 采用循环神经网络依据骨骼形态判断的人体动作检测方法 | |
CN111832475B (zh) | 一种基于语义特征的人脸误检筛除方法 | |
CN117557784A (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN112528903A (zh) | 人脸图像获取方法、装置、电子设备及介质 | |
CN109815887B (zh) | 一种基于多智能体协作的复杂光照下人脸图像的分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220520 |
|
CF01 | Termination of patent right due to non-payment of annual fee |