CN115496978B - 一种图像和车速信息融合的驾驶行为分类方法及装置 - Google Patents
一种图像和车速信息融合的驾驶行为分类方法及装置 Download PDFInfo
- Publication number
- CN115496978B CN115496978B CN202211117591.1A CN202211117591A CN115496978B CN 115496978 B CN115496978 B CN 115496978B CN 202211117591 A CN202211117591 A CN 202211117591A CN 115496978 B CN115496978 B CN 115496978B
- Authority
- CN
- China
- Prior art keywords
- vehicle speed
- image
- fusion
- tensor
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/54—Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Discrete Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请提供了一种图像和车速信息融合的驾驶行为分类方法及装置,涉及智能驾驶技术领域;所述方法包括:获取当前时刻的车载RGB图像和车速数据;对当前时刻及当前时刻之前的预设帧数的车速数据组成的车速序列进行处理,得到车速序列的语谱图;利用预先训练完成的车速处理模型对车速序列的语谱图进行处理,得到车速特征向量;利用预先训练完成的图像处理模型对当前时刻的车载RGB图像进行处理,得到图像特征向量;利用预先训练完成的融合模型对车速特征向量和图像特征向量进行低秩双模态融合处理,得到融合特征;利用预先训练完成的全连接层对融合特征进行映射,得到驾驶行为分类结果。本申请提高了驾驶行为分类的速度和精度。
Description
技术领域
本申请涉及智能驾驶技术领域,尤其是涉及一种图像和车速信息融合的驾驶行为分类方法及装置。
背景技术
目前,从传感器数据的来源区分,驾驶行为分类方法主要有两种,基于车辆动力学的方法以及基于驾驶员动力学的方法。这两种方法都存在一定的问题和不足。
其中,基于驾驶员动力学的方法,由于其需要利用有关于驾驶员信息的传感器数据进行驾驶行为的分类,所以需要在车辆内部安装额外的相机来获取驾驶员的信息数据,这将对驾驶员来说是一笔额外的花费,导致该方法目前普及性很差、不实用;并且在车辆内部安装相机,相机在获取图像的同时,往往也会有音频的录入,所以这个行为会涉及到个人隐私问题,对于大部分人来说这是不可以接受的。
而基于车辆动力学方法的算法模型只需要捕获车辆的状态信息,例如车速、转角、加速度等,就能对驾驶员的驾驶行为做出准确的判断。虽然解决了基于驾驶员动力学方法带来的问题,但是也存在一定的弊端。基于车辆动力学方法的算法模型大致分为两类:机器学习的经典算法和基于循环神经网络(RNNs)经典体系结构LSTM的方法。其中,机器学习的经典算法需要很多的超参设置以及手动特征提取,使得特征处理阶段与分类学习算法存在分离,无法实现端到端的学习;而基于循环神经网络经典体系结构LSTM的方法,存在模型复杂度高,训练时间长,效率低下的问题。
发明内容
有鉴于此,本申请提供了一种图像和车速信息融合的驾驶行为分类方法及装置,以解决上述技术问题。
第一方面,本申请实施例提供了一种图像和车速信息融合的驾驶行为分类方法,所述方法包括:
获取当前时刻的车载RGB图像和车速数据;
对当前时刻及当前时刻之前的预设帧数的车速数据组成的车速序列进行处理,得到车速序列的语谱图;利用预先训练完成的车速处理模型对车速序列的语谱图进行处理,得到车速特征向量;
利用预先训练完成的图像处理模型对当前时刻的车载RGB图像进行处理,得到图像特征向量;
利用预先训练完成的融合模型对车速特征向量和图像特征向量进行低秩双模态融合处理,得到融合特征;
利用预先训练完成的全连接层对融合特征进行映射,得到驾驶行为分类结果,所述驾驶行为分类结果包括:正常驾驶、攻击性驾驶和困倦驾驶。
在一种的可能实现中,所述车速处理模型包括:车速卷积神经网络、第一池化层、第一全连接层、第二全连接层和第一归一化层,其中,所述车速处理模型的输入为车速序列的单通道语谱图,车速卷积神经网络用于将单通道的语谱图转换为512通道的特征图;所述车速处理模型的输出为128维的车速特征向量。
在一种的可能实现中,所述图像处理模型包括:图像卷积神经网络、第二池化层、第三全连接层、第四全连接层和第二归一化层,所述图像处理模型的输入为当前时刻的三通道RGB图像,图像卷积网络用于将三通道RGB图像转换为512通道的特征图;所述图像处理模型的输出为128维的图像特征向量。
在一种的可能实现中,所述车速卷积神经网络和图像卷积神经网络的结构相同;所述车速卷积神经网络包括依次连接的第一卷积核、第一批标准层、第一激活函数ReLu、第一卷积基本单元、第三池化层、第二卷积基本单元、第三卷积基本单元、第四池化层、第四卷积基本单元和第五卷积基本单元;其中,第一卷积核的大小为3×3,步长Stride=2,padding=1;五个卷积基本单元的结构相同,包括:依次连接的第二卷积核、第二批标准层和第二激活函数ReLu,第二卷积核的大小为3×3,步长Stride=1,padding=1,padding为特征图边缘填充0的数量。
在一种的可能实现中,利用预先训练完成的融合模型对车速特征和图像特征进行处理,得到融合特征;包括:
将128维的车速特征向量增加一个维度,生成129维的车速特征向量Zs;将128维的图像特征向量增加一个维度,生成129维的图像特征向量Zv;
对三阶张量W进行低秩分解,得到dh个两阶张量W1、W2…、Wdh-1和Wdh;三阶张量W为融合模型待训练的参数;
将每个两阶张量分解为:
低阶图像张量hv为:
低阶速度张量hs为:
其中,hv和hs为dh维向量;
依次将低阶图像张量hv的每个分量和低阶速度张量hs的对应分量相乘,将乘积结果与偏置项b的对应的分量相加,得到低阶融合张量h的每个分量;由此得到预测的低阶融合张量h,其中,偏置项b为融合模型待训练的参数;
则融合特征为低阶融合张量h。
在一种的可能实现中,所述方法还包括:对图像处理模型、车速处理模型、融合模型和全连接层进行联合训练的步骤。
第二方面,本申请实施例提供了一种图像和车速信息融合的驾驶行为分类装置,所述装置包括:
获取单元,用于获取当前时刻的车载RGB图像和车速数据;
车速处理单元,用于对当前时刻及当前时刻之前的预设帧数的车速数据组成的车速序列进行处理,得到车速序列的语谱图;利用预先训练完成的车速处理模型对车速序列的语谱图进行处理,得到车速特征向量;
图像处理单元,用于利用预先训练完成的图像处理模型对当前时刻的车载RGB图像进行处理,得到图像特征向量;
融合单元,用于利用预先训练完成的融合模型对车速特征向量和图像特征向量进行低秩双模态融合处理,得到融合特征;
分类单元,用于利用预先训练完成的全连接层对融合特征进行映射,得到驾驶行为分类结果,所述驾驶行为分类结果包括:正常驾驶、攻击性驾驶和困倦驾驶。
第三方面,本申请实施例提供了一种电子设备,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例的图像和车速信息融合的驾驶行为分类方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现本申请实施例的图像和车速信息融合的驾驶行为分类方法。
本申请通过将图像和车速信息进行融合处理,提高了驾驶行为分类的速度和精度。
附图说明
为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的图像和车速信息融合的驾驶行为分类方法的流程图;
图2为本申请实施例提供的图像和车速信息融合的驾驶行为分类装置的功能结构图;
图3为本申请实施例提供的电子设备的功能结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先对本申请实施例的设计思想进行简单介绍。
随着高级辅助驾驶系统(ADAS)的迅速发展,与驾驶相关的各种辅助功能也越来越受到各行各业的关注。驾驶行为是指驾驶员的驾驶行为,包括驾驶员的注意力是否集中、驾驶员对车辆当前运动情况的需求等。驾驶行为分类在各个领域都起到了重要的作用,每年由于交通事故导致人死亡的情况绝大部分都是由于驾驶员的非正常驾驶行为导致,所以及时检测驾驶员的驾驶行为并对驾驶员进行提醒,可以很大程度上的减少交通事故的发生;在汽车保险方面,可以通过对驾驶行为进行分类预测,从而更好的进行风险评估并基于此更加灵活、个性的制定保险费用的收取;在燃料能源消耗方面,可以通过驾驶行为的分类,尽量避免能源消耗高的行为,从而减少能源的浪费并对环境做出一定程度上的保护。
目前,从传感器数据的来源区分,驾驶行为分类方法主要有两种,基于车辆动力学的方法以及基于驾驶员动力学的方法。这两种方法都存在一定的问题和不足。
基于车辆动力学方法的研究工作中都有一个共同的问题,只采用了车辆的底层传感器数据,而忽略了包含更多特征信息的图像数据。图像数据作为自动驾驶领域极为重要的传感器,具有分辨率高、数据连续等优点,并且相比于车速、转角等车辆底层信息数据,高维的图像数据包含空间、色彩等信息,拥有更多的特征,例如车辆周围的标示物信息、空旷或者拥堵情况信息、车辆的位置信息、以及可以根据连续两帧图片中标示物的相对位置计算车速以及车辆与障碍物的距离等等,这些特征信息是车速、转角等1D信息所不具备的,并且对驾驶行为的判断有很大的帮助,然而之前的研究工作中却忽略了图像数据这类重要的传感器信息。
为了解决上述技术问题,本申请提供了一种图像和车速信息融合的驾驶行为分类方法,通过将图像数据和车辆速度数据这两种不同模态的数据进行融合,为了充分利用时序信息,通过卷积神经网络提取特征,并利用语谱图和低秩多模态张量融合的方式将图像和5秒的车速数据充分融合来进行最终驾驶行为的分类预测。采用了多种模态数据以及时序信息,使得分类方法不仅体量小、速度快,而且最终的分类精度更高,效果更好。
在介绍了本申请实施例的应用场景和设计思想之后,下面对本申请实施例提供的技术方案进行说明。
如图1所示,本申请实施提供一种图像和车速信息融合的驾驶行为分类方法,包括:
步骤101:获取当前时刻的车载RGB图像和车速数据;
在本实施例中,通过车辆上的朝向道路的摄像头采集RGB图像,通过测速仪实时获取车速数据,需要指出的是,测速仪采集的频率为1Hz,即每秒只有一个车速数据。
步骤102:对当前时刻及当前时刻之前的预设帧数的车速数据组成的车速序列进行处理,得到车速序列的语谱图;利用预先训练完成的车速处理模型对车速序列的语谱图进行处理,得到车速特征向量;
对信号既可以进行时域分析也可以进行频域分析。时域图是描述信号的幅度随着时间的变化,在时域图中其横轴表示时间,纵轴表示该信号的幅度。在频域图中其横轴表示频率,纵轴表示该频率的强弱。时域、频域分析都只能涵盖信号两个维度的信息。而语谱图是一种同时进行时频域分析的二维图像,虽然使用二维的表现形式但是涵盖了三个维度的信息,横轴表示时间,纵轴表示频率,图中的颜色表示相应时刻和相应频率的强度,颜色越深则表示强度越大。
本实施例中,语谱图是由车速数据通过短时傅里叶变换(STFT)生成的。快速傅里叶变换(FFT)能够将信号从时域转到频域进行分析,但是丢失了时间维度,无法对非平稳信号进行处理。为了同时考虑时间维度信息,短时傅里叶变换在快速傅里叶变换的基础上进行了加窗处理,即既考虑了时间维度也考虑了频率维度。STFT的基本思想是首先使用固定长度的窗口函数在时域内截取一定长度的信号,然后对截取的部分信号进行快速傅里叶变换得到时间t附近的小时间段内的局部语谱图,接着在整个时间范围内重叠一定的长度平移该窗口就得到了沿着时间维度的一系列局部语谱图,最后把局部语谱图沿着另一个维度堆叠起来就构成了语谱图。短时傅里叶变换的基本计算公式如下:
其中,x(t)是时域信号,t和s表示时间,w代表频率,g(s-t)是以时间,t为中心的窗口函数。
本实施例采用时序信息辅助预测方法,即车速序列为当前预测秒数及前4秒的数据,经过仿真证明,5帧的车速序列无论是从效果还是数据量大小上是一个优选的实施方式。在处理时间序列数据方面,常见的是使用LSTM(长短期记忆网络)对数据进行学习预测,但是其结构相对复杂、效率低。所以使用语谱图既能表示车速数据的变化,也规避了LSTM的劣势,同时,可以将用于图像的卷积神经网络直接应用于车速数据提取特征,提供了一维信息作为卷积神经网络输入的新颖方式。
车速处理模型包括:车速卷积神经网络、第一池化层、第一全连接层、第二全连接层和第一归一化层,其中,车速卷积神经网络用于将输入的单通道的语谱图转换为512通道的特征图;所述车速处理模型的输入为车速序列的语谱图,输出为128维的车速特征向量。
步骤103:利用预先训练完成的图像处理模型对当前时刻的车载RGB图像进行处理,得到图像特征向量;
自从深度学习快速发展以来,卷积神经网络由于局部连接、权值共享、下采样等优点使其广泛应用于各种领域并且取得了重大突破。卷积层和池化层是卷积神经网络中最基本且最重要的层。卷积层通过使用不同的卷积核就能对图像提取相应的特征,卷积核通过不断的在图像中滑动获得卷积核大小像素点的特征,同时保留了像素间的空间关系。池化层通过将图像划分为不同的区域,只保留区域中相对重要的特征或者对特征做平均化处理等,能够降低特征图的维数,并且能够减少模型参数数量和降低模型的计算复杂度,防止产生过拟合问题。
图像处理模型包括:图像卷积网络、第二池化层、第三全连接层、第四全连接层和第二归一化层,图像卷积网络用于将输入的三通道的RGB图像转换为512通道的特征图;所述图像处理模型的输入为当前时刻的RGB图像,输出为128维的图像特征向量。
在本实施例中,图像卷积神经网络和车速卷积神经网络的结构相同;所述车速卷积神经网络包括依次连接的第一卷积核、第一批标准层、第一激活函数ReLu、第一卷积基本单元、第一池化层、第二卷积基本单元、第三卷积基本单元、第二池化层、第四卷积基本单元和第五卷积基本单元,第一卷积核的大小为3×3,步长Stride=2,padding=1;五个卷积基本单元的结构相同,包括:依次连接的第二卷积核、第二批标准层和第二激活函数ReLu,第二卷积核的大小为3×3,步长Stride=1,padding=1。padding为特征图边缘填充0的数量,padding=1:上下左右各补了一行。
步骤104:利用预先训练完成的融合模型对车速特征向量和图像特征向量进行低秩双模态融合处理,得到融合特征;
基于上述步骤,已经分别对图像数据和车速数据转化后的语谱图进行了特征提取,分别得到了两个128维的特征向量。需要对这两个分别包含图像特征和车速特征的特征向量进行融合,并将融合张量用于最终的驾驶行为分类预测。张量融合作为当前多模态信息融合的一种主流融合方法,其中包括早期的特征拼接、张量外积等方式。对于多种张量融合方式,本实施例使用了张量外积融合。而普通的张量外积存在计算成本高、过拟合等问题,所以采用了优化过的张量外积融合-低秩多模态张量融合,该方法通过对张量融合中的高阶张量进行低秩分解,将高阶的张量运算分解为了线性运算,使得计算成本不会随着模态的增加出现指数级增加的现象。
低秩多模态张量融合优化了普通的张量外积融合,普通张量外积的融合方式,其融合过程为首先通过外积的方式将各个模态的特征向量进行融合,再通过高阶参数矩阵W与偏置项b将融合张量投影的低维空间。
对于普通张量外积的问题,本申请采用了低秩多模态张量融合的方法,这种方式通过对普通张量融合线性层公式当中的参数W进行的分解,解决了张量融合计算成本高以及因为引入大量计算而面临过拟合的问题。
具体的,该步骤包括:
将128维的车速特征向量增加一个维度,生成129维的车速特征向量Zs;将128维的图像特征向量增加一个维度,生成129维的图像特征向量Zv;
对三阶张量W进行低秩分解,得到dh个两阶张量W1、W2…、Wdh-1和Wdh;三阶张量W为融合模型待训练的参数;
将每个两阶张量分解为:
低阶图像张量hv为:
低阶速度张量hs为:
其中,hv和hs为dh维向量;
依次将低阶图像张量hv的每个分量和低阶速度张量hs的对应分量相乘,将乘积结果与偏置项b的对应的分量相加,得到低阶融合张量h的每个分量;由此得到预测的低阶融合张量h,其中,偏置项b为融合模型待训练的参数;
则融合特征为低阶融合张量h。
步骤105:利用预先训练完成的全连接层对融合特征进行映射,得到驾驶行为分类结果,所述驾驶行为分类结果包括:正常驾驶、攻击性驾驶和困倦驾驶。
此外,所述方法还包括:对图像处理模型、车速处理模型、融合模型和全连接层进行联合训练的步骤;具体包括:
步骤S1:收集三种驾驶行为过程中的自然图像数据集和车速数据集;
深度学习模型性能的好坏很大部分取决于数据集的质量,任何优秀的模型都要在准确的数据上才能发挥作用。因此,首先对具有不同驾驶行为的图像数据集和车速数据集进行收集。由于收集的数据集往往比摄像头直接得到的数据集更清晰更加准确,噪点更少,若将融合网络用于工程实验,还需要再次收集数据集,以便于融合网络在该数据集上进行微调。
目前已经收集到的数据集为UAH数据集。六名不同年龄、不同性别、驾驶不同车辆的驾驶员分别模仿三种驾驶行为(正常驾驶、攻击性驾驶、困倦驾驶)在高速公路和二级道路(两条都是来自马德里社区(西班牙)的道路)上共出行5-7次产生的数据构成了该数据集。该数据集包括了六个文件夹,每个文件夹为每名驾驶员行驶过程中产生的数据,其中包括路况的视频记录、速度、经纬度、三轴加速度、相对于车道中心的位置、在当前车道上与前方车辆的距离、当前道路的最大允许速度等信息。
在融合模型中,基于一帧图像与5秒车速数据对驾驶行为进行分类,把车速数据通过语谱图二维数据的形式与图像进行融合,但是生成语谱图需要足够多的一维信息来表示车速短时间的变化。由于采集车速的频率只有1Hz,所以先对每一秒的车速数据进行了扩充,即利用一个视频中已记录的所有车速数据使用插值方法估算出在其他时间点的数值。把每秒的车速数据扩充1260倍,一秒则有1260个车速数据。扩充完数据后,考虑到仅用一秒内的车速无法充分体现驾驶员驾驶行为,所以使用了时序信息辅助预测的方式,使用5秒内的车速数据作为预测的数据来源,即当前预测的秒数及前4秒的车速数据。比如预测第五秒的状态则使用的是1-5秒的车速数据,预测第六秒的状态则使用的是2-6秒的车速数据。这6300(1260*5)个车速数据作为生成语谱图的原始数据。
把采集的数据集按道路分成了三组数据,第一组实验数据为高速公路的视频和车速文本文件。第二组实验数据为次要道路的视频和车速文本文件。第三组实验数据为UAH所有道路的数据,即既包括高速公路又包括次要道路的视频和车速文本文件。
在数据集划分方面:对于驾驶行为分类模型,将其划分为60%的训练集、10%的验证集、30%的测试集,并且划分的时候充分考虑驾驶员、道路类型、驾驶行为三方面,使在这三方面表现相同的数据在训练、验证、测试集中的比例相同。
步骤S2:利用数据集对图像处理模型、车速处理模型、融合模型和全连接层进行联合训练。
为了说明模型使用车速与图像的判断性能比仅使用单一模态的性能更强,对不同模态数据进行了对比实验。首先仅使用车速数据进行实验,在三组实验数据上其F1-score均为最低,最高为0.751。其次仅使用图像数据进行实验,其F1-score最高为0.988。最后将融合图像与车速数据进行实验,其F1-score最高为0.994,比仅使用车速数据提高了0.217-0.431,比仅使用图像数据提高了0.006-0.02。所以,车速和图像信息能够互补进而提高模型性能。
F1分数(F1-Score)是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。它是精确率和召回率的调和平均数,它的最大值是1,最小值是0。
精确率(Precision):预测为正且实际为正的样本占预测为正的样本的比例。
Precision=TP/(TP+FP)
召回率(Recall):预测为正且实际为正的样本占实际为正的样本的比例。
Recall=TP/(TP+FN)
TP:True Positive,真阳性,正样本分类为正样本;FP:False Positive,假阳性,负样本分类为正样本;TN:True Negative,真阴性,负样本分类为负样本;FN:FalseNegative,假阴性,正样本分类为负样本。
F1-Score为三个类别的F1的算数平均数。
将本实施例使用的低秩多模态融合方式与MSELoss、欧氏距离融合方式相比,除了计算量小、效率高等优势外,分类效果也更好。在高速公路数据上,F1-score为0.968,比MSELoss融合方式相比提高了0.034,比欧氏距离融合方式相比提高了0.032。在既包括高速公路也包括次要道路数据上,F1-score为0.979,比MSELoss融合方式相比提高了0.008,比欧氏距离融合方式相比提高了0.017。
本申请的图像和车速信息融合的驾驶行为分类方法更加高效和准确。驾驶行为分类对于道路安全、能源优化等方面具有重要意义,该方法将有着更广泛的利用,同时,该方法也为不同模态信息融合等其它技术领域提供了一定的参考。
基于上述实施例,本申请实施例提供了一种图像和车速信息融合的驾驶行为分类装置,参阅图2所示,本申请实施例提供的图像和车速信息融合的驾驶行为分类200至少包括:
获取单元201,用于获取当前时刻的车载RGB图像和车速数据;
车速处理单元202,用于对当前时刻及当前时刻之前的预设帧数的车速数据组成的车速序列进行处理,得到车速序列的语谱图;利用预先训练完成的车速处理模型对车速序列的语谱图进行处理,得到车速特征向量;
图像处理单元203,用于利用预先训练完成的图像处理模型对当前时刻的车载RGB图像进行处理,得到图像特征向量;
融合单元204,用于利用预先训练完成的融合模型对车速特征向量和图像特征向量进行低秩双模态融合处理,得到融合特征;
分类单元205,用于利用预先训练完成的全连接层对融合特征进行映射,得到驾驶行为分类结果,所述驾驶行为分类结果包括:正常驾驶、攻击性驾驶和困倦驾驶。
需要说明的是,本申请实施例提供的图像和车速信息融合的驾驶行为分类装置200解决技术问题的原理与本申请实施例提供的图像和车速信息融合的驾驶行为分类方法相似,因此,本申请实施例提供的图像和车速信息融合的驾驶行为分类装置200的实施可以参见本申请实施例提供的图像和车速信息融合的驾驶行为分类方法的实施,重复之处不再赘述。
基于上述实施例,本申请实施例还提供了一种电子设备,参阅图3所示,本申请实施例提供的电子设备300至少包括:处理器301、存储器302和存储在存储器302上并可在处理器301上运行的计算机程序,处理器301执行计算机程序时实现本申请实施例提供的图像和车速信息融合的驾驶行为分类方法。
本申请实施例提供的电子设备300还可以包括连接不同组件(包括处理器301和存储器302)的总线303。其中,总线303表示几类总线结构中的一种或多种,包括存储器总线、外围总线、局域总线等。
存储器302可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)3021和/或高速缓存存储器3022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)3023。
存储器302还可以包括具有一组(至少一个)程序模块3024的程序工具3025,程序模块3024包括但不限于:操作子系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备300也可以与一个或多个外部设备304(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与电子设备300交互的设备通信(例如手机、电脑等),和/或,与使得电子设备300与一个或多个其它电子设备300进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口305进行。并且,电子设备300还可以通过网络适配器306与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器306通过总线303与电子设备300的其它模块通信。应当理解,尽管图3中未示出,可以结合电子设备300使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)子系统、磁带驱动器以及数据备份存储子系统等。
需要说明的是,图3所示的电子设备300仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现本申请实施例提供的图像和车速信息融合的驾驶行为分类方法。具体地,该可执行程序可以内置或者安装在电子设备300中,这样,电子设备300就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的图像和车速信息融合的驾驶行为分类方法。
本申请实施例提供的图像和车速信息融合的驾驶行为分类方法还可以实现为一种程序产品,该程序产品包括程序代码,当该程序产品可以在电子设备300上运行时,该程序代码用于使电子设备300执行本申请实施例提供的图像和车速信息融合的驾驶行为分类方法。
本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合,其中,可读介质可以是可读信号介质或者可读存储介质,而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码,还可以在计算设备上运行。然而,本申请实施例提供的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
最后所应说明的是,以上实施例仅用以说明本申请的技术方案而非限制。尽管参照实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,对本申请的技术方案进行修改或者等同替换,都不脱离本申请技术方案的精神和范围,其均应涵盖在本申请的权利要求范围当中。
Claims (5)
1.一种图像和车速信息融合的驾驶行为分类方法,其特征在于,所述方法包括:
获取当前时刻的车载RGB图像和车速数据;
对当前时刻及当前时刻之前的预设帧数的车速数据组成的车速序列进行处理,得到车速序列的语谱图;利用预先训练完成的车速处理模型对车速序列的语谱图进行处理,得到车速特征向量;
利用预先训练完成的图像处理模型对当前时刻的车载RGB图像进行处理,得到图像特征向量;
利用预先训练完成的融合模型对车速特征向量和图像特征向量进行低秩双模态融合处理,得到融合特征;
利用预先训练完成的全连接层对融合特征进行映射,得到驾驶行为分类结果,所述驾驶行为分类结果包括:正常驾驶、攻击性驾驶和困倦驾驶;
所述车速处理模型包括:车速卷积神经网络、第一池化层、第一全连接层、第二全连接层和第一归一化层,其中,所述车速处理模型的输入为车速序列的单通道语谱图,车速卷积神经网络用于将单通道的语谱图转换为512通道的特征图;所述车速处理模型的输出为128维的车速特征向量;
所述图像处理模型包括:图像卷积神经网络、第二池化层、第三全连接层、第四全连接层和第二归一化层,所述图像处理模型的输入为当前时刻的三通道RGB图像,图像卷积网络用于将三通道RGB图像转换为512通道的特征图;所述图像处理模型的输出为128维的图像特征向量;
所述车速卷积神经网络和图像卷积神经网络的结构相同;所述车速卷积神经网络包括依次连接的第一卷积核、第一批标准层、第一激活函数ReLu、第一卷积基本单元、第三池化层、第二卷积基本单元、第三卷积基本单元、第四池化层、第四卷积基本单元和第五卷积基本单元;其中,第一卷积核的大小为3×3,步长Stride=2,padding=1;五个卷积基本单元的结构相同,包括:依次连接的第二卷积核、第二批标准层和第二激活函数ReLu,第二卷积核的大小为3×3,步长Stride=1,padding=1,padding为特征图边缘填充0的数量;
利用预先训练完成的融合模型对车速特征和图像特征进行处理,得到融合特征;包括:
将128维的车速特征向量增加一个维度,生成129维的车速特征向量Zs;将128维的图像特征向量增加一个维度,生成129维的图像特征向量Zv;
对三阶张量W进行低秩分解,得到dh个两阶张量W1、W2…、Wdh-1和Wdh;三阶张量W为融合模型待训练的参数;
将每个两阶张量分解为:
低阶图像张量hv为:
hv=W1 (1)Zv+W1 (2)Zv+…W1 (R)Zv
低阶速度张量hs为:
hs=W2 (1)Zs+W2 (2)Zs+…W2 (R)Zs
其中,hv和hs为dh维向量;
依次将低阶图像张量hv的每个分量和低阶速度张量hs的对应分量相乘,将乘积结果与偏置项b的对应的分量相加,得到低阶融合张量h的每个分量;由此得到预测的低阶融合张量h,其中,偏置项b为融合模型待训练的参数;
则融合特征为低阶融合张量h。
2.根据权利要求1所述的图像和车速信息融合的驾驶行为分类方法,其特征在于,所述方法还包括:对图像处理模型、车速处理模型、融合模型和全连接层进行联合训练的步骤。
3.一种图像和车速信息融合的驾驶行为分类装置,其特征在于,所述装置包括:
获取单元,用于获取当前时刻的车载RGB图像和车速数据;
车速处理单元,用于对当前时刻及当前时刻之前的预设帧数的车速数据组成的车速序列进行处理,得到车速序列的语谱图;利用预先训练完成的车速处理模型对车速序列的语谱图进行处理,得到车速特征向量;
图像处理单元,用于利用预先训练完成的图像处理模型对当前时刻的车载RGB图像进行处理,得到图像特征向量;
融合单元,用于利用预先训练完成的融合模型对车速特征向量和图像特征向量进行低秩双模态融合处理,得到融合特征;
分类单元,用于利用预先训练完成的全连接层对融合特征进行映射,得到驾驶行为分类结果,所述驾驶行为分类结果包括:正常驾驶、攻击性驾驶和困倦驾驶;
所述车速处理模型包括:车速卷积神经网络、第一池化层、第一全连接层、第二全连接层和第一归一化层,其中,所述车速处理模型的输入为车速序列的单通道语谱图,车速卷积神经网络用于将单通道的语谱图转换为512通道的特征图;所述车速处理模型的输出为128维的车速特征向量;
所述图像处理模型包括:图像卷积神经网络、第二池化层、第三全连接层、第四全连接层和第二归一化层,所述图像处理模型的输入为当前时刻的三通道RGB图像,图像卷积网络用于将三通道RGB图像转换为512通道的特征图;所述图像处理模型的输出为128维的图像特征向量;
所述车速卷积神经网络和图像卷积神经网络的结构相同;所述车速卷积神经网络包括依次连接的第一卷积核、第一批标准层、第一激活函数ReLu、第一卷积基本单元、第三池化层、第二卷积基本单元、第三卷积基本单元、第四池化层、第四卷积基本单元和第五卷积基本单元;其中,第一卷积核的大小为3×3,步长Stride=2,padding=1;五个卷积基本单元的结构相同,包括:依次连接的第二卷积核、第二批标准层和第二激活函数ReLu,第二卷积核的大小为3×3,步长Stride=1,padding=1,padding为特征图边缘填充0的数量;
利用预先训练完成的融合模型对车速特征和图像特征进行处理,得到融合特征;包括:
将128维的车速特征向量增加一个维度,生成129维的车速特征向量Zs;将128维的图像特征向量增加一个维度,生成129维的图像特征向量Zv;
对三阶张量W进行低秩分解,得到dh个两阶张量W1、W2…、Wdh-1和Wdh;三阶张量W为融合模型待训练的参数;
将每个两阶张量分解为:
低阶图像张量hv为:
hv=W1 (1)Zv+W1 (2)Zv+…W1 (R)Zv
低阶速度张量hs为:
hs=W2 (1)Zs+W2 (2)Zs+…W2 (R)Zs
其中,hv和hs为dh维向量;
依次将低阶图像张量hv的每个分量和低阶速度张量hs的对应分量相乘,将乘积结果与偏置项b的对应的分量相加,得到低阶融合张量h的每个分量;由此得到预测的低阶融合张量h,其中,偏置项b为融合模型待训练的参数;
则融合特征为低阶融合张量h。
4.一种电子设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-2任一项所述的图像和车速信息融合的驾驶行为分类方法。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-2任一项所述的图像和车速信息融合的驾驶行为分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211117591.1A CN115496978B (zh) | 2022-09-14 | 2022-09-14 | 一种图像和车速信息融合的驾驶行为分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211117591.1A CN115496978B (zh) | 2022-09-14 | 2022-09-14 | 一种图像和车速信息融合的驾驶行为分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115496978A CN115496978A (zh) | 2022-12-20 |
CN115496978B true CN115496978B (zh) | 2023-04-07 |
Family
ID=84468536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211117591.1A Active CN115496978B (zh) | 2022-09-14 | 2022-09-14 | 一种图像和车速信息融合的驾驶行为分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115496978B (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102509418B (zh) * | 2011-10-11 | 2013-11-13 | 东华大学 | 一种多传感信息融合的疲劳驾驶评估预警方法及装置 |
US10678259B1 (en) * | 2012-09-13 | 2020-06-09 | Waymo Llc | Use of a reference image to detect a road obstacle |
CN108108766B (zh) * | 2017-12-28 | 2021-10-29 | 东南大学 | 基于多传感器数据融合的驾驶行为识别方法及系统 |
CN108875674B (zh) * | 2018-06-29 | 2021-11-16 | 东南大学 | 一种基于多列融合卷积神经网络的驾驶员行为识别方法 |
US10482334B1 (en) * | 2018-09-17 | 2019-11-19 | Honda Motor Co., Ltd. | Driver behavior recognition |
CN110135327B (zh) * | 2019-05-11 | 2023-04-07 | 东南大学 | 一种基于多区域特征学习模型的驾驶员行为识别方法 |
CN111860269B (zh) * | 2020-07-13 | 2024-04-16 | 南京航空航天大学 | 一种多特征融合的串联rnn结构及行人预测方法 |
-
2022
- 2022-09-14 CN CN202211117591.1A patent/CN115496978B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115496978A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200019794A1 (en) | A neural network and method of using a neural network to detect objects in an environment | |
Pillai et al. | Real-time image enhancement for an automatic automobile accident detection through CCTV using deep learning | |
Sajid et al. | An efficient deep learning framework for distracted driver detection | |
Ayachi et al. | Pedestrian detection based on light-weighted separable convolution for advanced driver assistance systems | |
Xie et al. | CNN-based driving maneuver classification using multi-sliding window fusion | |
Tanprasert et al. | Recognizing traffic black spots from street view images using environment-aware image processing and neural network | |
Nieto et al. | On creating vision‐based advanced driver assistance systems | |
CN115375781A (zh) | 一种数据处理方法及其装置 | |
Wang et al. | FPT: Fine-grained detection of driver distraction based on the feature pyramid vision transformer | |
Al Shalfan et al. | Detecting Driver Distraction Using Deep-Learning Approach. | |
Taherifard et al. | Attention-based event characterization for scarce vehicular sensing data | |
Cervera-Uribe et al. | U19-Net: a deep learning approach for obstacle detection in self-driving cars | |
Rahman et al. | Predicting driver behaviour at intersections based on driver gaze and traffic light recognition | |
CN115496978B (zh) | 一种图像和车速信息融合的驾驶行为分类方法及装置 | |
Beryl Princess et al. | Classification of road accidents using SVM and KNN | |
Smitha et al. | Optimal feed forward neural network based automatic moving vehicle detection system in traffic surveillance system | |
CN110555425A (zh) | 一种视频流实时行人检测方法 | |
Sladojević et al. | Integer arithmetic approximation of the HoG algorithm used for pedestrian detection | |
Besbes et al. | Evidential combination of SVM road obstacle classifiers in visible and far infrared images | |
Zhang et al. | Driving data generation using affinity propagation, data augmentation, and convolutional neural network in communication system | |
Cultrera et al. | Explaining autonomous driving with visual attention and end-to-end trainable region proposals | |
Bello et al. | Motorcycling-Net: A Segmentation Approach for Detecting Motorcycling Near Misses | |
CN117349677B (zh) | 路面识别模型的训练方法、装置、设备、介质及程序产品 | |
Huang et al. | Driver lane change intention prediction based on topological graph constructed by driver behaviors and traffic context for human-machine co-driving system | |
Nassuna et al. | Feature selection for abnormal driving behavior recognition based on variance distribution of power spectral density |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |