CN113591525A

CN113591525A - 一种深度融合面部表情和语音的驾驶员路怒症识别方法

Info

Publication number: CN113591525A
Application number: CN202011164619.8A
Authority: CN
Inventors: 柳欣; 傅顺开; 彭淑娟; 曾省明; 陈悦
Original assignee: Lanhai Fujian Information Technology Co ltd
Current assignee: Lanhai Fujian Information Technology Co ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-11-02
Anticipated expiration: 2040-10-27
Also published as: CN113591525B

Abstract

本发明一种深度融合面部表情和语音的驾驶员路怒症识别方法，包括：从驾驶员面部视频影像信息中提取出驾驶员的面部影像信息和语音信息；对面部影像帧信息进行预处理并输入到多层卷积神经网络中获得面部表情特征；对语音信息首先提取其梅尔倒谱系数及其一阶和二阶系数值进行初始特征提取，并拼接2段语音片段初始特征输入到全连接层网络中获得与面部表情帧对应的判别性语音帧特征；将得到的面部帧表情特征和语音帧特征进行低秩双线性池化融合获得融合特征；对面部表情特征、语音特征和融合特征进行决策融合后获取到最终的路怒症识别结果。本发明在复杂驾驶环境下，依然能实现高精度地输出驾驶员愤怒症识别结果，进而有效地进行安全驾驶预警。

Description

一种深度融合面部表情和语音的驾驶员路怒症识别方法

技术领域

本发明涉及计算机辅助驾驶领域，特别涉及一种深度融合面部表情和语音的驾驶员路怒症识别方法。

背景技术

随着社会的进步和人们生活水平的提高，汽车代步已经成为了一种常态，并且汽车在当下以及往后的很长一段时间都将成为人们选择的主要出行方式。

近年来，随着人们出行节奏的加快，时间成了大家考虑的重要因素，从而以车代步的快速出行方式给当前交通出行带来了大量的车流。一方面，现有基础设施的建设速度已不能满足大量驾车出行的需求，从而常常致使道路交通出现拥挤现象；另一方面，驾驶者为压缩出行的时间，常常出现一些违法交通规则的行为，比如违规变道、抢行等异常行为，从而导致违章的车辆也越来越多。在这些复杂交通环境下，驾驶人在驾驶过程中易受实时变化的交通环境的影响，极易产生复杂的情绪认知心理过程。

驾驶情绪是影响驾驶行为的一个重要因素，其相关研究已成为交通领域中安全驾驶研究的热点问题。在现代社会，快节奏的生活所带来的压力以及人、车、路和复杂环境因素的影响极易导致驾驶员路怒情绪的产生，进而引发“路怒症”，例如遇到堵车、周边车辆抢道等违章驾驶行为。路怒症是一种阵发型的暴怒障碍，愤怒情绪会导致驾驶人不能集中思想、妨碍驾驶人技术的正常发挥、驱使驾驶人不遵守驾驶道德，从而导致极易受到情绪不稳定影响的驾驶员很容易产生危险驾驶行为从而导致引发交通等事故。近年来，这些驾驶人因为在开车过程中产生愤怒情绪而引发的交通事故和冲突事件开始引起了人们的关注。

驾驶员的路怒症在一定程度上存在潜在影响驾驶员及他人的生命财产安全，并对交通安全产生重大的影响。研究并探索驾驶员路怒症的发生，建立路怒症行为认知模型，预测愤怒情绪影响下的驾驶行为进行预警和干预，从源头上克服影响交通安全的危险驾驶行为的产生，对于降低道路交通事故发生的风险，提高交通安全水平具有非常重要的理论和现实意义。

研究发现，现阶段有关驾驶人情绪进行识别的研究主要集中在面部表情、语音、行为及生理信号等方面。据文献查证，目前大多数驾驶情绪的认知都是通过室内语音、视频与模拟场景刺激产生，与实际交通环境中产生的情绪存在一定的偏差。

基于面部表情的计算机视觉方法可以有效的对驾驶员的路怒症情绪进行分析，然而面部表情识别易受到车内光线以及外部天气等环境因素影响较大，常常存在路怒症错判情况；通常，驾驶人在愤怒情绪下常常伴有情绪发声，从而其语音信号常常呈现特殊的音调变化，同样可用来刻画驾驶员的情绪状态。然而，基于语音信号的路怒症分析常常受实际交通环境中的车内外噪音影响较大；尽管基于生理信号分析的路怒症分析方法可以取得较好的判别准确度，然而生理信号的采集一般需要将接触式传感器贴在驾驶员身体表面进行，侵入性较强，可能会引起驾驶人不适并严重影响其自然驾驶过程。

驾驶员路怒情感识别属于情感计算的范畴。作为一种便捷的路怒症识别方式，面部表情和语音语调含有丰富的情感信息，因此通过面部表情和语音信息可以多渠道获取到有价值的情感信息，这种信息可以有效刻画驾驶员的意识和心里活动。研究发现，如果能够有效识别驾驶员的路怒表情和路怒语音情感信息，将对驾驶员路怒症的判定有很大帮助和辅助作用。

研究发现，基于单模态的情感识别采用单一情感特征信息存在一定的不稳定性和局限性。同时，在实际应用中，由于客观条件变化的不可预测性，巨大的类内多样性以及偶发的类间相似性，依赖单一模态的驾驶员路怒症情绪识别准确性有所欠缺。此外，在实际应用中，由于驾驶环境的不可预知性，此时依据单一模态的路怒症识别方法往往难以满足实际需求。

针对单一模态数据的路怒症识别方法稳定性不足的问题，近年来出现一些基于面部表情和语音融合的驾驶员情感识别辅助系统研究，旨在通过对驾驶员情感识别并给出提示信息，使得驾驶员在形式过程中保持良好的驾驶情绪，从而提高驾车的安全性，降低交通风险。

驾驶员在表现愤怒情绪时，其语音信号反映出的情绪变化也比较明显。因此，面部表情和驾驶员语音信息可以同时反映驾驶员情绪状态。基于面部表情和语音信息相结合的驾驶员路怒情感识别策略具有数据易采集、以及较高的准确性和鲁棒性。在实际应用中,该类识别系统具有主动性、易操作性和用户友好等许多优点，应用起来较为便捷且适用范围广泛。

现有的面部表情和语音信息融合方法研究都视各模态数据相互独立，并较多的采取匹配层和决策层进行融合分析，其特征层融合方面的研究相对匮乏。实际上，特征融合可以利用的信息量较为丰富，并且可以有效屏蔽各种异构特征之间的差异，保留有用信息，剔除错误信息，以实现最终的信息优化。

研究发现，面部表情和语音特征具有明显的异构特性，其特征类型、结构、形式和内容上均存在明显的差异，加大了特征有效融合的难度。同时，文献中现有的面部表情和语音特征融合方法常常采用将特征向量进行简单拼接、向量内积或者向量相加等方法实现融合，并利用融合后的特征训练分类器，从而得到情感识别结果。例如，毛启容等[3]提出一种融合面部表情和语音的驾驶员情感实时识别方法[发明专利：CN105760852B]，该方法采取基于脸部图像和声音信号的情感特征和基于文本的情感特征串连在一起得到融合特征向量，并输入到支持向量分类器积进行驾驶员情感识别。然而，该发明需要借助第三方平台识别语音内容进行辅助情感分析，实现起来较为复杂。此外，该方法在视觉特征和语音数据质量较高时会有较好的识别效果，但是当面部影像和语音信号处于较低质量，如视频模糊，声音中存在较多噪声等会对情绪识别的精度造成一定的影响。因此，对于驾驶员的路怒症智能识别方法仍然有待改善。

发明内容

本发明的目的在于提供一种深度融合面部表情和语音的驾驶员路怒症识别方法，在复杂驾驶环境下依然能实现高精度识别。

为了实现上述目的，本发明的技术方案是：

本发明一种深度融合面部表情和语音的驾驶员路怒症识别方法，包括：

S101，使用车载摄像设备获取驾驶员的面部视频影像信息，并从所述面部视频影像信息中提取出驾驶员的面部影像信息和语音信息；

S102，针对面部影像的单帧信息，将对应的面部图像进行取均值化和归一化预处理，并将预处理后面部图像输入到四层卷积神经网络和第一全连接层网络中进行特征提取，获得面部表情特征；

S103，针对语音信息，进行分帧加窗以和面部影像帧对齐，提取其梅尔倒谱系数及其一阶和二阶系数值，按照窗口和移动步长的值及重叠部分拼接2段初始语音特征，并将所述初始语音特征输入到第二全连接层网络中进行非线性变换，获得判别性语音特征；

S104，利用低秩双线性池化融合方法将得到的面部表情特征和语音特征进行融合获得融合特征；

S105，利用softmax的软注意力方法获得面部表情特征的自注意力特征权重、语音特征的自注意力特征权重以及融合特征的自注意力特征权重；

S106，分别将面部表情特征、语音特征和融合特征与各自的自注意力特征权重相乘，得到注意力变换后的面部特征、注意力变换后的语音特征和注意力变换后的融合特征；并进一步利用长短时记忆网络(Long Short Term Memory，LSTM)对相应的特征序列进行序列特征学习；

S107，利用全连接层映射LSTM特征，并输入Softmax分类器分别得到面部表情特征的情绪匹配分数、语音特征的情绪匹配分数和融合特征的情绪匹配分数；

S108，对面部表情特征的情绪匹配分数、语音特征的情绪匹配分数和融合特征的情绪匹配分数进行加权融合，获取到最终的路怒症识别结果。

优选的，所述S102，具体包括：

获取面部影像V信息中的每一帧人脸面部图像x^t；其中，t表示面部影像信息中第t帧，帧采样率选取为24帧每秒；

将人脸面部图像x^t进行去均值和归一化，并缩减尺寸，得到大小为50×50的人脸图像；

将去均值和归一化后的x^t输入到4层卷积神经网络，经过一系列的卷积操作和池化操作，得到第t帧面部表情的深层语义特征

维度为512维；其中，4层卷积神经网络中，每一层卷积层后面均接池化层。

优选的，所述卷积操作具体包括：

在给定卷积核以及对应待卷积对象的基础上，设置一定滑动步长实现卷积，并利用激活函数进行非线性映射处理，卷积和激活函数的操作用如下面式子表示：

其中，

k_h和k_w分别为卷积核宽和长，

为卷积核权重，x^t为输入第t帧面部图像，b为卷积操作的偏置向量，σ为非线性映射函数；

卷积层和池化层统一表示为：

当i＝1时，h_i-1为网络层的初始输入特征，当i>1时，h_i-1是上层网络的输出即当前层的网络输入；

为当前卷积层的权重参数；

表示偏置项；conv函数表示式(1)中的卷积操作；σ表示非线性的激活函数；P表示最大池化方法；BN为批量正则化算子。

优选的，S103中，对给定的语音片段，提取语音的MFCC特征时，窗口帧长大小设置为25ms，移动步长设置为20ms，输出维度设置为25-d，然后再计算一阶梅尔倒谱系数(ΔMFCC)和二阶梅尔倒谱系数(2ΔMFCC)后拼接到一起，最终得到75-d的语音特征；按照窗口和移动步长的值及重叠部分拼接2段语音特征获得与x^t对应的150-d语音初始特征s^t。

优选的，S103中，将所述初始语音特征s^t输入到第二全连接层网络中进行非线性变换，获得语音特征，表示如下：

其中，

表示经过全连接层映射后的语音特征；

为全连接层的权重参数；b^F表示全连接层的偏置项；表示非线性的激活函数；BN为批量正则化算子，全连接层的输出维度为256维；s^t表示初始语音特征。

优选的，S104中，融合特征表示如下：

其中，

表示融合特征，AvePool表示用一个一维大小是w的没有重叠的窗口在输入的向量

上面进行求平均值计算；ReLU表示非线性激活函数；

和

均为二阶矩阵，T表示转置，d表示秩，o表示融合特征元素的维度；

表示哈达玛积或对应元素相乘的运算符；

为偏置向量集。

优选的，S105中，面部表情特征的自注意力特征权重、语音特征的自注意力特征权重以及融合特征的自注意力特征权重，表示如下：

其中，

表示面部表情特征的自注意力特征权重；

表示语音特征的自注意力特征权重；

表示融合特征的自注意力特征权重。

根据获取的面部表情特征的自注意力特征权重

语音特征的自注意力特征权重

和融合特征的自注意力特征权重

然后利用各自特征于自注意力权重相乘，得到注意力变换后面部特征

语音特征

和两者融合特征

优选的，采取1秒钟时间间隔来进行驾驶员情绪分析时，视频帧的采样率为24帧每秒，面部表情特征的情绪匹配分数y_x、语音特征的情绪匹配分数y_s和融合特征的情绪匹配分数y_z分别如下：

其中，

表示注意力变换后面部特征；

表示注意力变换后的语音特征；

表示注意力变换后的融合特征，t∈[1,24]。

优选的，最终的路怒症识别结果表示如下：

y_predition＝y_z+αy_x+βy_s

其中，α和β表示决策权重。

采用上述方案后，本发明的有益效果是：

(1)本发明在时序上实现了驾驶员面部表情和语音信息的对齐和特征融合，使得融合之后的特征更具有情绪语义的一致性和判别性；

(2)本发明采用低秩双线性池化融合方法融合面部表情和语音信息的深层特征，能够有效的挖掘两种模态反映情绪的特征的语义一致性，同时通过融合后的特征进行协同自注意力融合权重学习，可以进一步扩大面部特征和语音特征间共同体现情绪语义特征元素的影响，从而获得更具有判别性的融合特征；

(3)本发明所采用深度融合模型具有较强的泛化能力，使得在训练结束之后可以很好的适应实际应用场景；同时，本发明同时利用特征融合和匹配层融合方法进行路怒症识别，使得算法在多模融合的稳定性上得到了较大的提升，有效的解决了传统方法在路怒症识别方面存在预测结果不稳定性问题；

(4)本发明是通过计算机视觉和人工智能的方法进行驾驶员的路怒情感识别，可以在驾驶员出现怒情绪的时候，及时进行识别和预警，防止驾驶员的过激行为造成交通事故；本发明的路怒症识别准确度较高，可为开发安全辅助驾驶预警设备提供参考，同时也可以为交通管理部门对不良驾驶行为的监控提供技术支持。

以下结合附图及实施例对本发明作进一步详细说明，但本发明的一种深度融合面部表情和语音的驾驶员路怒症识别方法不局限于实施例。

附图说明

图1是本发明的驾驶员路怒症识别方法流程图；

图2是本发明实施例中的深度融合面部表情和语音序列特征识别网络结构流程图；

图3是本发明面部表情特征与语音特征深度融合及共同注意力权重网络结构图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

参见图1所示，本发明一种深度融合面部表情和语音的驾驶员路怒症识别方法，包括：

S101，使用车载摄像设备获取驾驶员的面部视频影像信息，并从所述面部视频影像信息中提取出驾驶员的面部影像信息和语音信息。

具体的，通过车载摄像设备获取驾驶员面部视频影像信息V和语音信息S。

S102，针对面部影像的单帧信息，将对应的面部图像进行取均值化和归一化预处理，并将预处理后面部图像输入到四层卷积神经网络和第一全连接层网络中进行特征提取，获得面部表情特征。

基于驾驶员面部视频影像信息V，通过标准的人脸检测方法，如Viola-Jones人脸检测算法(Viola P,Jones M J.Robust Real-Time Face Detection[J].InternationalJournal of Computer Vision,2004,57(2):137-154)，获取到视频片段中的每一帧人脸面部区域图像x^t，其中t表示视频V中第t帧，特别的，视频的帧采样率选取的是24帧每秒。

将原始面部图像x^t进行去均值、归一化，并缩减尺寸，得到大小为50×50的人脸图像。这样对于每一张人脸图片就得到2500个像素值，然后利用卷积神经网络对其进行特征提取。

针对人脸特征的提取，本发明设计了一个4层卷积神经网络来提取面部特征，每一层卷积层后面接池化层去压缩输入的尺度，同时增加网络的感受野，在增加网络参数通道数的同时，减少特征图的尺度以保证参数的平衡，不会导致模型太大。卷积核的大小统一为3×3，其卷积核数量分别是64，128，256，512。选取3×3大小的卷积核边缘覆盖的卷积可以学习到相邻像素之间的关系，同时对于边缘信息可以充分的利用起来。此外卷积层采用尺寸相同模式对边界补充使得卷积后特征图大小不变保留了更多信息。在每个卷积层后都加入了2×2大小的池化层在保留主要特征的同时来减少参数，防止过拟合，池化层采取最大池化方法完成。

具体的，面部表情卷积网络采用标准的卷积方式，只需要将x^t输入网络中，经过一系列的卷积操作和池化操作，可得到卷积层特征；关于卷积操作，即在给定卷积核以及对应待卷积对象，设置一定滑动步长实现卷积，并利用激活函数进行非线性映射处理，卷积和激活函数的操作可以用如下面式子表示：

其中，

k_h,k_w分别为卷积核宽和长，

为卷积核权重，x^t为输入第t帧面部图像，b为卷积操作的偏置向量，σ为非线性映射函数，用来将输入映射至非线性空间做进一步处理，σ代表非线性的激活函数，这里选用的是sigmoid作为激活函数，

sigmoid激活函数可以将输入映射至[0,1]区间。

面部特征提取的卷积层和池化层可以统一表示为：

当i＝1时h_i-1为网络层的初始输入特征，当i>1时h_i-1是上层网络的输出即当前层的网络输入，

是当前卷积层的权重参数，而

表示偏置项。conv函数表示式(1)中的卷积操作，σ代表非线性的激活函数，这里选用的是sigmoid作为激活函数，而P表示池化操作常用的有最大池化和平均池化方法，选用最大池化方法，BN为批量正则化算子，是多层深度网络学习优化中一个重要的常规手段，用于加速训练过程，并且可以将每层的输出进行正则化(均值为0，方差为1)来保证每层的输出再输入下一层是保证分布是相近的，h_i表示整个卷积层的输出，分别经过了卷积conv、批量正则化BN和最大池化P等操作得到对应的输出，其参数数值的配置如表1所示。

表1面部表情区域特征提取网络参数配置

模型的第一层卷积层拥有较大的卷积核尺寸，因此可以较大范围的获取面部图像中的主要信息，而对于比较次要的信息或者噪声可以通过该层进行过滤，保留重要的面部表情信息供后续特征的提取。模型第二层卷积由两层拥有较小尺度卷积核的卷积层构成，小尺度卷积核可以利用其较强的局部特征获取能力，可以从第一层的输出中获取面部纹理细节特征。同样的，可以通过第三层和第四层卷积层获取更强的面部表情语义信息，这些来自于对前一层输出的信息的编码。至此，通过一系列的空间卷积变换，得到第t帧面部表情的面部表情特征

维度为512维。

S103，针对语音信息，进行分帧加窗以和面部影像帧对齐，提取其梅尔倒谱系数及其一阶和二阶系数值，并组合2段语音片段特征拼接到一起得到与面部表情帧对应的语音初始特征，进一步将所述初始语音特征输入到第二全连接层网络中进行非线性变换，获得语音特征。

语音信号与面部表情序列选取来自同一段视频片段。输入原始驾驶员语音信息S，利用标准的梅尔倒谱系数特征(MFCCs)提提方法提取出初始语音特征。MFCC是最常规的语音人工特征，其原理在于声音的频谱图能反应声音频率与能量的关系，而频谱图中的峰值就包含了声音语调的判别信息，而倒谱分析能够帮助找到这些峰值以及其变化过程。

如图2所示，对给定的语音片段，提取语音的MFCC特征时，窗口帧长大小设置为25ms，移动步长设置为20ms，输出维度设置为25-d(d代表维度)，然后再计算一阶梅尔倒谱系数(ΔMFCC)、二阶梅尔倒谱系数(2ΔMFCC)后拼接到一起，最终得到75-d的语音特征。根据窗口和移动步长中间的重叠部分，然后将这样2段语音拼接起来，得到一段45ms的语音对应的150-d语音初始特征。依此计算这样语音片段序列，这样的24段语音加起来接近1s，正好可以与24张面部图像相对应，与t帧面部区域对应的初始语音帧特征记为s^t。

在获取到语音MFCC特征后，语音维度和面部图像的卷积特征维度存在较大差异。为解决这个问题，本发明进一步利用全连接层将语音特征映射到高维空间，增加特征的判别性。全连接层是神经网络中最普遍的连接方式，由多个神经元的互相连接来对特征进行非线性变换，全连接层(FC)可以表示为如下式:

其中，标记

为最终输出语音特征，

是全连接层的权重参数，而b^F同样表示全连接层的偏置项，σ同样代表非线性的激活函数，这里选用的是ReLU激活函数，可以表示为：σ_ReLU＝max(0,x)，BN为批量正则化算子，全连接层的输出维度为256维。

S104，利用低秩双线性池化融合方法将得到的面部表情特征和语音特征进行融合获得融合特征。

参见图3所示，针对获取到面部表情特征和语音特征，本发明提出深度融合面部表情和语音信号的识别方案来进行鲁棒性的驾驶员路怒症识别和分析。近年来，基于双线性特征融合方法取得了出色的融合分析效果。受此类任务的启发，本发明提出了基于低秩双线性池化的多模特征融合方法，目的在于降低双线性融合带来的模型参数较多、维度高、计算量大，同时利用低维嵌入的思想，学习面部表情特征与语音特征在低维空间中的共性。通常双线性模型考虑来自不同模态的特征对之间的关系，并通过特征之间的线性映射实现，可以有效融合维度不一致的两种模态特征。本发明通过特征提取阶段，已将面部表情和语音特征映射到了相同维度。针对获取到面部表情特征

和语音特征

双线性融合考虑如下线性融合方式：

其中，

和

别为对应的面部特征和语音特征的特征向量，

为线性变换的权重矩阵，

表示双线性模型中的偏置向量。值得注意的是，双线性融合模型在融合特征维度较大的时，容易引入较多的参数。为了解决这个问题，采用低秩矩阵分解的方法，在不丢失信息的情况下保证双线性模型融合的效率，具体将矩阵W_i ^t进行低秩分解，W_i ^t＝U_iV_i ^T，得到两个低秩矩阵

d表示秩，d<256，本发明取值d为64。因此对于双线性模型，可以进一步分解成如下形式：

上面式子中，右边部分第一项可以进一步变换为Hadamard积或者对应元素之间的相乘形式，这样可以获取两个异构特征之间的关系：

其中，

表示元素均为1的列向量，

表示哈达玛积或对应元素相乘的运算符。为获得面部表情和语音的融合特征

o为融合特征元素的维度，本发明设置其值为512。根据双线性特征融合的过程，仍然需要学习两个三阶矩阵：

为了减少这两个矩阵的阶数并降低矩阵运算复杂度，本发明进一步将三阶矩阵U和V分别转化为二阶矩阵

和

则原始融合特征z^t可以进一步利用池化方法更新为

其双线性池化融合形式表示如下：

其中，

为偏置向量集，AvePool(x,w)表示用一个一维大小是w的没有重叠的窗口在输入的向量x上面进行Average pooling操作(即w个元素求平均值，本发明设置w的值设置为32)，具有降维作用，则新的融合特征

的最终维度为1024。在本发明中，上述变换为线性变换，对于异构特征来说，特征之间存在极强的非线性关系，因此，本发明进一步在每次的线性变换之后加入非线性映射函数，帮助当前模型获得更强的表达能力。对于加入非线性函数的表达形式如下式所示：

其中，σ代表任意的非线性激活函数，如ReLU，sigmoid或者tanh等激活函数。为考虑激活函数的多样性，使用不同的激活函数对两种不同的特征进行处理，使得特征经过对应的激活函数之后可以落到对应的合适的区间内，其融合的最终表达式如下式：

进一步，基于注意力机制的学习模型可以有效从大批特征中挑选出对结果有利的特征，筛选不利的特征，使得特征可以更好的对模型性能提升有帮助。

将注意力机制用在特征融合中的研究，核心思想主要为利用融合特征得出注意力系数后再对某一模态特征进行变换，筛选出其中的关键部分，使相关部分获得更高的权重，从而获得更具有判别性的关联特征，放大不同模态数据间具有相同情绪共同特征的影响，使来自不同模态的情绪语义特征具有一致性。

S105，利用softmax的软注意力方法获得面部表情特征的自注意力特征权重、语音特征的自注意力特征权重以及融合特征的自注意力特征权重。

针对驾驶环境下的面部表情常常受到一些受光照不均匀因素影响，以及语音片段易受到外界噪声的干扰问题，本发明利用softmax的软注意力方式获取面部表情特征的自注意力特征权重、语音特征的自注意力特征权重以及融合特征的自注意力特征权重，如下：

S106，分别将面部表情特征、语音特征和融合特征与各自的自注意力特征权重相乘，得到注意力变换后的面部特征、注意力变换后的语音特征和注意力变换后的融合特征。

根据获取的面部表情特征的自注意力特征权重

语音特征的自注意力特征权重

和融合特征的自注意力特征权重

语音特征

和两者融合特征

S107，利用全连接层映射LSTM特征，并输入Softmax分类器分别得到面部表情特征的情绪匹配分数、语音特征的情绪匹配分数和融合特征的情绪匹配分数。

因为面部表情和语音信号具有典型的时序关联特性。因此本发明进一步将面部特征、语音特征以及两者融合特征序列输入到经典的长短时记忆网络(Long Short-TermMemory，LSTM)(Sainath T N,Vinyals O,Senior AW,et al.Convolutional,Long Short-Term Memory,fully connected Deep Neural Networks[C].International Conferenceon Acoustics,Speech,and Signal Processing,2015:4580-4584)中来分别获取面部表情、语音特征以及两者融合的情绪特征进行时序建模，从而综合时空信息来降低因个别帧中的噪声对识别结果带来的影响，以达到更稳定的路怒症识别结果。针对获得的LSTM序列学习特征，然后通过一层全连接多层感知机，并通过Softmax分类器将神经元的输出压缩至[0,1]区间，并且将大的响应放大，小的响应缩小，从而实现驾驶员情绪精准分类。本发明采取1秒钟时间间隔来进行驾驶员情绪分析，视频帧的采样率为24帧每秒，因此面部特征序列特征、语音序列特征和两者融合的特征序列的语义预测分支可以用以下式子表达：

根据面部表情特征的情绪匹配分数、语音特征的情绪匹配分数和融合特征的情绪匹配分数，本发明进一步进行加权融合得到最终的情绪识别结果，使得不同决策对网络的贡献不同：

y_predition＝y_z+αy_x+βy_s

其中，α和β分别是决策权重，这里选择α＝0.5，β＝0.5。因此当将三个分支的softmax的输出做加权和之后，会减小模型的方差，使得模型更新过程更为稳定。

本发明的效果可以从以下对比实验以及消融实验中得到进一步验证。

本实验在日常行驶过程中采集了30人的实验测试数据，包括18名男性和12名女性，平均年龄37岁。驾驶车辆大约5公里，驾驶人根据自己日常驾驶行为尽可能多次的产生真实的情绪，主要包括驾驶中存在的正常、愤怒(路怒症)、高兴、惊讶、悲伤等五种表情，每种表情辅助相应的说话语音信息。每个视频采取帧率为每秒24帧，根据语音信息获取相应时间段的面部表情视频片段。经过预处理和刷选，具体有效的含有面部表情和语音信息的视频片段为1285个，其视频片段统计信息如下表2：

表2实验测试数据统计结果表格

实验中，选取现有代表性的方法进行对比实验，具体为基于人脸单模态分析的方法【文献1】，基于语音信息的情绪分类方法【文献2】，以及基于面部表情和语音信号的识别方法【文献3】进行比对，参数选择为文献默认参数。为公平比较实验结果，文献3中的识别方法同样采取面部表情和语音信号的融合方式，其借助于第三方平台的语音内容识别部分因方法不需要此项内容而省略。此外，为验证方法的有效性，本发明也进一步对提出的方法进行了消融分析，即单独面部表情识别模块与单独语音表情识别模块。实验中随机选取60％的样本作为训练集，40％的样本作为测试集，网络参数模型根据训练数据进行学习。

评价标准采取平均识别准确率(情绪预测正确视为准确，反之错误)，路怒症识别率(路怒症识别正确的个数除以总的愤怒样本片段数)和路怒症错误接受率(错误把非愤怒的情绪错误的认为愤怒情绪除以总的测试样本)来进行评判。

【1】Moriyama T,Abdelaziz K,Shimomura N,et al.Face analysis ofaggressive moods in automobile driving using mutual subspace method[C].international conference on pattern recognition,2012:2898-2901.

【2】Tawari A,Trivedi M M.Speech based emotion classification frameworkfor driver assistance system[C].iEEE intelligent vehicles symposium,2010:174-178.

【3】毛启容、刘鹏、刘峰、陈龙、詹永照等提出一种融合脸部表情和语音的驾驶员情感实时识别方法，2019年，[发明申请号：CN201610140027.X；授权号：CN105760852B]

表3实验测试集消融分析结果表格

实验测试进行3次，每次均为随机选择训练集，相关实验结果如表3所示。中可以看出，当仅基于面部表情特征识别时，本方案提出的方法的最佳识别率，平均识别率，路怒症(愤怒)识别率，路怒症平均错误接受率方面都要优于文献【1】的方法。当仅采用语音信息时，本方案提出方法的结果同时优于文献【2】的方法；当采用面部和语音信息融合进行情绪识别时，本发明提出方法的结果优于文献【3】提出的结果。值得注意的是，本方案仅采取面部模块或者语音模块的路怒症识别效果都优于文献【3】的融合方法，主要在于提取出的面部或者语音情绪特征能够更好的刻画驾驶员情绪，判别性较强。特别的，相比于单一模态特征的情绪识别，基于多模融合的识别方法在识别率上有了明显提升。此外，本发明提出的融合方法所导致的路怒症平均错误接受率也比较低，可以有效的防范错误识别所导致的预警问题，其原因在于本方案充分考虑了面部表情和语音信息的共同注意力模型，从而提取出的面部和语音特征更具有判别力。此外，本方案采取了特征融合和决策融合相结合的路怒症识别方案，可以获得鲁棒性和稳定性的识别结果。从识别结果来看，设计的路怒情绪识别方法具备一定的理论意义和应用价值，实验验证了本发明提出方法的有效性。

以上仅为本发明实例中一个较佳的实施方案。但是，本发明并不限于上述实施方案，凡按本发明所做的任何均等变化和修饰，所产生的功能作用未超出本方案的范围时，均属于本发明的保护范围。

Claims

1.一种深度融合面部表情和语音的驾驶员路怒症识别方法，其特征在于，包括：

S103，针对语音信息，进行分帧加窗以和面部影像帧对齐，提取其梅尔倒谱系数及其一阶和二阶系数值拼接组成初始语音特征，并组合2段语音片段所述初始语音特征输入到第二全连接层网络中进行非线性变换，获得与面部表情帧相对应的语音特征；

S104，利用低秩双线性池化融合方法将得到的面部帧表情特征和对应的语音特征进行融合获得融合特征；

S106，分别将面部表情特征、语音信息特征和融合特征与各自的自注意力特征权重相乘，得到注意力变换后的面部特征、注意力变换后的语音特征和注意力变换后的融合特征，并进一步利用长短时记忆网络LSTM分别对相应的特征序列进行序列特征学习；

S107，利用全连接层映射LSTM层获取的特征，并输入Softmax分类器分别得到面部表情特征序列的情绪匹配分数、语音特征序列的情绪匹配分数和融合特征序列的情绪匹配分数；

S108，对面部表情特征序列的情绪匹配分数、语音特征序列的情绪匹配分数和融合特征序列的情绪匹配分数进行加权融合，获取到最终的路怒症识别结果。

2.根据权利要求1所述的深度融合面部表情和语音的驾驶员路怒症识别方法，其特征在于，所述S102，具体包括：

获取面部影像V中的每一帧人脸面部图像x^t；其中，t表示面部影像信息中第t帧，帧采样率选取为24帧每秒；

3.根据权利要求2所述的深度融合面部表情和语音的驾驶员路怒症识别方法，其特征在于，所述卷积操作具体包括：

其中，

k_h和k_w分别为卷积核宽和长，

卷积层和池化层统一表示为：

为当前卷积层的权重参数；

4.根据权利要求2所述的深度融合面部表情和语音的驾驶员路怒症识别方法，其特征在于，S103中，对给定的语音片段，提取语音的MFCC特征时，窗口帧长大小设置为25ms，移动步长设置为20ms，输出维度设置为25-d，然后再计算一阶梅尔倒谱系数ΔMFCC和二阶梅尔倒谱系数2ΔMFCC后拼接到一起得到75-d的语音初始特征；根据窗口和移动步长中间的重叠部分，然后将这样2段语音特征拼接起来，得到一段45ms的语音初始特征s^t，维度为150-d。

5.根据权利要求1所述的深度融合面部表情和语音的驾驶员路怒症识别方法，其特征在于，S103中，将所述初始语音初始特征输入到第二全连接层网络中进行非线性变换，获得判别性较强的语音特征，表示如下：