CN114582372A

CN114582372A - 一种多模态驾驶员情感特征识别方法及系统

Info

Publication number: CN114582372A
Application number: CN202210211060.2A
Authority: CN
Inventors: 陈首彦; 孙欣琪; 朱大昌; 张铭焰
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2022-06-03

Abstract

本发明涉及多模态识别领域，具体为一种用于驾驶员情绪判断的多模态情感特征识别方法及系统，其核心的方法在于，通过识别模块对上述信息进行识别，其中包括对上述视觉信息及语音信息进行数据预处理，分别形成视觉识别信息和语音识别信息；将上述视觉识别信息和语音识别信息分别输入视觉下人脸表情特征识别模型和语音情感特征识别模型，分别得到视觉特征向量和语音特征向量，将视觉特征向量和语音特征向量输入双模态情感特征识别模型，获得决策级融合的情感识别结果。该方法有效解决传统算法中多模态特征的代表性不足和融合算法冗长的技术问题。

Description

一种多模态驾驶员情感特征识别方法及系统

技术领域

本发明涉及多模态识别领域，具体为一种用于驾驶员情绪判断的多模态情感特征识别方法及系统。

背景技术

随着自动驾驶技术的不断发展，车辆变得越来越智能，但驾驶人员在开车时的注意力却反而由于车辆的只能而无意识地出现下降，特别是对于那些需要高度集中注意力进行操作的驾驶人员，例如长途旅行客车司机、飞行员等，注意力不集中或情绪不稳定是产生各类事故的重要原因之一。愤怒、焦虑、悲伤等负面情绪会严重影响他们的专注度，导致操作水平下降。因此及时检测这类驾驶人员的情绪状态是避免事故发生的一种有效防御手段。因此，有研究者提出利用机器学习、神经网络、深度学习等方法，从语音、视觉、语义、脑电等角度对被观测者的情感特征进行研究，设计出基于人工智能方法的情感识别分类器。通过设计出的情感分类器监测驾驶人员的情绪状态，对应车载应用开启不同的干预方式，如车辆安全警报提示、语音提示这样的预警机制，或自动切换安全驾驶模式，或车内灯光环境变化等等，进而辅助调整驾驶员的情绪状态，减少交通事故的发生。

然而，对于情感识别，早期的情感识别研究主要集中在单个模态，但分类器性能受到不同因素的制约(如数据完整性、环境噪声等)。为了获得充分的传感数据，传感器必须持续对准被测对象以获得完整的特征信息，这无疑限制了情感分类器的应用场景和效果。同时，单一模态的分类器精度已难以大幅提高。针对上述问题，部分学者提出基于多模态的情感识别研究，其优势在于利用多模态传感信号的互补性，降低情感识别分类器训练所需数据量，同时保持甚至提高情感识别分类器的精度。对于大多数现有方法来说，有几个问题仍在被探索。例如：(1)如何从多模态数据中学习紧凑但具有代表性的特征，(2)多模态特征融合算法的优化等等。

发明内容

本发明针对现有技术多模态特征的代表性不足和融合算法冗长问题改进改进，提供一种可以精准识别驾驶人员情绪的多模态特征并通过较少算力就可以实施的融合算法就可以实现的情感特征识别方法及系统。

本发明第一目的是提供一种多模态驾驶员情感特征识别方法，其包括如下步骤：

S1.通过多传感器采集驾驶员的视觉信息、声音信息；

S2.通过识别模块对上述信息进行识别，其中包括对上述视觉信息及语音信息进行数据预处理，分别形成视觉识别信息和语音识别信息；将上述视觉识别信息和语音识别信息分别输入视觉下人脸表情特征识别模型和语音情感特征识别模型，分别得到视觉特征向量和语音特征向量，将视觉特征向量和语音特征向量输入双模态情感特征识别模型，获得决策级融合的情感识别结果；

S3.将情感识别结果输出决策和控制模块，其中包括将情感识别结果的可视化输出。

优选的，所述对视觉信息的数据预处理具体包括：将图像传感器获得的视频信息进行解码，对视频序列进行图像切割，进行人脸面部图像检测，获取人脸面部表情图像，对人脸面部表情图像进行预处理，形成视觉识别信息。

优选的，所述对语音信息的数据预处理具体包括如下步骤：

步骤1.对语音进行预加重、分帧、加窗，形成短时分析窗信息；

步骤2.对每一个短时分析窗信息通过FFT算法得到对应的频谱数据，并取平方得到倒谱数据。

步骤3.将上述的倒谱数据通过Mel滤波器组得到Mel频谱数据。

步骤4.对上述Mel频谱数据进行倒谱分析，得到语音MFCC特征数据；

步骤5.对上述语音MFCC特征数据，将帧级特征转化为句子级特征；

步骤6.对上述句子级特征进行特征选择，完成数据预处理，形成语音识别信息。

进一步地，所述步骤4中语音MFCC特征数据为MFCC前30阶系数值，形成 1×30的特征向量。

进一步地，所述步骤5中句子级特征通过11个统计特征进行表征，分别有均值、最大值、最小值、方差、中值、标准差、均方根、极差、偏斜度、峰度、内四分极值，完成以上时域及频域特征提取后，最终组合成1×330大小的语音特征向量。

进一步地，所述步骤6中特征选择时基于特征发散性采用方差选择法进行特征评价，并配合相关系数法、互信息选择法和/或基于树的特征选择法完成特征选择。

优选的，所述人脸表情特征识别模型包括一个对视觉识别信息进行面部表情图像增强处理的步骤，然后输入CNN模型进行特征识别。

优选的，所述语音情感特征识别模型包括一个对语音识别信息进行归一化处理的步骤，然后输入SVM模型进行语音特征识别。

本发明的第二目的是提供一种多模态驾驶员情感特征识别系统，其特殊之处在于，其包括以下模块：

信息采集模块：用于对驾驶员的图像信息和声音信息进行采集；

信息识别模块：用于执行上述识别方法，获得对多模态驾驶员情感特征识别结果；

决策和控制模块：用于接收信息识别模块输入的多模态驾驶员情感特征识别结果，并根据识别结果做出决策，而控制车辆的驾驶模式，并反馈和提醒驾驶员的情绪状态。

优选的，所述的反馈和提醒包括车辆安全警报提示、语音提示，或自动切换安全驾驶模式，或改变车内灯光环境改善驾驶员情绪。

本发明提供的这种多模态驾驶员情感特征识别方法及系统与现有技术相比具有的有益效果如下：

1.针对多维度信息合并时会出现的特征冗余问题，对语音MFCC特征进行了特征选择，采用了方差选择法、互信息、相关系数等评价指标进行筛选，降低了特征维度，减少了特征提取时间。

2.针对多维度信息进行融合时不同模态信息的权重会影响到融合后分类器精度这一问题，采用了模糊规则来实现决策级融合，通过给定表情和语音这两种模态下不同的权重来设定模糊规则，情感识别分类器的性能得到了提高。

附图说明

图1是本发明提供的视觉－语音情感识别模型示意图；

图2是本发明提供的语音MFCC特征提取过程示意图；

图3是本发明提供的基于SVM语音情感特征识别过程示意图；

图4是本发明提供的人脸面部表情图像预处理过程示意图；

图5是本发明提供的基于CNN面部表情图像特征识别的过程示意图；

图6是本发明提供的CNN模型结构示意图。

具体实施方式

下面结合附图对本发明所提供的这种多模态驾驶员情感特征识别方法及系统作进一步说明。

本发明提供一种驾驶员情绪判断的多模态情感特征识别方法和系统，来监测驾驶员的情绪状态，为车辆行驶安全提供一种有效的检测技术。在语音和面部表情上的信号特征进行观测和建模，结合两种模态下情感信号的分布和变化情况提取时域和频域特征，提取各模态通道的代表性特征。最后，利用深度学习、SVM、模糊规则等算法设计出用于情感识别的多模态特征识别系统。

参考图1所示，这种多模态驾驶员情感特征识别方法，其主要包括如下步骤：

S1.通过多传感器采集驾驶员的视觉信息、声音信息；

其中，所述对视觉信息的数据预处理具体包括：将图像传感器获得的视频信息进行解码，对视频序列进行图像切割，进行人脸面部图像检测，获取人脸面部表情图像，对人脸面部表情图像进行预处理，形成视觉识别信息。

参阅图2所示，所述对语音信息的数据预处理具体包括如下步骤：

步骤3.将上述的倒谱数据通过Mel滤波器组得到Mel频谱数据。

所述步骤4中语音MFCC特征数据为MFCC前30阶系数值，形成1×30的特征向量。

所述步骤5中句子级特征通过11个统计特征进行表征，分别有均值、最大值、最小值、方差、中值、标准差、均方根、极差、偏斜度、峰度、内四分极值，完成以上时域及频域特征提取后，最终组合成1×330大小的语音特征向量。

所述步骤6中特征选择时基于特征发散性采用方差选择法进行特征评价，并配合相关系数法、互信息选择法和/或基于树的特征选择法完成特征选择。

参阅图4、图5和图6，所述人脸表情特征识别模型包括一个对视觉识别信息进行面部表情图像增强处理的步骤，然后输入CNN模型进行特征识别。

本发明提供这种驾驶员情绪判断的多模态情感特征识别方法的主要内容包括以下几个方面：

(1)多模态通道代表性特征选择

特征选择就是从原始特征中选取一些最有效的特征来降低维度,提高模型泛化能力降低过拟合的过程，主要目的是剔除掉无关特征和冗余特征，选出最优特征子集。本发明拟采用方差、互信息、相关系数等指标进行特征选择来进行多模态通道的特征选择。

(2)多模态特征融合和识别

本发明基于传统的CNN实现表情特征识别，基于SVM实现语音情绪特征识别，采用多模态决策级融合来实现情感识别，采用模糊规则完成决策级融合，进行实验结果对比分析，完成多模态特征融合算法的优化。

具体的为了对驾驶员情绪进行判断，本发明基于视觉-语音双模态的情感特征识别模型。如图1所示的识别方法过程包括：

步骤1、通过车辆上的摄像头、麦克风等装置进行数据采集；

步骤2、视觉模态及语音模态下进行数据预处理；

步骤3、建立基于视觉-语音的双模态情感特征识别模型；

步骤4、情感成分分析，情感识别结果可视化处理。

其中具体的识别算法步骤包括：

1、视觉信息识别算法部分，主要包括对摄像头拍摄到的视觉信息进行解码，对视频序列进行图像切割，进行人脸面部图像检测，获取人脸面部表情图像，对人脸面部表情图像进行预处理，获得人脸面部图像识别信息。

将上述获得的人脸面部图像识别信息输入视觉下人脸表情特征识别模型，该模型输入的为人脸面部图像，输出识别结果。情感分类结果包括：生气、厌恶、害怕、高兴、中性、悲伤、惊讶。首先，对人脸面部表情图像进行图像预处理，将面部表情图像与情感标签对应起来，建立训练集与测试集。接着，输入CNN模型前对面部表情图像进行图像增强处理，进入CNN模型进行特征识别，得到情感特征识别结果。这里的CNN模型由输入层、卷积层1、卷积层2、池化层1、卷积层3、卷积层4、池化层2、卷积层5、卷积层6、池化层3、卷积层7、全连接层1、全连接层2、输出层依次连接。

2、语音信息识别算法部分，主要包括对语音信息进行特征提取。这里主要是提取语音MFCC特征，主要的步骤如下：

A、先对语音进行预加重、分帧、加窗。

其中，预加重中语音通过的数字滤波器为：

H(z)＝1-μz^-1

分帧是用可移动的有限长度窗口进行加权的方式来实现的，也就是用一定的窗函数来乘加窗信号，具体的分帧算法如下：

S_W(n)＝S(n)*w(n)

本发明所用的是汉明窗，具体采用的窗函数为：

B.对每一个短时分析窗，通过FFT得到对应的频谱，并取平方。

C.将上述的倒谱通过Mel滤波器组得到Mel频谱。

D.在Mel频谱上面进行倒谱分析，得到语音MFCC特征(这里提取的为MFCC 前30阶系数)

E.上一步提取到的语音MFCC特征为1×30的特征向量，这里的特征向量为帧级特征。接着，将帧级特征转化为句子级特征，采用了11个统计特征来进行表示，分别有均值、最大值、最小值、方差、中值、标准差、均方根、极差、偏斜度、峰度、内四分极值。完成以上时域及频域特征提取后，最终组合成1 ×330大小的特征向量。

在得到语音MFCC特征信息之后，对语音MFCC特征进行特征优选，具体的特征优选就是从原始特征中选取一些最有效的特征来降低维度，提高模型泛化能力减低过拟合的过程，主要目的是剔除掉无关特征和冗余特征，选出最优特征子集，提高模型精确度，减少运行时间。特征优选主要是从特征是否发散、特征与目标的相关性两个方面进行入手。在此，本发明基于特征发散性采用了方差选择法对特征进行评分，另外，还采用了相关系数、互信息、基于树等指标进行特征优选。

在此，语音MFCC特征记为x_ij，i＝1，2......M，j＝1，2......N其中，即有320 个语音MFCC特征数据样本，维数为11。情感标签记为y_j，j＝1，2......7。下面，分别对方差选择法、相关系数法、互信息选择法、基于树的特征选择法展开描述：

1.方差选择法：计算各个特征的方差，剔除小于设定的阈值的特征，剔除特征值波动较小的特征。方差的计算公式如下：

其中为

每个特征对应的均值。

2.相关系数法：相关系数衡量的是两个变量之间的相关程，取值范围在 [-1，1]之间，-1表示完全负相关，+1表示完全正相关，0表示线性无关。例如，计算特征和的皮尔逊相关系数，计算公式如下：

其中

分别为均值、最大值，这两种统计特征对应的平均值。以此类推，便可得到其余特征之间的相关系数。一般情况下，皮尔逊相关系数在[0.8，1.0]之间被视为极强相关。因此，本文中皮尔逊相关系数的阈值设为 0.85。

3.互信息选择法：随机变量与之间的互信息为单个事件之间互信息的数学期望，也是评价定性自变量对定性因变量的相关性的。那么，在本文中采用互信息法衡量的是语音特征与情感类别之间的相关性。对应的互信息计算公式如下：

其中，p(x_i，y_i)为联合概率分布，p(x_i)，p(y_j)分别为变量x和y 的边缘概率分布。若语音特征与情感类别两者之间的互信息值越大，则相关性越强。若互信息值为0，则两者完全独立，即该特征与对应的标签完全独立，那么就可以剔除掉对应的特征。采用互信息选择法时，保留了互信息值较大的前5 个特征。

4.基于树的特征选择。通过分析模型的ROC(受试者工作特征曲线)值来进行特征选择。本文采用了决策树剪枝算法，首先对每个语音特征建立一个决策树，对模型进行训练，分类实现情感的预测。接着分析模型的ROC值，对特征进行排列，选择ROC值较高的特征。这一方法主要是从泛化能力方面进行特征筛选。

综合以上4种指标，降低特征维度大小，得到最优特征子集，作为语音特征识别模型的输入。

将上述经过特征选择后的语音识别信息输入语音情感特征识别模型，将得到的最优特征子集组合成特征向量，作为SVM模型的输入。首先，建立训练集与测试集，对语音MFCC特征进行归一化处理，接着输入SVM模型进行语音情感特征识别，得到语音情感特征识别结果。

将分别通过视觉和语音情感特征识别模型而得到的视觉特征向量和语音特征向量再进行决策级融合得到最终的多模态情感特征识别结果。这里的决策级融合指的是单一模态完成各自的分类任务后，在决策层进行融合实现多模态的情感特征识别。视觉模态和语音模态完成各自的情感特征识别后，会得到相应的概率矩阵，即视觉特征向量和语音特征向量。在这里，将视觉模态对应的概率矩阵记为P₁，语音模态对应的概率矩阵记为P₂，最后得到融合后的概率矩阵记为P。本发明基于模糊系统实现决策级融合，本模糊系统对应为一个两输入单输出的模糊系统。定义P₁、P₂为输入变量，P为输出，这三者的范围均为[0，1]。将输入变量分为5个等级，模糊集定义为{none， little，base，entire，enough}，分别对应每种情绪的程度。紧接着，定义输入输出隶属函数，这里输入和输出均选取了三角形隶属函数。

具体的实现流程如下所示：

1.模糊化。语音和视觉模态下的概率值通过模糊器转化成模糊变量。

2.建立模糊规则。本质上来讲，模糊规则描述的是输入与输出之间的二元模糊关系。常见的形式为‘if x₁ is A_1i and x₂ is A_2j and x_i is A_ij then y is B，。其中 i＝1，2...N，j＝1，2，...M，X＝[x₁，x₂，...x_n]，A_ij和B为由论域X和Y上的模糊集合定义的语言值。(这里N＝7，共7种情绪。M＝5，模糊集分为5个等级)

这里考虑到不同权重对融合后概率的影响，本发明通过给定不同的语音模态权重以及视觉模态权重设定模糊规则。

3.模糊推理引擎：根据模糊逻辑原理，通过组合这些模糊IF-THEN规则来决定如何将输入论域上的模糊集合映射到输出论域上的模糊集合。

4.去模糊化：将模糊推理结果转化为精确值，输出融合后的概率值，即某种情感状态的程度。常用的去模糊化方法有最大隶属度法、重心法、加权平均法3种，该方法的选择与隶属度函数形状的选择、推理方法的选择相关。本发明选取的去模糊化方法为重心法及三角隶属函数。

本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多模态驾驶员情感特征识别方法，其包括如下步骤：

S1.通过多传感器采集驾驶员的视觉信息、声音信息；

2.如权利要求1所述的多模态驾驶员情感特征识别方法，其特征在于，所述对视觉信息的数据预处理具体包括：将图像传感器获得的视频信息进行解码，对视频序列进行图像切割，进行人脸面部图像检测，获取人脸面部表情图像，对人脸面部表情图像进行预处理，形成视觉识别信息。

3.如权利要求1所述的多模态驾驶员情感特征识别方法，其特征在于，所述对语音信息的数据预处理具体包括如下步骤：

步骤3.将上述的倒谱数据通过Mel滤波器组得到Mel频谱数据。

4.如权利要求3所述的多模态驾驶员情感特征识别方法，其特征在于，所述步骤4中语音MFCC特征数据为MFCC前30阶系数值，形成1×30的特征向量。

5.如权利要求4所述的多模态驾驶员情感特征识别方法，其特征在于，所述步骤5中句子级特征通过11个统计特征进行表征，分别有均值、最大值、最小值、方差、中值、标准差、均方根、极差、偏斜度、峰度、内四分极值，完成以上时域及频域特征提取后，最终组合成1×330大小的语音特征向量。

6.如权利要求3所述的多模态驾驶员情感特征识别方法，其特征在于，所述步骤6中特征选择时基于特征发散性采用方差选择法进行特征评价，并配合相关系数法、互信息选择法和/或基于树的特征选择法完成特征选择。

7.如权利要求1所述的多模态驾驶员情感特征识别方法，其特征在于，所述人脸表情特征识别模型包括一个对视觉识别信息进行面部表情图像增强处理的步骤，然后输入CNN模型进行特征识别。

8.如权利要求1所述的多模态驾驶员情感特征识别方法，其特征在于，所述语音情感特征识别模型包括一个对语音识别信息进行归一化处理的步骤，然后输入SVM模型进行语音特征识别。

9.一种多模态驾驶员情感特征识别系统，其特征在于，其包括以下模块：

信息识别模块：用于执行如权利要求1中所述步骤2的识别方法，获得对多模态驾驶员情感特征识别结果；

10.如权利要求9所述的多模态驾驶员情感特征识别系统，其特征在于，所述的反馈和提醒包括车辆安全警报提示、语音提示，或自动切换安全驾驶模式，或改变车内灯光环境改善驾驶员情绪。