CN116985741A - 基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法 - Google Patents

基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法 Download PDF

Info

Publication number
CN116985741A
CN116985741A CN202310967749.2A CN202310967749A CN116985741A CN 116985741 A CN116985741 A CN 116985741A CN 202310967749 A CN202310967749 A CN 202310967749A CN 116985741 A CN116985741 A CN 116985741A
Authority
CN
China
Prior art keywords
emotion
data
driver
regulating
anger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310967749.2A
Other languages
English (en)
Inventor
郭钢
李文博
武磊
李承谋
夏进军
陈昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
China Merchants Testing Vehicle Technology Research Institute Co Ltd
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202310967749.2A priority Critical patent/CN116985741A/zh
Publication of CN116985741A publication Critical patent/CN116985741A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60HARRANGEMENTS OF HEATING, COOLING, VENTILATING OR OTHER AIR-TREATING DEVICES SPECIALLY ADAPTED FOR PASSENGER OR GOODS SPACES OF VEHICLES
    • B60H3/00Other air-treating devices
    • B60H3/0007Adding substances other than water to the air, e.g. perfume, oxygen
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60HARRANGEMENTS OF HEATING, COOLING, VENTILATING OR OTHER AIR-TREATING DEVICES SPECIALLY ADAPTED FOR PASSENGER OR GOODS SPACES OF VEHICLES
    • B60H3/00Other air-treating devices
    • B60H3/0007Adding substances other than water to the air, e.g. perfume, oxygen
    • B60H3/0035Adding substances other than water to the air, e.g. perfume, oxygen characterised by the control methods for adding the substance
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60QARRANGEMENT OF SIGNALLING OR LIGHTING DEVICES, THE MOUNTING OR SUPPORTING THEREOF OR CIRCUITS THEREFOR, FOR VEHICLES IN GENERAL
    • B60Q9/00Arrangement or adaptation of signal devices not provided for in one of main groups B60Q1/00 - B60Q7/00, e.g. haptic signalling
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W2040/089Driver voice
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/22Psychological state; Stress level or workload

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • Automation & Control Theory (AREA)
  • Psychiatry (AREA)
  • Transportation (AREA)
  • Hospice & Palliative Care (AREA)

Abstract

本发明公开了一种基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,包括:对驾驶员语音信号进行全局声学特征提取,得到全局特征信息;对驾驶员语音信号进行局部频谱特征提取,得到局部特征信息;将全局特征信息与局部特征信息进行融合,并对融合后的特征信息进行情绪分类,得到情绪分类结果;制作音频以及制备气味;通过播放音频以及释放气味,调节情绪分类结果中的愤怒情绪。本发明情绪识别准确度高、适用范围广,情绪调节效果好。

Description

基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法
技术领域
本发明涉及道路交通驾驶领域,具体涉及一种基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法。
背景技术
道路交通系统是一个由人、车、道路与环境等因素构成的复杂系统。导致交通事故的常见因素之一是驾驶愤怒,它对驾驶员在交通中的行为产生负面影响,导致驾驶员分心,增加了更具攻击性和危险性的行为,并会导致违反交通规则和车辆损坏。在检测到驾驶员的愤怒情绪状态后,需要对驾驶员的情绪状态作出反应,以调节驾驶员情绪,这对增加驾驶安全有着重要意义。
目前,驾驶员情绪识别主要是通过分析驾驶员的面部表情、生理信号等来实现,进而实现对愤怒情绪的调节。基于面部表情的情绪识别方法,考虑了人类情感表达的视觉信息,通过高质量摄像头来捕捉驾驶员的面部特征,情绪识别结果相对直观,但其识别过程会受到光强度、背景变化等环境因素的限制,识别准确度低。基于生理信号的情绪识别具有客观性,能够更加真实地反应驾驶员的情绪状态,但检测过程需要借助可穿戴式设备,对驾驶员有很强的侵入性,识别的消耗大,适用性差。
因此,需要一种基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,能够解决以上问题。
发明内容
有鉴于此,本发明的目的是克服现有技术中的缺陷,提供基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,情绪识别准确度高、适用范围广,情绪调节效果好。
本发明的基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,包括:
对驾驶员语音信号进行全局声学特征提取,得到全局特征信息;
对驾驶员语音信号进行局部频谱特征提取,得到局部特征信息;
将全局特征信息与局部特征信息进行融合,并对融合后的特征信息进行情绪分类,得到情绪分类结果;
制作音频以及制备气味;
通过播放音频以及释放气味,调节情绪分类结果中的愤怒情绪。
进一步,对驾驶员语音信号进行全局声学特征提取,具体包括:
对语音信号进行分帧处理,得到各语音帧的时域特征参数;所述时域特征参数包括基频以及均方根能量值;
对语音信号进行频谱分析,得到语音信号的频域特征参数;所述频域特征参数包括梅尔频率倒谱系数;
计算梅尔频率倒谱系数的均值
计算均与均值具有相同维数的基频均值/>以及均方根能量值均值/>
对均值均值/>以及均值/>进行标准化处理,得到标准化后的特征/>特征以及特征/>
将标准化后的特征特征/>以及特征/>进行拼接,然后通过一层包含K个神经元的全连接层,将高维的特征向量映射到低维的特征空间,最后输出全局特征表示向量fg
进一步,对驾驶员语音信号进行局部频谱特征提取,具体包括:
对语音信号进行音频频谱处理,得到Mel频谱图;
对Mel频谱图取对数,得到对数Mel频谱图;
使用卷积神经网络从对数Mel频谱图中提取时频特征信息;
沿着时间轴对时频特征信息进行全局自适应平均池化,得到表征时刻的特征向量y;
基于多头注意力机制,对特征向量y进行处理,得到局部特征表示向量fl
进一步,将全局特征信息与局部特征信息进行融合,并对融合后的特征信息进行情绪分类,具体包括:
将全局特征与局部特征进行拼接,得到拼接后的特征信息;
使用两层全连接层对拼接后的特征信息进行数据降维,通过归一化指数函数以概率的形式预测情绪类别。
进一步,制作音频,具体包括:
由驾驶员的朋友或家人录制语音内容,语音语调采用柔和方式,语音内容采用提醒、表扬以及赞美词语。
进一步,制备气味,具体包括:
基于情绪效价以及唤醒度,选取若干不同气味作为嗅觉调节材料;
从若干不同气味中筛选出正效价以及低唤醒的气味作为目标气味;
将目标气味与无色无味的稀释液按照a1:a2配置u%浓度的香薰。
进一步,还包括:使用情绪调节成功量表,来衡量愤怒情绪调节效果。
进一步,还包括:采用横纵向风险值来表征驾驶员的综合驾驶绩效,分析愤怒情绪调节效果,具体包括:
计算横向风险值Rlateral
其中,k为车辆碰撞物的材料刚度,M表示车辆的等效质量,vs,b表示车辆的横向速度,rs,b为车辆重心与横向障碍物之间的最短距离,D为潜在风险场的梯度下降系数,rL表示道路边界到车道中心线的最短距离;
计算纵向风险值Rlongitudinal
其中,Eij表示物体i向周边道路环境辐射的风险场;G、k1以及k2均表示风险系数;Ri与Rj均为道路影响因子;Dri与Drj分别表示车辆i与车辆j的驾驶人风险因子;Mi与Mj分别代表物体i与物体j的质量;rij表示物体i与物体j之间的矢量距离;vi与vj分别表示物体i与物体j的纵向速度;
对横向风险值以及纵向风险值进行归一化处理,确定综合风险系数Rtotal
若情绪调节后,综合风险系数Rtotal变小,则情绪调节效果好;否则,情绪调节效果差。
进一步,还包括:基于生理数据,评价愤怒情绪调节效果,具体包括:
采集脑电数据,计算各个频率的左右脑不对称值L:
L=ln(Pb)-ln(Pa)
其中,Pa与Pb分别表示大脑左右脑区域对应的两个电极通道的功率平均值;
若情绪调节后左右脑不对称值L变大,则情绪调节效果较好;否则,情绪调节效果较差;
采集心电数据,计算平均心率HR:
HR=mean[HR1+HR2+…+HRi+…+HRn];
其中,HRi表示时间段i的心率;mean[]为均值函数;
若情绪调节后的平均心率变小,则情绪调节效果较好;否则,情绪调节效果较差。
进一步,还包括:对主客观测评数据进行相关性分析,评价愤怒情绪调节效果,具体包括:
采集若干组主-客观评价统计数据;所述主-客观评价统计数据包括主观评价数据以及客观状态数据;其中,所述客观状态数据包括驾驶员生理数据以及车辆行驶状态数据;
对主-客观评价统计数据进行差异性分析,得到检验水平值;将检验水平值大于设定阈值的主-客观评价统计数据作为目标统计数据;
对目标统计数据中的主观评价数据与客观状态数据进行相关性分析,得到主客观数据的相关性水平|r|,若相关性水平|r|∈[r0,1),则使用主观评价数据来评价愤怒情绪的调节效果。
本发明的有益效果是:本发明公开的一种基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,通过构建一个多特征融合的语音情绪识别网络,将整段语音的声学特征与深度学习提取的局部表征特征进行互补融合,提高了情绪识别的准确度。在单模态刺激(听觉、嗅觉)参数化调节的基础上探索驾驶员情绪的多模态调节,提升了情绪调节的稳定性和可靠性。在驾驶员情绪调节研究的基础上,根据驾驶员的横纵向控制能力,提出了基于驾驶风险理论的驾驶员情绪调节效果评价技术方案;结合各种测量方法和算法(生理、行为和主观量表),通过主客观数据结合进一步分析驾驶员情绪的调节效果。
附图说明
下面结合附图和实施例对本发明作进一步描述:
图1为本发明的多特征融合的语音情绪识别网络框架示意图;
图2为本发明的MFCC系数处理过程示意图;
图3为本发明的时域特征处理示意图;
图4为本发明的全局声学特征生成示意图;
图5为本发明的卷积神经网络模块原理示意图;
图6为本发明的时频特征信息序列化示意图;
图7为本发明的多头自注意力模块原理示意图;
图8为本发明的决策模块原理示意图;
图9为本发明的国际10-20系统脑电极分布图;
图10为本发明的归一化数据效果雷达图。
具体实施方式
以下结合说明书附图对本发明做出进一步的说明,如图所示:
本发明的基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,包括:
对驾驶员语音信号进行全局声学特征提取,得到全局特征信息;
对驾驶员语音信号进行局部频谱特征提取,得到局部特征信息;
将全局特征信息与局部特征信息进行融合,并对融合后的特征信息进行情绪分类,得到情绪分类结果;
制作音频以及制备气味;
通过播放音频以及释放气味,调节情绪分类结果中的愤怒情绪。
本发明提出了一种并行的多特征融合语音情绪识别网络,对全局声学特征和局部深度学习表示特征进行了互补融合,该情绪识别网络模型的总体框架如图1所示。情绪识别网络模型主要由全局声学特征提取模块、频谱局部特征提取模块和决策模块组成。全局特征提取模块提取了语音的基频(F0)、均方根能量值、MFCC系数(Mel(梅尔)频率倒谱系数)等全局特征信息,拼接成一个全局特征向量fg;局部特征提取模块是一个基于自注意力机制的时间卷积网络(CNN_TCN_SA),用来挖掘对数Mel频谱图的时频特征,生成一个局部特征表示向量fl。最后,将两个层次的特征融合后,通过一个决策模块实现语音情绪分类。
本实施例中,对驾驶员语音信号进行全局声学特征提取,具体包括:
在提取全局特征前,需要对语音信号进行分帧处理,因为语音在10-50ms的时间范围内是最为稳定的,因此采用40ms的帧长,10ms的帧移,以滑动时间窗口的方法,提取各语音帧的基频F0 i,均方根能量值RMSi等时域特征参数。
为了提取频域相关的语音情感特征,将40ms的汉明窗叠加到各个原始语音帧中,并通过100ms的傅里叶变换窗口,按MFCC系数提取流程生成30维的梅尔频率倒谱系数作为频域特征参数。
MFCC系数表示了音频的频谱包络能量,它能以紧凑的矢量形式表示声波的振幅谱,是最先进的语音特征形式化方法。提取的Mf∈Rn×30是一个二维的浮点时间序列,横轴代表的是时间轴,其中n表示整段语音的帧数,纵轴代表的是频域轴,表示频域特征参数。沿着时间轴计算每一个频域特征参数的均值作为整个话语级别的声学特征,如图2所示。
基频F0∈Rn,均方根能量值RMS∈Rn反映的是语音整体的声调与音量随时间的变化情况,由于语音分帧的帧长较小,导致了这两个特征序列长度都很大,为了与MFCC特征维数相对应,将n帧语音等分成30个长语音帧,计算每个长段的基频与能量均值,生成两个30维的特征向量近似的表征全局声学特征,如图3所示。
因为提取的语音特征单元不同,在数据维度上有所差异,为了保证不同的语音特征处于同一数量级,又不失模型的识别性能,对三种不同的声学特征分别进行z-score标准化处理,标准化公式如下:
式中,x表示原始的语音特征数据,μ表示当前语音特征下所有数据的均值,σ表示当前语音特征下所有数据的标准差。
将标准化的全局声学特征拼接在一起,然后通过一层包含30个神经元的全连接层,将高维的特征向量映射到低维的特征空间,输出最后的全局特征表示向量fg∈R30,具体产生过程如图4所示。
本实施例中,对驾驶员语音信号进行局部频谱特征提取,具体包括:
对语音信号进行音频频谱处理,得到Mel频谱图;对Mel频谱图取对数,得到对数Mel频谱图;通过对Mel频谱图取对数来将其转换为对数刻度,从而提高特征的稳定性和区分能力。
使用卷积神经网络从对数Mel频谱图中提取时频特征信息;其中,本发明采用的卷积神经网络(CNN)结构是一个由五个卷积层和两个最大池化层组成的浅层网络。在第一卷积层并行使用了两个不同的卷积核,一个卷积核时间跨度较长,另一个卷积核则频域跨度较长。两个不同的输出在通道维度上拼接在一起,然后馈送到后续的卷积层。第二层和第三层是卷积层和最大池化层的组合结构,用于特征降维,池化层大小均设为2×2。在其余的卷积层中,采用同卷积方法,对输出的特性图进行填充,并将卷积核大小设为3×3。为了在网络模型前向传播过程中,保证数据进行非线性变换,将线性整流函数(ReLU)作为模型中所有卷积层的激活函数,并把批正则化(Batch Normalization)拟合到五个卷积层的所有神经元中,以加快模型的训练速度。具体的CNN模块如图5所示。
随着CNN模块中卷积层数的加深,特征图分辨率不断下降,并逐渐把语音情绪特征信息转移到特征图通道中,受语音情绪数据集总量限制,卷积层数不宜过多,因此本文采用的是轻量级别的CNN网络,具体网络参数如下表1所示:
表1
CNN模块从语音频谱图中捕捉的是时频特性,并没有关注语音的时序信息。为了充分考虑输出特征序列的时序信息,采用自然语言处理中时序建模方式对语音特征序列进行编码。如图6所示,从CNN模块中学习的高级语音特征X∈RC×H×W是一个三维数组,C代表了特征图的通道数,H与W分别表示语音的频率和时间跨度,对应了特征图像的高宽;该数据不能直接与时序模型衔接,需要通过降维生成一个二维数组,因此沿着时间轴对特征图进行全局自适应平均池化,在保证各个时刻的特征数据不丢失的前提下完成数据降维,结果会输出一个特征序列y∈RC×W,在此处,y表征了每一个时刻t的特征向量。
对所有时刻的语音特征关注程度都是一样,但是情绪特征在整个语音段分布是不均匀的,只会出现在会话中的某些特定时刻。鉴于注意力机制对局部信息的有效聚焦作用,采用注意力模块关注输出序列中情绪特征较为明显的时刻。本发明使用的是多头自注意力模块,自注意力机制的输入包括query,key,value三个编码向量,query,key,value是采用相同的线性权重,对每个时刻的嵌入特征向量y进行编码,即Q=K=V,这表示输入的语音序列中,每个时刻的语音特征都要与所有其他时刻的语音特征进行相似度计算,以挖掘语音序列内部特征的依赖关系,减小信息丢失并为情绪相关的部分分配更大的权重。
多头注意力能够联合不同子空间的信息,学习到更多的情绪相关特征,提高整个模型的识别性能,图7展示了注意力模块的示意图。
基于上述多头注意力机制,对特征向量y进行处理,输出得到局部特征表示向量fl
本实施例中,决策模块对全局声学特征和局部频谱特征进行有效的互补融合,然后通过全连接层将融合分布式特征映射到情绪空间中,实现情绪分类。
将局部特征表示向量fl与全局特征表示向量fg拼接成最终的情绪表征特征f,接着使用两层全连接层进行数据降维,并通过softmax函数(归一化指数函数)实现情绪预测,分类计算过程如下:
式中,分别表示决策模块中第i个全连接层的参数(权重与偏置),concat()用于拼接,ReLU()用于激活;P表示情绪分类类别概率;决策模块如图8所示。
通过上述方法,可以得到驾驶员情绪类别对应的概率,当愤怒情绪概率超过设定阈值时,即可认为驾驶员出现愤怒情绪,需要对驾驶员的愤怒情绪进行调节。
本实施例中,当语音情绪识别模型识别出驾驶员愤怒情绪时,本发明通过听觉和嗅觉多模态调节干预降低驾驶员愤怒水平,提高驾驶安全。
本发明选用个性化语音作为听觉调节材料,语音内容采用基于注意力部署的策略转移驾驶员的愤怒情绪,从而可以很好地转移驾驶员的注意力来改善驾驶员的负面情绪,对驾驶性能和驾驶安全产生积极影响。语音内容由驾驶员的朋友或家人录制。此外,语音片段在内容上采用提醒、表扬以及赞美词语,比如积极评论来表扬驾驶员;表达方式以通知风格告诉驾驶员当前的周围道路环境。通过车载代理软件播放进行听觉干预。表2列举部分用于愤怒调节的语音内容。
表2
本发明使用的气味是基于情绪效价以及唤醒维度选取的,在7种不同的气味类型中筛选出正效价与低唤醒的茉莉气味作为嗅觉调节材料。将茉莉精油和无色无味的稀释液按照1:9配置10%浓度的茉莉香薰,并由车载设备释放10s保证驾驶员能充分闻到气味。
本实施例中,本发明使用情绪调节成功量表,来衡量驾驶员主观上的情绪调节效果,表征出情绪舒缓程度,该量表采用9点Likert量表的设计形式,1分表示情绪调节方案一点儿也不成功,9分代表调节非常成功,中间调节效果评分等间隔分布。
本实施例中,还包括:采用横纵向风险值来表征驾驶员的综合驾驶绩效,分析愤怒情绪调节效果。
车辆行驶数据通过车载OBD导出或者模拟驾驶器后台数据导出。本发明结合驾驶风险场理论,用融合了多种离散驾驶指标的横纵向风险值来表征驾驶员的综合驾驶绩效,间接反映出愤怒干预效果。
驾驶风险按照车辆运动状态可分为横向风险与纵向风险。
①横向风险
横向风险是指车辆横向运动时,会发生的潜在风险。在横向区域内,目标车辆遇到的所有障碍物,如静态道路边界、交通围栏、防撞栏等,都被视为有限标量风险域,该风险域处在目标车辆的预测运动空间中。基于概率运动预测,将车辆与障碍物预期碰撞概率与碰撞时所产生的能量相乘,来近似表示横向风险值,计算公式如下:
式中,Rlateral为横向风险值,k为车辆碰撞物的材料刚度,M表示车辆的等效质量,vs,b表示车辆的横向速度,rs,b为车辆重心与横向障碍物之间的最短距离,横向障碍物指的是道路边界,因此rL表示的是道路边界到车道中心线的最短距离,D为潜在风险场的梯度下降系数,一般默认D=rL/7,即碰撞概率项在车道中心达到临界值(e-7=0.0091≈0.001)。
由公式可见,横向风险是由按参数缩放的预期碰撞能量0.5kM(vs,b)2和碰撞概率项两部分组成,数值越大,潜在的横向风险越高。同时,公式描述了碰撞概率随着rs,b的增加而降低,这是可以直观理解的,距离更远的道路边界物体为驾驶员避免碰撞提供了更多的可能性,因而产生碰撞的风险越低。
②纵向风险
纵向风险场与横向风险场的概念与生成方式类似,指的是车辆纵向运动过程中,与其他交通元素发生正面碰撞的风险,也是通过碰撞概率及其碰撞能量的乘积来衡量碰撞危险度,纵向风险值Rlongitudinal的计算公式如下:
式中,Eij表示物体i向周边道路环境辐射的风险场,场强大小反映了物体i的潜在危险程度,G,k1,k2表示风险系数,用来修正不同物体i风险值大小,与物体形状与类型属性相关;Ri,Rj均为道路影响因子,由道路附着系数、可见度等行驶环境情况决定;Dri,Drj分别表示车辆i与车辆j的驾驶人风险因子,若物体不为车辆则设为0;Mi,Mj分别代表物体i与物体j的质量,rij表示物体i与物体j之间的矢量距离,vi,vj分别表示物体i与物体j的纵向速度。
Rlongitudinal表示了所有物体的风险场叠加后,对目标车辆造成的风险总和,数值越大,车辆纵向行驶越危险。
③综合风险系数
为探讨动态环境中由驾驶员驾驶操作引发的潜在风险,采用横纵向风险场相耦合的驾驶风险评估模型。因此先对横纵向风险进行数据归一化处理以消除量纲的影响,再按如下公式确定综合风险系数Rtotal
驾驶风险是以驾驶员为中心,实时计算出的不同要素的影响范围和程度,不仅表征了行车时的安全程度,也间接反映了驾驶员对车辆的掌控能力,因此可以通过驾驶风险指标来量化驾驶员愤怒干预效果,即对比不同调节方法对表达抑制有多高的效应量。若情绪调节后,综合风险系数Rtotal变小,则情绪调节效果好;否则,情绪调节效果差。
本实施例中,还包括:基于生理数据,评价愤怒情绪调节效果。
脑电数据通过脑电仪进行采集记录,用以评价驾驶员愤怒情绪的调节效果。脑电数据的分析是采用额叶活动的不对称性,主要分析驾驶员脑额叶区。脑电数据的左右脑电极是有对称关系的,选取的额叶区电极分别是:FP1-FP2、AF3-AF4、F3-F4、F7-F8(如图9所示),其中单数表示左脑区域电极,双数表示右脑区域电极。根据左右脑电极对应关系,计算各个频率的左右脑不对称值,计算表达式为:
L=ln(Pb)-ln(Pa)
其中,Pa与Pb分别表示大脑左右脑区域对应的两个电极通道的功率平均值;以F3和F4电极的α波为例,不对称值计算方式为F4(右脑)α波的自然对数值,减去F3(左脑)α波的自然对数值。
由于α波频段能力与脑皮层活动成反比关系,因此计算结果较高的分数表示相对较大的左脑活动,调节效果较好;而较低的分数表示相对较大的右脑活动,调节效果较差。
心电数据通过多通道生理仪进行采集记录。主要通过心率HR(主要采用实时心率)来进行分析评价。一般情况下,实时心率(HR)越大,愤怒水平越高。通过实验得到调节前和调节后的心电时域信号,得到平均心率HR:
HR=mean[HR1+HR2+…+HRi+…+HRn];
其中,HRi表示时间段i的心率;mean[]为均值函数;
若情绪调节后的平均心率变小,则情绪调节效果较好;否则,情绪调节效果较差。
本实施例中,还包括:对主客观测评数据进行相关性分析,评价愤怒情绪调节效果。
采集若干组主-客观评价统计数据;所述主-客观评价统计数据包括主观评价数据以及客观状态数据;其中,所述客观状态数据包括驾驶员生理数据以及车辆行驶状态数据;从而得到不同维度数据的描述性统计信息。主观评价数据记录了被试对愤怒情绪的体验水平,但由于人类对个人情感的判定受到主观意识的局限,容易出现心口不一,或者言不达意的情况,因此主观评价的准确性还需要客观数据的验证。
对主-客观评价统计数据进行差异性分析,得到检验水平值;将检验水平值大于设定阈值的主-客观评价统计数据作为目标统计数据;其中,若差异性分析不通过,即检验水平p>0.05,说明不同组间数据的差异并不是由人为控制的自变量引发,数据本身测量误差大于自变量导致的数据差异,不能用以后续数据分析,仅选取差异性分析通过(检验水平p<0.05)的主-客观评价统计数据进行相关性分析。
对目标统计数据中的主观评价数据与客观状态数据进行相关性分析,得到主客观数据的相关性水平|r|,若相关性水平|r|∈[r0,1),则使用主观评价数据来评价愤怒情绪的调节效果。
具体地,采用统计学家卡尔·皮尔逊提出的皮尔逊相关系数(Pearsoncorrelation coefficient),具体计算方法如下:
式中,X指某一变量下的主观数据值,μX指某一变量下所有主观数据值的均值,σX指某一变量下所有主观数据值的方差;式中的Y指某一变量下的某类客观数据值(如脑电),μY指某一变量下某类客观数据值的均值,σY指某一变量下某类客观数据值的方差。
主客观数据的相关性水平|r|,该值反映了不同数据间存在的相关性水平,在显著性水平p<0.05的前提下,|r|∈[0,0.4)说明主-客观数据存在弱相关,|r|∈[0.4,0.7)说明主-客观数据存在中相关,|r|∈[[0.7,1)说明主-客观数据存在强相关。对于主-客观分析结果,当相关性水平处于中等程度以上时,即|r|∈[0.4,1),说明客观数据与主观数据存在较强的相关性,可以用客观数据验证主观数据,主观数据真实可靠,可用以评价被试愤怒情绪调节效果。
需要说明的是,在大多数情况下,不仅要关注单个测量结果,还要关心情绪调节的整体情况,这要求情绪调节将多个测量结果整合为一种类型的综合分数。本发明采用百分比度量法将所有测量数据归一化为0-1。对于情绪调节的正相关度量,我们使用公式(9.1)对数据进行归一化。对于情绪调节的负相关度量,我们使用公式(9.2)对数据进行归一化。
对于与情绪调节的正相关指标:
其中,yposition,x,xmax分别表示归一化数据、原始数据和原始数据中的最大值。
对于与情绪调节的负相关指标:
其中,ynegative,x,xmin分别表示归一化数据、原始数据和原始数据中的最小值。
归一化后,所有数据都与情绪调节呈正相关(值越高越好)。归一化数据效果如雷达图10所示,可以直观地看到调节效果在不同维度上的比较。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,其特征在于:包括:
对驾驶员语音信号进行全局声学特征提取,得到全局特征信息;
对驾驶员语音信号进行局部频谱特征提取,得到局部特征信息;
将全局特征信息与局部特征信息进行融合,并对融合后的特征信息进行情绪分类,得到情绪分类结果;
制作音频以及制备气味;
通过播放音频以及释放气味,调节情绪分类结果中的愤怒情绪。
2.根据权利要求1所述的基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,其特征在于:对驾驶员语音信号进行全局声学特征提取,具体包括:
对语音信号进行分帧处理,得到各语音帧的时域特征参数;所述时域特征参数包括基频以及均方根能量值;
对语音信号进行频谱分析,得到语音信号的频域特征参数;所述频域特征参数包括梅尔频率倒谱系数;
计算梅尔频率倒谱系数的均值
计算均与均值具有相同维数的基频均值/>以及均方根能量值均值/>对均值均值/>以及均值/>进行标准化处理,得到标准化后的特征/>特征/>以及特征
将标准化后的特征特征/>以及特征/>进行拼接,然后通过一层包含K个神经元的全连接层,将高维的特征向量映射到低维的特征空间,最后输出全局特征表示向量fg
3.根据权利要求1所述的基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,其特征在于:对驾驶员语音信号进行局部频谱特征提取,具体包括:
对语音信号进行音频频谱处理,得到Mel频谱图;
对Mel频谱图取对数,得到对数Mel频谱图;
使用卷积神经网络从对数Mel频谱图中提取时频特征信息;
沿着时间轴对时频特征信息进行全局自适应平均池化,得到表征时刻的特征向量y;
基于多头注意力机制,对特征向量y进行处理,得到局部特征表示向量fl
4.根据权利要求1所述的基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,其特征在于:将全局特征信息与局部特征信息进行融合,并对融合后的特征信息进行情绪分类,具体包括:
将全局特征与局部特征进行拼接,得到拼接后的特征信息;
使用两层全连接层对拼接后的特征信息进行数据降维,通过归一化指数函数以概率的形式预测情绪类别。
5.根据权利要求1所述的基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,其特征在于:制作音频,具体包括:
由驾驶员的朋友或家人录制语音内容,语音语调采用柔和方式,语音内容采用提醒、表扬以及赞美词语。
6.根据权利要求1所述的基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,其特征在于:制备气味,具体包括:
基于情绪效价以及唤醒度,选取若干不同气味作为嗅觉调节材料;
从若干不同气味中筛选出正效价以及低唤醒的气味作为目标气味;
将目标气味与无色无味的稀释液按照a1:a2配置u%浓度的香薰。
7.根据权利要求1所述的基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,其特征在于:还包括:使用情绪调节成功量表,来衡量愤怒情绪调节效果。
8.根据权利要求1所述的基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,其特征在于:还包括:采用横纵向风险值来表征驾驶员的综合驾驶绩效,分析愤怒情绪调节效果,具体包括:
计算横向风险值Rlateral
其中,k为车辆碰撞物的材料刚度,M表示车辆的等效质量,vs,b表示车辆的横向速度,rs,b为车辆重心与横向障碍物之间的最短距离,D为潜在风险场的梯度下降系数,rL表示道路边界到车道中心线的最短距离;
计算纵向风险值Rlongitudinal
其中,Eij表示物体i向周边道路环境辐射的风险场;G、k1以及k2均表示风险系数;Ri与Rj均为道路影响因子;Dri与Drj分别表示车辆i与车辆j的驾驶人风险因子;Mi与Mj分别代表物体i与物体j的质量;rij表示物体i与物体j之间的矢量距离;vi与vj分别表示物体i与物体j的纵向速度;
对横向风险值以及纵向风险值进行归一化处理,确定综合风险系数Rtotal
若情绪调节后,综合风险系数Rtotal变小,则情绪调节效果好;否则,情绪调节效果差。
9.根据权利要求1所述的基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,其特征在于:还包括:基于生理数据,评价愤怒情绪调节效果,具体包括:
采集脑电数据,计算各个频率的左右脑不对称值L:
L=ln(Pb)-ln(Pa)
其中,Pa与Pb分别表示大脑左右脑区域对应的两个电极通道的功率平均值;
若情绪调节后左右脑不对称值L变大,则情绪调节效果较好;否则,情绪调节效果较差;
采集心电数据,计算平均心率HR:
HR=mean[HR1+HR2+…+HRi+…+HRn];
其中,HRi表示时间段i的心率;mean[]为均值函数;
若情绪调节后的平均心率变小,则情绪调节效果较好;否则,情绪调节效果较差。
10.根据权利要求1所述的基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法,其特征在于:还包括:对主客观测评数据进行相关性分析,评价愤怒情绪调节效果,具体包括:
采集若干组主-客观评价统计数据;所述主-客观评价统计数据包括主观评价数据以及客观状态数据;其中,所述客观状态数据包括驾驶员生理数据以及车辆行驶状态数据;
对主-客观评价统计数据进行差异性分析,得到检验水平值;将检验水平值大于设定阈值的主-客观评价统计数据作为目标统计数据;
对目标统计数据中的主观评价数据与客观状态数据进行相关性分析,得到主客观数据的相关性水平|r|,若相关性水平|r|∈[r0,1),则使用主观评价数据来评价愤怒情绪的调节效果。
CN202310967749.2A 2023-07-31 2023-07-31 基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法 Pending CN116985741A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310967749.2A CN116985741A (zh) 2023-07-31 2023-07-31 基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310967749.2A CN116985741A (zh) 2023-07-31 2023-07-31 基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法

Publications (1)

Publication Number Publication Date
CN116985741A true CN116985741A (zh) 2023-11-03

Family

ID=88529688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310967749.2A Pending CN116985741A (zh) 2023-07-31 2023-07-31 基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法

Country Status (1)

Country Link
CN (1) CN116985741A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633606A (zh) * 2024-01-26 2024-03-01 浙江大学医学院附属第一医院(浙江省第一医院) 基于嗅觉刺激和面部表情的意识检测方法、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633606A (zh) * 2024-01-26 2024-03-01 浙江大学医学院附属第一医院(浙江省第一医院) 基于嗅觉刺激和面部表情的意识检测方法、设备及介质
CN117633606B (zh) * 2024-01-26 2024-04-19 浙江大学医学院附属第一医院(浙江省第一医院) 基于嗅觉刺激和面部表情的意识检测方法、设备及介质

Similar Documents

Publication Publication Date Title
Budak et al. An effective hybrid model for EEG-based drowsiness detection
CN113591525B (zh) 一种深度融合面部表情和语音的驾驶员路怒症识别方法
CN106878677A (zh) 基于多传感器的学生课堂掌握程度评估系统和方法
US20100036290A1 (en) Arousal state classification model generating device, arousal state classifying device, and warning device
CN116985741A (zh) 基于听觉与嗅觉的多模态驾驶员愤怒情绪调节方法
CN110390272B (zh) 一种基于加权主成分分析的eeg信号特征降维方法
Jong et al. A speech recognition system based on electromyography for the rehabilitation of dysarthric patients: A Thai syllable study
CN113743471B (zh) 一种驾驶评估方法及其系统
CN111516700A (zh) 一种驾驶员分心细粒度监测方法和系统
Mohanta et al. Acoustic features characterization of autism speech for automated detection and classification
CN108256307A (zh) 一种智能商务旅居房车的混合增强智能认知方法
CN110534133A (zh) 一种语音情感识别系统及语音情感识别方法
CN113343860A (zh) 一种基于视频图像和语音的双模态融合情感识别方法
CN109979436A (zh) 一种基于频谱自适应法的bp神经网络语音识别系统及方法
Wei et al. Driver's mental workload classification using physiological, traffic flow and environmental factors
Li et al. Global-local-feature-fused driver speech emotion detection for intelligent cockpit in automated driving
Hamid et al. Integration of deep learning for improved diagnosis of depression using eeg and facial features
Wu et al. Speaker-independent acoustic-to-articulatory speech inversion
Loizou An automated integrated speech and face imageanalysis system for the identification of human emotions
Radha et al. Automated detection and severity assessment of dysarthria using raw speech
Rammohan et al. Speech signal-based modelling of basic emotions to analyse compound emotion: Anxiety
Belalcazar-Bolanos et al. Nonlinear glottal flow features in Parkinson's disease detection
WO2019218571A1 (zh) 基于opencv技术的疲劳驾驶预警系统
Lozhnikov et al. Perspectives of subjects’ psychophysiological state identification using dynamic biometric features
CN114299925A (zh) 一种基于语音对帕金森病患者吞咽困难症状重要性度量指标的获取方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240314

Address after: 400044 No. 174 Sha Jie street, Shapingba District, Chongqing

Applicant after: Chongqing University

Country or region after: China

Applicant after: China Merchants Testing Vehicle Technology Research Institute Co.,Ltd.

Address before: 400044 No. 174 Sha Jie street, Shapingba District, Chongqing

Applicant before: Chongqing University

Country or region before: China

TA01 Transfer of patent application right