CN115227246A - 面向智能驾驶的驾驶人声音情感识别方法 - Google Patents
面向智能驾驶的驾驶人声音情感识别方法 Download PDFInfo
- Publication number
- CN115227246A CN115227246A CN202210802515.8A CN202210802515A CN115227246A CN 115227246 A CN115227246 A CN 115227246A CN 202210802515 A CN202210802515 A CN 202210802515A CN 115227246 A CN115227246 A CN 115227246A
- Authority
- CN
- China
- Prior art keywords
- emotional state
- user
- qth
- voice
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000008909 emotion recognition Effects 0.000 title abstract description 14
- 230000008451 emotion Effects 0.000 claims abstract description 41
- 239000000203 mixture Substances 0.000 claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 5
- 230000002996 emotional effect Effects 0.000 claims description 112
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims 1
- 230000006870 function Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/18—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state for vehicle drivers or machine operators
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/16—Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
- A61B5/165—Evaluating the state of mind, e.g. depression, anxiety
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/48—Other medical applications
- A61B5/4803—Speech analysis specially adapted for diagnostic purposes
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- Animal Behavior & Ethology (AREA)
- Surgery (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Acoustics & Sound (AREA)
- Psychology (AREA)
- Educational Technology (AREA)
- Developmental Disabilities (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了面向智能驾驶的驾驶人声音情感识别方法,包括:采集不同用户在驾驶场景下包含不同情绪的声音数据,构建驾驶人三维声音特征数据集;然后构建基于三维声音特征的聚类多模型训练方法,通过基于三维声音特征的聚类方法得到不同人员类别的样本用户,进而利用不同人员类别的样本用户数据训练高斯混合模型,形成面向不同人员类别的声音情感识别模型;之后使用者在初始化时输入正常情绪状态下的声音进行初始化归类,得到通用的基准模型和基准参数;最后在运行识别阶段输入实时采集的使用者的声音,声音样本经过基准模型后将其再输入其他模型中进行多模态信息融合并做判断,最终输出识别结果。本发明提高了智能驾驶场景下的情感识别的准确性。
Description
技术领域
本发明属于人工智能领域。
背景技术
随着智能汽车的快速发展,动态驾驶场景下驾驶员情绪的检测得益于智能座舱、人机交互系统。因此,驾驶员情绪监测成为一个热门的研究课题。一般的情绪识别方法根据检测到的信号分为两大类:基于脑电图、呼吸、心率等生理信号的识别;识别依赖于非生理信号,包括声音信号和面部表情。驾驶员情绪是驾驶员生理和心理状态的外在表现,影响着驾驶员的驾驶决策和行为。研究表明,愤怒、疲劳、焦急等负面情绪会降低驾驶员的风险感知,容易导致攻击性驾驶行为,显著增加撞车风险。由此可见,驾驶员情绪在交通安全中占有至关重要的地位,准确识别驾驶员情绪对提高智能汽车驾驶安全性和舒适性至关重要。目前主要的声音识别网络使用的模型较为单一,而由于不同类别的人的声音特征具有很大的差异,而单一模型去识别不同类别人员的不同情绪会出现声音特征不能充分利用,众多信息相互干扰,导致情感识别的精准度不尽人意。综上所述,提高语音情感识别的精度成为智能驾驶场景内急需解决的问题。
发明内容
发明目的:为了解决上述现有技术存在的问题,本发明提供了一种面向智能驾驶的驾驶人声音情感识别方法。
技术方案:本发明提供了一种面向智能驾驶的驾驶人声音情感识别方法,具体包括如下步骤:
步骤1:再驾驶场景中采集不同用户在Q种不同情绪状态下的声音数据,并构建每个用户的三维声音特征数据集;
步骤2:采用聚类方法在构建的三维声音特征数据集中找到K个聚类中心{o(1),o(2),...,o(k),...,o(K)},o(k)表示第k个聚类中心,k=1,2,…,K;采用K个聚类中心训练高斯混合模型,得到与K个聚类中心对应的K个高斯混合模型{G1,G2,...,Gk,....,GK},Gk表示第k个高斯混合模型;
步骤4:驾驶过程中实时采集使用者的声音,将当前采集到的声音输入至中,得到Q种情绪状态的概率其中q表示第q种情绪状态,q=1,2,…,Q,表示输出的第q种情绪状态的概率;记最大概率对应的情绪状态为classq*;
步骤5:计算第q种情绪状态下当前采集到的声音与所有聚类中心的最短距离;将最短距离对应的聚类中心记为对应的高斯混合模型记为得到每种情绪状态对应的聚类中心集合以及每个聚类中心对应的高斯混合模型集合将当前采集到的声音输入至中,得到输出的Q种情绪状态的概率最大概率记为最大概率对应的情绪状态记为并计算的性能指标
进一步的,对每个用户在第q种情绪状态下的声音数据进行分帧和加窗处理;并根据如下公式计算每一帧所包含的能量:
En=x(n)2*ω(n)2
其中En为第n帧的能量,x(n)为帧信号,ω(n)为汉明窗;
按照如下公式对每个用户在第q种情绪状态下的所有帧信号进行分类:
其中,t表示帧类别,t=1,2,3,4;Et表示第t个帧类别对应的帧能量的范围;
计算每个用户在第q种情绪状态下第t个帧类别的时间比例lt:
其中,Timet表示用户在第q种情绪状态下第t个帧类别总时长;
计算每个用户在第q种情绪状态下的短时平均频率a1、短时均方差频率a2和共振峰频率a3,得到用户在第q种情绪状态的融合韵律特征m:
m=w1·a1+w2·a2+w3·a3
其中,w1、w2和w3均表示相对重要性;
将Q种情绪状态,用户在Q种情绪状态下第t个帧类别的时间比例lt,以及用户在第q种情绪状态下的融合韵律特征m组成用户的三维声音特征数据集。
进一步的,所述步骤2中找到K个聚类中心的方法具体为:首先将所有的三维声音特征数据集作为样本;在所有的样本中随机选择K个样本作为聚类中心,然后根据如下公式计算第i个样本到第k个聚类中心的距离d(i,k):
其中,liqt为第i个样本对应的用户在第q种情绪状态下的第t个帧类别时间比例,lkqt为第k个聚类中心对应的用户在第q种情绪状态下的第t个帧类别时间比例;miq为第i个样本对应的用户在第q种情绪状态下的融合韵律特征,mkq为第k个聚类中心对应的用户在第q种情绪状态下的融合韵律特征,liqs为第i个样本对应的用户在第q种情绪状态下声音数据的短时平均能量;
评估每个样本到聚类中心的距离,并将样本分配到与该样本距离最近的聚类中心所属的簇中,然后更新各个簇的聚类中心,得到新的聚类中心,并计算每个样本与新的聚类中心的距离,直至迭代次数大于预设的次数,最后得到最后的K个聚类中心的集合{o(1),o(2),...o(K)}。
进一步的,所述步骤2中采用K个聚类中心训练高斯混合模型,得到与K个聚类中心对应的K个高斯混合模型,具体为:
根据如下公式采用K-means算法初始化一组参数:
θd={αd,μd,σd}
其中,D为高斯子模型的数量,θd为第d个高斯子模型的参数,d=1,2,…,D,μd为第d个高斯子模型的均值,σd为第d个高斯子模型的方差,αd为第d个高斯子模型的标准差;
计算θd来自第d个高斯子模型的概率γd:
其中,xq为第q种情绪状态的三维声音特征向量,Φ(xq|θd)为第d个高斯子模型的输入特征向量为xq时得到的高斯密度函数;
再根据概率γd,计算新的参数值计算的值,如果小于阈值则终止迭代计算;否则,用新参数替代旧参数并开始迭代,直至最后得到的参数值与上一次迭代计算得到的参数指的差值的绝对值小于预设的阈值;最终得到第k个高斯混合模型Gk的表达式为:
进一步的,所述步骤3中根据如下公式计算使用者在初始化时输入正常情绪状态下的声音与每个聚类中心的距离d1(∧,o(k)):
其中,∧代表使用者,l∧1t为使用者初始化时正常情绪状态下的第t个帧类别时间比例,lo(k)1t为第k个聚类中心在正常情绪状态下的第t个帧类别时间比例,l∧1s为使用者初始化时正常情绪状态下声音数据的短时平均能量,m∧1为使用者初始化时正常情绪状态下的融合韵律特征,mo(k)1为第k个聚类中心在正常情绪状态下的融合韵律特征。
进一步的,所述步骤5具体为:假设当前采集到的使用者的声音对应第q种情绪状态,按照如下公式计算当前声音数据到所有聚类中心的距离dq(∧c,o(k)):
其中,∧c表示当前使用者,为当前使用者在第q种情绪状态下的第t个帧类别的时间比例,lo(k)qt为第k个聚类中心在第q种情绪状态下的第t个帧类别的时间比例,为当前使用者在第q种情绪状态下声音数据的短时平均能量,为当前使用者在第q种情绪状态下的融合韵律特征,mo(k)q为第k个聚类中心在第q种情绪状态下的融合韵律特征;
进一步的,所述步骤6中具体为:
有益效果:针对大多数机器学习算法的模型较为固定,不能有效识别不同种类的人在不同情绪下的情感,本发明提出一种声音情感多模型个性化识别方法,首先采集大量人员的声音情感数据构建三维声音情感数据集,通过基于三维声音特征的聚类方法得到不同人员类别的样本用户,进而利用不同人员类别的样本用户数据训练高斯混合模型,形成面向不同人员类别的声音情感识别模型;构建的多模型后融合步骤考虑了单一模型识别准确性较低的问题,通过融合多模态信息,更好的增强关键信息,加强了特征的表征能力,使得在智能驾驶场景下的情感识别的准确性相对于已有的方法有了较好的提升。
附图说明
图1为本发明流程图。
具体实施方式
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
如图1所示,本实施例的方法包括以下步骤:
步骤1:采集不同类别用户在驾驶场景下包含不同情绪的声音数据,构建用户三维声音特征数据集。
首先,采集大量不同人员类别用户在驾驶场景下Q种情感的声音数据,每段声音数据的时长为10秒;然后对样本用户在第q种情绪下得到的声音数据进行分帧、加窗处理,q=1,2,…,Q,并计算每一帧所包含的能量,公式如下:
En=x(n)2*ω(n)2,En∈[0,100dB]
其中En为第n帧的能量,x(n)为帧信号,ω(n)为汉明窗;然后,根据帧信号能量值的大小将帧分为四类,分类规则如下:
其中,t表示帧类别,t=1,2,3,4;Et表示第t个帧类别对应的帧能量的范围。
再计算每类帧在总帧数(这里的总帧数指的是一个用户再某种情绪状态下的总帧数)中的时间比例:
将lt作为时间维度特征,其中Timet为统计的某个用户在第q种情绪状态下第t类帧的时间长度;选择每个用户在第q种情绪状态下的短时平均频率a1、短时均方差频率a2和共振峰频率a3,作为每段声音数据的韵律特征,将三种特征进行融合得到融合韵律特征m,公式如下:
m=w1·a1+w2·a2+w3·a3
其中w1、w2、w3分别代表与a1、a2、a3对应特征的相对重要性。
将Q种情绪状态,用户在Q种情绪状态下第t个帧类别的时间比例lt,以及用户在第q种情绪状态下的融合韵律特征m组成用户的三维声音特征数据集。
步骤2:构建基于三维声音特征的聚类多模型训练方法,开发者通过基于三维声音特征的聚类方法得到不同人员类别的样本用户,进而利用不同人员类别的样本用户数据训练高斯混合模型,形成面向不同人员类别的声音情感识别模型。
步骤2.1,首先,将所有的三维声音特征数据集作为样本,根据人员类别在用户三维声音特征数据集中随机选择K个样本作为聚类中心;然后,计算第i个样本到第k个聚类中心的距离,公式如下:
其中,q为第q种情绪,liqt为第i个样本对应的用户在第q种情绪下的第t个帧类别时间比例,lkqt为第k个聚类中心对应的用户在第q种情绪下的第t个帧类别时间比例,miq为第i个样本对应的用户在第q种情绪下的融合韵律特征,mkq为第k个聚类中心在第q种情绪下的融合韵律特征,liqs为第i个样本用户在第q种情绪下声音数据的短时平均能量;然后评估每个样本用户到聚类中心的距离并将其分配到距离最近的中心所属的簇中,计算完毕后再次更新各簇的聚类中心,迭代至迭代次数大于预设的次数,获得K个人员类别对应的聚类中心的集合{o(1),o(2),...o(K)}。
步骤2.2,对于聚类后得到的K个聚类中心,分别采用混合高斯模型形成K个声音情感识别模型(也既高斯混合模型),表示为{G1,G2,...,GK},计算过程如下:
首先,使用K-means算法初始化一组参数,公式如下:
θd={αd,μd,σd}
其中,D为高斯子模型的数量,θd为第d个高斯子模型的参数,μd为第d个高斯子模型的均值,σd为第d个高斯子模型的方差,αd为第d个高斯子模型的标准差,d=1,2,…,D;然后计算每个数据(所述数据为θd)来自子模型d的概率,公式如下:
其中,γd为数据来自子模型d的概率,Φ(x|θd)为第d个高斯子模型的高斯密度函数;Φ(xq|θd)为第d个高斯子模型输入特征向量xq时得到的高斯密度函数;再根据概率求新的参数值用新参数替代旧参数并开始迭代,当小于阈值后终止迭代,最后得出声音情感概率密度函数(也就高斯混合模型),公式如下:
步骤3:构建初始化归类步骤,使用者在初始化时输入其正常情绪状态下的声音进行初始化归类,得到通用的基准模型和基准参数。
使用者在初始化时输入正常情绪状态下的声音,根据距离函数得出通用的基准模型和基准参数,公式如下:
k*=argmin(d1(∧,o(k)))
d*=d1(∧,o(k*))
其中设定第一种情绪状态为正常情绪状态,∧代表使用者,l∧1t为使用者初始化时正常情绪状态下的第t个帧类别的时间比例,lo(k)1t为第k个聚类中心在正常情绪状态下的第t个帧类别的时间比例,l∧1s为使用者初始化时正常情绪状态下声音数据的短时平均能量,m∧1为使用者初始化时正常情绪状态下的融合韵律特征,mo(k)1为为第k个聚类中心在正常情绪状态下的融合韵律特征,k*为初始化时使用者输入正常情绪状态下的声音对应的最优人员类别(也既与初始化时使用者输入正常情绪状态下的声音距离最短的聚类中心),d*为初始化时使用者输入正常情绪状态下的声音到达最优人员类别的距离,k*对应的高斯混合模型记为基准模型使用者初始化时正常情绪状态下的声音进入中得到该模型下正常情绪状态的概率由此得到基准模型的性能指标为
步骤4:构建多模型后融合步骤,在运行识别阶段输入实时采集的使用者的声音,声音样本经过基准模型后将其再输入其他模型中进行多模态信息融合并做判断,最终输出识别结果。
其中∧c代表当前使用者,为当前使用者在第q种情绪状态下的第t个帧类别的时间比例,lo(k)qt为第k个聚类中心在第q种情绪状态下的第t个帧类别的时间比例,为当前使用者在第q种情绪状态下声音数据的短时平均能量,为当前使用者在第q种情绪状态下的融合韵律特征,mo(k)q为第k个聚类中心在第q种情绪状态下的融合韵律特征;为当前声音数控在条件概率下所属的最优人员类别,为到达最优人员类别的距离,对应的高斯混合模型为重复上述步骤,得到Q种情绪概率对应的最优人员类别集合距离集合和高斯混合模型集合
最后计算性能指标的最大值,并取对应的情绪状态作为结果输出,公式如下:
其中OP*为性能指标的最大值,如果OP*为中某一个,例如则将对应的高斯混合模型输出的最大概率对应的情绪状态记作为当前使用者的情绪状态;如果则将一开始基准模型输出的最大概率对应情绪状态作为当前使用者的情绪状态。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
Claims (8)
1.面向智能驾驶的驾驶人声音情感识别方法,其特征在于,具体包括如下步骤:
步骤1:再驾驶场景中采集不同用户在Q种不同情绪状态下的声音数据,并构建每个用户的三维声音特征数据集;
步骤2:采用聚类方法在构建的三维声音特征数据集中找到K个聚类中心{o(1),o(2),...,o(k),...,o(K)},o(k)表示第k个聚类中心,k=1,2,…,K;采用K个聚类中心训练高斯混合模型,得到与K个聚类中心对应的K个高斯混合模型{G1,G2,...,Gk,....,GK},Gk表示第k个高斯混合模型;
步骤4:驾驶过程中实时采集使用者的声音,将当前采集到的声音输入至中,得到Q种情绪状态的概率其中q表示第q种情绪状态,q=1,2,…,Q,表示输出的第q种情绪状态的概率;记最大概率对应的情绪状态为classq*;
步骤5:计算第q种情绪状态下当前采集到的声音与所有聚类中心的最短距离;将最短距离对应的聚类中心记为 对应的高斯混合模型记为得到每种情绪状态对应的聚类中心集合以及每个聚类中心对应的高斯混合模型集合将当前采集到的声音输入至中,得到输出的Q种情绪状态的概率最大概率记为最大概率对应的情绪状态记为并计算的性能指标
2.根据权利要求1所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤1具体为:对每个用户在第q种情绪状态下的声音数据进行分帧和加窗处理;并根据如下公式计算每一帧所包含的能量:
En=x(n)2*ω(n)2
其中En为第n帧的能量,x(n)为帧信号,ω(n)为汉明窗;
按照如下公式对每个用户在第q种情绪状态下的所有帧信号进行分类:
其中,t表示帧类别,t=1,2,3,4;Et表示第t个帧类别对应的帧能量的范围;
计算每个用户在第q种情绪状态下第t个帧类别的时间比例lt:
其中,Timet表示用户在第q种情绪状态下第t个帧类别总时长;
计算每个用户在第q种情绪状态下的短时平均频率a1、短时均方差频率a2和共振峰频率a3,得到用户在第q种情绪状态的融合韵律特征m:
m=w1·a1+w2·a2+w3·a3
其中,w1、w2和w3均表示相对重要性;
将Q种情绪状态,用户在Q种情绪状态下第t个帧类别的时间比例lt,以及用户在第q种情绪状态下的融合韵律特征m组成用户的三维声音特征数据集。
3.根据权利要求2所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤2中找到K个聚类中心的方法具体为:首先将所有的三维声音特征数据集作为样本;在所有的样本中随机选择K个样本作为聚类中心,然后根据如下公式计算第i个样本到第k个聚类中心的距离d(i,k):
其中,liqt为第i个样本对应的用户在第q种情绪状态下的第t个帧类别时间比例,lkqt为第k个聚类中心对应的用户在第q种情绪状态下的第t个帧类别时间比例;miq为第i个样本对应的用户在第q种情绪状态下的融合韵律特征,mkq为第k个聚类中心对应的用户在第q种情绪状态下的融合韵律特征,liqs为第i个样本对应的用户在第q种情绪状态下声音数据的短时平均能量;
评估每个样本到聚类中心的距离,并将样本分配到与该样本距离最近的聚类中心所属的簇中,然后更新各个簇的聚类中心,得到新的聚类中心,并计算每个样本与新的聚类中心的距离,直至迭代次数大于预设的次数,最后得到最后的K个聚类中心的集合{o(1),o(2),...o(K)}。
4.根据权利要求2所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤2中采用K个聚类中心训练高斯混合模型,得到与K个聚类中心对应的K个高斯混合模型,具体为:
根据如下公式采用K-means算法初始化一组参数:
θd={αd,μd,σd}
其中,D为高斯子模型的数量,θd为第d个高斯子模型的参数,d=1,2,…,D,μd为第d个高斯子模型的均值,σd为第d个高斯子模型的方差,αd为第d个高斯子模型的标准差;
计算θd来自第d个高斯子模型的概率γd:
其中,xq为第q种情绪状态的三维声音特征向量,Φ(xq|θd)为第d个高斯子模型的输入特征向量为xq时得到的高斯密度函数;
再根据概率γd,计算新的参数值计算的值,如果小于阈值则终止迭代计算;否则,用新参数替代旧参数并开始迭代,直至最后得到的参数值与上一次迭代计算得到的参数指的差值的绝对值小于预设的阈值;最终得到第k个高斯混合模型Gk的表达式为:
6.根据权利要求2所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤5具体为:假设当前采集到的使用者的声音对应第q种情绪状态,按照如下公式计算当前声音数据到所有聚类中心的距离dq(∧c,o(k)):
其中,∧c表示当前使用者,为当前使用者在第q种情绪状态下的第t个帧类别的时间比例,lo(k)qt为第k个聚类中心在第q种情绪状态下的第t个帧类别的时间比例,为当前使用者在第q种情绪状态下声音数据的短时平均能量,为当前使用者在第q种情绪状态下的融合韵律特征,mo(k)q为第k个聚类中心在第q种情绪状态下的融合韵律特征;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210802515.8A CN115227246A (zh) | 2022-07-07 | 2022-07-07 | 面向智能驾驶的驾驶人声音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210802515.8A CN115227246A (zh) | 2022-07-07 | 2022-07-07 | 面向智能驾驶的驾驶人声音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115227246A true CN115227246A (zh) | 2022-10-25 |
Family
ID=83672277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210802515.8A Pending CN115227246A (zh) | 2022-07-07 | 2022-07-07 | 面向智能驾驶的驾驶人声音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115227246A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349792A (zh) * | 2023-10-25 | 2024-01-05 | 中国人民解放军空军军医大学 | 一种基于面部特征与语音特征的情绪识别方法 |
CN117349792B (zh) * | 2023-10-25 | 2024-06-07 | 中国人民解放军空军军医大学 | 一种基于面部特征与语音特征的情绪识别方法 |
-
2022
- 2022-07-07 CN CN202210802515.8A patent/CN115227246A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117349792A (zh) * | 2023-10-25 | 2024-01-05 | 中国人民解放军空军军医大学 | 一种基于面部特征与语音特征的情绪识别方法 |
CN117349792B (zh) * | 2023-10-25 | 2024-06-07 | 中国人民解放军空军军医大学 | 一种基于面部特征与语音特征的情绪识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
CN108805087B (zh) | 基于多模态情绪识别系统的时序语义融合关联判断子系统 | |
CN108877801B (zh) | 基于多模态情绪识别系统的多轮对话语义理解子系统 | |
CN108899050B (zh) | 基于多模态情绪识别系统的语音信号分析子系统 | |
CN108805089B (zh) | 基于多模态的情绪识别方法 | |
CN108805088B (zh) | 基于多模态情绪识别系统的生理信号分析子系统 | |
CN110021308B (zh) | 语音情绪识别方法、装置、计算机设备和存储介质 | |
CN110516696B (zh) | 一种基于语音和表情的自适应权重双模态融合情感识别方法 | |
EP4002362A1 (en) | Method and apparatus for training speech separation model, storage medium, and computer device | |
Schuller et al. | Speech emotion recognition combining acoustic features and linguistic information in a hybrid support vector machine-belief network architecture | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
JP2654917B2 (ja) | ニューラル・ネットワークを使用する話者独立孤立単語音声認識システム | |
CN110211594B (zh) | 一种基于孪生网络模型和knn算法的说话人识别方法 | |
JP2000081894A (ja) | 音声評価方法 | |
CN104200814A (zh) | 基于语义细胞的语音情感识别方法 | |
Chen et al. | Mandarin emotion recognition combining acoustic and emotional point information | |
Vieira et al. | Hilbert–Huang–Hurst‐based non‐linear acoustic feature vector for emotion classification with stochastic models and learning systems | |
CN110415697A (zh) | 一种基于深度学习的车载语音控制方法及其系统 | |
CN110910902B (zh) | 一种基于集成学习的混合模型语音情感识别方法及系统 | |
CN111128240B (zh) | 一种基于对抗语义擦除的语音情感识别方法 | |
CN116563829A (zh) | 一种驾驶员情绪识别方法、装置、电子设备和存储介质 | |
Scherer et al. | Real-time emotion recognition from speech using echo state networks | |
CN112466284B (zh) | 一种口罩语音鉴别方法 | |
Palo et al. | Emotion Analysis from Speech of Different Age Groups. | |
CN116434758A (zh) | 声纹识别模型训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |