CN115227246A - 面向智能驾驶的驾驶人声音情感识别方法 - Google Patents

面向智能驾驶的驾驶人声音情感识别方法 Download PDF

Info

Publication number
CN115227246A
CN115227246A CN202210802515.8A CN202210802515A CN115227246A CN 115227246 A CN115227246 A CN 115227246A CN 202210802515 A CN202210802515 A CN 202210802515A CN 115227246 A CN115227246 A CN 115227246A
Authority
CN
China
Prior art keywords
emotional state
user
qth
voice
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210802515.8A
Other languages
English (en)
Inventor
张晖
孙恩东
赵海涛
朱洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202210802515.8A priority Critical patent/CN115227246A/zh
Publication of CN115227246A publication Critical patent/CN115227246A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/18Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state for vehicle drivers or machine operators
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Acoustics & Sound (AREA)
  • Psychology (AREA)
  • Educational Technology (AREA)
  • Developmental Disabilities (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了面向智能驾驶的驾驶人声音情感识别方法,包括:采集不同用户在驾驶场景下包含不同情绪的声音数据,构建驾驶人三维声音特征数据集;然后构建基于三维声音特征的聚类多模型训练方法,通过基于三维声音特征的聚类方法得到不同人员类别的样本用户,进而利用不同人员类别的样本用户数据训练高斯混合模型,形成面向不同人员类别的声音情感识别模型;之后使用者在初始化时输入正常情绪状态下的声音进行初始化归类,得到通用的基准模型和基准参数;最后在运行识别阶段输入实时采集的使用者的声音,声音样本经过基准模型后将其再输入其他模型中进行多模态信息融合并做判断,最终输出识别结果。本发明提高了智能驾驶场景下的情感识别的准确性。

Description

面向智能驾驶的驾驶人声音情感识别方法
技术领域
本发明属于人工智能领域。
背景技术
随着智能汽车的快速发展,动态驾驶场景下驾驶员情绪的检测得益于智能座舱、人机交互系统。因此,驾驶员情绪监测成为一个热门的研究课题。一般的情绪识别方法根据检测到的信号分为两大类:基于脑电图、呼吸、心率等生理信号的识别;识别依赖于非生理信号,包括声音信号和面部表情。驾驶员情绪是驾驶员生理和心理状态的外在表现,影响着驾驶员的驾驶决策和行为。研究表明,愤怒、疲劳、焦急等负面情绪会降低驾驶员的风险感知,容易导致攻击性驾驶行为,显著增加撞车风险。由此可见,驾驶员情绪在交通安全中占有至关重要的地位,准确识别驾驶员情绪对提高智能汽车驾驶安全性和舒适性至关重要。目前主要的声音识别网络使用的模型较为单一,而由于不同类别的人的声音特征具有很大的差异,而单一模型去识别不同类别人员的不同情绪会出现声音特征不能充分利用,众多信息相互干扰,导致情感识别的精准度不尽人意。综上所述,提高语音情感识别的精度成为智能驾驶场景内急需解决的问题。
发明内容
发明目的:为了解决上述现有技术存在的问题,本发明提供了一种面向智能驾驶的驾驶人声音情感识别方法。
技术方案:本发明提供了一种面向智能驾驶的驾驶人声音情感识别方法,具体包括如下步骤:
步骤1:再驾驶场景中采集不同用户在Q种不同情绪状态下的声音数据,并构建每个用户的三维声音特征数据集;
步骤2:采用聚类方法在构建的三维声音特征数据集中找到K个聚类中心{o(1),o(2),...,o(k),...,o(K)},o(k)表示第k个聚类中心,k=1,2,…,K;采用K个聚类中心训练高斯混合模型,得到与K个聚类中心对应的K个高斯混合模型{G1,G2,...,Gk,....,GK},Gk表示第k个高斯混合模型;
步骤3:使用者在初始化时输入正常情绪状态下的声音,根据该声音与每个聚类中心的距离,得到初始化时使用者输入正常情绪状态下的声音对应的最优聚类中心k*;将k*对应的高斯混合模型作为基准模型
Figure BDA0003734612710000021
计算
Figure BDA0003734612710000022
的性能指标
Figure BDA0003734612710000023
步骤4:驾驶过程中实时采集使用者的声音,将当前采集到的声音输入至
Figure BDA0003734612710000024
中,得到Q种情绪状态的概率
Figure BDA0003734612710000025
其中q表示第q种情绪状态,q=1,2,…,Q,
Figure BDA0003734612710000026
表示
Figure BDA0003734612710000027
输出的第q种情绪状态的概率;记最大概率对应的情绪状态为classq*
步骤5:计算第q种情绪状态下当前采集到的声音与所有聚类中心的最短距离;将最短距离对应的聚类中心记为
Figure BDA0003734612710000028
对应的高斯混合模型记为
Figure BDA0003734612710000029
得到每种情绪状态对应的聚类中心集合
Figure BDA00037346127100000210
以及每个聚类中心对应的高斯混合模型集合
Figure BDA00037346127100000211
将当前采集到的声音输入至
Figure BDA00037346127100000212
中,得到
Figure BDA00037346127100000213
输出的Q种情绪状态的概率
Figure BDA00037346127100000214
最大概率记为
Figure BDA00037346127100000215
最大概率对应的情绪状态记为
Figure BDA00037346127100000216
并计算
Figure BDA00037346127100000217
的性能指标
Figure BDA00037346127100000218
步骤6:根据性能指标
Figure BDA00037346127100000219
和性能指标
Figure BDA00037346127100000220
判断当前使用者的情绪状态。
进一步的,对每个用户在第q种情绪状态下的声音数据进行分帧和加窗处理;并根据如下公式计算每一帧所包含的能量:
En=x(n)2*ω(n)2
其中En为第n帧的能量,x(n)为帧信号,ω(n)为汉明窗;
按照如下公式对每个用户在第q种情绪状态下的所有帧信号进行分类:
Figure BDA00037346127100000221
其中,t表示帧类别,t=1,2,3,4;Et表示第t个帧类别对应的帧能量的范围;
计算每个用户在第q种情绪状态下第t个帧类别的时间比例lt
Figure BDA00037346127100000222
其中,Timet表示用户在第q种情绪状态下第t个帧类别总时长;
计算每个用户在第q种情绪状态下的短时平均频率a1、短时均方差频率a2和共振峰频率a3,得到用户在第q种情绪状态的融合韵律特征m:
m=w1·a1+w2·a2+w3·a3
其中,w1、w2和w3均表示相对重要性;
将Q种情绪状态,用户在Q种情绪状态下第t个帧类别的时间比例lt,以及用户在第q种情绪状态下的融合韵律特征m组成用户的三维声音特征数据集。
进一步的,所述步骤2中找到K个聚类中心的方法具体为:首先将所有的三维声音特征数据集作为样本;在所有的样本中随机选择K个样本作为聚类中心,然后根据如下公式计算第i个样本到第k个聚类中心的距离d(i,k):
Figure BDA0003734612710000031
其中,liqt为第i个样本对应的用户在第q种情绪状态下的第t个帧类别时间比例,lkqt为第k个聚类中心对应的用户在第q种情绪状态下的第t个帧类别时间比例;miq为第i个样本对应的用户在第q种情绪状态下的融合韵律特征,mkq为第k个聚类中心对应的用户在第q种情绪状态下的融合韵律特征,liqs为第i个样本对应的用户在第q种情绪状态下声音数据的短时平均能量;
评估每个样本到聚类中心的距离,并将样本分配到与该样本距离最近的聚类中心所属的簇中,然后更新各个簇的聚类中心,得到新的聚类中心,并计算每个样本与新的聚类中心的距离,直至迭代次数大于预设的次数,最后得到最后的K个聚类中心的集合{o(1),o(2),...o(K)}。
进一步的,所述步骤2中采用K个聚类中心训练高斯混合模型,得到与K个聚类中心对应的K个高斯混合模型,具体为:
根据如下公式采用K-means算法初始化一组参数:
θd={αddd}
其中,D为高斯子模型的数量,θd为第d个高斯子模型的参数,d=1,2,…,D,μd为第d个高斯子模型的均值,σd为第d个高斯子模型的方差,αd为第d个高斯子模型的标准差;
计算θd来自第d个高斯子模型的概率γd
Figure BDA0003734612710000041
其中,xq为第q种情绪状态的三维声音特征向量,Φ(xqd)为第d个高斯子模型的输入特征向量为xq时得到的高斯密度函数;
再根据概率γd,计算新的参数值
Figure BDA0003734612710000042
计算
Figure BDA0003734612710000043
的值,如果
Figure BDA0003734612710000044
小于阈值则终止迭代计算;否则,用新参数替代旧参数并开始迭代,直至最后得到的参数值与上一次迭代计算得到的参数指的差值的绝对值小于预设的阈值;最终得到第k个高斯混合模型Gk的表达式为:
Figure BDA0003734612710000045
进一步的,所述步骤3中根据如下公式计算使用者在初始化时输入正常情绪状态下的声音与每个聚类中心的距离d1(∧,o(k)):
Figure BDA0003734612710000046
其中,∧代表使用者,l∧1t为使用者初始化时正常情绪状态下的第t个帧类别时间比例,lo(k)1t为第k个聚类中心在正常情绪状态下的第t个帧类别时间比例,l∧1s为使用者初始化时正常情绪状态下声音数据的短时平均能量,m∧1为使用者初始化时正常情绪状态下的融合韵律特征,mo(k)1为第k个聚类中心在正常情绪状态下的融合韵律特征。
进一步的,所述步骤5具体为:假设当前采集到的使用者的声音对应第q种情绪状态,按照如下公式计算当前声音数据到所有聚类中心的距离dq(∧c,o(k)):
Figure BDA0003734612710000051
其中,∧c表示当前使用者,
Figure BDA0003734612710000052
为当前使用者在第q种情绪状态下的第t个帧类别的时间比例,lo(k)qt为第k个聚类中心在第q种情绪状态下的第t个帧类别的时间比例,
Figure BDA0003734612710000053
为当前使用者在第q种情绪状态下声音数据的短时平均能量,
Figure BDA0003734612710000054
为当前使用者在第q种情绪状态下的融合韵律特征,mo(k)q为第k个聚类中心在第q种情绪状态下的融合韵律特征;
根据如下公式计算高斯混合模型集
Figure BDA0003734612710000055
的性能指标
Figure BDA0003734612710000056
Figure BDA0003734612710000057
其中
Figure BDA0003734612710000058
表示当前使用者的声音在第q种情绪状态下与聚类中心
Figure BDA0003734612710000059
之间的距离。
进一步的,所述步骤6中具体为:
将高斯混合模型集合
Figure BDA00037346127100000510
中每个高速混合模型的性能指标组成性能集合
Figure BDA00037346127100000511
Figure BDA00037346127100000512
和性能集合
Figure BDA00037346127100000513
中,选择最大的性能指标,记为OP*;根据如下公式判断当前用户的情绪状态qend
Figure BDA00037346127100000514
进一步的,所述步骤3中根据如下公式计算性能指标
Figure BDA00037346127100000515
Figure BDA0003734612710000061
其中,
Figure BDA0003734612710000062
表示使用者初始化时正常情绪状态下的声音进入
Figure BDA0003734612710000063
中得到正常情绪状态的概率,d*表示使用者初始化时输入的声音数据与最优聚类中心k*的距离,d*=d1(∧,o(k*))。
有益效果:针对大多数机器学习算法的模型较为固定,不能有效识别不同种类的人在不同情绪下的情感,本发明提出一种声音情感多模型个性化识别方法,首先采集大量人员的声音情感数据构建三维声音情感数据集,通过基于三维声音特征的聚类方法得到不同人员类别的样本用户,进而利用不同人员类别的样本用户数据训练高斯混合模型,形成面向不同人员类别的声音情感识别模型;构建的多模型后融合步骤考虑了单一模型识别准确性较低的问题,通过融合多模态信息,更好的增强关键信息,加强了特征的表征能力,使得在智能驾驶场景下的情感识别的准确性相对于已有的方法有了较好的提升。
附图说明
图1为本发明流程图。
具体实施方式
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
如图1所示,本实施例的方法包括以下步骤:
步骤1:采集不同类别用户在驾驶场景下包含不同情绪的声音数据,构建用户三维声音特征数据集。
首先,采集大量不同人员类别用户在驾驶场景下Q种情感的声音数据,每段声音数据的时长为10秒;然后对样本用户在第q种情绪下得到的声音数据进行分帧、加窗处理,q=1,2,…,Q,并计算每一帧所包含的能量,公式如下:
En=x(n)2*ω(n)2,En∈[0,100dB]
其中En为第n帧的能量,x(n)为帧信号,ω(n)为汉明窗;然后,根据帧信号能量值的大小将帧分为四类,分类规则如下:
Figure BDA0003734612710000071
其中,t表示帧类别,t=1,2,3,4;Et表示第t个帧类别对应的帧能量的范围。
再计算每类帧在总帧数(这里的总帧数指的是一个用户再某种情绪状态下的总帧数)中的时间比例:
Figure BDA0003734612710000072
将lt作为时间维度特征,其中Timet为统计的某个用户在第q种情绪状态下第t类帧的时间长度;选择每个用户在第q种情绪状态下的短时平均频率a1、短时均方差频率a2和共振峰频率a3,作为每段声音数据的韵律特征,将三种特征进行融合得到融合韵律特征m,公式如下:
m=w1·a1+w2·a2+w3·a3
其中w1、w2、w3分别代表与a1、a2、a3对应特征的相对重要性。
将Q种情绪状态,用户在Q种情绪状态下第t个帧类别的时间比例lt,以及用户在第q种情绪状态下的融合韵律特征m组成用户的三维声音特征数据集。
步骤2:构建基于三维声音特征的聚类多模型训练方法,开发者通过基于三维声音特征的聚类方法得到不同人员类别的样本用户,进而利用不同人员类别的样本用户数据训练高斯混合模型,形成面向不同人员类别的声音情感识别模型。
步骤2.1,首先,将所有的三维声音特征数据集作为样本,根据人员类别在用户三维声音特征数据集中随机选择K个样本作为聚类中心;然后,计算第i个样本到第k个聚类中心的距离,公式如下:
Figure BDA0003734612710000073
其中,q为第q种情绪,liqt为第i个样本对应的用户在第q种情绪下的第t个帧类别时间比例,lkqt为第k个聚类中心对应的用户在第q种情绪下的第t个帧类别时间比例,miq为第i个样本对应的用户在第q种情绪下的融合韵律特征,mkq为第k个聚类中心在第q种情绪下的融合韵律特征,liqs为第i个样本用户在第q种情绪下声音数据的短时平均能量;然后评估每个样本用户到聚类中心的距离并将其分配到距离最近的中心所属的簇中,计算完毕后再次更新各簇的聚类中心,迭代至迭代次数大于预设的次数,获得K个人员类别对应的聚类中心的集合{o(1),o(2),...o(K)}。
步骤2.2,对于聚类后得到的K个聚类中心,分别采用混合高斯模型形成K个声音情感识别模型(也既高斯混合模型),表示为{G1,G2,...,GK},计算过程如下:
首先,使用K-means算法初始化一组参数,公式如下:
θd={αddd}
其中,D为高斯子模型的数量,θd为第d个高斯子模型的参数,μd为第d个高斯子模型的均值,σd为第d个高斯子模型的方差,αd为第d个高斯子模型的标准差,d=1,2,…,D;然后计算每个数据(所述数据为θd)来自子模型d的概率,公式如下:
Figure BDA0003734612710000081
其中,γd为数据来自子模型d的概率,Φ(x|θd)为第d个高斯子模型的高斯密度函数;Φ(xqd)为第d个高斯子模型输入特征向量xq时得到的高斯密度函数;再根据概率求新的参数值
Figure BDA0003734612710000082
用新参数替代旧参数并开始迭代,当
Figure BDA0003734612710000083
小于阈值后终止迭代,最后得出声音情感概率密度函数(也就高斯混合模型),公式如下:
Figure BDA0003734612710000084
其中
Figure BDA0003734612710000085
为第k个高斯混合模型输出的第q种情绪的概率;对每个人员类别的样本用户数据重复上述步骤,最终得出K个人员类别对应的声音情感识别模型{G1,G2,...,GK}。
步骤3:构建初始化归类步骤,使用者在初始化时输入其正常情绪状态下的声音进行初始化归类,得到通用的基准模型和基准参数。
使用者在初始化时输入正常情绪状态下的声音,根据距离函数得出通用的基准模型和基准参数,公式如下:
Figure BDA0003734612710000091
k*=argmin(d1(∧,o(k)))
d*=d1(∧,o(k*))
其中设定第一种情绪状态为正常情绪状态,∧代表使用者,l∧1t为使用者初始化时正常情绪状态下的第t个帧类别的时间比例,lo(k)1t为第k个聚类中心在正常情绪状态下的第t个帧类别的时间比例,l∧1s为使用者初始化时正常情绪状态下声音数据的短时平均能量,m∧1为使用者初始化时正常情绪状态下的融合韵律特征,mo(k)1为为第k个聚类中心在正常情绪状态下的融合韵律特征,k*为初始化时使用者输入正常情绪状态下的声音对应的最优人员类别(也既与初始化时使用者输入正常情绪状态下的声音距离最短的聚类中心),d*为初始化时使用者输入正常情绪状态下的声音到达最优人员类别的距离,k*对应的高斯混合模型记为基准模型
Figure BDA0003734612710000092
使用者初始化时正常情绪状态下的声音进入
Figure BDA0003734612710000093
中得到该模型下正常情绪状态的概率
Figure BDA0003734612710000094
由此得到基准模型的性能指标为
Figure BDA0003734612710000095
步骤4:构建多模型后融合步骤,在运行识别阶段输入实时采集的使用者的声音,声音样本经过基准模型后将其再输入其他模型中进行多模态信息融合并做判断,最终输出识别结果。
在使用者实际使用过程中,不断采集使用者的实时声音,在识别阶段首先将实时采集的声音数据输入基准模型
Figure BDA0003734612710000101
中,得到Q种情绪的概率
Figure BDA0003734612710000102
其中最大概率记为
Figure BDA0003734612710000103
对应情绪状态记为classq*
假设当前声音对应于第q种情绪状态,再计算当前声音数据到所有聚类中心的最短距离,并得到在
Figure BDA0003734612710000104
条件概率下所属的模型,计算公式如下:
Figure BDA0003734612710000105
Figure BDA0003734612710000106
Figure BDA0003734612710000107
其中∧c代表当前使用者,
Figure BDA0003734612710000108
为当前使用者在第q种情绪状态下的第t个帧类别的时间比例,lo(k)qt为第k个聚类中心在第q种情绪状态下的第t个帧类别的时间比例,
Figure BDA0003734612710000109
为当前使用者在第q种情绪状态下声音数据的短时平均能量,
Figure BDA00037346127100001010
为当前使用者在第q种情绪状态下的融合韵律特征,mo(k)q为第k个聚类中心在第q种情绪状态下的融合韵律特征;
Figure BDA00037346127100001011
为当前声音数控在
Figure BDA00037346127100001012
条件概率下所属的最优人员类别,
Figure BDA00037346127100001013
为到达最优人员类别的距离,
Figure BDA00037346127100001014
对应的高斯混合模型为
Figure BDA00037346127100001015
重复上述步骤,得到Q种情绪概率对应的最优人员类别集合
Figure BDA00037346127100001016
距离集合
Figure BDA00037346127100001017
和高斯混合模型集合
Figure BDA00037346127100001018
然后将当前声音数据输入模型
Figure BDA00037346127100001019
中得到Q种情绪的概率
Figure BDA00037346127100001020
取其中的最大概率记为
Figure BDA00037346127100001021
最大概率对应的情绪状态记为
Figure BDA00037346127100001022
并计算模型
Figure BDA00037346127100001023
的性能指标
Figure BDA00037346127100001024
公式如下:
Figure BDA00037346127100001025
重复上述步骤得到性能指标的集合
Figure BDA0003734612710000111
最后计算性能指标的最大值,并取对应的情绪状态作为结果输出,公式如下:
Figure BDA0003734612710000112
Figure BDA0003734612710000113
其中OP*为性能指标的最大值,如果OP*
Figure BDA0003734612710000114
中某一个,例如
Figure BDA0003734612710000115
则将
Figure BDA0003734612710000116
对应的高斯混合模型
Figure BDA0003734612710000117
输出的最大概率对应的情绪状态记
Figure BDA0003734612710000118
作为当前使用者的情绪状态;如果
Figure BDA0003734612710000119
则将一开始基准模型输出的最大概率对应情绪状态
Figure BDA00037346127100001110
作为当前使用者的情绪状态。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。

Claims (8)

1.面向智能驾驶的驾驶人声音情感识别方法,其特征在于,具体包括如下步骤:
步骤1:再驾驶场景中采集不同用户在Q种不同情绪状态下的声音数据,并构建每个用户的三维声音特征数据集;
步骤2:采用聚类方法在构建的三维声音特征数据集中找到K个聚类中心{o(1),o(2),...,o(k),...,o(K)},o(k)表示第k个聚类中心,k=1,2,…,K;采用K个聚类中心训练高斯混合模型,得到与K个聚类中心对应的K个高斯混合模型{G1,G2,...,Gk,....,GK},Gk表示第k个高斯混合模型;
步骤3:使用者在初始化时输入正常情绪状态下的声音,根据该声音与每个聚类中心的距离,得到初始化时使用者输入正常情绪状态下的声音对应的最优聚类中心k*;将k*对应的高斯混合模型作为基准模型
Figure FDA0003734612700000011
计算
Figure FDA0003734612700000012
的性能指标
Figure FDA0003734612700000013
步骤4:驾驶过程中实时采集使用者的声音,将当前采集到的声音输入至
Figure FDA0003734612700000014
中,得到Q种情绪状态的概率
Figure FDA0003734612700000015
其中q表示第q种情绪状态,q=1,2,…,Q,
Figure FDA0003734612700000016
表示
Figure FDA0003734612700000017
输出的第q种情绪状态的概率;记最大概率对应的情绪状态为classq*
步骤5:计算第q种情绪状态下当前采集到的声音与所有聚类中心的最短距离;将最短距离对应的聚类中心记为
Figure FDA0003734612700000018
Figure FDA0003734612700000019
对应的高斯混合模型记为
Figure FDA00037346127000000110
得到每种情绪状态对应的聚类中心集合
Figure FDA00037346127000000111
以及每个聚类中心对应的高斯混合模型集合
Figure FDA00037346127000000112
将当前采集到的声音输入至
Figure FDA00037346127000000113
中,得到
Figure FDA00037346127000000114
输出的Q种情绪状态的概率
Figure FDA00037346127000000115
最大概率记为
Figure FDA00037346127000000116
最大概率对应的情绪状态记为
Figure FDA00037346127000000117
并计算
Figure FDA00037346127000000118
的性能指标
Figure FDA00037346127000000119
步骤6:根据性能指标
Figure FDA00037346127000000120
和性能指标
Figure FDA00037346127000000121
判断当前使用者的情绪状态。
2.根据权利要求1所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤1具体为:对每个用户在第q种情绪状态下的声音数据进行分帧和加窗处理;并根据如下公式计算每一帧所包含的能量:
En=x(n)2*ω(n)2
其中En为第n帧的能量,x(n)为帧信号,ω(n)为汉明窗;
按照如下公式对每个用户在第q种情绪状态下的所有帧信号进行分类:
Figure FDA0003734612700000021
其中,t表示帧类别,t=1,2,3,4;Et表示第t个帧类别对应的帧能量的范围;
计算每个用户在第q种情绪状态下第t个帧类别的时间比例lt
Figure FDA0003734612700000022
其中,Timet表示用户在第q种情绪状态下第t个帧类别总时长;
计算每个用户在第q种情绪状态下的短时平均频率a1、短时均方差频率a2和共振峰频率a3,得到用户在第q种情绪状态的融合韵律特征m:
m=w1·a1+w2·a2+w3·a3
其中,w1、w2和w3均表示相对重要性;
将Q种情绪状态,用户在Q种情绪状态下第t个帧类别的时间比例lt,以及用户在第q种情绪状态下的融合韵律特征m组成用户的三维声音特征数据集。
3.根据权利要求2所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤2中找到K个聚类中心的方法具体为:首先将所有的三维声音特征数据集作为样本;在所有的样本中随机选择K个样本作为聚类中心,然后根据如下公式计算第i个样本到第k个聚类中心的距离d(i,k):
Figure FDA0003734612700000023
其中,liqt为第i个样本对应的用户在第q种情绪状态下的第t个帧类别时间比例,lkqt为第k个聚类中心对应的用户在第q种情绪状态下的第t个帧类别时间比例;miq为第i个样本对应的用户在第q种情绪状态下的融合韵律特征,mkq为第k个聚类中心对应的用户在第q种情绪状态下的融合韵律特征,liqs为第i个样本对应的用户在第q种情绪状态下声音数据的短时平均能量;
评估每个样本到聚类中心的距离,并将样本分配到与该样本距离最近的聚类中心所属的簇中,然后更新各个簇的聚类中心,得到新的聚类中心,并计算每个样本与新的聚类中心的距离,直至迭代次数大于预设的次数,最后得到最后的K个聚类中心的集合{o(1),o(2),...o(K)}。
4.根据权利要求2所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤2中采用K个聚类中心训练高斯混合模型,得到与K个聚类中心对应的K个高斯混合模型,具体为:
根据如下公式采用K-means算法初始化一组参数:
θd={αddd}
其中,D为高斯子模型的数量,θd为第d个高斯子模型的参数,d=1,2,…,D,μd为第d个高斯子模型的均值,σd为第d个高斯子模型的方差,αd为第d个高斯子模型的标准差;
计算θd来自第d个高斯子模型的概率γd
Figure FDA0003734612700000031
其中,xq为第q种情绪状态的三维声音特征向量,Φ(xqd)为第d个高斯子模型的输入特征向量为xq时得到的高斯密度函数;
再根据概率γd,计算新的参数值
Figure FDA0003734612700000032
计算
Figure FDA0003734612700000033
的值,如果
Figure FDA0003734612700000034
小于阈值则终止迭代计算;否则,用新参数替代旧参数并开始迭代,直至最后得到的参数值与上一次迭代计算得到的参数指的差值的绝对值小于预设的阈值;最终得到第k个高斯混合模型Gk的表达式为:
Figure FDA0003734612700000041
5.根据权利要求2所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤3中根据如下公式计算使用者在初始化时输入正常情绪状态下的声音与每个聚类中心的距离d1(∧,o(k)):
Figure FDA0003734612700000042
其中,∧代表使用者,l∧1t为使用者初始化时正常情绪状态下的第t个帧类别时间比例,lo(k)1t为第k个聚类中心在正常情绪状态下的第t个帧类别时间比例,l∧1s为使用者初始化时正常情绪状态下声音数据的短时平均能量,m∧1为使用者初始化时正常情绪状态下的融合韵律特征,mo(k)1为第k个聚类中心在正常情绪状态下的融合韵律特征。
6.根据权利要求2所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤5具体为:假设当前采集到的使用者的声音对应第q种情绪状态,按照如下公式计算当前声音数据到所有聚类中心的距离dq(∧c,o(k)):
Figure FDA0003734612700000043
其中,∧c表示当前使用者,
Figure FDA0003734612700000044
为当前使用者在第q种情绪状态下的第t个帧类别的时间比例,lo(k)qt为第k个聚类中心在第q种情绪状态下的第t个帧类别的时间比例,
Figure FDA0003734612700000045
为当前使用者在第q种情绪状态下声音数据的短时平均能量,
Figure FDA0003734612700000046
为当前使用者在第q种情绪状态下的融合韵律特征,mo(k)q为第k个聚类中心在第q种情绪状态下的融合韵律特征;
根据如下公式计算高斯混合模型集
Figure FDA0003734612700000047
的性能指标
Figure FDA0003734612700000048
Figure FDA0003734612700000051
其中
Figure FDA0003734612700000052
Figure FDA0003734612700000053
表示当前使用者的声音在第q种情绪状态下与聚类中心
Figure FDA0003734612700000054
之间的距离。
7.根据权利要求1所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤6中具体为:
将高斯混合模型集合
Figure FDA0003734612700000055
中每个高速混合模型的性能指标组成性能集合
Figure FDA0003734612700000056
Figure FDA0003734612700000057
和性能集合
Figure FDA0003734612700000058
中,选择最大的性能指标,记为OP*;根据如下公式判断当前用户的情绪状态qend
Figure FDA0003734612700000059
8.根据权利要求1所述的面向智能驾驶的驾驶人声音情感识别方法,其特征在于,所述步骤3中根据如下公式计算性能指标
Figure FDA00037346127000000510
Figure FDA00037346127000000511
其中,
Figure FDA00037346127000000512
表示使用者初始化时正常情绪状态下的声音进入
Figure FDA00037346127000000513
中得到正常情绪状态的概率,d*表示使用者初始化时输入的声音数据与最优聚类中心k*的距离,d*=d1(∧,o(k*))。
CN202210802515.8A 2022-07-07 2022-07-07 面向智能驾驶的驾驶人声音情感识别方法 Pending CN115227246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210802515.8A CN115227246A (zh) 2022-07-07 2022-07-07 面向智能驾驶的驾驶人声音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210802515.8A CN115227246A (zh) 2022-07-07 2022-07-07 面向智能驾驶的驾驶人声音情感识别方法

Publications (1)

Publication Number Publication Date
CN115227246A true CN115227246A (zh) 2022-10-25

Family

ID=83672277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210802515.8A Pending CN115227246A (zh) 2022-07-07 2022-07-07 面向智能驾驶的驾驶人声音情感识别方法

Country Status (1)

Country Link
CN (1) CN115227246A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349792A (zh) * 2023-10-25 2024-01-05 中国人民解放军空军军医大学 一种基于面部特征与语音特征的情绪识别方法
CN117349792B (zh) * 2023-10-25 2024-06-07 中国人民解放军空军军医大学 一种基于面部特征与语音特征的情绪识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349792A (zh) * 2023-10-25 2024-01-05 中国人民解放军空军军医大学 一种基于面部特征与语音特征的情绪识别方法
CN117349792B (zh) * 2023-10-25 2024-06-07 中国人民解放军空军军医大学 一种基于面部特征与语音特征的情绪识别方法

Similar Documents

Publication Publication Date Title
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
CN108805087B (zh) 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN108877801B (zh) 基于多模态情绪识别系统的多轮对话语义理解子系统
CN108899050B (zh) 基于多模态情绪识别系统的语音信号分析子系统
CN108805089B (zh) 基于多模态的情绪识别方法
CN108805088B (zh) 基于多模态情绪识别系统的生理信号分析子系统
CN110021308B (zh) 语音情绪识别方法、装置、计算机设备和存储介质
CN110516696B (zh) 一种基于语音和表情的自适应权重双模态融合情感识别方法
EP4002362A1 (en) Method and apparatus for training speech separation model, storage medium, and computer device
Schuller et al. Speech emotion recognition combining acoustic features and linguistic information in a hybrid support vector machine-belief network architecture
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
JP2654917B2 (ja) ニューラル・ネットワークを使用する話者独立孤立単語音声認識システム
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
JP2000081894A (ja) 音声評価方法
CN104200814A (zh) 基于语义细胞的语音情感识别方法
Chen et al. Mandarin emotion recognition combining acoustic and emotional point information
Vieira et al. Hilbert–Huang–Hurst‐based non‐linear acoustic feature vector for emotion classification with stochastic models and learning systems
CN110415697A (zh) 一种基于深度学习的车载语音控制方法及其系统
CN110910902B (zh) 一种基于集成学习的混合模型语音情感识别方法及系统
CN111128240B (zh) 一种基于对抗语义擦除的语音情感识别方法
CN116563829A (zh) 一种驾驶员情绪识别方法、装置、电子设备和存储介质
Scherer et al. Real-time emotion recognition from speech using echo state networks
CN112466284B (zh) 一种口罩语音鉴别方法
Palo et al. Emotion Analysis from Speech of Different Age Groups.
CN116434758A (zh) 声纹识别模型训练方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination