CN115227246A

CN115227246A - 面向智能驾驶的驾驶人声音情感识别方法

Info

Publication number: CN115227246A
Application number: CN202210802515.8A
Authority: CN
Inventors: 张晖; 孙恩东; 赵海涛; 朱洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-10-25

Abstract

本发明公开了面向智能驾驶的驾驶人声音情感识别方法，包括：采集不同用户在驾驶场景下包含不同情绪的声音数据，构建驾驶人三维声音特征数据集；然后构建基于三维声音特征的聚类多模型训练方法，通过基于三维声音特征的聚类方法得到不同人员类别的样本用户，进而利用不同人员类别的样本用户数据训练高斯混合模型，形成面向不同人员类别的声音情感识别模型；之后使用者在初始化时输入正常情绪状态下的声音进行初始化归类，得到通用的基准模型和基准参数；最后在运行识别阶段输入实时采集的使用者的声音，声音样本经过基准模型后将其再输入其他模型中进行多模态信息融合并做判断，最终输出识别结果。本发明提高了智能驾驶场景下的情感识别的准确性。

Description

面向智能驾驶的驾驶人声音情感识别方法

技术领域

本发明属于人工智能领域。

背景技术

随着智能汽车的快速发展，动态驾驶场景下驾驶员情绪的检测得益于智能座舱、人机交互系统。因此，驾驶员情绪监测成为一个热门的研究课题。一般的情绪识别方法根据检测到的信号分为两大类:基于脑电图、呼吸、心率等生理信号的识别；识别依赖于非生理信号，包括声音信号和面部表情。驾驶员情绪是驾驶员生理和心理状态的外在表现，影响着驾驶员的驾驶决策和行为。研究表明，愤怒、疲劳、焦急等负面情绪会降低驾驶员的风险感知，容易导致攻击性驾驶行为，显著增加撞车风险。由此可见，驾驶员情绪在交通安全中占有至关重要的地位，准确识别驾驶员情绪对提高智能汽车驾驶安全性和舒适性至关重要。目前主要的声音识别网络使用的模型较为单一，而由于不同类别的人的声音特征具有很大的差异，而单一模型去识别不同类别人员的不同情绪会出现声音特征不能充分利用，众多信息相互干扰，导致情感识别的精准度不尽人意。综上所述，提高语音情感识别的精度成为智能驾驶场景内急需解决的问题。

发明内容

发明目的：为了解决上述现有技术存在的问题，本发明提供了一种面向智能驾驶的驾驶人声音情感识别方法。

技术方案：本发明提供了一种面向智能驾驶的驾驶人声音情感识别方法，具体包括如下步骤：

步骤1：再驾驶场景中采集不同用户在Q种不同情绪状态下的声音数据，并构建每个用户的三维声音特征数据集；

步骤2：采用聚类方法在构建的三维声音特征数据集中找到K个聚类中心{o(1),o(2),...,o(k),...,o(K)}，o(k)表示第k个聚类中心,k＝1,2,…,K；采用K个聚类中心训练高斯混合模型，得到与K个聚类中心对应的K个高斯混合模型{G₁,G₂,...,G_k,....,G_K}，G_k表示第k个高斯混合模型；

步骤3：使用者在初始化时输入正常情绪状态下的声音，根据该声音与每个聚类中心的距离，得到初始化时使用者输入正常情绪状态下的声音对应的最优聚类中心k_*；将k_*对应的高斯混合模型作为基准模型

计算

的性能指标

步骤4：驾驶过程中实时采集使用者的声音，将当前采集到的声音输入至

中，得到Q种情绪状态的概率

其中q表示第q种情绪状态，q＝1,2,…,Q，

表示

输出的第q种情绪状态的概率；记最大概率对应的情绪状态为class_q*；

步骤5：计算第q种情绪状态下当前采集到的声音与所有聚类中心的最短距离；将最短距离对应的聚类中心记为

对应的高斯混合模型记为

得到每种情绪状态对应的聚类中心集合

以及每个聚类中心对应的高斯混合模型集合

将当前采集到的声音输入至

中，得到

输出的Q种情绪状态的概率

最大概率记为

最大概率对应的情绪状态记为

并计算

的性能指标

步骤6：根据性能指标

和性能指标

判断当前使用者的情绪状态。

进一步的，对每个用户在第q种情绪状态下的声音数据进行分帧和加窗处理；并根据如下公式计算每一帧所包含的能量：

E_n＝x(n)²*ω(n)²

其中E_n为第n帧的能量，x(n)为帧信号，ω(n)为汉明窗；

按照如下公式对每个用户在第q种情绪状态下的所有帧信号进行分类：

其中，t表示帧类别，t＝1,2,3,4；E_t表示第t个帧类别对应的帧能量的范围；

计算每个用户在第q种情绪状态下第t个帧类别的时间比例l_t：

其中，Time_t表示用户在第q种情绪状态下第t个帧类别总时长；

计算每个用户在第q种情绪状态下的短时平均频率a₁、短时均方差频率a₂和共振峰频率a₃，得到用户在第q种情绪状态的融合韵律特征m：

m＝w₁·a₁+w₂·a₂+w₃·a₃

其中，w₁、w₂和w₃均表示相对重要性；

将Q种情绪状态，用户在Q种情绪状态下第t个帧类别的时间比例l_t，以及用户在第q种情绪状态下的融合韵律特征m组成用户的三维声音特征数据集。

进一步的，所述步骤2中找到K个聚类中心的方法具体为：首先将所有的三维声音特征数据集作为样本；在所有的样本中随机选择K个样本作为聚类中心，然后根据如下公式计算第i个样本到第k个聚类中心的距离d(i,k)：

其中，l_iqt为第i个样本对应的用户在第q种情绪状态下的第t个帧类别时间比例，l_kqt为第k个聚类中心对应的用户在第q种情绪状态下的第t个帧类别时间比例；m_iq为第i个样本对应的用户在第q种情绪状态下的融合韵律特征，m_kq为第k个聚类中心对应的用户在第q种情绪状态下的融合韵律特征，l_iqs为第i个样本对应的用户在第q种情绪状态下声音数据的短时平均能量；

评估每个样本到聚类中心的距离，并将样本分配到与该样本距离最近的聚类中心所属的簇中，然后更新各个簇的聚类中心，得到新的聚类中心，并计算每个样本与新的聚类中心的距离，直至迭代次数大于预设的次数，最后得到最后的K个聚类中心的集合{o(1),o(2),...o(K)}。

进一步的，所述步骤2中采用K个聚类中心训练高斯混合模型，得到与K个聚类中心对应的K个高斯混合模型，具体为：

根据如下公式采用K-means算法初始化一组参数：

θ_d＝{α_d,μ_d,σ_d}

其中，D为高斯子模型的数量，θ_d为第d个高斯子模型的参数，d＝1,2,…,D，μ_d为第d个高斯子模型的均值，σ_d为第d个高斯子模型的方差，α_d为第d个高斯子模型的标准差；

计算θ_d来自第d个高斯子模型的概率γ_d：

其中，x_q为第q种情绪状态的三维声音特征向量，Φ(x_q|θ_d)为第d个高斯子模型的输入特征向量为x_q时得到的高斯密度函数；

再根据概率γ_d，计算新的参数值

计算

的值，如果

小于阈值则终止迭代计算；否则，用新参数替代旧参数并开始迭代，直至最后得到的参数值与上一次迭代计算得到的参数指的差值的绝对值小于预设的阈值；最终得到第k个高斯混合模型G_k的表达式为：

进一步的，所述步骤3中根据如下公式计算使用者在初始化时输入正常情绪状态下的声音与每个聚类中心的距离d¹(∧，o(k))：

其中，∧代表使用者，l_∧1t为使用者初始化时正常情绪状态下的第t个帧类别时间比例，l_o(k)1t为第k个聚类中心在正常情绪状态下的第t个帧类别时间比例，l_∧1s为使用者初始化时正常情绪状态下声音数据的短时平均能量，m_∧1为使用者初始化时正常情绪状态下的融合韵律特征，m_o(k)1为第k个聚类中心在正常情绪状态下的融合韵律特征。

进一步的，所述步骤5具体为：假设当前采集到的使用者的声音对应第q种情绪状态，按照如下公式计算当前声音数据到所有聚类中心的距离d^q(∧^c，o(k))：

其中，∧^c表示当前使用者，

为当前使用者在第q种情绪状态下的第t个帧类别的时间比例，l_o(k)qt为第k个聚类中心在第q种情绪状态下的第t个帧类别的时间比例，

为当前使用者在第q种情绪状态下声音数据的短时平均能量，

为当前使用者在第q种情绪状态下的融合韵律特征，m_o(k)q为第k个聚类中心在第q种情绪状态下的融合韵律特征；

根据如下公式计算高斯混合模型集

的性能指标

其中

表示当前使用者的声音在第q种情绪状态下与聚类中心

之间的距离。

进一步的，所述步骤6中具体为：

将高斯混合模型集合

中每个高速混合模型的性能指标组成性能集合

在

和性能集合

中，选择最大的性能指标，记为OP_*；根据如下公式判断当前用户的情绪状态q_end：

进一步的，所述步骤3中根据如下公式计算性能指标

其中，

表示使用者初始化时正常情绪状态下的声音进入

中得到正常情绪状态的概率，d_*表示使用者初始化时输入的声音数据与最优聚类中心k_*的距离，d_*＝d¹(∧,o(k_*))。

有益效果：针对大多数机器学习算法的模型较为固定，不能有效识别不同种类的人在不同情绪下的情感，本发明提出一种声音情感多模型个性化识别方法，首先采集大量人员的声音情感数据构建三维声音情感数据集，通过基于三维声音特征的聚类方法得到不同人员类别的样本用户，进而利用不同人员类别的样本用户数据训练高斯混合模型，形成面向不同人员类别的声音情感识别模型；构建的多模型后融合步骤考虑了单一模型识别准确性较低的问题，通过融合多模态信息，更好的增强关键信息，加强了特征的表征能力，使得在智能驾驶场景下的情感识别的准确性相对于已有的方法有了较好的提升。

附图说明

图1为本发明流程图。

具体实施方式

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

如图1所示，本实施例的方法包括以下步骤：

步骤1：采集不同类别用户在驾驶场景下包含不同情绪的声音数据，构建用户三维声音特征数据集。

首先，采集大量不同人员类别用户在驾驶场景下Q种情感的声音数据，每段声音数据的时长为10秒；然后对样本用户在第q种情绪下得到的声音数据进行分帧、加窗处理，q＝1,2,…,Q，并计算每一帧所包含的能量，公式如下：

E_n＝x(n)²*ω(n)²，E_n∈[0,100dB]

其中E_n为第n帧的能量，x(n)为帧信号，ω(n)为汉明窗；然后，根据帧信号能量值的大小将帧分为四类，分类规则如下：

其中，t表示帧类别，t＝1,2,3,4；E_t表示第t个帧类别对应的帧能量的范围。

再计算每类帧在总帧数(这里的总帧数指的是一个用户再某种情绪状态下的总帧数)中的时间比例：

将l_t作为时间维度特征,其中Time_t为统计的某个用户在第q种情绪状态下第t类帧的时间长度；选择每个用户在第q种情绪状态下的短时平均频率a₁、短时均方差频率a₂和共振峰频率a₃，作为每段声音数据的韵律特征，将三种特征进行融合得到融合韵律特征m，公式如下：

m＝w₁·a₁+w₂·a₂+w₃·a₃

其中w₁、w₂、w₃分别代表与a₁、a₂、a₃对应特征的相对重要性。

步骤2：构建基于三维声音特征的聚类多模型训练方法，开发者通过基于三维声音特征的聚类方法得到不同人员类别的样本用户，进而利用不同人员类别的样本用户数据训练高斯混合模型，形成面向不同人员类别的声音情感识别模型。

步骤2.1，首先，将所有的三维声音特征数据集作为样本，根据人员类别在用户三维声音特征数据集中随机选择K个样本作为聚类中心；然后，计算第i个样本到第k个聚类中心的距离，公式如下：

其中，q为第q种情绪，l_iqt为第i个样本对应的用户在第q种情绪下的第t个帧类别时间比例，l_kqt为第k个聚类中心对应的用户在第q种情绪下的第t个帧类别时间比例，m_iq为第i个样本对应的用户在第q种情绪下的融合韵律特征，m_kq为第k个聚类中心在第q种情绪下的融合韵律特征，l_iqs为第i个样本用户在第q种情绪下声音数据的短时平均能量；然后评估每个样本用户到聚类中心的距离并将其分配到距离最近的中心所属的簇中，计算完毕后再次更新各簇的聚类中心，迭代至迭代次数大于预设的次数，获得K个人员类别对应的聚类中心的集合{o(1),o(2),...o(K)}。

步骤2.2，对于聚类后得到的K个聚类中心，分别采用混合高斯模型形成K个声音情感识别模型(也既高斯混合模型)，表示为{G₁,G₂,...,G_K}，计算过程如下：

首先，使用K-means算法初始化一组参数，公式如下：

θ_d＝{α_d,μ_d,σ_d}

其中，D为高斯子模型的数量，θ_d为第d个高斯子模型的参数，μ_d为第d个高斯子模型的均值，σ_d为第d个高斯子模型的方差，α_d为第d个高斯子模型的标准差，d＝1,2,…,D；然后计算每个数据(所述数据为θ_d)来自子模型d的概率，公式如下：

其中，γ_d为数据来自子模型d的概率，Φ(x|θ_d)为第d个高斯子模型的高斯密度函数；Φ(x_q|θ_d)为第d个高斯子模型输入特征向量x_q时得到的高斯密度函数；再根据概率求新的参数值

用新参数替代旧参数并开始迭代，当

小于阈值后终止迭代，最后得出声音情感概率密度函数(也就高斯混合模型)，公式如下：

其中

为第k个高斯混合模型输出的第q种情绪的概率；对每个人员类别的样本用户数据重复上述步骤，最终得出K个人员类别对应的声音情感识别模型{G₁,G₂,...,G_K}。

步骤3：构建初始化归类步骤，使用者在初始化时输入其正常情绪状态下的声音进行初始化归类，得到通用的基准模型和基准参数。

使用者在初始化时输入正常情绪状态下的声音，根据距离函数得出通用的基准模型和基准参数，公式如下：

k_*＝argmin(d¹(∧,o(k)))

d_*＝d¹(∧,o(k_*))

其中设定第一种情绪状态为正常情绪状态，∧代表使用者，l_∧1t为使用者初始化时正常情绪状态下的第t个帧类别的时间比例，l_o(k)1t为第k个聚类中心在正常情绪状态下的第t个帧类别的时间比例，l_∧1s为使用者初始化时正常情绪状态下声音数据的短时平均能量，m_∧1为使用者初始化时正常情绪状态下的融合韵律特征，m_o(k)1为为第k个聚类中心在正常情绪状态下的融合韵律特征，k_*为初始化时使用者输入正常情绪状态下的声音对应的最优人员类别(也既与初始化时使用者输入正常情绪状态下的声音距离最短的聚类中心)，d_*为初始化时使用者输入正常情绪状态下的声音到达最优人员类别的距离，k_*对应的高斯混合模型记为基准模型

使用者初始化时正常情绪状态下的声音进入

中得到该模型下正常情绪状态的概率

由此得到基准模型的性能指标为

步骤4：构建多模型后融合步骤，在运行识别阶段输入实时采集的使用者的声音，声音样本经过基准模型后将其再输入其他模型中进行多模态信息融合并做判断，最终输出识别结果。

在使用者实际使用过程中，不断采集使用者的实时声音，在识别阶段首先将实时采集的声音数据输入基准模型

中，得到Q种情绪的概率

其中最大概率记为

对应情绪状态记为class_q*。

假设当前声音对应于第q种情绪状态，再计算当前声音数据到所有聚类中心的最短距离，并得到在

条件概率下所属的模型，计算公式如下：

其中∧^c代表当前使用者，

为当前使用者在第q种情绪状态下声音数据的短时平均能量，

为当前声音数控在

条件概率下所属的最优人员类别，

为到达最优人员类别的距离，

对应的高斯混合模型为

重复上述步骤，得到Q种情绪概率对应的最优人员类别集合

距离集合

和高斯混合模型集合

然后将当前声音数据输入模型

中得到Q种情绪的概率

取其中的最大概率记为

最大概率对应的情绪状态记为

并计算模型

的性能指标

公式如下：

重复上述步骤得到性能指标的集合

最后计算性能指标的最大值，并取对应的情绪状态作为结果输出，公式如下：

其中OP_*为性能指标的最大值，如果OP_*为

中某一个，例如

则将

对应的高斯混合模型

输出的最大概率对应的情绪状态记

作为当前使用者的情绪状态；如果

则将一开始基准模型输出的最大概率对应情绪状态

作为当前使用者的情绪状态。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。