CN104050963B

CN104050963B - 一种基于情感数据场的连续语音情感预测方法

Info

Publication number: CN104050963B
Application number: CN201410283309.6A
Authority: CN
Inventors: 查诚; 黄程韦; 赵力
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2014-06-23
Filing date: 2014-06-23
Publication date: 2017-02-15
Anticipated expiration: 2034-06-23
Also published as: CN104050963A

Abstract

本发明公开了一种基于情感数据场的连续语音情感预测算法，首先根据数据场理论，利用情感数据场中势函数建立不同语音情感特征向量之间的联系；其次，在短时间上选取多个语音情感特征向量，用群体智能算法在情感数据场中研究各语音情感特征向量的变化趋势，将这种变化趋势作为语音情感的识别结果。实验表明，本发明的方法可以有效的解决语音情感识别中存在的情感跟踪延迟问题并有效预测说话人情感的变化。

Description

一种基于情感数据场的连续语音情感预测方法

技术领域

本发明涉及一种语音情感预测方法，特别涉及一种对情感变化连续语音的基于情感数据场的情感预测方法。

背景技术

语音情感识别是人机智能化交互的一个重要研究领域，已有许多研究机构致力于该领域的研究。然而目前语音情感识别处理的对象往往局限于语料库中已分割好的短句，例如丹麦情感语音数据库(DES)、柏林情感语音数据库等，并且对语料库的语音情感识别已经能够获得比较高的识别率。但是在现实生活中，人们的情感表达和状态是一个连续变化的过程。实用语音情感识别系统要求处理的对象应该是未分割成短句的实时采集的连续情感语音。例如在电话服务中心，实用语音情感识别系统要能够预测和识别服务人员的情绪变化，预防对客户的不友好态度；航天、航空等特殊领域需要实时识别操作人员情感状态的变化，避免不必要的事故发生等。目前传统的语音情感识别方法都是孤立地考虑统计特征的情感特征向量，存在情感跟踪延迟或者不能及时识别情感的变化的问题，故无法实现对连续语音的情感预测。

发明内容

要解决的技术问题：针对现有技术的不足，本发明提出一种基于情感数据场的连续语音情感预测方法，解决现有技术的语音情感识别方法对连续语音的情感预测存跟踪延迟，无法实现对连续语音进行情感预测。

技术方案：为解决上述技术问题，本发明采用以下技术方案：

一种基于情感数据场的连续语音情感预测方法,获取训练样本的语音情感特征向量，利用语音情感特征向量作为数据构成情感数据场以形成语音情感特征空间，情感数据场中的势函数建立起不同语音情感特征向量之间的联系；在进行情感预测时，等间隔的对测试样本采集语音情感特征向量，判断语音情感是否发生变化，若未发生变化则返回重新获取下一时刻的语音情感特征向量并判断，若语音情感发生变化则等间隔的选取语音情感特征向量，利用TSP蚁群算法中的多个蚂蚁分别一一对应模拟选取出来的多个语音情感特征向量，利用TSP蚁群算法中的多个城市分别一一对应模拟多个语音情感的类型，在情感数据场中计算每种语音情感的类型在选取出来的多个情感特征向量处产生的势值大小，选择势值中最大的一个所对应的语音情感的类型即为预测语音情感变化后的情感类型。

具体的，在本发明中，包括顺序执行的以下步骤：

(1)、建立情感数据场

首先求取训练样本中类属于各种情感类别的语音情感特征向量，将这些语音情感特征向量进行特征规范化后作为数据点构成情感数据场，其中类属于不同情感类别的数据点分布在情感数据场中不同的区域，然后建立情感数据场中的势函数，则情感数据场中任一语音情感特征向量x的位势即势函数值如下

其中：

D为与语音情感特征向量x类属于同一类情感的训练样本的集合；

f(x,x_i)＝exp{-(x-x_i)^TΣ^-1(x-x_i)}

其中，

Σ表示训练样本的语音情感特征向量组成的协方差矩阵，Σ＝E[x-E(x)][x-E(x)^T]；

T表示转置矩阵；

x表示待求位势的样本的语音情感特征向量；

x_i表示训练样本i的语音情感特征向量；

(2)、利用情感数据场对情感变化的语音进行预测和识别

步骤2-1、进行预测和识别时，依据已建立的情感数据场判别当前时刻的语音情感类型，将判断结果作为基本情感，基本情感的中心为ω_i；

步骤2-2、确定对测试样本的分析间隔，然后在预测和识别情感的时刻开始之前的1s或者2s内等间隔采集语音情感特征向量；

步骤2-3、利用情感数据场判别语音情感是否发生变化，具体方法如下：当预测和识别情感的时刻，属于第i类情感的语音情感特征向量x满足x≥R(ω_i,D_i)，则判断预测和识别情感的时刻的语音情感相对于基本情感发生语音情感变化，

其中，

上式中，表达式表示第i类情感的样本D_i中位势值最小的样本点，表达式表示第i类情感的样本D_i中距离基本情感的中心ω_i最远样本点；

步骤2-4、若判定为连续的语音情感，则返回步骤2-1；

若判定为语音情感发生变化，则进入步骤2-5；

步骤2-5、预测变化后的语音情感

利用TSP蚁群算法中的蚂蚁模拟步骤2-2中采集到的语音情感特征向量，利用TSP蚁群算法中的城市模拟语音情感的类型，在情感数据场中根据式计算每种语音情感的类型在选取出来的语音情感特征向量处产生的势值大小，选择势值中最大的一个所对应的语音情感的类型即为预测语音情感变化后的情感类型。

作为优选的，在本发明中，语音情感特征向量的求取过程包括以下步骤：

首先提取基频、均方根短时能量、过零率、谐波信噪比以及1-12维LFPC系数共16个短时特征；

然后求取这16个短时特征的一阶倒数；

最后求取16个短时特征及其一阶倒数的统计量，所述统计量包括均值、最大值、最小值、方差、偏斜度、峭度、波动范围、线性回归系数的斜率、偏置及均方误差共10类，共得到320个语音情感特征向量。

更进一步的，在本发明中，对320个语音情感特征向量的性能根据最大相关最小冗余算法进行等级排列，选择前10个语音情感特征向量并进行特征规范化后作为数据点构成情感数据场。

有益效果：

在本发明的方法中，通过情感数据场中的势函数建立起不同语音情感特征向量之间的联系，而非独立地研究单个语音情感特征向量，因此利用本发明的这种联系对应的情感空间模型更利于描述情感变化的相互关系；

进一步的，由于情感变化的不确定性，根据本发明的计算模式得到多个情感特征向量，用群智能化的TSP蚁群算法模拟之，以达到避免情感跟踪延迟，并有效预测情感的目的。巧妙得的与群智能化的TSP蚁群算法相结合用以模拟多个语音情感特征向量，揭示情感的变化趋势，达到预测情感从而避免情感跟踪延迟的目的；

实验证明，当语音情感识别对象是情感变化的语音时，本发明的预测方法较传统的识别方法如SVM、k-近邻法等能够更加有效地识别变化的情感，避免情感跟踪延迟，故本发明方法在连续语音情感识别领域中具有明显优势。

附图说明

图1为本发明方法的流程图；

图2为本发明中5种基本情感识别率的混淆矩阵；

图3为识别变化的语音情感时传统方法对情感特征向量的计算模式；

图4为识别变化的语音情感时本发明方法对情感特征向量的计算模式；

图5为5种基本情感发生改变时的相互变化情况。

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明在实施过程中，首先从东南大学情感语料库中选取6000条语句，这些语句涵盖了包括害怕、愤怒、喜悦、平静及悲伤共5种情感状态。实验时，对这6000条语句按2:1随机分成训练集和测试集，即4000条语句为训练样本，另外2000条语句为测试样本。

如图1所示，本发明的方法中主要由以下几大功能模块组成：语音情感特征向量的选取、情感数据场的建立、连续语音的分割、语音情感变化的判定、群智能化多情感特征向量和预测语音情感。下面具体介绍本发明方法的实现过程的各个模块。

1、建立情感数据场

(1)语音情感特征向量的选取

现有的研究表明，说话人情感发生变化时，语音的韵律特征和音质特征也会发生相应的变化。其中，韵律特征主要包括基频、均方根短时能量、过零率。音质特征包括谐波信噪比及Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient，简称MFCC)、对数频率功率系数(Log Frequency Power Coefficients，简称LFPC)等。还有研究表明，LFPC系数作为特征参数时，较MFCC系数、线性预测倒谱系数(Linear Predictive Cepstral Coding，简称LPCC)两种常用的参数对基本情感的识别率更高。因此在本发明中选用1-12维LFPC系数作为语音情感识别参数。故本发明提取基频、均方根短时能量、过零率、谐波信噪比以及1-12维LFPC系数共16个短时特征作为语音情感识别参数。但是由于提取到的这些特征都是短时特征，对音位的信息依赖性太强，不太有利于建立与本发明无关的语音情感识别系统。因此通过在长时间的语音上对这些短时特征及其一阶倒数求统计量来构造用于识别语音情感的语音情感特征量。所求的统计量包括均值、最大值、最小值、方差、偏斜度、峭度、波动范围、线性回归系数的斜率和偏置及均方误差共10种。这样总共产生320个语音情感特征量，然后对这320个语音情感特征量组成的语音情感特征向量进行特征规范化。为了降低语音情感特征向量的冗余性，进一步选择最有价值的特征，采用最大相关最小冗余算法对这320个语音情感特征量的性能进行等级排列，优先选择前10个特征，如表1所示。

表1

(2)建立情感数据场

为了建立不同语音情感特征向量之间的联系，必须引入新的情感空间理论。求取训练样本中类属于各种情感类别的语音情感特征向量，将这些语音情感特征向量进行特征规范化后作为数据点构成情感数据场，为提高情感数据场表达情感空间的能力，其中类属于不同情感类别的数据点分布在情感数据场中不同的区域。情感数据场作为情感空间后，不同的语音情感特征向量之间的联系即可通过这个情感空间实现。在情感空间中，每个语音情感特征向量不是孤立的，而是可以通过不同的语音情感特征之间的关系来呈现语音情感的变化。

该情感空间的建立具体按照以下方式进行。

在训练阶段，提取已知情感类别的训练样本中的语音情感特征向量构建情感数据场。

情感数据场中任一语音情感特征向量x的位势V(x)计算如下：

其中：

D表示同类情感训练样本的语音情感特征向量的集合；

位势V(x)的表达式表明：在情感数据场中，任一语音情感特征向量x的位势等于属于同一类情感的训练样本的集合D中的所有语音情感特征向量在该语音情感特征向量x处产生势的总和。因为在情感数据场构建时，类属于不同情感类别的数据点分布在情感数据场中不同的区域，故同类情感中任意两点的位势值必然大于属于不同类情感的任意两点的位势值。

考虑到语音情感特征向量x在不同方向上分布的差异，(1)式中f(x,x_i)表示为f(x_i,x)＝exp{-(x-x_i)^TΣ^-1(x-x_i)} (2)

其中：

T表示转置矩阵；

x表示待求位势的样本的语音情感特征向量；

x_i表示训练样本i的语音情感特征向量；

建立好情感数据场后，首先判断该情感数据场是否能够较为准确地判定情感类型。采用计算机游戏的诱发形式产生测试集中的5种情感状态的情感语料对情感数据场进行测试，得到如图2所示的识别率混淆矩阵。图2中，行表示输入的待识别的语料所对应的情感，列表示情感数据场的识别结果。从情感数据场对情感类型的判定结果来看，每个语料对应的情感在识别结果中所占的比例最高，即识别的准确度是可信的。

3、利用情感数据场对情感变化的语音进行预测和识别

步骤2-1、进行预测和识别时，利用采集到的语音情感特征向量来判断其对应时刻的语音情感类型，该方法为本领域内的现有技术，即依据已建立的情感数据场判别当前时刻的语音情感类型，将判断结果作为基本情感，基本情感的中心为ω_i；

步骤2-2、确定对测试样本的分析间隔，然后在预测和识别情感的时刻开始之前的1.5s内每隔100ms等间隔地采集语音情感特征向量，每次采集10个，共采集150个；

其中，

步骤2-4、若判定为连续的语音情感，则表明目前的语音情感是与步骤2-1中判断的基本情感相同，故返回步骤2-1；

若判定为语音情感发生变化，则表明目前的语音情感是与步骤2-1中判断的基本情感不同，则进入步骤2-5；

步骤2-5、判断语音情感变化后的类型

首先在预测和识别情感的时刻开始之前的1s内按照每隔100ms的频率选取1次表1中所列出的10种语音情感特征量，故每1s内可以等间隔地选取共10个相同维度的语音情感特征向量，每个语音情感特征向量中包含10种语音情感特征量，然后利用TSP蚁群算法中的蚂蚁模拟这10个语音情感特征向量，利用TSP蚁群算法中的城市模拟语音情感的类型，通过观察语音情感特征向量在情感数据场中的运动和变化即可达到预测情感的目的。

由以上采集语音情感特征向量的过程可见，本发明采用的是多个语音情感特征向量的计算模式。这是由于语音情感的变化往往是连续和非跳跃的，所以在识别变化的语音情感时，可以根据一个时间段内情感变化的总趋势来判断情感变化的概率。如图4所示，当语音情感在t时刻发生变化时，则开始使用多个语音情感特征向量x₁，…x_k(k＝选取多个语音情感特征向量的时长/选取语音情感特征向量的时间间隔)识别变化的语音情感。

传统的方法对语音情感特征向量的采集过程采用如图3对情感特征向量的计算模式，语音情感在时刻t开始发生变化，但是为了准备识别情感变化后的语音，需要采集[t,t+t₀]时间段的语音进行语音情感特征向量的计算，而传统的方法只孤立的考虑某一情感特征向量。因此会对情感变化产生跟踪延迟。但是实际上，情感的变化是连续和非跳跃的，我们对情感状态的考察往往是某一时间段，根据该时间段情感变化的总趋势，来判断情感变化的概率。因此我们采用图4的计算模式来分析和计算语音情感特征向量。我们考察情感变化开始前的某一时间段[t-△t,t]，并提取x₁，…x_k个语音情感特征向量。根据[t-△t,t]该时间段情感变化的总趋势，来判断情感变化的概率。显然本发明方法中的计算模式更适用于识别变化的语音情感。

上述判断语音情感变化后的类型是利用蚁群算法模拟多个语音情感特征向量进行情感预测的。蚁群算法作为一种群智能优化算法，能探索给定环境下多个数据的内在联系，已在聚类分析等数据挖掘领域中得到广泛的应用。在蚁群算法中有一种经典旅行商(Traveling Salesman Problem，简称TSP)的蚁群算法，蚁群中的蚂蚁k(k＝1,2,3…,m，m为蚂蚁的总数)在运动过程中，会根据各条路径上的信息量决定其转移方向。具体用表示在t时刻蚂蚁k由城市i转移到城市j的状态转移概率。该状态转移概率根据各条路径上的残留信息量Γ_ij(t)及路径启发信息η_ij(t)来计算。计算表达如下式：

其中：

α为信息启发因子，反映蚁群在运动过程中所残留的信息量的相对重要程度；

β为期望启发式因子，反映了期望值的相对重要程度；

Γ_ij(t)为残留信息量，其值由具体问题确定；

η_ij(t)为路径启发信息，表示由城市i转移到城市j的期望程度，又称为先验知识，这一信息由要解决的问题给出，可以通过信息浓度(即残留信息量和路径启发信息的信息量)的大小让蚁群自我选择最优的城市或路径；

(3)式表明蚂蚁在选择路径时，会尽量选择离自己距离较近且信息浓度较大的方向。

具体将TSP蚁群算法与本发明结合方法如下。根据TSP蚁群算法，将TSP蚁群算法中的城市i和j视为5种情感类别中的2种不同类别的情感。当情感开始变化时，可以通过观察蚁群在情感空间中的变化趋势，预测情感的变化。具体的，在用TSP蚁群算法模拟这多个语音情感特征向量包括以下三方面：

(1)用蚁群中的蚂蚁模拟表1中所示的多个语音情感特征量。具体地，根据图4中所示的计算模式，将选取多个语音情感特征向量的时长△t＝1s等间隔划分成k＝10段，根据前述对k的定义，可连续提取到等时间间隔的10个语音情感特征向量，用10只蚂蚁模拟这10个语音情感特征向量，这样每个语音情感特征向量就演变为一只蚂蚁。

(2)用蚁群算法中的残留信息量Γ_ij(t)模拟情感数据场中样本点对这10个语音情感特征向量产生的位势值。具体地，视城市i和j为两种不同情感，城市j对蚂蚁产生的残留信息量Γ_ij(t)演变为情感数据场中j类情感的样本点对语音情感特征向量所产生的位势值。根据TSP蚁群算法，城市j对蚁群产生的残留信息量越大，则蚁群在选择路径时选择城市j的概率越大。相似的，情感数据场中j类情感的样本点对这10个语音情感特征向量产生的势值越大，那么语音情感变化为j类情感的概率越大。

(3)TSP蚁群算法中除了残留信息量Γ_ij(t)还包括先验知识，

根据Plutchik提出的情绪圆环，确定五种常见的基本情感(平静、愤怒、高兴、悲伤和害怕)的变化关系，具体如图5所示。

根据上述三个方面，为了方便，记(3)式中的为p_t(ω_i,ω_j)，即p_t(ω_i,ω_j)表示为t时刻语音情感由类别i变化为类别j的概率。相应地(3)式改写为：

在(4)中，参数的含义也作相应转换，其中：

α为信息启发因子，反映出情感数据场样本点产生位势值的相对重要程度；

β期望启发式因子，反映情感变化先验知识的相对重要程度；

Γ_t(ω_i,ω_j)表示t时刻情感数据场中j类情感的样本点对图4中[t-△t，t]时间段内的情感特征向量{x₁,x₂,…x_k}的位势累加。这里j类情感的样本点包括j类情感的情感中心ω_j及情感数据场中远离j类情感的情感中心ω_j的边界样本点x，这里的边界样本点x满足f(ω_j,x)＞ε且0<ε<1。因为情感变化时，ε较小的样本点对发生情感变化的情感特征向量μ_k能产生较大的势值，而j类情感的样本点包括j类情感的情感中心ω_j是为了进行基本情感类别的判定，避免系统误差的产生。因此

当时间t变化为t+n时，Γ_t(ω_i,ω_j)也随之改变为Γ_t+n(ω_i,ω_j)，其计算如下式：

Γ_t+n(ω_i,ω_j)＝(1-ρ)Γ_t(ω_i,ω_j)+△Γ_t(ω_i,ω_j) (6)其中：

ρ表示位势值的挥发系数；

△Γ_t(ω_i,ω_j)表示情感数据场中j类情感样本点对[t,t+n]时间段内的语音情感特征向量产生的位势累加；

η_t(ω_i,ω_j)表示为ω_i所对应的情感变化到ω_j所对应的情感的期望程度。为了确定η_t(ω_i,ω_j)，必须确定5种情感的变化规律。根据如图5所示的Plutchik情绪圆环，确定5种基本情感的相互变化情况。在情感变化未知情况下，我们以等可能性概率的先验知识来考虑情感发生变化的转移概率。即在ω_i≠ω_j情况下η_ij(ω_i,ω_j)取值情况为

在选取出来的6000条语句中随机选取500条平静-愤怒情感变化的语句，分别采用SVM、k-近邻法(k＝20)、本发明中取ε＝0.4和ε＝0.2共4种方法来识别这500语句。其中SVM中的核函数采用高斯核函数，SVM中的惩罚参数和核函数的参数通过三折交叉验证寻找最优。k-近邻法中选择20个样本点，本发明的预测方法在情感空间中也设定20个样本点，样本点数目相同，有利于在相同情况下比较不同方法的识别效果。分别对愤怒情感发生后0.2s、0.4s、0.6s、0.8s、1.0s、1.4s和1.5s(最优情感统计时长)的识别结果进行分析，考虑到不同方法的识别性能不同，分别对不同方法的识别率进行归一化处理，得到如表2所示的实验结果。

表2

由表2可知，在情感变化的识别上，本发明的方法要优于SVM法和K-近邻法。在相同的时间内本发明方法的识别率明显高于其他两种方法，且本发明方法能够更加迅速地完成识别。从表中还可以看出，本发明中ε取值越小，识别率越高且识别速度越快。

Claims

1.一种基于情感数据场的连续语音情感预测方法,其特征在于：获取训练样本的语音情感特征向量，利用语音情感特征向量作为数据构成情感数据场以形成语音情感特征空间，情感数据场中的势函数建立起不同语音情感特征向量之间的联系；在进行情感预测时，等间隔的对测试样本采集语音情感特征向量，判断语音情感是否发生变化，若未发生变化则返回重新获取下一时刻的语音情感特征向量并判断，若语音情感发生变化则等间隔的选取语音情感特征向量，利用TSP蚁群算法中的多个蚂蚁分别一一对应模拟选取出来的多个语音情感特征向量，利用TSP蚁群算法中的多个城市分别一一对应模拟多个语音情感的类型，在情感数据场中计算每种语音情感的类型在选取出来的多个情感特征向量处产生的势值大小，选择势值中最大的一个所对应的语音情感的类型即为预测语音情感变化后的情感类型。

2.根据权利要求1所述的一种基于情感数据场的连续语音情感预测方法，其特征在于：包括顺序执行的以下步骤：

(1)、建立情感数据场

首先求取训练样本中属于各种情感类别的语音情感特征向量，将这些语音情感特征向量进行特征规范化后作为数据点构成情感数据场，其中属于不同情感类别的数据点分布在情感数据场中不同的区域，然后建立情感数据场中的势函数，则情感数据场中任一语音情感特征向量x的位势即势函数值如下

V (x) = \underset{x_{i} &Element; D}{Σ} f (x, x_{i})

式中D表示同类情感训练样本的语音情感特征向量的集合；

f(x,x_i)＝exp{-(x-x_i)^TΣ^-1(x-x_i)}

其中：

T表示转置矩阵；

x表示待求位势的样本的语音情感特征向量；

x_i表示训练样本i的语音情感特征向量；

(2)、利用情感数据场对情感变化的语音进行预测和识别

其中，

R (ω_{i}, D_{i}) &GreaterEqual; \min {\underset{x &Element; D_{i}}{\arg \min} (\underset{x_{i} &Element; D_{i}}{Σ} f (x, x_{i})) - ω_{i}, \underset{x_{i} &Element; D_{i}}{\arg \min} f (x_{i}, ω_{i}) - ω_{i}}

步骤2-4、若判定为连续的语音情感，则返回步骤2-1；

若判定为语音情感发生变化，则进入步骤2-5；

步骤2-5、预测变化后的语音情感

3.根据权利要求2所述的一种基于情感数据场的连续语音情感预测方法，其特征在于：语音情感特征向量的求取过程包括以下步骤：

然后求取这16个短时特征的一阶倒数；

4.根据权利要求3所述的一种基于情感数据场的连续语音情感预测方法，其特征在于：对320个语音情感特征向量的性能根据最大相关最小冗余算法进行等级排列，选择前10个语音情感特征向量并进行特征规范化后作为数据点构成情感数据场。