CN109389992A

CN109389992A - 一种基于振幅和相位信息的语音情感识别方法

Info

Publication number: CN109389992A
Application number: CN201811212955.8A
Authority: CN
Inventors: 王龙标; 郭丽丽; 党建武; 张林娟; 关昊天
Original assignee: Huiyan Technology (tianjin) Co Ltd; Tianjin University
Current assignee: Huiyan Technology (tianjin) Co Ltd; Tianjin University
Priority date: 2018-10-18
Filing date: 2018-10-18
Publication date: 2019-02-26

Abstract

本发明公开了一种基于振幅和相位信息的语音情感识别方法，包括以下步骤：步骤一，输入数据准备：选择情感识别数据库，并对数据进行分段处理；步骤二，提取振幅和相位信息；步骤三，构建卷积神经网络，从振幅和相位的融合信息中提取深度特征；步骤四，构建长短时记忆网络，完成情感分类；最后，输出情感分类结果。本发明的语音情感识方法和现有技术相比，考虑到了语音的相位信息，有效利用相位和振幅信息的互补性，选用CNN自动从振幅和相位信息中同时提取深度情感相关特征，大大的提高了特征的丰富性，获得更好语音情感识别效果。

Description

一种基于振幅和相位信息的语音情感识别方法

技术领域

本发明属于语音情感识别技术领域，尤其是涉及一种基于振幅和相位信息融合的特征提取方法。

背景技术

人机交互在口语对话系统、智能语音助手等应用中变得越来越重要，其中语音情感识别能有效的帮助机器来理解人类的意图，因此正确的区分人类的情感能帮助机器提供更好的用户体验。然而，语音情感识别是一个具有挑战性的任务，因为我们不能明确的知道哪些特征和模型对区分情感是有效的。

对于语音情感识别问题，比较传统的方法是根据人类的听觉感知手动提取一些基于听觉的特征，如基频、能量等。这类方法存在的问题是：仅仅依靠人类的先验知识来提取有效的特征是很困难的，而且有些先验知识不是完全正确；另外手动提取特征会消耗很多时间。

为了解决以上问题，人们用卷积神经网络Convolutional Neural Network， CNN)直接作用于振幅谱来提取特征。现在最优的方法是CNN和双向长短时记忆网络(Bidirectional Long Short-Term Memory，BLSTM)结合CNN-BLSTM，但是目前的研究仍然存在1个主要的问题：仅仅依靠振幅信息进行建模，忽略了相位信息的作用，因而不能完整的获取语音的有效信息。针对以上问题，本发明提出了一种基于振幅和相位信息融合的特征提取方法。

发明内容

本发明针对现有语音情感识别模型在特征提取时忽略相位信息的问题，提出一种基于振幅和相位信息的特征提取方法，从而有效利用相位和振幅信息的互补性。为了探索不同类别的相位信息的互补性，该方法采用两种相位信息进行实验，分别是相对相位(Relative Phase)和MGDCC(Modified Group Delay Cepstrral Coefficients)。

为了解决上述技术问题，本发明的技术方案如下：

一种基于振幅和相位信息的语音情感识别方法，包括以下步骤：

步骤一，输入数据准备：对语音情感数据库中的语音信号进行数据准备，把每一句语音信号切分成固定长度的段。

步骤二，数据预处理：

1)振幅信息提取：通过分帧、加窗、短时傅里叶变换得到振幅谱尺寸为b×a，为了方便卷积操作，我们做了旋转操作，时间轴变为纵向，尺寸变为a×b，用V1 表示振幅矩阵；

2)相位信息提取：提取每一段语音对应的相位信息包含相对相位和MGDCC 两种信息，用V2表示相位矩阵；

3)将1)提取的振幅信息V1和2)提取的相位信息V2融合在一起，组成一个大的信息矩阵V，第i句话的第t段语音的融合如公式(1)：

其中，代表第i句话的第t段的振幅信息，第i句话的第t段的相位信息；

步骤三，深度特征提取：

把每一段语音信号对应的振幅和相位融合矩阵V输入到CNN中自动提取特征,深度特征维度为n；

步骤四，决策：

本发明采用BLSTM做最后的决策。一句话的所有段级别的特征输入到BLSTM 中，然后BLSTM会根据所有段计算出代表一句话的特征，最后输入到softmax 分类器中完成句子的情感分类，分别为高兴、生气、害怕、悲伤、厌恶、无聊、中性七种情感。

进一步地，所述步骤二中相位信息的提取包含MGDCC和相对相位两种信息，具体提取过程如下：

1)MGDCC提取

输入语音信号x(n)经过离散傅里叶变换DFT得到频谱图X(ω)，如公式(2)：

X(ω)＝|X(ω)|e^jθ(ω)， (2)

其中，|X(ω)|表示在频率ω下的振幅，θ(ω)表示在频率ω下的相位。

然而相位取值范围在(-π≤θ≤π)，并且相位信息更像是噪声，这个问题称为相位缠绕。为了克服这个问题，采用群延迟特征进行相位信息处理；

群延迟定义为傅里叶变换相位对频率求负导数，如公式(3)：

群延迟函数也可以直接用以下公式从语音频谱中计算：

这里，X(ω)是信号x(n)傅里叶变换后的频谱图，Y(ω)是nx(n)傅里叶变换后的频谱图，下标R和I代表傅里叶变换后的实部和虚部。

更进一步地，优选采用改进的群延迟函数，并且需要研究已经证明改进的函数比原始的群延迟函数效果要好。改进的群延迟函数可以用以下公式定义：

其中，S(ω)是对X(ω)取平滑光谱，α和γ的取值范围都是(0,1)。

2)相对相位提取

即使是在相同的频率下，原始的相位信息会随着输入语音的位裁剪置而变化。对此，采用相对相位，即某个基频ω的相位保持固定，其他频率的相位相对于这个值来估计。比如，设定基频ω的值为0，我们可以得到以下公式：

X'(ω)＝|X(ω)|×e^jθ(ω)×e^j(-θ(ω))， (7)

对于其他频率ω'＝2πf'，频谱变成：

最后，相位信息可以被归一化，归一化的相位信息如下：

进一步地，所述步骤三中的卷积神经网络CNN，具体构建步骤如下：

1)第一层是输入层，将步骤二中得到的所有段语音信号的振幅加相位信息矩阵V输入到CNN；

2)第二层是卷积层，选择n1个尺寸为k1×k1的滤波器做卷积操作，然后经过激活函数得到该层的输出；

3)第三层是池化层，池化尺寸为p1×p1，对第二层输出的特征图进行降采样；

4)第四层是第二个卷积层，选择n2个尺寸为k2×k2的滤波器做卷积操作，然后经过激活函数得到该层输出的特征图；

5)第五层是第二个池化层，池化尺寸为p2×p2，对第四层输出的特征图进行降采样；

6)第六、七、八、九层均为全连接层，第六层将第五层所有的特征图拼合到一个特征矩阵；第七层是特征全连接到d个节点的隐藏层；第八层是dropout 层，可以有效防止过拟合；第九层为输出层，输出层节点数等于情感类别数，激活函数采用softmax。

与现有技术相比，本发明的有益效果为：

附图说明

图1是本发明提出的基于振幅和相位信息的特征提取方法框架图；

图2是用于自动提取声学特征的CNN结构图；

图3是本发明用到的CNN结构图；

表1是实验室中用到的特征列表。

表2是在EmoDB数据库上语音情感识别结果对比。

具体实施方式

为了更好地理解本发明的技术方案，现结合附图及具体实施方式来对本发明进行更进一步详细的描述。

图1是本发明的基于振幅和相位信息的特征提取方法的框架图，主要包含以下步骤：

步骤一，输入数据准备：为了验证本发明的效果，在EmoDB进行情感识别实验，试验采用十折交叉验证方法。EmoDB包含535句话共七类情感，分别为高兴、生气、害怕、悲伤、厌恶、无聊、中性；所有句子采样频率为16KHz，每一句话时长约2-3秒。用265ms窗长和25ms的窗移对语音信号进行切分，得到固定长度的段。

步骤二，数据预处理(如图2所示)：

1)振幅信息提取：把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换，FFT点数设为256，窗长16ms，窗移8ms，最终得到振幅谱V1(尺寸为 129×32)，为了方便卷积，我们把振幅矩阵做旋转操作，时间轴变为纵向，V1尺寸变为32×129。

2)相位信息提取：本发明用到两种相位信息，提取相对相位的时候窗长16ms，窗移8ms，基频ω设为1000Hz，每一段语音信号对应的相对相位矩阵为32×129。提取MGDCC的时候参数α＝0.1，γ＝0.2，提取到的MGDCC矩阵为32×36。最终相对相位和MGDCC组成相位矩阵V2(尺寸为32×165)。

最后，将1)提取的振幅信息V1和2)提取的相位信息V2融合在一起，组成一个大的信息矩阵V(尺寸为32×294)。

步骤三，深度特征提取：

自动声学特征提取，图3是本发明用到的CNN结构图。

第一层是输入层，将步骤二中得到的所有段语音信号的信息矩阵V(32×294) 输入到CNN；

第二层是卷积层，选择32个尺寸为5×5的滤波器做卷积操作，然后经过激活函数relu得到32个尺寸为28×290的特征图；

第三层是池化层，池化尺寸为2×2，对第二层输出的特征图进行降采样，得到32个尺寸为14×145的特征图；

第四层是第二个卷积层，选择64个尺寸为5×5的滤波器做卷积操作，然后经过激活函数relu得到64个尺寸为10×141的特征图；

第五层是第二个池化层，池化尺寸为2×2，对第四层输出的特征图进行降采样，得到64个尺寸为5×70的特征图；

第六、七、八、九层均为全连接层，第六层将第五层所有的特征图拼合到一个特征矩阵；第七层是特征全连接到1024个节点的隐藏层；第八层是dropout 层，因数取0.5；第九层为输出层，输出层节点数为7，激活函数采用softmax。其中，第七层的输出便是CNN提取到的1024维特征。

步骤四，决策：本发明采用2层节点数为200的BLSTM做最后的决策。一句话的所有段级别的特征1024维输入到BLSTM中，然后BLSTM会根据所有段计算出代表一句话的特征，最后输入到softmax分类器中完成句子的情感分类，分别为高兴、生气、害怕、悲伤、厌恶、无聊、中性七种情感。

表1列出了不同收入数据的尺寸，1号特征是本发明的对比算法(只采用振幅信息)，通过各种对比实验来评估相位信息的作用。

表1：不同收入数据的尺寸

ID	特征	尺寸
			1	振幅	32×129
2	相对相位	32×129
			3	MGDCC	32×36
4	振幅+相对相位	32×258
			5	振幅+MGDCC	32×165
6	振幅+相对相位+MGDCC	32×294

表2是在EmoDB数据库上进行十折交叉实验的情感识别结果对比，评价指标为加权正确率(整个测试集合的正确率)和非加权正确率(先计算每一类情感的正确率，然后取平均值)。

表2

特征	加权正确率(％)	非加权正确率(％)
			振幅	87.66	86.66
相对相位	70.28	68.83
			MGDCC	82.80	81.40
振幅+相对相位	88.04	87.08
			振幅+MGDCC	88.79	88.19
振幅+相对相位+MGDCC	91.78	91.28

首先，我们可以看出只采用相位进行情感识别是可行的，证明了相位信息在深度学习框架下可以表现良好。其次，振幅和相对相位或者MGCDCC结合比只用振幅信息的效果要好，表明振幅和相位信息结合的方法是有效的。其中，振幅和相对相位结合和单独采用相对相位相比相对加权错误率和非加权错误率都降低了约58％，而振幅和MGDCC结合与MGDCC相比，提升力度没有这么大。这表明相对相位和振幅之间具有更高的互补性。最后，把三种特征(振幅，相对相位，MGDCC) 结合起来取得了的最好的结果，表面两种相位信息之间也具有一定的互补性。

Claims

1.一种基于振幅和相位信息的语音情感识别方法，其特征在于,包括以下步骤：

步骤一，输入数据准备：对语音情感数据库中的语音信号进行数据准备，把每一句语音信号切分成固定长度的段；

步骤二，数据预处理：

1)振幅信息提取：通过分帧、加窗、短时傅里叶变换得到振幅谱尺寸为b×a，为了方便卷积操作，进行旋转操作，时间轴变为纵向，尺寸变为a×b，用V1表示振幅矩阵；

2)相位信息提取：提取每一段语音对应的相位信息包含相对相位和MGDCC两种信息，用V2表示相位矩阵；

步骤三，深度特征提取：

步骤四，决策：

采用BLSTM做最后的决策，一句话的所有段级别的特征输入到BLSTM中，然后BLSTM会根据所有段计算出代表一句话的特征，最后输入到softmax分类器中完成句子的情感分类，分别为高兴、生气、害怕、悲伤、厌恶、无聊、中性七种情感。

2.根据权利要求1所述的一种基于振幅和相位信息的语音情感识别方法，其特征在于，所述步骤二中相位信息的提取包含MGDCC和相对相位两种信息，具体提取过程如下：

1)MGDCC提取

X(ω)＝|X(ω)|e^jθ(ω)， (2)

其中，|X(ω)|表示在频率ω下的振幅，θ(ω)表示在频率ω下的相位；

当相位取值范围在(-π≤θ≤π)时，会出现相位缠绕问题，采用群延迟特征进行相位信息处理：

群延迟定义为傅里叶变换相位对频率求负导数，如公式(3)：

群延迟函数也可以直接用以下公式从语音频谱中计算：

其中，X(ω)是信号x(n)傅里叶变换后的频谱图，Y(ω)是nx(n)傅里叶变换后的频谱图，下标R和I代表傅里叶变换后的实部和虚部。

3.根据权利要求2所述的一种基于振幅和相位信息的语音情感识别方法，其特征在于，所述群延迟函数用以下公式定义：

其中，S(ω)是对X(ω)取平滑光谱，α和γ的取值范围都是(0,1)；

2)相对相位提取

即使是在相同的频率下，原始的相位信息会随着输入语音的位裁剪置而变化，对此，采用相对相位即某个基频ω的相位保持固定，其他频率的相位相对于这个值来估计，设定基频ω的值为0，得到以下公式：

X'(ω)＝|X(ω)|×e^jθ(ω)×e^j(-θ(ω))， (7)

对于其他频率ω'＝2πf'，频谱变成：

最后，相位信息可以被归一化，归一化的相位信息如下：

4.根据权利要求1所述的一种基于振幅和相位信息的语音情感识别方法，其特征在于，所述步骤三中的卷积神经网络CNN，具体构建步骤如下：

6)第六、七、八、九层均为全连接层，第六层将第五层所有的特征图拼合到一个特征矩阵；第七层是特征全连接到d个节点的隐藏层；第八层是dropout层，能够有效防止过拟合；第九层为输出层，输出层节点数等于情感类别数，激活函数采用softmax；

7)第八层是dropout层，能够有效防止过拟合；第九层为输出层，输出层节点数等于情感类别数，激活函数采用softmax。