CN101930733A

CN101930733A - 一种用于语音情感识别的语音情感特征提取方法

Info

Publication number: CN101930733A
Application number: CN 201010272971
Authority: CN
Inventors: 颜永红; 周瑜; 孙艳庆; 李军锋
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2010-09-03
Filing date: 2010-09-03
Publication date: 2010-12-29
Anticipated expiration: 2030-09-03
Also published as: CN101930733B

Abstract

本发明涉及一种用于语音情感识别的语音情感特征提取方法，包括下列步骤：1)对语音信号进行FFT计算得到均匀的通带能量；2)以通带能量为特征，计算各频点处的语音情感信息的F-Ratio值，得出语音情感信息的F-Ratio值在各个频带上的分布图；3)根据所述语音情感信息的F-Ratio值在各个频带上的分布图得出非均匀美尔子带滤波器，所述非均匀美尔子带滤波器各个通带的带宽和其所对应的F-Ratio值成反比关系；4)用所述非均匀美尔子带滤波器得到待识别语音信号各子带的能量输出，进而得出待识别语音信号的语音情感特征。本发明能够加大各类情感之间的鉴别性，相比于传统的MFCC特征，提高了情感识别的性能。

Description

一种用于语音情感识别的语音情感特征提取方法

技术领域

本发明涉及语音情感识别技术领域，具体地说，本发明涉及一种应用于语音情感识别系统的特征提取方法。

背景技术

随着计算机网络通信技术和多媒体技术的飞速发展，新型的人机交互技术已成为当前计算机科学领域一个十分活跃的研究课题。语音情感识别的研究对于增强计算机的智能化和人性化，开发新型人机环境，以及推动心理学等学科的发展，有着重要的现实意义，并最终产生很大经济效益和社会效益。语音情感识别，对于语音识别整体技术的提高也是很有好处的。一般说来，语音中包含了说话内容、说话人、情感、语气、语义等丰富信息。其中对于说话内容的识别，也就是常规的语音识别，以及说话人识别等，业界进行了长期的持续的研究，也取得了不错的成果。近来，以NIST(美国标准技术研究所)主导的丰富标注评测项目，引起来越来越多的人的关注。语音识别不再是单独对内容的识别，而是更加注重对含义、情感等信息的提取。另一方面，情感信息的提取，还能为语音识别提供信息和补偿作用，推动语音识别稳健性的提升。

关于语音情感识别的研究，可以采用的分类器都已近很成熟了，如混合高斯模型分类器(参见黄锋，尹俊勋，“一种基于GMM模型的语音情感识别方法”，《微计算机信息》，2009 25(10))。而如何从语音信号中提取出更加适合于语音情感识别的特征成为了提高识别率的最关键问题。之前的很多研究，大多数采用了基于韵律的特征，不过单独使用韵律特征的系统，其识别率是不理想的，原因之一就是很多情感的韵律特征有相同的特性，导致分类器不能很好的将它们分开。而传统的应用于说话人识别和语音识别里面的基于频谱的特征MFCC(美尔频率倒谱系数)，也经常被拿来用于语音情感识别中，其性能相比单独使用韵律特征要好些。然而，基于频谱的特征MFCC，是从人听觉感知的角度，更多的强调语音、以及说话人的信息特性。而在语音情感识别中，应该强调其情感信息，而消减语音和说话人的信息。这一点和语音识别和说话人识别是不同的。对于语音识别来说，特征应该强调语音的信息，而说话人的特征应该强调说话人的信息。这个差异表明：目前常用的基于均匀美尔域的特征MFCC不能满足情感识别的要求，迫切需要一种能够更加适合于语音情感识别的特征提取方法。

发明内容

本发明要解决的技术问题是提供一种对语音情感识别更有效的特征提取方法，通过该特征提取方法，一方面可以提高各语音情感之间的区分性，对语音情感的分类提供更有效的特征，另一方面可以降低语音情感内部的差异性，减少语音情感识别的错误率。

为达到上述发明目的，本发明提供了一种用于语音情感识别的语音情感特征提取方法，包括下列步骤：

1)对已知情感的标准预料库中的语音信号进行FFT计算、并通过均匀的三角型带通滤波器得到均匀的通带能量；

2)以步骤1)所得到的通带能量为特征，计算各频点处的语音情感信息的F-Ratio值，得出语音情感信息的F-Ratio值在各个频带上的分布图；

3)根据所述语音情感信息的F-Ratio值在各个频带上的分布图得出非均匀美尔子带滤波器，所述非均匀美尔子带滤波器各个通带的带宽和其所对应的F-Ratio值成反比关系；

4)用非均匀美尔子带滤波器得到所述待识别语音信号各非均匀美尔子带的能量输出，进而得出所述待识别语音信号的语音情感特征。

本发明还提供了相应的语音情感识别方法，包括：

按上述1)至4)步骤得出待识别语音信号的语音情感特征；

5)将待识别语音信号的语音情感特征输入分类器(如混合高斯模型分类器)，得出语音情感识别结果。

本发明具有下述技术效果：

本发明的语音情感识别特征提取方法，从模式分类的角度，评估了语音情感信息在频率域上的分布情感，从理论上更有利于语音情感的分类。利用该信息，采用非均匀子带滤波器反映这种关系，从而更好的挖掘对语音情感有益的信息。在所作的统计实验中，使用本发明特征计算方法的语音情感识别系统的结果，提取的特征加大了各类情感之间的鉴别性，相比于传统的MFCC特征，提高了情感识别的性能。

附图说明

图1是语音情感信息在频率域的分布图；

图2是本发明的特征提取流程图；

图3是非均匀子带滤波器的计算框图；

图4是在情感语料库上识别率改进对比图。

具体实施方式

本发明提供了一种基于非均匀子带的处理方法，如图2所示，其框架是基于传统的MFCC特征改进的，通过在频谱通带能量阶段引入F-Ratio分析得到非均匀的区分度信息，并引入滤波器的通带设计重新计算特征，具体包括以下步骤：

1)对已知情感的标准预料库中的语音信号的预处理和加窗；这是基于语音信号的短时平稳性进行的，对于语音情感识别来说，加窗与否和加窗参数不一定要和语音识别一致。因为语音识别是为了区分短时的音素信息，而语音情感识别是为了区分情绪状态，通常来说，其窗长应该长些。另一方面，预处理应该尽可能的去掉静音和噪声，这些对于语音情感识别也都是干扰作用的，对性能影响很大。

2)对已知情感的标准预料库中的语音信号进行FFT计算得到均匀的通带能量；受到语速、能量等影响，时域的信息是变化万千不易规整的；把时域的采样点作为特征，以16千赫兹采样、25毫秒窗长为例，特征的维数将多达400，对于分类很不利。因此，类似语音识别，时域的采样点被转到频域，得到各个频率处的频谱分量。

3)在步骤2)得到的通带能量的基础上，引入F-Ratio度量语音情感信息在各个频带上的分布图。人分辨情感，是基于某些模式进行的，例如舌位的运动等，它在频率域上会有不同的反映，受人体发音器官的限制，频率域上有些地方敏感些，有些地方受影响很小。基于这个思想，本发明以通带能量为特征，引入模式识别领域的F-Ratio分析，对各个频率点对情感语音识别的区分度进行量化分析，得到语音情感信息在频率域的分布图，图1给出了一个语音情感信息在频率域的分布图的例子，其纵坐标代表F-Ratio值的大小，单位为1。

4)基于在步骤3)得到的语音情感信息在频率域的分布图，根据图3中的算法，通过加强信息多的频谱(例如3000赫兹附近)的分辨率，抑制对信息偏少区域(例如1000赫兹附近)的分辨率，得到每个非均匀美尔子带的带宽，即可完成通带滤波器的重新设计。

5)利用重新设计的非均匀美尔子带滤波器得到待识别语音信号各子带的能量输出，并对各子带能量进行取对数、进行DCT(离散余弦变换)得到倒谱系数，最后对倒谱系数进行均值方差规整。这些处理可以控制特征的动态范围、对特征进行进一步的去冗余操作、以及去除信道噪声的影响，会更加稳健、更加实用(可参考文献Xuedong Huang，Alex Acero，Hsiao-Wuen Hon.Spoken Language Processing[M].NewJersey：Prentice Hall PTR，2001)。

下面结合具体实施例和附图对本发明进行详细描述。

实施例

本发明提供的情感识别特征计算方法，包括以下步骤：

1)语音信号的预处理和加窗；这里采用各帧有重叠的方法，为了和传统MFCC相比，帧长帧移分别都是25ms、10ms。引入了基于能量的语音端点检测技术，对静音、噪音等进行判断并丢弃。

2)FFT计算并得到均匀的通带能量。FFT计算后，得到nbin个频率分量(对于16k采样语音，大概需要512个样点、256个有效值)，即使相邻帧各个对应点之间的差异性很大，本实施例采用均匀分布的滤波器，求取其通带能量；通带能量的个数不是越少越好，要尽量保证其分辨率。为了便于计算和后续使用，本实施例用了64个通带，每个通带大概包含8个频率点。通带能量的计算主要有两种方法(其中FB₁(j)、FB₂(j)分别是用两种方法计算出的通带能量，本实施例可任选其中一种)：

M = \frac{N_{fft}}{N_{fb} + 1} - - - (1)

{FB}_{1} (j) = Σ_{i = M (j - 1)}^{M (j + 1)} | w (i) x (i) | - - - (2)

{FB}_{2} (j) = \sqrt{Σ_{i = M (j - 1)}^{M (j + 1)} w (i) x {(i)}^{2}} - - - (3)

其中w(i)是通带滤波器的形状，一般采用三角滤波器组，通带能量之间有重合。

3)用F-Ratio度量情感信息在各个频带上的分布；有了上述通带能量(指已知情感的标准预料库中的语音信号经步骤1)和2)的处理后所得的通带能量)，可利用所有的情感数据，在各个通带能量上进行F-Ratio的计算。对于每个频点，该频点的F-Ratio值按公式(4)得出。

F - Ratio = \frac{Σ_{i = 1}^{P} {(e_{i} - e)}^{2}}{\frac{1}{Q} Σ_{i = 1}^{P} Σ_{j = 1}^{Q} {(x_{i}^{j} - e_{i})}^{2}} - - - (4)

其中

是第i种情感的第j帧的通带能量，i和j的值分别是j＝1，2，...，Q，i＝1，2，...，P。其中Q、P均为自然数。

4)基于在步骤3)得到的F-Ratio度量的语音情感信息在频率域的分布图，重新设计通带滤波器。非均匀子带滤波器的设计具体包括以下步骤：

(1)用F-Ratio度量情感信息在各个频带上的分布；可由步骤3)得到的一些样点信息，通过插值映射到整个频率域上，例如16k采样，其整个频率范围是0～8k。

(2)计算F-Ratio的累积求和，即求得其累积分布函数(即CDF)。本实施例中做了以下假设，即通带的带宽和其F-Ratio值成反比关系，其F-Ratio值越大，带宽越小。但是由于通带的边界受到通带带宽影响，是变化的，所以这种映射不好直接做。所以，本实施例提出了用通带的个数和F-Ratio的正比关系，用F-Ratio的累积分布函数代替通带个数的累积分布函数，在整个频率域上映射，来解决这个问题。

(3)得到通带个数在整个频率范围上的分布，每个非均匀美尔子带的带宽就能通过上述分布直接计算得到。实际过程是在量化的频率域即FFT域进行的，所以要把通带数对FFT域的累积分布函数，乘以所需要的最终通带个数(通常取24)，在整个通道数上量化，就得到了各个频率所属的通带编号。对所有的通带编号求差分，不为零处就是通带的频率点边界。频率点边界的编号差分，既是非均匀美尔子带的通带带宽。

5)对待识别语音信号，先按照所述步骤1)进行预处理和加窗，然后按照所述步骤2)进行FFT计算得到待识别语音信号的能量频谱，再利用步骤3)所述的重新设计的非均匀美尔子带滤波器得到所述待识别语音信号各非均匀美尔子带的的能量输出，并对各子带能量进行对数转换、DCT(离散余弦变换)得到倒谱系数，最后对所得倒谱系数进行均值方差规整。其中均值方差规整的公式如下：

E (x) = Σ_{i = 1}^{N} x (i) - - - (5)

D (x) = Σ_{i = 1}^{N} {(x (i) - E (x))}^{2} - - - (6)

y (i) = \frac{x (i) - E (x)}{\sqrt{D (x)}} - - - (7)

其中，x(i)是规整前的特征，E(x)是其均值，D(x)是其方差，y(i)是均值方法规整后的特征。

在按照上述方法提取出语音信号中的情感特征后，可以将这些情感特征输入分类器(如混合高斯模型分类器)，经过所述分类器的处理后，最终得出语音情感识别结果。

在CASIA汉语情感语料库上进行试验，共包括四个专业发音人，六种情绪，共9,600句不同发音，采用的分类器是混合高斯模型(GMM)分类器，各系统采用相同的512高斯数建模。如图4所示，相比基线MFCC特征，本发明的非均匀美尔子带频率倒谱系数(NUFCC)特征显著提高了情感的识别准确率，在有些情感上绝对提高5％左右，例如生气和惊讶。在平均意义上，绝对提高2％。

Claims

1.一种用于语音情感识别的语音情感特征提取方法，包括下列步骤：

1)对已知情感的标准预料库中的语音信号进行FFT计算、并通过均匀带通滤波器得到均匀的通带能量；

4)对待识别语音信号，进行FFT计算得到能量频谱，然后用所述非均匀美尔子带滤波器进行滤波，得到所述待识别语音信号各非均匀美尔子带的能量输出，进而得出所述待识别语音信号的语音情感特征。

2.根据权利要求1所述的语音情感特征提取方法，其特征在于，所述步骤1)还包括：在进行FFT计算前，首先对语音信号进行预处理和加窗；所述预处理包括去掉所述语音信号中的静音和噪声。

3.根据权利要求1所述的语音情感特征提取方法，其特征在于，所述步骤2)中，

F - Ratio = \frac{Σ_{i = 1}^{P} {(e_{i} - e)}^{2}}{\frac{1}{Q} Σ_{i = 1}^{P} Σ_{j = 1}^{Q} {(x_{i}^{j} - e_{i})}^{2}}

其中，

是第i种情感的第j帧的通带能量，

Q、P均为自然数。

4.根据权利要求1所述的语音情感特征提取方法，其特征在于，所述步骤3)包括下列子步骤：

31)通过插值将所述语音情感信息的F-Ratio值在各个频带上的分布图映射到整个频率域上；

32)计算F-Ratio的累积分布函数，用F-Ratio的累积分布函数代替通带个数的累积分布函数，得到通带个数在整个频率范围上的分布；

33)根据通带个数在整个频率范围上的分布，得出每个非均匀美尔子带的带宽，从而得出所述非均匀美尔子带滤波器。

5.根据权利要求1所述的语音情感特征提取方法，其特征在于，所述步骤4)还包括：得到待识别语音信号各子带的能量输出后，对各子带能量进行对数转换、离散余弦变换得到倒谱系数，并对所得倒谱系数进行均值方差规整，从而得出所述语音情感特征。

6.一种利用权利要求1至5中任一项所述的语音情感特征提取方法的语音情感识别方法，包括：

1)利用权利要求1至5中任一项所述的语音情感特征提取方法，得出待识别语音信号的语音情感特征；

2)将待识别语音信号的语音情感特征输入分类器，得出语音情感识别结果。

7.根据权利要求6所述的语音情感识别方法，其特征在于，所述步骤2)中，所述分类器是混合高斯模型分类器。