CN106205636A

CN106205636A - 一种基于mrmr准则的语音情感识别特征融合方法

Info

Publication number: CN106205636A
Application number: CN201610533439.XA
Authority: CN
Inventors: 张昕然; 赵力; 魏昕; 巨晓正; 查诚
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2016-07-07
Filing date: 2016-07-07
Publication date: 2016-12-07

Abstract

本发明公开了一种基于MRMR准则的语音情感识别特征融合方法，包括如下步骤：1、提取语音信号的韵律特征、音质特征和谱特征；2、对提取的韵律特征、音质特征和谱特征采用MRMR准则进行特征融合。本发明公开的语音情感识别特征融合方法融合了语音的韵律特征、音质特征和谱特征，在保证识别率的同时有效优化了特征向量维度，提高了语音情感识别系统的效率。

Description

一种基于MRMR准则的语音情感识别特征融合方法

技术领域

本发明属于语音信号处理领域，具体涉及一种语音情感识别特征融合方法。

背景技术

在语音情感识别的研究过程中，使用的情感特征种类非常多，常用特征包括了韵律特征、音质特征、谱特征等。许多研究者认为韵律特征中包含了最多的情感信息，语音情感识别能力强，而谱特征缺少与情感状态直观的关联性，语音情感识别能力要弱于韵律特征和音质特征。

发明内容

发明目的：针对现有技术中存在的问题，本发明公开了一种鲁棒的语音情感识别特征融合方法，该方法融合了语音的韵律特征和谱特征，一定程度上消除了多个特征之间的信息冗余。

技术方案：本发明公开了一种基于MRMR(Maximum Relevance MinimumRedundancy，最大相关最小冗余)准则的语音情感识别特征融合方法，包括如下步骤：

(1)提取语音信号的韵律特征、音质特征和谱特征；

(2)对提取的韵律特征、音质特征和谱特征采用MRMR准则进行特征融合。

其中韵律特征包括：基音频率及其一阶与二阶导数的六维统计值，能量特征及其一阶与二阶导数的六维统计值，语音速率特征和句尾特征；音质特征包括：第一、第二以及第三共振峰频率均值；谱特征包括：12阶LFPC系数及其一二阶导数的六维统计值；句尾特征包括：归一化基频斜率、归一化基频均值、归一化能量斜率、归一化能量斜率均值和归一化持续时间。

步骤(2)中MRMR准则中最大相关最小冗余度判决准则为：

\max D (S, c), D = \frac{1}{| S |} \underset{y_{i} &Element; S}{Σ} I (y_{i}; c) - - - (1)

\min R (S), R = \frac{1}{{| S |}^{2}} \underset{y_{i}, y_{j} &Element; S}{Σ} I (y_{i}; y_{j}), - - - (2)

其中S表示的是特征集合，|S|表示的是集合中包含特征的数目，c表示目标类别，y_i与y_j分别表示特征i与特征j，I(y_i；c)表示特征i与目标类别c之间的互信息，I(y_i；y_j)则表示特征i与特征j之间的互信息，对应公式如下：

I (x, y) = \underset{x &Element; X}{Σ} \underset{y &Element; Y}{Σ} p (x, y) l b \frac{p (x, y)}{p (x) p (y)} - - - (3)

p(x)与p(y)分别表示的是两个随机变量x与y的概率密度，p(x,y)为联合概率密度。

优选地，步骤(2)中MRMR准则中最大相关最小冗余度判决准则为：

其中

\{\begin{matrix} D = \frac{1}{| S |} \underset{y_{i} &Element; S}{Σ} I (y_{i}; c) \\ R = \frac{1}{{| S |}^{2}} \underset{y_{i}, y_{j} &Element; S}{Σ} I (y_{i}; y_{j}) \end{matrix} - - - (5)

S表示的是特征集合，|S|表示的是集合中包含特征的数目，c表示目标类别，y_i与y_j分别表示特征i与特征j，I(y_i；c)表示y_i与目标类别c之间的互信息，I(y_i；y_j)则表示y_i与y_j之间的互信息，对应公式如下：

I (x, y) = \underset{x &Element; X}{Σ} \underset{y &Element; Y}{Σ} p (x, y) l b \frac{p (x, y)}{p (x) p (y)} - - - (6)

其中，p(x)与p(y)分别表示的是两个随机变量x与y的概率密度，p(x,y)为联合概率密度；概率密度的估计函数如下：

\hat{p} (x) = \frac{1}{n h} Σ_{i = 1}^{n} K (\frac{x - x_{i}}{h}) = \frac{1}{n} Σ_{i = 1}^{n} K_{h} (x - x_{i}) - - - (7)

\hat{p} (x, y) = \frac{1}{n} Σ_{i = 1}^{n} K_{h_{x}} (x - x_{i}) K_{h_{y}} (y - y_{i}) - - - (8)

其中n表示用于估计的样本数量，K表示的是非负密度核函数，为正态分布；h表示窗宽度，其近似值为：

h = {(\frac{3}{4})}^{1 / 5} {σn}^{- 1 / 5} \approx 1.06 {σn}^{- 1 / 5}

σ表示用于估计的样本标准差，K_h表示h窗宽度下的K核函数；K_hx和K_hy分别表示x、y特征在h窗宽度下的K核函数。

有益效果：与现有技术相比，本发明公开的语音情感识别特征融合方法具有以下优点：1、该方法融合了语音的韵律特征、音质特征和谱特征，一定程度上消除了多个特征之间的信息冗余，实现了客观的信息压缩；2、保留了参与融合的单个特征对分类的有效判别信息，采用融合后的特征子集比采用单一特征类型的子集识别率更高。

附图说明

图1是MRMR获取最优特征子集流程。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

表1特征列表

表2句尾特征

本发明从自制语音情感数据库中选取五种情感的样本语句各210条，并依据表1所列内容提取相应的韵律特征、音质特征和谱特征。五种情感为：高兴、愤怒、悲伤、害怕和平静。这样每个样本语句提取出的特征就有10个，五种情感共有1050个样本语句，提取出的特征有10500个，组成特征集合S_f。

本发明采取遍历所有特征组合的方式来对特征进行选择，从而获取最优特征子集，完成传统特征融合。流程如图1所示。

1.在特征集合S_f中随机选择k个特征，组成特征子集S_k，将S_k中每个特征样本代入式(5)-(8)，计算出此时的D,R值；将计算出的D,R值代入式(4)，计算出此时的和记为和

2.在集合S_f中选择S_k之外的一个特征，与S_k组成特征子集S_k+1，将S_k+1中每个特征样本代入式(5)-(8)，计算出此时的D,R值；将计算出的D,R值代入式(4)，计算出此时的和记为和

3.比较和和如果且更新k＝k+1,S_k＝S_k+1,跳转到步骤2,直到S_f中所有的特征被遍历完，最后得到最优特征子集S_k。

经过上述特征融合的步骤，本实施例将特征集合S_f经选择后得到最优特征子集S_k，S_k中特征维度为133。采用特征子集S_k进行识别，识别率达到了81.3％，而系统最高识别率为82.2％。通过本发明公开的方法极大地去除了特征之间的冗余信息，在保证识别率的同时通过优选优化了特征向量维度，提高了系统效率。

Claims

1.一种基于MRMR准则的语音情感识别特征融合方法，其特征在于，包括如下步骤：

(1)提取语音信号的韵律特征、音质特征和谱特征；

2.根据权利要求1所述的一种基于MRMR准则的语音情感识别特征融合方法，其特征在于，所述韵律特征包括：基音频率及其一阶与二阶导数的六维统计值、能量特征及其一阶与二阶导数的六维统计值、语音速率特征和句尾特征。

3.根据权利要求2所述的一种基于MRMR准则的语音情感识别特征融合方法，其特征在于，所述句尾特征包括：归一化基频斜率、归一化基频均值、归一化能量斜率、归一化能量斜率均值和归一化持续时间。

4.根据权利要求1所述的一种基于MRMR准则的语音情感识别特征融合方法，其特征在于，所述音质特征包括第一、第二以及第三共振峰频率均值。

5.根据权利要求1所述的一种基于MRMR准则的语音情感识别特征融合方法，其特征在于，所述谱特征包括12阶LFPC系数及其一二阶导数的六维统计值。

6.根据权利要求1所述的一种基于MRMR准则的语音情感识别特征融合方法，其特征在于，步骤(2)中MRMR准则中最大相关最小冗余度判决准则为：

\max D (S, c), D = \frac{1}{| S |} \underset{y_{i} &Element; S}{Σ} I (y_{i}; c)

\min R (S), R = \frac{1}{| S |^{2}} \underset{y_{i}, y_{j} &Element; S}{Σ} I (y_{i}; y_{j}),

其中S表示的是特征集合，|S|表示的是特征集合中特征的数目，c表示目标类别，y_i与y_j分别表示特征i与特征j，I(y_i；c)表示y_i与目标类别c之间的互信息，I(y_i；y_j)则表示y_i与y_j之间的互信息，对应公式如下：

I (x, y) = \underset{x &Element; X}{Σ} \underset{y &Element; Y}{Σ} p (x, y) l b \frac{p (x, y)}{p (x) p (y)}

7.根据权利要求1所述的一种基于MRMR准则的语音情感识别特征融合方法，其特征在于，步骤(2)中MRMR准则中最大相关最小冗余度判决准则为：

\{\begin{matrix} {maxφ}_{1} (D, R), φ_{1} = D - R \\ {maxφ}_{2} (D, R), φ_{2} = \frac{D}{R} \end{matrix}

其中

\{\begin{matrix} D = \frac{1}{| S |} \underset{y_{i} &Element; S}{Σ} I (y_{i}; c) \\ R = \frac{1}{| S |^{2}} \underset{y_{i}, y_{j} &Element; S}{Σ} I (y_{i}, y_{j}) \end{matrix}

S表示的是特征集合，|S|表示的是特征集合中特征的数目，c表示目标类别，y_i与y_j分别表示特征i与特征j，I(y_i；c)表示y_i与目标类别c之间的互信息，I(y_i；y_j)则表示y_i与y_j之间的互信息，对应公式如下：

I (x, y) = \underset{x &Element; X}{Σ} \underset{y &Element; Y}{Σ} p (x, y) l b \frac{p (x, y)}{p (x) p (y)}

\hat{p} (x) = \frac{1}{n h} Σ_{i = 1}^{n} K (\frac{x - x_{i}}{h}) = \frac{1}{n} Σ_{i = 1}^{n} K_{h} (x - x_{i})

\hat{p} (x, y) = \frac{1}{n} Σ_{i = 1}^{n} K_{h x} (x - x_{i}) K_{h y} (y - y_{i})

h = {(\frac{3}{4})}^{1 / 5} {σn}^{- 1 / 5} \approx 1.06 {σn}^{- 1 / 5}