CN103854645A

CN103854645A - 一种基于说话人惩罚的独立于说话人语音情感识别方法

Info

Publication number: CN103854645A
Application number: CN201410078383.4A
Authority: CN
Inventors: 郑文明; 徐新洲; 赵力; 黄程韦; 余华; 吴尘; 查诚
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2014-03-05
Filing date: 2014-03-05
Publication date: 2014-06-11
Anticipated expiration: 2034-03-05
Also published as: CN103854645B

Abstract

本发明公开了一种基于说话人惩罚的独立于说话人语音情感识别方法，对语音信号样本依次进行预处理、语音情感原始特征提取、维数约简、分类器分类判决。其中在维数约简阶段，使用了基于说话人惩罚的图嵌入学习方法，利用说话人标签信息，分别针对属于同一类情感类别但说话人不同，以及属于同一说话人但分属于不同情感类别的语音信号样本对，在图嵌入理论的基础上利用已有理论，进行组合优化运算。与现有方法相比，本发明的方法在独立于说话人的语音情感识别中，能够有效地提升系统的识别性能。

Description

一种基于说话人惩罚的独立于说话人语音情感识别方法

技术领域

本发明属于语音情感识别领域，特别是涉及一种基于说话人惩罚的独立于说话人语音情感识别方法。

背景技术

随着应用需求不断增加，语音情感识别（Speech Emotion Recognition，简称SER）的研究近年来得到了较大的发展。语音情感识别的成果可以应用于呼叫中心语料的自动分析处理，以及人机交互（Human-Machine Interaction，简称HMI）等诸多领域，以获取语音情感信息的自动分析识别，实现机器的智能化。基于上述的需求，为了取得更高的系统性能，目前已有了大量集中在语音情感识别方面的研究工作。然而，大量已有的工作都是对如何利用专家知识或是实验经验，选取有效的语音情感特征的研究，这些研究忽略了系统对样本变化的自适应性，从而并不具有很好的可移植性。而且语音情感原始特征一般都含有着大量的冗余信息。

独立于说话人的语音情感识别工作则在语音情感识别系统的训练和测试阶段分别使用完全不同的说话人语料样本，使得算法的训练和测试阶段基于不同的说话人信息。从而提高了算法的实用性，但却同时加大了算法实现语音情感识别的难度。

维数约简作为模式识别与机器学习中一个重要的环节，不仅对特征的提取、压缩、传输以及有效地减小后续模块中的计算量有着重要的意义，还能够显著地提高整个系统的识别性能。流形学习方法常用于识别工作的维数约简阶段，可以体现出训练数据集的本征结构。目前常用的基于图学习的流形学习方法有多种，如局部保持投影（LocalityPreserving Projection）、局部线性嵌入（Locally Linear Embedding，简称LLE）、扩散映射（Diffusion Maps，简称DM）、Isomap、边界Fisher分析（Marginal Fisher Analysis，简称MFA）等。此外，还有主成分分析（Principal Component Analysis，简称PCA）、线性判别分析（Liner Discriminant Analysis，简称LDA）、局部判别嵌入（Local DiscriminantEmbedding，简称LDE）等可以转化为图学习形式的子空间学习算法。上述这些算法都可以表示为统一的图嵌入框架、最小均方框架及其各类扩展形式。

当前的研究中还存在着以下问题：由于在提取语音情感原始特征时包含了大量的说话人特征，所以不同说话人的存在对语音识别的效果有着较大的影响，尤其是独立于说话人语音情感识别时对系统的影响更为明显。而目前的语音情感识别主要针对不同说话人的情况，所以减轻不同说话人对识别的影响有着重要的意义。在此基础上，大量的研究工作基于经验性的实验结论来去除说话人特征的影响，但这些成果对于不同环境下的自适应性同样不够理想。本发明正是基于这些缺陷，对语音情感识别系统，尤其是独立于说话人条件下的语音情感识别，进行了一系列改进，使其对不同说话人所带来的影响具有一定的鲁棒性。

发明内容

要解决的技术问题：针对现有技术的不足，本发明提出一种基于说话人惩罚的独立于说话人语音情感识别方法，即说话人惩罚图学习（Speaker Penalty Graph Learning，简称SPGL），具体包括线性说话人惩罚图学习算法（简称LSPGL）和核说话人惩罚图学习算法（简称KSPGL），解决现有技术中语音情感特征受不同说话人影响较大；并且存在语音情感的维数较高，不适于特征的压缩、传输，不利于系统的识别性能；同时传统的独立于说话人语音情感识别算法可移植性较差的技术问题。

技术方案：为解决上述技术问题，本发明采用以下技术方案：

一种基于说话人惩罚的独立于说话人语音情感识别方法，将语音情感数据库中若干个语音样本按照不同说话人划分为训练样本集和测试样本集，且训练集中任一样本所属的说话人在测试集中不出现，其中每个语音样本均具有语音情感标签信息和说话人标签信息，包括顺序执行的以下步骤：

步骤一，语音样本预处理：对语音样本进行预加重，然后对预加重后的语音样本的时域信号进行分帧；

步骤二，语音情感特征提取：对经步骤一处理后的每个语音样本，分别提取其能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量；对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量；

步骤三，特征筛选：使用训练样本语音情感标签信息，对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选，去除规整化语音情感特征向量中对语音情感分析贡献较小的特征，得到每个语音样本的特征筛选后语音情感特征向量；

步骤四，基于说话人惩罚的特征维数约简：设经步骤三特征筛选得到训练样本特征筛选后语音情感特征向量集X＝[x₁,x₂,...,x_N]，利用训练样本的语音情感标签信息和说话人标签信息，采用本发明提出的LSPGL算法或KSPGL算法对X进行维数约简训练，生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射阵P，同时分别求解得到X的线性映射低维样本集A^TX或核映射低维样本集P^TK，其中K为训练样本集的Gram阵，选用Gauss核函数；

步骤五，训练分类器：对多类SVM分类器进行训练或直接选取1NN分类器；其中多类SVM分类器进行训练的方法为：设训练样本集中有N个分属于N_c个种类的语音样本，在训练样本集中任取两个种类的语音样本，进行训练得到1个两类SVM分类器，每两类重复该训练过程，共得到N_c(N_c-1)/2个两类SVM分类器；

步骤六，测试：对于每个测试样本，使用经步骤五训练完成的分类器对每个测试样本进行测试，具体包括顺序执行的以下步骤：

（1）对经步骤三得到的每个测试样本

的特征筛选后语音情感特征向量使用线性降维投影矩阵A或核方法降维映射阵P进行维数约简，得到

经过线性维数约简后的低维样本

或经过核方法维数约简后的低维样本P^TK_i，对于一个测试样本

K_{i} = {[K (x_{i}^{test}, x_{1}), K (x_{i}^{test}, x_{2}), . . ., K (x_{i}^{test}, x_{N})]}^{T},

Gram阵K中的核函数选用步骤四中所述的Gauss核函数；

（2）使用分类器对

或P^TK_i进行分类，选择多类SVM分类器或者1NN分类器进行分类：

利用多类SVM分类器分类的方法为：将每个测试样本的低维样本

或P^TK_i经所有得到的两类SVM分类器分类之后得到N_c(N_c-1)/2个判断结果，得票最多的判断结果即判决为对应的测试样本所属的情感类别；若出现相同最多票数，则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断，得到新一轮判断结果，上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别；如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时，则在这几类中随机决定对应测试样本的类别；

利用1NN分类器分类的方法为：对于每一个测试样本，在全体训练样本中找到与其欧式距离最近的训练样本，使用该训练样本对应的类别标签作为该测试样本的分类判决结果。

进一步的，在本发明中，步骤二中原始语音情感特征向量中的语音情感特征分布如下：

1-80维：能量序列的统计特征和一阶、二阶抖动；能量一阶、二阶差分序列的统计特征；三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征；三个不同频带内能量序列的一阶、二阶抖动；

81-101维：基音序列的统计特征和一阶、二阶抖动；基音一阶、二阶差分序列的统计特征；基音序列斜率；

102-121维：过零率序列及其一阶、二阶差分序列的统计特征；

122-130维：浊音帧数与清音帧数的比；浊音段数与清音段数的比；浊、清音最长段的帧数；浊、清音帧数和段数；语速；

131-250维：共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征；共振峰频率序列的一阶、二阶抖动；

251-406维：MFCC及其一阶差分序列的统计特征；

其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。

进一步的，在本发明中，步骤二中的规整化处理的方法如下：

规整化前的所有语音样本中的任一样本为x⁽⁰⁾，其中N个训练样本组成的训练样本集为

X^{(0)} = [x_{1}^{(0)}, x_{2}^{(0)}, . . ., x_{N}^{(0)}],

设

为

的第j个特征元素（i＝1,2,...,N）；

对于任一语音样本x⁽⁰⁾，特征j对应元素的规整化处理的计算公式为：

x_{\cdot j}^{(1)} = \frac{x_{\cdot j}^{(0)} - \min_{i = 1,2, . . ., N} (x_{ij}^{(0)})}{\max_{i = 1,2, . . ., N} (x_{ij}^{(0)}) - \min_{i = 1,2, . . ., N} (x_{ij}^{(0)})}

其中

表示X⁽⁰⁾第j行中最大的元素，

表示X⁽⁰⁾第j行中最小的元素；

将任一语音样本中的所有的元素按照上述计算公式进行计算得到任一语音样本x⁽⁰⁾规整化语音情感特征向量集

其中，属于训练样本集的语音样本规整化语音情感特征向量，组成训练样本的规整化语音情感特征向量集

X^{(1)} = [x_{1}^{(1)}, x_{2}^{(1)}, . . ., x_{N}^{(1)}],

即

其余为测试样本的语音样本规整化语音情感特征向量。

进一步的，在本发明中，步骤二中所述特征筛选的方法如下：

任一语音样本规整化语音情感特征向量

中属于特征j的FDR值的计算公式为：

J (j) = Σ_{\underset{l > k}{l, k = 1}}^{N_{c}} \frac{{(μ_{c_{l} j} - μ_{c_{k} j})}^{2}}{δ_{c_{l} j}^{2} + δ_{c_{k} j}^{2}}

其中，

分别为训练样本的规整化语音情感特征向量集X⁽¹⁾中特征j分属于c_l、c_k类样本的均值，

分别为训练样本的规整化语音情感特征向量集X⁽¹⁾中特征j分属于c_l、c_k类样本的方差，N_c为情感的类数；

去除40～60个较小J(j)值对应的特征j，得到训练样本的特征筛选后语音情感特征向量集X＝[x₁,x₂,...,x_N]和每个测试样本的特征筛选后语音情感特征向量

具体地，在本发明中，维数约简时根据采用的不同算法，具有不同的维数约简方法，其中，

LSPGL算法的图嵌入的优化形式为：

\underset{a}{\arg \min} \frac{a^{T} {XLX}^{T} a}{a^{T} {XL}^{p} X^{T} a}, s . t . a^{T} a = 1

其中，

L为本征图的拉普拉斯矩阵且为N×N矩阵，

L^p为惩罚图的拉普拉斯矩阵且为N×N矩阵，

这里L_LDA为线性判别分析的本征图的拉普拉斯矩阵，且L_LDA＝D_LDA-W_LDA，其中N×N对角阵D_LDA中第i行j列的元素的形式为

{(D_{LDA})}_{ij} = \{\begin{matrix} Σ_{k = 1}^{N} {(W_{LDA})}_{ik}, & i = j \\ 0, & i &NotEqual; j \end{matrix},

W_LDA为线性判别分析的本征图邻接阵，且

H为主成分分析的本征图的拉普拉斯矩阵，同时H也为线性判别分析的惩罚图的拉普拉斯矩阵，且

其中e为N维列向量，I为N×N的单位阵；

为规范化的说话人本征图的拉普拉斯矩阵：

{\tilde{L}}^{is} = {(D^{is})}^{- \frac{1}{2}} L^{is} {(D^{is})}^{- \frac{1}{2}} = I - {(D^{is})}^{- \frac{1}{2}} W^{is} {(D^{is})}^{- \frac{1}{2}};

这里L^is为说话人本征图的拉普拉斯矩阵，且L^is＝D^is-W^is，其中D^is为L^is的节点度对角阵，且D^is中第i行j列的元素的形式为

D_{ij}^{is} = \{\begin{matrix} Σ_{k = 1}^{N} W_{ik}^{is}, & i = j \\ 0, & i &NotEqual; j \end{matrix};

W^is为说话人本征图的邻接阵，且

式中

表示两个矩阵的对应位置元素相乘的运算符；其中对于N维列向量e^c的任一元素，其对应的训练样本属于类c时该元素为1，否则该元素为0；对于N维列向量

的任一元素，其对应的训练样本属于说话人c_s时该元素为1，否则该元素为0；

为规范化的说话人的惩罚图的拉普拉斯矩阵：

{\tilde{L}}^{ps} = {(D^{ps})}^{- \frac{1}{2}} L^{ps} {(D^{ps})}^{- \frac{1}{2}} = I - {(D^{ps})}^{- \frac{1}{2}} W^{ps} {(D^{ps})}^{- \frac{1}{2}};

这里L^ps为说话人惩罚图的拉普拉斯矩阵，且L^ps＝D^ps-W^ps，其中D^ps为L^ps的节点度对角阵，且D^ps中第i行j列的元素的形式为

D_{ij}^{ps} = \{\begin{matrix} Σ_{k = 1}^{N} W_{ik}^{ps}, & i = j \\ 0, & i &NotEqual; j \end{matrix};

W^ps为说话人惩罚图的邻接阵，且其中

表示两个矩阵的对应位置元素相乘的运算符；N×N阵W_kNN为训练样本集的k近邻图的邻接阵，其对应的第i行、第j列元素为：

{(W_{kNN})}_{ij} = \{\begin{matrix} 1, & i &Element; N_{k} (j) & or & j &Element; N_{k} (i) \\ 0, & otherwise \end{matrix},

N_K(i)、N_K(j)分别表示样本点i、j的k近邻点集，其中k＝1,2,3,...；

参数0≤γ₁≤1、0≤γ₂≤1，且γ₁和γ₂通常取值范围为0.1～0.6；

n维列向量a为线性投影映射向量，a^T为a的转置；

KSPGL算法的图嵌入的优化形式为：

\underset{a}{\arg \min} \frac{α^{T} KLKα}{α^{T} {KL}^{p} Kα}, s . t . α^{T} α = 1

其中，

N维列向量α为核投影映射向量，α^T为α的转置；

Gram阵K中元素选用Gauss核函数，K中i行j列元素形式为：K_ij＝K(x_i,x_j)＝exp(-||x_i-x_j||²/σ²)，其中σ²为Gauss核参数，控制核函数的平缓程度；这里的Gram阵K满足K＝φ^T(X)φ(X)，φ(X)＝[φ(x₁) φ(x₂) ... φ(x_N)]为原特征下的样本集X向高维再生核Hilbert空间的映射，φ^T(X)为φ(X)的转置矩阵；

L和L^p的含义与LSPGL的图嵌入的优化形式中相同；

本发明中提出的SPGL算法（包括LSPGL和KSPGL）基于说话人标签信息，在语音情感识别研究中表现较好的LDA算法基础上，加入上述权重成分，形成新的嵌入图，其对应的本征图和惩罚图的拉普拉斯阵可以分别表示为：

L = (1 - γ_{1}) L_{LDA} + γ_{1} {\tilde{L}}^{is}

L^{p} = (1 - γ_{2}) H + γ_{2} {\tilde{L}}^{ps}

其中，图的线性组合系数γ₁和γ₂，对说话人本征图、惩罚图，与LDA嵌入图之间的关系进行加权，一般组合系数取值的大致范围可以通过经验得到，更精确的取值可由交叉验证得到。

利用广义特征值问题GEP对LSPGL或KSPGL的优化形式进行求解：首先预先使用奇异值分解将广义特征值问题GEP转化为普通的特征值问题，然后求解优化形式：

求解LSPGL算法的优化形式时，得到线性降维投影向量a的求解a₁,a₂,...,a_m，所述各个求解a₁,a₂,...,a_m均两两相互正交，进而得到各个求解组成线性降维映射阵A＝[a₁,a₂,...,a_m]，m为维数约简后的特征维数；

求解KSPGL算法的优化形式时，得到核方法降维投影向量α的求解α₁,α₂,...,α_m，所述各个求解α₁,α₂,...,α_m均两两相互正交，进而得到各个求解组成核方法的降维映射阵m为维数约简后的特征维数。

有益效果：

本发明的独立于说话人语音情感识别方法，通过对语音样本划分为分别来自于不同说话人的训练样本集和测试样本集，对经过预处理的语音信号样本进行原始语音情感特征提取，继而进行特征筛选、维数约简和分类器分类。

由于原始语音情感特征中包含大量的与说话人类别相关的特征，如共振峰、MFCC、基音频率等类别的特征，而在语音情感识别中这些特征可能会对识别系统以及算法的性能产生不利的影响。鉴于此，在训练学习时需要对属于不同情感类别，并属于同一说话人且在其相互近邻域中的语音样本对权重进行一定的增加，可以抑制说话人特征的影响；同时，对于属于同一情感类别且属于不同说话人的语音样本对增加权重，可以突出同一语音情感的共性成分。

因此，本发明中提出的LSPGL算法或KSPGL算法，在维数约简阶段对训练样本使用LDA和说话人嵌入图的线性组合进行最优化运算，实现对独立于说话人语音情感识别中，特征维数约简过程的优化，提高了降维的有效性。

通过实验证明，相比于现有的识别方法，本发明的方法在语音情感特征空间降维过程中增加了降维的有效性，使得独立于说话人语音情感识别系统的识别率性能得到了提升。

附图说明

图1为本发明的流程图；

图2为使用1NN分类器时，Berlin语音情感数据库中，几种使用线性维数约简的识别算法，在使用不同降维维数时LOSO方法识别率的比较；

图3为使用SVM分类器时，Berlin语音情感数据库中，几种使用线性维数约简的识别算法，在使用不同降维维数时LOSO方法识别率的比较；

图4为Berlin语音情感数据库中，几种维数约简算法使用LOSO方法测试，得到的低维情况最优识别率比较；

图5为eNTERFACE’05数据库中语音信号部分，几种维数约简算法使用LOSO方法测试，得到的低维情况最优识别率比较。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示，为本发明的流程图。

一种基于说话人惩罚的独立于说话人语音情感识别方法，包括以下步骤：

将语音情感数据库中若干个语音样本按照不同说话人划分为训练样本集和测试样本集，且训练集中任一样本所属的说话人在测试集中不出现，其中每个语音样本均具有语音情感标签信息和说话人标签信息，包括顺序执行的以下步骤：

步骤二，语音情感特征提取：对经步骤一处理后的每个语音样本，分别提取其能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量；所述6大类语音情感特征分布如下：

102-121维：过零率序列及其一阶、二阶差分序列的统计特征；

251-406维：MFCC及其一阶差分序列的统计特征；

对上述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量；这里规整化的具体处理方法如下：

X^{(0)} = [x_{1}^{(0)}, x_{2}^{(0)}, . . ., x_{N}^{(0)}],

设

为

的第j个特征元素（i＝1,2,...,N）；

对于任一语音样本x⁽⁰⁾，特征j对应元素

的规整化处理的计算公式为：

x_{\cdot j}^{(1)} = \frac{x_{\cdot j}^{(0)} - \min_{i = 1,2, . . ., N} (x_{ij}^{(0)})}{\max_{i = 1,2, . . ., N} (x_{ij}^{(0)}) - \min_{i = 1,2, . . ., N} (x_{ij}^{(0)})}

其中

表示X⁽⁰⁾第j行中最大的元素，表示X⁽⁰⁾第j行中最小的元素；

X^{(1)} = [x_{1}^{(1)}, x_{2}^{(1)}, . . ., x_{N}^{(1)}],

即其余为测试样本的语音样本规整化语音情感特征向量。

步骤三，特征筛选：使用训练样本语音情感标签信息，对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选，去除规整化语音情感特征向量中对语音情感分析贡献较小的特征，得到每个语音样本的特征筛选后语音情感特征向量；特征筛选的具体方法为：任一语音样本规整化语音情感特征向量

中属于特征j的FDR值的计算公式为：

J (j) = Σ_{\underset{l > k}{l, k = 1}}^{N_{c}} \frac{{(μ_{c_{l} j} - μ_{c_{k} j})}^{2}}{δ_{c_{l} j}^{2} + δ_{c_{k} j}^{2}}

其中，分别为训练样本的规整化语音情感特征向量集X⁽¹⁾中特征j分属于c_l、c_k类样本的均值，分别为训练样本的规整化语音情感特征向量集X⁽¹⁾中特征j分属于c_l、c_k类样本的方差，N_c为情感的类数；

步骤四，基于说话人惩罚的特征维数约简：设经步骤三特征筛选得到训练样本特征筛选后语音情感特征向量集X＝[x₁,x₂,...,x_N]，利用训练样本的语音情感标签信息和说话人标签信息，采用本发明提出的LSPGL算法或KSPGL算法对X进行维数约简训练，生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射阵P，同时分别求解得到X的线性映射低维样本集A^TX或核映射低维样本集P^TK，其中K为训练样本集的Gram阵，选用Gauss核函数；具体的，

维数约简时，LSPGL算法的图嵌入的优化形式为：

\underset{a}{\arg \min} \frac{a^{T} {XLX}^{T} a}{a^{T} {XL}^{p} X^{T} a}, s . t . a^{T} a = 1

其中，

L为本征图的拉普拉斯矩阵且为N×N矩阵，

L^p为惩罚图的拉普拉斯矩阵且为N×N矩阵，

{(D_{LDA})}_{ij} = \{\begin{matrix} Σ_{k = 1}^{N} {(W_{LDA})}_{ik}, & i = j \\ 0, & i &NotEqual; j \end{matrix},

W_LDA为线性判别分析的本征图邻接阵，且

其中e为N维列向量，I为N×N的单位阵；

为规范化的说话人本征图的拉普拉斯矩阵：

{\tilde{L}}^{is} = {(D^{is})}^{- \frac{1}{2}} L^{is} {(D^{is})}^{- \frac{1}{2}} = I - {(D^{is})}^{- \frac{1}{2}} W^{is} {(D^{is})}^{- \frac{1}{2}};

D_{ij}^{is} = \{\begin{matrix} Σ_{k = 1}^{N} W_{ik}^{is}, & i = j \\ 0, & i &NotEqual; j \end{matrix};

W^is为说话人本征图的邻接阵，且其中表示两个矩阵的对应位置元素相乘的运算符；对于N维列向量e^c的任一元素，其对应的训练样本属于类c时该元素为1，否则该元素为0；对于N维列向量

为规范化的说话人的惩罚图的拉普拉斯矩阵：

{\tilde{L}}^{ps} = {(D^{ps})}^{- \frac{1}{2}} L^{ps} {(D^{ps})}^{- \frac{1}{2}} = I - {(D^{ps})}^{- \frac{1}{2}} W^{ps} {(D^{ps})}^{- \frac{1}{2}};

D_{ij}^{ps} = \{\begin{matrix} Σ_{k = 1}^{N} W_{ik}^{ps}, & i = j \\ 0, & i &NotEqual; j \end{matrix};

W^ps为说话人惩罚图的邻接阵，且

其中

{(W_{kNN})}_{ij} = \{\begin{matrix} 1, & i &Element; N_{k} (j) & or & j &Element; N_{k} (i) \\ 0, & otherwise \end{matrix},

n维列向量a为线性投影映射向量，a^T为a的转置；

维数约简时，KSPGL算法的图嵌入的优化形式为：

\underset{a}{\arg \min} \frac{α^{T} {KLK}^{T} α}{α^{T} {KL}^{p} K α}, s . t . α^{T} α = 1

其中，

N维列向量α为核投影映射向量，α^T为α的转置；

L和L^p的含义与LSPGL的图嵌入的优化形式中相同；

上述LSPGL算法或KSPGL算法的优化形式进行求解可以利用广义特征值问题GEP进行：首先预先使用奇异值分解将广义特征值问题GEP转化为普通的特征值问题，然后求解优化形式：

步骤五，训练分类器：对多类SVM分类器进行训练或直接选取1NN分类器；其中多类SVM分类器进行训练的方法为：设训练样本集中有N个分属于N_c个种类的语音样本，在训练样本集中任取两个种类的语音样本，进行训练得到1个两类SVM分类器，每两类重复该训练过程，共得到N_c(N_c-1)/2个两类SVM分类器；1NN分类器不需要先训练即可使用，同样是本领域内的现有技术。

（1）对经步骤三得到的每个测试样本

经过线性维数约简后的低维样本

K_{i} = {[K (x_{i}^{test}, x_{1}), K (x_{i}^{test}, x_{2}), . . ., K (x_{i}^{test}, x_{N})]}^{T},

Gram阵K中的核函数选用步骤四中所述的Gauss核函数；

（2）使用分类器对

利用1NN分类器分类的方法为：使用全体训练样本，对于每一个测试样本，找到与其欧式距离最近的训练样本，使用该训练样本对应的类别标签作为该测试样本的分类判决结果。

下面对通过实验的方法将本发明的方法与现有的具有代表性的识别方法包括主成分分析（PCA）、线性判别分析（LDA）、线性判别嵌入（LDE）进行识别率对比。

实验采用Berlin语音情感数据库（EMO-DB）以及eNTERFACE’05数据库的语音部分。

Berlin数据库中包括7类情感：害怕、厌恶、喜悦、厌倦、中性、悲伤、生气。实验者为10个专业演员，包括5男5女，在录制数据库时采用10个不同的德语短句。语音样本的采样频率为16kHz，量化位数为16bit。

eNTERFACE’05数据库中包含有喜悦、悲伤、害怕、厌恶、惊讶、生气等6类情感状态，相比于EMO-DB库，不含有平静、厌倦类别，而有惊讶的情感类别。数据库共有42个说话人，采用英语进行录制，同时获取语音和表情部分的数据，即双模态数据库，这里仅使用语音部分的内容。由于语料库较大，所以实验中选择其中15个说话人所属的样本。相对于广泛使用的EMO-DB库，eNTERFACE’05数据库在语音情感识别方面具有更大的难度。

所述LSPGL、PCA、LDA、LDE等4种算法为采用线性数据映射的降维方法，其中PCA中不含监督信息，LDA、LDE、LSPGL含有监督信息；背景中提到的LLE、Isomap、LPP等算法不含监督信息，其识别率一般情况下均低于含有监督信息的算法，故这里没有针对这些算法做相关实验。PCA和LDA常用于语音情感识别，而LDE已在人脸识别等图像处理领域内得到了应用。

首先，针对独立于说话人语音情感识别的应用需求，使用留一说话人（Leave OneSpeaker Out，简称LOSO）方法，根据每个样本对应的说话人类别（设共有

个说话人），将实验数据库划分为包含1个说话人所有样本的测试集，以及包含其他所有

个说话人对应样本的训练集。这样，共有

个训练、测试样本集的划分方法，取每次划分后的测试样本中识别率的平均值，就得到了最终的实验识别率结果。

具体的，首先比较本发明的方法在不同维度子空间内和其他一些现有算法之间识别率的高低。利用本发明所述LSPGL算法对EMO-DB库中的语音情感样本使用LOSO方法进行识别，得到如图2、图3所示的识别率随约简的维数变化的图像。其中图2为使用1NN分类器时，而图3则为使用多类SVM分类器时的情况。由图2和图3可以看出，在语音情感特征的低维子空间内，相对于其他一些常用的线性映射的子空间学习算法，本发明中所提出的LSPGL算法在使用不同分类器时均可以取得较高的识别率。这里使用的是本发明中的LSPGL算法，由于KSPGL算法是基于LSPGL的算法的基础上，使用了采取核数据映射方式而形成的，理论上会进一步提高了语音情感识别的识别率。

进一步的，加入eNTERFACE’05数据库，并加入采用Gauss核数据映射的KSPGL算法进行比较，重复整个实验过程，得到实验中各算法在低特征维数时的最高识别率及其对应维数，并以“最高识别率/维数”的形式表示，其中因原维数下维数信息恒定，故原特征一行对应的实验结果以“最高识别率/”的形式表示，最终制成表1。

表1

由表1和图2、图3可知，LSPGL算法、KSPGL算法在独立于说话人的语音情感识别中相比其他现有采用维数约简的识别方法（PCA、LDA、LDE等），在使用同样分类器（SVM、1NN）的条件下，在不同的语音情感数据库中，都能够取得较优的识别效果，从而更适用于独立于说话人的语音情感识别。

再进一步，在不同的语音情感数据库中，比较不同分类器对识别率的影响。如图4、图5，SVM分类器相比于1NN分类器在大部分情况下都能取得较好的效果，但SVM分类器迭代过程中所需的计算量较大，尤其是类数较多时。而1NN分类器则性能较低，较大程度上依赖于维数约简模块的性能，但所需计算量较小。使用不同分类器时需要综合各方面进行考虑。

综上所述，本发明中所采用的SPGL算法能够使用说话人惩罚信息，有效地提高语音情感识别效果。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于说话人惩罚的独立于说话人语音情感识别方法，其特征在于：

步骤四，基于说话人惩罚的特征维数约简：经步骤三特征筛选得到训练样本特征筛选后语音情感特征向量集X＝[x₁,x₂,...,x_N]，利用训练样本的语音情感标签信息和说话人标签信息，采用LSPGL算法或KSPGL算法对X进行维数约简训练，生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射阵Ρ，同时分别求解得到X的线性映射低维样本集A^TX或核映射低维样本集P^TK，其中K为训练样本集的Gram阵，选用Gauss核函数；

（1）对经步骤三得到的每个测试样本