CN104200814A

CN104200814A - 基于语义细胞的语音情感识别方法

Info

Publication number: CN104200814A
Application number: CN201410402937.1A
Authority: CN
Inventors: 孙凌云; 何博伟; 汤永川; 李彦; 郑楷洪
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2014-08-15
Filing date: 2014-08-15
Publication date: 2014-12-10
Anticipated expiration: 2034-08-15
Also published as: CN104200814B

Abstract

本发明公开了一种基于语义细胞的语音情感识别方法，包括：构建语音库，对语音库中每一条语音信号，进行预处理和进行情感特征提取，根据提取结果计算每条语音信号的特征向量，利用特征向量训练得到基于语义细胞的混合模型作为分类器的识别模型，利用该识别模型识别待识别语音信号所属的情感类别。本发明的语音情感识别方法基于双层语义细胞的识别法，采用构建识别说话人、说话人情感的二层语义细胞的混合模型对对语音情感建立识别模型，利用该方法建立的识别模型进行语音情感识别时精准度高，且在保证与SVM算法相同识别准确度的前提下，仍然有效地降低存储识别模型所需的数据量，在空间复杂度及识别准确度上均具备优势。

Description

基于语义细胞的语音情感识别方法

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于语义细胞的语音情感识别方法。

背景技术

语音是用来表示语言的声音符号，是人类相互交流、传递情感的重要媒介之一。语音情感识别是情感计算领域的重要研究方向，其目标是通过语音信号识别说话者的情感状态，最终实现自然、友好、生动的人机交互。

语音情感识别技术可用于交互式教学、智能车载系统、智能家电等诸多领域，如Schuller等研发的在线电影和计算机教程应用程序中，系统根据检测到的情感信息对用户做出响应(Schuller B,Rigoll G,Lang M.Speech emotion recognition combining acoustic features and linguisticinformation in a hybrid support vector machine-belief network architecture.//Acoustics,Speech,and Signal Processing,2004.Proceedings.(ICASSP'04).IEEE International Conference on.IEEE.Montreal,Canada,2004:1:I-577-80vol.1.)；Jones等将语音情感识别技术用于车载系统，合成与驾驶人情感匹配的提示语音以增强驾驶体验(见：Jones C M,Jonsson M.Performance analysis of acoustic emotion recognition for in-carconversational interfaces//Universal Access in Human-Computer Interaction.Ambient Interaction.Springer.Heidelberg,Berlin,2007:411-420.)。

使用语音特征数据训练分类器是目前语音情感识别系统的主要做法，如基于支持向量机(SVM)、人工神经网络(ANN)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、k-近邻(k-NN)、AdaBoost等。每种分类器都有其优缺点，如GMM分类器训练时间少，但对模型初始化参数敏感；SVM分类器需要相对较长时间的训练，但对模型初始值不敏感。

此外，由于传统k-NN算法需要存储所有的特征数据，GMM算法需要存储各维度各高斯分量的参数，SVM算法需要存储用于分割超平面的支持向量，直接导致识别模型需要的存储空间大。

发明内容

本发明利用语义细胞认知结构上的优势，克服现有语音情感识别算法生成模型占用数据空间大的不足，且能保持与SVM算法相似的识别精准度。

一种基于语义细胞的语音情感识别方法，包括：

(1)构建语音库，所述语音库中包括若干个语音参照人的若干条不同情感的语音信号；

(2)针对语音库中任意一条语音信号，进行预处理将当前语音信号划分为若干帧，并对每一帧进行情感特征提取，根据提取结果计算当前语音信号的特征向量；

(3)根据所述的特征向量，利用基于语义细胞的混合模型训练得到分类器的识别模型；

(4)利用所述的识别模型识别待识别语音信号所属的情感类别。

语义细胞(Information Cell)理论由汤永川和Lawry J.共同提出(Tang Y,Lawry J.Information Cell Mixture Models:The Cognitive Representations ofVague Concepts//Integrated Uncertainty Management and Applications.Heidelberg,Berlin:Springer,2010:371-382.)，其基础是模糊计算和原型理论，主要思想是：概念并不由形式规则或映射来表示，而是由其原型来表示，概念范畴基于同原型的相似性来判定。语义细胞具有透明的认知结构，符合人类学习概念的认知过程，具有坚实的认知心理学基础与严格的数学定义，具备描述模糊概念的先天优势。语音情感识别是模糊概念领域中的典型问题，语音中的情感分类(如愤怒、惊奇等)是一种模糊概念，难以凭借具体规则进行界定。而通过原型表达概念的语义细胞因为其不依赖具体分类规则的特点，适合于语音情感识别。因此，基于语义细胞的混合模型训练得到的分类器能够有效的提高分类器的识别率。

本发明中分类器的识别模型为各个语义细胞的混合模型。由于语义细胞的混合模型可以简单的采用相应的模型参数和语义细胞中心即可，因此大大节省了存储空间。训练时采用的语音库中对语音参照人的个数和情感种类可根据情况设定。通常设定的语音参照人的个数为2～7个，情感种类为4～6种，每个语音参照人对应的每种情感的语音信号为30～100条。

所述步骤(2)预处理依次包括预加重处理和分帧加窗处理。

语音信号的功率谱随频率的增加而减小，其大部分能量集中在低频范围内。这就造成语音信号高频端的信噪比可能降到不能容许的程度。但是由于语音信号中较高频率分量的能量小，很少有足以产生最大频偏的幅度，因此产生最大频偏的信号幅度多数是由信号的低频分量引起，通常幅度较小的高频分量产生的频偏小得多。通过预加重处理人为地加重(提升)发射机输入调制信号的高频分量能够有效地提高语音信号的信噪比。作为优选，本发明中预加重滤波采用的传递函数为：H(z)＝1-0.97z^-1。分帧加窗通过汉明窗实现，窗长是25ms，窗移10ms。通过分帧加窗处理，有效消除了吉布斯效应。通过分帧加窗将每条语音信号划分为若干个短时的语音段，一个短时的语音段称为一帧，且各帧按照时间顺序都具有相应的编号(即帧序号)。

所述步骤(2)通过如下步骤得到特征向量：

(2-1)提取当前语音信号中每一帧的情感特征，并计算每个情感特征的一阶差分系数，所述的情感特征包括能量方均根、1至12阶MFCC系数、过零率、浊音度(Voicing Probability)、F0倒谱基频；

(2-2)针对每一项情感特征及其一阶差分系数计算以下12项统计值：最大值、最小值、最大值与最小值的差、最大值帧位置、最小值帧位置、算术均值、标准差、三阶偏度系数、四阶峰度系数，以及线性拟合的斜率、截距和平方误差；

(2-3)根据各项情感特征的统计值构建得到当前语音信号的特征向量。

为提高识别率，提取的情感特征包含声学特征及韵律学特征共5类。本发明中先分开对每一帧进行特征提取，然后对所有帧的提取到的情感特征进行统计，使用整段语音的全局特征能更好地避免个别帧出现数据抖动的情况。最大值帧位置为统计得到的相应情感特征或其一阶差分系数最大的帧的帧序号，最小值帧位置则为最小的帧的帧序号。

步骤(2-3)中直接将当前语音信号对应的所有情感特征，以及相应的一阶差分系数的统计值排列成行向量即得到当前语音信号的特征向量。排列成行向量时可以按照任意顺序进行，但是对于所有的语音信号而言，各个统计值应该按照相同的顺序排列。

对于每一个语音信号，得到特征向量为384维，数据量庞大，导致后续训练和识别的效率较低，因此，作为优选，所述步骤(3)训练前先采用主成分分析法对所有特征向量进行降维处理得到相应的简化特征向量。

降维处理过程如下：

采用主成分分析法确定降维变换矩阵，利用所述的降维变换矩阵对所有特征向量进行降维处理。

在降维处理前，通常将语音库中所有语音信号对应的简化特征向量作为一行，构建得到特征矩阵，然后采用零-均值规范化法(z-score规范化)对矩阵中的每一列进行归一化之后，再采用主成分分析法确定降维变换矩阵，并进行降维。且在主成分分析法降维前，需要确定降维后的维数，具体根据实际情况设定。本发明中降维后的特征向量的维数为30～110维，相应的主成分分析法时提取的主成分的个数即为30～110个。

所述步骤(3)具体如下：

针对语音库中的任意一个语音参照人，以当前语音参照人所有情感对应的简化特征向量为训练集，训练得到基于语义细胞的混合模型，并作为用于识别该语音参照人的识别模型；

针对语音库中的任意一个语音参照人的任意一种情感，以当前语音参照人当前情感对应的所有简化特征向量为训练集，训练得到基于语义细胞的混合模型，并作为用于识别该语音参照人的相应情感的识别模型。

对于不同的个体而言，其发音方式不尽相同，表述自身情感的方式也有差异。有研究区分性别地提取语料中的情感特征，再使用朴素贝叶斯分类器进行语音情感识别，相比性别区分前，识别准确率提高了3.57％(见：Gupta S,Mehra A.Gender specific emotion recognition through speechsignals//Signal Processing and Integrated Networks(SPIN),2014International Conference on.IEEE.Noida,India,2014:727-733.)。鉴于上述原因，本发明采用“说话人识别-说话人情感识别”的双层结构，即用“识别语音参照人+识别该语音参照人的相应情感”的识别模型进行语音情感识别大大提高了识别率，并有效降低了识别模型所需要的存储空间。

对语义细胞的混合模型训练的过程具体包括：

(a)对训练集中的所有简化特征向量进行聚类得到若干个聚类中心，并作为各个语义细胞的中心；

(b)针对每一个语义细胞，利用训练集中各个简化特征向量到该语义细胞的中心的距离计算该语义细胞的位置参数和尺度参数，并设定各个该语义细胞对混合模型的贡献程度参数，得到基于语义细胞的混合模型，其中，第i个语义细胞L_i的混合模型的位置参数、尺度参数以及对混合模型的贡献程度参数分别记为c_i(0)、(σ_i(0))²和Pr(L_i(0))；

(c)采用循环迭代法更新所述的混合模型，第t次循环迭代的目标函数为：

直至相邻两次循环迭代得到的目标函数的值之差(为差的绝对值，即小于设定的阈值时停止，并以最后一次循环迭代得到的语义细胞的混合模型作为分类器的识别模型；

其中，t＝1,2，……；

N为训练集中简化特征向量的个数；

n为语义细胞的个数；

∈_ik为第k个特征向量与第i个语义细胞的中心的距离；

δ ({&Element;}_{ik} | c_{i} (t), σ_{i} (t)) = \frac{f ({&Element;}_{ik} | c_{i} (t), σ_{i} (t))}{{&Integral;}_{0}^{+ \infty} f ({&Element;}_{ik} | c_{i} (t), σ_{i} (t)) {d &Element;}_{ik}},

其中：

f (ϵ_{ik} | c_{i} (t), σ_{i} (t)) = \frac{1}{\sqrt{2 π σ_{i} (t)}} \exp \frac{{(ϵ_{ik} - c_{i} (t))}^{2}}{- 2 {(σ_{i} (t))}^{2}},

c_{i} (t) = \frac{Σ_{k = 1}^{N} q_{ik} (t - 1) {&Element;}_{ik}}{Σ_{k = 1}^{N} q_{ik} (t - 1)},

{(σ_{i} (t))}^{2} = \frac{Σ_{k = 1}^{N} q_{ik} (t - 1) {({&Element;}_{ik} - c_{i} (t))}^{2}}{Σ_{k = 1}^{N} q_{ik} (t - 1)},

q_{ik} (t - 1) = \frac{δ ({&Element;}_{ik} | c_{i} (t - 1), σ_{i} (t - 1)) \Pr (L_{i} (t - 1))}{Σ_{i = 1}^{n} δ ({&Element;}_{ik} | c_{i} (t - 1), σ_{i} (t - 1)) \Pr (L_{i} (t - 1))};

\Pr (L_{i} (t)) = \frac{1}{N} Σ_{k = 1}^{N} q_{ik} (t - 1) .

其中，步骤(b)中第k个特征向量与第i个语义细胞的中心的距离∈_ik，根据如下公式计算：

∈_ik＝d_i(X_k，P_i)＝||X_k-P_i||，

P_i为第i个语义细胞的中心，X_k为训练集中第k个简化特征性向量，进一步根据公式：

c_{i} (0) = \frac{1}{N} Σ_{k = 1}^{N} {&Element;}_{ik},

{(σ_{i} (0))}^{2} = \frac{1}{N} Σ_{k = 1}^{N} {({&Element;}_{ik} - c_{i} (0))}^{2}

计算第i个语义细胞的位置参数c_i(0)和尺度参数和(σ_i(0))²。

步骤(b)中设定各个该语义细胞对混合模型的贡献程度参数相等，均等于1/n，即Pr(L_i(0))＝1/n，n为语义细胞的个数。

本发明中通过聚类获取语义细胞的中心，以一个聚类中心即可覆盖若干个语义细胞，在降低存储内存消耗的同时，也保证了识别模型的准确性。

循环迭代时设定的阈值越大，收敛越快，训练消耗的时间短，但是建立的识别模型不准确，识别率低。相反，阈值越小，收敛越慢，且可能存在不收敛的情况，训练消耗的时间长，但是建立的识别模型准确，识别率高。因此需要合理的设定阈值的取值，阈值的取值可根据实际应用需求进行调整。作为优选，所述的阈值为0.001～0.010。

进一步优选，所述的识别模型用于识别语音参照人时，语义细胞的个数n为3～10，所述的识别模型用于识别语音参照人的情感时，语义细胞的个数n为1～5。语义细胞个数n的取值影响识别结果及性能：当n较小时，对复杂概念的语义概括可能出现不清晰的情况，但模型训练、识别速度快；n较大时，能较好地概括复杂概念的语义，但模型训练、识别速度缓慢。

在实际应用利用训练得到的混合模型，去识别语音库中的语音信号，并与实际进行比对，根据比对的结果优化n，采用格点搜索法(grid search)更新n的取值，在采用格点搜索法优化时，n的搜索范围只能在设定的取值范围内。对于识别模型用于识别语音参照人，n的搜索范围为3～10，对于用于识别语音参照人的情感，n的搜索范围为1～5。

所述步骤(4)中识别过程如下：

(S1)通过步骤(2)得到待识别语音信号的特征向量，并利用所述的降维变换矩阵对待识别语音信号的特征向量进行降维处理，得到相应的简化特征向量；

(S2)针对各个语音参照人，根据用于识别当前语音参照人的识别模型，分别计算待识别语音信号对当前识别模型的隶属度；

(S3)针对各个语音参照人的每一种情感，根据用于识别当前语音参照人的当前情感的识别模型，分别计算待识别语音信号对当前识别模型的隶属度；

(S4)根据公式：

v_{p}^{e} = μ_{p} \times μ_{p}^{e}

分别计算待识别语音对于各个语音参照人的每一种情感的综合隶属度，其中，为待识别语音对于第p个语音参考人的第e种情感的综合隶属度；

(S5)将所有对于相同情感的综合隶属度相加得到待识别语音对于该情感的隶属度，并选择隶属度最大的情感作为待识别语音信号所属的情感类别；

所述步骤(S1)和步骤(S2)中根据公式：

计算待识别语音信号对当前识别模型的隶属度，其中，为待识别语音信号所对应的简化特征向量X对于当前识别模型中第i个语义细胞L_i的隶属度值，根据如下公式计算：

μ_{L_{i}} (X) = {&Integral;}_{d (X, P_{i})}^{+ \infty} δ (ϵ | c_{i}, σ_{i}) dϵ,

积分下限d(X,P_i)为X与第i个语义细胞的中心P_i的距离，c_i,σ_i为当前识别模型中第i个语义细胞的位置参数和尺度参数。

本发明基于双层语义细胞的识别法采用构建识别说话人、说话人情感的二层语义细胞的混合模型对语音情感建立识别模型，利用该方法建立的识别模型进行语音情感识别时精准度高，且在保证与SVM算法相同识别准确度的前提下，仍然有效地降低了存储识别模型所需的数据量，在空间复杂度及识别准确度上均具备优势。适用于对于说话人分类较少的应用场景(如语音信息对话、远程教学系统)、说话人较为固定的场景(如车载驾驶系统、手机语音智能助手)，以及对存储空间敏感的应用场景，如移动终端、嵌入式设备等。

附图说明

图1为本实施例基于语义细胞的语音情感识别方法流程图；

图2为本实施例获取的识别模型与通过现有方法获取的识别模型所需存储空间的对比图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合具体实施例和附图，对本申请实施例中的技术方案进行清楚完整的描述。

图1所示为本发明基于语义细胞的语音情感识别方法的流程图，该方法包括：

(1)建立语音库

本实施例中需事先建立情感语音数据库(语音库)，语音库中的每条记录需包含：录音资料(语音信号)、录音中说话人的唯一标识符(如编号)、录音中说话人所表述之情感分类标识(如开心)。本实施例使用的语音库为已对外免费公开的CASIA语料库(Tao Jian-hua,Yu Jian,KangYong-guo.An expressive mandarin speech corpus//The InternationalCommittee for the Co-ordination and Standardization of Speech Databases andAssessment Techniques.Bali Island,Indonesia,2005)，共1200句语句，包含愤怒、害怕、高兴、悲伤、惊讶、中性6类情感，由4名说话人(2男2女)录制，每人每情感50句语句。

通过预加重处理人为地加重(提升)语音信号中的高频分量，进而增大语音信号的信噪比。本实施例中预加重滤波采用的传递函数为：H(z)＝1-0.97z^-1。

通过分帧处理，将语音信号划分为很多短时的语音段，一个短时的语音段称为一个分析帧(即作为一帧)，且各帧按照时间顺序都具有相应的编号(即帧序号)。这样，对一帧语音信号进行处理就相当于对特征固定的持续信号进行处理。本实施例中采用固定帧长分帧，每帧长度为25ms，帧移为10ms。若不加说明，后续操作的时间序列单位皆为帧。通过加窗处理降低每帧信号的吉布斯现象。本实施例用汉明窗进行加窗处理。

加窗处理后，根据加窗处理后的每一条语音信号，通过如下步骤得到特征向量：

(2-1)提取当前语音信号中每一帧的情感特征，并计算每个情感特征的一阶差分系数，包括能量方均根、1至12阶MFCC系数、过零率、浊音率(Voicing Probability)、F0倒谱基频；一阶差分系数用下式计算其中，t为帧序号，x^t为第t帧时的数据值，W为窗宽度，本实施例取W＝2帧；

(3)根据所有的特征向量，训练基于语义细胞的混合模型，并作为得到分类器的识别模型。具体如下：

(3-1)对特征向量进行降维处理得到简化特征向量

本实施例中对每类情感特征计算以下12项统计值(由帧到对应的语音)：最大值、最小值、最大值与最小值的差值、最大值帧位置、最小值帧位置、算术均值、线性拟合斜率/截距/平方误差、标准差、三阶偏度系数(skewness)、四阶峰度系数(kurtosis)。每条语音信号的共计384项特征，即每条语音信号的特征向量的维度为384维。为提高训练效率，训练前先采用主成分分析法对所有特征向量进行降维处理得到简化特征向量。降维处理过程如下：

将语音库中所有语音信号对应的简化特征向量作为一行，构建得到特征矩阵，构建的特征矩阵的大小为1200×384；

采用零-均值规范化法(z-score规范化)对特征矩阵中的每一列进行归一化之后，再根据设定的目标维数(降维处理后的)采用主成分分析法确定相应的降维变换矩阵，并利用降维变换矩阵对每个特征性向量进行降维处理(以特征向量乘以降维变换矩阵)，即得到简化特征向量。

本实施例中降维后的维数(即目标维数)为80维，相应的主成分分析法提取的主成分的个数也为80个。

(3-2)利用简化特征向量训练分类器

针对语音库中的任意一个语音参照人，以当前语音参照人所有情感对应的简化特征向量为训练集，训练得到基于语义细胞的混合模型，并作为用于识别该语音参照人的识别模型；针对语音库中的任意一个语音参照人的任意一种情感，以当前语音参照人当前情感对应的所有简化特征向量为训练集，训练得到基于语义细胞的混合模型，并作为用于识别该语音参照人的相应情感的识别模型。

对于语音库中任意语音参考人或该语音参考人对应的识别模型的训练过程相同。下面将以训练语音库中第p个语音参考人对应的识别模型为例，说明基于语义细胞的混合模型对训练集进行训练过程具体包括：

(a)第p个语音参考人对应的简化特征向量作为训练集该训练集中一共有300个简化特征根向量，采用k-均值(k-means)聚类法对训练集中的所有简化特征向量进行聚类得到n个聚类中心，并作为各个语义细胞的中心。

(b)设定各个语义细胞对混合模型的贡献程度参数Pr(L(0))＝1/n(n＝5)，并利用训练集中各个简化特征向量到当前语义细胞的中心的距离计算第i个语义细胞的混合模型的参数c(0)和参数(σ(0))²，其中第i个语义细胞的混合模型的参数分别记为c_i(0)、(σ_i(0))²和Pr(L_i(0))。

其中，第k个特征向量与第i个语义细胞的中心的距离∈_ik(本实施例适用的距离度量为欧氏距离)，根据如下公式计算：

∈_ik＝d_i(X_k，P_i)＝||X_k-P_i||，

P_i为第i个语义细胞的中心，X_k为训练集中第k个简化特征向量，i＝1,2，……n，k＝1,2，……N(N＝300)，进一步根据公式：

c_{i} (0) = \frac{1}{N} Σ_{k = 1}^{N} {&Element;}_{ik},

{(σ_{i} (0))}^{2} = \frac{1}{N} Σ_{k = 1}^{N} {({&Element;}_{ik} - c_{i} (0))}^{2}

计算第i个语义细胞的混合模型的位置参数c_i(0)和尺度参数(σ_i(0))²。

直至相邻两次循环迭代得到的目标函数的值之差小于设定的阈值(本实施例中该阈值为0.001)时停止，并以最后一次循环迭代得到的语义细胞的混合模型作为分类器的识别模型；

其中，t＝1,2，……；

N为训练集中简化特征向量的个数；

n为语义细胞的个数；

∈_ik为第k个特征向量与第i个语义细胞的中心的距离；

δ ({&Element;}_{ik} | c_{i} (t), σ_{i} (t)) = \frac{f ({&Element;}_{ik} | c_{i} (t), σ_{i} (t))}{{&Integral;}_{0}^{+ \infty} f ({&Element;}_{ik} | c_{i} (t), σ_{i} (t)) {d &Element;}_{ik}},

其中：

f (ϵ_{ik} | c_{i} (t), σ_{i} (t)) = \frac{1}{\sqrt{2 π σ_{i} (t)}} \exp \frac{{(ϵ_{ik} - c_{i} (t))}^{2}}{- 2 {(σ_{i} (t))}^{2}},

c_{i} (t) = \frac{Σ_{k = 1}^{N} q_{ik} (t - 1) {&Element;}_{ik}}{Σ_{k = 1}^{N} q_{ik} (t - 1)},

{(σ_{i} (t))}^{2} = \frac{Σ_{k = 1}^{N} q_{ik} (t - 1) {({&Element;}_{ik} - c_{i} (t))}^{2}}{Σ_{k = 1}^{N} q_{ik} (t - 1)},

q_{ik} (t - 1) = \frac{δ ({&Element;}_{ik} | c_{i} (t - 1), σ_{i} (t - 1)) \Pr (L_{i} (t - 1))}{Σ_{i = 1}^{n} δ ({&Element;}_{ik} | c_{i} (t - 1), σ_{i} (t - 1)) \Pr (L_{i} (t - 1))};

\Pr (L_{i} (t)) = \frac{1}{N} Σ_{k = 1}^{N} q_{ik} (t - 1) .

同理，可以训练得到用于识别其他语音参照人，以及各个语音参照人的情感的识别模型。所不同的是每次的训练集不同，且在训练用于识别语音参照人的情感的识别模型时，设定的语义细胞的个数n＝3，即聚类是设定的聚类中心的个数为3。

本实施例中通过训练得到的识别模型一共有28个，其中4个分别用于识别语音库中各个语音参照人，24个分别用于识别每个语音参照人的不同情感。针对每个语音参照人有6种情感，相应的对于每一个语音参照人，有6个用于识别该参照人的情感的识别模型。

本实施例中训练完成后得到28个识别模型后，利用得到的识别模型去识别语音库中的语音信号，并与实际进行比对，根据比对的结果采用格点搜索法(grid search)更新n的取值，在采用格点搜索法优化时，n的搜索范围只能在设定的取值范围内。对于识别模型用于识别语音参照人，设定n的搜索范围为3～10，对于用于识别语音参照人的情感，设定n的搜索范围为1～5。

优化后，对于用于识别语音参照人的识别模型，语义细胞的个数n＝3；对于用于识别语音参照人的情感的识别模型，语义细胞的个数n＝1。

(4)利用该识别模型识别待识别语音信号所属的情感类别，识别具体如下：

(S1)通过步骤(2)得到待识别语音信号的特征向量，并利用降维变换矩阵对待识别语音信号的特征向量进行降维处理，得到相应的简化特征向量；

(S4)根据公式：

v_{p}^{e} = μ_{p} \times μ_{p}^{e}

所述步骤(S1)和步骤(S2)中根据公式：

μ_{L_{i}} (X) = {&Integral;}_{d (X, P_{i})}^{+ \infty} δ (ϵ | c_{i}, σ_{i}) dϵ,

具体推导过程详见文献Tang Y,Lawry J.Information Cell MixtureModels:The Cognitive Representations of Vague Concepts//IntegratedUncertainty Management and Applications.Heidelberg,Berlin:Springer,2010:371-382.)

具体识别时，先初始化情感分类投票向量V＝{v_e＝0|e＝1,...,M}，v_e为第e种情感的隶属度，M为情感种类，本发明中为六种，即M＝6。根据最终计算结果更新情感分类投票向量V，利用更新后的情感分类投票向量V通过公式：

Y_{k} = \underset{e}{\arg \max} (V)

确定待识别语音信号所属的情感类别，并输出。

利用上述方法，在CASIA汉语情感语料库上进行实验，并与其他识别方法进行比较的结果见表1及附图2。本实施例过程Windows8.1(64位)操作系统中进行，识别算法使用MATLAB实现，表1数据为采用10倍交叉检验法得到的结果。表1的结果采用F1-Score评判，即其中P为准确率(precision)，R为召回率(recall)。

表1

	愤怒	害怕	高兴	中性	悲伤	惊讶	平均
								k-NN	0.6744	0.4500	0.4438	0.6554	0.4847	0.5744	0.5471
GMM	0.7182	0.3679	0.4534	0.7107	0.3877	0.6341	0.5424
								SVM	0.7374	0.4383	0.5312	0.7650	0.4136	0.6569	0.5904
本实施例	0.7937	0.5874	0.5943	0.7952	0.5086	0.6726	0.6496

本实施例选取了k-NN、GMM、SVM算法与上文提出的两种识别方法进行比较，具体设定如下：

k-NN：k-近邻分类器，近邻数k＝5，一对多决策(one-vs-all)；

GMM：高斯混合模型分类器，高斯分量数为5，一对多决策；

SVM：基于径向基(Radio Basis Function,RBF)核函数的支持向量机，一对一决策(one-vs-one)；

本实施例：基于双层语义细胞的识别法，混合模型中语义细胞个数为n₁＝3,n₂＝1。

由表1可见，本发明识别法的识别性能(平均:64.96％)略优于RBF核的SVM(59.04％)，显著优于传统的k-NN(54.71％)及GMM(54.24％)算法。

图2为本发明基于语义细胞混合的语音情感识别方法与上述方法在实施例中训练得到的识别模型所占存储空间的对比结果。可见在存储空间需求方面，基于语义细胞的识别方法均具备对存储空间需求低的优势。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义细胞的语音情感识别方法，其特征在于，包括：

2.如权利要求1所述的基于语义细胞的语音情感识别方法，其特征在于，所述步骤(2)预处理依次包括预加重处理和分帧加窗处理。

3.如权利要求2权利要求所述的基于语义细胞的语音情感识别方法，其特征在于，所述步骤(2)通过如下步骤得到特征向量：

(2-1)提取当前语音信号中每一帧的情感特征，并计算每个情感特征的一阶差分系数，所述的情感特征包括能量方均根、1至12阶MFCC系数、过零率、浊音度、F0倒谱基频；

4.如权利要求1权利要求所述的基于语义细胞的语音情感识别方法，其特征在于，所述步骤(3)训练前先采用主成分分析法对所有特征向量进行降维处理得到相应的简化特征向量。

5.如权利要求4权利要求所述的基于语义细胞的语音情感识别方法，其特征在于，降维处理过程如下：

6.如权利要求4所述的基于语义细胞的语音情感识别方法，其特征在于，所述步骤(3)具体如下：

7.如权利要求6所述的基于语义细胞的语音情感识别方法，其特征在于，对语义细胞的混合模型训练的过程具体包括：

直至相邻两次循环迭代得到的目标函数的值的差小于设定的阈值时停止，并以最后一次循环迭代得到的语义细胞的混合模型作为分类器的识别模型；

其中，t＝1,2，……；

N为训练集中简化特征向量的个数；

n为语义细胞的个数；

∈_ik为第k个特征向量与第i个语义细胞的中心的距离；

δ ({&Element;}_{ik} | c_{i} (t), σ_{i} (t)) = \frac{f ({&Element;}_{ik} | c_{i} (t), σ_{i} (t))}{{&Integral;}_{0}^{+ \infty} f ({&Element;}_{ik} | c_{i} (t), σ_{i} (t)) {d &Element;}_{ik}},

其中：

f (ϵ_{ik} | c_{i} (t), σ_{i} (t)) = \frac{1}{\sqrt{2 π σ_{i} (t)}} \exp \frac{{(ϵ_{ik} - c_{i} (t))}^{2}}{- 2 {(σ_{i} (t))}^{2}},

c_{i} (t) = \frac{Σ_{k = 1}^{N} q_{ik} (t - 1) {&Element;}_{ik}}{Σ_{k = 1}^{N} q_{ik} (t - 1)},

{(σ_{i} (t))}^{2} = \frac{Σ_{k = 1}^{N} q_{ik} (t - 1) {({&Element;}_{ik} - c_{i} (t))}^{2}}{Σ_{k = 1}^{N} q_{ik} (t - 1)},

q_{ik} (t - 1) = \frac{δ ({&Element;}_{ik} | c_{i} (t - 1), σ_{i} (t - 1)) \Pr (L_{i} (t - 1))}{Σ_{i = 1}^{n} δ ({&Element;}_{ik} | c_{i} (t - 1), σ_{i} (t - 1)) \Pr (L_{i} (t - 1))};

\Pr (L_{i} (t)) = \frac{1}{N} Σ_{k = 1}^{N} q_{ik} (t - 1) .

8.如权利要求7所述的基于语义细胞的语音情感识别方法，其特征在于，所述的阈值为0.001～0.010。

9.如权利要求7所述的基于语义细胞的语音情感识别方法，其特征在于，所述的识别模型用于识别语音参照人时，语义细胞的个数n为3～10，所述的识别模型用于识别语音参照人的情感时，语义细胞的个数n为1～5。

10.如权利要求6所述的一种基于语义细胞的语音情感识别方法，其特征在于，所述步骤(4)中识别过程如下：

(S4)根据公式：

v_{p}^{e} = μ_{p} \times μ_{p}^{e}

所述步骤(S1)和步骤(S2)中根据公式：

计算待识别语音信号对当前识别模型的隶属度，其中，为待识别语音信号所对应的简化特征向量与第i个语义细胞L_i的隶属度值，根据如下公式计算：

μ_{L_{i}} (X) = {&Integral;}_{d (X, P_{i})}^{+ \infty} δ (ϵ | c_{i}, σ_{i}) dϵ,