CN108847255B

CN108847255B - 一种利用情感感知谱特征进行语音情感识别的方法

Info

Publication number: CN108847255B
Application number: CN201811153057.XA
Authority: CN
Inventors: 姜林; 李小龙
Original assignee: HUNAN UNIVERSITY OF COMMERCE; East China Institute of Technology
Current assignee: HUNAN UNIVERSITY OF COMMERCE; East China Institute of Technology
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2022-05-17
Anticipated expiration: 2038-09-29
Also published as: CN108847255A

Abstract

本发明涉及一种利用情感感知谱特征进行语音情感识别的方法，首先对输入语音信号采用预加重方法进行高频增强，然后采用快速傅立叶变换将其转换到频率得到语音频率信号；再针对语音频率信号采用情感感知子带划分方法将信号划分为多个子带；对每个子带进行情感感知谱特征计算，谱特征包括情感熵特征、情感谱谐波倾度和情感谱谐波平坦度；再对谱特征进行全局统计特征计算得到全局情感感知谱特征向量；最后将情感感知谱特征向量输入到SVM分类器，得到语音信号的情感类别。本发明根据语音心理声学模型原理，采用感知子带划分方法精确描述情感状态信息，通过子带谱特征进行情感识别，相比传统MFCC特征提高了10.4％的识别率。

Description

一种利用情感感知谱特征进行语音情感识别的方法

技术领域

本发明涉及语音情感识别技术领域，尤其涉及情感感知谱特征的语音情感识别方法。

背景技术

语音是人们交流中最重要的方式，语音信号不仅蕴含了丰富的语义信息，还携带了丰富的情感状态。分析语音中的情感特征，并采用机器学习的方法识别出语音情感状态，可以在很多场景中得到应用，如：虚拟现实中，通过识别人类情感，提高人机交互的自然度；汽车驾驶中，通过识别驾驶员精神状态提高驾驶安全；医学中，通过识别患者精神状态提供诊断依据；自动客服中，通过识别客户情绪提高客服质量。近年来，随着人工智能的迅猛发展，虚拟现实的应用需求，语音情感识别已成为人机交互领域的研究热点。

现有语音情感识别技术领域主要分类特征提取和情感分类。本发明关注语音情感特征提取，并使用支持向量机分类器(SVM)进行语音情感特征识别。语音情感特征主要分为韵律学特征、声音质量特征、谱特征等。其中谱特征以梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)使用最为广泛。这类谱特征能较好地描述语音信号的频率包络特征，因此具有一定的情感状态区分度。但情感信息相比语音内容表现更为细腻，现有MFCC和LPC等传统谱特征难以表达更加接近的情感状态，如：悲伤、害怕。本发明根据语音心理声学模型原理，从情感感知角度出发，通过感知子带划分精确地提取情感状态的谱特征，最后采用SVM分类器进行情感识别。

本发明的方法在SVM分类器下，提供一种利用情感感知谱特征进行情感识别的方法，该方法因可以精确描述情感感知状态，相比传统MFCC特征，识别率提高10.4％以上。

发明内容

本发明的目的是提供一种情感感知谱特征用于语音情感识别的方法，使得在SVM分类器下提高情感识别率。

为达到上述目的，本发明提供一种利用情感感知谱特征进行语音情感识别的方法，包括以下步骤：

步骤1：实现语音信号的预处理和时频变换：对输入的语音信号s(n)进行加窗分帧，然后对每帧信号采用高通滤波器进行高频信号的增强，再对高频增强后的每帧信号采用快速傅立叶变换方法进行时频变换得到语音频率信号Y(n)；

步骤2：实现情感感知子带划分：对步骤1中得到的语音频率信号Y(n)采用心理声学模型的感知子带划分方法，得到子带划分后的频率系数P(i，m_i)，i表示子带序号(i＝1,2,…,21)，m_i表示第i个子带的频率系数个数；

步骤3：实现情感感知谱特征的计算：在步骤2所得到的每个感知子带频率系数上计算谱特征E(i，j)，i表示子带序号(i＝1,2,…,21)，j＝1,2,3，j＝1时表示情感熵特征、j＝2时表示情感谱谐波倾度、j＝3时表示情感谱谐波平坦度；

步骤4：实现全局统计特征的计算：对步骤3得到的谱特征E(i,j)，对每个谱特征分别计算所有语音帧中的每个子带上的均值、最大值、最小值、中值和标准差5个统计特征，形成语句级全局统计特征G(i,j,s)，i＝1,2,…,21表示子带序号，j＝1,2,3分别表示情感熵特征、情感谱谐波倾度、情感谱谐波平坦度，s＝1,2,3,4,5分别代表均值、最大值、最小值、中值和标准差；

步骤5：采用SVM分类器进行分类：将步骤4得到的全局统计特征作为特征向量输入到SVM分类器进行情感识别，得到每段语音信号s(n)的类别label。

与相关技术相比，本发明提供的利用情感感知谱特征进行语音情感识别的方法具有以下有益效果：本方法依据语音心理声学模型原理，对频率信号采用感知子带划分，能精确地描述情感信息在各频率带上的分布特征，采用情感熵特征、情感谱谐波倾度、情感谱谐波平坦度3个谱特征物理量可以精确地区分情感状态。该方法利用了人耳感知机理，有利于去除冗余情感特征；精确的感知子带划分方法可以提高情感特征的有效分辨率，总体提高情感识别率。

附图说明

图1为本发明提供的利用情感感知谱特征进行语音情感识别的方法流程图；

图2为本发明提供的第3子带的能量值分布；

图3为本发明提供的各子带情感熵在CASIA上均值分布；

图4为本发明提供的各子带情感熵在EMODB上均值分布；

图5为本发明提供的各子带情感谱倾斜率在CASIA上均值分布；

图6为本发明提供的各子带情感谱倾斜率在EMODB上均值分布；

图7为本发明提供的各子带情感谱平坦度在CASIA上均值分布；

图8为本发明提供的各子带情感谱平坦度在EMODB上均值分布。

具体实施方式

下面以具体实施例结合附图对本发明的技术方法做进一步说明：

参见图1，本发明实施例提供的利用情感感知谱特征进行语音情感识别的方法，可以采用计算机软件技术手段自动进行流程，具体包括以下步骤：

步骤1：实现语音信号的预处理和时频变换：对输入语音信号先进行加窗和分帧，帧长为1024，帧移为256，窗函数为汉明窗或汉宁窗。考虑到语音产生过程中会受到声道肌肉伸张和呼吸的影响造成信号的衰减，需要对语音信号进行高频增强。增强的方法是对每帧信号进行预加重操作，预加重过程实际上是使语音信号通过一个高通滤波器得到高频区域的信号，实施中是通过一阶差分方程计算：

signal(n)＝s(n)-αs(n-1),

式中，s(n)是输入的语音信号，Signal(n)是高频增强后的信号，n是采样点序号，α是一个常量，其值为0到1之间，本发明实验中取值为0.94。

由于语音情感状态在频率域内能较好地体现出区分度，因此，需要通过时频变换将信号转变到频率域，本发明使用最常用的快速傅立叶变换完成时频变换，得到语音频率信号Y(n)。

步骤2：实现情感感知子带划分：根据语音心理声学模型，人耳具有掩蔽效应，由于低能量信号会被旁边的高能量信号所掩蔽而听不见，若听不见的语音信号作为特征被提取出来的话，则会造成特征冗余造成识别率降低。此外，根据人耳听觉感知机理，对于不同频率段信号感知敏感性具有差异性，一般对低频感知要比高频感知更灵敏。为此，可以提高低频分辨率而降低高频分辨率。本发明采用语音压缩中常用的临界子带划分方法对频率信号进行分带，根据Zwicker等人1980年提出的临界子带划分方法，具体实现方法见文献：Zwicker E,Terhardt E.Analytical expressions for critical band rate andcritical bandwidth as a function of frequency.Journal of the AcousticalSociety of America,1980,68(5):1523-1525。将信号在频率上被划分成1～24个临界频带，即Bark域，该文献给出了Bark域的计算方法：

Bark＝13tan^-1(0.76f/1000)+3.5tan^-1(f/7500)²,

式中f表示信号频率，tan表示正切函数。由于常用的语音情感识别方法中采样率一般为16kHz，其频率带宽为8kHz，本发明的实施例中仅使用21个频率子带。根据Bark带和帧级长度(1024样点)，每个频率子带的截止样点可通过如下公式换算得到：

Cs(i)＝f_c(i)/(0.5f_s)*frameLen,

式中，f_c(i)表示第i个子带的截止频率，f_s表示信号的采样率，此处取0.5f_s是因为信号带宽只有采样率一半，frameLen表示帧长，本发明实施例计算中f_s为16kHz，frameLen为1024。通过感知子带划分得到每帧语音信号P(i,m_i)，其中m_i表示每个子带i的长度，其值为m_i＝Cs(i)-Cs(i-1)+1，Cs(0)＝0。

本发明通过感知子带划分后能较好地区分不同情感在不同子带上的谱能量差异。参见图2，图中给出了第3个子带各帧在不同情感上的谱能量分布，从图中可看出，惊讶的整体谱能量分布较高，而悲伤最低，其他的几类情感也有明显差异，因此，采用感知子带划分具有较好的区分度。

步骤3：实现情感感知谱特征的计算：在步骤2所得到的线个感知子带划的语音信号P(i,m_i)上，计算情感熵特征。根据香农熵理论，情感熵实际上是频谱概率密度函数在各频率段上的分布，也即情感熵为语音信号的功率谱分布，可以表示成语谱图，则情感熵特征可直接从频谱子带上提取，计算式如下：

由于情感谱特征中除了能量分布的差异性，还有情感谱谐波的差异，而这种差异体现在谐波的倾斜和平坦上，本发明通过计算情感谱谐波倾度和情感谱谐波平坦度来描述这类谐波差异性。

情感谱谐波倾度的计算如下：

式中μ_i和σ_i分别表示第i个子带频率幅度谱的均值和方差，E(·)表示求期望。

情感谱谐波平坦度的计算如下：

步骤4：实现全局统计特征的计算：对步骤3得到的每帧语音信号的谱特征E(i,j)进行全局统计特征的计算，即对每个谱特征分别计算所有语音帧中的每个子带上的均值、最大值、最小值、中值和标准差5个统计特征。这样会得到，每个子带上情感熵特征的5个统计特征，每个子带上情感谱谐波倾度的5个统计特征，每个子带上情感谱谐波平坦度的5个统计特征，这样会得到语句级全局统计特征G(i,j,s)，i＝1,2,…,21表示子带序号，j＝1,2,3分别表示情感熵特征、情感谱谐波倾度、情感谱谐波平坦度，s＝1,2,3,4,5分别表示均值、最大值、最小值、中值和标准差，共有315(21×3×5)个语句级特征向量。

根据步骤4所计算得到的全局统计特征在各个情感上具有较好的区分度，图3，图4，图5，图6，图7，图8分别给出了3个特征在两个情感语料库CASIA和EMODB上的均值分布，从图中可以看出3个情感特征在各个情感类别上具有较好的区分度，这可以提高情感识别率。

步骤5：采用SVM分类器进行分类：将步骤4得到的全局统计特征G(i,j,s)作为特征向量输入到预先训练好的SVM分类器进行情感识别，得到每段语音信号s(n)的类别label。此处SVM分类器使用Chang与Lin实现的LIBSVM软件包，该方法具体实现方法参照文献：LIBSVM:https://www.csie.ntu.edu.tw/～cjlin/libsvm/。

为了更好地说明本发明的先进性，下面给出本发明所涉及的情感感知谱特征与传统MFCC特征的实验对比情况。实验中使用了中文语音情感语料库CASIA，随机选取该语料库中的250句作为SVM的训练集，50句作为测试集，语音信号被下采样至16kHz。语音信号采用汉明窗进行加窗分帧，帧长为1024，帧移为256。本发明的情感感知谱特征按上述步骤1～步骤4进行提取，每句语音提取315个特征，对比实验中的MFCC每句语音提取432个特征，它的提取方法参见文献:Schuller B,Steidl S,Batliner A.The Interspeech 2009 EmotionChallenge.INTERSPEECH 2009,Conference of the International SpeechCommunication Association.DBLP,2009:312-315.实验中所有代码采用matlab 2016a软件编写，SVM分类器由LIBSVM软件包中提供的函数svmtrain(用于训练SVM模型)和svmpredict(用于分类)实现，实验结果参见表1：

表1本发明情感感知谱特征与MFCC实验识别率对比(％)

实验结果表明，本发明的平均识别率相比MFCC提高了10.4％，单个的识别率均比MFCC的高，除了高兴这个情感。由于高兴情感中属于高活性信号，其听觉中在各频率段分布差异较小，因此与MFCC相比识别率接近。但总体来看，本发明所涉及的情感感知谱特征具有比传统MFCC更好的情感区分度，能显著提高情感识别率。

Claims

1.一种利用情感感知谱特征进行语音情感识别的方法，其特征在于，包括以下步骤：

步骤2：实现情感感知子带划分：对步骤1中得到的语音频率信号Y(n)采用心理声学模型的感知子带划分方法，得到子带划分后的频率系数P(i,mi)，i表示子带序号,i=1,2,…,21，mi表示第i个子带的频率系数个数；

步骤3：实现情感感知谱特征的计算：在步骤2所得到的每个感知子带频率系数上计算谱特征E(i,j)，i表示子带序号,i=1,2,…,21，j=1,2,3，j=1时表示情感熵特征、j=2时表示情感谱谐波倾度、j=3时表示情感谱谐波平坦度；

步骤4：实现全局统计特征的计算：对步骤3得到的谱特征E(i，j)，对每个谱特征分别计算所有语音帧中的每个子带上的均值、最大值、最小值、中值和标准差5个统计特征，形成语句级全局统计特征G(i，j，s)，i=1,2,…,21表示子带序号，j=1,2,3分别表示情感熵特征、情感谱谐波倾度、情感谱谐波平坦度，s=1,2,3,4,5分别代表均值、最大值、最小值、中值和标准差；

2.根据权利要求1所述利用情感感知谱特征进行语音情感识别的方法，其特征在于，所述情感感知谱特征的提取方法为：首先对语音信号的频率系数进行感知子带划分，再计算每个子带上的谱特征，最后对谱特征进行统计计算得到全局统计特征用以表达情感感知特征。