CN101261832A

CN101261832A - 汉语语音情感信息的提取及建模方法

Info

Publication number: CN101261832A
Application number: CNA2008101045413A
Authority: CN
Inventors: 毛峡; 陈立江
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2008-04-21
Filing date: 2008-04-21
Publication date: 2008-09-10
Anticipated expiration: 2028-04-21
Also published as: CN101261832B

Abstract

本发明一种汉语语音情感信息的提取及建模方法，该汉语语音情感信息的提取方法为：制定情感语音数据库规范，包括发音人规范、录音脚本设计规范、音频文件命名规范等；收集情感语音数据；情感语音有效性评测，即由区别于说话者的至少十名评测者对情感语音数据进行主观听取评测实验。该汉语语音情感信息的建模方法为：提取语音情感特征，确定区分各种情感类别的特征组合；采用不同的特征组合训练多级语音情感识别系统的SVM模型；验证该分类模型的识别效果：即采用交叉留一法验证语音情感多极分类模型在说话人无关情况下的分类效果。本发明解决了国内情感语音数据库情感种类较少以及国内情感语音数据库匮乏的问题，同时实现了高效的语音情感识别系统。

Description

汉语语音情感信息的提取及建模方法

(一)技术领域：

本发明涉及一种汉语语音情感信息的提取及建模方法，属于信息技术领域。

(二)背景技术：

语音情感自动识别技术的研究主要涉及两个方面：一是建立高质量的情感语音数据库，为语音情感研究提供必要的数据；一是建立高效的语音情感识别模型，迅速有效的识别语音信号的情感状态。

建立情感语音数据库，首先必须确立情感的类别以及分类方法，在多数的研究方法中，研究者采用日常语言标签来标识和分类情感，即将情感分类描述为离散模型。情感语音数据按照表达的自然度可以分为自然型、表演型和诱发型三类，自然型情感语音最直接，但难以收集，表演型情感语音的情感成分往往被夸大，研究者通常会通过某一段包含情感的电影或文字片断来诱导录音者的情感。国内外现有的情感语音数据库覆盖多种语言与情感，但汉语情感语音数据库还相对匮乏，并且存在着制作规范不统一、情感种类较少以及情感语音质量无法保证等缺点。

语音情感信息的建模包括情感特征的提取和分类模型的建立两部分。在本发明之前，研究者主要使用的情感特征包括韵律特征及其衍生参数，如时间、能量、基因频率、共振峰等，然而这些参数与情感表达之间的联系十分复杂，不同的情感划分往往适合采用特定的特征组合，过去的文献对此还少有专门研究。语音信号是典型的非平稳信号，K近邻法、主元分析法等所采用的线性模型过于简单，不足以取得好的识别率；隐马尔可夫模型(HMM)的建立和训练时间过长，应用于实际还需要解决计算复杂度过高的问题；人工神经网络具有高度的非线性建模和极强的分类能力，但无法克服局部极小问题。另外，上诉识别方法均属于统计机器学习的范畴，从理论上分析仅当训练样本数量趋于无穷大时，才能使识别性能得到保障，而实际应用中总存在小样本学习的问题。

(三)发明内容：

本发明的目的就在于上述背景技术中的缺陷，建立高质量的情感语音数据库和高效的语音情感识别模型。

本发明一种汉语语音情感信息的提取及建模方法：其中

汉语语音情感信息的提取方法，其步骤如下：

步骤1：制定情感语音数据库规范，包括发音人规范、录音脚本设计规范、音频文件命名规范等；

步骤2：收集情感语音数据

步骤2.1：录音地点为一间空旷的实验室，录音时将门窗紧闭，录制时间选择在晚上，录音设备采用华硕M2413N-DR笔记本电脑，外接创新Audigy 2 NX USB接口声卡，头带式麦克风，录音软件采用的是GoldWave，录音时只有操作者和说话者在场，尽量保持室内安静；

步骤2.2：记录说话者的个人信息及录音场地的温度、湿度等环境参数，并请说话者以最高音量发音，调整声卡增益以及麦克风与说话者嘴部距离，保证语音波形不会出现削顶；

步骤2.3：请说话者以指定的情感朗读某一录音脚本，重复三遍；

步骤2.4：请说话者对录制语音进行个人评价，如符合本人的表达意愿，则将结果保存为采样率11025Hz，16Bit双声道PCM编码格式的WAV文件，否则重复步骤2.3；

步骤2.5：分别以悲伤、愤怒、惊奇、恐惧、喜悦、厌恶以及平静7种情感状态和20句录音脚本重复步骤2.3和步骤2.4；

步骤2.6：采用GoldWave软件对步骤2.5得到的语音文件进行拆分，得到420句情感语音；

步骤2.7：更换说话者重复步骤2.2至步骤2.6，得到15名说话者，包括7男8女，共6300条情感语音数据；

步骤3：情感语音有效性评测，即由区别于说话者的至少十名评测者对步骤2.7得到的情感语音数据进行主观听取评测实验。

汉语语音情感信息的建模方法，其步骤如下：

步骤1：提取语音情感特征，确定区分各种情感类别的特征组合；

步骤1.1：对原始语音信号经高通滤波器预处理，分帧，加窗；

步骤1.2：对预处理后的语音信号提取短时能量、短时过零率、基音周期、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、MEL子带能量、频谱质心、截止频率九种基本特征，并计算其衍生参数；

步骤1.3：通过对预处理后的语音信号进行平坦小波重建得到低频带语音信号；

步骤1.4：提取低频带语音信号的短时能量、短时过零率、基音周期、LPCC、MFCC、共振峰、MEL子带能量、频谱质心、截止频率九种基本特征，并计算其衍生参数，与步骤1.2得到的特征参数结合，得到包含400余种特征参数情感语音特征库；

步骤1.5：从情感语音特征库中选取不同的特征组合进行语音情感一对一分类判决实验，得到适合不同情感类别间分类的特征组合；

步骤2：采用不同的特征组合训练多级语音情感识别系统的SVM模型；

步骤3：验证该分类模型的识别效果：采用交叉留一法验证语音情感多极分类模型在说话人无关情况下的分类效果，。

本发明的积极效果和优点在于：

1.成功的解决了国内情感语音数据库匮乏以及国内情感语音数据库质量无法保证的缺陷，通过诱导型情感语音库的录制以及情感语音的主观评测等步骤，提供了一个高质量的汉情感语音数据库，包含悲伤、愤怒、惊奇、恐惧、喜悦、厌恶以及平静7种情感状态和20句录音脚本，数据库总规模达6300条；

2.充分考虑了特定的情感特征组合对不同情感状态划分的贡献不同，设计了多极语音情感分类模型。

3.利用支持向量机对未知样本分类错误率最小的特点，提供了一个合理高效的语音情感识别系统。

(四)附图附表说明：

图1汉语语音情感信息的提取及建模方法流程框图；

图2情感有效性评测结果；

图3多级分类系统示意图。

(五)具体实施方式：

下面结合附图，对本发明所述的技术方案作进一步阐述。

如图1所示，是汉语语音情感信息的提取及建模方法流程框图，主要分为两部分：汉语语音情感信息的提取方法和汉语语音情感信息的建模方法。

一、汉语语音情感信息的提取方法，该方法步骤如下：

步骤1.制定情感语音数据库规范

在语音库的整个制作过程中的每一步都应该遵从特定的规范，包括发音人规范、录音脚本设计规范、录音规范、音频文件命名规范及实验记录规范等。根据语音情感研究的应用需求，具体涉及到的制作规范和含义如下表1所示。

表1

实验用录音脚本的选择主要考虑以下3个方面：

1)、所选择的语句必须不包含某一方面的情感倾向；

2)、必须具有较高的情感自由度，对同一个语句能施加各种情感进行分析比较；

3)、是口语化的陈述句；

根据上述原则，我们选择了如下表2所示的20个短句作为录音脚本。

表2

为了便于录音人表达语音情感，我们设计了情景上下文来辅助录音人来诱发情感。录音脚本的情景上下文直接关系到录音者的情感表达，它的设计标准如下：

1)、情景上下文必须符合录音者自身的心理环境或情感经历；

2)、情景上下文必须有鲜明的情感语义，并且是常用的口语化语言；

3)、情景上下文不宜过长；

例如我们选出了某文本句子以及相关的情景上下文，如下表3所示。

表3

为了方便情感语音数据的组织和检索，对单个情感语音的重要特征有直观的描述，我们设计了情感语音文件的命名规则。情感语音文件和语音原始特征文件都必须按照命名规则进行命名，文件命名规则如下表4所示.文件名由9位字符组成，分成7部分。

表4

1)、情感类别：情感类别标识占据1个字符，由情感类型拼音的第一个小写字母组成，b：悲伤；f：愤怒；j：惊奇；k：恐惧；x：喜悦；y：厌恶；p：平静。

2)、录音人性别：语音信号随说话人的性别不同，声学特征有着明显的差异。性别标识占据1个字符，F：女性；M：男性。

3)、获取方式：情感语音获取方式的不同使得它们在研究中的作用不同，获取方式分为2种，0为录音法，1为剪辑法。

4)、语言类别：C为中文，E为英文，为以后的情感语音数据上作了准备。

5)、录音人编号：我们对录音人信息加以记录并编号，根据现有录音人规模，录音人标示占据2个数字，范围从01～99。

6)、录音文本编号：我们将情感语音文本记录下来，并加以编号，根据现有语音文本的规模，录音文本标识占据2个数字，范围从01～99。

7)、录音次数：标识了一个录音文本一类情感表达的次数，占据1个数字，范围为1～9。

步骤2.收集情感语音数据

首先，进行语音情感诱导。语音情感的真实度可以分为自然、半自然和模仿3个等级。

我们采用了以下的诱发方法：

导演给定录音脚本和情感类别，录音者随意联想后录音；导演给录音者描述真实的脚本场景，然后录音；导演给出相应的录音脚本范例，录音者听后进行模仿发音录音。这几种方法依次进行，情感的真实度会相对越来越差。因此我们在录音中从上面第一种方法开始诱发，一旦能录制符合要求的情感语音，即结束此人的录音。如果失败则启用第二种方法，以此类推，尽可能录制到情感真实度高的语音。

其次，进行录制；具体包括如下步骤：

1)、录音地点为一间空旷的实验室，录音时将门窗紧闭，录制时间选择在晚上，录音设备采用华硕M2413N-DR笔记本电脑，外接创新Audigy 2 NX USB接口声卡，头带式麦克风，录音软件采用的是GoldWave，录音时只有操作者和说话者在场，尽量保持室内安静；

2)、记录说话者的个人信息及录音场地的温度、湿度等环境参数，并请说话者以最高音量发音，调整声卡增益以及麦克风与说话者嘴部距离，保证语音波形不会出现削顶；

3)、请说话者以指定的情感朗读某一录音脚本，重复三遍；

4)、请说话者对录制语音进行个人评价，如符合本人的表达意愿，则将结果保存为采样率11025Hz，16Bit双声道PCM编码格式的WAV文件，否则重复步骤3)；

5)、分别以悲伤、愤怒、惊奇、恐惧、喜悦、厌恶以及平静7种情感状态和20句录音脚本重复步骤3)和步骤4)；

6)、采用GoldWave软件对步骤5)得到的语音文件进行拆分，得到420句情感语音；

7)、更换说话者重复步骤2)至步骤6)，共得到7男8女15名说话者的6300条情感语音数据；

步骤3.情感语音有效性评测，即由区别于说话者的至少十名评测者对的情感语音数据进行主观听取评测实验。

为了保证语音表达情感的有效性，建立基于.NET平台的情感语音有效性评价系统，对采集的情感语音进行了主观听取评测实验，每句样本至少由10人进行评测，根据评测结果，本文从所有样本中选择了6套数据集，其中每套数据集中的语句所表达的情感至少被p％的评测者认同(p＝50，60，70，80，90和100)，这些数据集分别用s50，s60，s70，s80，s90和s100来表示，例如，若共有10人对某一情感语音样本进行了评测，有7人的评测结果与该样本所对应的情感一致，则该样本可以属于s50，s60，s70三个数据集。图2显示了各数据集中样本的数量以及不同种情感的语句所占的比例。其中折线表示不同数据集中的样本总数，柱状图表示不同种情感语句在每个数据集中所占的比例。可以看出，随着对样本情感可靠性要求的提高(从s50到s100)，样本数量依次减少，同时样本的情感分布发生了相应的变化：在s50中六种情感语句接近均匀分布，随着情感有效性要求的提高，愤怒、惊奇和平静情感的样本在数据集中所占比例逐渐增大，悲伤、恐惧和厌恶样本所占的比例下降。可见愤怒和喜悦更容易被人类识别，而恐惧和厌恶则容易互相混淆。

二、汉语语音情感信息建模方法，该方法步骤如下：

步骤1、提取语音情感特征，确定区分各种情感类别的特征组合；

1)对原始语音信号经高通滤波器预处理，分帧，加窗；

2)对预处理后的语音信号提取短时能量、短时过零率、基音周期、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、MEL子带能量、频谱质心、截止频率九种基本特征，并计算其衍生参数；

3)通过对预处理后的语音信号进行平坦小波重建得到低频带语音信号；

4)提取低频带语音信号的短时能量、短时过零率、基音周期、LPCC、MFCC、共振峰、MEL子带能量、频谱质心、截止频率九种基本特征，并计算其衍生参数，与步骤2)得到的特征参数结合，得到包含400余种特征参数情感语音特征库；

5)从情感语音特征库中选取不同的特征组合进行语音情感一对一分类判决实验，得到适合不同情感类别间分类的特征组合；

其中，MEL子带能量反映了能量在MEL频率上的分布。人耳的听觉频率在普通频率尺度上大致呈对数分布关系，人们提出MEL频率尺度来模拟人耳这一听觉特征。普通频率f到MEL频率的转化关系为：

Mel (f) = 2595 \log_{10} (1 + \frac{f}{100}) - - - (1)

MEL子带能量就是将每帧语音的幅度谱通过一组在MEL频率上等距离分布且相互交叠的三角形滤波器后，计算得到的每个滤波器输出的对数平均能量。

频谱质心参数是用各频率幅度作为加权系数得到的频率中心，该参数反映了声道中紧缩点的紧缩程度，其计算公式如式所示：

S_{center} = \frac{Σ_{n = 1}^{N} nA (n)}{Σ_{n = 1}^{N} A (n)} - - - (2)

其中A(n)为第n条谱线所对应的幅度。

截止频率参数S_end用来表示高频能量衰减的程度，其计算过程就是确定频谱能量从低频积累到占总能量85％时的频率点。公式如式(3)：

Σ_{n = 1}^{Send} A (n) = 0.85 Σ_{n = 1}^{N} A (n) - - - (3)

其中A(n)为第n条谱线所对应的幅度。

对每组特征序列进行时间域上的全局处理，从而得到反映其变化特征、趋势的全局衍生参数；采用能零积包罗的谷点作为分段点对全局进行分段后再处理，如分段Mel子带能量差分均值的方差。如下表5是对九种基本特征求取衍生参数说明。

表5

步骤2、采用不同的特征组合训练多级语音情感识别系统的SVM模型，即采用从情感语音特征库中选取不同的特征组合进行语音情感一对一分类判决实验，得到适合不同情感类别间分类的特征组合，设计多极SVM分类系统，以不同的特征组合训练各级SVM模型

SVM是解决两类分类问题的。对于N类问题(N＞2)，目前常用的实现方法有“一对多”与“一对一”两种。所谓“一对多”，是指设计N个两类分类器，每一个分类器对一个类别的数据与其余N-1个类别的数据按照两类分类方法进行区分；而“一对一”方法是采用N(N-1)/2分类器，即每两个类别之间设计一个分类器进行分类判决，所有分类器合起来构成一个相当于投票机的分类系统，分类时哪个类别得票最多则数据被判为哪类。“一对多”分类系统较为简单，但是分类能力要弱于“一对一”；相对地，“一对一”尽管分类能力更强，但是分类系统要复杂，尤其当类别增多的时候。不同于这两种多类分类方式，本文根据语音情感分类问题的特点建立了一个多级分类系统，对于愤怒、喜悦、悲伤、厌恶4种情感进行分类，只需要3个分类器；对于加上惊奇、恐惧的6种情感进行分类，只需要5个分类器。该方法的构建基础为对两两分类实验的分析：对语音进行情感分类，不同情感间的区分度是不相同的，例如：愤怒和悲伤、恐惧、厌恶是很容易区分的，在一对一分类实验中获得了较高的识别率，且分类用的语音特征向量存在一致性；相反，愤怒和喜悦、惊奇要难区分的多，在一对一分类实验中的识别率甚至不能达到60％。本文所设计的基于SVM的多级语音情感分类系统如图3所示，每个分类器所使用的语音信号特征如下表6所示。

表6

步骤3、验证该分类模型的识别效果；

采用交叉留一法进行说话人不相关的语音情感识别，即选取数据库中两男两女的情感语音数据，任取其中三人的数据作为训练数据，训练多级SVM模型，另外一人的数据作为测试数据，验证该模型识别情感语音的正确率，选择不同的训练和测试数据集，得到四组识别结果，最后取其平均；结果如下表7所示。与基于SVM的“一对多”语音情感分类系统相比，本系统具有更简单的结构，且针对不同情感类别使用不同情感特征组合获得了较好的识别效果。

表7

Claims

1、一种汉语语音情感信息的提取方法，其特征在于：该提取方法步骤如下：

步骤2：收集情感语音数据

2、一种汉语语音情感信息的建模方法，其方法步骤如下：

步骤1.2：对预处理后的语音信号提取短时能量、短时过零率、基音周期、线性预测倒谱系数、MEL频率倒谱系数、共振峰、MEL子带能量、频谱质心、截止频率九种基本特征，并计算其衍生参数；

步骤1.4：提取低频带语音信号的短时能量、短时过零率、基音周期、线性预测倒谱系数、MEL频率倒谱系数、共振峰、MEL子带能量、频谱质心、截止频率九种基本特征，并计算其衍生参数，与步骤1.2得到的特征参数结合，得到包含400余种特征参数情感语音特征库；

步骤3：验证该分类模型的识别效果：即采用交叉留一法验证语音情感多极分类模型在说话人无关情况下的分类效果。

3、根据权利要求1所示的汉语语音情感信息的提取方法，其特征在于：所述的交叉留一法，是指选取数据库中两男两女的情感语音数据，任取其中三人的数据作为训练数据，训练多级SVM模型，另外一人的数据作为测试数据，验证该模型识别情感语音的正确率，选择不同的训练和测试数据集，得到四组识别结果，最后取其平均值。