CN102655003A

CN102655003A - 基于声道调制信号mfcc的汉语语音情感点识别方法

Info

Publication number: CN102655003A
Application number: CN2012100763070A
Authority: CN
Inventors: 毛峡; 魏鹏飞
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2012-03-21
Filing date: 2012-03-21
Publication date: 2012-09-05
Anticipated expiration: 2032-03-21
Also published as: CN102655003B

Abstract

本发明提出了一种可以提高情感点平均识别率的方法，该方法为：制定电声门图情感数据和语音数据库规范；收集电声门图情感数据和语音数据；对收集的数据进行主观评测，选出其中一套数据子集作为研究对象。对数据子集中的电声门图信号和语音信号进行预处理，并提取语音信号中的短时特征及相应的统计特征和MEL倒谱系数SMFCC；再将电声门图信号和语音信号进行快速傅里叶变换后相除，计算相除后得到的声道信息的MEL倒谱系数TMFCC。分别用不同的特征组合进行实验，求解说话人相关和说话人无关时28个情感点在不同特征组合下的平均识别率。实验结果表明采用TMFCC特征组合可以提高情感点平均识别率。

Description

基于声道调制信号MFCC的汉语语音情感点识别方法

(一)技术领域：

本发明涉及一种基于声道调制信号MFCC的用于提高汉语语音情感点平均识别率的方法，属于信息技术领域。

(二)背景技术：

语音情感识别是从语音信号中提取说话人的情感状态。根据语音激励调制模型，语音信号的产生包括声门激励和声道调制两部分。声门激励决定了语音韵律变化，对语音情感识别具有重要作用。声道调制主要决定了说话内容，每种元音对应不同的共振峰，反映不同的声道形状信息。汉语是有调语音，大部分音节由声母和韵母构成，相同声母和韵母构成的音节随声调的不同具有不同的意义也表达着不同的情感。汉语中的声调有5种，包括：阴平，阳平，上声，去声及轻声。在众多的音节中，有一些音节和情感密切相关，称这些音节为“情感点”，其特点是持续时间短但包含丰富的情感信息，如“啊”之类的感叹词以及“哈哈”之类的语气词。通过分析整句语音中情感点所代表的情感可有助于得到整句语音的情感状态。

通过直接对语音数据进行特征提取，然后训练，建模，识别得到的情感点平均识别率低，本发明提出了一种提高汉语语音情感点平均识别率的方法。

(三)发明内容：

本发明的目的在于提供一种提高情感点平均识别率的方法，通过电声门图信号直接提取说话人的声门激励，再利用声门激励和声道调制的卷积关系提取语音中的声道调制信息，从中获得MEL倒谱系数作为特征参数训练隐马尔科夫模型进行识别以提高情感点平均识别率。

本发明基于声道调制信号MFCC提出了一种提高汉语语音情感点平均识别率的方法，其流程图见图1：其中

1.汉语声门激励信息和语音信息提取，其步骤如下：

步骤1：制定语音数据库规范；

选择10名发音人员，年龄20至30周岁，职业为学生，其中包括5名女性，5名男性；选择28个常用的没有明显情感倾向的汉语普通话感叹词作为情感点用于录音脚本；

步骤2：收集电声门图数据和情感语音数据；

步骤2.1：录音地点为一间空旷的实验室，录制时间选择在晚上，录音设备采用DELL OPTIPLEX 330电脑，TIGEX-EGG3电声门图仪，BE-8800驻极体电容式麦克风，录音软件采用的是GOLDWAVE，录制双声道数据，左声道为麦克风采集的语音数据，右声道为电声门图仪采集的声门激励数据；

步骤2.2：请说话者以指定的情感朗读所有录音脚本，重复3遍，并请说话者对录制语音进行个人评价，如符合本人的表达意愿，则将结果保存为采样率44100Hz，16Bit双声道PCM编码格式的WAV文件，否则重复步骤2.2；

步骤2.3：更换说话者重复步骤2.2，得到10名说话者的电声门图数据和语音数据各840条，其中情感点“啊”的语音数据和电声门图数据如图2；

步骤3：获得最终实验数据；

邀请10位评测者对2.3中得到的电声门图数据和语音数据进行评测，据评测结果，从数据全集中选择1套数据子集，该数据子集中的电声门图数据和语音数据至少被7人正确识别，该子集包括3男2女共5名说话者的电声门图数据和语音数据各420条。

2.结合声门激励信息和语音信息的情感点建模与识别，其步骤如下：

步骤1：对语音信号进行特征提取；

步骤1.1：对选取的数据子集中的电声门图信号和语音信号进行预处理操作，包括采样与量化，预加重，分帧与加窗，经过预处理过程，电声门图信号和语音信号被分割为短时信号；

步骤1.2：对预处理过的语音信号计算短时特征参数，包括：基频，短时能量，自相关密度，分形维数，4阶共振峰，并计算这些短时特征参数的统计特征，包括：最大值，最小值，均值，均方值，峰度，偏度；

步骤2：结合电声门图信号和语音信号提取SMFCC与TMFCC；

步骤2.1：对预处理过的语音信号计算10阶MEL倒谱系数，记为SMFCC；

步骤2.2：对预处理过的电声门图信号和语音信号分别进行快速傅里叶变换，并对转换到频域的电声门图信号和语音信号进行能量归一化，然后用归一化的语音信号除以归一化的电声门图信号，并对结果求取10阶MEL倒谱系数，记为TMFCC，其详细求解方法如下：

首先对语音信号和电声门图信号做FFT，分别记为F₁(k)与F₂(k)：

F_{1} (k) = | | Σ_{i = 1}^{N} x (n) \times e^{- i 2 πk \frac{n}{N}} | | - - - (1)

F_{2} (k) = | | Σ_{i = 1}^{N} y (n) \times e^{- i 2 πk \frac{n}{N}} | | - - - (2)

其中x(n)表示输入语音信号，y(n)表示输入电声门图信号，N为语音信号帧长(1024)。再利用频域相除得到声道调制信息，记为F₃(k)：

F_{3} (k) = \frac{F_{1} (k)}{F_{2} (k)} - - - (3)

求F₃(k)平方，即能量谱，并用一组三角形滤波器在频域对能量进行带通滤波。这组带通滤波器的中心频率是按Mel频率刻度均匀排列的(间隔150Mel，带宽300Mel)，每个三角形滤波器的两个底点的频率分别等于相邻的两个滤波器的中心频率，即每两个相邻的滤波器的过渡带互相搭接，且频率响应之和为1。滤波器的个数通常和临界带数相近，设滤波器数为M，滤波后得到的输出为：X(k)，k＝1，2，…M。

再次，对滤波器组的输出取对数，然后作2M点逆傅里叶变换即可得到TMFCC。由于对称性，此变换式可简化为：

C_{n} = Σ_{k = 1}^{M} \log X (k) \cos [π (k - 0.5) n / M], n = 1,2, \cdot \cdot \cdot L - - - (4)

步骤3：利用步骤1和步骤2中得到的特征参数进行训练建模与识别；

步骤3.1：对步骤1和步骤2中得到的所有特征参数利用LBG算法进行聚类量化；

步骤3.2：进行说话人相关的对比实验，选取基频，短时能量，自相关密度，分形维数，4阶共振峰及相应的最大值，最小值，均值，均方值，峰度，偏度构成语音信号特征组合，对于每一个情感点，任意选取5名说话者的两遍数据的语音信号特征组合和SMFCC进行训练建模，得到28个训练完成的隐马尔科夫模型，并对剩余的一遍数据进行识别，得到每个情感点的识别率P1和所有情感点的平均识别率AP1；

步骤3.3：选取基频，短时能量，自相关密度，分形维数，4阶共振峰及相应的最大值，最小值，均值，均方值，峰度，偏度构成的语音信号特征组合和TMFCC重复步骤3.2中的实验，得到每个情感点的识别率P2和所有情感点的平均识别率AP2；

步骤3.4：对比步骤3.2和步骤3.3中得到的P1与P2，AP1与AP2，总结结论，实验结果如图3和表1所示；

表1

步骤3.5：进行说话人无关的对比实验，选取基频，短时能量，自相关密度，分形维数，4阶共振峰及相应的最大值，最小值，均值，均方值，峰度，偏度构成语音信号特征组合，对于每一个情感点，任意选取4名说话者的三遍数据的语音信号特征组合和SMFCC进行训练建模，得到28个训练完成的隐马尔科夫模型，对剩余1名说话者的三遍数据进行识别，得到每个情感点的识别率P3和所有情感点的平均识别率AP3；

步骤3.6：选取基频，短时能量，自相关密度，分形维数，4阶共振峰及相应的最大值，最小值，均值，均方值，峰度，偏度构成的语音信号特征组合和TMFCC重复步骤3.5中的实验得到每个情感点的识别率P4和所有情感点的平均识别率AP4；

步骤3.7：对比步骤3.5和步骤3.6中得到的P3与P4，AP3与AP4，总结结论，实验结果表2所示；

表2

本发明的积极效果和优点在于：

1.首先建立了电声门图和语音情感数据库，包含10名说话者(5男5女)，共840条电声门图情感语音数据，并对数据库中的情感点进行了主观评测，筛选出最符合实验要求的数据子集。

2.利用电声门图信号和语音信号分离出声道调制信息，并求出相应的MEL倒谱系数作为特征参数训练隐马尔科夫模型，提高了语音情感点的平均识别率。

(四)附图说明：

图1利用电声门图信号和语音信号进行特征提取，训练模型并识别情感点流程图；

图2情感点“啊”的电声门图数据和语音数据的波形图；

图3说话人相关时分别使用SMFCC特征组合和TMFCC特征组合时的情感点识别率对比组图；

(五)具体实施方式：

下面结合附图，对本发明所述的技术方案作进一步阐述。

图1是利用电声门图信号和语音信号进行特征提取，训练模型并识别情感点的流程图，主要分为两部分：汉语语音情感点的获取和汉语语音情感点的识别。

一、汉语语音情感点的获取，该方法步骤如下：

步骤1.制定情感语音数据库录制规范，具体规则如下；

(1)说话人：年龄在20～25岁之间，文化程度为大学本科，人数为5男5女共10人。

(2)说话内容：选取28个感叹词作为情感点，实验时对每个情感点进行3遍录音。

(3)情感分类：生气，高兴，悲伤，惊讶，恐惧，嫌恶。

(4)录音实验规范：

a.天气：选择温度和湿度分别为24度和50％左右的室内环境中进行录制，保证天气条件的连续性，并记录温度和湿度数据。

b.录音环境：录音实验在实验室进行，录音选择在晚上，尽量避免干扰。

c.录音设备：DELL OPTIPLEX 330电脑，TIGEX-EGG3电声门图仪。

d.录音软件：采用GOLDWAVE完成录音及音频文件的剪辑。

e.录音格式：采样率为44100Hz，双通道、16Bit量化，格式为WAV，一个声道为电声门图数据，另一声道为音频数据。

(5)样本文件保存格式

录音样本文件格式：

a.情感点编号_说话人性别_说话人编号_录音种类_录音次数编号。

b.情感点编号对应于上表，为01～28。

c.说话人性别(M，F)，其中M是male(男性)的首字母，F是female(女性)的首字母。

d.说话人编号为01～10。

e录音次数编号为1～3。

步骤2.收集电声门图情感数据和语音数据

步骤2.1：进行语音情感诱导。给予录音者录音脚本和情感类别，并给出和情感类别相联系的语境诱导录音。

步骤2.2：进行录制；具体包括如下步骤：

步骤2.2.1：录音地点为一间空旷的实验室，录音时将门窗紧闭，录制时间选择在晚上，录音设备采用DELL OPTIPLEX 330电脑，TIGEX-EGG3电声门图仪，BE-8800驻极体电容式麦克风，录音软件采用的是GOLDWAVE，录制双声道数据，左声道为麦克风采集的语音数据，右声道为电声门图仪采集的声门激励数据，录音时只有操作者和说话者在场，保持室内安静；

步骤2.2.2：记录说话者的个人信息及录音场地的温度、湿度等环境参数，并请说话者以最高音量发音，调整声卡增益以及麦克风和说话者嘴部距离，保证语音波形和电声门图波形不会出现削顶；

步骤2.2.3：请说话者以指定的情感朗读所有录音脚本，重复3遍；

步骤2.2.4：请说话者对录制语音进行个人评价，如符合本人的表达意愿，则将结果保存为采样率44100Hz，16Bit双声道PCM编码格式的WAV文件，否则重复步骤2.3；

步骤2.2.5：更换说话者重复步骤2.3和步骤2.4，得到10名说话者电声门图数据和语音数据各840条。

步骤3：获得最终实验数据；

二、结合声门激励信息和语音信息的汉语语音情感点建模与识别，该方法步骤如下：

步骤1：对语音信号进行特征提取；

步骤2：结合电声门图信号和语音信号提取SMFCC与TMFCC；

首先对语音信号和电声门图信号做FFT，分别记为F₁(k)与F₂(k)：：

F_{1} (k) = | | \underset{i = 1}{\overset{N}{Σ}} x (n) \times e^{- i 2 πk \frac{n}{N}} | | - - - (1)

F_{2} (k) = | | Σ_{i = 1}^{N} y (n) \times e^{- i 2 πk \frac{n}{N}} | | - - - (2)

F_{3} (k) = \frac{F_{1} (k)}{F_{2} (k)} - - - (3)

C_{n} = Σ_{k = 1}^{M} \log X (k) \cos [π (k - 0.5) n / M], b = 1,2, \cdot \cdot \cdot L - - - (4)

步骤3.3：选取基频，短时能量，自相关密度，分形维数，4阶共振峰及相应的最大值，最小值，均值，均方值，峰度，偏度构成的语音信号特征组合和 TMFCC重复步骤3.2中的实验，得到每个情感点的识别率P2和所有情感点的平均识别率AP2；

步骤3.4：对比步骤3.2和步骤3.3中得到的P1与P2，AP1与AP2后可得到以下结论：在说话人相关对比实验中，利用TMFCC特征组合求得的情感点平均识别率比利用SMFCC特征组合求得的情感点平均识别率高出14.08％，因此利用TMFCC特征组合可以提高情感点的平均识别率；

步骤3.7：对比步骤3.5和步骤3.6中得到的P3与P4，AP3与AP4后可得到以下结论：在说话人无关对比实验中，利用TMFCC特征组合求得的情感点平均识别率比利用SMFCC特征组合求得的情感点平均识别率高出7.19％，因此利用TMFCC特征组合可以提高情感点的平均识别率。

Claims

1.汉语声门激励信息和语音信息提取，其步骤如下：

步骤1：制定语音数据库规范；

步骤2：收集电声门图数据和情感语音数据；

步骤2.1：录音地点为一间空旷的实验室，录制时间选择在晚上，录音设备采用DELLOPTIPLEX 330电脑，TIGEX-EGG3电声门图仪，BE-8800驻极体电容式麦克风，录音软件采用的是GOLDWAVE，录制双声道数据，左声道为麦克风采集的语音数据，右声道为电声门图仪采集的声门激励数据；

步骤2.3：更换说话者重复步骤2.2，得到10名说话者的电声门图数据和语音数据各840条；

步骤3：邀请10位评测者对2.3中得到的电声门图数据和语音数据进行评测，据评测结果，从数据全集中选择1套数据子集，该数据子集中的电声门图数据和语音数据至少被7人正确识别，该子集包括3男2女共5名说话者的电声门图数据和语音数据各420条。

步骤1：对语音信号进行特征提取；

步骤2：结合电声门图信号和语音信号提取SMFCC与TMFCC；

步骤2.2：对预处理过的电声门图信号和语音信号分别进行快速傅里叶变换，并对转换到频域的电声门图信号和语音信号进行能量归一化，然后用归一化的语音信号除以归一化的电声门图信号，并对结果求取10阶MEL倒谱系数，记为TMFCC；

步骤3.4：对比步骤3.2和步骤3.3中得到的P1与P2，AP1与AP2，总结结论；

步骤3.7：对比步骤3.5和步骤3.6中得到的P3与P4，AP3与AP4，总结结论。