CN102893326B

CN102893326B - 结合情感点的汉语语音情感提取及建模方法

Info

Publication number: CN102893326B
Application number: CN2011800041561A
Authority: CN
Inventors: 毛峡; 陈立江
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-05-11
Filing date: 2011-07-21
Publication date: 2013-11-13
Anticipated expiration: 2031-07-21
Also published as: CN102222500A; CN102893326A; WO2012151786A1

Abstract

本发明一种结合情感点的汉语语音情感提取及建模方法，该汉语语音情感点提取方法为：制定情感点数据库规范，包括发音人规范、录音脚本设计规范、音频文件命名规范等；收集情感点数据；情感点愉悦度、激活度、优势度(PAD)评测，即由区别于说话者的至少十名评测者对情感点数据进行PAD主观听取评测实验。该汉语语音情感点建模方法为：首先根据Fisher比率选择语音特征训练性别识别支持向量机模型(SVM)；其次为男声和女声分别建立情感点隐马尔科夫模型(HMM)，并根据SVM性别识别结果选择相应的HMM进行情感点分类。本发明汉语语音情感点提取方法为结合语义信息的汉语语音情感识别研究提供了基础，汉语语音情感点建模方法实现了高效的语音情感识别。

Description

结合情感点的汉语语音情感提取及建模方法

(一)技术领域：

本发明涉及一种结合情感点的汉语语音情感提取及建模方法，属于信息技术领域。

(二)背景技术：

语音情感识别是从语音信号中提取说话人的情感状态。现有的研究表明，语音信号中的韵律信息对语音情感识别具有重要作用。例如，当说话人情绪激动时，语音信号基频均值会升高，基频变化范围会增加；当说话人表示疑问时，句尾基频曲线会上扬；当说话人愤怒时，句子中多个音节的基频曲线会下降。但是，韵律信息不仅体现说话人情感状态，还与说话内容有关。汉语是有调语言，调型可以区分语义，因此即使平静的汉语语音信号，其基频曲线也会随着语义的变化产生较大的起伏。

在本发明之前，研究者主要将语义作为汉语语音情感识别的消极影响予以剔除，但是汉语语音信号中存在某些持续时间较短，语音特征明显，并富含特定情感信息的语音片段，包括感叹词、语气词、重音等，本发明称其为情感点。情感点对汉语语音情感识别具有积极的作用。

(三)发明内容：

本发明的目的就在于解决上述背景技术中的缺陷，首次建立汉语情感点数据库，并结合情感点识别结果进行汉语语音情感识别。

本发明一种结合情感点的汉语语音情感提取及建模方法：其中

汉语语音情感点的提取方法，其步骤如下：

步骤1：制定情感点数据库规范；

步骤1.1：选择20名发音人员，年龄20至25周岁，职业为学生，其中包括10名女性，10名男性；

步骤1.2：选取32个感叹词作为情感点，并为每个情感点选择一句包含该情感点的汉语普通话语句作为录音脚本，平均每句脚本包含5.56个汉字；

步骤1.3：文件名包含情感点编号、说话人性别、说话人编号、录音次数编号等信息；

步骤2：收集情感点数据；

步骤2.1：录音地点为一间空旷的实验室，录音时将门窗紧闭，录制时间选择在晚上，录音设备采用华硕M2413N-DR笔记本电脑，外接创新Audigy 2NX USB接口声卡，头带式麦克风，录音软件采用的是GoldWave，录音时只有操作者和说话者在场，尽量保持室内安静；

步骤2.2：记录说话者的个人信息及录音场地的温度、湿度等环境参数，并请说话者以最高音量发音，调整声卡增益以及麦克风与说话者嘴部距离，保证语音波形不会出现削顶；

步骤2.3：请说话者以指定的情感朗读某一录音脚本，重复3遍；

步骤2.4：请说话者对录制语音进行个人评价，如符合本人的表达意愿，则将结果保存为采样率44100Hz，16Bit双声道PCM编码格式的WAV文件，否则重复步骤2.3；

步骤2.5：采用GoldWave软件对步骤2.4得到的语音文件进行拆分，得到96句情感点语音；

步骤2.7：更换说话者重复步骤2.2至步骤2.5，得到20名说话者，包括10男10女，共1920条情感点数据；

步骤3：设计基于.NET平台的网络情感点评测系统，邀请十位以上评测者对按照随机顺序播放的步骤2.7得到的情感点进行愉悦度、激活度和优势度评测，据评测结果，对32个情感点进行情感聚类；

汉语语音情感点的建模方法，其步骤如下：

步骤1：采用支持向量机(SVM)进行说话人性别识别；

步骤11：对情感点数据库中的语音信号经高通滤波器预处理，分帧，加窗；

步骤1.2：对预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分，并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数；

步骤1.3：计算步骤1.2提取的各衍生参数的Fisher比率，选择最能够区分说话人性别的基频最大值、基频一阶差分最大值、基频均值、基频一阶差分标准差、基频二阶差分标准差；

步骤1.4：采用步骤1.3选择的语音特征训练SVM模型，进行说话人性别识别；

步骤2：根据步骤1说话人性别识别结果为每个情感点分别建立男声和女声隐马尔可夫模型(HMM)；

步骤2.1：对情感点数据库中的男声语音信号经高通滤波器预处理，分帧，加窗；

步骤2.2：对步骤2.1预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分；

步骤2.3：采用顺序浮动前进法(SFFS)从步骤2.2提取的特征中选择最适合男声情感点识别的能量、基频、共振峰、自相密度、计盒维数、MEL频率倒谱系数；

步骤2.4：采用步骤2.3选择的特征为每个情感点训练男声HMM；

步骤2.5：对情感点数据库中的女声语音信号经高通滤波器预处理，分帧，加窗；

步骤2.6：对步骤2.5预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分；

步骤2.7：采用顺序浮动前进法(SFFS)从步骤2.6提取的特征中选择最适合女声情感点识别的能量、基频、共振峰、自相密度、计盒维数、MEL频率倒谱系数；

步骤2.8：采用步骤2.7选择的特征为每个情感点训练女声HMM。

本发明的积极效果和优点在于：

1.首先建立了汉语语音情感点数据库，包含20名说话者(10男10女)，共1920条情感点数据，并为数据库中的各情感点进行了愉悦度、激活度和优势度评测。该情感点数据库为结合语义信息的汉语语音情感识别研究提供了基础；

2.充分考虑了性别对情感点识别的影响，设计了两级语音情感点分类模型，首先利用支持向量机进行性别识别，然后根据性别识别结果，分别用男声HMM或女声HMM进行情感点识别。

(四)附图附表说明：

图1汉语语音情感点的提取及识别方法流程图；

图2情感点PAD评测聚类结果；

图3汉语语音情感点识别方法示意图；

图4Mel子带滤波器组；

图5特征选择流程图。

(五)具体实施方式：

下面结合附图，对本发明所述的技术方案作进一步阐述。

如图1所示，是汉语语音情感信息的提取及建模方法流程框图，主要分为两部分：汉语语音情感点的提取方法和汉语语音情感点的识别方法。

一、汉语语音情感点的提取方法，该方法步骤如下：

步骤1.制定情感点数据库规范；

在语音库的整个制作过程中的每一步都应该遵从特定的规范，包括发音人规范、录音脚本设计规范、录音规范、音频文件命名规范及实验记录规范等。具体涉及到的制作规范和含义如表1所示。

表1

发音人规范：选择20名发音人员，年龄20至25周岁，职业为学生，其中包括10名女性，10名男性；

录音脚本设计规范：我们选取32个感叹词作为情感点。实验时将对每个情感点读音都进行3遍录音，并且针对每个读音设计相应语句，语句也将录制3遍。录音文本内容如表2所示。

表2

录音规范：录音设备采用华硕M2413N-DR笔记本电脑，外接创新Audigy 2NX USB接口声卡，头带式麦克风，录音软件采用的是GoldWave；

数据存储规范：采样率为44.1KHz，双通道、16Bit量化，格式为WAV；

音频文件命名规范：为了方便情感点的组织和检索，对单个情感点的重要特征有直观的描述，我们设计了情感点文件的命名规则。鉴于录音分为两类：情感点，以及对应情感点的句子，因此录音样本文件格式分为以下两种：

1)、1_情感点编号_说话人性别_说话人编号_录音次数编号

2)、情感点编号_说话人性别_说话人编号_录音次数编号

其中有1代表录音内容为对应于情感点的句子，无1代表录制的内容是情感点；情感点编号对应于上表，为01～32；说话人性别(M，F)，其中M是male(男性)的首字母，F是female(女性)的首字母；说话人编号为01～20；录音次数编号为1～3。

实验记录规范：记录说话者的个人信息及录音场地的温度、湿度等环境参数。

步骤2.收集情感点数据；

情感点录制具体包括如下步骤：

1)、录音地点为一间空旷的实验室，录音时将门窗紧闭，录制时间选择在晚上，录音时只有操作者和说话者在场，尽量保持室内安静；

2)、记录说话者的个人信息及录音场地的温度、湿度等环境参数，并请说话者以最高音量发音，调整声卡增益以及麦克风与说话者嘴部距离，保证语音波形不会出现削顶；

3)、请说话者以指定的情感朗读某一录音脚本，重复3遍；

4)、请说话者对录制语音进行个人评价，如符合本人的表达意愿，则将结果保存为采样率44.1KHz，双通道、16Bit量化，格式为WAV的音频文件，否则重复3；

5)、采用GoldWave软件对4得到的语音文件进行拆分，得到96个情感点语句；

6)、更换说话者重复2至5，共得到10男10女20名说话者的1920条情感点语句；

步骤3.情感点愉悦度、激活度、优势度(PAD)评测

建立基于.NET平台的情感点PAD评测系统，对每个情感点样本，由至少十名评测者进行打分，每个维度分为-1、-0.5、0、0.5、1等五个等级，例如，愉悦度-1级表示最不愉悦，愉悦度1级表示最愉悦。根据评测数据计算每种情感点在PAD三维情感空间的分布，并根据其结果对情感点进行聚类分析，共分为12个类别，其结果如表3所示。

表3

图2显示了32个情感点在PAD三维情感空间的分布情况及聚类结果。

二、汉语语音情感点建模方法，该方法步骤如下：

说话人性别对情感点建模有重要影响，其主要体现在声带特征差异，例如，男声的基频主要集中在100Hz～300Hz，女声的基频主要集中在200Hz～500Hz。本发明采用两级模型，即在模型训练阶段分别为男声和女声建立独立的HMM，并建立用于性别分类的SVM模型，在识别阶段，未知样本首先经过SVM模型进行性别分类，然后根据性别分类的结果决定选用男声HMM或女声HMM进行情感点识别，其框架如图3所示。

步骤1.采用支持向量机(SVM)进行说话人性别识别；

步骤1.2：对预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数等11种基本特征及其对时间的一阶差分和二阶差分，并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数。

基频、能量、过零率、共振峰都属于传统的语音特征，其中能量和基频反应语音的低频韵律特性，过零率和共振峰反应高频信息。

频谱质心与频谱截止频率反映了语音信号的频率分布特性，均属于音质特征。首先对每帧数据进行快速Fourier变换：

F (k) = | | Σ_{i = 1}^{N} x (n) \times e^{- i 2 πk \frac{n}{N}} | | (k = 1,2, . . . N) - - - (1)

其中F(k)表示第k个频率点的幅值，x(n)表示输入语音信号，N为语音信号帧长(1024)。频谱质心F_cent定义为：

F_{cent} = (Σ_{k = 1}^{N / 2} k \times F (k)) / (Σ_{j = 1}^{N / 2} F (j)) - - - (2)

频谱截止频率F_cut是指某一频率点，满足：

(Σ_{k = 1}^{F_{cut}} F (k)) / (Σ_{j = 1}^{N / 2} F (j)) = 0.85 - - - (3)

自相关密度反映语音信号的短时频谱分布随时间的变化，计盒维数反映语音信号的非线性特性。首先通过五组全极点滤波器对语音信号进行不同程度的低频提升，然后计算各滤波结果的一阶自相关系数：

ρ_{k} = Σ_{n = 1}^{N - 1} Y_{k} (n) \times Y_{k} (n + 1) - - - (4)

其中Y_k(n)表示第k个全极点滤波器在第n点的输出结果。自相关密度定义为：

C_{d} = \lg [Σ_{k = 1}^{4} {(ρ_{k + 1} - ρ_{k})}^{2}] - - - (5)

用一个正方形的网状栅格将语音信号波形覆盖，网格的边长为A，N(A)为包含语音信号波形的网格数，计盒维数定义为：

D_{b} = \lim_{A &RightArrow; 0} (\frac{lgN (A)}{\lg (1 / A)}) - - - (6)

Mel频率符合人耳对声音频率的感知特性，构造Mel子带滤波器组，如图3所示。Mel子带能量定义为：

E_{mk} = Σ_{n = 1}^{N} [Y_{mk} {(n)}^{2}] - - - (7)

其中Y_mk(n)表示语音信号通过第k个Mel子带滤波器在第n点的输出结果。

Fisher准则是一种传统的线性判别方法，其基本原理是寻找特征空间的某个投影子空间，使得所有特征点在该子空间得到最好的分类。设样本集x＝{x₁，x₂，…，x_n}中共有n个样本，分C类，每个样本x_i均为L维列向量，定义类间离散度S_b和类内离散度S_w分别为：

S_{b} = \frac{1}{n} Σ_{j = 1}^{C} n_{j} (m_{j} - m) {(m_{j} - m)}^{T} - - - (8)

S_{w} = \frac{1}{n} Σ_{j = 1}^{C} \underset{x_{i} &Element; X_{j}}{Σ} (x_{i} - m_{j}) {(x_{i} - m_{j})}^{T} - - - (9)

其中x_j、n_j和m_j分别为第j类样本的子集、总个数和均值点，m为所有样本的均值点。

Fisher比率定义为：

F_r＝diag(S_b./S_w) (10)

其中符号“./”表示矩阵的对应元素分别相除，函数diag取矩阵对角线上的元素。F_r为L维列向量，其中每个元素反映了对应特征的二分类能力。

步骤2.为每个情感点分别建立男声和女声隐马尔可夫模型(HMM)；

顺序浮动前进法(SFFS)是一种自底向上的方法特征选择方法，通过序列前向搜索(Sequential Forward Selection，SFS)方法添加新的特征到当前特征集里面，接着连续用序列后向搜索(Sequential Backward Selection，SBS)方法从特征集中剔除冗余特征直至不能再剔除为止。其中序列前向搜索(SFS)是最简单的自下而上搜索方法，每次从未入选的特征中选择一个特征，使得它与已入选的特征组合在一起时所得适配值为最大，直到特征数量增加到目标个数为止。序列后向搜索(SBS)是一种自上而下的方法，从全体特征开始每次剔除一个，所剔除的特征应使仍然保留的特征子集的适配值最大。采用顺序浮动前进法(SFFS)进行特征选择的流程图如图5所示。

步骤2.4：采用步骤2.3选择的特征为每个情感点训练男声HMM；

步骤2.8：采用步骤2.7选择的特征为每个情感点训练女声HMM。

Claims

1.汉语语音情感点的建模方法，其步骤如下：

步骤1：采用支持向量机进行说话人性别识别；

步骤1.1：对情感点数据库中的语音信号经高通滤波器预处理，分帧，加窗；

步骤1.2：对预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数共11种基本特征。计算基本特征对时间的一阶差分和二阶差分，并计算基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度共6种衍生参数；

步骤2.2：对步骤2.1预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数共11种基本特征，计算基本特征对时间的一阶差分和二阶差分；

步骤2.4：采用步骤2.3选择的特征为每个情感点训练男声HMM；

步骤2.6：对步骤2.5预处理后的语音信号提取基频、能量、过零率、线性预测倒谱系数(LPCC)、MEL频率倒谱系数(MFCC)、共振峰、5个MEL子带能量、频谱质心、截止频率、自相关密度、计盒维数共11种基本特征，计算基本特征对时间的一阶差分和二阶差分；

步骤2.8：采用步骤2.7选择的特征为每个情感点训练女声HMM。