CN102411932B

CN102411932B - 结合声门激励和声道调制信息的汉语语音情感提取及建模方法

Info

Publication number: CN102411932B
Application number: CN 201110301307
Authority: CN
Inventors: 毛峡; 陈立江
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2011-09-30
Filing date: 2011-09-30
Publication date: 2012-12-19
Anticipated expiration: 2031-09-30
Also published as: CN102411932A

Abstract

本发明一种结合声门激励和声道调制信息的汉语语音情感提取及建模方法，该汉语声门激励信息的提取方法为：制定电声门图情感语音数据库规范；收集电声门图情感语音数据；电声门图情感语音主观评测，即由至少十名评测者对电声门图情感语音进行评测。结合声门激励和声道调制信息的汉语情感建模方法为：首先根据电声门图提取声门激励信息；其次根据电声门图和语音信号的关系提取语音信号中的声道调制信息；最后，利用所有备选特征的Fisher比率为每种情感选择合适的情感特征，并训练一对多支持向量机模型。本发明通过电声门图信号提取声门激励信息，将语音信号中的声门激励信息和声道调制信息分离，更准确的反映语音中的情感信息。

Description

结合声门激励和声道调制信息的汉语语音情感提取及建模方法

(一)技术领域：

本发明涉及一种结合声门激励和声道调制信息的汉语语音情感提取及建模方法，属于信息技术领域。

(二)背景技术：

语音信号中包含有说话内容、说话人身份以及说话人的情感状态等信息，语音情感识别是从语音信号中提取说话人的情感状态。根据语音的激励调制模型，语音信号由声门激励和声道调制两部分组成。声门激励决定了语音韵律变化，对语音情感识别具有重要作用。例如，当说话人情绪激动时，语音信号基频均值会升高，基频变化范围会增加；当说话人表示疑问时，句子基频曲线上扬部分会增加。声门激励也包含了部分说话人身份信息，不同说话人在平静状态下的基频分布范围是不同的，但是该区别常因情感状态的改变而被屏蔽掉。另外，在有调语言中，例如汉语，声调的变化还和语义相关。声道调制主要决定了说话内容，每种元音对应不同的共振峰，反映不同的声道形状信息。不同说话人的声道形状(声道长度、声道截面积)是有区别的，该区别同样反映在声道调制的效果上。另外，当说话人的情绪状态发生改变时，即使在说同一内容，声道形状也会有所改变，该变化会导致语音能量的频域分布发生改变。可见语音中的说话内容、说话人身份以及说话人的情感状态之间的关系非常复杂。

在本发明之前，研究者主要采用各种信号处理方法从语音信号中提取声门激励和声道调制信息，由于算法本身的限制，无法做到声门激励和声道调制信息的完全分离。

(三)发明内容：

本发明的目的就在于解决上述背景技术中的缺陷，通过电声门图信号直接提取说话人的声门激励，再利用声门激励和声道调制的卷积关系提取语音中的声道调制信息，做到二者的完全分离，进行汉语语音情感识别。

本发明一种结合声门激励和声道调制信息的汉语语音情感提取及建模方法：其中

汉语声门激励信息的提取方法，其步骤如下：

步骤1：制定电声门图情感语音数据库规范；

步骤1.1：选择20名发音人员，年龄20至30周岁，职业为学生，其中包括10名女性，10名男性；

步骤1.2：选择20句没有明显情感倾向的汉语普通话语句作为录音脚本，平均每句脚本包含6.95个汉字，最少3个字(快点干)，最多12个字(我在论文上看到你的名字了)；

步骤1.3：文件名包含文件编号、情感类别、录音人性别、获取方式、语言类别、录音人编号、语音语句编号、录音语句次数标识等信息；

步骤2：收集电声门图情感语音数据；

步骤2.1：录音地点为一间空旷的实验室，录音时将门窗紧闭，录制时间选择在晚上，录音设备采用DELL OPTIPLEX 330电脑，TIGEX-EGG3电声门图仪，BE-8800驻极体电容式麦克风，录音软件采用的是GoldWave，录制双声道数据，左声道为麦克风采集的语音数据，右声道为电声门图仪采集的声门激励数据，录音时只有操作者和说话者在场，保持室内安静；

步骤2.2：记录说话者的个人信息及录音场地的温度、湿度等环境参数，并请说话者以最高音量发音，调整声卡增益以及麦克风与说话者嘴部距离，保证语音波形和电声门图波形不会出现削顶；

步骤2.3：请说话者以指定的情感朗读所有录音脚本，重复3遍；

步骤2.4：请说话者对录制语音进行个人评价，如符合本人的表达意愿，则将结果保存为采样率11025Hz，16Bit双声道PCM编码格式的WAV文件，否则重复步骤2.3；

步骤2.5：采用GoldWave软件对步骤2.4得到的语音文件进行拆分，得到60条电声门图情感语音数据；

步骤2.6：请说话者以悲伤、愤怒、惊奇、恐惧、喜悦、厌恶以及平静的情感重复步骤2.3至步骤2.5，得到420条电声门图情感语音数据；

步骤2.7：更换说话者重复步骤2.3至步骤2.6，得到20名说话者，包括10男10女，共8400条电声门图情感语音数据；

步骤3：设计基于.NET平台的网络情感点评测系统，邀请10位以上评测者对按照随机顺序播放的电声门图情感语音进行评测，据评测结果，从全部语音集中选择4套语音子集，其中每套语音子集中的语音被至少有p％的人正确识别(p＝70，80，90和100)；

结合声门激励和声道调制信息的汉语情感建模方法，其步骤如下：

步骤1：结合电声门图和语音信号进行浊音段、清音段和静音段划分；

步骤1.1：对电声门图信号进行带通滤波，然后对电声门图情感语音数据库中的电声门图和语音信号进行分帧处理，帧长256个采样点，帧移128个采样点；

步骤1.2：分别提取所有电声门图数据帧的对数能量E_egg和语音信号数据帧的对数能量E_speech，根据E_egg的统计结果设定阈值th₀，根据E_speech的统计结果设定th₁和th₂；

步骤1.3：若某数据帧E_egg大于th₀并且E_speech大于th₂，则该数据帧为浊音，若某数据帧不是浊音并且E_speech大于th₁，则该数据帧为清音，其余数据帧为静音；

步骤2：提取浊音的声门激励信息；

步骤2.1：计算各浊音段持续时长的频数直方图，并对该频数直方图横纵坐标归一化之后取对数，以浊音段归一化对数持续时长为自变量，以持续时长的归一化对数频数为因变量，进行一元线性回归分析，得到浊音段持续时长频数的双对数分布参数；

步骤2.2：计算各浊音帧的基频，依照步骤2.1的方法分别计算基频曲线上升段和下降段的持续时长频数的双对数分布参数；

步骤3：提取浊音和清音的声道调制信息；

步骤3.1：对浊音帧的电声门图和语音信号进行快速傅立叶变换，对转换到频域的电声门图和语音信号进行能量归一化，利用频域相除法，将频域归一化语音信号与频域归一化电声门图信号相除，计算所得结果的10阶MEL频率倒谱系数、前3个共振峰、5个MEL子带能量、频谱质心、截止频率等基本特征及其对时间的一阶差分和二阶差分，并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数；

步骤3.2：计算清音的10阶MEL频率倒谱系数、前3个共振峰、5个MEL子带能量、频谱质心、截止频率等基本特征及其对时间的一阶差分和二阶差分，并计算所有基本特征和差分特征的最大值、最小值、均值、标准差、峰度、偏度等衍生参数；

步骤4：根据步骤1至步骤3得到的声门激励和声道调制特征参数建立六种情感支持向量机一对多分类模型；

步骤4.1：以电声门图情感语音数据库为基础，计算步骤1至步骤3提取的每种特征的6个Fisher比率，每个Fisher比率对应一种情感；

步骤4.2：根据步骤4.1得到的Fisher比率的排序选择适用于每种支持向量机模型的特征参数，为每种情感训练一对多支持向量机模型。

本发明的积极效果和优点在于：

1.首先建立了电声门图情感语音数据库，包含20名说话者(10男10女)，共8400条电声门图情感语音数据，并为数据库中的情感语句进行了主观评测。

2.分别从电声门图和语音信号出发，彻底分离了声门激励和声道调制信息，提高了语音情感识别对说话内容和说话人身份信息的鲁棒性。

(四)附图附表说明：

图1结合声门激励和声调调制的汉语语音情感点的提取及识别方法流程图；

图2电声门图和语音数据的波形图；

图3清音浊音静音划分阈值的选定示意图；

图4浊音段持续时长频数的双对数分布参数；

图5基频曲线上升段和下降段的持续时长频数的双对数分布参数。

(五)具体实施方式：

下面结合附图，对本发明所述的技术方案作进一步阐述。

如图1所示，是结合声门激励和声调调制的汉语语音情感点的提取及识别方法流程图，主要分为两部分：汉语语音情感点的提取方法和汉语语音情感点的识别方法。

一、汉语语声门激励信息的提取方法，该方法步骤如下：

步骤1.制定电声门图情感语音数据库规范；

在语音库的整个制作过程中的每一步都应该遵从特定的规范，包括发音人规范、录音脚本设计规范、录音规范、音频文件命名规范及实验记录规范等。具体涉及到的制作规范和含义如表1所示。

表1

发音人规范：选择20名发音人员，年龄20至30周岁，职业为学生，其中包括10名女性，10名男性；

实验用录音脚本的选择主要考虑以下3个方面：1)、所选择的语句必须不包含某一方面的情感倾向；2)、必须具有较高的情感自由度，对同一个语句能施加各种情感进行分析比较；3)、是口语化的陈述句；

根据上述原则，我们选择了如表2所示的20个短句作为录音脚本。

表2

为了便于录音人表达语音情感，我们设计了情景上下文来辅助录音人来诱发情感。录音脚本的情景上下文直接关系到录音者的情感表达，它的设计标准如下：

1)、情景上下文必须符合录音者自身的心理环境或情感经历；

2)、情景上下文必须有鲜明的情感语义，并且是常用的口语化语言；

3)、情景上下文不宜过长；

例如我们选出了某文本句子以及相关的情景上下文，如下表3所示。

表3

为了方便情感语音数据的组织和检索，对单个情感语音的重要特征有直观的描述，我们设计了情感语音文件的命名规则。情感语音文件和语音原始特征文件都必须按照命名规则进行命名，文件命名规则如下表4所示.文件名由9位字符组成，分成7部分。

表4

1)、情感类别：情感类别标识占据1个字符，由情感类型拼音的第一个小写字母组成，b：悲伤；f：愤怒；j：惊奇；k：恐惧；x：喜悦；y：厌恶；p：平静。

2)、录音人性别：语音信号随说话人的性别不同，声学特征有着明显的差异。性别标识占据1个字符，F：女性；M：男性。

3)、获取方式：情感语音获取方式的不同使得它们在研究中的作用不同，获取方式分为2种，0为录音法，1为剪辑法。

4)、语言类别：C为中文，E为英文，为以后的情感语音数据上作了准备。

5)、录音人编号：我们对录音人信息加以记录并编号，根据现有录音人规模，录音人标示占据2个数字，范围从01～99。

6)、录音文本编号：我们将情感语音文本记录下来，并加以编号，根据现有语音文本的规模，录音文本标识占据2个数字，范围从01～99。

7)、录音次数：标识了一个录音文本一类情感表达的次数，占据1个数字，范围为1～9。

步骤2.收集电声门图情感语音数据

首先，进行语音情感诱导。语音情感的真实度可以分为自然、半自然和模仿3个等级。我们采用了以下的诱发方法：

导演给定录音脚本和情感类别，录音者随意联想后录音；导演给录音者描述真实的脚本场景，然后录音；导演给出相应的录音脚本范例，录音者听后进行模仿发音录音。这几种方法依次进行，情感的真实度会相对越来越差。因此我们在录音中从上面第一种方法开始诱发，一旦能录制符合要求的情感语音，即结束此人的录音。如果失败则启用第二种方法，以此类推，尽可能录制到情感真实度高的语音。

其次，进行录制；具体包括如下步骤：

步骤3.电声门图情感语音主观评测

设计基于.NET平台的网络情感点评测系统，邀请10位以上评测者对按照随机顺序播放的电声门图情感语音进行评测，据评测结果，从全部语音集中选择4套语音子集，其中每套语音子集中的语音被至少有p％的人正确识别(p＝70，80，90和100)；

二、结合声门激励和声道调制信息的汉语情感建模方法，该方法步骤如下：

电声门图反映了声带的振动信息，但由于说话人的吞咽动作或说话时喉部肌肉动作会造成电极间的电阻发生改变，该变化也被电声门图仪记录下来，图2显示了男声“啊，你可真伟大呀”的电声门图和语音数据的波形图。

步骤1.1：对电声门图信号进行带通滤波，削弱肌肉运动对电声门图的干扰，然后对电声门图情感语音数据库中的电声门图和语音信号进行分帧处理，帧长256个采样点，帧移128个采样点；

步骤1.2：分别提取所有电声门图数据帧的对数能量E_egg和语音信号数据帧的对数能量E_speech。根据概率论中的大数定律，足够大量的无声段和有声段的能量均服从高斯分布，如图3所示。根据E_egg的统计结果设定阈值th₀，根据E_speech的统计结果设定th₁和th₂；

步骤2：提取浊音的声门激励信息；

步骤2.1：计算各浊音段持续时长的频数直方图，并对该频数直方图横纵坐标归一化之后取对数，以浊音段归一化对数持续时长为自变量，以持续时长的归一化对数频数为因变量，进行一元线性回归分析，得到浊音段持续时长频数的双对数分布参数，如图4所示；

步骤2.2：计算各浊音帧的基频，依照步骤2.1的方法分别计算基频曲线上升段和下降段的持续时长频数的双对数分布参数，如图5所示；

步骤3：提取浊音和清音的声道调制信息；

基频、能量、过零率、共振峰都属于传统的语音特征，其中能量和基频反应语音的低频韵律特性，过零率和共振峰反应高频信息。

频谱质心与频谱截止频率反映了语音信号的频率分布特性，均属于音质特征。首先对每帧数据进行快速Fourier变换：

F (k) = | | Σ_{i - 1}^{N} x (n) \times e^{- i 2 πk \frac{n}{N}} | | (k = 1,2, . . . N) - - - (1)

其中F(k)表示第k个频率点的幅值，x(n)表示输入语音信号，N为语音信号帧长(1024)。频谱质心F_cent定义为：

F_{cent} = (Σ_{k = 1}^{N / 2} k \times F (k)) / (Σ_{j = 1}^{N / 2} F (j)) - - - (2)

频谱截止频率F_cut是指某一频率点，满足：

(Σ_{k = 1}^{F_{cut}} F (k)) / (Σ_{j = 1}^{N / 2} F (j)) = 0.85 - - - (3)

Fisher准则是一种传统的线性判别方法，其基本原理是寻找特征空间的某个投影子空间，使得所有特征点在该子空间得到最好的分类。设样本集X＝{x₁，x₂，…，x_n}中共有n个样本，分C类，每个样本x_i均为L维列向量，定义类间离散度S_b和类内离散度S_w分别为：

S_{b} = \frac{1}{n} Σ_{j = 1}^{C} n_{j} (m_{j} - m) {(m_{j} - m)}^{T} - - - (4)

S_{w} = \frac{1}{n} Σ_{j = 1}^{C} \underset{x_{i} &Element; X_{j}}{Σ} (m_{i} - m_{j}) {(m_{i} - m_{j})}^{T} - - - (5)

其中x_j、n_j和m_j分别为第j类样本的子集、总个数和均值点，m为所有样本的均值点。

Fisher比率定义为：

F_r＝diag(S_b./S_w) (6)

其中符号“./”表示矩阵的对应元素分别相除，函数diag取矩阵对角线上的元素。F_r为L维列向量，其中每个元素反映了对应特征的二分类能力。

Claims

1.汉语声门激励信息的提取方法，其步骤如下：

步骤1：制定电声门图情感语音数据库规范；

步骤1.2：选择20句没有明显情感倾向的汉语普通话语句作为录音脚本，平均每句脚本包含6.95个汉字，最少3个字，最多12个字；

步骤1.3：文件名包含文件编号、情感类别、录音人性别、获取方式、语言类别、录音人编号、语音语句编号、录音语句次数标识信息；

步骤2：收集电声门图情感语音数据；

步骤2.2：记录说话者的个人信息及录音场地的温度、湿度环境参数，并请说话者以最高音量发音，调整声卡增益以及麦克风与说话者嘴部距离，保证语音波形和电声门图波形不会出现削顶；

步骤3：设计基于.NET平台的网络情感点评测系统，邀请10位评测者对按照随机顺序播放的电声门图情感语音进行评测，据评测结果，从全部语音集中选择4套语音子集，其中第1套语音子集中的语音被至少70%的评测者正确识别，第2套语音子集中的语音被至少80%的评测者正确识别，第3套语音子集中的语音被至少90%的评测者正确识别，第4套语音子集中的语音被100%的评测者正确识别。