CN103531198B

CN103531198B - 一种基于伪说话人聚类的语音情感特征规整化方法

Info

Publication number: CN103531198B
Application number: CN201310534319.8A
Authority: CN
Inventors: 黄程韦; 赵力; 魏昕; 王浩; 查诚; 余华
Original assignee: Southeast University
Current assignee: Nanjing Lingluniao Internet Of Things Technology Co ltd
Priority date: 2013-11-01
Filing date: 2013-11-01
Publication date: 2016-03-23
Anticipated expiration: 2033-11-01
Also published as: CN103531198A

Abstract

本发明公开了一种基于伪说话人聚类的语音情感特征规整化方法，适合应用于非特定说话人情感识别。本发明首先提取出能够反映说话人信息的特征空间；接着在此特征空间内进行模糊聚类，自动获得情感语料中的说话人的身份信息，据此信息进行“伪说话人”分组，每一条样本按照其相似程度划分到不同的伪说话人分组中；而后根据每条样本的伪说话人组别信息，进行情感特征的规整化；最终在规整化后的数据中加入相应组别的模糊隶属度信息。通过上述处理过程，使得情感特征空间中的样本分布更加清晰有效，降低了大量说话人带来的特征差异，增强了说话人鲁棒性。

Description

一种基于伪说话人聚类的语音情感特征规整化方法

技术领域

本发明涉及一种语音情感识别方法，特别涉及一种基于伪说话人聚类的语音情感特征规整化方法。

背景技术

语音情感识别技术的研究正在从以往的实验室条件转向真实世界中的实际应用。以往的情感识别研究往往是依据表演方式采集的语料库，其中的情感类别数量较少，大部分为基本情感类别，说话人的数量也相对较少。而在一些实际应用中，需要涉及到大量非特定说话人的情感语音，这就需要情感识别系统具有非特定说话人的鲁棒性。

以话务中心的语音数据处理为例，在银行、电信等大型服务行业领域，客户的满意度是一个重要的业务指标，因此在话务中心需要对客服通话进行录音，以便于分析和考核服务质量。然而对于大量的情感语音，很难进行人工听辨，通过自动识别的方式则可以快速的对录音数据进行筛选，识别出客户的情感信息。在这样的应用中，涉及到大量的非特定说话人，由于情感的个性化差异较大，会导致情感特征的复杂度增加，情感建模的困难加大，因此有必要研究非特定说话人的特征规整化技术。

很多规整化技术都可以用于提高一个识别系统的性能，在说话人识别、语种识别和自动语音识别中有很多的应用。在说话人识别技术中，倒谱均值减法(CepstralMeanSubtraction，CMS)经常用于镁尔倒谱系数，以降低信道方差。还有些研究者在说话人识别中考虑了情感因素的影响，并且提出了情感规整化技术来提高说话人识别系统的性能。

基于性别差异的规整化也是一类常见的降低说话人之间的特征差异的规整化技术，近年来不少文献将性别规整化用于语音情感识别系统中，获得了较好的性能提升效果。

Sethu等人较早的研究了语音情感识别系统中的说话人规整化问题，他们提出的特征规整化技术使得识别率平均提高了百分之六左右。然而他们的实验中涉及到的说话人数量较少，仅有七人。Vlasenko等人，在SUSAS情感语音库和柏林库上的实验中应用了说话人规整化技术(SpeakerNormalization，SN)。SN技术在柏林库上获得了百分之五的识别率提升。然而在很多实际场合中，说话人的身份是未知的，这就给SN技术的应用带来了困难。

发明内容

本发明的目的就在于针对上述现有特征规整化技术的缺陷，设计一种基于伪说话人聚类的情感特征规整化方法。本发明的技术方案是：

一种基于伪说话人聚类的语音情感特征规整化方法，其主要技术步骤为：

提取出能够反映说话人信息的特征空间；在此说话人特征空间内进行模糊聚类，自动获得情感语料中的说话人的身份信息；据此信息进行“伪说话人”分组，每一条样本按照其相似程度划分到不同的伪说话人分组中；根据每条样本的伪说话人组别信息，进行情感特征的规整化；在规整化后的数据中加入相应组别的模糊隶属度信息。通过这样的说话人聚类规整化处理，情感特征空间中的样本分布更加清晰有效，降低了大量说话人带来的特征差异，适合应用于非特定说话人情感识别。

(1)对说话人敏感的特征空间的提取：

(1-1)从情感语料中提取481个基本声学特征参数，这里构造的特征参数，是针对语音情感识别的，并不是为说话人识别设计的。在整个语料上的统计特征，适合于语音情感识别。

(1-2)提取的这些特征参数，会受到说话人因素的影响，说话人数量的增加，会使得情感特征中的方差增大。将这些原始的声学特征变换到一个对说话人敏感的特征空间中，将说话人因素的影响体现出来。通过PCA与LDA变换，使得每个说话人之间的可区分度最大化，得到说话人敏感的特征空间。

(2)说话人模糊聚类

(2-1)在得到的对说话人敏感的特征空间中，情感数据样本的分布反映出其受到说话人因素影响的大小，样本聚合之处为同样的说话人的数据，样本分离之处代表了不同的说话人的数据。同过模糊聚类算法，在特征空间内进行的情感样本自动聚类，获得说话人身份信息。通过聚类得到的说话人身份信息有一定的错误分类存在，是一种“伪说话人聚类”。

(2-2)在完成了说话人的聚类后，将每条语料的聚类组别作为说话人身份的标识号。

(3)伪说话人情感特征规整化

(3-1)进行伪说话人情感特征的规整化处理:

f_{u, v}^{'} = \frac{f_{u, v} (n) - \overset{&OverBar;}{f_{u, v}}}{\sqrt{\frac{1}{N_{u, v} - 1} Σ_{m - 1}^{N_{u, v}} {(f_{u, v} (m) - \overset{&OverBar;}{f_{u, v}})}^{2}}} - - - (1)

其中u表示第u个特征值，v代表说话人聚类的组别，N为同一个说话人的样本数量，则是给定说话人的数据样本的中心，由下式得到：

\overset{&OverBar;}{f_{u, v}} = \frac{1}{N_{u, v} - 1} Σ_{n = 1}^{N_{u, v}} f_{u, v} (n) - - - (2)

(3-2)在规整化后的样本的特征矢量中加入样本属于某个组别的模糊隶属度信息，对情感特征进行扩展。

本发明的优点和效果在于：

1.通过对特征样本的聚类，能够将无说话人标识的数据，自动划分为几个伪说话人组别，使得各组内部的样本具有高的说话人特征相似度。

2.通过基于伪说话人组别信息的情感特征的规整化算法，降低了大量非特定说话人带来的特征差异，增强了说话人鲁棒性。

3.在超过五十个说话人的大规模语音情感数据集上，进行了特征规整化和识别的实验，在非特定说话人测试方式下获得了高识别率。

本发明的其他优点和效果将在下面继续描述。

附图说明

图1——基于说话人模糊聚类的情感特征规整化算法流程图

图2——从情感特征中获得的说话人特征空间

图3——五十一个说话人的交叉验证的测试结果(特征规整化前)

图4——五十一个说话人的交叉验证的测试结果(特征规整化后)

图5——非特定说话人的测试结果(特征规整化前)

图6——非特定说话人的测试结果(特征规整化后)

图7——特征规整化前的情感样本分布

图8——特征规整化后的情感样本分布

具体实施方式

下面结合附图和实施例，对本发明所述的技术方案作进一步的阐述。

如图1所示，是语音情感特征的规整化系统框图，主要分为3大块：特征提取分析模块、特征空间变换模块、模糊聚类模块、特征规整化模块。此外，为了验证情感特征规整化效果，在基于高斯混合模型的识别器上进行效果验证。

一.情感特征的提取与构造

用于识别和建模的特征向量一般有两种构造方法，静态统计特征和短时动态特征。文本的变化会对情感特征有较大的影响。情感语音当中大致包含三种信息来源，说话人信息、语义信息和情感信息。在构造情感特征和选择特征的时候，不仅需要使得特征尽可能多的反映出情感信息，也就是随着情感的变化而发生明显的变化，而且还需要尽量保持特征不受到语义变化的影响。动态特征对音位信息的依赖性较强，为了建立与文本无关的情感识别系统，本发明中选用了静态统计特征:

1-6短时能量的均值、最大值、最小值、中值、范围和方差

7-12短时能量一阶差分的均值、最大值、最小值、中值、范围和方差

13-18短时能量二阶差分的均值、最大值、最小值、中值、范围和方差

19-24基音频率的均值、最大值、最小值、中值、范围和方差

25-30基音频率一阶差分的均值、最大值、最小值、中值、范围和方差

31-36基音频率二阶差分的均值、最大值、最小值、中值、范围和方差

37-42过零率的均值、最大值、最小值、中值、范围和方差

43-48过零率一阶差分的均值、最大值、最小值、中值、范围和方差

49-54过零率二阶差分的均值、最大值、最小值、中值、范围和方差

55语速

56-57基音频率一阶抖动、基音频率二阶抖动

58-610-250Hz频段能量占总能量的百分比、0-650Hz频段能量占总能量的百分比、4kHz以上能量占总能量的百分比、短时能量抖动

62-65发音帧数、不发音帧数、不发音帧数和发音帧数比、发音帧数和总帧数比

66-69发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总区域数之比

70-71最长发音时间、最长不发音时间

72-77谐波噪声比(HNR)的均值、最大值、最小值、中值、范围和方差

78-830-400Hz频段内谐波噪声比的均值、最大值、最小值、中值、范围和方差

84-89400-2000Hz频段内谐波噪声比的均值、最大值、最小值、中值、范围和方差

90-952000-5000Hz频段内谐波噪声比的均值、最大值、最小值、中值、范围和方差

96-101第一共振峰频率(F1)的均值、最大值、最小值、中值、范围和方差

102-107第二共振峰频率(F2)的均值、最大值、最小值、中值、范围和方差

108-113第三共振峰频率(F3)的均值、最大值、最小值、中值、范围和方差

114-119第四共振峰频率(F4)的均值、最大值、最小值、中值、范围和方差

120-125第一共振峰频率一阶差分的均值、最大值、最小值、中值、范围和方差

126-131第二共振峰频率一阶差分的均值、最大值、最小值、中值、范围和方差

132-137第三共振峰频率一阶差分的均值、最大值、最小值、中值、范围和方差

138-143第四共振峰频率一阶差分的均值、最大值、最小值、中值、范围和方差

144-149第一共振峰频率二阶差分的均值、最大值、最小值、中值、范围和方差

150-155第二共振峰频率二阶差分的均值、最大值、最小值、中值、范围和方差

156-161第三共振峰频率二阶差分的均值、最大值、最小值、中值、范围和方差

162-167第四共振峰频率二阶差分的均值、最大值、最小值、中值、范围和方差

168-171第一到第四共振峰频率的一阶抖动

172-175第一到第四共振峰频率的二阶抖动

176-181第一共振峰带宽的均值、最大值、最小值、中值、范围和方差

182-187第二共振峰带宽的均值、最大值、最小值、中值、范围和方差

188-193第三共振峰带宽的均值、最大值、最小值、中值、范围和方差

194-199第四共振峰带宽的均值、最大值、最小值、中值、范围和方差

200-205第一共振峰带宽一阶差分的均值、最大值、最小值、中值、范围和方差

206-211第二共振峰带宽一阶差分的均值、最大值、最小值、中值、范围和方差

212-217第三共振峰带宽一阶差分的均值、最大值、最小值、中值、范围和方差

218-223第四共振峰带宽一阶差分的均值、最大值、最小值、中值、范围和方差

224-229第一共振峰带宽二阶差分的均值、最大值、最小值、中值、范围和方差

230-235第二共振峰带宽二阶差分的均值、最大值、最小值、中值、范围和方差

236-241第三共振峰带宽二阶差分的均值、最大值、最小值、中值、范围和方差

242-247第四共振峰带宽二阶差分的均值、最大值、最小值、中值、范围和方差

248-3250-12阶镁尔倒谱参数(MFCC0-MFCC12)的均值、最大值、最小值、中值、范围和方差

326-4030-12阶镁尔倒谱参数一阶差分的均值、最大值、最小值、中值、范围和方差

404-4810-12阶镁尔倒谱参数二阶差分的均值、最大值、最小值、中值、范围和方差

二.特征空间的压缩变换

在原始的特征上通过PCA与LDA变换，使得每个说话人之间的可区分度最大化，我们可以得到说话人敏感的特征空间，如图2所示。在说话人特征空间中，情感数据样本的分布反映出其受到说话人因素影响的大小，样本聚合之处为同样的说话人的数据，样本分离之处代表了不同的说话人的数据。

三.模糊聚类算法

采用模糊说话人聚类的方法，以获得说话人聚类分组，以组别信息来代替规整化算法中的说话人身份。

聚类问题可以表示为一个非线性的优化问题：

\min J (W, P) = Σ_{t = 1}^{k} Σ_{j = 1}^{n} w_{i j} d^{2} (x_{j}, p_{i}) - - - (3)

s.t.W∈M_h

其中W是k-划分矩阵，w_ij是类别标号，P为k个聚类原型，M_h为硬划分空间。

P＝(p₁,p₂,…,p_k)^T∈R^kn(4)

样本与聚类原型之间的距离为，

d²(x_j,p_i)＝(x_j-p_i)A(x_j-p_i)^T(5)

在这里采用欧式距离，A为单位阵。硬划分空间可以表示为：

M_{h} = {W &Element; R^{k n} | w_{i j} &Element; {0, 1}, &ForAll; i, j; Σ_{i = 1}^{k} w_{i j} = 1; 0 < Σ_{j = 1}^{n} w_{i j} < n, &ForAll; i} - - - (6)

将隶属度函数从离散的变量(0，1)扩展到连续的值域范围[0,1]中，得到了一个模糊划分空间：

M_{f} = {W &Element; R^{k n} | w_{i j} &Element; [0, 1], &ForAll; i, j; Σ_{i = 1}^{k} w_{i j} = 1; 0 < Σ_{j = 1}^{n} w_{i j} < n, &ForAll; i} - - - (7)

由此可得，模糊K均值聚类问题可以表示为：

{minJ}_{α} (W, P) = Σ_{t = 1}^{k} Σ_{j = 1}^{n} {(w_{i j})}^{α} d^{2} (x_{j}, p_{i}) - - - (8)

s.t.W∈M_f

其中，α≥0，为平滑参数，通常在实验中设置为1到5之间。

四.情感特征的规整化

完成了说话人的聚类后，将每条语料的聚类组别代替说话人身份，在原始的481维特征空间中进行规整化处理：

f_{u, v}^{'} = \frac{f_{u, v} (n) - \overset{&OverBar;}{f_{u, v}}}{\sqrt{\frac{1}{N_{u, v} - 1} Σ_{m - 1}^{N_{u, v}} {(f_{u, v} (m) - \overset{&OverBar;}{f_{u, v}})}^{2}}} - - - (9)

\overset{&OverBar;}{f_{u, v}} = \frac{1}{N_{u, v} - 1} Σ_{n = 1}^{N_{u, v}} f_{u, v} (n) - - - (10)

五.基于高斯混合模型的识别器

高斯混合模型的基本定义可以通过(11)式定义：

p (X_{i} | λ) = Σ_{i = 1}^{M} a_{i} b_{i} (X_{i}) - - - (11)

这里X是语音样本的D维特征向量，t为其样本序号；b_i(X)，i＝1,2,...,M是成员密度；a_i，i＝1,2,...,M是混合权值。每个成员密度是一D维变量的关于均值矢量U_i和协方差矩阵Σ_i的高斯函数，形式如下：

b_{i} (X_{t}) = \frac{1}{{(2 π)}^{D / 2} | Σ_{i} |^{1 / 2}} \exp {- \frac{1}{2} {(X_{t} - U_{i})}^{'} Σ_{i}^{- 1} (X_{t} - U_{i})} - - - (12)

其中混合权值满足条件：

Σ_{i = 1}^{M} a_{i} = 1 - - - (13)

完整的高斯混和密度由所有成员密度的均值矢量、协方差矩阵和混合权值参数化。这些参数聚集一起表示为：

λ_i＝{a_i,U_i,Σ_i}，i＝1,2,...,M(14)

根据贝叶斯判决准则，基于GMM的情感识别可以通过最大后验概率来获得，

E m o t i o n L a b e l = \underset{k}{\arg \max} (p (X_{t} | λ_{k})) - - - (15)

其中k为情感类别序号。

六.规整化效果的对比评价

以往的情感数据库中所包含的说话人数量较少，既包含实用语音情感，又包含大量说话人的数据库更少。为了在大量的说话人中进行情感识别，实验数据集包括了51名说话人(其中28名为女性)，说话人的年龄段为二十至三十五岁之间。文本内容为无情感倾向性的短句。由于说话人的数量较大，因此数据中包含了更为丰富的情感表达模式，反映了不同说话人之间的性格差异、说话习惯等因素带来的情感变化。语音数据的录制环境为：采样频率为48kHz，16比特量化，单声道录制。

在本发明的实验中，进行了烦躁、中性、悲伤和喜悦四种情感类型的识别，每种情感2000条样本，总计8000条样本，来自51个不同的说话人。实验中将数据集随机分成十份，训练数据集与测试数据集比例为9：1，轮换测试后求取平均值做为识别测试的结果，实验结果如图3和图4所示。

为了验证非特定说话人的鲁棒性，进行了非特定说话人“留一法”(“Leave-one-speaker-out”)的测试，实验结果如图5和图6所示。训练中，将被测试的说话人的数据剔除，将其余数据用于训练。在测试时，被测试的说话人没有在训练集中出现过，以达到非特定说话人的测试目的。训练数据集与测试数据集比例大约为50：1。

从识别率实验的结果可以看到，采用本发明中的特征规整化算法之后，识别率有了明显的提高。在特征空间中的样本分布中还可以进一步看到本发明中算法的效果，图7和图8所示，为规整化前后的四种情感的样本分布。可以看到通过在说话人空间中聚类并规整化后，四种情感的可区分度得到了提高。

本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims

1.一种基于伪说话人聚类的语音情感特征规整化方法，其特征在于包括以下步骤：

步骤1，语音情感特征参数空间的提取；

步骤2，说话人模糊聚类；

步骤3，伪说话人情感特征规整化。

2.根据权利要求1所述的基于伪说话人聚类的语音情感特征规整化方法，其特征在于，所述步骤1具体包括以下步骤：

步骤1-1，从情感语料中提取481个基本声学特征参数，这里构造的特征参数，是针对语音情感识别的，并不是为说话人识别设计的,在整个语料上的统计特征，适合于语音情感识别；

步骤1-2，提取的这些特征参数，会受到说话人因素的影响，说话人数量的增加，会使得情感特征中的方差增大；将这些原始的声学特征变换到一个对说话人敏感的特征空间中，将说话人因素的影响体现出来；通过PCA与LDA变换，使得每个说话人之间的可区分度最大化，得到说话人敏感的特征空间。

3.根据权利要求1所述的基于伪说话人聚类的语音情感特征规整化方法，其特征在于，所述步骤2具体包括以下步骤：

步骤2-1，在得到的对说话人敏感的特征空间中，情感数据样本的分布反映出其受到说话人因素影响的大小，样本聚合之处为同样的说话人的数据，样本分离之处代表了不同的说话人的数据；通过模糊聚类算法，在特征空间内进行的情感样本自动聚类，获得说话人身份信息；通过聚类得到的说话人身份信息有一定的错误分类存在，是一种“伪说话人聚类”；

步骤2-2，在完成了说话人的聚类后，将每条语料的聚类组别作为说话人身份的标识号。

4.根据权利要求1所述的基于伪说话人聚类的语音情感特征规整化方法，其特征在于，所述步骤3具体包括以下步骤：

步骤3-1，按照下面公式(1)进行伪说话人情感特征的规整化处理：

f_{u, v}^{'} = \frac{f_{u, v} (n) - \overset{&OverBar;}{f_{u, v}}}{\sqrt{\frac{1}{N_{u, v}} Σ_{m = 1}^{N_{u, v}} {(f_{u, v} (m) - \overset{&OverBar;}{f_{u, v}})}^{2}}} - - - (1)

其中u表示第u个特征值，v代表说话人聚类的组别，N_u,v为同一个说话人的样本数量，f_u,v(n)为每个说话人的数据样本值，则是给定说话人的数据样本的中心，由下式(2)得到：

\overset{&OverBar;}{f_{u, v}} = \frac{1}{N_{u, v} - 1} Σ_{m = 1}^{N_{u, v}} f_{u, v} (n) - - - (2)

步骤3-2，在规整化后的样本的特征矢量中加入样本属于某个组别的模糊隶属度信息，对情感特征进行扩展。