CN109036466A

CN109036466A - 面向情感语音识别的情感维度pad预测方法

Info

Publication number: CN109036466A
Application number: CN201810868027.0A
Authority: CN
Inventors: 孙颖; 张雪英; 胡艳香; 王少玄; 李凤莲
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2018-12-18
Anticipated expiration: 2038-08-01
Also published as: CN109036466B

Abstract

本发明涉及一种情感维度预测技术领域，具体是一种面向情感语音识别的情感维度PAD预测方法。解决了现有情感特征仅从信号处理的角度识别情感，而忽略情感连续性的问题，包括以下步骤，采集数据，对情感语音数据库进行PAD维度值的标注，确定样本训练集与测试集；特征选择，对情感语音数据库提取情感特征；通过对训练集的情感特征与人工标注PAD进行GRA关联度分析选择关联性大的主要情感特征；对主要情感特征进行PCA降维，得到最优特征；PAD维度预测，利用LSSVM回归模型，基于选择后的情感特征实现对情感维度P、A、D的预测；PAD维度情感识别，采用从心理学角度描述情感的、客观预测的连续情感维度PAD进行语音情感识别。本发明具有预测效果好、识别精度高优点。

Description

面向情感语音识别的情感维度PAD预测方法

技术领域

本发明涉及一种情感维度预测技术领域，具体是一种面向情感语音识别的情感维度PAD预测方法。

背景技术

语言是人类沟通最直接的方式，语言不仅可以传递文字信息，而且还包含情感信息，情感语音识别技术是情感识别的最有利工具，提取与情感关联的特征是情感语音识别技术的关键之一。

关于情感特征的研究不断发展，包含基于语言学的语音情感特征(包含词汇、句法等)和基于超语言学的语音情感特征(韵律学特征、音质特征、基于谱的相关特征、非线性特征、融合特征等)，这些特征均在情感识别的领域得到了较广泛的应用，但以上特征是从信号处理的角度对情感进行分析研究，而情感的产生涉及到人的心理活动，采用从心理学角度描述的量进行情感识别更加可靠、准确。连续情感维度从心理学的角度将情感映射在维度空间，某种情感被定为于维度空间的一点，近年来，对情感维度特别是较成熟的PAD情感维度的研究得到了越来越广泛的关注。但目前关于PAD情感维度的研究主要是根据情感量表人工标注得到的PAD值，该方法受标注过程耗时长、主观性大等影响，限制了情感维度领域的研究发展，所以必须对情感维度P、A、D进行客观预测。

发明内容

本发明为了解决现有情感特征仅从信号处理的角度识别情感，而忽略情感连续性的问题，提供一种面向情感语音识别的情感维度PAD预测方法。

本发明采取以下技术方案：一种面向情感语音识别的情感维度PAD预测方法，包括以下步骤，

S100～采集数据，对情感语音数据库进行PAD维度值的标注，确定样本训练集与测试集；

S200～特征选择，对情感语音数据库提取情感特征；通过对训练集的情感特征与人工标注PAD进行GRA关联度分析选择关联性大的主要情感特征；对主要情感特征进行PCA降维，得到最优特征；

S300～PAD维度预测，利用LSSVM回归模型，基于选择后的情感特征实现对情感维度P、A、D的预测；

S400～PAD维度情感识别，采用从心理学角度描述情感的、客观预测的连续情感维度PAD进行语音情感识别。

所述的S100包括以下步骤，

S101～对情感语音数据库进行PAD维度值的标注，并根据数据特性规律，依据情感维度PAD数据是否服从正态分布对标注值进行有效性验证；

S102～确定样本训练集与测试集，将情感语音数据样本的2/3作为训练样本，情感语音数据样本的1/3作为测试样本。

所述的S200包括以下步骤，

S201～对情感语音数据库提取情感特征；从两个方面选择特征，针对语音信号的短时平稳特性提取声学特征，即MFCC特征和韵律特征，以及针对语音的混沌特性提取非线性特征，将它们融合后，得到121维的特征集。

S202～通过对训练集的情感特征与人工标注PAD进行GRA关联度分析选择关联性大的主要情感特征；计算步骤如下：

1)确定影响因素和研究对象，设研究对象为y₀＝{y₀(k)|k＝1,2,…,n}；影响因素为y_i＝{y_i(k)|i＝1,2,…,m}，研究对象为语音情感维度P、A、D，n为情感维度序列长度；影响因素为语音情感特征，m为情感特征维数。

2)原始数据的无量纲化，采用初值化法对原始数据进行处理，对y_i作初值化处理得x_i，x_i即为情感语音特征初值化结果；

3)计算关联系数，对研究对象x₀和影响因素x₁,x₂,…,x_n采用式(2)计算关联系数；

式中ρ∈(0,1)是分辨系数，ξ_i(k)为第i维情感特征与情感维度的关联性；x₀(k)为第k条语句的情感维度初值化结果；x_i(k)为第k条语句第i维情感特征的初值化结果。

4)计算关联度，将关联系数集求平均得到关联度，公式如下：

式中γ_i即为情感特征对情感维度的关联度，γ_i越大，说明情感特征对情感维度的影响越大。

S203～对主要情感特征进行PCA降维，得到最优特征，其主要步骤如下：

对原始数据标准化处理。

建立原始样本矩阵：

式中X为原始样本矩阵，xi_j为第i条语句的第j维特征；n为情感维度序列长度；m为情感特征维数；

式中表示矩阵第j列的均值，即第j维特征的平均值；

为矩阵X中第j列的方差；x^* _ij为情感特征标准化后的数值。

计算样本经过标准化处理后的相关系数矩阵：

式中r_ij＝cov(x_i,x_j),n＞1为矩阵X中第i列特征方差与第j列特征方差的协方差；R为原始特征矩阵X的相关系数矩阵。

计算相关系数矩阵R的特征值λ₁，λ₂，…λ_m，和相应的特征向量a_i＝(a_i1,a_i2,…,a_im),i＝1,2,…,m；

根据情感特征对情感维度的累积贡献选择前p个因素，累积贡献率公式为：

式中λ_i为矩阵R的特征值；η为累积贡献率。前p个情感特征向量组成的降维矩阵U,U＝[a₁,a₂,…,a_p]。

将m维情感特征降维成p维情感特征，即X'＝X·U,X'为降维后的特征矩阵。

所述S300包括以下步骤，

S301～确定回归模型及其参数；选择最小二乘支持向量机LSSVM算法建立回归模型；

设定样本集{x_i,y_i},i＝1,2,…,n，其中，x_i∈R^d表示输入量，y_i∈R表示相应的输出量，n为样本集的大小，低维样本通过Φ(x)映射到高维特征空间H,构造最优决策函数y＝ω^TΦ(x)+b，ω是权向量，b是偏差，对于输入样本x，有|y-ω^TΦ(x)-b|≤e_i，故LSSVM的优化问题为：

式中，C为正则化参数；e_i∈R为误差变量，用Lagrange法求解优化问题，转为以下线性问题：

式中，I＝[1,1,…,1]^T为n个1组成的向量，为n阶单位矩阵；y＝[y₁,y₂,…,y_n]^T；K为核函数矩阵，K(x_i,x_j)＝Φ(x_i)^TΦ(x_j),i,j＝1,2,…,n；α＝[α₁,α₂,…,α_n]^T为lagrange乘子向量，最后得到LSSVM模型:

最终的映射关系如式9所示，x表示模型输入，y(x)表示模型输出，x代表情感语音特征，y(x)表示情感维度P、A、D值，LSSVM核函数的确定根据预测效果对其进行选择。

S302～验证预测效果；

使用平均绝对误差MAE和决定系数R²作为模型的评价指标，再引入Pearson相关系数r来评价模型预测值与实际测量值的变化趋势，其表达式分别为：

式中，

n为样本数，y_i为实际测量值，为模型预测值。

所述S400包括以下步骤，关于情感特征的研究不断发展，主要是从信号处理的角度对语音进行特征提取，而情感的产生涉及到人的心理活动，是连续的、复杂多变的，情感维度从情感的心理学属性对情感进行描述，为情感识别研究展开了新的思路。将客观预测PAD应用于语音情感识别，即采用支持向量机SVM对语音情感进行识别，通过识别率的大小来比较客观预测PAD值与传统语音情感特征(韵律学特征、基于谱特征、音质特征)对情感的识别性能。支持向量机SVM的原理如下：

设语音情感识别的训练样本数据为：{x_i,y_i},x_i∈R,i＝1,2,…,n，x_i为情感识别的特征向量，即PAD值；y_i为情感的类别。SVM利用非线性映射Φ(x)将训练集映射到高维空间，使非线性问题线性化的最优分类面描述为

y＝ω^TΦ(x)+b (14)

式中ω为SVM的权值，b为SVM的偏向量。

为找到最优分类面，必须找到ω和b的最优值。为此引ξ_i入松弛变量对式(14)进行变换，得到二次优化问题：

式中C为惩罚参数。

通过引入拉格朗日乘子α_i对式(15)进行变换，得到其对偶优化问题式，有

权向量ω＝∑α_iy_iΦ(x_i)·Φ(x)；支持向量机的分类决策可以描述为

f(x)＝sgn(α_iy_iΦ(x_i)·Φ(x)+b) (17)

为了降低计算复杂度引入核函数k(x,x_i)，以k(x,x_i)代替Φ(x_i)·Φ(x_j)，采用通用性较好的径向基核函数RBF，则式(17)变换为

式中：σ为RBF的宽度参数。

通过SVM对训练样本的情感维度PAD与情感类别进行学习，建立情感识别的分类器，并对测试样本特征进行识别，由识别的准确率验证客观预测PAD区分情感的有效性。

与现有技术相比，本发明基于客观预测情感维度PAD的语音情感识别一方面实现了对语音情感维度P、A、D值的客观、准确预测；另一方面，实现了将连续情感维度应用于情感识别。本发明既充分利用了情感特征与情感维度P、A、D的相关性，又发挥了情感维度可以区分情感的特性。本发明具有操作方便、预测效果好、识别精度高等优点，是一种基于客观预测情感维度PAD的语音情感识别方法。

附图说明

图1为整体流程图；

图2为特征选择流程图；

图3为确定回归模型流程图；

图4为SVM对语音情感的识别流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施，并参照附图，对本发明进一步详细说明。

如图1所示，本发明的方法中主要由一下几大功能模块组成：采集数据、特征选择、PAD维度预测、PAD维度情感识别。下面具体介绍本发明方法方法的实现过程的各个模块。

S100～采集数据：

S101～对情感语音数据库进行PAD维度值的标注；

在现实生活中，人类的情感通常是连续的、复杂多变的，离散的情感分类并不能对情感进行细致、准确的描述，而维度空间理论可以表示复杂变化的情感，为人机交互的自然化发展提供研究基础。但由于情感维度的标注过程繁复、耗时太长、主观性大等原因，故提出对情感维度进行客观预测。为对预测提供实验基础，故对数据库的语音进行情感维度PAD值的分值标注，并根据数据特性规律，依据情感维度PAD数据是否服从正态分布对标注值进行有效性验证。

S102～确定样本训练集与测试集；

回归模型的合理训练可以提高回归精度，为验证回归模型的有效性，需要将回归模型进行训练并测试，将情感语音数据样本的2/3作为训练样本，情感语音数据样本的1/3作为测试样本。

S200～特征选择：

特征选择的具体过程如图2所示。

S201～对情感语音数据库提取情感特征；

情感特征的丰富性为情感维度的准确预测提供优势，故为对语音情感进行较完整的表征，并对PAD维度更精确地预测，从两个方面选择特征，针对语音信号的短时平稳特性提取声学特征，即MFCC特征(60维)和韵律特征(38维)，以及针对语音的混沌特性提取非线性特征(23维)。将它们融合后，得到121维的特征集。如表1为具体的情感语音特征类别。

表1情感语音特征

S202～通过对训练集的情感特征与人工标注PAD进行GRA关联度分析选择关联性大的主要情感特征。

在构建回归模型时，输入变量过多会导致模型复杂，而且情感特征对情感维度的影响程度不尽相同，如果忽略影响的差异性，将难以得到理想的预测结果。灰色关联分析(Grey Relational Analysis，GRA)为该问题提供了解决思路，GRA是一种分析灰色系统中各因素间关联程度的方法，可以根据情感特征对情感维度的影响程度，选择影响程度较大的情感特征。

GRA根据各影响因素与研究对象之间的几何形状相似程度，判定影响因素对研究对象的贡献程度。计算步骤如下：

1)确定影响因素和研究对象。设研究对象为y₀＝{y₀(k)|k＝1,2,…,n}；影响因素为y_i＝{y_i(k)|i＝1,2,…,m}。本文研究对象为语音情感维度P、A、D，n为情感维度序列长度；影响因素为语音情感特征，m为情感特征维数。

2)原始数据的无量纲化。为了保证研究对象与影响因素的可比性，本文采用初值化法对原始数据进行处理。对y_i作初值化处理得x_i，x_i即为情感语音特征初值化结果。

3)计算关联系数。对研究对象x₀和影响因素x₁,x₂,…,x_n采用式(2)计算关联系数。

4)计算关联度。将关联系数集求平均得到关联度，公式如下：

(3)对主要情感特征进行PCA降维，得到最优特征；

GRA虽然降低了特征的冗余性，但无法消除影响因素之间的相关性，所以采用PCA(Principal Component Analysis)提取主成分作为LSSVM的输入变量，既避免了主观选择的不确定性，又可以增强模型的适应能力。

PCA将具有一定相关性的变量重新组合为一组相互无关的变量。其主要步骤如下：

对原始数据标准化处理，建立原始样本矩阵：

式中表示矩阵第j列的均值，即第j维特征的平均值；

为矩阵X中第j列的方差；x^* _ij为情感特征标准化后的数值。

计算样本经过标准化处理后的相关系数矩阵。

根据情感特征对情感维度的累积贡献选择前p个因素。累积贡献率公式为：

式中λ_i为矩阵R的特征值；η为累积贡献率。前p个情感特征向量组成的降维矩阵U,U＝[a₁,a₂,…,a_p]

S300～PAD维度预测：

确定回归模型的具体过程如图3所示。

S301～确定回归模型及其参数；

回归模型的选择与实验数据的特征有关，故针对一定的实验数据，回归模型的选择在一定程度上会决定预测效果，针对情感语音维度数据库的小样本及非线性特性，选择在解决小样本、非线性及高维模式识别中表现出许多特有的优势的最小二乘支持向量机(Least squares support vector machine,LSSVM)算法建立回归模型。

LSSVM算法将最小二乘线性理论引入到SVM，对SVM在应用中受参数影响较大的问题进行改进，降低了计算时长和复杂度。该算法通过在映射的高维空间寻求输入量与输出量之间的非线性关系，再反映射到原空间得到回归量。其基本原理是：

设定样本集{x_i,y_i},i＝1,2,…,n，其中，x_i∈R^d表示输入量，y_i∈R表示相应的输出量，n为样本集的大小，低维样本通过Φ(x)映射到高维特征空间H,构造最优决策函数y＝ω^TΦ(x)+b，(ω是权向量，b是偏差)，对于输入样本x，有|y-ω^TΦ(x)-b|≤e_i，故LSSVM的优化问题为

式中，C为正则化参数；e_i∈R为误差变量。用Lagrange法求解优化问题，转为以下线性问题：

式中，I＝[1,1,…,1]^T为n个1组成的向量，为n阶单位矩阵；y＝[y₁,y₂,…,y_n]^T；K为核函数矩阵，K(x_i,x_j)＝Φ(x_i)^TΦ(x_j),i,j＝1,2,…,n；α＝[α₁,α₂,…,α_n]^T为lagrange乘子向量。最后得到LSSVM模型:

最终的映射关系如式(9)所示，x表示模型输入，y(x)表示模型输出，在本文研究中，x代表情感语音特征，y(x)表示情感维度P、A、D值，LSSVM核函数的确定根据预测效果对其进行选择。

S302～验证预测效果；

为对预测效果进行评估，使用平均绝对误差MAE和决定系数R²作为模型的评价指标，再引入Pearson相关系数r来评价模型预测值与实际测量值的变化趋势，其表达式分别为：

式中，n为样本数，y_i为实际测量值，为模型预测值。

S400～PAD维度情感识别：

关于情感特征的研究不断发展，主要是从信号处理的角度对语音进行特征提取，而情感的产生涉及到人的心理活动，是连续的、复杂多变的，情感维度从情感的心理学属性对情感进行描述，为情感识别研究展开了新的思路。

将客观预测PAD应用于语音情感识别，即采用支持向量机SVM对语音情感进行识别，通过识别率的大小来比较客观预测PAD值与传统语音情感特征(韵律学特征、基于谱特征、音质特征)对情感的识别性能。SVM对客观预测PAD的情感识别流程如图4，通过SVM对训练样本的情感维度PAD与情感类别进行学习，建立情感识别的分类器，并对测试样本特征进行识别，由识别的准确率验证客观预测PAD区分情感的有效性。

支持向量机SVM的原理如下：

y＝ω^TΦ(x)+b (14)

式中ω为SVM的权值，b为SVM的偏向量。

式中C为惩罚参数。

f(x)＝sgn(α_iy_iΦ(x_i)·Φ(x)+b) (17)

式中：σ为RBF的宽度参数。

综上所述，本发明提出一种面向情感语音识别的情感维度PAD预测算法，该方法融合了两类特征选择的方法，该模型在实现情感维度PAD准确预测的同时，使预测的PAD维度应用于语音情感识别，弥补了现有情感特征的不足。本发明在语音情感识别中，强调对情感维度P、A、D值的预测效果，从而使得情感识别的结果更加准确。

Claims

1.一种面向情感语音识别的情感维度PAD预测方法，其特征在于：包括以下步骤，

S200～特征选择，对情感语音数据库提取情感特征；通过对训练集的情感特征与人工标注PAD进行GRA关联度分析选择关联性大的主要情感特征；对主要情感特征进行PCA降维，得到最优特征，

2.根据权利要求1所述的面向情感语音识别的情感维度PAD预测方法，其特征在于：所述的S100包括以下步骤，

S102～确定样本训练集与测试集；将情感语音数据样本的2/3作为训练样本，情感语音数据样本的1/3作为测试样本。

3.根据权利要求2所述的面向情感语音识别的情感维度PAD预测方法，其特征在于：所述的S200包括以下步骤，

S201～对情感语音数据库提取情感特征；从两个方面选择特征，针对语音信号的短时平稳特性提取声学特征，即MFCC特征和韵律特征，以及针对语音的混沌特性提取非线性特征，将它们融合后，得到121维的特征集；

1)确定影响因素和研究对象，设研究对象为y₀＝{y₀(k)|k＝1,2,…,n}；影响因素为y_i＝{y_i(k)|i＝1,2,…,m}，研究对象为语音情感维度P、A、D，n为情感维度序列长度；影响因素为语音情感特征，m为情感特征维数；

式中ρ∈(0,1)是分辨系数，ξ_i(k)为第i维情感特征与情感维度的关联性；x₀(k)为第k条语句的情感维度初值化结果；x_i(k)为第k条语句第i维情感特征的初值化结果；

式中γ_i即为情感特征对情感维度的关联度，γ_i越大，说明情感特征对情感维度的影响越大；

对原始数据标准化处理，建立原始样本矩阵

式中表示矩阵第j列的均值，即第j维特征的平均值；

为矩阵X中第j列的方差；x^* _ij为情感特征标准化后的数值；

计算样本经过标准化处理后的相关系数矩阵；

式中r_ij＝cov(x_i,x_j),n＞1为矩阵X中第i列特征方差与第j列特征方差的协方差；R为原始特征矩阵X的相关系数矩阵；

式中λ_i为矩阵R的特征值；η为累积贡献率。前p个情感特征向量组成的降维矩阵U,U＝[a₁,a₂,…,a_p]；

4.根据权利要求3所述的面向情感语音识别的情感维度PAD预测方法，其特征在于：所述S300包括以下步骤，

式中，I＝[1,1,…,1]^T为n个1组成的向量，为n阶单位矩阵；

y＝[y₁,y₂,…,y_n]^T；K为核函数矩阵，

K(x_i,x_j)＝Φ(x_i)^TΦ(x_j),i,j＝1,2,…,n；α＝[α₁,α₂,…,α_n]^T为lagrange乘子向量，最后得到LSSVM模型:

最终的映射关系如式9所示，x表示模型输入，y(x)表示模型输出，x代表情感语音特征，y(x)表示情感维度P、A、D值，LSSVM核函数的确定根据预测效果对其进行选择；

S302～验证预测效果；

式中，

n为样本数，y_i为实际测量值，为模型预测值。

5.根据权利要求4所述的面向情感语音识别的情感维度PAD预测方法，其特征在于：所述S400包括以下步骤，采用支持向量机SVM对语音情感进行识别，通过识别率的大小来比较客观预测PAD值与传统语音情感特征对情感的识别性能，

设语音情感识别的训练样本数据为：{x_i,y_i},x_i∈R,i＝1,2,…,n，x_i为情感识别的特征向量，即PAD值；y_i为情感的类别。SVM利用非线性映射Φ(x)将训练集映射到高维空间，使非线性问题线性化的最优分类面描述为：

y＝ω^TΦ(x)+b (14)

式中ω为SVM的权值，b为SVM的偏向量；

引ξ_i入松弛变量对式(14)进行变换，得到二次优化问题：

式中C为惩罚参数；

f(x)＝sgn(α_iy_iΦ(x_i)·Φ(x)+b) (17)

引入核函数k(x,x_i)，以k(x,x_i)代替Φ(x_i)·Φ(x_j)，采用通用性较好的径向基核函数RBF，则式(17)变换为

式中：σ为RBF的宽度参数；