CN109036466A - 面向情感语音识别的情感维度pad预测方法 - Google Patents
面向情感语音识别的情感维度pad预测方法 Download PDFInfo
- Publication number
- CN109036466A CN109036466A CN201810868027.0A CN201810868027A CN109036466A CN 109036466 A CN109036466 A CN 109036466A CN 201810868027 A CN201810868027 A CN 201810868027A CN 109036466 A CN109036466 A CN 109036466A
- Authority
- CN
- China
- Prior art keywords
- emotion
- dimension
- pad
- affective characteristics
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 105
- 230000002996 emotional effect Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000008909 emotion recognition Effects 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000000694 effects Effects 0.000 claims abstract description 15
- 230000009467 reduction Effects 0.000 claims abstract description 15
- 238000012360 testing method Methods 0.000 claims abstract description 12
- 238000010219 correlation analysis Methods 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000011160 research Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 11
- 238000012706 support-vector machine Methods 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000009825 accumulation Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000000739 chaotic effect Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000013210 evaluation model Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 abstract description 6
- 239000000843 powder Substances 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000000513 principal component analysis Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种情感维度预测技术领域,具体是一种面向情感语音识别的情感维度PAD预测方法。解决了现有情感特征仅从信号处理的角度识别情感,而忽略情感连续性的问题,包括以下步骤,采集数据,对情感语音数据库进行PAD维度值的标注,确定样本训练集与测试集;特征选择,对情感语音数据库提取情感特征;通过对训练集的情感特征与人工标注PAD进行GRA关联度分析选择关联性大的主要情感特征;对主要情感特征进行PCA降维,得到最优特征;PAD维度预测,利用LSSVM回归模型,基于选择后的情感特征实现对情感维度P、A、D的预测;PAD维度情感识别,采用从心理学角度描述情感的、客观预测的连续情感维度PAD进行语音情感识别。本发明具有预测效果好、识别精度高优点。
Description
技术领域
本发明涉及一种情感维度预测技术领域,具体是一种面向情感语音识别的情感维度PAD预测方法。
背景技术
语言是人类沟通最直接的方式,语言不仅可以传递文字信息,而且还包含情感信息,情感语音识别技术是情感识别的最有利工具,提取与情感关联的特征是情感语音识别技术的关键之一。
关于情感特征的研究不断发展,包含基于语言学的语音情感特征(包含词汇、句法等)和基于超语言学的语音情感特征(韵律学特征、音质特征、基于谱的相关特征、非线性特征、融合特征等),这些特征均在情感识别的领域得到了较广泛的应用,但以上特征是从信号处理的角度对情感进行分析研究,而情感的产生涉及到人的心理活动,采用从心理学角度描述的量进行情感识别更加可靠、准确。连续情感维度从心理学的角度将情感映射在维度空间,某种情感被定为于维度空间的一点,近年来,对情感维度特别是较成熟的PAD情感维度的研究得到了越来越广泛的关注。但目前关于PAD情感维度的研究主要是根据情感量表人工标注得到的PAD值,该方法受标注过程耗时长、主观性大等影响,限制了情感维度领域的研究发展,所以必须对情感维度P、A、D进行客观预测。
发明内容
本发明为了解决现有情感特征仅从信号处理的角度识别情感,而忽略情感连续性的问题,提供一种面向情感语音识别的情感维度PAD预测方法。
本发明采取以下技术方案:一种面向情感语音识别的情感维度PAD预测方法,包括以下步骤,
S100~采集数据,对情感语音数据库进行PAD维度值的标注,确定样本训练集与测试集;
S200~特征选择,对情感语音数据库提取情感特征;通过对训练集的情感特征与人工标注PAD进行GRA关联度分析选择关联性大的主要情感特征;对主要情感特征进行PCA降维,得到最优特征;
S300~PAD维度预测,利用LSSVM回归模型,基于选择后的情感特征实现对情感维度P、A、D的预测;
S400~PAD维度情感识别,采用从心理学角度描述情感的、客观预测的连续情感维度PAD进行语音情感识别。
所述的S100包括以下步骤,
S101~对情感语音数据库进行PAD维度值的标注,并根据数据特性规律,依据情感维度PAD数据是否服从正态分布对标注值进行有效性验证;
S102~确定样本训练集与测试集,将情感语音数据样本的2/3作为训练样本,情感语音数据样本的1/3作为测试样本。
所述的S200包括以下步骤,
S201~对情感语音数据库提取情感特征;从两个方面选择特征,针对语音信号的短时平稳特性提取声学特征,即MFCC特征和韵律特征,以及针对语音的混沌特性提取非线性特征,将它们融合后,得到121维的特征集。
S202~通过对训练集的情感特征与人工标注PAD进行GRA关联度分析选择关联性大的主要情感特征;计算步骤如下:
1)确定影响因素和研究对象,设研究对象为y0={y0(k)|k=1,2,…,n};影响因素为yi={yi(k)|i=1,2,…,m},研究对象为语音情感维度P、A、D,n为情感维度序列长度;影响因素为语音情感特征,m为情感特征维数。
2)原始数据的无量纲化,采用初值化法对原始数据进行处理,对yi作初值化处理得xi,xi即为情感语音特征初值化结果;
3)计算关联系数,对研究对象x0和影响因素x1,x2,…,xn采用式(2)计算关联系数;
式中ρ∈(0,1)是分辨系数,ξi(k)为第i维情感特征与情感维度的关联性;x0(k)为第k条语句的情感维度初值化结果;xi(k)为第k条语句第i维情感特征的初值化结果。
4)计算关联度,将关联系数集求平均得到关联度,公式如下:
式中γi即为情感特征对情感维度的关联度,γi越大,说明情感特征对情感维度的影响越大。
S203~对主要情感特征进行PCA降维,得到最优特征,其主要步骤如下:
对原始数据标准化处理。
建立原始样本矩阵:
式中X为原始样本矩阵,xij为第i条语句的第j维特征;n为情感维度序列长度;m为情感特征维数;
式中表示矩阵第j列的均值,即第j维特征的平均值;
为矩阵X中第j列的方差;x* ij为情感特征标准化后的数值。
计算样本经过标准化处理后的相关系数矩阵:
式中rij=cov(xi,xj),n>1为矩阵X中第i列特征方差与第j列特征方差的协方差;R为原始特征矩阵X的相关系数矩阵。
计算相关系数矩阵R的特征值λ1,λ2,…λm,和相应的特征向量ai=(ai1,ai2,…,aim),i=1,2,…,m;
根据情感特征对情感维度的累积贡献选择前p个因素,累积贡献率公式为:
式中λi为矩阵R的特征值;η为累积贡献率。前p个情感特征向量组成的降维矩阵U,U=[a1,a2,…,ap]。
将m维情感特征降维成p维情感特征,即X'=X·U,X'为降维后的特征矩阵。
所述S300包括以下步骤,
S301~确定回归模型及其参数;选择最小二乘支持向量机LSSVM算法建立回归模型;
设定样本集{xi,yi},i=1,2,…,n,其中,xi∈Rd表示输入量,yi∈R表示相应的输出量,n为样本集的大小,低维样本通过Φ(x)映射到高维特征空间H,构造最优决策函数y=ωTΦ(x)+b,ω是权向量,b是偏差,对于输入样本x,有|y-ωTΦ(x)-b|≤ei,故LSSVM的优化问题为:
式中,C为正则化参数;ei∈R为误差变量,用Lagrange法求解优化问题,转为以下线性问题:
式中,I=[1,1,…,1]T为n个1组成的向量,为n阶单位矩阵;y=[y1,y2,…,yn]T;K为核函数矩阵,K(xi,xj)=Φ(xi)TΦ(xj),i,j=1,2,…,n;α=[α1,α2,…,αn]T为lagrange乘子向量,最后得到LSSVM模型:
最终的映射关系如式9所示,x表示模型输入,y(x)表示模型输出,x代表情感语音特征,y(x)表示情感维度P、A、D值,LSSVM核函数的确定根据预测效果对其进行选择。
S302~验证预测效果;
使用平均绝对误差MAE和决定系数R2作为模型的评价指标,再引入Pearson相关系数r来评价模型预测值与实际测量值的变化趋势,其表达式分别为:
式中,
n为样本数,yi为实际测量值,为模型预测值。
所述S400包括以下步骤,关于情感特征的研究不断发展,主要是从信号处理的角度对语音进行特征提取,而情感的产生涉及到人的心理活动,是连续的、复杂多变的,情感维度从情感的心理学属性对情感进行描述,为情感识别研究展开了新的思路。将客观预测PAD应用于语音情感识别,即采用支持向量机SVM对语音情感进行识别,通过识别率的大小来比较客观预测PAD值与传统语音情感特征(韵律学特征、基于谱特征、音质特征)对情感的识别性能。支持向量机SVM的原理如下:
设语音情感识别的训练样本数据为:{xi,yi},xi∈R,i=1,2,…,n,xi为情感识别的特征向量,即PAD值;yi为情感的类别。SVM利用非线性映射Φ(x)将训练集映射到高维空间,使非线性问题线性化的最优分类面描述为
y=ωTΦ(x)+b (14)
式中ω为SVM的权值,b为SVM的偏向量。
为找到最优分类面,必须找到ω和b的最优值。为此引ξi入松弛变量对式(14)进行变换,得到二次优化问题:
式中C为惩罚参数。
通过引入拉格朗日乘子αi对式(15)进行变换,得到其对偶优化问题式,有
权向量ω=∑αiyiΦ(xi)·Φ(x);支持向量机的分类决策可以描述为
f(x)=sgn(αiyiΦ(xi)·Φ(x)+b) (17)
为了降低计算复杂度引入核函数k(x,xi),以k(x,xi)代替Φ(xi)·Φ(xj),采用通用性较好的径向基核函数RBF,则式(17)变换为
式中:σ为RBF的宽度参数。
通过SVM对训练样本的情感维度PAD与情感类别进行学习,建立情感识别的分类器,并对测试样本特征进行识别,由识别的准确率验证客观预测PAD区分情感的有效性。
与现有技术相比,本发明基于客观预测情感维度PAD的语音情感识别一方面实现了对语音情感维度P、A、D值的客观、准确预测;另一方面,实现了将连续情感维度应用于情感识别。本发明既充分利用了情感特征与情感维度P、A、D的相关性,又发挥了情感维度可以区分情感的特性。本发明具有操作方便、预测效果好、识别精度高等优点,是一种基于客观预测情感维度PAD的语音情感识别方法。
附图说明
图1为整体流程图;
图2为特征选择流程图;
图3为确定回归模型流程图;
图4为SVM对语音情感的识别流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施,并参照附图,对本发明进一步详细说明。
如图1所示,本发明的方法中主要由一下几大功能模块组成:采集数据、特征选择、PAD维度预测、PAD维度情感识别。下面具体介绍本发明方法方法的实现过程的各个模块。
S100~采集数据:
S101~对情感语音数据库进行PAD维度值的标注;
在现实生活中,人类的情感通常是连续的、复杂多变的,离散的情感分类并不能对情感进行细致、准确的描述,而维度空间理论可以表示复杂变化的情感,为人机交互的自然化发展提供研究基础。但由于情感维度的标注过程繁复、耗时太长、主观性大等原因,故提出对情感维度进行客观预测。为对预测提供实验基础,故对数据库的语音进行情感维度PAD值的分值标注,并根据数据特性规律,依据情感维度PAD数据是否服从正态分布对标注值进行有效性验证。
S102~确定样本训练集与测试集;
回归模型的合理训练可以提高回归精度,为验证回归模型的有效性,需要将回归模型进行训练并测试,将情感语音数据样本的2/3作为训练样本,情感语音数据样本的1/3作为测试样本。
S200~特征选择:
特征选择的具体过程如图2所示。
S201~对情感语音数据库提取情感特征;
情感特征的丰富性为情感维度的准确预测提供优势,故为对语音情感进行较完整的表征,并对PAD维度更精确地预测,从两个方面选择特征,针对语音信号的短时平稳特性提取声学特征,即MFCC特征(60维)和韵律特征(38维),以及针对语音的混沌特性提取非线性特征(23维)。将它们融合后,得到121维的特征集。如表1为具体的情感语音特征类别。
表1情感语音特征
S202~通过对训练集的情感特征与人工标注PAD进行GRA关联度分析选择关联性大的主要情感特征。
在构建回归模型时,输入变量过多会导致模型复杂,而且情感特征对情感维度的影响程度不尽相同,如果忽略影响的差异性,将难以得到理想的预测结果。灰色关联分析(Grey Relational Analysis,GRA)为该问题提供了解决思路,GRA是一种分析灰色系统中各因素间关联程度的方法,可以根据情感特征对情感维度的影响程度,选择影响程度较大的情感特征。
GRA根据各影响因素与研究对象之间的几何形状相似程度,判定影响因素对研究对象的贡献程度。计算步骤如下:
1)确定影响因素和研究对象。设研究对象为y0={y0(k)|k=1,2,…,n};影响因素为yi={yi(k)|i=1,2,…,m}。本文研究对象为语音情感维度P、A、D,n为情感维度序列长度;影响因素为语音情感特征,m为情感特征维数。
2)原始数据的无量纲化。为了保证研究对象与影响因素的可比性,本文采用初值化法对原始数据进行处理。对yi作初值化处理得xi,xi即为情感语音特征初值化结果。
3)计算关联系数。对研究对象x0和影响因素x1,x2,…,xn采用式(2)计算关联系数。
式中ρ∈(0,1)是分辨系数,ξi(k)为第i维情感特征与情感维度的关联性;x0(k)为第k条语句的情感维度初值化结果;xi(k)为第k条语句第i维情感特征的初值化结果。
4)计算关联度。将关联系数集求平均得到关联度,公式如下:
式中γi即为情感特征对情感维度的关联度,γi越大,说明情感特征对情感维度的影响越大。
(3)对主要情感特征进行PCA降维,得到最优特征;
GRA虽然降低了特征的冗余性,但无法消除影响因素之间的相关性,所以采用PCA(Principal Component Analysis)提取主成分作为LSSVM的输入变量,既避免了主观选择的不确定性,又可以增强模型的适应能力。
PCA将具有一定相关性的变量重新组合为一组相互无关的变量。其主要步骤如下:
对原始数据标准化处理,建立原始样本矩阵:
式中X为原始样本矩阵,xij为第i条语句的第j维特征;n为情感维度序列长度;m为情感特征维数;
式中表示矩阵第j列的均值,即第j维特征的平均值;
为矩阵X中第j列的方差;x* ij为情感特征标准化后的数值。
计算样本经过标准化处理后的相关系数矩阵。
式中rij=cov(xi,xj),n>1为矩阵X中第i列特征方差与第j列特征方差的协方差;R为原始特征矩阵X的相关系数矩阵。
计算相关系数矩阵R的特征值λ1,λ2,…λm,和相应的特征向量ai=(ai1,ai2,…,aim),i=1,2,…,m;
根据情感特征对情感维度的累积贡献选择前p个因素。累积贡献率公式为:
式中λi为矩阵R的特征值;η为累积贡献率。前p个情感特征向量组成的降维矩阵U,U=[a1,a2,…,ap]
将m维情感特征降维成p维情感特征,即X'=X·U,X'为降维后的特征矩阵。
S300~PAD维度预测:
确定回归模型的具体过程如图3所示。
S301~确定回归模型及其参数;
回归模型的选择与实验数据的特征有关,故针对一定的实验数据,回归模型的选择在一定程度上会决定预测效果,针对情感语音维度数据库的小样本及非线性特性,选择在解决小样本、非线性及高维模式识别中表现出许多特有的优势的最小二乘支持向量机(Least squares support vector machine,LSSVM)算法建立回归模型。
LSSVM算法将最小二乘线性理论引入到SVM,对SVM在应用中受参数影响较大的问题进行改进,降低了计算时长和复杂度。该算法通过在映射的高维空间寻求输入量与输出量之间的非线性关系,再反映射到原空间得到回归量。其基本原理是:
设定样本集{xi,yi},i=1,2,…,n,其中,xi∈Rd表示输入量,yi∈R表示相应的输出量,n为样本集的大小,低维样本通过Φ(x)映射到高维特征空间H,构造最优决策函数y=ωTΦ(x)+b,(ω是权向量,b是偏差),对于输入样本x,有|y-ωTΦ(x)-b|≤ei,故LSSVM的优化问题为
式中,C为正则化参数;ei∈R为误差变量。用Lagrange法求解优化问题,转为以下线性问题:
式中,I=[1,1,…,1]T为n个1组成的向量,为n阶单位矩阵;y=[y1,y2,…,yn]T;K为核函数矩阵,K(xi,xj)=Φ(xi)TΦ(xj),i,j=1,2,…,n;α=[α1,α2,…,αn]T为lagrange乘子向量。最后得到LSSVM模型:
最终的映射关系如式(9)所示,x表示模型输入,y(x)表示模型输出,在本文研究中,x代表情感语音特征,y(x)表示情感维度P、A、D值,LSSVM核函数的确定根据预测效果对其进行选择。
S302~验证预测效果;
为对预测效果进行评估,使用平均绝对误差MAE和决定系数R2作为模型的评价指标,再引入Pearson相关系数r来评价模型预测值与实际测量值的变化趋势,其表达式分别为:
式中,n为样本数,yi为实际测量值,为模型预测值。
S400~PAD维度情感识别:
关于情感特征的研究不断发展,主要是从信号处理的角度对语音进行特征提取,而情感的产生涉及到人的心理活动,是连续的、复杂多变的,情感维度从情感的心理学属性对情感进行描述,为情感识别研究展开了新的思路。
将客观预测PAD应用于语音情感识别,即采用支持向量机SVM对语音情感进行识别,通过识别率的大小来比较客观预测PAD值与传统语音情感特征(韵律学特征、基于谱特征、音质特征)对情感的识别性能。SVM对客观预测PAD的情感识别流程如图4,通过SVM对训练样本的情感维度PAD与情感类别进行学习,建立情感识别的分类器,并对测试样本特征进行识别,由识别的准确率验证客观预测PAD区分情感的有效性。
支持向量机SVM的原理如下:
设语音情感识别的训练样本数据为:{xi,yi},xi∈R,i=1,2,…,n,xi为情感识别的特征向量,即PAD值;yi为情感的类别。SVM利用非线性映射Φ(x)将训练集映射到高维空间,使非线性问题线性化的最优分类面描述为
y=ωTΦ(x)+b (14)
式中ω为SVM的权值,b为SVM的偏向量。
为找到最优分类面,必须找到ω和b的最优值。为此引ξi入松弛变量对式(14)进行变换,得到二次优化问题:
式中C为惩罚参数。
通过引入拉格朗日乘子αi对式(15)进行变换,得到其对偶优化问题式,有
权向量ω=∑αiyiΦ(xi)·Φ(x);支持向量机的分类决策可以描述为
f(x)=sgn(αiyiΦ(xi)·Φ(x)+b) (17)
为了降低计算复杂度引入核函数k(x,xi),以k(x,xi)代替Φ(xi)·Φ(xj),采用通用性较好的径向基核函数RBF,则式(17)变换为
式中:σ为RBF的宽度参数。
综上所述,本发明提出一种面向情感语音识别的情感维度PAD预测算法,该方法融合了两类特征选择的方法,该模型在实现情感维度PAD准确预测的同时,使预测的PAD维度应用于语音情感识别,弥补了现有情感特征的不足。本发明在语音情感识别中,强调对情感维度P、A、D值的预测效果,从而使得情感识别的结果更加准确。
Claims (5)
1.一种面向情感语音识别的情感维度PAD预测方法,其特征在于:包括以下步骤,
S100~采集数据,对情感语音数据库进行PAD维度值的标注,确定样本训练集与测试集;
S200~特征选择,对情感语音数据库提取情感特征;通过对训练集的情感特征与人工标注PAD进行GRA关联度分析选择关联性大的主要情感特征;对主要情感特征进行PCA降维,得到最优特征,
S300~PAD维度预测,利用LSSVM回归模型,基于选择后的情感特征实现对情感维度P、A、D的预测;
S400~PAD维度情感识别,采用从心理学角度描述情感的、客观预测的连续情感维度PAD进行语音情感识别。
2.根据权利要求1所述的面向情感语音识别的情感维度PAD预测方法,其特征在于:所述的S100包括以下步骤,
S101~对情感语音数据库进行PAD维度值的标注,并根据数据特性规律,依据情感维度PAD数据是否服从正态分布对标注值进行有效性验证;
S102~确定样本训练集与测试集;将情感语音数据样本的2/3作为训练样本,情感语音数据样本的1/3作为测试样本。
3.根据权利要求2所述的面向情感语音识别的情感维度PAD预测方法,其特征在于:所述的S200包括以下步骤,
S201~对情感语音数据库提取情感特征;从两个方面选择特征,针对语音信号的短时平稳特性提取声学特征,即MFCC特征和韵律特征,以及针对语音的混沌特性提取非线性特征,将它们融合后,得到121维的特征集;
S202~通过对训练集的情感特征与人工标注PAD进行GRA关联度分析选择关联性大的主要情感特征;计算步骤如下:
1)确定影响因素和研究对象,设研究对象为y0={y0(k)|k=1,2,…,n};影响因素为yi={yi(k)|i=1,2,…,m},研究对象为语音情感维度P、A、D,n为情感维度序列长度;影响因素为语音情感特征,m为情感特征维数;
2)原始数据的无量纲化,采用初值化法对原始数据进行处理,对yi作初值化处理得xi,xi即为情感语音特征初值化结果;
3)计算关联系数,对研究对象x0和影响因素x1,x2,…,xn采用式(2)计算关联系数;
式中ρ∈(0,1)是分辨系数,ξi(k)为第i维情感特征与情感维度的关联性;x0(k)为第k条语句的情感维度初值化结果;xi(k)为第k条语句第i维情感特征的初值化结果;
4)计算关联度,将关联系数集求平均得到关联度,公式如下:
式中γi即为情感特征对情感维度的关联度,γi越大,说明情感特征对情感维度的影响越大;
S203~对主要情感特征进行PCA降维,得到最优特征,其主要步骤如下:
对原始数据标准化处理,建立原始样本矩阵
式中X为原始样本矩阵,xij为第i条语句的第j维特征;n为情感维度序列长度;m为情感特征维数;
式中表示矩阵第j列的均值,即第j维特征的平均值;
为矩阵X中第j列的方差;x* ij为情感特征标准化后的数值;
计算样本经过标准化处理后的相关系数矩阵;
式中rij=cov(xi,xj),n>1为矩阵X中第i列特征方差与第j列特征方差的协方差;R为原始特征矩阵X的相关系数矩阵;
计算相关系数矩阵R的特征值λ1,λ2,…λm,和相应的特征向量ai=(ai1,ai2,…,aim),i=1,2,…,m;
根据情感特征对情感维度的累积贡献选择前p个因素,累积贡献率公式为:
式中λi为矩阵R的特征值;η为累积贡献率。前p个情感特征向量组成的降维矩阵U,U=[a1,a2,…,ap];
将m维情感特征降维成p维情感特征,即X'=X·U,X'为降维后的特征矩阵。
4.根据权利要求3所述的面向情感语音识别的情感维度PAD预测方法,其特征在于:所述S300包括以下步骤,
S301~确定回归模型及其参数;选择最小二乘支持向量机LSSVM算法建立回归模型;
设定样本集{xi,yi},i=1,2,…,n,其中,xi∈Rd表示输入量,yi∈R表示相应的输出量,n为样本集的大小,低维样本通过Φ(x)映射到高维特征空间H,构造最优决策函数y=ωTΦ(x)+b,ω是权向量,b是偏差,对于输入样本x,有|y-ωTΦ(x)-b|≤ei,故LSSVM的优化问题为:
式中,C为正则化参数;ei∈R为误差变量,用Lagrange法求解优化问题,转为以下线性问题:
式中,I=[1,1,…,1]T为n个1组成的向量,为n阶单位矩阵;
y=[y1,y2,…,yn]T;K为核函数矩阵,
K(xi,xj)=Φ(xi)TΦ(xj),i,j=1,2,…,n;α=[α1,α2,…,αn]T为lagrange乘子向量,最后得到LSSVM模型:
最终的映射关系如式9所示,x表示模型输入,y(x)表示模型输出,x代表情感语音特征,y(x)表示情感维度P、A、D值,LSSVM核函数的确定根据预测效果对其进行选择;
S302~验证预测效果;
使用平均绝对误差MAE和决定系数R2作为模型的评价指标,再引入Pearson相关系数r来评价模型预测值与实际测量值的变化趋势,其表达式分别为:
式中,
n为样本数,yi为实际测量值,为模型预测值。
5.根据权利要求4所述的面向情感语音识别的情感维度PAD预测方法,其特征在于:所述S400包括以下步骤,采用支持向量机SVM对语音情感进行识别,通过识别率的大小来比较客观预测PAD值与传统语音情感特征对情感的识别性能,
设语音情感识别的训练样本数据为:{xi,yi},xi∈R,i=1,2,…,n,xi为情感识别的特征向量,即PAD值;yi为情感的类别。SVM利用非线性映射Φ(x)将训练集映射到高维空间,使非线性问题线性化的最优分类面描述为:
y=ωTΦ(x)+b (14)
式中ω为SVM的权值,b为SVM的偏向量;
引ξi入松弛变量对式(14)进行变换,得到二次优化问题:
式中C为惩罚参数;
通过引入拉格朗日乘子αi对式(15)进行变换,得到其对偶优化问题式,有
权向量ω=∑αiyiΦ(xi)·Φ(x);支持向量机的分类决策可以描述为
f(x)=sgn(αiyiΦ(xi)·Φ(x)+b) (17)
引入核函数k(x,xi),以k(x,xi)代替Φ(xi)·Φ(xj),采用通用性较好的径向基核函数RBF,则式(17)变换为
式中:σ为RBF的宽度参数;
通过SVM对训练样本的情感维度PAD与情感类别进行学习,建立情感识别的分类器,并对测试样本特征进行识别,由识别的准确率验证客观预测PAD区分情感的有效性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810868027.0A CN109036466B (zh) | 2018-08-01 | 2018-08-01 | 面向情感语音识别的情感维度pad预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810868027.0A CN109036466B (zh) | 2018-08-01 | 2018-08-01 | 面向情感语音识别的情感维度pad预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109036466A true CN109036466A (zh) | 2018-12-18 |
CN109036466B CN109036466B (zh) | 2022-11-29 |
Family
ID=64648870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810868027.0A Active CN109036466B (zh) | 2018-08-01 | 2018-08-01 | 面向情感语音识别的情感维度pad预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109036466B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840274A (zh) * | 2018-12-28 | 2019-06-04 | 北京百度网讯科技有限公司 | 数据处理方法及装置、存储介质 |
CN111415680A (zh) * | 2020-03-26 | 2020-07-14 | 心图熵动科技(苏州)有限责任公司 | 一种基于语音的焦虑预测模型的生成方法和焦虑预测系统 |
CN111816212A (zh) * | 2020-06-19 | 2020-10-23 | 杭州电子科技大学 | 基于特征集融合的语音情感识别及评价方法 |
CN112263252A (zh) * | 2020-09-28 | 2021-01-26 | 贵州大学 | 基于hrv特征和三层svr的pad情绪维度预测方法 |
CN112907032A (zh) * | 2021-01-21 | 2021-06-04 | 中国人民解放军火箭军工程大学 | 一种基于效能的大型电磁弹射装置的评价方法 |
CN113436649A (zh) * | 2021-06-25 | 2021-09-24 | 武汉大晟极科技有限公司 | 一种语音情感标定辅助方法及系统 |
CN114403877A (zh) * | 2022-01-21 | 2022-04-29 | 中山大学 | 基于二维连续模型的多生理信号情绪定量评估方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001016570A1 (en) * | 1999-08-31 | 2001-03-08 | Accenture Llp | System, method, and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
US20100158238A1 (en) * | 2008-12-22 | 2010-06-24 | Oleg Saushkin | System for Routing Interactions Using Bio-Performance Attributes of Persons as Dynamic Input |
CN102893326A (zh) * | 2011-05-11 | 2013-01-23 | 北京航空航天大学 | 结合情感点的汉语语音情感提取及建模方法 |
CN103198827A (zh) * | 2013-03-26 | 2013-07-10 | 合肥工业大学 | 基于韵律特征参数和情感参数关联性的语音情感修正方法 |
WO2014005055A2 (en) * | 2012-06-29 | 2014-01-03 | Elwha Llc | Methods and systems for managing adaptation data |
CN103824562A (zh) * | 2014-02-10 | 2014-05-28 | 太原理工大学 | 基于心理声学模型的语音后置感知滤波器 |
CN106653000A (zh) * | 2016-11-16 | 2017-05-10 | 太原理工大学 | 一种基于语音信息的情感强度实验方法 |
CN107067182A (zh) * | 2017-04-27 | 2017-08-18 | 贵州大学 | 面向多维意象的产品设计方案评估方法 |
CN107633851A (zh) * | 2017-07-31 | 2018-01-26 | 中国科学院自动化研究所 | 基于情感维度预测的离散语音情感识别方法、装置及系统 |
-
2018
- 2018-08-01 CN CN201810868027.0A patent/CN109036466B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001016570A1 (en) * | 1999-08-31 | 2001-03-08 | Accenture Llp | System, method, and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
US20100158238A1 (en) * | 2008-12-22 | 2010-06-24 | Oleg Saushkin | System for Routing Interactions Using Bio-Performance Attributes of Persons as Dynamic Input |
CN102893326A (zh) * | 2011-05-11 | 2013-01-23 | 北京航空航天大学 | 结合情感点的汉语语音情感提取及建模方法 |
WO2014005055A2 (en) * | 2012-06-29 | 2014-01-03 | Elwha Llc | Methods and systems for managing adaptation data |
CN103198827A (zh) * | 2013-03-26 | 2013-07-10 | 合肥工业大学 | 基于韵律特征参数和情感参数关联性的语音情感修正方法 |
CN103824562A (zh) * | 2014-02-10 | 2014-05-28 | 太原理工大学 | 基于心理声学模型的语音后置感知滤波器 |
CN106653000A (zh) * | 2016-11-16 | 2017-05-10 | 太原理工大学 | 一种基于语音信息的情感强度实验方法 |
CN107067182A (zh) * | 2017-04-27 | 2017-08-18 | 贵州大学 | 面向多维意象的产品设计方案评估方法 |
CN107633851A (zh) * | 2017-07-31 | 2018-01-26 | 中国科学院自动化研究所 | 基于情感维度预测的离散语音情感识别方法、装置及系统 |
Non-Patent Citations (2)
Title |
---|
WEI ZHANG,等: "A New Fuzzy Cognitive Map Learning Algorithm for Speech Emotion Recognition", 《HINDAWI:MATHEMATICAL PROBLEMS IN ENGINEERING》 * |
宋静,等: "基于PAD情绪模型的情感语音识别", 《微电子学与计算机》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840274A (zh) * | 2018-12-28 | 2019-06-04 | 北京百度网讯科技有限公司 | 数据处理方法及装置、存储介质 |
CN111415680A (zh) * | 2020-03-26 | 2020-07-14 | 心图熵动科技(苏州)有限责任公司 | 一种基于语音的焦虑预测模型的生成方法和焦虑预测系统 |
CN111816212A (zh) * | 2020-06-19 | 2020-10-23 | 杭州电子科技大学 | 基于特征集融合的语音情感识别及评价方法 |
CN111816212B (zh) * | 2020-06-19 | 2022-10-11 | 杭州电子科技大学 | 基于特征集融合的语音情感识别及评价方法 |
CN112263252A (zh) * | 2020-09-28 | 2021-01-26 | 贵州大学 | 基于hrv特征和三层svr的pad情绪维度预测方法 |
CN112263252B (zh) * | 2020-09-28 | 2024-05-03 | 贵州大学 | 基于hrv特征和三层svr的pad情绪维度预测方法 |
CN112907032A (zh) * | 2021-01-21 | 2021-06-04 | 中国人民解放军火箭军工程大学 | 一种基于效能的大型电磁弹射装置的评价方法 |
CN112907032B (zh) * | 2021-01-21 | 2024-06-11 | 中国人民解放军火箭军工程大学 | 一种基于效能的大型电磁弹射装置的评价方法 |
CN113436649A (zh) * | 2021-06-25 | 2021-09-24 | 武汉大晟极科技有限公司 | 一种语音情感标定辅助方法及系统 |
CN114403877A (zh) * | 2022-01-21 | 2022-04-29 | 中山大学 | 基于二维连续模型的多生理信号情绪定量评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109036466B (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036466A (zh) | 面向情感语音识别的情感维度pad预测方法 | |
CN106250855B (zh) | 一种基于多核学习的多模态情感识别方法 | |
Dobrišek et al. | Towards efficient multi-modal emotion recognition | |
CN108363690A (zh) | 基于神经网络的对话语义意图预测方法及学习训练方法 | |
Gharavian et al. | Audio-visual emotion recognition using FCBF feature selection method and particle swarm optimization for fuzzy ARTMAP neural networks | |
CN112069484A (zh) | 基于多模态交互式的信息采集方法及系统 | |
JPWO2019102884A1 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN113822192A (zh) | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 | |
CN110909864A (zh) | 一种结合正则表达式和神经网络的自然语言任务处理方法和装置 | |
CN110580341A (zh) | 一种基于半监督学习模型的虚假评论检测方法及系统 | |
CN113705238B (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及系统 | |
CN110349597A (zh) | 一种语音检测方法及装置 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN115062104A (zh) | 融合知识提示的法律文本小样本命名实体识别方法 | |
CN110348919A (zh) | 物品推荐方法、装置和计算机可读存储介质 | |
CN109119069A (zh) | 特定人群识别方法、电子装置及计算机可读存储介质 | |
CN113111152A (zh) | 一种基于知识蒸馏和情绪集成模型的抑郁症检测方法 | |
CN117765981A (zh) | 一种基于语音文本跨模态融合的情感识别方法及系统 | |
Liu et al. | Time to transfer: Predicting and evaluating machine-human chatting handoff | |
CN116701996A (zh) | 基于多元损失函数的多模态情感分析方法、系统、设备及介质 | |
Shen et al. | A high-precision feature extraction network of fatigue speech from air traffic controller radiotelephony based on improved deep learning | |
CN116244474A (zh) | 一种基于多模态情感特征融合的学习者学习状态获取方法 | |
Liu | [Retracted] Feature Recognition of English Based on Deep Belief Neural Network and Big Data Analysis | |
Chen et al. | A bilevel framework for joint optimization of session compensation and classification for speaker identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |