CN105070300A - 一种基于说话人标准化变换的语音情感特征选择方法 - Google Patents

一种基于说话人标准化变换的语音情感特征选择方法 Download PDF

Info

Publication number
CN105070300A
CN105070300A CN201510494162.XA CN201510494162A CN105070300A CN 105070300 A CN105070300 A CN 105070300A CN 201510494162 A CN201510494162 A CN 201510494162A CN 105070300 A CN105070300 A CN 105070300A
Authority
CN
China
Prior art keywords
frame
prime
speech
speaker
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510494162.XA
Other languages
English (en)
Inventor
黄永明
吴奥
章国宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201510494162.XA priority Critical patent/CN105070300A/zh
Publication of CN105070300A publication Critical patent/CN105070300A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于说话人标准化变换的语音情感特征选择方法,包括语音片段轨迹模型建立,说话人标准化,语音表达因素与特征表现相关性的量化以及语音情感选择。该方法在建立轨迹模型的基础上量化语音表达因素与特征表现相关性,从而选择语音情感特征。本发明通过构建针对情感分类问题的语音轨迹模型,量化语音表达中各个因素与特征表现相关性,利用说话人标准化方法,降低了说话人身份、语音内容等无关信息对于语音特征表现的影响,选择出含有较多情感信息的语音特征,同时具有较低的计算复杂度。

Description

一种基于说话人标准化变换的语音情感特征选择方法
技术领域
本发明涉及一种语音情感特征选择方法,尤其涉及一种基于语音轨迹模型的语音情感特征选择方法,属于语音情感识别技术领域。
背景技术
随着信息技术的快速发展和各种智能终端的兴起,现有的人机交互系统正面临日益严峻的考验。为了克服人机交互的障碍,使人机交互更为方便、自然,机器的情感智能正日益受到各领域研究者的重视。语音作为现今人机交互中极具发展潜力的高效交互媒介,携带着丰富的情感信息。语音情感识别作为情感智能的重要研究课题,在远程教学、辅助测谎、自动远程电话服务中心以及临床医学,智能玩具,智能手机等方面有着广阔的应用前景,吸引了越来越多研究机构与研究学者的广泛关注。
为了提高语音情感识别的精度和鲁棒性,提取充分反映说话人情感状态的语音情感特征至关重要。从原始语音数据中提取有效的情感信息,剔除情感无关的说话人身份信息等冗余信息是提高语音情感识别系统鲁棒性的重点和难点。
作为一种新兴的语音分析技术,语音片段轨迹模型因其在语音信号处理中的灵活性和有效性,越来越得到研究者的广泛重视。对于分类问题,建立语音片段轨迹模型,量化语音表达因素与特征表现的相关性,进而对语音中说话人进行标准化,降低了说话人身份、语音内容等无关信息对于语音特征表现的影响,选择出含有较多情感信息的语音特征。这种基于语音表达因素与特征表现的相关性特征提取思想和方法在语音情感识别研究中具有重要的意义。
发明内容
技术问题:本发明提供一种能够提高语音情感识别的鲁棒性,降低了说话人身份、语音内容等无关信息对于语音特征表现的影响,可以选择出含有较多情感信息语音特征的基于说话人标准化变换的语音情感特征选择方法。
技术方案:本发明的基于说话人标准化变换的语音情感特征选择方法,包括以下步骤:
步骤1:对情感语音片段数字化后的数字语音信号X进行预处理,得到有效语音帧集合,对所述有效语音帧集合中每个语音片段X′提取一个D维的特征A,得到一个特征矩阵C:
C = c 1 , 1 ... c 1 , t ... c 1 , D c 2 , 1 ... c 2 , t ... c 2 , D ... ... ... ... ... c m , 1 ... c m , t ... c m , D ... ... ... ... ... c K , 1 ... c K , t ... c K , D = C 1 ... C t ... C D - - - ( 1 )
其中,K为有效语音帧帧长,A表示语音片段提取的特征,D表示特征A的维数,cm,t表示特征矩阵中一个元素,Ct表示特征矩阵中一个列向量,其中t为特征矩阵中列标,t=1,2,...,D,m为特征矩阵中行标,m=1,2,...,K;
步骤2:把所述特征矩阵C转换为一个轨迹模型方程:C=ZB+E,其中B表示轨迹参数矩阵,E表示残差向量矩阵,Z表示负责将语音片段的时间度量归一化的设计矩阵;
然后构建行数为K,列数为轨迹模型展开阶次J加1的设计矩阵Z,其中元素v为设计矩阵行标,j为设计矩阵列标,v=1,2,...,K,j=1,2,...,J+1;
步骤3:对每个语音片段,利用最大似然估计来计算轨迹参数矩阵Bq
Bq=(Z′qZq)-1Z′qCq(2)
其中,q为语音片段编号,Zq,Cq分别为第q个语音片段的设计矩阵和特征矩阵,Z′q为Zq的转置矩阵;
然后计算每个语音片段的残差协方差矩阵∑q
Σ q = E q ′ E q K q = ( C q - Z q B q ) ′ ( C q - Z q B q ) K q - - - ( 3 )
Kq是第q个语音片段的帧数;
步骤4:对说话人进行标准化:
选取语音库中发音最标准的说话人作为参考标准,其语音片段Xref的声学特征用轨迹模型表示为{Bref,∑ref,K},需要标准化的其他说话人语音片段,即需要变换的语音片段Xi的声学特征用轨迹模型表示为{Bi,∑i,K},其中Bref表示参考语音片段Xref的平均轨迹向量,∑ref表示参考语音片段Xref的残差协方差矩阵,Bi表示需要变换语音片段Xi的平均轨迹向量,∑i表示参考语音片段Xi的残差协方差矩阵;
首先根据下式进行白化转换:
X w = D i - 1 2 V i ′ ( X i - B i ) - - - ( 4 )
其中,Vi,Di分别为∑i对应的特征向量矩阵和特征值矩阵,是白化变换,Xw表示白化变换后的数据,即Xi解相关数据;
然后根据下式进行说话人标准化:
X n = V r e f D r e f 1 2 X w + B r e f - - - ( 5 )
Xn表示Xi利用参考语音片段Xref标准化后的数据,Vref,Dref分别表示∑ref对应的特征向量矩阵和特征值矩阵;
步骤5:计算各个影响语音表达的因素在语音表达中与声学特征的相关性,包括:标准化后情感因素与声学特征的相关性、标准化后说话人因素与声学特征的相关性;
步骤6:相关性比较:将所有声学特征中,与情感因素的相关性大于与标准化后的说话人因素相关性的特征作为语音情感识别特征。
进一步的,本发明方法中,所述步骤1中的预处理包括如下步骤:
步骤1.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号
X ‾ ( n ‾ ) = X ( n ‾ ) - 0.9375 X ( n ‾ - 1 ) , 0 ≤ n ‾ ≤ N ‾ - 1
其中表示数字语音信号X的离散点序号,为数字语音信号X的长度,分别表示数字语音信号X在第个离散点上的值,表示预加重后的语音信号在第个离散点上的值,X(-1)=0;
步骤1.2:采用交叠分段的方法对预加重后的语音信号进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点,经过分帧得到语音帧集合
x ‾ k , ( n ) = X ‾ ( n + 128 ( k ′ - 1 ) ) , 0 ≤ n ≤ 255 , 1 ≤ k ′ ≤ K ′
其中为语音帧集合中的第k′个语音帧,n表示语音帧离散点序号,k′为语音帧序号,K′为语音帧总帧数,且满足:
表示向下取整;
步骤1.3:对各语音帧1≤k′≤K′,选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk′为:
x k ′ ( n ) = x ‾ k ′ ( n ) w ( n ) , 0 ≤ n ≤ 255 , 1 ≤ k ′ ≤ K ′
其中xk′(n)、w(n)分别表示xk′w在第n个离散点上的值,窗口长度为256点的汉明窗函数为:
w ( n ) = 0.54 - 0.46 c o s ( 2 π n 255 ) , 0 ≤ n ≤ 255
步骤1.4:对各加窗语音帧xk′,1≤k′≤K′,计算短时能量Ek′和短时过零率Zk′
E k ′ = Σ n = 0 255 x k ′ 2 ( n ) , 1 ≤ k ′ ≤ K ′
Z k ′ = 1 2 Σ n = 1 255 | sgn [ x k ′ ( n ) ] - sgn [ x k ′ ( n - 1 ) ] |
其中Ek′表示加窗语音帧xk′的短时能量,Zk′表示xk′的短时过零率,xk′(n)为加窗语音帧xk′在第n个采样点上的值,xk′(n-1)为xk′在第n-1个采样点上的值,sgn[xk′(n)]、sgn[xk′(n-1)]分别为xk′(n)、xk′(n-1)的符号函数,即:
sgn &lsqb; x &rsqb; = 1 , x &GreaterEqual; 0 - 1 , x < 0
步骤1.5:确定短时能量阈值tE和短时过零率阈值tZ
t E = 1 K &prime; &Sigma; k &prime; = 1 K &prime; E k &prime;
t Z = 0.1 K &prime; &Sigma; k &prime; = 1 K &prime; Z k &prime;
其中K′为语音帧总帧数;
步骤1.6:对各加窗语音帧,首先用短时能量作第一级判别,将短时能量值大于阈值tE的加窗语音帧标记为一级判别有效语音帧,将帧序号最小的一级判别有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的一级判别有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即对当前有效语音帧集合,以起始帧为起点,按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值tZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值tZ的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。
进一步的,本发明方法中,所述步骤5中的标准化后情感因素与声学特征的相关性根据下式计算:
R M ( A ; E ) = t r ( &Sigma; A ) - &Sigma; f &Element; F P ( f e ) t r ( &Sigma; A | f e ) - - - ( 6 )
其中∑A为上述标准化后的数据Xn的残差协方差矩阵;
其中E表示影响语音情感表达中的情感因素的集合,fe为影响语音情感表达中的情感因素,即集合E中的元素,tr(·)表示某个矩阵的迹,P(fe)表示对应情感的语音样本在语音库中出现的概率,tr(∑A|fe)表示对应情感的语音样本中声学特征A的总的变化性;
所述标准化后说话人因素与声学特征的相关性根据下式计算:
R M ( A ; S p ) = t r ( &Sigma; A ) - &Sigma; f &Element; F P ( f S p ) t r ( &Sigma; A | f S p ) - - - ( 7 )
其中Sp表示影响语音情感表达中的中的说话人因素的集合,fSp为影响语音情感表达中的说话人因素,即集合Sp中的元素,有F={E,Sp},F为影响语音情感表达中的因素的集合,P(fSp)表示对应说话人的语音样本在语音库中出现的概率,tr(∑A|fSp)表示对应说话人的语音样本中声学特征A的总的变化性。
本发明能够利用语音片段轨迹模型,量化语音表达因素与特征表现的相关性,利用说话人标准化方法,降低了说话人身份、语音内容等无关信息对于语音特征表现的影响,选择出含有较多情感信息的语音特征。
有益效果:本发明与现有技术相比,具有以下优点:
建立轨迹模型方程,实质上是利用具体的函数曲线来拟合声学特征实时变化的曲线,得到轨迹模型参数{B,∑,K},可以简单明了地表示出声学特征的固有的特性,在后续的说话人语音标准化以及计算情感因素与声学特征的相关性的计算中使用表征声学特征的轨迹模型参数,可以显著地降低运算的复杂度。与其他语音特征提取要求语音片段持续时间固定的方法相比,利用轨迹模型方程可以对持续时间变化的语音片段进行处理,然后通过设计矩阵将语音片段的时间度量归一化,简少了特征选择的计算量并且充分保留了特征信息。
本发明在进行特征选择之前,先进行说话人标准化变换,选择标准参考说话人语音片段,将其他语音片段参数映射至标准参考说话人语音片段,可以显著地降低了说话人因素与语音表达特征的相关性,降低了说话人身份信息对于语音特征表现的影响,剔除原始语音信号中与情感类别相关性较弱的冗余信息,有助于提高语音情感识别的鲁棒性。用二次轨迹模型参数来表示语音特征,将语音中说话人标准化处理转化为对轨迹模型参数处理,降低了实验数据以及计算的复杂度,提高了特征选择的效率。
附图说明
图1为本发明的语音情感特征选择流程图。
图2为本发明的轨迹参数模型建立与特征相关性计算选择流程图。
图3为本发明说话人标准化流程图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
本发明的基于说话人标准化变换的语音情感特征提取方法,包括以下步骤:
步骤1:对情感语音片段进行预处理,并提取特征矩阵C;具体包括:
步骤1.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号
X &OverBar; ( n &OverBar; ) = X ( n &OverBar; ) - 0.9375 X ( n &OverBar; - 1 ) , 0 &le; n &OverBar; &le; N &OverBar; - 1 - - - ( 1 )
其中表示数字语音信号X的离散点序号,为数字语音信号X的长度,分别表示数字语音信号X在第个离散点上的值,表示预加重后的语音信号在第个离散点上的值,X(-1)=0;
步骤1.2:采用交叠分段的方法对预加重后的语音信号进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点,经过分帧得到语音帧集合
x &OverBar; k , ( n ) = X &OverBar; ( n + 128 ( k &prime; - 1 ) ) , 0 &le; n &le; 255 , 1 &le; k &prime; &le; K &prime; - - - ( 2 )
其中为语音帧集合中的第k′个语音帧,n表示语音帧离散点序号,k′为语音帧序号,K′为语音帧总帧数,且满足:
表示向下取整;
步骤1.3:对各语音帧1≤k′≤K′,选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk′,加窗语音帧xk′为:
x k &prime; ( n ) = x &OverBar; k &prime; ( n ) w ( n ) , 0 &le; n &le; 255 , 1 &le; k &prime; &le; K &prime; - - - ( 4 )
其中xk′(n)、w(n)分别表示xk′w在第n个离散点上的值,窗口长度为256点的汉明窗函数为:
w ( n ) = 0.54 - 0.46 c o s ( 2 &pi; n 255 ) , 0 &le; n &le; 255 - - - ( 5 )
步骤1.4:采用公知的能量过零率双门限判决法完成端点检测,具体步骤如下:
步骤1.4.1:对各加窗语音帧xk′,1≤k′≤K′,计算短时能量Ek′和短时过零率Zk′
E k &prime; = &Sigma; n = 0 255 x k &prime; 2 ( n ) , 1 &le; k &prime; &le; K &prime; - - - ( 6 )
Z k &prime; = 1 2 &Sigma; n = 1 255 | sgn &lsqb; x k &prime; ( n ) &rsqb; - sgn &lsqb; x k &prime; ( n - 1 ) &rsqb; | - - - ( 7 )
其中Ek′表示加窗语音帧xk′的短时能量,Zk′表示xk′的短时过零率,xk′(n)为加窗语音帧xk′在第n个采样点上的值,xk′(n-1)为xk′在第n-1个采样点上的值,sgn[xk′(n)]、sgn[xk′(n-1)]分别为xk′(n)、xk′(n-1)的符号函数,即:
sgn &lsqb; x &rsqb; = 1 , x &GreaterEqual; 0 - 1 , x < 0 - - - ( 8 )
步骤1.4.2:确定短时能量阈值tE和短时过零率阈值tZ
t E = 1 K &prime; &Sigma; k &prime; = 1 K &prime; E k &prime; - - - ( 9 )
t Z = 0.1 K &prime; &Sigma; k &prime; = 1 K &prime; Z k &prime; - - - ( 10 )
其中K′为语音帧总帧数;
步骤1.4.3:对各加窗语音帧,首先用短时能量作第一级判别,将短时能量值大于阈值tE的加窗语音帧标记为一级判别有效语音帧,将帧序号最小的一级判别有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的一级判别有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即对当前有效语音帧集合,以起始帧为起点,按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值tZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值tZ的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。
步骤1.5:建立轨迹模型,得到轨迹模型参数,具体步骤如下:
对有效语音帧帧长为K(K=10)的语音片段X′提取一个D维的特征A,得到一个特征矩阵C:
C = c 1 , 1 ... c 1 , t ... c 1 , D c 2 , 1 ... c 2 , t ... c 2 , D ... ... ... ... ... c m , 1 ... c m , t ... c m , D ... ... ... ... ... c K , 1 ... c K , t ... c K , D = C 1 ... C t ... C D - - - ( 11 )
其中A表示语音片段提取的特征,D表示特征A的维数,特征矩阵C可以表示为一个轨迹模型方程:C=ZB+E,其中B表示轨迹参数矩阵,E表示残差向量矩阵,Z表示设计矩阵,负责将语音片段的时间度量归一化,cm,t表示特征矩阵中一个元素,Ct表示特征矩阵中一个列向量,其中t=1,2,...,D,m=1,2,...,K。
步骤2:将特征矩阵C的列向量利用轨迹模型方程表示,并按照二次轨迹模型展开如下:
Ci=ZBi+Ei(12)
即:
c 1 , i c 2 , i ... c K , i = 1 0 0 1 1 K - 1 ( 1 K - 1 ) 2 ... ... ... 1 1 1 b 1 , i b 2 , i b 3 , i + e 1 , i e 2 , i ... e K , i i = 1 , 2 , ... , D - - - ( 13 )
C i = c 1 , i c 2 , i ... c K , i 表示特征矩阵C的第i维特征, B i = b 1 , i b 2 , i b 3 , i 表示轨迹参数矩阵第i个列向量, E i = e 1 , i e 2 , i ... e K , i 表示残差向量矩阵列向量, Z = 1 0 0 1 1 K - 1 ( 1 K - 1 ) 2 ... ... ... 1 1 1 表示设计矩阵。
轨迹参数矩阵也可以表示为:
c n , i = b 1 , i + b 2 , i ( n - 1 K - 1 ) + b 3 , i ( n - 1 K - 1 ) 2 + e n , i - - - ( 14 )
其中:i=1,2,...,Dn=1,2,...,K。
步骤3:对每个语音片段,利用最大似然估计来计算轨迹参数矩阵Bq
Bq=(Z′qZq)-1Z′qCq(15)
其中,q为语音片段编号,Zq,Cq分别为第q个语音片段的设计矩阵和特征矩阵,Z′q为Zq的转置矩阵;
然后计算每个语音片段的残差协方差矩阵∑q
&Sigma; q = E q &prime; E q K q = ( C q - Z q B q ) &prime; ( C q - Z q B q ) K q - - - ( 16 )
Kq是第q个语音片段的帧数;
因此对于一个给定的声学特征A,可以用一个K×1平均轨迹向量B来表示出A的平均轨线特征,用K×K的残差协方差矩阵∑来捕捉这个特征A的平均轨线周围的变化。因此语音片段X的声学特征可以由轨迹模型参数{B,∑,N}表示。
步骤4:对说话人进行标准化,具体步骤如下:
选取语音库中发音最标准的说话人作为参考标准,其语音片段Xref的声学特征用轨迹模型表示为{Bref,∑ref,K},需要标准化的其他说话人语音片段Xi的声学特征用轨迹模型表示为{Bi,∑i,K},其中Bref表示参考语音片段Xi的平均轨迹向量,∑ref表示参考语音片段Xref的残差协方差矩阵,Bi表示需要变换语音片段Xi的平均轨迹向量,∑i表示参考语音片段Xi的残差协方差矩阵。
首先根据下式进行白化转换:
X w = D i - 1 2 V i &prime; ( X i - B i ) - - - ( 18 )
其中,Vi,Di分别为∑i对应的特征向量矩阵和特征值矩阵,是白化变换,Xw表示白化变换后的数据,即Xi解相关数据:
然后根据下式进行说话人标准化
X n = V r e f D r e f 1 2 X w + B r e f - - - ( 19 )
Xn表示Xi利用参考语音片段Xref标准化后的数据,Vref,Dref分别表示∑ref对应的特征向量矩阵和特征值矩阵;(19)式将参考音位pref的统计量Bref,∑ref关联至白化数据Xw,从而进行标准化处理。
所有的音位都可以通过上述操作使得其统计量与参考音位的统计量相似,从而减弱说话人在语音情感识别中的差异性。
步骤5:计算各个影响语音表达的因素在语音表达中与声学特征的相关性,包括:标准化后情感因素与声学特征的相关性、标准化后说话人因素与声学特征的相关性,具体步骤如下:
步骤5.1:因素分析与相关性计算:
首先计算声学特征与情感因素之间相关性:
R M ( A ; F ) = t r ( &Sigma; A ) - &Sigma; f &Element; F P ( f ) t r ( &Sigma; A | f ) - - - ( 17 )
F表示影响语音表达的因素,tr(·)表示某个矩阵的迹,tr(∑A)表示声学特征A的残差协方差矩阵的迹,代表声学特征A的总的变化性。P(f)表示影响语音表达因素F的概率分布,例如当F为情感因素时,P(Angry)表示生气情感的语音样本在语音库中出现的概率;tr(∑A|f)表示语音表达因素F确定后,声学特征A的残差协方差矩阵的迹,即代表语音表达因素F的语音样本中声学特征A的总的变化性。例当语音表达因素F表示情感,f表示生气时,tr(∑A|f)表示生气的语音样本中声学特征A的总的变化性。RM(A;E)表示语音表达因素F确定后,声学特征A的不确定性地减少量,即语音表达因素F与声学特征A的相关性。
步骤5.2:计算各个影响语音表达的因素在语音表达中与声学特征的相关性,具体步骤如下:
步骤5.2.1:根据下式计算标准化后情感因素与声学特征的相关性:
R M ( A ; E ) = t r ( &Sigma; A ) - &Sigma; f &Element; F P ( f e ) t r ( &Sigma; A | f e ) - - - ( 6 )
其中∑A为上述标准化后的数据Xn的残差协方差矩阵;
其中E表示影响语音情感表达中的情感因素的集合,fe为影响语音情感表达中的情感因素,即集合E中的元素,tr(·)表示某个矩阵的迹,P(fe)表示对应情感的语音样本在语音库中出现的概率,tr(∑A|fe)表示对应情感的语音样本中声学特征A的总的变化性;
步骤5.2.2:根据下式计算标准化后说话人因素与声学特征的相关性:
R M ( A ; S p ) = t r ( &Sigma; A ) - &Sigma; f &Element; F P ( f S p ) t r ( &Sigma; A | f S p ) - - - ( 7 )
其中Sp表示影响语音情感表达中的中的说话人因素的集合,fSp为影响语音情感表达中的说话人因素,即集合Sp中的元素,有F={E,Sp},F为影响语音情感表达中的因素的集合,P(fSp)表示对应说话人的语音样本在语音库中出现的概率,tr(∑A|fSp)表示对应说话人的语音样本中声学特征A的总的变化性;
步骤6:相关性比较
利用步骤5中计算得到的情感因素在语音表达中与声学特征的相关性,说话人标准化后在语音表达中与声学特征的相关性,判断各个声学特征与情感因素相关性。
步骤6.1:说话人标准化后情感识别特征选择
对于一个特定的声学特征A,计算其情感因素,说话人因素,标准化后的说话人因素在语音表达中与该声学特征的相关性。对于待选择的所有的声学特征,依次计算每个声学特征两个相关性,进行比较,选择情感因素相关性大的声学特征作为情感识别的特征。
步骤6.2:根据步骤6.1选择出的声学特征,作为情感识别特征,选择出的特征基于说话人的情感识别具有鲁棒性。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (3)

1.一种基于说话人标准化变换的语音情感特征选择方法,其特征在于,该方法包括以下步骤:
步骤1:对情感语音片段数字化后的数字语音信号X进行预处理,得到有效语音帧集合,对所述有效语音帧集合中每个语音片段X′提取一个D维的特征A,得到一个特征矩阵C:
C = c 1 , 1 ... c 1 , t ... c 1 , D c 2 , 1 ... c 2 , t ... c 2 , D ... ... ... ... ... c m , 1 ... c m , t ... c m , D ... ... ... ... ... c K , 1 ... c K , t ... c K , D = C 1 ... C t ... C D - - - ( 1 )
其中,K为有效语音帧帧长,A表示语音片段提取的特征,D表示特征A的维数,cm,t表示特征矩阵中一个元素,Ct表示特征矩阵中一个列向量,其中t为特征矩阵中列标,t=1,2,...,D,m为特征矩阵中行标,m=1,2,...,K;
步骤2:把所述特征矩阵C转换为一个轨迹模型方程:C=ZB+E,其中B表示轨迹参数矩阵,E表示残差向量矩阵,Z表示负责将语音片段的时间度量归一化的设计矩阵;
然后构建行数为K,列数为轨迹模型展开阶次J加1的设计矩阵Z,其中元素v为设计矩阵行标,j为设计矩阵列标,v=1,2,...,K,j=1,2,...,J+1;
步骤3:对每个语音片段,利用最大似然估计来计算轨迹参数矩阵Bq
Bq=(Z′qZq)-1Z′qCq(2)
其中,q为语音片段编号,Zq,Cq分别为第q个语音片段的设计矩阵和特征矩阵,Z′q为Zq的转置矩阵;
然后计算每个语音片段的残差协方差矩阵∑q
&Sigma; q = E q &prime; E q K q = ( C q - Z q B q ) &prime; ( C q - Z q B q ) K q - - - ( 3 )
Kq是第q个语音片段的帧数;
步骤4:对说话人进行标准化:
选取语音库中发音最标准的说话人作为参考标准,其语音片段Xref的声学特征用轨迹模型表示为{Bref,∑ref,K},需要标准化的其他说话人语音片段,即需要变换的语音片段Xi的声学特征用轨迹模型表示为{Bi,∑i,K},其中Bref表示参考语音片段Xref的平均轨迹向量,∑ref表示参考语音片段Xref的残差协方差矩阵,Bi表示需要变换语音片段Xi的平均轨迹向量,∑i表示参考语音片段Xi的残差协方差矩阵;
首先根据下式进行白化转换:
X w = D i - 1 2 V i &prime; ( X i - B i ) - - - ( 4 )
其中,Vi,Di分别为∑i对应的特征向量矩阵和特征值矩阵,是白化变换,Xw表示白化变换后的数据,即Xi解相关数据;
然后根据下式进行说话人标准化:
X n = V r e f D r e f 1 2 X w + B r e f - - - ( 5 )
Xn表示Xi利用参考语音片段Xref标准化后的数据,Vref,Dref分别表示∑ref对应的特征向量矩阵和特征值矩阵;
步骤5:计算各个影响语音表达的因素在语音表达中与声学特征的相关性,包括:标准化后情感因素与声学特征的相关性、标准化后说话人因素与声学特征的相关性;
步骤6:相关性比较:将所有声学特征中,与情感因素的相关性大于与标准化后的说话人因素相关性的特征作为语音情感识别特征。
2.根据权利要求1所述的基于说话人标准化变换的语音情感特征选择方法,其特征在于,所述步骤1中的预处理包括如下步骤:
步骤1.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号
X &OverBar; ( n &OverBar; ) = X ( n &OverBar; ) - 0.9375 X ( n &OverBar; - 1 ) , 0 &le; n &OverBar; &le; N &OverBar; - 1
其中表示数字语音信号X的离散点序号,为数字语音信号X的长度,分别表示数字语音信号X在第个离散点上的值,表示预加重后的语音信号在第个离散点上的值,X(-1)=0;
步骤1.2:采用交叠分段的方法对预加重后的语音信号进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点,经过分帧得到语音帧集合
x &OverBar; k , ( n ) = X &OverBar; ( n + 128 ( k &prime; - 1 ) ) , 0 &le; n &le; 255 , 1 &le; k &prime; &le; K &prime;
其中为语音帧集合中的第k′个语音帧,n表示语音帧离散点序号,k′为语音帧序号,K′为语音帧总帧数,且满足:
表示向下取整;
步骤1.3:对各语音帧1≤k′≤K′,选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk′为:
x k &prime; ( n ) = x &OverBar; k &prime; ( n ) w ( n ) , 0 &le; n &le; 255 , 1 &le; k &prime; &le; K &prime;
其中xk′(n)、w(n)分别表示xk′w在第n个离散点上的值,窗口长度为256点的汉明窗函数为:
w ( n ) = 0.54 - 0.46 c o s ( 2 &pi; n 255 ) , 0 &le; n &le; 255
步骤1.4:对各加窗语音帧xk′,1≤k′≤K′,计算短时能量Ek′和短时过零率Zk′
E k &prime; = &Sigma; n = 0 255 x k &prime; 2 ( n ) , 1 &le; k &prime; &le; K &prime;
Z k &prime; = 1 2 &Sigma; n = 1 255 | sgn &lsqb; x k &prime; ( n ) &rsqb; - sgn &lsqb; x k &prime; ( n - 1 ) &rsqb; |
其中Ek′表示加窗语音帧xk′的短时能量,Zk′表示xk′的短时过零率,xk′(n)为加窗语音帧xk′在第n个采样点上的值,xk′(n-1)为xk′在第n-1个采样点上的值,sgn[xk′(n)]、sgn[xk′(n-1)]分别为xk′(n)、xk′(n-1)的符号函数,即:
sgn &lsqb; x &rsqb; = 1 , x &GreaterEqual; 0 - 1 , x < 0
步骤1.5:确定短时能量阈值tE和短时过零率阈值tZ
t E = 1 K &prime; &Sigma; k &prime; = 1 K &prime; E k &prime;
t Z = 0.1 K &prime; &Sigma; k &prime; = 1 K &prime; Z k &prime;
其中K′为语音帧总帧数;
步骤1.6:对各加窗语音帧,首先用短时能量作第一级判别,将短时能量值大于阈值tE的加窗语音帧标记为一级判别有效语音帧,将帧序号最小的一级判别有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的一级判别有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即对当前有效语音帧集合,以起始帧为起点,按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值tZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值tZ的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。
3.根据权利要求1所述的基于说话人标准化变换的语音情感特征选择方法,其特征在于,所述步骤5中的标准化后情感因素与声学特征的相关性根据下式计算:
R M ( A ; E ) = t r ( &Sigma; A ) - &Sigma; f &Element; F P ( f e ) t r ( &Sigma; A | f e ) - - - ( 6 )
其中∑A为上述标准化后的数据Xn的残差协方差矩阵;
其中E表示影响语音情感表达中的情感因素的集合,fe为影响语音情感表达中的情感因素,即集合E中的元素,tr(·)表示某个矩阵的迹,P(fe)表示对应情感的语音样本在语音库中出现的概率,tr(∑A|fe)表示对应情感的语音样本中声学特征A的总的变化性;
所述标准化后说话人因素与声学特征的相关性根据下式计算:
R M ( A ; S p ) = t r ( &Sigma; A ) - &Sigma; f &Element; F P ( f S p ) t r ( &Sigma; A | f S p ) - - - ( 7 )
其中Sp表示影响语音情感表达中的中的说话人因素的集合,fSp为影响语音情感表达中的说话人因素,即集合Sp中的元素,有F={E,Sp},F为影响语音情感表达中的因素的集合,P(fSp)表示对应说话人的语音样本在语音库中出现的概率,tr(∑A|fSp)表示对应说话人的语音样本中声学特征A的总的变化性。
CN201510494162.XA 2015-08-12 2015-08-12 一种基于说话人标准化变换的语音情感特征选择方法 Pending CN105070300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510494162.XA CN105070300A (zh) 2015-08-12 2015-08-12 一种基于说话人标准化变换的语音情感特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510494162.XA CN105070300A (zh) 2015-08-12 2015-08-12 一种基于说话人标准化变换的语音情感特征选择方法

Publications (1)

Publication Number Publication Date
CN105070300A true CN105070300A (zh) 2015-11-18

Family

ID=54499653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510494162.XA Pending CN105070300A (zh) 2015-08-12 2015-08-12 一种基于说话人标准化变换的语音情感特征选择方法

Country Status (1)

Country Link
CN (1) CN105070300A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297823A (zh) * 2016-08-22 2017-01-04 东南大学 一种基于环境噪声标准化变换的语音情感特征选择方法
CN108492821A (zh) * 2018-03-27 2018-09-04 华南理工大学 一种减弱语音识别中说话人影响的方法
CN109308896A (zh) * 2017-07-28 2019-02-05 深圳光启合众科技有限公司 语音处理方法及装置、存储介质及处理器
CN111312245A (zh) * 2020-02-18 2020-06-19 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
CN111933156A (zh) * 2020-09-25 2020-11-13 广州佰锐网络科技有限公司 基于多重特征识别的高保真音频处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法
CN103236258A (zh) * 2013-05-06 2013-08-07 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN104008754A (zh) * 2014-05-21 2014-08-27 华南理工大学 一种基于半监督特征选择的语音情感识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779510A (zh) * 2012-07-19 2012-11-14 东南大学 基于特征空间自适应投影的语音情感识别方法
CN103236258A (zh) * 2013-05-06 2013-08-07 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN104008754A (zh) * 2014-05-21 2014-08-27 华南理工大学 一种基于半监督特征选择的语音情感识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GISH H.,NG K.: "Parametric Trajectory Models for Speech Recognition", 《THE FOURTH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE》 *
MARIOORYAD S. ,BUSSO C.: "Factorizing speaker,lexical and emotional variabilities observed in facial expressions", 《IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 *
MARIOORYAD S.,BUSSO C.: "Compensating for Speaker or Lexical Variabilities in Speech for Emotion Recognition", 《SPEECH COMMUNICATION》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297823A (zh) * 2016-08-22 2017-01-04 东南大学 一种基于环境噪声标准化变换的语音情感特征选择方法
CN109308896A (zh) * 2017-07-28 2019-02-05 深圳光启合众科技有限公司 语音处理方法及装置、存储介质及处理器
CN109308896B (zh) * 2017-07-28 2022-04-15 江苏汇通金科数据股份有限公司 语音处理方法及装置、存储介质及处理器
CN108492821A (zh) * 2018-03-27 2018-09-04 华南理工大学 一种减弱语音识别中说话人影响的方法
CN108492821B (zh) * 2018-03-27 2021-10-22 华南理工大学 一种减弱语音识别中说话人影响的方法
CN111312245A (zh) * 2020-02-18 2020-06-19 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
CN111312245B (zh) * 2020-02-18 2023-08-08 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
CN111933156A (zh) * 2020-09-25 2020-11-13 广州佰锐网络科技有限公司 基于多重特征识别的高保真音频处理方法及装置

Similar Documents

Publication Publication Date Title
CN108305616B (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN105070300A (zh) 一种基于说话人标准化变换的语音情感特征选择方法
CN103617799B (zh) 一种适应于移动设备的英语语句发音质量检测方法
CN102890930B (zh) 基于hmm/sofmnn混合模型的语音情感识别方法
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN103236258B (zh) 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN103810994B (zh) 基于情感上下文的语音情感推理方法及系统
CN103177733B (zh) 汉语普通话儿化音发音质量评测方法与系统
CN108564942A (zh) 一种基于敏感度可调的语音情感识别方法及系统
CN106504772B (zh) 基于重要性权重支持向量机分类器的语音情感识别方法
CN108269133A (zh) 一种结合人体识别和语音识别的智能广告推送方法及终端
CN106782521A (zh) 一种语音识别系统
CN109977258A (zh) 图像和语音的跨模态检索分类器模型、检索系统和检索方法
CN105047194A (zh) 一种用于语音情感识别的自学习语谱图特征提取方法
CN104538035A (zh) 一种基于Fisher超向量的说话人识别方法及系统
CN109377981A (zh) 音素对齐的方法及装置
CN111724770A (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
CN108364641A (zh) 一种基于长时帧背景噪声估计的语音情感特征提取方法
CN105280181A (zh) 一种语种识别模型的训练方法及语种识别方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN110265000A (zh) 一种实现快速语音文字记录的方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN113611286B (zh) 一种基于共性特征提取的跨语种语音情感识别方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151118

WD01 Invention patent application deemed withdrawn after publication