CN106297823A - 一种基于环境噪声标准化变换的语音情感特征选择方法 - Google Patents
一种基于环境噪声标准化变换的语音情感特征选择方法 Download PDFInfo
- Publication number
- CN106297823A CN106297823A CN201610699936.7A CN201610699936A CN106297823A CN 106297823 A CN106297823 A CN 106297823A CN 201610699936 A CN201610699936 A CN 201610699936A CN 106297823 A CN106297823 A CN 106297823A
- Authority
- CN
- China
- Prior art keywords
- frame
- speech
- prime
- represent
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002996 emotional effect Effects 0.000 title claims abstract description 55
- 230000007613 environmental effect Effects 0.000 title claims abstract description 22
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 18
- 238000013459 approach Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 20
- 230000008451 emotion Effects 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 64
- 230000008909 emotion recognition Effects 0.000 claims description 14
- 239000012634 fragment Substances 0.000 claims description 13
- 238000013461 design Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000002087 whitening effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims 2
- 238000013139 quantization Methods 0.000 abstract 1
- 239000000284 extract Substances 0.000 description 6
- 230000003993 interaction Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000002253 acid Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000009975 flexible effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于环境噪声标准化变换的语音情感特征选择方法,包括语音片段轨迹模型建立,环境噪声标准化,语音表达因素与特征表现相关性的量化以及语音情感选择。该方法在建立轨迹模型的基础上量化语音表达因素与特征表现相关性,从而选择语音情感特征。本发明通过构建针对情感分类问题的语音轨迹模型,量化语音表达中各个因素与特征表现相关性,利用环境噪声标准化方法,降低了环境噪声对于语音特征表现的影响,选择出含有较多情感信息的语音特征,同时具有较低的计算复杂度。
Description
技术领域
本发明涉及一种语音情感特征选择方法,尤其涉及一种基于语音轨迹模型的语音情感特征选择方法,属于语音情感识别技术领域。
背景技术
随着信息技术的快速发展和各种智能终端的兴起,现有的人机交互系统正面临日益严峻的考验。为了克服人机交互的障碍,使人机交互更为方便、自然,机器的情感智能正日益受到各领域研究者的重视。语音作为现今人机交互中极具发展潜力的高效交互媒介,携带着丰富的情感信息。语音情感识别作为情感智能的重要研究课题,在远程教学、辅助测谎、自动远程电话服务中心以及临床医学,智能玩具,智能手机等方面有着广阔的应用前景,吸引了越来越多研究机构与研究学者的广泛关注。
为了提高语音情感识别的精度和鲁棒性,提取具有环境噪声鲁棒性的语音情感特征至关重要。从原始语音数据中提取有效的情感信息,剔除情感无关的环境噪声等冗余信息是提高语音情感识别系统鲁棒性的重点和难点。
作为一种新兴的语音分析技术,语音片段轨迹模型因其在语音信号处理中的灵活性和有效性,越来越得到研究者的广泛重视。对于分类问题,建立语音片段轨迹模型,量化语音表达因素与特征表现的相关性,进而对语音中环境噪声进行标准化,降低了语音中环境噪声、语音内容等无关信息对于语音特征表现的影响,选择出含有较多情感信息的语音特征。这种基于语音表达因素与特征表现的相关性特征提取思想和方法在语音情感识别研究中具有重要的意义。
发明内容
技术问题:本发明提供一种能够提高语音情感识别的鲁棒性,降低了环境噪声、语音内容等无关信息对于语音特征表现的影响,可以选择出含有较多情感信息语音特征的基于环境噪声标准化变换的语音情感特征选择方法。
技术方案:本发明的基于环境噪声标准化变换的语音情感特征选择方法,包括以下步骤:
步骤1:对情感语音片段数字化后的数字语音信号X进行预处理,得到有效语音帧集合,对所述有效语音帧集合中每个语音片段X′提取一个D维的特征A,得到一个特征矩阵C:
其中,K为有效语音帧帧长,A表示从语音片段X′提取的特征,D表示特征A的维数,cm,t表示特征矩阵中一个元素,Ct表示特征矩阵中一个列向量,其中t为特征矩阵中列标,t=1,2,...,D,CD表示特征矩阵中第D个列向量,m为特征矩阵中行标,m=1,2,...,K;
步骤2:构建第q个语音片段的设计矩阵Zq,其行数为K,列数为轨迹模型展开阶次J加1,其中元素v为设计矩阵行标,j为设计矩阵列标,v=1,2,...,K,j=1,2,...,J+1;
步骤3:对每个语音片段,利用最大似然估计来计算轨迹参数矩阵Bq:
Bq=(Z′qZq)-1Z′qCq (2)
其中,q为语音片段编号,Cq为第q个语音片段的特征矩阵,Z′q为Zq的转置矩阵;
然后计算每个语音片段的残差协方差矩阵∑q:
Kq是第q个语音片段的帧数;
步骤4:对数字语音信号X中的环境噪声进行标准化,然后计算环境噪声标准化后的数字语音信号Xn的残差协方差矩阵,所述对数字语音信号X中的环境噪声进行标准化的具体流程为:
步骤4.1:选取语音库中没有环境噪声的语音作为参考标准,将其语音片段Xref的声学特征用轨迹模型表示为{Bref,∑ref,K},将需要标准化的其他具有环境噪声的语音片段,即需要变换的语音片段Xi的声学特征用轨迹模型表示为{Bi,∑i,K},其中Bref表示参考语音片段Xref的平均轨迹向量,∑ref表示参考语音片段Xref的残差协方差矩阵,Bi表示需要变换语音片段Xi的平均轨迹向量,∑i表示参考语音片段Xi的残差协方差矩阵;
步骤4.2:根据下式进行白化转换:
其中,Vi,Di分别为∑i对应的特征向量矩阵和特征值矩阵,是白化变换,Xw表示白化变换后的数据,即Xi解相关数据;
步骤4.3:根据下式进行环境噪声标准化:
Xn表示Xi利用参考语音片段Xref标准化后的数据,Vref.Dref分别表示∑ref对应的特征向量矩阵和特征值矩阵;
步骤5:利用步骤4中计算得到的各个环境噪声标准化后的数字语音信号Xn的残差协方差矩阵,利用相关性计算公式计算各个影响语音表达的因素在语音表达中与声学特征的相关性,包括:标准化后情感因素与声学特征的相关性、标准化后环境噪声因素与声学特征的相关性;
步骤6:相关性比较:将所有声学特征中,与情感因素的相关性大于与标准化后的环境噪声因素相关性的特征作为语音情感识别特征。
进一步的,本发明方法中,所述步骤1中的预处理包括如下步骤:
步骤1.1:根据下式对数字语音信号X按下式进行预加重,得到预加重后的语音信号
其中表示数字语音信号X的离散点序号,为数字语音信号X的长度,和分别表示数字语音信号X在第和个离散点上的值,表示预加重后的语音信号在第个离散点上的值,X(-1)=0;
步骤1.2:采用交叠分段的方法对预加重后的语音信号进行分帧,得到语音帧集合
其中为语音帧集合中的第k′个语音帧,n表示语音帧离散点序号,k′为语音帧序号,K′为语音帧总帧数,且满足:
表示向下取整;
步骤1.3:对每个语音帧1≤k′≤K′,选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk′为:
其中xk′(n)、w(n)分别表示xk′、w在第n个离散点上的值,窗口长度为256点的汉明窗函w在第n个离散点上的值为:
步骤1.4:对每个加窗语音帧xk′,1≤k′≤K′,计算短时能量Ek′和短时过零率Zk′:
其中Ek′表示加窗语音帧xk′的短时能量,Zk′表示xk′的短时过零率,xk′(n)为加窗语音帧xk′在第n个采样点上的值,xk′(n-1)为xk′在第n-1个采样点上的值,sgn[xk′(n)]、sgn[xk′(n-1)]分别为xk′(n)、xk′(n-1)的符号函数,即:
步骤1.5:确定短时能量阈值tE和短时过零率阈值tZ:
其中K′为语音帧总帧数;
步骤1.6:对各加窗语音帧,首先用短时能量作第一级判别,将短时能量值大于阈值tE的加窗语音帧标记为一级判别有效语音帧,将帧序号最小的一级判别有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的一级判别有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即对当前有效语音帧集合,以起始帧为起点,按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值tZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。
进一步的,本发明方法中,所述步骤5中的标准化后情感因素与声学特征的相关性根据下式计算:
其中∑A为上述标准化后的数据Xn的残差协方差矩阵,E表示影响语音情感表达中的情感因素的集合,fe为影响语音情感表达中的情感因素,即集合E中的元素,tr(·)表示某个矩阵的迹,P(fe)表示对应情感的语音样本在语音库中出现的概率,tr(∑A|fe)表示对应情感的语音样本中声学特征A的总的变化性;
所述标准化后环境噪声因素与声学特征的相关性根据下式计算:
其中Sp表示影响语音情感表达中的中的环境噪声因素的集合,fEN为影响语音情感表达中的环境噪声因素,即集合EN中的元素,有F={E,EN},F为影响语音情感表达中的因素的集合,P(fEN)表示对应的环境噪声的语音样本在语音库中出现的概率,tr(∑A|fEN)表示对应的环境噪声的语音样本中声学特征A的总的变化性。
进一步的,本发明方法中,步骤4中,按照与步骤3相同的方法计算环境噪声标准化后的数字语音信号X的残差协方差矩阵。
本发明能够利用语音片段轨迹模型,量化语音表达因素与特征表现的相关性,利用环境噪声标准化方法,降低了环境噪声、语音内容等无关信息对于语音特征表现的影响,选择出含有较多情感信息的语音特征。
有益效果:本发明与现有技术相比,具有以下优点:
建立轨迹模型方程,实质上是利用具体的函数曲线来拟合声学特征实时变化的曲线,得到轨迹模型参数{B,∑,K},可以简单明了地表示出声学特征的固有的特性,在后续的环境噪声语音标准化以及计算情感因素与声学特征的相关性的计算中使用表征声学特征的轨迹模型参数,可以显著地降低运算的复杂度。与其他语音特征提取要求语音片段持续时间固定的方法相比,利用轨迹模型方程可以对持续时间变化的语音片段进行处理,然后通过设计矩阵将语音片段的时间度量归一化,简少了特征选择的计算量并且充分保留了特征信息。
本发明在进行特征选择之前,先进行环境噪声标准化变换,选择语音库中无噪声语音片段,将其他具有环境噪声的语音片段参数映射至标准参考语音片段,这样可以显著降低环境噪声因素与语音表达特征的相关性,降低了环境噪声对于语音特征表现的影响,剔除原始语音信号中与情感类别相关性较弱的冗余信息,有助于提高语音情感识别的鲁棒性。用二次轨迹模型参数来表示语音特征,将语音中环境噪声标准化处理转化为对轨迹模型参数处理,降低了实验数据以及计算的复杂度,提高了特征选择的效率。
附图说明
图1为本发明的语音情感特征选择流程图。
图2为本发明的轨迹参数模型建立与特征相关性计算选择流程图。
图3为本发明环境噪声标准化流程图。
具体实施方式
下面结合实施例和说明书附图对本发明作进一步的说明。
本发明的基于环境噪声标准化变换的语音情感特征提取方法,包括以下步骤:
步骤1:对情感语音片段进行预处理,并提取特征矩阵C;具体包括:
步骤1.1:对数字语音信号X按下式进行预加重,得到预加重后的语音信号
其中表示数字语音信号X的离散点序号,为数字语音信号X的长度,和分别表示数字语音信号X在第和个离散点上的值,表示预加重后的语音信号在第个离散点上的值,X(-1)=0;
步骤1.2:采用交叠分段的方法对预加重后的语音信号进行分帧,前一帧起点与后一帧起点的距离称为帧移,此处帧移取8ms,即在采样率Fs=16kHz下取128点,每一帧长取16ms,即取256点,经过分帧得到语音帧集合
其中为语音帧集合中的第k′个语音帧,n表示语音帧离散点序号,k′为语音帧序号,K′为语音帧总帧数,且满足:
表示向下取整;
步骤1.3:对各语音帧1≤k′≤K′,选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk′,加窗语音帧xk′为:
其中xk′(n)、w(n)分别表示xk′、w在第n个离散点上的值,窗口长度为256点的汉明窗w在第n个离散点上的值为:
步骤1.4:采用公知的能量过零率双门限判决法完成端点检测,具体步骤如下:
步骤1.4.1:对各加窗语音帧xk′,1≤k′≤K′,计算短时能量Ek′和短时过零率Zk′:
其中Ek′表示加窗语音帧xk′的短时能量,Zk′表示xk′的短时过零率,xk′(n)为加窗语音帧xk′在第n个采样点上的值,xk′(n-1)为xk′在第n-1个采样点上的值,sgn[xk′(n)]、sgn[xk′(n-1)]分别为xk′(n)、xk′(n-1)的符号函数,即:
步骤1.4.2:确定短时能量阈值tE和短时过零率阈值tZ:
其中K′为语音帧总帧数;
步骤1.4.3:对各加窗语音帧,首先用短时能量作第一级判别,将短时能量值大于阈值tE的加窗语音帧标记为一级判别有效语音帧,将帧序号最小的一级判别有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的一级判别有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即对当前有效语音帧集合,以起始帧为起点,按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值tz的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将短时过零率大于阈值tz的加窗语音帧标记为有效语音帧,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。
步骤1.5:建立轨迹模型,得到轨迹模型参数,具体步骤如下:
对有效语音帧帧长为K(K=10)的语音片段X′提取一个D维的特征A,得到一个特征矩阵C:
其中A表示语音片段提取的特征,D表示特征A的维数,特征矩阵C可以表示为一个轨迹模型方程:C=ZB+E,其中B表示轨迹参数矩阵,E表示残差向量矩阵,Z表示设计矩阵,负责将语音片段的时间度量归一化,cm,t表示特征矩阵中一个元素,Ct表示特征矩阵中一个列向量,其中t=1,2,...,D,m=1,2,...,K。
步骤2:将特征矩阵C的列向量利用轨迹模型方程表示,并按照二次轨迹模型展开如下:
Ci=ZBi+Ei (12)
即:
i=1,2,...,D
表示特征矩阵C的第i维特征,表示轨迹参数矩阵第i个列向量,表示残差向量矩阵列向量,表示设计矩阵。
轨迹参数矩阵也可以表示为:
其中:i=1,2,...,D n=1,2,...,K。
上述步骤1和步骤2属于并列的逻辑关系,没有先后秩序之分。
步骤3:对每个语音片段,利用最大似然估计来计算轨迹参数矩阵Bq:
Bq=(Z′qZq)-1Z′qCq (15)
其中,q为语音片段编号,Zq,Cq分别为第q个语音片段的设计矩阵和特征矩阵,Z′q为Zq的转置矩阵;
然后计算每个语音片段的残差协方差矩阵∑q:
Kq是第q个语音片段的帧数;
因此对于一个给定的声学特征A,可以用一个K×1平均轨迹向量B来表示出A的平均轨线特征,用K×K的残差协方差矩阵∑来捕捉这个特征A的平均轨线周围的变化。因此语音片段X的声学特征可以由轨迹模型参数{B,∑,N}表示。
步骤4:对数字语音信号X中的环境噪声进行标准化,然后计算环境噪声标准化后的数字语音信号Xn的残差协方差矩阵,所述对数字语音信号X中的环境噪声进行标准化的具体流程为:
选取语音库中没有环境噪声的语音作为参考标准,其语音片段Xref的声学特征用轨迹模型表示为{Bref,∑ref,K}.需要标准化的具有环境噪声语音片段Xi的声学特征用轨迹模型表示为{Bi,∑i,K},其中Bref表示参考语音片段Xi的平均轨迹向量,∑ref表示参考语音片段Xref的残差协方差矩阵,Bi表示需要变换语音片段Xi的平均轨迹向量,∑i表示参考语音片段Xi的残差协方差矩阵。
首先根据下式进行白化转换:
其中,Vi,Di分别为∑i对应的特征向量矩阵和特征值矩阵,是白化变换,Xw表示白化变换后的数据,即Xi解相关数据;
然后根据下式进行环境噪声标准化
Xn表示Xi利用参考语音片段Xref标准化后的数据,Vref.Dref分别表示∑ref对应的特征向量矩阵和特征值矩阵;(19)式将参考音位pref的统计量Bref,∑ref关联至白化数据Xw,从而进行标准化处理。
所有的音位都可以通过上述操作使得其统计量与参考音位的统计量相似,从而减弱环境噪声在语音情感识别中的影响。
步骤5:利用步骤4中计算得到的各个环境噪声标准化后的数字语音信号Xn的残差协方差矩阵,利用相关性计算公式计算各个影响语音表达的因素在语音表达中与声学特征的相关性,包括:标准化后情感因素与声学特征的相关性、标准化后环境噪声因素与声学特征的相关性,具体步骤如下:
步骤5.1:因素分析与相关性计算:
首先计算声学特征与情感因素之间相关性:
F表示影响语音表达的因素,tr(·)表示某个矩阵的迹,tr(∑A)表示声学特征A的残差协方差矩阵的迹,代表声学特征A的总的变化性。P(f)表示影响语音表达因素F的概率分布,例如当F为情感因素时,P(Angry)表示生气情感的语音样本在语音库中出现的概率;tr(∑A|f)表示语音表达因素F确定后,声学特征A的残差协方差矩阵的迹,即代表语音表达因素F的语音样本中声学特征A的总的变化性。例当语音表达因素F表示情感,f表示生气时,tr(∑A|f)表示生气的语音样本中声学特征A的总的变化性。RM(A;E)表示语音表达因素F确定后,声学特征A的不确定性地减少量,即语音表达因素F与声学特征A的相关性。
步骤5.2:计算各个影响语音表达的因素在语音表达中与声学特征的相关性,具体步骤如下:
步骤5.2.1:根据下式计算标准化后情感因素与声学特征的相关性:
其中∑A为上述标准化后的数据Xn的残差协方差矩阵;
其中E表示影响语音情感表达中的情感因素的集合,fe为影响语音情感表达中的情感因素,即集合E中的元素,tr(·)表示某个矩阵的迹,P(fe)表示对应情感的语音样本在语音库中出现的概率,tr(∑A|fe)表示对应情感的语音样本中声学特征A的总的变化性;
步骤5.2.2:根据下式计算标准化后环境噪声因素与声学特征的相关性:
其中Sp表示影响语音情感表达中的中的环境噪声因素的集合,fEN为影响语音情感表达中的环境噪声因素,即集合EN中的元素,有F={E,EN},F为影响语音情感表达中的因素的集合,P(fEN)表示对应的环境噪声的语音样本在语音库中出现的概率,tr(∑A|fEN)表示对应的环境噪声语音样本中声学特征A的总的变化性;
步骤6:相关性比较
利用步骤5中计算得到的情感因素在语音表达中与声学特征的相关性,环境噪声标准化后在语音表达中与声学特征的相关性,判断各个声学特征与情感因素相关性。
步骤6.1:环境噪声标准化后情感识别特征选择
对于一个特定的声学特征A,计算其情感因素,环境噪声因素,标准化后的环境噪声因素在语音表达中与该声学特征的相关性。对于待选择的所有的声学特征,依次计算每个声学特征两个相关性,进行比较,选择情感因素相关性大的声学特征作为情感识别的特征。
步骤6.2:根据步骤6.1选择出的声学特征,作为情感识别特征,选择出的特征基于环境噪声的情感识别具有鲁棒性。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。
Claims (4)
1.一种基于环境噪声标准化变换的语音情感特征选择方法,其特征在于,该方法包括以下步骤:
步骤1:对情感语音片段数字化后的数字语音信号X进行预处理,得到有效语音帧集合,对所述有效语音帧集合中每个语音片段X′提取一个D维的特征A,得到一个特征矩阵C:
其中,K为有效语音帧帧长,A表示从语音片段X′提取的特征,D表示特征A的维数,cm,t表示特征矩阵中一个元素,Ct表示特征矩阵中一个列向量,其中t为特征矩阵中列标,t=1,2,...,D,CD表示特征矩阵中第D个列向量,m为特征矩阵中行标,m=1,2,...,K;
步骤2:构建第q个语音片段的设计矩阵Zq,其行数为K,列数为轨迹模型展开阶次J加1,其中元素v为设计矩阵行标,j为设计矩阵列标,v=1,2,...,K,j=1,2,...,J+1;
步骤3:对每个语音片段,利用最大似然估计来计算轨迹参数矩阵Bq:
Bq=(Z′qZq)-1Z′qCq (2)
其中,q为语音片段编号,Cq为第q个语音片段的特征矩阵,Z′q为Zq的转置矩阵;
然后计算每个语音片段的残差协方差矩阵∑q:
Kq是第q个语音片段的帧数;
步骤4:对数字语音信号X中的环境噪声进行标准化,然后计算环境噪声标准化后的数字语音信号Xn的残差协方差矩阵,所述对数字语音信号X中的环境噪声进行标准化的具体流程为:
步骤4.1:选取语音库中没有环境噪声的语音作为参考标准,将其语音片段Xref的声学特征用轨迹模型表示为{Bref,∑ref,K},将需要标准化的其他具有环境噪声的语音片段,即需要变换的语音片段Xi的声学特征用轨迹模型表示为{Bi,∑i,K},其中Bref表示参考语音片段Xref的平均轨迹向量,∑ref表示参考语音片段Xref的残差协方差矩阵,Bi表示需要变换语音片段Xi的平均轨迹向量,∑i表示参考语音片段Xi的残差协方差矩阵;
步骤4.2:根据下式进行白化转换:
其中,Vi,Di分别为∑i对应的特征向量矩阵和特征值矩阵,是白化变换,Xw表示白化变换后的数据,即Xi解相关数据;
步骤4.3:根据下式进行环境噪声标准化:
Xn表示Xi利用参考语音片段Xref标准化后的数据,Vref,Dref分别表示∑ref对应的特征向量矩阵和特征值矩阵;
步骤5:利用步骤4中计算得到的各个环境噪声标准化后的数字语音信号Xn的残差协方差矩阵,利用相关性计算公式计算各个影响语音表达的因素在语音表达中与声学特征的相关性,包括:标准化后情感因素与声学特征的相关性、标准化后环境噪声因素与声学特征的相关性;
步骤6:相关性比较:将所有声学特征中,与情感因素的相关性大于与标准化后的环境噪声因素相关性的特征作为语音情感识别特征。
2.根据权利要求1所述的基于环境噪声标准化变换的语音情感特征选择方法,其特征在于,所述步骤1中的预处理包括如下步骤:
步骤1.1:根据下式对数字语音信号X按下式进行预加重,得到预加重后的语音信号
其中表示数字语音信号X的离散点序号,为数字语音信号X的长度,和分别表示数字语音信号X在第和个离散点上的值,表示预加重后的语音信号在第个离散点上的值,X(-1)=0;
步骤1.2:采用交叠分段的方法对预加重后的语音信号进行分帧,得到语音帧集合
其中为语音帧集合中的第k′个语音帧,n表示语音帧离散点序号,k′为语音帧序号,K′为语音帧总帧数,且满足:
表示向下取整;
步骤1.3:对每个语音帧1≤k′≤K′,选择窗口长度为256点的汉明窗w进行加窗处理,得到加窗语音帧xk′为:
其中xk′(n)、w(n)分别表示xk′、w在第n个离散点上的值,窗口长度为256点的汉明窗w在第n个离散点上的值为:
步骤1.4:对每个加窗语音帧xk′,1≤k′≤K′,计算短时能量Ek′和短时过零率Zk′:
其中Ek′表示加窗语音帧xk′的短时能量,Zk′表示xk′的短时过零率,xk′(n)为加窗语音帧xk′在第n个采样点上的值,xk′(n-1)为xk′在第n-1个采样点上的值,sgn[xk′(n)]、sgn[xk′(n-1)]分别为xk′(n)、xk′(n-1)的符号函数,即:
步骤1.5:确定短时能量阈值tE和短时过零率阈值tZ:
其中K′为语音帧总帧数;
步骤1.6:对各加窗语音帧,首先用短时能量作第一级判别,将短时能量值大于阈值tE的加窗语音帧标记为一级判别有效语音帧,将帧序号最小的一级判别有效语音帧作为当前有效语音帧集合的起始帧,将帧序号最大的一级判别有效语音帧作为当前有效语音帧集合的结束帧,然后用短时过零率作第二级判别,即对当前有效语音帧集合,以起始帧为起点,按照帧序号由大到小的顺序逐帧判别,将短时过零率大于阈值tZ的加窗语音帧标记为有效语音帧,并且以结束帧为起点按照帧序号由小到大的顺序逐帧判别,将两级判别后得到的有效语音帧集合记为{sk}1≤k≤K,其中k为有效语音帧序号,K为有效语音帧总帧数,sk为有效语音帧集合中的第k个有效语音帧。
3.根据权利要求1所述的基于环境噪声标准化变换的语音情感特征选择方法,其特征在于,所述步骤5中的标准化后情感因素与声学特征的相关性根据下式计算:
其中∑A为上述标准化后的数据Xn的残差协方差矩阵,E表示影响语音情感表达中的情感因素的集合,fe为影响语音情感表达中的情感因素,即集合E中的元素,tr(·)表示某个矩阵的迹,P(fe)表示对应情感的语音样本在语音库中出现的概率,tr(∑A|fe)表示对应情感的语音样本中声学特征A的总的变化性;
所述标准化后环境噪声因素与声学特征的相关性根据下式计算:
其中Sp表示影响语音情感表达中的中的环境噪声因素的集合,fEN为影响语音情感表达中的环境噪声因素,即集合EN中的元素,有F={E,EN},F为影响语音情感表达中的因素的集合,P(fEN)表示对应的环境噪声的语音样本在语音库中出现的概率,tr(∑A|fEN)表示对应的环境噪声的语音样本中声学特征A的总的变化性。
4.根据权利要求1、2或3所述的基于环境噪声标准化变换的语音情感特征选择方法,其特征在于,所述步骤4中,按照与步骤3相同的方法计算环境噪声标准化后的数字语音信号X的残差协方差矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610699936.7A CN106297823A (zh) | 2016-08-22 | 2016-08-22 | 一种基于环境噪声标准化变换的语音情感特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610699936.7A CN106297823A (zh) | 2016-08-22 | 2016-08-22 | 一种基于环境噪声标准化变换的语音情感特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106297823A true CN106297823A (zh) | 2017-01-04 |
Family
ID=57660952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610699936.7A Pending CN106297823A (zh) | 2016-08-22 | 2016-08-22 | 一种基于环境噪声标准化变换的语音情感特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106297823A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895582A (zh) * | 2017-10-16 | 2018-04-10 | 中国电子科技集团公司第二十八研究所 | 面向多源信息领域的说话人自适应语音情感识别方法 |
CN113255800A (zh) * | 2021-06-02 | 2021-08-13 | 中国科学院自动化研究所 | 基于音视频的鲁棒情感建模系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758332A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于倒谱特征线性情感补偿的说话人识别方法 |
CN102737629A (zh) * | 2011-11-11 | 2012-10-17 | 东南大学 | 一种嵌入式语音情感识别方法及装置 |
CN102890930A (zh) * | 2011-07-19 | 2013-01-23 | 上海上大海润信息系统有限公司 | 基于hmm/sofmnn混合模型的语音情感识别方法 |
CN103236258A (zh) * | 2013-05-06 | 2013-08-07 | 东南大学 | 基于巴氏距离最优小波包分解的语音情感特征提取方法 |
CN103295573A (zh) * | 2013-05-06 | 2013-09-11 | 东南大学 | 基于费舍比率最优小波包分解的语音情感特征提取方法 |
US20130262087A1 (en) * | 2012-03-29 | 2013-10-03 | Kabushiki Kaisha Toshiba | Speech synthesis apparatus, speech synthesis method, speech synthesis program product, and learning apparatus |
CN105070300A (zh) * | 2015-08-12 | 2015-11-18 | 东南大学 | 一种基于说话人标准化变换的语音情感特征选择方法 |
CN105139867A (zh) * | 2015-08-12 | 2015-12-09 | 东南大学 | 基于拼音韵母说话内容标准化语音情感特征选择方法 |
-
2016
- 2016-08-22 CN CN201610699936.7A patent/CN106297823A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1758332A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于倒谱特征线性情感补偿的说话人识别方法 |
CN102890930A (zh) * | 2011-07-19 | 2013-01-23 | 上海上大海润信息系统有限公司 | 基于hmm/sofmnn混合模型的语音情感识别方法 |
CN102737629A (zh) * | 2011-11-11 | 2012-10-17 | 东南大学 | 一种嵌入式语音情感识别方法及装置 |
US20130262087A1 (en) * | 2012-03-29 | 2013-10-03 | Kabushiki Kaisha Toshiba | Speech synthesis apparatus, speech synthesis method, speech synthesis program product, and learning apparatus |
JP2013205697A (ja) * | 2012-03-29 | 2013-10-07 | Toshiba Corp | 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置 |
CN103236258A (zh) * | 2013-05-06 | 2013-08-07 | 东南大学 | 基于巴氏距离最优小波包分解的语音情感特征提取方法 |
CN103295573A (zh) * | 2013-05-06 | 2013-09-11 | 东南大学 | 基于费舍比率最优小波包分解的语音情感特征提取方法 |
CN105070300A (zh) * | 2015-08-12 | 2015-11-18 | 东南大学 | 一种基于说话人标准化变换的语音情感特征选择方法 |
CN105139867A (zh) * | 2015-08-12 | 2015-12-09 | 东南大学 | 基于拼音韵母说话内容标准化语音情感特征选择方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107895582A (zh) * | 2017-10-16 | 2018-04-10 | 中国电子科技集团公司第二十八研究所 | 面向多源信息领域的说话人自适应语音情感识别方法 |
CN113255800A (zh) * | 2021-06-02 | 2021-08-13 | 中国科学院自动化研究所 | 基于音视频的鲁棒情感建模系统 |
CN113255800B (zh) * | 2021-06-02 | 2021-10-15 | 中国科学院自动化研究所 | 基于音视频的鲁棒情感建模系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN109410914A (zh) | 一种赣方言语音和方言点识别方法 | |
CN108269133A (zh) | 一种结合人体识别和语音识别的智能广告推送方法及终端 | |
CN106504772B (zh) | 基于重要性权重支持向量机分类器的语音情感识别方法 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN109377981B (zh) | 音素对齐的方法及装置 | |
CN105070300A (zh) | 一种基于说话人标准化变换的语音情感特征选择方法 | |
CN103236258B (zh) | 基于巴氏距离最优小波包分解的语音情感特征提取方法 | |
CN102237083A (zh) | 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法 | |
CN114566189B (zh) | 基于三维深度特征融合的语音情感识别方法及系统 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 | |
CN108364641A (zh) | 一种基于长时帧背景噪声估计的语音情感特征提取方法 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN116010874A (zh) | 基于深度学习多模态深尺度情感特征融合的情感识别方法 | |
CN116246639A (zh) | 自监督说话人验证模型训练方法、电子设备和存储介质 | |
Almekhlafi et al. | A classification benchmark for Arabic alphabet phonemes with diacritics in deep neural networks | |
CN114783418A (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN111090726A (zh) | 一种基于nlp的电力行业文字客服交互方法 | |
CN106971721A (zh) | 一种基于嵌入式移动设备的地方口音语音识别系统 | |
Farooq et al. | Mispronunciation detection in articulation points of Arabic letters using machine learning | |
CN106297823A (zh) | 一种基于环境噪声标准化变换的语音情感特征选择方法 | |
CN113611285A (zh) | 基于层叠双向时序池化的语种识别方法 | |
Radha et al. | Speech and speaker recognition using raw waveform modeling for adult and children’s speech: A comprehensive review | |
CN114360584A (zh) | 一种基于音素级的语音情感分层式识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170104 |