CN101620852A - 一种基于改进二次判别式的语音情感识别方法 - Google Patents
一种基于改进二次判别式的语音情感识别方法 Download PDFInfo
- Publication number
- CN101620852A CN101620852A CN200810122805A CN200810122805A CN101620852A CN 101620852 A CN101620852 A CN 101620852A CN 200810122805 A CN200810122805 A CN 200810122805A CN 200810122805 A CN200810122805 A CN 200810122805A CN 101620852 A CN101620852 A CN 101620852A
- Authority
- CN
- China
- Prior art keywords
- parameter
- sigma
- formula
- lambda
- variance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于改进二次判别式的语音情感识别方法,利用本方法可以有效降低由于情感特征参数统计概率分布多样性所带来的误识别率。本发明首先对特征参数进行了一种指数变换,使得变换后参数分布近正态化,然后以变换后参数服从正态分布为前提,估计出原始特征概率分布函数,并取对数形式,从而得到一种改进的二次判别式。与已有的其他一些特征正态化变换比较,本发明所采用的指数变换可以更有效的正态化特征参数,并且采用改进二次判别式可以有效提高识别率。
Description
技术领域
本发明涉及一种语音识别方法,特别涉及一种语音情感识别系统及方法。
背景技术
语音情感自动识别技术主要包括两个问题:一是采用语音信号中的何种特征作为情感识别,也就是情感特征提取的问题,一是如何将特定的语音数据进行分类,也就是模式识别的问题。
语音情感识别中常用的情感特征主要是韵律参数及音质参数,前者包括持续时间、语速、能量、基音频率及其衍生参数,音质参数主要是是共振峰、谐波噪声比及其衍生参数等。但是由于人和人之间存在的个体差异性(声道的易变性、声道特征、单词发音音调等)目前存在的方法都难以实现基音和共振峰的精确检测,单纯的使用基音、共振峰等常见的参数难以实现较高的情感识别率。根据三维情感空间理论,韵律参数主要是体现各种情感在激活维坐标的参数,而音质参数则主要是表征情感在效价维的坐标。对于在激活维坐标较远的情感,韵律参数可以表征出较好的差异性;对于在激活维坐标较近而效价维坐标较远的情感,需要音质类参数来加强表征参数差异性。
在本发明之前,在已有的各种识别方法中,神经网络法虽然具有高度的非线性和极强的分类能力,但是随着网络的增大所需学习时间增加很快,另外局部极小问题也是一个不足之处;隐马尔可夫法(HMM)在建立和训练时间上较长,应用于实际还需要解决计算复杂度过高的问题。二次判别式虽然算法简单计算量小,但是必须以特征矢量服从正态分布为前提,极大的影响了识别率,而到目前为止,特征矢量的正态化,例如开根或Box-Cox变换,对近Г分布的参数有较好的效果,而上面提到的参数分布是多样非正态的,对其概率函数如何寻找更有效的正态变换是采用二次判别式进行识别过程中必须考虑的问题。
发明内容
本发明的目的就在于克服上述现有技术的缺陷,设计、研究一种基于改进二次判别式的语音情感识别方法。
本发明的技术方案是:
一种基于改进二次判别式的语音情感识别方法,其主要技术步骤为:
建立特征提取分析模块、改进二次判别模型、情感识别模块。特征提取分析模块包括两类参数的提取和分析:韵律参数和音质参数。首先对原始语音信号预加重、分帧,然后分别进行特征提取。
(1)韵律参数提取
(1-1)将原始语音信号经高通滤波器预处理,提取发音持续时间、语速参数;
(1-2)分帧,加窗;
(1-3)应用短时分析技术,分别提取各帧语句主要特征参数:基频轨迹、短时能量轨迹、浊音段清音段时间比;
(1-4)提取部分韵律特征参数的衍生参数:短时能量最大值、最小值、均值和方差,短时能量抖动最大值、最小值、均值和方差,基频最大值、最小值、均值和方差,基频抖动的最大值、最小值、均值和方差。其中短时能量抖动的计算如下:
其中Ei 0是第i帧短时能量,N为帧数。基频抖动的计算同(式1)。
(2)音质特征参数提取:
(2-1)提取声门波参数的最大值、最小值、均值和方差,包括:声门开启时间与整个声门周期比(OQ,open quotient)、声门开启过程时间与闭合过程时间比(SQ,speed quotient)、声门闭合时间与整个声门周期比(CQ,ClosedQuotient)、声门闭合过程时间与整个声门周期比(ClQ,Closing Quotient)、声门波歪斜度;
(2-2)提取谐波噪声比最大值、最小值、均值、方差;
(2-3)提取前三个共振峰最大值、最小值、均值、方差和带宽;
(2-4)提取前三个共振峰抖动的最大值、最小值、均值、方差;共振峰抖动计算同(式1);
(3)特征降维
(3-1)将(1)(2)中全部特征提取完毕后,组成特征矢量;
(3-2)采用独立分量神经网络分析法对所有特征降维,神经网络权值向量更新公式:
wj[k+1]=wj[k]+η(yj[k]x′[k]-yj 2[k]wj[k]) (式2)
这里选择可以保证90%以上信息的主分量个数为25。
(4)改进二次判别式的建立
(4-1)从情感语句库中选取高兴、生气、悲伤、恐惧、惊讶五类情感各Ni条语句作为训练样本,
(4-2)对第i类第k条情感语句,抽取其特征参数构成一个特征参数矢量xk i=(xk1 i,xk2 i,…,xkm i)T,然后对其正态化变换得到yk i=(yk1 i,yk2 i,…ykm i);
(4-3)以yk i服从正态分布为前提,求得xk i的概率密度函数p(xk i|wi)的对数形式;
(4-4)求取p(xk i|wi)中参数估计值;
将ykj i在 处进行泰勒展开,并代入(式5),并令 得到
(4-5)根据(4-2)~(4-4),根据男女性别分别建立五类情感的二次判别式;
(5)情感识别:按照步骤(1)、(2)提取待识别语句的特征矢量,根据步骤(3)所提供的权值向量进行降维,得到降维后特征矢量x,按照性别输入到各个二次判别式中,选择具有最大输出值所对应的情感为待识别语句的情感。
本发明的优点和效果在于:
1.通过对情感语句的特征参数提取与分析,将参数从韵律参数扩充至音质参数,增加了特征参数的有效性;
2.采用独立分量神经网络对所提取的特征矢量进行降维,不仅减少了计算量,而且在一定程度上起到了降噪作用;
3.充分考虑了特征矢量非正态分布的实际情况,在识别前对原始特征进行非线性变换以得到正态化参数,较以往其他变换更有效;
4.获得更确切的原始特征矢量概率密度函数用于建立改进的二次判别式,并在此基础上提供了一个实用的、性能优良的高识别率语音情感识别系统,获得最好的语音情感识别;
5.方法简单,计算量较小。
本发明的其他优点和效果将在下面继续描述。
附图说明
图1——语音情感识别系统框图。
图2——情感特征提取分析模块流程图。
图3——声门门波形及其微分波形图
图4——独立分量神经网络示意图
图5——开根法、Box-Cox变换和本发明变换对特征参数正态化的峭度比较
图6——基于改进二次判别函数的语音情感识别结果
具体实施方式
下面结合附图和实施例,对本发明所述的技术方案作进一步的阐述。
图1为本系统框图,主要分为3大块:特征提取分析模块、改进二次判别式模块和语音情感识别模块。整个系统执行过程分为训练过程和识别过程。训练过程包括特征提取分析、改进二次判别式的建立;识别过程包括特征提取分析、语音情感识别。
一.情感特征提取分析模块
1.韵律特征参数选择
韵律特征参数包括:短时能量最大值、最小值、均值和方差;短时能量抖动最大值、最小值、均值和方差;基频的最大值、最小值、均值和方差;基频抖动的最大值、最小值、均值和方差;浊音段清音段时间比;语速。
首先,根据附图2中的特征参数提取流程将待提取特征语句进行预加重处理,包括高通滤波、语句开始端点与结束端点的检测;提取全句的语句发音持续时间、语速这两个特征;然后对语句分帧加窗,采用短时分析技术,按照男女性别,分别求出各帧基频、短时能量、浊音帧数和清音帧数,将各帧所得参数汇总,分别得到语句的基音轨迹、基音抖动轨迹、短时能量轨迹和短时能量抖动轨迹,进而获得它们的特征统计量,得到上述全部韵律特征参数。
2.音质特征参数选择
音质特征参数包括:OQ的最大值、最小值、均值和方差;SQ的最大值、最小值、均值和方差;CQ的最大值、最小值、均值和方差;ClQ的最大值、最小值、均值和方差;Rk的最大值、最小值、均值和方差;第一共振峰最大值、最小值、均值、方差和带宽;第一共振峰抖动的最大值、最小值、均值、方差;第二共振峰最大值、最小值、均值、方差和带宽;第二共振峰抖动的最大值、最小值、均值、方差;第三共振峰最大值、最小值、均值、方差和带宽;第三共振峰抖动的最大值、最小值、均值、方差;谐波噪声比最大值、最小值、均值、方差。
多个音质参数的选取是本文方法的特点之一。虽然韵律特征在识别中起主导作用,但在识别某些激活维接近效价维分离的情感时,如高兴和生气,音质特征可以起到有效补充作用。音质参数是反映发音时声门波形状的变化,其影响因素有肌肉张力,声道中央压力以及声道长度张力,具体的有声源类型(发音方式)、声门波参数和声道共振峰参数。LF模型(Liljencrants-Fant Mode)是常用的描述声门波的模型,如图3所示,T0:基音周期;to:声门开启时刻;tc:声门闭合时刻;tp:声门波达到最大峰值时刻;te:差分波达到最大负峰值时刻。根据此模型可提取如下声门波参数:
具体实施时,仍然需要进行预加重处理,包括高通滤波、语句开始端点与结束端点的检测;然后对语句分帧加窗,分别得到声门波特征、共振峰特征、谐波噪声比等音质参数。
在系统的执行过程中,特征提取分析是必不可少的。在训练过程中,训练样本的特征提取分析可以直接按照图2所示流程进行。在识别过程中,待识别语句的特征提取分析同样按照图2流程进行。
3.特征降维
前面分析提取了共69个特征参数,为避免维度过高而引起的计算复杂度提升,以及冗余信息对识别的影响,采用独立分量神经网络来实现降维,采用基于Hebb规则的线性无监督学习神经网络,如图4所示。通过对权矩阵W的学习,使权值向量接近于特征向量x的斜方差阵中特征值所对应的特征向量,避免直接对矩阵的求逆运算。得到降维后特征矢量y=WTx。权值向量修改规则如下:
wj[k+1]=wj[k]+η(yj[k]x′[k]-yj 2[k]wj[k])(式13)
二.改进二次判别式
1.改进二次判别式的推导
从情感语句库中选取高兴、生气、悲伤、恐惧、惊讶五类情感各Ni条语句作为训练样本, 对第i类第k条情感语句,抽取其特征参数构成一个特征参数矢量xk i=(xk1 i,xk2 i,…,xkm i)T,然后对其正态化变换得到yk i=(yk1 i,yk2 i,…,ykm i);
设ykj i服从正态分布,求得xkj i的概率密度函数的对数形式;
将(式15)代入(式16),去掉常数项,整理得到:
将ykj i在 处进行泰勒展开:
代入(式17),并令 得到:
同理,将特征矢量的密度函数取对数并简化:
p(xk i|wi)中参数估计值;
按照上述步骤分别建立不同性别各自的五种情感二次判别式。
2.情感识别
根据特征提取模块流程提取待识别语句特征矢量,按照男女性别进行判断,将输出最大值的二次判别式所对应的情感作为识别结果。
三.识别系统的评价
图5是本发明所用指数变换、开根变换、Box-Cox变换和无变换对特征参数正态化后峭度比较,从图中可以看出,无变换情况下,参数是远离正态分布的,正态化情况下,Box-Cox变换优于开根变换,本发明所用变换优于Box-Cox变换;图6所示是实施改进二次判别式同其传统二次判别式、基于开根的二次判别式和基于Box-Cox的二次判别式的识别结果。该结果表明,使用本发明方法对语音情感进行识别大大高于现有其他二次判别方法,克服了二次判别式以正态分布为前提的局限性,将具有多样分布特性的语音特征参数规整为正态或近正态分布,从而得到改进的二次判别形式。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。
Claims (1)
1.一种基于改进二次判别式的语音情感识别方法,其步骤为:
建立特征提取分析模块、改进二次判别模型、情感识别模块;特征提取分析模块包括两类参数的提取和分析:韵律参数和音质参数;首先对原始语音信号预加重、分帧,然后分别进行特征提取;
(1)韵律参数提取
(1-1)将原始语音信号经高通滤波器预处理,提取发音持续时间、语速参数;
(1-2)分帧,加窗;
(1-3)应用短时分析技术,分别提取各帧语句主要特征参数:基频轨迹、短时能量轨迹、浊音段清音段时间比;
(1-4)提取部分韵律特征参数的衍生参数:短时能量最大值、最小值、均值和方差,短时能量抖动最大值、最小值、均值和方差,基频最大值、最小值、均值和方差,基频抖动的最大值、最小值、均值和方差;其中短时能量抖动的计算如下:
其中Ei 0是第i帧短时能量,N为帧数;基频抖动的计算同(式1);
(2)音质特征参数提取:
(2-1)提取声门波参数的最大值、最小值、均值和方差,包括:声门开启时间与整个声门周期比(OQ,open quotient)、声门开启过程时间与闭合过程时间比(SQ,speed quotient)、声门闭合时间与整个声门周期比(CQ,ClosedQuotient)、声门闭合过程时间与整个声门周期比(ClQ,Closing Quotient)、声门波歪斜度;
(2-2)提取谐波噪声比最大值、最小值、均值、方差;
(2-3)提取前三个共振峰最大值、最小值、均值、方差和带宽;
(2-4)提取前三个共振峰抖动的最大值、最小值、均值、方差;共振峰抖动计算同(式1);
(3)特征降维
(3-1)将(1)(2)中全部特征提取完毕后,组成特征矢量;
(3-2)采用独立分量神经网络分析法对所有特征降维,神经网络权值向量更新公式:
wj[k+1]=wj[k]+η(yj[k]x′[k]-yj 2[k]wj[k]) (式2)
这里选择可以保证90%以上信息的主分量个数为25;
(4)改进二次判别式的建立
(4-1)从情感语句库中选取高兴、生气、悲伤、恐惧、惊讶五类情感各Ni条语句作为训练样本,
(4-2)对第i类第k条情感语句,抽取其特征参数构成一个特征参数矢量xk i=(xk1 i,xk2 i,…,xkm i)T,然后对其正态化变换得到yk i=(yk1 i,yk2 i,…,ykm i);
(4-3)以yk i服从正态分布为前提,求得xk i的概率密度函数p(xk i|wi)的对数形式;
(4-4)求取p(xk i|wi)中参数估计值;
将ykj i在 处进行泰勒展开,并代入(式5),并令 得到 r=2,3,4 (式7)
(4-5)根据(4-2)~(4-4),根据男女性别分别建立五类情感的二次判别式;
(5)情感识别:按照步骤(1)、(2)提取待识别语句的特征矢量,根据步骤(3)所提供的权值向量进行降维,得到降维后特征矢量x,按照性别输入到各个二次判别式中,选择具有最大输出值所对应的情感为待识别语句的情感。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810122805A CN101620852A (zh) | 2008-07-01 | 2008-07-01 | 一种基于改进二次判别式的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810122805A CN101620852A (zh) | 2008-07-01 | 2008-07-01 | 一种基于改进二次判别式的语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101620852A true CN101620852A (zh) | 2010-01-06 |
Family
ID=41514056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810122805A Pending CN101620852A (zh) | 2008-07-01 | 2008-07-01 | 一种基于改进二次判别式的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101620852A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937678A (zh) * | 2010-07-19 | 2011-01-05 | 东南大学 | 一种针对烦躁情绪的可据判的自动语音情感识别方法 |
CN102184731A (zh) * | 2011-05-12 | 2011-09-14 | 北京航空航天大学 | 一种韵律类和音质类参数相结合的情感语音转换方法 |
CN102411932A (zh) * | 2011-09-30 | 2012-04-11 | 北京航空航天大学 | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 |
CN102750950A (zh) * | 2011-09-30 | 2012-10-24 | 北京航空航天大学 | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 |
CN102831891A (zh) * | 2011-06-13 | 2012-12-19 | 富士通株式会社 | 一种语音数据处理方法及系统 |
CN110033786A (zh) * | 2019-04-19 | 2019-07-19 | 网易(杭州)网络有限公司 | 性别判断方法、装置、设备及可读存储介质 |
-
2008
- 2008-07-01 CN CN200810122805A patent/CN101620852A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937678A (zh) * | 2010-07-19 | 2011-01-05 | 东南大学 | 一种针对烦躁情绪的可据判的自动语音情感识别方法 |
CN102184731A (zh) * | 2011-05-12 | 2011-09-14 | 北京航空航天大学 | 一种韵律类和音质类参数相结合的情感语音转换方法 |
CN102831891A (zh) * | 2011-06-13 | 2012-12-19 | 富士通株式会社 | 一种语音数据处理方法及系统 |
CN102831891B (zh) * | 2011-06-13 | 2014-11-05 | 富士通株式会社 | 一种语音数据处理方法及系统 |
CN102411932A (zh) * | 2011-09-30 | 2012-04-11 | 北京航空航天大学 | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 |
CN102750950A (zh) * | 2011-09-30 | 2012-10-24 | 北京航空航天大学 | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 |
CN102750950B (zh) * | 2011-09-30 | 2014-04-16 | 北京航空航天大学 | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 |
CN110033786A (zh) * | 2019-04-19 | 2019-07-19 | 网易(杭州)网络有限公司 | 性别判断方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102800316B (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
CN101620853A (zh) | 一种基于改进模糊矢量量化的语音情感识别方法 | |
CN1975856B (zh) | 一种基于支持向量机的语音情感识别方法 | |
CN103617799B (zh) | 一种适应于移动设备的英语语句发音质量检测方法 | |
CN103928023B (zh) | 一种语音评分方法及系统 | |
CN103345923B (zh) | 一种基于稀疏表示的短语音说话人识别方法 | |
CN101685634B (zh) | 一种儿童语音情感识别方法 | |
CN101599271B (zh) | 一种数字音乐情感的识别方法 | |
CN104732977A (zh) | 一种在线口语发音质量评价方法和系统 | |
CN104900229A (zh) | 一种语音信号混合特征参数的提取方法 | |
CN102982803A (zh) | 基于hrsf及改进dtw算法的孤立词语音识别方法 | |
CN104835498A (zh) | 基于多类型组合特征参数的声纹识别方法 | |
CN103065627A (zh) | 基于dtw与hmm证据融合的特种车鸣笛声识别方法 | |
CN107221318A (zh) | 英语口语发音评分方法和系统 | |
CN101620852A (zh) | 一种基于改进二次判别式的语音情感识别方法 | |
CN101226743A (zh) | 基于中性和情感声纹模型转换的说话人识别方法 | |
CN102655003B (zh) | 基于声道调制信号mfcc的汉语语音情感点识别方法 | |
CN104978507A (zh) | 一种基于声纹识别的智能测井评价专家系统身份认证方法 | |
CN104240720A (zh) | 一种基于多重分形和信息融合的语音情感识别方法 | |
CN104464724A (zh) | 一种针对刻意伪装语音的说话人识别方法 | |
Deshmukh et al. | Speech based emotion recognition using machine learning | |
CN101650944A (zh) | 基于保类内核Fisher判别法的说话人辨别实现方法 | |
Zhou et al. | Classification of speech under stress based on features derived from the nonlinear Teager energy operator | |
CN106531174A (zh) | 基于小波包分解和声谱图特征的动物声音识别方法 | |
CN101419800B (zh) | 基于频谱平移的情感说话人识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20100106 |