CN103594084A - 联合惩罚稀疏表示字典学习的语音情感识别方法及系统 - Google Patents

联合惩罚稀疏表示字典学习的语音情感识别方法及系统 Download PDF

Info

Publication number
CN103594084A
CN103594084A CN201310503631.0A CN201310503631A CN103594084A CN 103594084 A CN103594084 A CN 103594084A CN 201310503631 A CN201310503631 A CN 201310503631A CN 103594084 A CN103594084 A CN 103594084A
Authority
CN
China
Prior art keywords
dictionary
prime
training sample
coding
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310503631.0A
Other languages
English (en)
Other versions
CN103594084B (zh
Inventor
毛启容
董俊健
黄正伟
王新宇
邢玉萍
詹永照
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN201310503631.0A priority Critical patent/CN103594084B/zh
Publication of CN103594084A publication Critical patent/CN103594084A/zh
Application granted granted Critical
Publication of CN103594084B publication Critical patent/CN103594084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种联合惩罚稀疏表示字典学习的语音情感识别方法及系统,该方法包括:S1、对训练样本库中每个情感语音信号进行特征提取和处理,得到训练样本特征矩阵A;S2、用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典
Figure DDA0000400306890000011
;S3、对测试样本库中的情感语音信号进行特征提取和处理,每个测试样本得到各自的测试样本特征向量y;S4、将测试样本特征向量y在字典
Figure DDA0000400306890000012
上进行稀疏编码得到编码系数
Figure DDA0000400306890000013
S5、根据字典
Figure DDA0000400306890000014
学习的识别准则进行识别。本发明成功地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法对语音情感信号进行识别,使得识别结果更准确。

Description

联合惩罚稀疏表示字典学习的语音情感识别方法及系统
技术领域
本发明涉及语音信号处理、信号的稀疏表示和模式识别技术领域,尤其涉及一种基于联合惩罚稀疏表示字典学习的语音情感识别方法及系统。
背景技术
语音信息在人类交流中扮演重要的角色,有研究表明,人类40%的情感信息都是通过说话进行传递的。准确理解人的情感有助于促进和谐的人机交互。因此,如何使用计算机技术从语音中自动识别说话人的情感状态近年来受到各领域研究者的广泛关注。近年来,稀疏表示技术在图像识别中取得很好的效果,例如人脸识别,数字和文本识别等。
现有技术一采用训练样本作为原子组成一个结构化的字典,对人脸特征进行稀疏表示,稀疏表示后的特征具有很好的识别能力,并具有较好的鲁棒性。但该技术简单地将训练样本作为原子组成一个结构化的字典,得到的字典的性能过分依赖训练样本。现有技术二通过在字典学习目标函数中加入与类别标签信息相关的线性分类器惩罚函数的方法进行字典学习,该技术能得到一个具有较强识别力的字典,但该技术学习得到的字典是一个被所有类别共享的字典,即学习后字典中的原子没有与之对应的类别标签信息,该技术不能用SRC(SparseRepresentation based Classification)的重构误差识别准则来识别,失去了重构误差识别准则的优势。
然而,现有技术中未同时考虑子编码和全编码惩罚函数,而且未发现基于稀疏表示的语音情感识别技术。
为了解决现有技术的缺陷,因此,本发明提供了一种联合惩罚稀疏表示字典学习的语音情感识别方法及系统。在字典学习的目标函数中同时加入子编码惩罚函数和全编码惩罚函数,学习后能同时得到两个具有较高识别力的识别准则,即子编码识别准则和全编码识别准则(对应着字典学习中两个有识别力的惩罚函数)。其中的子编码识别准则不但可以用每个子字典的重构误差来识别,还可以用每个子字典上的编码系数大小来识别,全编码识别准则根据整个字典上的编码系数来识别。联合这两个识别准则设计出基于子编码和全编码联合惩罚的字典学习识别准则,可有效提高语音情感的识别率。
发明内容
本发明针对背景技术中字典学习未同时考虑子编码和全编码惩罚函数,而且未发现基于稀疏表示的语音情感识别技术的缺陷,提供了一种联合惩罚稀疏表示字典学习的语音情感识别方法及系统,将基于子编码和基于全编码的惩罚函数相结合进行联合惩罚的稀疏表示字典学习方法,并提供了基于联合惩罚稀疏表示字典学习的语音情感识别技术,最终提高语音情感的识别率。
为了实现上述目的,本发明实施例提供的技术方案如下:
一种联合惩罚稀疏表示字典学习的语音情感识别方法,所述方法包括:
S1、对训练样本库中每个情感语音信号进行特征提取和处理,得到训练样本特征矩阵A;
S2、用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典
Figure BDA0000400306870000025
S3、对测试样本库中的情感语音信号进行特征提取和处理,每个测试样本得到各自的测试样本特征向量y;
S4、将测试样本特征向量y在字典
Figure BDA0000400306870000021
上进行稀疏编码得到编码系数
Figure BDA0000400306870000022
S5、根据字典
Figure BDA0000400306870000023
学习的识别准则进行识别。
作为本发明的进一步改进,所述步骤S1具体包括:
对训练样本库中的每个情感语音信号进行预处理,预处理包括预加重、加窗处理、分帧、端点检测;
对训练样本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰的语音的声学和韵律特征,并在情感语音信号上分别提取所述声学和韵律特征的最大值、最小值以及变化范围的统计特征;
将训练样本库中的每个情感语音信号的特征向量作为列构成训练样本特征矩阵。
作为本发明的进一步改进,所述步骤S2中子编码和全编码联合惩罚的字典学习方法的目标函数为:
J ( D , W ) = arg min D , W Σ i = 1 C { | | A i - DX i | | F 2 + | | A i - D i X i i | | F 2 + μ Σ j ≠ i | | X i j | | F 2 + η | | H i - WX i | | F 2 + β | | W | | F 2 } + λ | | X | | 1 s . t . | | d i | | 2 2 = 1 , for ∀ i = 1 , . . . , N ,
其中,μ,λ是权衡各个惩罚项的标量参数,c表示类别的个数,A′=[A1′,A2′,...,Ac′]表示带类别标签的训练样本特征矩阵,Ai′表示类别为i的带类别标签的训练样本特征矩阵,字典D′=[D1′,D2′,...,Dc′]=[d1′,d2′,...,dN′],Di′表示与类别i相关的子字典,di′表示字典的第i个原子,一共有N个原子,X′表示带类别标签的训练样本特征矩阵A′在字典D′上的编码系数,也就是A′≈D′X′,A′的编码系数X′表示为X′=[X1′,X2′,...,Xc′],其中Xi′表示Ai′在字典D′上的编码系数,
Figure BDA00004003068700000312
表示Ai′在子字典Dj′上的编码系数。
作为本发明的进一步改进,所述步骤S2具体为:
对训练样本特征矩阵A进行预处理;
初始化A′和D′,将A′和D′的每一列都归一化;
固定字典D′更新编码系数X′,目标函数简化为:
J X i ′ = arg min X i ′ { | | A i ′ - D ′ X i ′ | | F 2 + | | A i ′ - D i ′ X i i ′ | | F 2 + μ Σ j ≠ i | | X i j ′ | | F 2 + λ | | X i ′ | | 1 } ;
固定更新后的编码系数X′来更新字典D′,目标函数简化为:
J D i ′ = arg min D i ′ { | | A ′ - Σ j = 1 , j ≠ i c D j ′ X j ′ - D i ′ X i ′ | | F 2 + | | A i ′ - D i ′ X i i ′ | | F 2 } s . t . | | d i ′ | | 2 2 = 1 , for ∀ i = 1 , . . . , N ;
重复步骤上述步骤直到目标函数收敛或达到指定迭代次数,输出D′。
作为本发明的进一步改进,所述标量参数λ,η,μ采用5倍交叉验证方法获得。
作为本发明的进一步改进,所述步骤S3具体为:
对测试样本库中的每个情感语音信号进行预处理,预处理包括预加重、加窗处理、分帧、端点检测;
对测试本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰的语音的声学和韵律特征,并在情感语句上分别提取所述声学和韵律特征的最大值、最小值以及变化范围的统计特征,每个情感语音信号得到各自的测试样本特征向量y。
作为本发明的进一步改进,所述步骤S4具体为:
对学习得到的字典D′进行预处理;
将测试样本特征向量y在字典
Figure BDA0000400306870000034
上进行稀疏编码。
作为本发明的进一步改进,所述步骤S5中字典
Figure BDA0000400306870000035
学习的识别准则为:
identity ( y ) = arg min i { | | y - D ^ i α ^ i | | 2 - θ | | α ^ i | | 2 + ω | | h i - W ^ α ^ | | 2 } ,
其中,θ和ω是权衡各个项的标量参数, 表示与类别i相关的子字典,
Figure BDA0000400306870000039
Figure BDA00004003068700000310
表示y在子字典
Figure BDA00004003068700000311
上的编码稀疏。
相应地,一种联合惩罚稀疏表示字典学习的语音情感识别系统,所述系统包括:
字典学习模块,用于:
对训练样本库中每个情感语音信号进行特征提取和处理,得到训练样本特征矩阵A;
用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典
Figure BDA0000400306870000044
稀疏表示模块,用于:
对测试样本库中的情感语音信号进行特征提取和处理,每个测试样本得到各自的测试样本特征向量y;
将测试样本特征向量y在字典上进行稀疏编码得到编码系数
Figure BDA0000400306870000046
识别模块,用于:
根据字典
Figure BDA0000400306870000047
学习的识别准则进行识别。
本发明具有以下有益效果:
本发明巧妙地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法,联合了子编码差惩罚函数和全编码惩罚函数,充分利用了这两个个惩罚函数的优势,通过权衡这两个有识别力的惩罚函数可以获得比其他稀疏表示字典学习方法更好的识别效果。
本发明使用的基于子编码和全编码联合惩罚的稀疏表示字典学习方法,其中的子编码差惩罚函数的第二个惩罚项
Figure BDA0000400306870000041
和FDDL(Fisher Discrimination Dictionary Learningfor sparse representation)的有识别力的保真度惩罚函数中的惩罚项
Figure BDA0000400306870000042
相比是有优势的,基于子编码的惩罚函数不仅对子字典的重构误差有约束,还对子字典上的编码系数大小有约束,因此字典学习后不仅可以用每个子字典的重构误差来识别,还可以用每个子字典上的编码系数的大小来识别,而FDDL则只能用每个子字典的重构误差来识别。
Figure BDA0000400306870000043
Figure BDA0000400306870000048
更强大且更符合基于稀疏表示识别的要求,即大的编码系数几乎都集中在自己所属类别的子字典上。
本发明成功地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法对语音情感信号进行识别,使得识别结果更准确。
附图说明
图1是本发明一实施方式中基于联合惩罚稀疏表示字典学习的语音情感识别方法的流程框架图。
具体实施方式
以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
本发明公开了一种联合惩罚稀疏表示字典学习的语音情感识别方法,包括:
S1、对训练样本库中每个情感语音信号进行特征提取和处理,得到训练样本特征矩阵A;
S2、用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典
Figure BDA0000400306870000054
S3、对测试样本库中的情感语音信号进行特征提取和处理,每个测试样本得到各自的测试样本特征向量y;
S4、将测试样本特征向量y在字典
Figure BDA0000400306870000055
上进行稀疏编码得到编码系数
Figure BDA0000400306870000056
S5、根据字典
Figure BDA0000400306870000057
学习的识别准则进行识别。
其中,步骤S1具体包括:
S11:对训练样本库中的每个情感语音信号进行预处理。这一步采用传统的语音信号预处理方法对情感语音信号进行预处理,包括预加重、加窗处理、分帧、端点检测。
S12:对训练样本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰等语音的声学和韵律特征,并在情感语音信号上分别提取这些特征的最大值、最小值以及变化范围等统计特征。这些特征的提取过程不属于本发明部分,因此不做详细叙述。最终每个情感语音信号都得到各自的特征向量ai,i∈(1,m),其中m是训练样本库中情感语音信号的个数。
S13:将训练样本库中的每个情感语音信号的特征向量作为列构成训练样本特征矩阵A=[a1,a2,...,am]。
基于子编码差惩罚函数如式(1)所示,全编码差惩罚函数如式(2)所示:
r 1 ( A , D , X ) = Σ i = 1 C { | | A i - D i X i i | | F 2 + μ Σ j ≠ i | | X i j | | F 2 } + λ | | X | | 1 - - - ( 1 )
r 2 ( H , W , X ) = | | H - WX | | F 2 + β | | W | | F 2 - - - ( 2 )
其中μ和λ是衡量各个惩罚项的标量参数。由于对D′的每一列都做归一化操作,所以惩罚项
Figure BDA0000400306870000053
可以省略。通过上述换元方法,训练样本特征矩阵A转化为带标签信息的样本矩阵特征A′,将字典D转化为带线性分类器参数的字典D′,将三个变量D,W,X转变为两个变量D′和X′,大大降低了字典的求解速度。
本发明中基于子编码和全编码联合惩罚的字典学习方法的目标函数为:
J ( D , W ) = arg min D , W Σ i = 1 C { | | A i - DX i | | F 2 + | | A i - D i X i i | | F 2 + μ Σ j ≠ i | | X i j | | F 2 + η | | H i - WX i | | F 2 + β | | W | | F 2 } + λ | | X | | 1 s . t . | | d i | | 2 2 = 1 , for ∀ i = 1 , . . . , N - - - ( 3 )
式(3)中μ,λ是权衡各个惩罚项的标量参数,c表示类别的个数,A′=[A1′,A2′,...,Ac′]表示带类别标签的训练样本特征矩阵,其中Ai′表示类别为i的带类别标签的训练样本特征矩阵。字典D′=[D1′,D2′,...,Dc′]=[d1′,d2′,...,dN′],其中Di′表示与类别i相关的子字典,di′表示字典的第i个原子,一共有N个原子。X′表示带类别标签的训练样本特征矩阵A′在字典D′上的编码系数,也就是A′≈D′X′,所以A′的编码系数X′可以表示为X′=[X1′,X2′,...,Xc′],其中Xi′表示Ai′在字典D′上的编码系数,
Figure BDA0000400306870000065
表示Ai′在子字典Dj′上的编码系数。
结合上述目标函数,步骤S2具体为:
S21:对训练样本特征矩阵A进行预处理。令 A ′ = A η H 表示带类别标签的训练样本特征矩阵,其中H是训练样本特征矩阵A对应的类别标签矩阵,H的每一列都是一个这样的向量hi=[0,0,...,1,...,0,0]T,非零元素1的位置标志着该列(情感语音信号特征向量)的类别信息;η是一个标量参数,用来权衡两种惩罚函数的有效性,η越大则表示全编码惩罚函数对于字典学习越有效。
S22:初始化A′和D′,将A′和D′的每一列都归一化。其中A′是标量矩阵,由 A ′ = A η H 计算可得;D′是变量矩阵,可以简单的通过随机一个矩阵来初始化。然后将A′和D′的每一列都归一化。
S23:固定字典D′更新编码系数X′。更新X′=[X1′,X2′,...,Xc′]时是逐个类别进行更新的,即计算Xi′时,Xj′,j≠i是不变的。这时式(3)所示的问题简化为:
J X i ′ = arg min X i ′ { | | A i ′ - D ′ X i ′ | | F 2 + | | A i ′ - D i ′ X i i ′ | | F 2 + μ Σ j ≠ i | | X i j ′ | | F 2 + λ | | X i ′ | | 1 } - - - ( 4 )
式(4)是一个结构化的稀疏正则化问题,可以用迭代的投影方法来解决。
S24:固定更新后的编码系数X′来更新字典D′,更新D′=[D1′,D2′,...,Dc′]时也是逐个类别(逐个子字典)来更新的,即计算Di′时,Dj′,j≠i是不变的。这时式(3)所表示的问题简化为:
J D i ′ = arg min D i ′ { | | A ′ - Σ j = 1 , j ≠ i c D j ′ X j ′ - D i ′ X i ′ | | F 2 + | | A i ′ - D i ′ X i i ′ | | F 2 } s . t . | | d i ′ | | 2 2 = 1 , for ∀ i = 1 , . . . , N - - - ( 5 )
式(5)更新Di′=[d1′,d2′,...,dN′]时是逐个原子进行更新的,即计算di′时,dj′,j≠i是不变的。因此式(5)变成了一个带约束的二次规划问题,可以用拉格朗日乘子法求解di′。
S25:重复步骤S23~S24直到式(3)所示的目标函数收敛或达到指定迭代次数,输出D′。
进一步地,字典学习过程中需要用到三个标量参数λ,η,μ,这些标量参数都是为了权衡各个项的大小,均采用5倍交叉验证方法来获得。其中稀疏度标量参数λ用来权衡编码的稀疏度,是稀疏表示识别正确率的根本保证。η用来权衡两种惩罚函数的有效性,η越大则表示全编码惩罚函数对于字典学习越有效。参数的具体选取方法为先根据参数的意义估计一些个初值,再用5倍交叉验证方法来选取最佳的参数值。
步骤S3具体包括:
S31:对测试样本库中的每个情感语音信号进行预处理。这一步采用传统的语音信号预处理方法对情感语音信号进行预处理,包括预加重、加窗处理、分帧、端点检测。
S32:对测试本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰等语音的声学和韵律特征,并在情感语句上分别提取这些特征的最大值、最小值以及变化范围等统计特征。这些特征的提取过程不属于本发明部分,因此不做详细叙述。最终每个情感语音信号都得到各自的测试样本特征向量y。
步骤S4具体为:
S41:对学习得到的字典D′进行预处理。D′由用于稀疏编码的字典D和用于识别的线性分类器参数W组成,即
Figure BDA0000400306870000072
由于D′是列归一化的,所以字典D不是列归一化的。为了得到能够用于稀疏编码的字典
Figure BDA0000400306870000073
和线性分类器参数
Figure BDA0000400306870000074
Figure BDA0000400306870000075
做如下处理: D ^ = ( d 1 | | d 1 | | , d 2 | | d 2 | | , . . . , d N | | d N | | ) , W ^ = ( w 1 | | d 1 | | , w 2 | | d 2 | | , . . . , w N | | d N | | ) .
S42:将测试样本特征向量y在字典
Figure BDA0000400306870000077
上进行稀疏编码。稀疏编码过程可以由经典的lasso算法来完成。由于lasso算法不属于本发明的部分,因此不做详细叙述。
步骤S5中,该字典学习的识别准则如式(6)所示:
identity ( y ) = arg min i { | | y - D ^ i α ^ i | | 2 - θ | | α ^ i | | 2 + ω | | h i - W ^ α ^ | | 2 } - - - ( 6 )
式(6)中θ和ω是权衡各个项的标量参数,当ω∈[0,+∞)越大表示全编码识别准则越准确,当ω=0表示只采用子编码识别准则。当ω=0,θ=0时就回到了只用子字典的重构误差来识别,这就成了SRC的识别准则。参数的具体选取方法为先根据参数的意义估计一些个初值,再用5倍交叉验证方法来选取最佳的参数值。式(6)中
Figure BDA0000400306870000081
其中
Figure BDA0000400306870000082
表示与类别i相关的子字典,其中
Figure BDA0000400306870000084
表示y在子字典
Figure BDA0000400306870000085
上的编码稀疏。
相应地,本发明还公开了一种联合惩罚稀疏表示字典学习的语音情感识别系统,包括:
字典学习模块,用于:
对训练样本库中每个情感语音信号进行特征提取和处理,得到训练样本特征矩阵A;
用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典
Figure BDA0000400306870000087
稀疏表示模块,用于:
对测试样本库中的情感语音信号进行特征提取和处理,每个测试样本得到各自的测试样本特征向量y;
将测试样本特征向量y在字典上进行稀疏编码得到编码系数
Figure BDA0000400306870000089
识别模块,用于:
根据字典
Figure BDA00004003068700000810
学习的识别准则进行识别。
本发明效果可以通过以下实验进一步说明:
1)实验条件
实验仿真环境为:MATLAB R2012a(7.14.0.739),Intel(R)Core(TM)2Duo CPU2.80GHz,Windows7操作系统。
2)实验内容
2.1)实验数据来源:课题组自制的情感语料库(简称UJS情感语料库)。UJS情感语料库共包括六种典型的情感类别:高兴、伤心、惊奇、生气、害怕、厌恶。采用CoolEdit作为音频录制编辑软件,共有4个男生5个女生参与录制,每种情感每人录制13个语料,音频采样率为11025HZ,量化精度为16bit,样本都经过手工标注,以wav格式存储,共有6×(4+5)×13=702个语料样本。每次实验从每个表演者每类情感中随机选择8句作为训练样本,剩余的2句作为测试样本,因此,共得到6×(4+5)×8=432个训练样本和6×(4+5)×2=108个测试样本。实验中提取的特征为能量相关、基因频率相关和共振峰系数等101维特征,并采用SFFS方法进行特征选择,最终确定特征向量的维度为101维,最终得到101×432的训练样本特征矩阵A和101×108的测试样本特征矩阵Y。
2.2)实验步骤:首先用基于子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典
Figure BDA0000400306870000086
,然后将测试样本特征矩阵Y的每一个测试样本特征向量y在字典
Figure BDA0000400306870000091
上进行稀疏编码得到编码系数最后根据本字典学习的识别准则进行识别。
3)实验结果分析
在UJS情感语料库上选取的参数为λ=0.003,η=0.25,μ=100,θ=1,ω=1,如表1所示,基于子编码和全编码联合惩罚的字典学习方法(Sub-coding and Entire-coding jointly penalty baseddictionary learning,下面简称ScEcDL)比其他字典学习方法(DKSVD(Discriminative K-SVDfor Dictionary Learning),FDDL)高2%~6%,比SVM(Support Vector Machine)高4%,比SRC高1%。
表1 UJS语音情感库上各方法识别率比较
方法 SVM SRC DKSVD FDDL ScEcDL
识别率(%) 63.89 66.67 61.11 65.74 67.59
由以上技术方案可以看出:
本发明巧妙地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法,联合了子编码差惩罚函数和全编码惩罚函数,充分利用了这两个个惩罚函数的优势,通过权衡这两个有识别力的惩罚函数可以获得比其他稀疏表示字典学习方法更好的识别效果。
本发明使用的基于子编码和全编码联合惩罚的稀疏表示字典学习方法,其中的子编码差惩罚函数的第二个惩罚项
Figure BDA0000400306870000093
和FDDL的有识别力的保真度惩罚函数中的惩罚项
Figure BDA0000400306870000094
相比是有优势的,基于子编码的惩罚函数不仅对子字典的重构误差有约束,还对子字典上的编码系数大小有约束,因此字典学习后不仅可以用每个子字典的重构误差来识别,还可以用每个子字典上的编码系数的大小来识别,而FDDL则只能用每个子字典的重构误差来识别。
Figure BDA0000400306870000095
Figure BDA0000400306870000096
更强大且更符合基于稀疏表示识别的要求,即大的编码系数几乎都集中在自己所属类别的子字典上。
本发明成功地使用基于子编码和全编码联合惩罚的稀疏表示字典学习方法对语音情感信号进行识别,使得识别结果更准确。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (9)

1.一种联合惩罚稀疏表示字典学习的语音情感识别方法,其特征在于,所述方法包括:
S1、对训练样本库中每个情感语音信号进行特征提取和处理,得到训练样本特征矩阵A;
S2、用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典
Figure FDA0000400306860000011
S3、对测试样本库中的情感语音信号进行特征提取和处理,每个测试样本得到各自的测试样本特征向量y;
S4、将测试样本特征向量y在字典
Figure FDA0000400306860000012
上进行稀疏编码得到编码系数
Figure FDA0000400306860000013
S5、根据字典
Figure FDA0000400306860000014
学习的识别准则进行识别。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1具体包括:
对训练样本库中的每个情感语音信号进行预处理,预处理包括预加重、加窗处理、分帧、端点检测;
对训练样本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰的语音的声学和韵律特征,并在情感语音信号上分别提取所述声学和韵律特征的最大值、最小值以及变化范围的统计特征;
将训练样本库中的每个情感语音信号的特征向量作为列构成训练样本特征矩阵。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2中子编码和全编码联合惩罚的字典学习方法的目标函数为:
J ( D , W ) = arg min D , W Σ i = 1 C { | | A i - DX i | | F 2 + | | A i - D i X i i | | F 2 + μ Σ j ≠ i | | X i j | | F 2 + η | | H i - WX i | | F 2 + β | | W | | F 2 } + λ | | X | | 1 s . t . | | d i | | 2 2 = 1 , for ∀ i = 1 , . . . , N ,
其中,μ,λ是权衡各个惩罚项的标量参数,c表示类别的个数,A′=[A1′,A2′,...,Ac′]表示带类别标签的训练样本特征矩阵,Ai′表示类别为i的带类别标签的训练样本特征矩阵,字典D′=[D1′,D2′,...,Dc′]=[d1′,d2′,...,dN′],Di′表示与类别i相关的子字典,di′表示字典的第i个原子,一共有N个原子,X′表示带类别标签的训练样本特征矩阵A′在字典D′上的编码系数,也就是A′≈D′X′,A′的编码系数X′表示为X′=[X1′,X2′,...,Xc′],其中Xi′表示Ai′在字典D′上的编码系数,表示Ai′在子字典Dj′上的编码系数。
4.根据权利要求3所述的方法,其特征在于,所述步骤S2具体为:
对训练样本特征矩阵A进行预处理;
初始化A′和D′,将A′和D′的每一列都归一化;
固定字典D′更新编码系数X′,目标函数简化为
J X i ′ = arg min X i ′ { | | A i ′ - D ′ X i ′ | | F 2 + | | A i ′ - D i ′ X i i ′ | | F 2 + μ Σ j ≠ i | | X i j ′ | | F 2 + λ | | X i ′ | | 1 } ;
固定更新后的编码系数X′来更新字典D′,目标函数简化为
J D i ′ = arg min D i ′ { | | A ′ - Σ j = 1 , j ≠ i c D j ′ X j ′ - D i ′ X i ′ | | F 2 + | | A i ′ - D i ′ X i i ′ | | F 2 } s . t . | | d i ′ | | 2 2 = 1 , for ∀ i = 1 , . . . , N ;
重复步骤上述步骤直到目标函数收敛或达到指定迭代次数,输出D′。
5.根据权利要求3所述的方法,其特征在于,所述标量参数λ,η,μ采用5倍交叉验证方法获得。
6.根据权利要求1所述的方法,其特征在于,所述步骤S3具体为:
对测试样本库中的每个情感语音信号进行预处理,预处理包括预加重、加窗处理、分帧、端点检测;
对测试本库中的每个情感语音信号提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰的语音的声学和韵律特征,并在情感语句上分别提取所述声学和韵律特征的最大值、最小值以及变化范围的统计特征,每个情感语音信号得到各自的测试样本特征向量y。
7.根据权利要求1所述的方法,其特征在于,所述步骤S4具体为:
对学习得到的字典D′进行预处理;
将测试样本特征向量y在字典
Figure FDA0000400306860000029
上进行稀疏编码。
8.根据权利要求1所述的方法,其特征在于,所述步骤S5中字典
Figure FDA00004003068600000210
学习的识别准则为:
identity ( y ) = arg min i { | | y - D ^ i α ^ i | | 2 - θ | | α ^ i | | 2 + ω | | h i - W ^ α ^ | | 2 } ,
其中,θ和ω是权衡各个项的标量参数,
Figure FDA0000400306860000024
Figure FDA0000400306860000025
表示与类别i相关的子字典,
Figure FDA0000400306860000027
表示y在子字典
Figure FDA0000400306860000028
上的编码稀疏。
9.一种如权利要求1所述的联合惩罚稀疏表示字典学习的语音情感识别系统,其特征在于,所述系统包括:
字典学习模块,用于:
对训练样本库中每个情感语音信号进行特征提取和处理,得到训练样本特征矩阵A;
用子编码和全编码联合惩罚的字典学习方法对训练样本特征矩阵A进行学习得到字典
Figure FDA0000400306860000031
稀疏表示模块,用于:
对测试样本库中的情感语音信号进行特征提取和处理,每个测试样本得到各自的测试样本特征向量y;
将测试样本特征向量y在字典上进行稀疏编码得到编码系数
Figure FDA0000400306860000033
识别模块,用于:
根据字典
Figure FDA0000400306860000034
学习的识别准则进行识别。
CN201310503631.0A 2013-10-23 2013-10-23 联合惩罚稀疏表示字典学习的语音情感识别方法及系统 Active CN103594084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310503631.0A CN103594084B (zh) 2013-10-23 2013-10-23 联合惩罚稀疏表示字典学习的语音情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310503631.0A CN103594084B (zh) 2013-10-23 2013-10-23 联合惩罚稀疏表示字典学习的语音情感识别方法及系统

Publications (2)

Publication Number Publication Date
CN103594084A true CN103594084A (zh) 2014-02-19
CN103594084B CN103594084B (zh) 2016-05-25

Family

ID=50084191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310503631.0A Active CN103594084B (zh) 2013-10-23 2013-10-23 联合惩罚稀疏表示字典学习的语音情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN103594084B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200814A (zh) * 2014-08-15 2014-12-10 浙江大学 基于语义细胞的语音情感识别方法
CN105740903A (zh) * 2016-01-29 2016-07-06 北京大学 多属性识别方法及装置
CN107065006A (zh) * 2017-01-23 2017-08-18 武汉大学 一种基于在线字典更新的地震信号编码方法
CN107464556A (zh) * 2016-06-02 2017-12-12 国家计算机网络与信息安全管理中心 一种基于稀疏编码的音频场景识别方法
CN108038056A (zh) * 2017-12-07 2018-05-15 厦门理工学院 一种基于不对称分类评估的软件缺陷检测系统
CN111583966A (zh) * 2020-05-06 2020-08-25 东南大学 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置
CN111584069A (zh) * 2020-05-07 2020-08-25 成都兰途网络科技有限公司 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统
CN112241768A (zh) * 2020-11-25 2021-01-19 广东技术师范大学 一种基于深度分解字典学习的精细图像分类方法
CN116702018A (zh) * 2023-04-19 2023-09-05 东南大学 基于ga-pdpl算法的跨被试脑电情感识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351871A (ja) * 2001-05-24 2002-12-06 Ricoh Co Ltd 形態素解析装置、形態素解析方法、プログラムおよび記録媒体
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN102419974A (zh) * 2010-09-24 2012-04-18 国际商业机器公司 处理语音识别的稀疏表示特征的方法和系统
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法
CN103324942A (zh) * 2013-06-18 2013-09-25 安科智慧城市技术(中国)有限公司 一种图像分类方法、装置及系统
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351871A (ja) * 2001-05-24 2002-12-06 Ricoh Co Ltd 形態素解析装置、形態素解析方法、プログラムおよび記録媒体
CN101685634A (zh) * 2008-09-27 2010-03-31 上海盛淘智能科技有限公司 一种儿童语音情感识别方法
CN102419974A (zh) * 2010-09-24 2012-04-18 国际商业机器公司 处理语音识别的稀疏表示特征的方法和系统
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法
CN103324942A (zh) * 2013-06-18 2013-09-25 安科智慧城市技术(中国)有限公司 一种图像分类方法、装置及系统
CN103345923A (zh) * 2013-07-26 2013-10-09 电子科技大学 一种基于稀疏表示的短语音说话人识别方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200814B (zh) * 2014-08-15 2017-07-21 浙江大学 基于语义细胞的语音情感识别方法
CN104200814A (zh) * 2014-08-15 2014-12-10 浙江大学 基于语义细胞的语音情感识别方法
CN105740903A (zh) * 2016-01-29 2016-07-06 北京大学 多属性识别方法及装置
CN105740903B (zh) * 2016-01-29 2019-01-25 北京大学 多属性识别方法及装置
CN107464556A (zh) * 2016-06-02 2017-12-12 国家计算机网络与信息安全管理中心 一种基于稀疏编码的音频场景识别方法
CN107065006B (zh) * 2017-01-23 2019-06-11 武汉大学 一种基于在线字典更新的地震信号编码方法
CN107065006A (zh) * 2017-01-23 2017-08-18 武汉大学 一种基于在线字典更新的地震信号编码方法
CN108038056B (zh) * 2017-12-07 2020-07-03 厦门理工学院 一种基于不对称分类评估的软件缺陷检测系统
CN108038056A (zh) * 2017-12-07 2018-05-15 厦门理工学院 一种基于不对称分类评估的软件缺陷检测系统
CN111583966A (zh) * 2020-05-06 2020-08-25 东南大学 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置
CN111583966B (zh) * 2020-05-06 2022-06-28 东南大学 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置
CN111584069A (zh) * 2020-05-07 2020-08-25 成都兰途网络科技有限公司 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统
CN111584069B (zh) * 2020-05-07 2023-04-18 成都兰途网络科技有限公司 基于语音深-浅特征堆栈稀疏自动编码的精神病识别系统
CN112241768A (zh) * 2020-11-25 2021-01-19 广东技术师范大学 一种基于深度分解字典学习的精细图像分类方法
CN112241768B (zh) * 2020-11-25 2024-04-26 广东技术师范大学 一种基于深度分解字典学习的精细图像分类方法
CN116702018A (zh) * 2023-04-19 2023-09-05 东南大学 基于ga-pdpl算法的跨被试脑电情感识别方法及装置
CN116702018B (zh) * 2023-04-19 2024-03-01 东南大学 基于ga-pdpl算法的跨被试脑电情感识别方法及装置

Also Published As

Publication number Publication date
CN103594084B (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN103594084B (zh) 联合惩罚稀疏表示字典学习的语音情感识别方法及系统
Chatziagapi et al. Data Augmentation Using GANs for Speech Emotion Recognition.
Huang et al. Speech emotion recognition using CNN
Xia et al. Using i-Vector Space Model for Emotion Recognition.
CN103544963A (zh) 一种基于核半监督判别分析的语音情感识别方法
CN105261367B (zh) 一种说话人识别方法
CN103345923A (zh) 一种基于稀疏表示的短语音说话人识别方法
CN102419974A (zh) 处理语音识别的稀疏表示特征的方法和系统
CN105389583A (zh) 图像分类器的生成方法、图像分类方法和装置
CN104240706A (zh) 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN103198833B (zh) 一种高精度说话人确认方法
CN103854645A (zh) 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN103456302B (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
Noroozi et al. Supervised vocal-based emotion recognition using multiclass support vector machine, random forests, and adaboost
CN105702251B (zh) 基于Top-k加强音频词袋模型的语音情感识别方法
CN104538035A (zh) 一种基于Fisher超向量的说话人识别方法及系统
CN105810191A (zh) 融合韵律信息的汉语方言辨识方法
CN111696522A (zh) 基于hmm和dnn的藏语语音识别方法
Kye et al. Supervised attention for speaker recognition
Ma et al. Spoken language recognition using ensemble classifiers
CN103258536B (zh) 一种大规模说话人辨认方法
Li et al. Emotion recognition from speech with StarGAN and Dense‐DCNN
CN105632485A (zh) 一种基于语种识别系统的语言距离关系的获取方法
Jiang et al. Task-aware deep bottleneck features for spoken language identification.
Jourani et al. Large margin Gaussian mixture models for speaker identification.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant