CN106205636A - 一种基于mrmr准则的语音情感识别特征融合方法 - Google Patents

一种基于mrmr准则的语音情感识别特征融合方法 Download PDF

Info

Publication number
CN106205636A
CN106205636A CN201610533439.XA CN201610533439A CN106205636A CN 106205636 A CN106205636 A CN 106205636A CN 201610533439 A CN201610533439 A CN 201610533439A CN 106205636 A CN106205636 A CN 106205636A
Authority
CN
China
Prior art keywords
feature
sigma
emotion recognition
speech emotion
mrmr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610533439.XA
Other languages
English (en)
Inventor
张昕然
赵力
魏昕
巨晓正
查诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201610533439.XA priority Critical patent/CN106205636A/zh
Publication of CN106205636A publication Critical patent/CN106205636A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于MRMR准则的语音情感识别特征融合方法,包括如下步骤:1、提取语音信号的韵律特征、音质特征和谱特征;2、对提取的韵律特征、音质特征和谱特征采用MRMR准则进行特征融合。本发明公开的语音情感识别特征融合方法融合了语音的韵律特征、音质特征和谱特征,在保证识别率的同时有效优化了特征向量维度,提高了语音情感识别系统的效率。

Description

一种基于MRMR准则的语音情感识别特征融合方法
技术领域
本发明属于语音信号处理领域,具体涉及一种语音情感识别特征融合方法。
背景技术
在语音情感识别的研究过程中,使用的情感特征种类非常多,常用特征包括了韵律特征、音质特征、谱特征等。许多研究者认为韵律特征中包含了最多的情感信息,语音情感识别能力强,而谱特征缺少与情感状态直观的关联性,语音情感识别能力要弱于韵律特征和音质特征。
发明内容
发明目的:针对现有技术中存在的问题,本发明公开了一种鲁棒的语音情感识别特征融合方法,该方法融合了语音的韵律特征和谱特征,一定程度上消除了多个特征之间的信息冗余。
技术方案:本发明公开了一种基于MRMR(Maximum Relevance MinimumRedundancy,最大相关最小冗余)准则的语音情感识别特征融合方法,包括如下步骤:
(1)提取语音信号的韵律特征、音质特征和谱特征;
(2)对提取的韵律特征、音质特征和谱特征采用MRMR准则进行特征融合。
其中韵律特征包括:基音频率及其一阶与二阶导数的六维统计值,能量特征及其一阶与二阶导数的六维统计值,语音速率特征和句尾特征;音质特征包括:第一、第二以及第三共振峰频率均值;谱特征包括:12阶LFPC系数及其一二阶导数的六维统计值;句尾特征包括:归一化基频斜率、归一化基频均值、归一化能量斜率、归一化能量斜率均值和归一化持续时间。
步骤(2)中MRMR准则中最大相关最小冗余度判决准则为:
max D ( S , c ) , D = 1 | S | Σ y i ∈ S I ( y i ; c ) - - - ( 1 )
min R ( S ) , R = 1 | S | 2 Σ y i , y j ∈ S I ( y i ; y j ) , - - - ( 2 )
其中S表示的是特征集合,|S|表示的是集合中包含特征的数目,c表示目标类别,yi与yj分别表示特征i与特征j,I(yi;c)表示特征i与目标类别c之间的互信息,I(yi;yj)则表示特征i与特征j之间的互信息,对应公式如下:
I ( x , y ) = Σ x ∈ X Σ y ∈ Y p ( x , y ) l b p ( x , y ) p ( x ) p ( y ) - - - ( 3 )
p(x)与p(y)分别表示的是两个随机变量x与y的概率密度,p(x,y)为联合概率密度。
优选地,步骤(2)中MRMR准则中最大相关最小冗余度判决准则为:
其中
D = 1 | S | Σ y i ∈ S I ( y i ; c ) R = 1 | S | 2 Σ y i , y j ∈ S I ( y i ; y j ) - - - ( 5 )
S表示的是特征集合,|S|表示的是集合中包含特征的数目,c表示目标类别,yi与yj分别表示特征i与特征j,I(yi;c)表示yi与目标类别c之间的互信息,I(yi;yj)则表示yi与yj之间的互信息,对应公式如下:
I ( x , y ) = Σ x ∈ X Σ y ∈ Y p ( x , y ) l b p ( x , y ) p ( x ) p ( y ) - - - ( 6 )
其中,p(x)与p(y)分别表示的是两个随机变量x与y的概率密度,p(x,y)为联合概率密度;概率密度的估计函数如下:
p ^ ( x ) = 1 n h Σ i = 1 n K ( x - x i h ) = 1 n Σ i = 1 n K h ( x - x i ) - - - ( 7 )
p ^ ( x , y ) = 1 n Σ i = 1 n K h x ( x - x i ) K h y ( y - y i ) - - - ( 8 )
其中n表示用于估计的样本数量,K表示的是非负密度核函数,为正态分布;h表示窗宽度,其近似值为:
h = ( 3 4 ) 1 / 5 σn - 1 / 5 ≈ 1.06 σn - 1 / 5
σ表示用于估计的样本标准差,Kh表示h窗宽度下的K核函数;Khx和Khy分别表示x、y特征在h窗宽度下的K核函数。
有益效果:与现有技术相比,本发明公开的语音情感识别特征融合方法具有以下优点:1、该方法融合了语音的韵律特征、音质特征和谱特征,一定程度上消除了多个特征之间的信息冗余,实现了客观的信息压缩;2、保留了参与融合的单个特征对分类的有效判别信息,采用融合后的特征子集比采用单一特征类型的子集识别率更高。
附图说明
图1是MRMR获取最优特征子集流程。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
表1特征列表
表2句尾特征
本发明从自制语音情感数据库中选取五种情感的样本语句各210条,并依据表1所列内容提取相应的韵律特征、音质特征和谱特征。五种情感为:高兴、愤怒、悲伤、害怕和平静。这样每个样本语句提取出的特征就有10个,五种情感共有1050个样本语句,提取出的特征有10500个,组成特征集合Sf
本发明采取遍历所有特征组合的方式来对特征进行选择,从而获取最优特征子集,完成传统特征融合。流程如图1所示。
1.在特征集合Sf中随机选择k个特征,组成特征子集Sk,将Sk中每个特征样本代入式(5)-(8),计算出此时的D,R值;将计算出的D,R值代入式(4),计算出此时的记为
2.在集合Sf中选择Sk之外的一个特征,与Sk组成特征子集Sk+1,将Sk+1中每个特征样本代入式(5)-(8),计算出此时的D,R值;将计算出的D,R值代入式(4),计算出此时的记为
3.比较如果更新k=k+1,Sk=Sk+1,跳转到步骤2,直到Sf中所有的特征被遍历完,最后得到最优特征子集Sk
经过上述特征融合的步骤,本实施例将特征集合Sf经选择后得到最优特征子集Sk,Sk中特征维度为133。采用特征子集Sk进行识别,识别率达到了81.3%,而系统最高识别率为82.2%。通过本发明公开的方法极大地去除了特征之间的冗余信息,在保证识别率的同时通过优选优化了特征向量维度,提高了系统效率。

Claims (7)

1.一种基于MRMR准则的语音情感识别特征融合方法,其特征在于,包括如下步骤:
(1)提取语音信号的韵律特征、音质特征和谱特征;
(2)对提取的韵律特征、音质特征和谱特征采用MRMR准则进行特征融合。
2.根据权利要求1所述的一种基于MRMR准则的语音情感识别特征融合方法,其特征在于,所述韵律特征包括:基音频率及其一阶与二阶导数的六维统计值、能量特征及其一阶与二阶导数的六维统计值、语音速率特征和句尾特征。
3.根据权利要求2所述的一种基于MRMR准则的语音情感识别特征融合方法,其特征在于,所述句尾特征包括:归一化基频斜率、归一化基频均值、归一化能量斜率、归一化能量斜率均值和归一化持续时间。
4.根据权利要求1所述的一种基于MRMR准则的语音情感识别特征融合方法,其特征在于,所述音质特征包括第一、第二以及第三共振峰频率均值。
5.根据权利要求1所述的一种基于MRMR准则的语音情感识别特征融合方法,其特征在于,所述谱特征包括12阶LFPC系数及其一二阶导数的六维统计值。
6.根据权利要求1所述的一种基于MRMR准则的语音情感识别特征融合方法,其特征在于,步骤(2)中MRMR准则中最大相关最小冗余度判决准则为:
max D ( S , c ) , D = 1 | S | Σ y i ∈ S I ( y i ; c )
min R ( S ) , R = 1 | S | 2 Σ y i , y j ∈ S I ( y i ; y j ) ,
其中S表示的是特征集合,|S|表示的是特征集合中特征的数目,c表示目标类别,yi与yj分别表示特征i与特征j,I(yi;c)表示yi与目标类别c之间的互信息,I(yi;yj)则表示yi与yj之间的互信息,对应公式如下:
I ( x , y ) = Σ x ∈ X Σ y ∈ Y p ( x , y ) l b p ( x , y ) p ( x ) p ( y )
p(x)与p(y)分别表示的是两个随机变量x与y的概率密度,p(x,y)为联合概率密度。
7.根据权利要求1所述的一种基于MRMR准则的语音情感识别特征融合方法,其特征在于,步骤(2)中MRMR准则中最大相关最小冗余度判决准则为:
maxφ 1 ( D , R ) , φ 1 = D - R maxφ 2 ( D , R ) , φ 2 = D R
其中
D = 1 | S | Σ y i ∈ S I ( y i ; c ) R = 1 | S | 2 Σ y i , y j ∈ S I ( y i , y j )
S表示的是特征集合,|S|表示的是特征集合中特征的数目,c表示目标类别,yi与yj分别表示特征i与特征j,I(yi;c)表示yi与目标类别c之间的互信息,I(yi;yj)则表示yi与yj之间的互信息,对应公式如下:
I ( x , y ) = Σ x ∈ X Σ y ∈ Y p ( x , y ) l b p ( x , y ) p ( x ) p ( y )
其中,p(x)与p(y)分别表示的是两个随机变量x与y的概率密度,p(x,y)为联合概率密度;概率密度的估计函数如下:
p ^ ( x ) = 1 n h Σ i = 1 n K ( x - x i h ) = 1 n Σ i = 1 n K h ( x - x i )
p ^ ( x , y ) = 1 n Σ i = 1 n K h x ( x - x i ) K h y ( y - y i )
其中n表示用于估计的样本数量,K表示的是非负密度核函数,为正态分布;h表示窗宽度,其近似值为:
h = ( 3 4 ) 1 / 5 σn - 1 / 5 ≈ 1.06 σn - 1 / 5
σ表示用于估计的样本标准差,Kh表示h窗宽度下的K核函数;Khx和Khy分别表示x、y特征在h窗宽度下的K核函数。
CN201610533439.XA 2016-07-07 2016-07-07 一种基于mrmr准则的语音情感识别特征融合方法 Pending CN106205636A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610533439.XA CN106205636A (zh) 2016-07-07 2016-07-07 一种基于mrmr准则的语音情感识别特征融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610533439.XA CN106205636A (zh) 2016-07-07 2016-07-07 一种基于mrmr准则的语音情感识别特征融合方法

Publications (1)

Publication Number Publication Date
CN106205636A true CN106205636A (zh) 2016-12-07

Family

ID=57472685

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610533439.XA Pending CN106205636A (zh) 2016-07-07 2016-07-07 一种基于mrmr准则的语音情感识别特征融合方法

Country Status (1)

Country Link
CN (1) CN106205636A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992000A (zh) * 2017-04-07 2017-07-28 安徽建筑大学 一种基于预测的多特征融合的老人语音情感识别方法
CN108922556A (zh) * 2018-07-16 2018-11-30 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
CN109767788A (zh) * 2019-02-25 2019-05-17 南京信息工程大学 一种基于lld和dss融合特征的语音情感识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100903348B1 (ko) * 2007-11-28 2009-06-23 중앙대학교 산학협력단 특징 융합 기반 감정인식 방법 및 시스템
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法
US20140201126A1 (en) * 2012-09-15 2014-07-17 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN104050963A (zh) * 2014-06-23 2014-09-17 东南大学 一种基于情感数据场的连续语音情感预测算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100903348B1 (ko) * 2007-11-28 2009-06-23 중앙대학교 산학협력단 특징 융합 기반 감정인식 방법 및 시스템
CN101620853A (zh) * 2008-07-01 2010-01-06 邹采荣 一种基于改进模糊矢量量化的语音情感识别方法
US20140201126A1 (en) * 2012-09-15 2014-07-17 Lotfi A. Zadeh Methods and Systems for Applications for Z-numbers
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法
CN104050963A (zh) * 2014-06-23 2014-09-17 东南大学 一种基于情感数据场的连续语音情感预测算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘依恋: "模式分类中特征选择算法研究", 《中国优秀硕士论文全文数据库》 *
姚明海 等: "改进的最大相关最小冗余特征选择方法研究", 《计算机工程与应用》 *
韩文静 等: "语音情感识别研究进展综述", 《软件学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992000A (zh) * 2017-04-07 2017-07-28 安徽建筑大学 一种基于预测的多特征融合的老人语音情感识别方法
CN106992000B (zh) * 2017-04-07 2021-02-09 安徽建筑大学 一种基于预测的多特征融合的老人语音情感识别方法
CN108922556A (zh) * 2018-07-16 2018-11-30 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
CN108922556B (zh) * 2018-07-16 2019-08-27 百度在线网络技术(北京)有限公司 声音处理方法、装置及设备
CN109767788A (zh) * 2019-02-25 2019-05-17 南京信息工程大学 一种基于lld和dss融合特征的语音情感识别方法

Similar Documents

Publication Publication Date Title
Chen et al. Charge-based prison term prediction with deep gating network
CN104167208B (zh) 一种说话人识别方法和装置
Altun et al. Boosting selection of speech related features to improve performance of multi-class SVMs in emotion detection
CN105047194B (zh) 一种用于语音情感识别的自学习语谱图特征提取方法
US20150199960A1 (en) I-Vector Based Clustering Training Data in Speech Recognition
CN104021373A (zh) 一种半监督语音特征可变因素分解方法
Semwal et al. Automatic speech emotion detection system using multi-domain acoustic feature selection and classification models
Xie et al. Multimodal information fusion of audio emotion recognition based on kernel entropy component analysis
Novoselov et al. STC Speaker Recognition System for the NIST i-Vector Challenge.
CN105261367A (zh) 一种说话人识别方法
CN103854645A (zh) 一种基于说话人惩罚的独立于说话人语音情感识别方法
Alshamsi et al. Automated facial expression and speech emotion recognition app development on smart phones using cloud computing
Tan et al. Evaluation of a Sparse Representation-Based Classifier For Bird Phrase Classification Under Limited Data Conditions.
Szep et al. Paralinguistic Classification of Mask Wearing by Image Classifiers and Fusion.
CN103578481A (zh) 一种跨语言的语音情感识别方法
CN106971180A (zh) 一种基于语音字典稀疏迁移学习的微表情识别方法
CN106205636A (zh) 一种基于mrmr准则的语音情感识别特征融合方法
Gosztolya Using the fisher vector representation for audio-based emotion recognition
Wang et al. Personalized music emotion recognition via model adaptation
Blanchard et al. Getting the subtext without the text: Scalable multimodal sentiment classification from visual and acoustic modalities
Zhang et al. I-vector based physical task stress detection with different fusion strategies
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
Palo et al. Classification of emotional speech of children using probabilistic neural network
Youme et al. Generalization of Bangla sign language recognition using angular loss functions
Harimi et al. Anger or joy? Emotion recognition using nonlinear dynamics of speech

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161207

RJ01 Rejection of invention patent application after publication