CN104835508A - 一种用于混合语音情感识别的语音特征筛选方法 - Google Patents

一种用于混合语音情感识别的语音特征筛选方法 Download PDF

Info

Publication number
CN104835508A
CN104835508A CN201510152151.3A CN201510152151A CN104835508A CN 104835508 A CN104835508 A CN 104835508A CN 201510152151 A CN201510152151 A CN 201510152151A CN 104835508 A CN104835508 A CN 104835508A
Authority
CN
China
Prior art keywords
feature set
speech
selected feature
mixed
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510152151.3A
Other languages
English (en)
Other versions
CN104835508B (zh
Inventor
叶亮
李月
吴少川
石硕
李卓明
于婷
任浩
刘鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Shenzhen
Original Assignee
Harbin Institute of Technology Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Shenzhen filed Critical Harbin Institute of Technology Shenzhen
Priority to CN201510152151.3A priority Critical patent/CN104835508B/zh
Publication of CN104835508A publication Critical patent/CN104835508A/zh
Application granted granted Critical
Publication of CN104835508B publication Critical patent/CN104835508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种用于混合语音情感识别的语音特征筛选方法,涉及模式识别领域,具体涉及语音情感识别方法和特征选择方法。它是为了实现混合语音情感识别的语音特征筛选。本发明给出一种混合语音情感识别中的声学特征筛选方法,本发明能够从一系列声学特征中找出一组最佳特征集合,使得分类方法的平均识别率达到最高。实现混合语音情感识别的高精度语音特征筛选。本发明适用于混合语音情感识别的语音特征筛选。

Description

一种用于混合语音情感识别的语音特征筛选方法
技术领域
本发明涉及模式识别领域,具体涉及语音情感识别方法和特征选择方法。
背景技术
校园霸凌是一种常见的社会现象,多发生在中小学生群体中。校园霸凌有多种表现形式,如:身体暴力、言语欺凌、损坏财物、孤立等,其中言语欺凌最为频发。言语欺凌中通常包含辱骂、悲伤等负面情感,因此可以用语音情感识别的方法检测言语欺凌。
目前语音情感识别领域的研究大多基于单一对象的单一情感,而校园霸凌的语境通常由多人语音构成,包含欺凌者和受害人的不同情感,因此适用于单一情感识别的分类算法和声学特征并不适用于混合情感识别。
发明内容
本发明是为了实现混合语音情感识别的语音特征筛选,从而提供一种用于混合语音情感识别的语音特征筛选方法。
一种用于混合语音情感识别的语音特征筛选方法,它由以下步骤实现:
步骤一、将混合语音数据按类别平均划分为训练集和测试集,并分别提取各个语音样本的声学特征参数,记为Mi,并放入备选特征集合S={Mi},已选特征集合D为空集;i=1,2,…,N;N为正整数;
每次选取一个Mi作为分类算法的输入,则计算其识别率R(Mi),重复此过程N次,分别得到N个声学特征参数的识别率R(Mi);
步骤二、在备选特征集合S中找出单一识别率最高的声学特征参数Mi,将Mi从备选特征集合S移到已选特征集合D中;
步骤三、用备选特征集合S中剩下的元素依次与已选特征集合D中元素配合,作为分类算法的输入,计算其识别率,在备选特征集合S中找出使R(D+Mi)最大的Mi
判断是否有R(D+Mi)≥R(D),如果判断结果为是,则将声学特征参数Mi从备选特征集合S移至已选特征集合D中,并执行步骤四;如果判断结果为否,则执行步骤五;
步骤四、用备选特征集合S中剩下的元素重复执行步骤三,直到Max(R(D+Mi))<R(D),Mi∈S,已选特征集合D中元素不再增加,此时已选特征集合为D={Mj};,j=1,2,…,p;p为正整数;执行步骤七;
步骤五、对已选特征集合D中的每个元素Mj,计算R(D–Mj),找出使R(D–Mj)最大的Mj
判断是否有R(D–Mj)≥R(D),如果判断结果为是,则从已选特征集合D中去掉Mj,并执行步骤六;如果判断结果为否,则执行步骤七;
步骤六、用已选特征集合D中剩下的元素重复执行步骤五,直到Max(R(D–Mj))<R(D),Mj∈D,已选特征集合D中元素不再减少,此时已选特征集合为D={Mj};
步骤七、返回执行步骤三,直至已选特征集合D中不再有元素增加或减少,将最终的已选特征集合D作为最佳特征组合,完成混合语音情感识别的语音特征筛选。
本发明给出一种混合语音情感识别中的声学特征筛选方法,本发明能够从一系列声学特征中找出一组最佳特征集合,使得分类方法的平均识别率达到最高。实现混合语音情感识别的高精度语音特征筛选。
附图说明
图1是具体实施方式一的特征筛选过程中平均识别率的变化仿真示意图;
具体实施方式
具体实施方式一、基于混合语音情感识别的声学特征筛选方法,由以下步骤组成:
步骤一、将混合语音数据按类别平均划分为训练集和测试集,并分别提取各个语音样本的声学特征参数,记为Mi,i=1,2,…,N,放入备选特征集合S={Mi,i=1,2,…,N},而已选特征集合D为空集。每次选取一个Mi作为分类算法的输入,计算其识别率R(Mi),重复此过程N次,分别得到N个声学特征参数的识别率R(Mi),i=1,2,…,N;
步骤二、在S中找出单一识别率最高的声学特征参数Mi,将Mi从备选特征集合S移到已选特征集合D中;
步骤三、用S中剩下的元素依次与D中元素配合,作为分类算法的输入,计算其识别率,在S中找出使R(D+Mi)最大的Mi。若R(D+Mi)≥R(D),则将Mi从S移至D中,并继续步骤四,否则进入步骤五;
步骤四、用S中剩下的元素重复步骤③,直到Max(R(D+Mi))<R(D),Mi∈S,D中元素不再增加,此时已选特征集合为D={Mj,j=1,2,…,p};
步骤五、对D中的每个元素Mj,j=1,2,…,p,计算R(D–Mj),找出使R(D–Mj)最大的Mj。若有R(D–Mj)≥R(D),则从D中去掉Mj(并且不会放回S中),并继续步骤六,否则进入步骤七;
步骤六、用D中剩下的元素重复步骤⑤,直到Max(R(D–Mj))<R(D),Mj∈D,D中元素不再减少,此时已选特征集合为D={Mj,j=1,2,…,q};
步骤七、重复步骤③至⑥,直到D中不再有元素增加或减少。至此得到最佳特征组合D={Mj,j=1,2,…,n}。
下面以GMM(Gaussian Mixture Model,高斯混合模型)分类算法作用于混合语音的24个MFCC(Mel Frequency Cepstral Coefficients,Mel频率倒谱系数)特征为例,说明上述特征筛选算法的有效性。言语欺凌实验由不同年龄的8个女生和7个男生表演,采集混合情感语音数据共80段,涉及语境包括:日常会话2类,分别以“快乐”和“中性”为主,混以其它情感;言语欺凌2类,分别以“辱骂”和“悲伤”为主,混以其它情感。图1给出特征筛选过程中平均识别率的变化。
图1中,第1至4步是特征增加过程,平均识别率随特征数目的增加而升高,第4步的识别率与第3步相同,说明第4步中新增的特征可有可无,但在第4步中该特征与已有特征的配合最好,故暂留在已选特征集中,进入下一轮筛选。第5步新增特征后,识别率开始下降,新增特征已是剩余备选特征中与已选特征配合最好的,故剩余特征已无可选,特征增加过程结束。第6步删除第5步新增特征,恢复到第4步状态,从第7步开始已选特征集进入删减过程,删除已选集中配合最差的特征,识别率不变。第8步继续删除配合最差特征后,识别率下降,说明已选特征集中剩下的每个特征对分类都有贡献,不应删除,特征删减过程结束。第9步重新将第8步所删特征加入,恢复到第7步状态。第10步再次进入特征增加过程,在剩余备选特征(不含已删除特征)中选择与已选特征配合最好的特征,但识别率下降,说明剩余备选特征中已无可用,增加过程结束。第11步将第10步新增特征删除,之前的一轮删减和增加过程中已选特征集没有变化,至此特征筛选过程结束,平均识别率达到最高82.5%。具体识别结果如表1。
表1
本发明给出一种混合语音情感识别中的声学特征筛选方法,本发明能够从一系列声学特征中找出一组最佳特征集合,使得分类方法的平均识别率达到最高。实现混合语音情感识别的高精度语音特征筛选。

Claims (2)

1.一种用于混合语音情感识别的语音特征筛选方法,其特征是:它由以下步骤实现:
步骤一、将采集的混合语音样本数据按类别平均划分为训练集和测试集,并分别提取各个语音样本数据的声学特征参数,记为Mi,并放入备选特征集合S={Mi},初始化已选特征集合D为空集;i=1,2,...,N;N为正整数;
每次选取一个Mi,并计算其识别率R(Mi),重复此过程N次,分别得到N个声学特征参数的识别率R(Mi);
步骤二、在备选特征集合S中找出单一识别率最高的声学特征参数Mi,将Mi从备选特征集合S移到已选特征集合D中;
步骤三、用备选特征集合S中剩下的元素依次与已选特征集合D中元素配合,并分别计算其识别率,在备选特征集合S中找出使R(D+Mi)最大的语音样本的声学特征参数Mi
判断是否有R(D+Mi)≥R(D),如果判断结果为是,则将该语音样本的声学特征参数Mi从备选特征集合S移至已选特征集合D中,并执行步骤四;如果判断结果为否,则执行步骤五;
步骤四、用备选特征集合S中剩下的元素重复执行步骤三,直到Max(R(D+Mi))<R(D),Mi∈S,则已选特征集合D中元素不再增加,此时已选特征集合为D={Mj};j=1,2,...,p;p为正整数;执行步骤七;
步骤五、对已选特征集合D中的每个元素Mj,计算R(D–Mj),找出使R(D–Mj)最大的Mj
判断是否有R(D–Mj)≥R(D),如果判断结果为是,则从已选特征集合D中去掉Mj,并执行步骤六;如果判断结果为否,则执行步骤七;
步骤六、用已选特征集合D中剩下的元素重复执行步骤五,直到Max(R(D–Mj))<R(D),Mj∈D,已选特征集合D中元素不再减少,此时已选特征集合为D={Mj};
步骤七、返回执行步骤三,直至已选特征集合D中不再有元素增加或减少,将最终的已选特征集合D作为最佳特征组合,完成混合语音情感识别的语音特征筛选。
2.根据权利要求1所述的一种用于混合语音情感识别的语音特征筛选方法,其特征在于混合语音数据的类别分为:霸凌语音数据和日常语音数据。
CN201510152151.3A 2015-04-01 2015-04-01 一种用于混合语音情感识别的语音特征筛选方法 Active CN104835508B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510152151.3A CN104835508B (zh) 2015-04-01 2015-04-01 一种用于混合语音情感识别的语音特征筛选方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510152151.3A CN104835508B (zh) 2015-04-01 2015-04-01 一种用于混合语音情感识别的语音特征筛选方法

Publications (2)

Publication Number Publication Date
CN104835508A true CN104835508A (zh) 2015-08-12
CN104835508B CN104835508B (zh) 2018-10-02

Family

ID=53813346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510152151.3A Active CN104835508B (zh) 2015-04-01 2015-04-01 一种用于混合语音情感识别的语音特征筛选方法

Country Status (1)

Country Link
CN (1) CN104835508B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293074A (zh) * 2016-07-29 2017-01-04 维沃移动通信有限公司 一种情绪识别方法和移动终端
CN107633851A (zh) * 2017-07-31 2018-01-26 中国科学院自动化研究所 基于情感维度预测的离散语音情感识别方法、装置及系统
CN108630230A (zh) * 2018-05-14 2018-10-09 哈尔滨工业大学 一种基于动作语音数据联合识别的校园霸凌检测方法
CN110120231A (zh) * 2019-05-15 2019-08-13 哈尔滨工业大学 基于自适应半监督非负矩阵分解的跨语料情感识别方法
CN110246518A (zh) * 2019-06-10 2019-09-17 深圳航天科技创新研究院 基于多粒度动静态融合特征的语音情感识别方法、装置、系统及存储介质
CN111312245A (zh) * 2020-02-18 2020-06-19 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN103440863A (zh) * 2013-08-28 2013-12-11 华南理工大学 一种基于流形的语音情感识别方法
US20140025385A1 (en) * 2010-12-30 2014-01-23 Nokia Corporation Method, Apparatus and Computer Program Product for Emotion Detection
CN103578481A (zh) * 2012-07-24 2014-02-12 东南大学 一种跨语言的语音情感识别方法
CN104468981A (zh) * 2014-11-14 2015-03-25 哈尔滨工业大学 一种基于智能手机平台的校园霸凌检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
US20140025385A1 (en) * 2010-12-30 2014-01-23 Nokia Corporation Method, Apparatus and Computer Program Product for Emotion Detection
CN103578481A (zh) * 2012-07-24 2014-02-12 东南大学 一种跨语言的语音情感识别方法
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN103440863A (zh) * 2013-08-28 2013-12-11 华南理工大学 一种基于流形的语音情感识别方法
CN104468981A (zh) * 2014-11-14 2015-03-25 哈尔滨工业大学 一种基于智能手机平台的校园霸凌检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DIMITRIOS VERVERIDIS,CONSTANTINE KOTROPOULOS: "Fast and accurate sequential floating forward feature selection with the Bayes classifier applied to speech emotion recognition", 《SIGNAL PROCESSING》 *
P. PUDIL , J. NOVOVI , J. KITTLER: "Floating search methods in feature selection", 《PATTERN RECOGNITION LETTERS》 *
刘依恋: "模式分类中特征选择算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293074A (zh) * 2016-07-29 2017-01-04 维沃移动通信有限公司 一种情绪识别方法和移动终端
CN106293074B (zh) * 2016-07-29 2020-02-21 维沃移动通信有限公司 一种情绪识别方法和移动终端
CN107633851A (zh) * 2017-07-31 2018-01-26 中国科学院自动化研究所 基于情感维度预测的离散语音情感识别方法、装置及系统
CN107633851B (zh) * 2017-07-31 2020-07-28 极限元(杭州)智能科技股份有限公司 基于情感维度预测的离散语音情感识别方法、装置及系统
CN108630230A (zh) * 2018-05-14 2018-10-09 哈尔滨工业大学 一种基于动作语音数据联合识别的校园霸凌检测方法
CN110120231A (zh) * 2019-05-15 2019-08-13 哈尔滨工业大学 基于自适应半监督非负矩阵分解的跨语料情感识别方法
CN110120231B (zh) * 2019-05-15 2021-04-02 哈尔滨工业大学 基于自适应半监督非负矩阵分解的跨语料情感识别方法
CN110246518A (zh) * 2019-06-10 2019-09-17 深圳航天科技创新研究院 基于多粒度动静态融合特征的语音情感识别方法、装置、系统及存储介质
CN111312245A (zh) * 2020-02-18 2020-06-19 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质
CN111312245B (zh) * 2020-02-18 2023-08-08 腾讯科技(深圳)有限公司 一种语音应答方法、装置和存储介质

Also Published As

Publication number Publication date
CN104835508B (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
CN104835508B (zh) 一种用于混合语音情感识别的语音特征筛选方法
CN111243602B (zh) 基于性别、国籍和情感信息的声纹识别方法
CN105374356B (zh) 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN109492101B (zh) 基于标签信息与文本特征的文本分类方法、系统及介质
CN110390955B (zh) 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法
JP6774551B2 (ja) 音声認識処理方法及び装置
Mo et al. Neural architecture search for keyword spotting
CN108766418A (zh) 语音端点识别方法、装置及设备
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN103562993B (zh) 说话人识别方法及设备
CN108711421A (zh) 一种语音识别声学模型建立方法及装置和电子设备
US20180068652A1 (en) Apparatus and method for training a neural network language model, speech recognition apparatus and method
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN104765996B (zh) 声纹密码认证方法及系统
CN108648769A (zh) 语音活性检测方法、装置及设备
CN108806698A (zh) 一种基于卷积神经网络的伪装语音识别方法
CN107180084A (zh) 词库更新方法及装置
CN104240720A (zh) 一种基于多重分形和信息融合的语音情感识别方法
CN107195299A (zh) 训练神经网络声学模型的方法和装置及语音识别方法和装置
CN107679031B (zh) 基于堆叠降噪自编码机的广告博文识别方法
CN108417201A (zh) 单信道多说话人身份识别方法及系统
CN104751227A (zh) 深度神经网络的构建方法及系统
CN105304078A (zh) 目标声数据训练装置和目标声数据训练方法
CN107993664A (zh) 一种基于竞争神经网络的鲁棒说话人识别方法
CN111191463A (zh) 情感分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant