CN112447186A - 一种按类特征加权的语音情感识别算法 - Google Patents
一种按类特征加权的语音情感识别算法 Download PDFInfo
- Publication number
- CN112447186A CN112447186A CN202011108361.XA CN202011108361A CN112447186A CN 112447186 A CN112447186 A CN 112447186A CN 202011108361 A CN202011108361 A CN 202011108361A CN 112447186 A CN112447186 A CN 112447186A
- Authority
- CN
- China
- Prior art keywords
- class
- training
- feature
- weight
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 24
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000008451 emotion Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims description 26
- 238000012360 testing method Methods 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010187 selection method Methods 0.000 claims 1
- 238000007635 classification algorithm Methods 0.000 abstract 1
- 230000007547 defect Effects 0.000 abstract 1
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 6
- 238000007619 statistical method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000692 Student's t-test Methods 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013400 design of experiment Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种按类特征加权的语音情感识别算法,包括在样本特征层面上生成针对不同情感类别的预加权重信息的方法,将预加权重信息引入多分类算法的过程。本发明利用类内与类间的均值与方差信息和特征选择得到的各个特征的优先度,生成不同类情感下的预加权重信息,该预加权重信息能改变每一类中各个特征的表示能力,从而使异类之间的差异增强,使其在多分类问题上拥有更好的分类性能。本发明能够有效弥补现有的多分类方法忽视特征差异性的缺陷,结合不同特征的表示能力,从算法层面上调整不同特征在分类过程中的重要程度,解决多分类问题。
Description
技术领域
本发明涉及语音情感识别领域,尤其设计了一种基于按类特征预加权的多分类识别方法。
背景技术
情感识别任务是情感计算的首要目标之一,其主要目的在于通过计算机根据不同的场合情景,正确分析人类的情感状态,再根据分析的结果用正确的情感回馈给人类,从而实现一个更好的人机交互体验。随着人工智能技术的研究日趋成熟,深度学习算法的研究日益深入,语音情感识别已被广泛应用在人机交互、医学治疗、辅助教学、电话客服、驾驶检测以及公共安全等许多重要领域。然而,随着技术的不断进步,语音情感识别问题仍面临着许多挑战。其中之一便是对于语音特征的处理。语音特征的处理是实现语音情感识别技术的第一步,也是最为关键的一步,一个好的特征处理方法不仅会大大减少语音情感识别算法的成本,还能一定程度上提高最终的识别准确率,可谓是十分的关键。
在早期的时候,研究者对于特征的处理通常都是统一的,没有针对性。比如研究者常常在提取完所需的语音特征后不加后续处理直接送入模型进行训练。然而影响一个人情绪变化的因素是复杂多样的,愤怒或恐惧情感的平均音调(pitch)普遍高于中立或厌恶情感。愤怒、快乐或惊讶等高唤醒情绪产生的能量(energy)偏高,而厌恶和悲伤的能量偏低。同样,对于悲伤情感,响度(loudness)的标准差更高,而对于快乐情感来说,则相反。愤怒持续时间比悲伤持续时间短。这些不同特征间的细微差异,使得情感之间产生了不同。因此,充分利用这种特征间的不同,对于提升语音情感识别的分类能力有着很大的帮助。
传统的处理语音特征的方式主要有三种:第一类是对原始语言信号不做处理,直接使用;第二类是对原始语言信号进行分帧然后逐帧的提取语音特征用于后续的模型输入;第三类则是对逐帧提取得到的语音特征进行统计学上的分析,比如最大值,最小值,方差等,从而提取基于统计学的语音特征。
目前,三类方法都有各自的不足。第一类方法对于语音信号缺乏处理,原始语音信号包含很多无用的噪音信息,对这些信息不做处理会大大影响最终的识别准确率;第二类方法提取了语音特征,但缺乏对于语音特征的分析,从很多隐藏在特征背后的信息没有被发掘出来;第三类方法不仅提取了特征,还做了统计上的分析,但并没有充分利用这种信息来获取特征的内在本质,同样有很大的分析空间。
发明内容
技术问题:本发明提供一种按类特征加权的语音情感识别算法,通过在模型训练之前对特征进行按类的预加权的操作。通过利用统计学分析,特征选择优先度分析来对各个不同情感类中的不同特征进行分析,获得对应各类情感的特定权值,来重构各个特征的表示能力,一方面提升不同情感中区分度比较高的特征的识别能力,另一方面减少不同情感中表示能力比较弱的特征的识别作用,从而提升最终的情感区分能力。
技术方案:首先,我们将原始数据根据每一种情感类别按照一定的比例分为训练集和测试集。其次,提取所需的语音特征并对其用特征选择算法按照特征优先度降序重新排列特征。接着,用统计学的方法分析特征的能力,并计算出对应不同情感类别的独特权重输入模型进行训练。最后,在测试阶段,对测试集的样本分别赋予各个权重值,分别测试获得的概率通过投票法得到最终的识别结果,获得模型的性能。
本发明所采用的技术方案可以进一步完善。所述训练方法使用的特征选择算法可以使用各种改进的方法,只要修正的方法保证是基于权值的方法即可。进一步,该模型在划分数据集时使用的是按照特定比例划分的方法,可以先通过样本采样的方法优化数据集划分,提高训练的效率。最后,统计学的分析使用也能有很多的改进。例如卡方分析、t检验等。
有益效果:本发明与现有的技术相比,具有以下优点:
与传统的对语音特征进行同等处理的语音情感识别方法不同,本方法通过计算不同语音特征在不同情绪下的显著性来挖掘语音特征的潜在性,并充分利用这种潜在性来增强特征与情绪之间的差异。
附图说明
图1是本发明应用在语音情感识别领域的整体框架;
图2是本发明方法示意图;
具体实施方式
为了更清楚的描述本发明的内容,下面结合实例进一步说明。本方法名称为一种按类特征加权的语音情感识别算法(ECFW)包括以下步骤:
步骤1:划分多类语音情感数据集其中N是训练样本的数量,其中样本类别共有c类,yi=1代表该样本为第一类情感,yi=2代表该样本为第二类情感,yi=c代表该样本为第c类情感。对于每一类情感,按照比例p,其中p∈(0,1),划分一定数量的训练集与测试集,分别输入对应的训练总集T与测试总集S。
步骤2:使用特征选择算法从xi中选择最佳特征,并且Xi={xi1,xi2,...,xini},i∈1,2,...,c,这表示对于i类情感,有ni个样本,其中所选特征的维度数为d。
步骤3:计算每个情感类别对应的权重wi。其过程为计算对应的类内均值μ和类间均值μi:
计算对应的类方差vi:
计算对应的特征选择得分Ranki:
其中d表示特征的维度数量,集合所得类内和类间均值,类方差以及特征选择得分,计算每个类对应的权重wi:
因此,通过上述方法,可以得到每个情绪对应的权重。也就是说,对于第i类情感,对应的权重为Wi={wi1,wi2...wid}。
经过特征选择算法之后,得到所选择的特征X’i={x’i1,x’i2···x’in},i=1,2,...,c其中x’in为d维,用零均值归一化方法对X’i进行标准化操作,并乘以求得的权重值Wi,得到新的特征表示X’iWi输入到对应训练模型M进行训练。
测试阶段将S中的每一个测试样本x分别乘以各个权重值构造出c个新的语段样本{x′W1,x′W2···x′Wc},分别输入到训练好的模型M中得到对应所乘权重的类别概率Pcc。
实验设计
实验数据集选取:本文使用了三个目前比较常用的语音情感数据库分别为德文语音情感数据集(Berlin Database of Emotional Speech,EMO-DB)、英文语音情感数据集(Interactive Emotional Dyadic Motion Capture,IEMOCAP)以及中文语音情感数据集(Mandarin Affective Speech Corpus,MASC)。选取的数据集所用的情感样本具体数量列在下表中。
网络训练方法:在本章中选用说话人独立的训练策略,在三个数据集中选用留一组法(Leave One Group Out,LOGO)的训练策略,总共执行五轮,每一轮用其中四个会话中的句子作为训练集,剩下一个会话作为测试集。提取的特征集为Interspeech'10,特征选择算法分别测试了ReliefF,MRMR以及Laplas法。使用的网络模型为两层的全连接神经网络构成的深度模型,分别有1024个节点。BatchNorm层和Dropout层也用于每个层之后,其中Dropout层的保留可能性P=0.5。
验证指标:选择加权平均召回率(Weighted Accuracy,WA)和未加权平均召回率(Unweighted Accuracy,UA)作为模型的评价指标。WA指的是在整个测试集上分类正确的数量。UA指的是每种类别分类正确率的平均结果。WA注重的是整体的分类结果,而UA注重的是各个类的分类结果。
对比算法:发明选用的算法ECFW,以及进行对比的算法为不应用ECFW方法原始方法Baseline。
实验结果
本算法在IEMOCAP、EMO-DB和MASC三个数据集上的结果列在下表。
由表中的数据可知,ECFW算法在三个不同的Baseline下,得到了2%到5%之间得到了改进。在IEMOCAP、EMO-DB和MASC中获得的最佳准确率WA分别为60.97%、75.60%和69.95%。可以由此得出结论,ECFW算法能够更改的学习特征表示能力,从而提高分类准确率。
Claims (5)
1.一种按类特征加权的语音情感识别算法,所述方法包括以下步骤:
1)将训练数据按照对应类别划分训练集以及测试集;
2)对于训练集中的特征用特征选择方法计算各个特征的优先度;
3)利用优先度,均值以及方差的计算方法得到对应的每个类别权值;
4)为训练数据每个类别赋予权重并送入网络进行训练,通过反向传播算法调整整个网络结构;
5)测试时,对测试数据分别赋予四个权重值进行四次测试,所得结果用投票法统计得出。
4.根据权利要求1中4)所述的方法,其特征在于,经过特征选择算法之后,得到所选择的特征X′i={x′i1,x′i2…x′in},i=1,2,...,c其中x′in为d维,用零均值归一化方法对X′i进行标准化操作,并乘以权重值Wi,得到新的特征表示X′iWi输入到对应训练模型M进行训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011108361.XA CN112447186A (zh) | 2020-10-16 | 2020-10-16 | 一种按类特征加权的语音情感识别算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011108361.XA CN112447186A (zh) | 2020-10-16 | 2020-10-16 | 一种按类特征加权的语音情感识别算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112447186A true CN112447186A (zh) | 2021-03-05 |
Family
ID=74736130
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011108361.XA Withdrawn CN112447186A (zh) | 2020-10-16 | 2020-10-16 | 一种按类特征加权的语音情感识别算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112447186A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104008754A (zh) * | 2014-05-21 | 2014-08-27 | 华南理工大学 | 一种基于半监督特征选择的语音情感识别方法 |
CN104240720A (zh) * | 2013-06-24 | 2014-12-24 | 北京大学深圳研究生院 | 一种基于多重分形和信息融合的语音情感识别方法 |
US20160027452A1 (en) * | 2014-07-28 | 2016-01-28 | Sone Computer Entertainment Inc. | Emotional speech processing |
CN110400579A (zh) * | 2019-06-25 | 2019-11-01 | 华东理工大学 | 基于方向自注意力机制和双向长短时网络的语音情感识别 |
-
2020
- 2020-10-16 CN CN202011108361.XA patent/CN112447186A/zh not_active Withdrawn
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104240720A (zh) * | 2013-06-24 | 2014-12-24 | 北京大学深圳研究生院 | 一种基于多重分形和信息融合的语音情感识别方法 |
CN104008754A (zh) * | 2014-05-21 | 2014-08-27 | 华南理工大学 | 一种基于半监督特征选择的语音情感识别方法 |
US20160027452A1 (en) * | 2014-07-28 | 2016-01-28 | Sone Computer Entertainment Inc. | Emotional speech processing |
CN110400579A (zh) * | 2019-06-25 | 2019-11-01 | 华东理工大学 | 基于方向自注意力机制和双向长短时网络的语音情感识别 |
Non-Patent Citations (1)
Title |
---|
DONGDONG LI 等: "Exploiting the potentialities of features for speech emotion recognition", INFORMATION SCIENCES, pages 328 - 340 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shahin et al. | Emotion recognition using hybrid Gaussian mixture model and deep neural network | |
Chatziagapi et al. | Data Augmentation Using GANs for Speech Emotion Recognition. | |
Lim et al. | Rare Sound Event Detection Using 1D Convolutional Recurrent Neural Networks. | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
Bhatti et al. | A neural network approach for human emotion recognition in speech | |
Gharavian et al. | Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network | |
Li et al. | Towards Discriminative Representation Learning for Speech Emotion Recognition. | |
CN109637545B (zh) | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 | |
CN104269169B (zh) | 一种混叠音频事件分类方法 | |
CN113450830B (zh) | 具有多重注意机制的卷积循环神经网络的语音情感识别方法 | |
Yücesoy et al. | A new approach with score-level fusion for the classification of a speaker age and gender | |
CN113539293B (zh) | 基于卷积神经网络和联合优化的单通道语音分离方法 | |
Shakil et al. | Feature based classification of voice based biometric data through Machine learning algorithm | |
CN116524960A (zh) | 一种基于混合熵下采样和集成分类器的语音情感识别系统 | |
Cao et al. | Speaker-independent speech emotion recognition based on random forest feature selection algorithm | |
Lin et al. | DeepEmoCluster: A semi-supervised framework for latent cluster representation of speech emotions | |
Iqbal et al. | Mfcc and machine learning based speech emotion recognition over tess and iemocap datasets | |
Alashban et al. | Speaker gender classification in mono-language and cross-language using BLSTM network | |
Xia et al. | Learning salient segments for speech emotion recognition using attentive temporal pooling | |
CN114429135A (zh) | 一种基于对抗训练和多注意力的CNN-BiLSTM方面情感分析方法 | |
Konangi et al. | Emotion recognition through speech: A review | |
Yue et al. | Equilibrium optimizer for emotion classification from english speech signals | |
CN112447186A (zh) | 一种按类特征加权的语音情感识别算法 | |
CN112634947B (zh) | 一种动物声音情感特征集合排序识别方法及系统 | |
Angadi et al. | Hybrid deep network scheme for emotion recognition in speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210305 |
|
WW01 | Invention patent application withdrawn after publication |