CN112447186A - 一种按类特征加权的语音情感识别算法 - Google Patents

一种按类特征加权的语音情感识别算法 Download PDF

Info

Publication number
CN112447186A
CN112447186A CN202011108361.XA CN202011108361A CN112447186A CN 112447186 A CN112447186 A CN 112447186A CN 202011108361 A CN202011108361 A CN 202011108361A CN 112447186 A CN112447186 A CN 112447186A
Authority
CN
China
Prior art keywords
class
training
feature
weight
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011108361.XA
Other languages
English (en)
Inventor
李冬冬
王喆
周奕隽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN202011108361.XA priority Critical patent/CN112447186A/zh
Publication of CN112447186A publication Critical patent/CN112447186A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种按类特征加权的语音情感识别算法,包括在样本特征层面上生成针对不同情感类别的预加权重信息的方法,将预加权重信息引入多分类算法的过程。本发明利用类内与类间的均值与方差信息和特征选择得到的各个特征的优先度,生成不同类情感下的预加权重信息,该预加权重信息能改变每一类中各个特征的表示能力,从而使异类之间的差异增强,使其在多分类问题上拥有更好的分类性能。本发明能够有效弥补现有的多分类方法忽视特征差异性的缺陷,结合不同特征的表示能力,从算法层面上调整不同特征在分类过程中的重要程度,解决多分类问题。

Description

一种按类特征加权的语音情感识别算法
技术领域
本发明涉及语音情感识别领域,尤其设计了一种基于按类特征预加权的多分类识别方法。
背景技术
情感识别任务是情感计算的首要目标之一,其主要目的在于通过计算机根据不同的场合情景,正确分析人类的情感状态,再根据分析的结果用正确的情感回馈给人类,从而实现一个更好的人机交互体验。随着人工智能技术的研究日趋成熟,深度学习算法的研究日益深入,语音情感识别已被广泛应用在人机交互、医学治疗、辅助教学、电话客服、驾驶检测以及公共安全等许多重要领域。然而,随着技术的不断进步,语音情感识别问题仍面临着许多挑战。其中之一便是对于语音特征的处理。语音特征的处理是实现语音情感识别技术的第一步,也是最为关键的一步,一个好的特征处理方法不仅会大大减少语音情感识别算法的成本,还能一定程度上提高最终的识别准确率,可谓是十分的关键。
在早期的时候,研究者对于特征的处理通常都是统一的,没有针对性。比如研究者常常在提取完所需的语音特征后不加后续处理直接送入模型进行训练。然而影响一个人情绪变化的因素是复杂多样的,愤怒或恐惧情感的平均音调(pitch)普遍高于中立或厌恶情感。愤怒、快乐或惊讶等高唤醒情绪产生的能量(energy)偏高,而厌恶和悲伤的能量偏低。同样,对于悲伤情感,响度(loudness)的标准差更高,而对于快乐情感来说,则相反。愤怒持续时间比悲伤持续时间短。这些不同特征间的细微差异,使得情感之间产生了不同。因此,充分利用这种特征间的不同,对于提升语音情感识别的分类能力有着很大的帮助。
传统的处理语音特征的方式主要有三种:第一类是对原始语言信号不做处理,直接使用;第二类是对原始语言信号进行分帧然后逐帧的提取语音特征用于后续的模型输入;第三类则是对逐帧提取得到的语音特征进行统计学上的分析,比如最大值,最小值,方差等,从而提取基于统计学的语音特征。
目前,三类方法都有各自的不足。第一类方法对于语音信号缺乏处理,原始语音信号包含很多无用的噪音信息,对这些信息不做处理会大大影响最终的识别准确率;第二类方法提取了语音特征,但缺乏对于语音特征的分析,从很多隐藏在特征背后的信息没有被发掘出来;第三类方法不仅提取了特征,还做了统计上的分析,但并没有充分利用这种信息来获取特征的内在本质,同样有很大的分析空间。
发明内容
技术问题:本发明提供一种按类特征加权的语音情感识别算法,通过在模型训练之前对特征进行按类的预加权的操作。通过利用统计学分析,特征选择优先度分析来对各个不同情感类中的不同特征进行分析,获得对应各类情感的特定权值,来重构各个特征的表示能力,一方面提升不同情感中区分度比较高的特征的识别能力,另一方面减少不同情感中表示能力比较弱的特征的识别作用,从而提升最终的情感区分能力。
技术方案:首先,我们将原始数据根据每一种情感类别按照一定的比例分为训练集和测试集。其次,提取所需的语音特征并对其用特征选择算法按照特征优先度降序重新排列特征。接着,用统计学的方法分析特征的能力,并计算出对应不同情感类别的独特权重输入模型进行训练。最后,在测试阶段,对测试集的样本分别赋予各个权重值,分别测试获得的概率通过投票法得到最终的识别结果,获得模型的性能。
本发明所采用的技术方案可以进一步完善。所述训练方法使用的特征选择算法可以使用各种改进的方法,只要修正的方法保证是基于权值的方法即可。进一步,该模型在划分数据集时使用的是按照特定比例划分的方法,可以先通过样本采样的方法优化数据集划分,提高训练的效率。最后,统计学的分析使用也能有很多的改进。例如卡方分析、t检验等。
有益效果:本发明与现有的技术相比,具有以下优点:
与传统的对语音特征进行同等处理的语音情感识别方法不同,本方法通过计算不同语音特征在不同情绪下的显著性来挖掘语音特征的潜在性,并充分利用这种潜在性来增强特征与情绪之间的差异。
附图说明
图1是本发明应用在语音情感识别领域的整体框架;
图2是本发明方法示意图;
具体实施方式
为了更清楚的描述本发明的内容,下面结合实例进一步说明。本方法名称为一种按类特征加权的语音情感识别算法(ECFW)包括以下步骤:
步骤1:划分多类语音情感数据集
Figure BDA0002727718990000041
其中N是训练样本的数量,其中样本类别共有c类,yi=1代表该样本为第一类情感,yi=2代表该样本为第二类情感,yi=c代表该样本为第c类情感。对于每一类情感,按照比例p,其中p∈(0,1),划分一定数量的训练集与测试集,分别输入对应的训练总集T与测试总集S。
步骤2:使用特征选择算法从xi中选择最佳特征,并且Xi={xi1,xi2,...,xini},i∈1,2,...,c,这表示对于i类情感,有ni个样本,其中所选特征的维度数为d。
步骤3:计算每个情感类别对应的权重wi。其过程为计算对应的类内均值μ和类间均值μi
Figure BDA0002727718990000042
Figure BDA0002727718990000043
计算对应的类方差vi
Figure BDA0002727718990000044
计算对应的特征选择得分Ranki
Figure BDA0002727718990000045
其中d表示特征的维度数量,集合所得类内和类间均值,类方差以及特征选择得分,计算每个类对应的权重wi
Figure BDA0002727718990000046
因此,通过上述方法,可以得到每个情绪对应的权重。也就是说,对于第i类情感,对应的权重为Wi={wi1,wi2...wid}。
经过特征选择算法之后,得到所选择的特征X’i={x’i1,x’i2···x’in},i=1,2,...,c其中x’in为d维,用零均值归一化方法对X’i进行标准化操作,并乘以求得的权重值Wi,得到新的特征表示X’iWi输入到对应训练模型M进行训练。
测试阶段将S中的每一个测试样本x分别乘以各个权重值构造出c个新的语段样本{x′W1,x′W2···x′Wc},分别输入到训练好的模型M中得到对应所乘权重的类别概率Pcc
选取
Figure BDA0002727718990000051
作为结果类别。
实验设计
实验数据集选取:本文使用了三个目前比较常用的语音情感数据库分别为德文语音情感数据集(Berlin Database of Emotional Speech,EMO-DB)、英文语音情感数据集(Interactive Emotional Dyadic Motion Capture,IEMOCAP)以及中文语音情感数据集(Mandarin Affective Speech Corpus,MASC)。选取的数据集所用的情感样本具体数量列在下表中。
Figure BDA0002727718990000052
网络训练方法:在本章中选用说话人独立的训练策略,在三个数据集中选用留一组法(Leave One Group Out,LOGO)的训练策略,总共执行五轮,每一轮用其中四个会话中的句子作为训练集,剩下一个会话作为测试集。提取的特征集为Interspeech'10,特征选择算法分别测试了ReliefF,MRMR以及Laplas法。使用的网络模型为两层的全连接神经网络构成的深度模型,分别有1024个节点。BatchNorm层和Dropout层也用于每个层之后,其中Dropout层的保留可能性P=0.5。
验证指标:选择加权平均召回率(Weighted Accuracy,WA)和未加权平均召回率(Unweighted Accuracy,UA)作为模型的评价指标。WA指的是在整个测试集上分类正确的数量。UA指的是每种类别分类正确率的平均结果。WA注重的是整体的分类结果,而UA注重的是各个类的分类结果。
对比算法:发明选用的算法ECFW,以及进行对比的算法为不应用ECFW方法原始方法Baseline。
实验结果
本算法在IEMOCAP、EMO-DB和MASC三个数据集上的结果列在下表。
Figure BDA0002727718990000061
由表中的数据可知,ECFW算法在三个不同的Baseline下,得到了2%到5%之间得到了改进。在IEMOCAP、EMO-DB和MASC中获得的最佳准确率WA分别为60.97%、75.60%和69.95%。可以由此得出结论,ECFW算法能够更改的学习特征表示能力,从而提高分类准确率。

Claims (5)

1.一种按类特征加权的语音情感识别算法,所述方法包括以下步骤:
1)将训练数据按照对应类别划分训练集以及测试集;
2)对于训练集中的特征用特征选择方法计算各个特征的优先度;
3)利用优先度,均值以及方差的计算方法得到对应的每个类别权值;
4)为训练数据每个类别赋予权重并送入网络进行训练,通过反向传播算法调整整个网络结构;
5)测试时,对测试数据分别赋予四个权重值进行四次测试,所得结果用投票法统计得出。
2.根据权利要求1中1)所述的方法,其特征在于,所用的多类语音情感数据集可以划分为
Figure FDA0002727718980000011
其中N是训练样本的数量,其中样本类别共有c类,yi=1代表该样本为第一类情感,yi=2代表该样本为第二类情感,yi=c代表该样本为第c类情感。对于每一类情感,按照比例p,其中p∈(0,1),划分一定数量的训练集与测试集,分别输入对应的训练总集T与测试总集S;根据权利要求1中2)所述的方法,其特征在于,对得到训练总集T使用基于权值的特征选择算法,比如ReliefF算法。其过程为将各个特征进行特征选择,输出一个新的特征排序,该特征排序是基于特征的表示能力由高到低降序排列的。
3.根据权利要求1中3)所述的方法,其特征在于,计算每个类对应的权重wi
其过程为计算对应的类内均值μ和类间均值μi
Figure FDA0002727718980000012
Figure FDA0002727718980000013
计算对应的类方差vi
Figure FDA0002727718980000014
计算对应的特征选择得分Ranki
Figure FDA0002727718980000015
其中d表示特征的维度数量,集合所得类内和类间均值,类方差以及特征选择得分,计算每个类对应的权重wi
Figure FDA0002727718980000021
4.根据权利要求1中4)所述的方法,其特征在于,经过特征选择算法之后,得到所选择的特征X′i={x′i1,x′i2…x′in},i=1,2,...,c其中x′in为d维,用零均值归一化方法对X′i进行标准化操作,并乘以权重值Wi,得到新的特征表示X′iWi输入到对应训练模型M进行训练。
5.根据权利要求1中5)所述的方法,其特征在于,为了测试方法的性能,我们将S中的每一个测试样本x分别乘以各个权重值构造出c个新的语段样本{x′W1,x′W2…x′Wc},分别输入到模型模型M中得到对应所乘权重的类别概率Pcc。接着选取
Figure FDA0002727718980000022
作为结果类别。
CN202011108361.XA 2020-10-16 2020-10-16 一种按类特征加权的语音情感识别算法 Withdrawn CN112447186A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011108361.XA CN112447186A (zh) 2020-10-16 2020-10-16 一种按类特征加权的语音情感识别算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011108361.XA CN112447186A (zh) 2020-10-16 2020-10-16 一种按类特征加权的语音情感识别算法

Publications (1)

Publication Number Publication Date
CN112447186A true CN112447186A (zh) 2021-03-05

Family

ID=74736130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011108361.XA Withdrawn CN112447186A (zh) 2020-10-16 2020-10-16 一种按类特征加权的语音情感识别算法

Country Status (1)

Country Link
CN (1) CN112447186A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104008754A (zh) * 2014-05-21 2014-08-27 华南理工大学 一种基于半监督特征选择的语音情感识别方法
CN104240720A (zh) * 2013-06-24 2014-12-24 北京大学深圳研究生院 一种基于多重分形和信息融合的语音情感识别方法
US20160027452A1 (en) * 2014-07-28 2016-01-28 Sone Computer Entertainment Inc. Emotional speech processing
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104240720A (zh) * 2013-06-24 2014-12-24 北京大学深圳研究生院 一种基于多重分形和信息融合的语音情感识别方法
CN104008754A (zh) * 2014-05-21 2014-08-27 华南理工大学 一种基于半监督特征选择的语音情感识别方法
US20160027452A1 (en) * 2014-07-28 2016-01-28 Sone Computer Entertainment Inc. Emotional speech processing
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DONGDONG LI 等: "Exploiting the potentialities of features for speech emotion recognition", INFORMATION SCIENCES, pages 328 - 340 *

Similar Documents

Publication Publication Date Title
Shahin et al. Emotion recognition using hybrid Gaussian mixture model and deep neural network
Chatziagapi et al. Data Augmentation Using GANs for Speech Emotion Recognition.
Lim et al. Rare Sound Event Detection Using 1D Convolutional Recurrent Neural Networks.
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
Bhatti et al. A neural network approach for human emotion recognition in speech
Gharavian et al. Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network
Li et al. Towards Discriminative Representation Learning for Speech Emotion Recognition.
CN109637545B (zh) 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
CN104269169B (zh) 一种混叠音频事件分类方法
CN113450830B (zh) 具有多重注意机制的卷积循环神经网络的语音情感识别方法
Yücesoy et al. A new approach with score-level fusion for the classification of a speaker age and gender
CN113539293B (zh) 基于卷积神经网络和联合优化的单通道语音分离方法
Shakil et al. Feature based classification of voice based biometric data through Machine learning algorithm
CN116524960A (zh) 一种基于混合熵下采样和集成分类器的语音情感识别系统
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
Lin et al. DeepEmoCluster: A semi-supervised framework for latent cluster representation of speech emotions
Iqbal et al. Mfcc and machine learning based speech emotion recognition over tess and iemocap datasets
Alashban et al. Speaker gender classification in mono-language and cross-language using BLSTM network
Xia et al. Learning salient segments for speech emotion recognition using attentive temporal pooling
CN114429135A (zh) 一种基于对抗训练和多注意力的CNN-BiLSTM方面情感分析方法
Konangi et al. Emotion recognition through speech: A review
Yue et al. Equilibrium optimizer for emotion classification from english speech signals
CN112447186A (zh) 一种按类特征加权的语音情感识别算法
CN112634947B (zh) 一种动物声音情感特征集合排序识别方法及系统
Angadi et al. Hybrid deep network scheme for emotion recognition in speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210305

WW01 Invention patent application withdrawn after publication