CN108899049A - 一种基于卷积神经网络的语音情感识别方法及系统 - Google Patents
一种基于卷积神经网络的语音情感识别方法及系统 Download PDFInfo
- Publication number
- CN108899049A CN108899049A CN201810571892.9A CN201810571892A CN108899049A CN 108899049 A CN108899049 A CN 108899049A CN 201810571892 A CN201810571892 A CN 201810571892A CN 108899049 A CN108899049 A CN 108899049A
- Authority
- CN
- China
- Prior art keywords
- signal
- voice signal
- speech
- classifier
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 45
- 230000008569 process Effects 0.000 claims abstract description 28
- 230000008909 emotion recognition Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 24
- 230000002996 emotional effect Effects 0.000 claims description 19
- 238000009432 framing Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000013139 quantization Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000005236 sound signal Effects 0.000 claims 2
- 230000008451 emotion Effects 0.000 description 12
- 238000013461 design Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 208000027534 Emotional disease Diseases 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000037007 arousal Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000009394 selective breeding Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于卷积神经网络的语音情感识别方法及系统。所述方法先对获取的语音信号进行预处理,再利用语谱图以时频域形式将语音信号进行显示,随后利用卷积神经网络进行特征提取,提取过程主要分为卷积过程,再进行池化过程,可根据实际信号特点和特征提取需求多次卷积与池化,得到特征图之后再用分类器进行情感特征分类,输出语音情感识别结果,本发明方法既可以保持情感特征提取的准确性,也可以保证系统识别的实时性。
Description
技术领域
本发明涉及语音情感识别领域,尤其涉及到一种基于卷积神经网络的语音情感识别方法及系统。
背景技术
自然和谐的人机交互中,机器应该能理解人的情感和意图,对不同人、不同环境、不同任务都能给予不同的反馈,那么机器如果能拥有像人与人一样可以方便与人自然交流的“能力”,就必须要解决如何更好理解交流中的情感问题,而这正是“情感智能(EmotionalIntelligence)”所需要解决的,情感智能可以理解为情感的准确识别和反馈能力。
目前,应用于人类情感识别研究的检测信息包括语音、面部表情、生理信号、肢体语言等。语音信号是人与人之间沟通最快且最自然的方法,语音情感识别研究对促进和谐人机交互意义重大。
语音情感由一些语音参数表征,然而这些特征参数内在的复杂性决定了情感特征提取的困难。国内外研究者们从语音学和也理学方面对情感特征进行了大量的研究。一般提取的情感特征主要分为韵律特征、音质特征和谱特征。韵律特征被认为是主要的语音情感参数,反映的是"唤醒度"信息。人类语言的时常、语调、轻重各不相同,这些韵律特征的变化构成了美妙的语言。常见韵律特征有基频、时长、能量等,韵律特征的统计特征分析着眼于整体语音,反映出一段时间之上韵律参数的变化规律。在Basque情感数据上,Luengo等人研究发现能量的平均值、方差、能量对数和基频对数的动态变化范围、基频均值和对数斜交共6个特征是最具有情感区分能力的特征。Origlia等人提取基频和能量相关的共31维韵律特征在多个语音情感数据库上取得了很好的识别率。而Ilion使用35个韵律特征在berlin库上取得了51%的识别率。
目前国内很多研究人员进行了语音情感识别领域的研究。研究人员基于传统的基频、共振峰、MFCC(Mel-Frequency Cepstral Coefficients)等特征构建了一系列的人工特征。提取这些人工特征以及它们的统计特征,构成一个情感特征集,应用特征PCA(Principal Component Analysis)、LDA(Linear Discriminant Analysis)等特征选择方法对特征集进行选择和降维,得到与情感相关性较高的语音情感特征子集,采用支持向量机、BP神经网络等对特征子集进行分类得到语音情感。
传统的情感识别方案通常是从语音信号这些原始数据中提取语音特征。这类语音特征是人工设计的,这类特征存在以下缺点:
(1)人工设计特征的过程非常复杂,并且十分依赖工程经验;
(2)人工选择的特征通常仅针对特定数据有效,不能适应待处理数据特征的变化;
(3)人工设计的特征表达能力有限,不能精确描述数据中隐含的复杂特征和抽象特征,存在一定的偏差;
(4)人工设计的特征提取器无法提取目标的所有特征,这一非完备性会造成特征鉴别能力的大幅下降。
相比传统机器学习算法设计难度和使用难度,深度学习在特征提取方面具有明显的优势。深度学习相关的特征选择算法可以从随机初始化的特征中,根据损失函数自动调整特征参数,实现特征学习。同时,根据特征在测试集中的重要程度自动调整特征权重,完成特征选择,从而最终学习并选择出最能代表数据本质特征的特征模式,提高系统对于数据的鉴别力。
发明内容
本发明针对传统的人工设计的语音特征的缺陷,提出了一种基于卷积神经网络的语音情感识别方法及系统,所述方法包含以下步骤:
S1、获取输入的语音信号x(t),并对所述语音信号x(t)进行预处理,获得预处理后的语音信号x′d(n);
S2、将预处理后的语音信号x′d(n)进行语谱图绘制,获得以频域信号Xd(k)显示的语谱图;
S3、构建卷积神经网络模型,对S2输出的以频域信号Xd(k)显示的语谱图进行特征提取,获得语音信号特征图;
S4、构建分类器SVM模型,所述分类器SVM模型包含K个SVM二分类器,SVM二分类器的模型表达式为其中K为预设的情感类别数量,C>0,C是惩罚系数,ω和b是超平面的参数,ωxi+b表示语音信号特征图中样本点xi到超平面距离,即分类间隔;yi为语音样本的情感标签。
S5、利用所述构建的分类器SVM模型对步骤S3得到的语音信号特征图进行识别,输出情感特征分类结果既当分类间隔ωxk+b最大值时,获得的分类器编号k,从而获得第k个分类器对应的语音情感。
在本发明的一种基于卷积神经网络的语音情感识别方法中,步骤S1包含以下步骤:
S11、将获取的语音信号x(t)进行采样和量化,以完成语音信号的采样和AD转换;
S12、将采样和量化后的语音信号采用一阶FIR高通数字滤波器进行预加重处理,获得预加重后的语音信号x(m);
S13、根据表达式将预加重后的语音信号进行分帧加窗处理;
其中,x(m)为预加重后的语音信号,x′d(n)为分帧加窗后的语音信号,ω(n)是窗函数,N为窗宽,
在本发明的一种基于卷积神经网络的语音情感识别方法中,步骤S2包含以下步骤:
S21、应用傅里叶变换k=0,1,...,N-1对预处理后的语音信号x′d(n)进行变换,得到语音信号x′d(n)的频域信号Xd(k),其中,d表示第d帧语音信号,N表示信号每一帧的长度,Xd(k)表示傅里叶变换后的语音频域信号;
S22、根据公式L=20log10(|Xd(k)|)计算傅里叶变换后的语音频域信号Xd(k)的幅值,并对所述幅值进行归一化处理,将信号幅值绘制成语谱图。
在本发明的一种基于卷积神经网络的语音情感识别方法中,步骤S3包含以下步骤:
S30、语谱图矩阵获取:根据S2得到的语谱图中一帧信号的幅值构成一个向量,多帧信号的幅值向量组成一个幅值矩阵,将所述幅值矩阵中的各个元素线性映射到[0,1]内,所述元素值构成了语谱图矩阵I;
S31、卷积层处理:将语谱图矩阵I与卷积核进行运算,得到卷积层对应的特征图;卷积过程为其中I为语谱图矩阵,K表示卷积核,M和N表示卷积核的宽度和高度;
S32、池化层处理:将卷积层对应的特征图作为池化层的输入,采用最大池化方法经过池化操作后产生一个对应的池化层的特征图;
S33、全连接层处理:对卷积层和池化层输出的特征图进行映射,实现非线性变换,获得语音信号特征图。
在本发明的一种基于卷积神经网络的语音情感识别方法中,步骤S4中构建分类器SVM模型中的语音样本点情感标签函数具体为:
对于第k个SVM分类器,将语音样本点的情感标签yi设置为1,其余语音样本点的情感标签yi设置为-1,从而将每个二类分类器属于第k类的语音样本点从其他类中分离出来。
本发明还提供了一种基于卷积神经网络的语音情感识别系统,包含以下模块:
语音预处理模块,用于获取输入的语音信号x(t),并对所述语音信号x(t)进行预处理,获得预处理后的语音信号x′d(n);
语谱图获取模块,用于将预处理后的语音信号x′d(n)进行语谱图绘制,获得以频域信号Xd(k)显示的语谱图;
卷积神经网络处理模块,用于构建卷积神经网络模型,对语谱图获取模块输出的以频域信号Xd(k)显示的语谱图进行特征提取,获得语音信号特征图;
分类器构建模块,用于构建分类器SVM模型,所述分类器SVM模型包含K个SVM二分类器,SVM二分类器的模型表达式为其中K为预设的情感类别数量,C>0,C是惩罚系数,ω和b是超平面的参数,ωxi+b表示数据点xi到超平面距离,即分类间隔;yi为语音样本点情感标签函数。
情感特征分类模块,用于利用所述构建的分类器SVM模型对分类器构建模块得到的语音信号特征图进行识别,输出情感特征分类结果既当分类间隔ωxk+b最大值时,获得的分类器编号k,从而获得第k个分类器对应的语音情感。
在本发明的一种基于卷积神经网络的语音情感识别系统中,语音预处理模块包含以下子模块:
采样量化模块,用于将获取的语音信号x(t)进行采样和量化,以完成语音信号的采样和AD转换;
预加重模块,用于将采样和量化后的语音信号采用一阶FIR高通数字滤波器进行预加重处理,获得预加重后的语音信号x(m);
分帧和加窗模块,用于根据表达式将预加重后的语音信号进行分帧加窗处理;
其中,x(m)为预加重后的语音信号,x′d(n)为分帧加窗后的语音信号,ω(n)是窗函数,
N为窗宽,
在本发明的一种基于卷积神经网络的语音情感识别系统中,语谱图获取模块包含以下子模块:
语音频域信号转换模块,用于应用傅里叶变换k=0,1,...,N-1对预处理后的语音信号x′d(n)进行变换,得到语音信号x′d(n)的频域信号Xd(k),其中,d表示第d帧语音信号,N表示信号每一帧的长度,Xd(k)表示傅里叶变换后的语音频域信号;
语谱图绘制模块,用于根据公式L=20log10(|Xd(k)|)计算傅里叶变换后的语音频域信号Xd(k)的幅值,并对所述幅值进行归一化处理,将信号幅值绘制成语谱图。
在本发明的一种基于卷积神经网络的语音情感识别系统中,卷积神经网络处理模块包含以下子模块:
语谱图矩阵获取模块,用于将语谱图绘制模块到的语谱图中一帧信号的幅值构成一个向量,多帧信号的幅值向量组成一个幅值矩阵,将所述幅值矩阵中的各个元素线性映射到[0,1]内,所述元素值构成了语谱图矩阵I。
卷积层处理模块,用于将语谱图矩阵I与卷积核进行运算,得到卷积层对应的特征图;卷积过程为其中I为语谱图矩阵,K表示卷积核,M和N表示卷积核的宽度和高度;
池化层处理模块,用于将卷积层对应的特征图作为池化层的输入,采用最大池化方法经过池化操作后产生一个对应的池化层的特征图;
全连接层处理模块,用于对卷积层和池化层输出的特征图进行映射,实现非线性变换,获得语音信号特征图。
在本发明的一种基于卷积神经网络的语音情感识别系统中,所述分类器构建模块还包含:
语音样本点情感标签函数构建模块,用于建立SVM二分类器模型语音样本点情感语音样本点情感标签函数:
对于第k个SVM分类器,将语音样本点情感标签yi设置为1,其余语音样本点情感标签yi设置为-1,从而将每个二类分类器属于第k类的语音样本点从其他类中分离出来。
本发明方法有益效果在于:
(1)卷积神经网络算法可以让模型根据语音数据的隐含特点,自主的选择做需要的特征,不需要人工设计模式特征,对专业经验的依赖性较小;
(2)卷积神经网络算法将特征学习的过程融入到了模型建立的过程,二者在训练过程中同时完成,除学习率等全局参数外,不需要额外进行调试;
(3)卷积神经网络算法能够在训练过程中,根据误差函数梯度的变化,自主选择最有鉴别力的特征,从而避免了手动设计特征时的不完备性和偏差;
采用卷积神经网络进行特征提取,既可以保持情感特征提取的准确性,也可以保证系统识别的实时性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例方法流程图;
图2是本发明实施例卷积神经网络模型结构图;
图3是本发明实施例卷积过程示例;
图4是本发明实施例池化过程示例;
图5是本发明实施例多分类SVM分类器结构图。
具体实施方式
为了对发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
参考图1,本发明提出了一种基于卷积神经网络的语音情感识别方法及系统,所述方法包含以下步骤:
S1、获取输入的语音信号x(t),并对所述语音信号x(t)进行预处理,获得预处理后的语音信号x′d(n);
S2、将预处理后的语音信号x′d(n)进行语谱图绘制,获得以频域信号Xd(k)显示的语谱图;
S3、构建卷积神经网络模型,对S2输出的以频域信号Xd(k)显示的语谱图进行特征提取,获得语音信号特征图;
S4、构建分类器SVM模型,所述分类器SVM模型包含K个SVM二分类器,SVM二分类器的模型表达式为其中K为预设的情感类别数量,C>0,C是惩罚系数,ω和b是超平面的参数,ωxi+b表示语音信号特征图中样本点xi到超平面距离,即分类间隔;yi为语音样本点情感标签函数,从而获得第k个分类器对应的语音情感。
S5、利用所述构建的分类器SVM模型对步骤S3得到的语音信号特征图进行识别,输出情感特征分类结果既当分类间隔ωxk+b最大值时,获得的分类器编号k。
在本发明的一种基于卷积神经网络的语音情感识别方法中,步骤S1包含以下步骤:
S11、将获取的语音信号x(t)进行采样和量化,以完成语音信号的采样和AD转换;
日常生活中的语音信号是一段连续的模拟语音信号,在计算机对语音信号处理前需要对模拟信号进行采样和量化,将语音信号转化为数字信号,该过程称为A/D转换过程。采样是对语音信号x(t)以周期T进行采样,将其转换为离散信号x(n),F=1/T为采样频率。根据奈奎斯特采样定律,采样频率F应该不小于原始语音信号频率的两倍,以防止信号失真。在对信号进行采样后,需要进行量化处理。量化是把离散信号转化为数字信号。AD采样芯片的位数决定了量化精度。语音情感数据库中的语音信号一般是以16位精度来对语音信号进行处理的。
S12、将采样和量化后的语音信号采用一阶FIR高通数字滤波器进行预加重处理,获得预加重后的语音信号x(m);
从发声器官发出来的语音信号会有一定的衰减。声门激励和口鼻辐射会使声音信号的800Hz以上的高频部分以6dB/倍频程的速度衰减,语音信号将发声变化,高频部分幅度会减小。为了消除这一影响,需要对语音信号进行预加重处理。常用的预加重方法是用一个一阶的FIR高通数字滤波器进行处理,其传递函数为
H(z)=1-αz-1
其中,α是预加重系数,其取值在0.9~1之间。
S13、将预加重后的语音信号进行分帧和加窗;语音信号是一个时变的信号,但是发声器官的震动具有周期性,短时间内发声器官的变化是平稳的,因此语音信号可以认为是短时平稳的信号,一般而言,在10~30ms内的语音信号具有短时平稳性,信号段内的各个语音参数基本保持不变。分帧过程是将一段连续的语音信号分割为一段段短时的语音信号,然后在短时语音段上提取语音情感特征。为了消除帧起始和连续端的不连续性,分帧后的信号需要进行加窗处理,分帧加窗过程根据表达式进行分帧加窗处理;其中,x(m)为预加重后的语音信号,x′d(n)为分帧加窗后的语音信号,ω(n)是窗函数,
N为窗宽,
在本发明的一种基于卷积神经网络的语音情感识别方法中,步骤S2包含以下步骤:
S21、应用傅里叶变换k=0,1,...,N-1对预处理后的语音信号x′d(n)进行变换,得到语音信号x′d(n)的频域信号Xd(k),其中,d表示第d帧语音信号,N表示信号每一帧的长度,Xd(k)表示傅里叶变换后的语音频域信号;
S22、根据公式L=20log10(|Xd(k)|)计算傅里叶变换后的语音频域信号Xd(k)的幅值,并对所述幅值进行归一化处理,将信号幅值绘制成语谱图。
在本发明的一种基于卷积神经网络的语音情感识别方法中,步骤S3中的卷积神经网络的基本结构包括输入层(Input Layer)、卷积层(Convolutional Layer)、全连接层(Fully Connected Layer)、输出层(Output Layer)。图2为卷积神经网络的基本结构,一般包含多组(根据数据特征确定具体组数)卷积层和池化层(以卷积层+池化层为一组)以组成更深层次的网络。包含以下步骤:
S30、语谱图矩阵获取:根据S2得到的语谱图中一帧信号的幅值构成一个向量,多帧信号的幅值向量组成一个幅值矩阵,将所述幅值矩阵中的各个元素线性映射到[0,1]内,所述元素值构成了语谱图矩阵I。
S31、卷积层处理:卷积层包含多个特征图(Feature Map)。每个特征图是输入图像和卷积核进行卷积运算得到的。卷积神经网络中包含多个卷积层,高层卷积层的输入来自底层卷积层的输出。输入图像经过不断的卷积运算过程,最终形成高阶的抽象特征。将语谱图矩阵I与卷积核进行运算,得到卷积层对应的特征图;
卷积过程为其中I为语谱图矩阵,K表示卷积核,M和N表示卷积核的宽度和高度;卷积核有3个重要的参数:卷积核个数、卷积核大小、卷积步长。输入图像与一个卷积核进行卷积运算可以形成一个特征图。在一个卷积层中,往往需要多个特征图来表征更多的抽象特征,因此需要设置多个卷积核,输入图像的大小一般比卷积核的尺寸大,因此卷积核需要在输入图像上不断滑动完成卷积运算过程,卷积步长是卷积核每次移动的步长。图3是一个卷积过程的示例;
S32、池化层处理:池化层一般连接在卷积层之后,卷积层的输出作为池化层的输入,卷积层的输出经过池化操作后对应产生一个池化层的特征图。池化过程有2个重要参数:池化核的大小,池化步长。池化核的大小表现池化的范围,通常输入图像比池化核大,需要设置池化步长。池化层的主要目的是特征降维,常用的池化方法为最大池化方法。取卷积核大小范围内的数据,以最大值作为输出。以图4(a)为例,池化核大小为2*2,取2*2范围内的数据,最大值7作为池化操作的输出。图4是一次完整的池化操作的示例。将卷积层对应的特征图作为池化层的输入,采用最大池化方法经过池化操作后产生一个对应的池化层的特征图;
S33、全连接层处理:全连接层一般连接在卷积层和池化层之后。它的结构与MLP类似,下一层神经元与当前神经元进行全连接,全连接层能够对卷积层和池化层输出的特征图进行映射进行处理。由于全连接层的参数数量巨大,在训练数据不足的情况下容易出现过拟合的情况。为了避免过拟合现象,在全连接层中间采取dropout方法。模型训练过程中会随机去掉全连接层之间的部分连接,这使得模型的复杂度降低,模型的变化增强,同时模型能够学习到更多更有效的特征。对卷积层和池化层输出的特征图进行映射,实现非线性变换,获得语音信号特征图。
在本发明的一种基于卷积神经网络的语音情感识别方法中,步骤S4包含:
构建SVM二分类器模型:线性不可分SVM的模型如下所示:
s.t.yi(ωxi+b)≥1-ξi,i=1,2,L,M
ξi≥0,i=1,2,L,M
其中,C>0,C是惩罚系数,ξi是松弛因子,ω和b是超平面的参数,M是样本点的个数,ωxi+b表示样本点到超平面距离,即分类间隔。对目标函数最小化,可以求得一组最优的参数。
上述模型中存在着约束条件,属于带有约束条件的优化模型,这给模型的求解带来了困难。无约束的优化模型求解较为简单,为了将原模型转化为无约束的优化模型,将约束条件进一步用合页损失函数(Hinge Loss Function)表示,
H=max(0,1-yi(ωxi+b))
将合页损失函数带入目标函数中可以得到无约束条件的模型,
由于上式中惩罚项为一次函数,故上述模型也称为L1SVM模型。L1SVM模型求导过程复杂,实际中将惩罚项换为二次函数,得到L2SVM模型,见图5,L2SVM模型表达式为
其中C>0,C是惩罚系数,ω和b是超平面的参数,ωxi+b表示语音信号特征图中样本点xi到超平面距离,即分类间隔;yi为语音样本点情感标签函数;N>1,表示样本点个数;
其中,由于语音中包含多类情感,需要设计一个多分类器来识别多类情感。这里采用一对多SVM分类器设计方法。若实际情感类别数量为K,则设计K个SVM二分类器,每个二分类器中的样本点情感标签函数划分如下,
对于第k个SVM分类器,将样本点情感标签yi设置为1,其余样本点情感标签yi设置为-1,从而将每个二类分类器将属于第k类的样本从其他类中分离出来。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种基于卷积神经网络的语音情感识别方法,其特征在于,包含以下步骤:
S1、获取输入的语音信号x(t),并对所述语音信号x(t)进行预处理,获得预处理后的语音信号x′d(n);
S2、将预处理后的语音信号x′d(n)进行语谱图绘制,获得以频域信号Xd(k)显示的语谱图;
S3、构建卷积神经网络模型,对S2输出的以频域信号Xd(k)显示的语谱图进行特征提取,获得语音信号特征图;
S4、构建分类器SVM模型,所述分类器SVM模型包含K个SVM二分类器,SVM二分类器的模型表达式为其中K为预设的情感类别数量,C>0,C是惩罚系数,ω和b是超平面的参数,ωxi+b表示语音信号特征图中样本点xi到超平面距离,即分类间隔;yi为语音样本点情感标签函数;
S5、利用所述构建的分类器SVM模型对步骤S3得到的语音信号特征图进行识别,输出情感特征分类结果既当分类间隔ωxk+b最大值时,获得的分类器编号k,从而获得第k个分类器对应的语音情感。
2.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法,其特征在于,步骤S1包含以下步骤:
S11、将获取的语音信号x(t)进行采样和量化,以完成语音信号的采样和AD转换;
S12、将采样和量化后的语音信号采用一阶FIR高通数字滤波器进行预加重处理,获得预加重后的语音信号x(m);
S13、根据表达式将预加重后的语音信号进行分帧加窗处理;
其中,x(m)为预加重后的语音信号,x′d(n)为分帧加窗后的语音信号,ω(n)是窗函数,N为窗宽。
3.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法,其特征在于,步骤S2包含以下步骤:
S21、应用傅里叶变换k=0,1,...,N-1对预处理后的语音信号x′d(n) 进行变换,得到语音信号x′d(n)的频域信号Xd(k),其中,d表示第d帧语音信号,N表示信号每一帧的长度,Xd(k)表示傅里叶变换后的语音频域信号;
S22、根据公式L=20log10(|Xd(k)|)计算傅里叶变换后的语音频域信号Xd(k)的幅值,并对所述幅值进行归一化处理,将信号幅值绘制成语谱图。
4.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法,其特征在于,步骤S3包含以下步骤:
S30、语谱图矩阵获取:根据S2得到的语谱图中一帧信号的幅值构成一个向量,多帧信号的幅值向量组成一个幅值矩阵,将所述幅值矩阵中的各个元素线性映射到[0,1]内,所述元素值构成了语谱图矩阵I;
S31、卷积层处理:将语谱图矩阵I与卷积核进行运算,得到卷积层对应的特征图;卷积过程为其中I为语谱图矩阵,K表示卷积核,M和N表示卷积核的宽度和高度;
S32、池化层处理:将卷积层对应的特征图作为池化层的输入,采用最大池化方法经过池化操作后产生一个对应的池化层的特征图;
S33、全连接层处理:对卷积层和池化层输出的特征图进行映射,实现非线性变换,获得语音信号特征图。
5.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法,其特征在于,步骤S4中构建分类器SVM模型中的语音样本点情感标签函数具体为:
对于第k个SVM分类器,将语音样本点的情感标签yi设置为1,其余语音样本点的情感标签yi设置为-1,从而将每个二类分类器属于第k类的语音样本点从其他类中分离出来。
6.一种基于卷积神经网络的语音情感识别系统,其特征在于,包含以下模块:
语音预处理模块,用于获取输入的语音信号x(t),并对所述语音信号x(t)进行预处理,获得预处理后的语音信号x′d(n);
语谱图获取模块,用于将预处理后的语音信号x′d(n)进行语谱图绘制,获得以频域信号Xd(k)显示的语谱图;
卷积神经网络处理模块,用于构建卷积神经网络模型,对语谱图获取模块输出的以频域信号Xd(k)显示的语谱图进行特征提取,获得语音信号特征图;
分类器构建模块,用于构建分类器SVM模型,所述分类器SVM模型包含K个SVM二分类器,SVM二分类器的模型表达式为其中K为预设的情感类别数量,C>0,C是惩罚系数,ω和b是超平面的参数,ωxi+b表示数据点xi到超平面距离,即分类间隔;yi为语音样本点情感标签函数;
情感特征分类模块,用于利用所述构建的分类器SVM模型对分类器构建模块得到的语音信号特征图进行识别,输出情感特征分类结果既当分类间隔ωxk+b最大值时,获得的分类器编号k,从而获得第k个分类器对应的语音情感。
7.根据权利要求6所述一种基于卷积神经网络的语音情感识别系统,其特征在于,语音预处理模块包含以下子模块:
采样量化模块,用于将获取的语音信号x(t)进行采样和量化,以完成语音信号的采样和AD转换;
预加重模块,用于将采样和量化后的语音信号采用一阶FIR高通数字滤波器进行预加重处理,获得预加重后的语音信号x(m);
分帧和加窗模块,用于根据表达式将预加重后的语音信号进行分帧加窗处理;
其中,x(m)为预加重后的语音信号,x′d(n)为分帧加窗后的语音信号,ω(n)是窗函数,N为窗宽。
8.根据权利要求6所述一种基于卷积神经网络的语音情感识别系统,其特征在于,语谱图获取模块包含以下子模块:
语音频域信号转换模块,用于应用傅里叶变换k=0,1,...,N-1对预处理后的语音信号x′d(n)进行变换,得到语音信号x′d(n)的频域信号Xd(k),其中,d表示第d帧语音信号,N表示信号每一帧的长度,Xd(k)表示傅里叶变换后的语音频域信号;
语谱图绘制模块,用于根据公式L=20log10(|Xd(k)|)计算傅里叶变换后的语音频域信号Xd(k)的幅值,并对所述幅值进行归一化处理,将信号幅值绘制成语谱图。
9.根据权利要求6所述一种基于卷积神经网络的语音情感识别系统,其特征在于,卷积神经网络处理模块包含以下子模块:
语谱图矩阵获取模块,用于将语谱图获取模块到的语谱图中一帧信号的幅值构成一个向量,多帧信号的幅值向量组成一个幅值矩阵,将所述幅值矩阵中的各个元素线性映射到[0,1]内,所述元素值构成了语谱图矩阵I;
卷积层处理模块,用于将语谱图矩阵I与卷积核进行运算,得到卷积层对应的特征图;卷积过程为其中I为语谱图矩阵,K表示卷积核,M和N表示卷积核的宽度和高度;
池化层处理模块,用于将卷积层对应的特征图作为池化层的输入,采用最大池化方法经过池化操作后产生一个对应的池化层的特征图;
全连接层处理模块,用于对卷积层和池化层输出的特征图进行映射,实现非线性变换,获得语音信号特征图。
10.根据权利要求6所述一种基于卷积神经网络的语音情感识别系统,其特征在于,所述分类器构建模块还包含:
语音样本点情感标签函数构建模块,用于建立SVM二分类器模型语音样本点情感语音样本点情感标签函数:
对于第k个SVM分类器,将语音样本点情感标签yi设置为1,其余语音样本点情感标签yi设置为-1,从而将每个二类分类器属于第k类的语音样本点从其他类中分离出来。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810571892.9A CN108899049A (zh) | 2018-05-31 | 2018-05-31 | 一种基于卷积神经网络的语音情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810571892.9A CN108899049A (zh) | 2018-05-31 | 2018-05-31 | 一种基于卷积神经网络的语音情感识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108899049A true CN108899049A (zh) | 2018-11-27 |
Family
ID=64344421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810571892.9A Pending CN108899049A (zh) | 2018-05-31 | 2018-05-31 | 一种基于卷积神经网络的语音情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108899049A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109616141A (zh) * | 2019-01-03 | 2019-04-12 | 燕山大学 | 发音异常检测方法 |
CN109637522A (zh) * | 2018-12-26 | 2019-04-16 | 杭州电子科技大学 | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 |
CN109657649A (zh) * | 2019-01-14 | 2019-04-19 | 南京邮电大学 | 一种轻型心音神经网络的设计方法 |
CN109767790A (zh) * | 2019-02-28 | 2019-05-17 | 中国传媒大学 | 一种语音情感识别方法及系统 |
CN109785857A (zh) * | 2019-02-28 | 2019-05-21 | 桂林电子科技大学 | 基于mfcc+mp融合特征的异常声事件识别方法 |
CN110047506A (zh) * | 2019-04-19 | 2019-07-23 | 杭州电子科技大学 | 一种基于卷积神经网络和多核学习svm的关键音频检测方法 |
CN111326178A (zh) * | 2020-02-27 | 2020-06-23 | 长沙理工大学 | 基于卷积神经网络的多模态语音情感识别系统及方法 |
CN111402870A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种语音识别方法、装置及设备 |
CN111798873A (zh) * | 2020-05-15 | 2020-10-20 | 厦门快商通科技股份有限公司 | 一种基于3-d卷积神经网络的语音情绪识别方法及装置 |
CN111883178A (zh) * | 2020-07-17 | 2020-11-03 | 渤海大学 | 一种基于双通道语音转图像式情感识别方法 |
CN112037822A (zh) * | 2020-07-30 | 2020-12-04 | 华南师范大学 | 基于ICNN与Bi-LSTM的语音情感识别方法 |
CN112927714A (zh) * | 2021-01-25 | 2021-06-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种数据处理方法以及设备 |
CN113314151A (zh) * | 2021-05-26 | 2021-08-27 | 中国工商银行股份有限公司 | 语音信息处理方法、装置、电子设备及存储介质 |
CN113990294A (zh) * | 2021-09-07 | 2022-01-28 | 浙江讯飞智能科技有限公司 | 语音分类方法以及相关装置、设备 |
WO2022198923A1 (zh) * | 2021-03-26 | 2022-09-29 | 之江实验室 | 一种融合人群信息的语音情感识别方法和系统 |
CN115662435A (zh) * | 2022-10-24 | 2023-01-31 | 福建网龙计算机网络信息技术有限公司 | 一种虚拟教师拟真化语音的生成方法及终端 |
-
2018
- 2018-05-31 CN CN201810571892.9A patent/CN108899049A/zh active Pending
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637522A (zh) * | 2018-12-26 | 2019-04-16 | 杭州电子科技大学 | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 |
CN109637522B (zh) * | 2018-12-26 | 2022-12-09 | 杭州电子科技大学 | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 |
CN111402870B (zh) * | 2019-01-02 | 2023-08-15 | 中国移动通信有限公司研究院 | 一种语音识别方法、装置及设备 |
CN111402870A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种语音识别方法、装置及设备 |
CN109616141B (zh) * | 2019-01-03 | 2022-01-11 | 燕山大学 | 发音异常检测方法 |
CN109616141A (zh) * | 2019-01-03 | 2019-04-12 | 燕山大学 | 发音异常检测方法 |
CN109657649A (zh) * | 2019-01-14 | 2019-04-19 | 南京邮电大学 | 一种轻型心音神经网络的设计方法 |
CN109657649B (zh) * | 2019-01-14 | 2022-08-26 | 南京邮电大学 | 一种轻型心音神经网络的设计方法 |
CN109785857A (zh) * | 2019-02-28 | 2019-05-21 | 桂林电子科技大学 | 基于mfcc+mp融合特征的异常声事件识别方法 |
CN109785857B (zh) * | 2019-02-28 | 2020-08-14 | 桂林电子科技大学 | 基于mfcc+mp融合特征的异常声事件识别方法 |
CN109767790A (zh) * | 2019-02-28 | 2019-05-17 | 中国传媒大学 | 一种语音情感识别方法及系统 |
CN110047506B (zh) * | 2019-04-19 | 2021-08-20 | 杭州电子科技大学 | 一种基于卷积神经网络和多核学习svm的关键音频检测方法 |
CN110047506A (zh) * | 2019-04-19 | 2019-07-23 | 杭州电子科技大学 | 一种基于卷积神经网络和多核学习svm的关键音频检测方法 |
CN111326178A (zh) * | 2020-02-27 | 2020-06-23 | 长沙理工大学 | 基于卷积神经网络的多模态语音情感识别系统及方法 |
CN111798873A (zh) * | 2020-05-15 | 2020-10-20 | 厦门快商通科技股份有限公司 | 一种基于3-d卷积神经网络的语音情绪识别方法及装置 |
CN111883178A (zh) * | 2020-07-17 | 2020-11-03 | 渤海大学 | 一种基于双通道语音转图像式情感识别方法 |
CN112037822B (zh) * | 2020-07-30 | 2022-09-27 | 华南师范大学 | 基于ICNN与Bi-LSTM的语音情感识别方法 |
CN112037822A (zh) * | 2020-07-30 | 2020-12-04 | 华南师范大学 | 基于ICNN与Bi-LSTM的语音情感识别方法 |
CN112927714A (zh) * | 2021-01-25 | 2021-06-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种数据处理方法以及设备 |
CN112927714B (zh) * | 2021-01-25 | 2024-01-12 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种数据处理方法以及设备 |
WO2022198923A1 (zh) * | 2021-03-26 | 2022-09-29 | 之江实验室 | 一种融合人群信息的语音情感识别方法和系统 |
CN113314151A (zh) * | 2021-05-26 | 2021-08-27 | 中国工商银行股份有限公司 | 语音信息处理方法、装置、电子设备及存储介质 |
CN113990294A (zh) * | 2021-09-07 | 2022-01-28 | 浙江讯飞智能科技有限公司 | 语音分类方法以及相关装置、设备 |
CN115662435A (zh) * | 2022-10-24 | 2023-01-31 | 福建网龙计算机网络信息技术有限公司 | 一种虚拟教师拟真化语音的生成方法及终端 |
US11727915B1 (en) | 2022-10-24 | 2023-08-15 | Fujian TQ Digital Inc. | Method and terminal for generating simulated voice of virtual teacher |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108899049A (zh) | 一种基于卷积神经网络的语音情感识别方法及系统 | |
CN112784798B (zh) | 一种基于特征-时间注意力机制的多模态情感识别方法 | |
CN110516696B (zh) | 一种基于语音和表情的自适应权重双模态融合情感识别方法 | |
CN106228977B (zh) | 基于深度学习的多模态融合的歌曲情感识别方法 | |
CN103366618B (zh) | 基于人工智能与虚拟现实用于汉语学习培训的场景设备 | |
Umamaheswari et al. | An enhanced human speech emotion recognition using hybrid of PRNN and KNN | |
CN112466326B (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN103996155A (zh) | 智能交互及心理慰藉机器人服务系统 | |
CN109493886A (zh) | 基于特征选择和优化的语音情感识别方法 | |
CN110827857B (zh) | 基于谱特征和elm的语音情感识别方法 | |
CN109243491A (zh) | 在频谱上对语音进行情绪识别的方法、系统及存储介质 | |
CN108281146A (zh) | 一种短语音说话人识别方法和装置 | |
CN108597540A (zh) | 一种基于变分模态分解和极限学习机的语音情感识别方法 | |
CN112006697A (zh) | 一种基于语音信号的梯度提升决策树抑郁症识别方法 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
CN116665669A (zh) | 一种基于人工智能的语音交互方法及系统 | |
CN112329819A (zh) | 基于多网络融合的水下目标识别方法 | |
Yang et al. | English speech sound improvement system based on deep learning from signal processing to semantic recognition | |
Shen et al. | A high-precision feature extraction network of fatigue speech from air traffic controller radiotelephony based on improved deep learning | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
Mohanty et al. | Segment based emotion recognition using combined reduced features | |
Sun et al. | A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea | |
Mishra et al. | Improvement of emotion classification performance using multi-resolution variational mode decomposition method | |
Ye et al. | Attention bidirectional LSTM networks based mime speech recognition using sEMG data | |
CN112735478A (zh) | 一种基于加性角惩罚焦点损失的语音情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181127 |