CN109065073A - 基于深度svm网络模型的语音情感识别方法 - Google Patents
基于深度svm网络模型的语音情感识别方法 Download PDFInfo
- Publication number
- CN109065073A CN109065073A CN201810945062.8A CN201810945062A CN109065073A CN 109065073 A CN109065073 A CN 109065073A CN 201810945062 A CN201810945062 A CN 201810945062A CN 109065073 A CN109065073 A CN 109065073A
- Authority
- CN
- China
- Prior art keywords
- feature
- speech
- attractor
- network model
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000001514 detection method Methods 0.000 claims abstract description 7
- 238000009432 framing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 33
- 230000002996 emotional effect Effects 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000000739 chaotic effect Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 2
- 230000008909 emotion recognition Effects 0.000 abstract description 7
- 238000012512 characterization method Methods 0.000 abstract description 3
- 230000007812 deficiency Effects 0.000 abstract description 2
- 239000002356 single layer Substances 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 17
- 230000000875 corresponding effect Effects 0.000 description 12
- 230000008451 emotion Effects 0.000 description 11
- 210000001260 vocal cord Anatomy 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000036651 mood Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000282461 Canis lupus Species 0.000 description 1
- 241001515806 Stictis Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明涉及语音情感识别技术领域,具体是一种基于深度SVM网络模型的语音情感识别方法。包括以下的步骤,S100~语音信号的预处理操作:包括端点检测、预加重、分帧加窗;S200~语音信号的情感特征提取:包括韵律特征、MFCC特征和非线性特征;S300~构建深度SVM网络模型对语音信号进行训练与识别。本发明不仅弥补了现有特征在刻画情感状态上的不足,还有效地解决了SVM模型的两个问题:一是模型的性能取决于先验选择的核函数;二是具有单层可调整的网络参数,器模型的表征能力有限。
Description
技术领域
本发明涉及语音情感识别技术领域,具体是一种基于深度SVM网络模型的 语音情感识别方法。
背景技术
语言是人类进行沟通交流最有效的工具。语言中不仅包含了文字信息,而且 还包含了大量反映说话人情感变化的副语言信息。作为语音信号处理和情感计算 领域的重要分支,语音识别技术在车载导航、视频监控、网络视讯等人机交互领 域中有着非常广泛的应用。
语音识别技术是指能够让机器听懂人所说的话,即在特定和非特定环境下让 计算机尽可能以接近人类的方式对语音信号的特征进行正确的关联和映射,从而 准确识别出语音的内容。因此,提取与表征语音信号相关性最紧密的特征、并能 准确进行正确识别成为了语音识别技术的关键。目前,针对语音情感识别的研究, 学者们进行了多方面的研究,并取得了相当多有价值的研究成果。在情感特征提 取方面,用于语音情感识别的特征大致可分为韵律学特征、音质特征、基于谱的 相关特征、非线性特征、融合特征等。以上特征均利用了语音信号分段线性的特 点,因此,仅利用语音信号分段线性的特点提取时域、频域属性语音特征会造成 语音信号中某些非线性特征的丢失,从使得语音信号的信息不完整。在情感识别 模型方面,有学者提出一些抗噪性能好、识别效果好的识别模型,比如:隐马尔 科夫模型(HMM)、支持向量机模型(SVM)、高斯混合模型(GMM)等。但 此类模型局需要语音信号的先验统计知识,分类决策能力相对较弱。因此要进一 步提高语音情感识别率,就要提出能够表征情感信息的新特征,并对SVM模型 进行改进。
发明内容
本发明所要解决的技术问题是:一方面可以提取情感语音信号的语谱图特征, 获得表征情感信息的完整特征集;另一方面可以解决SVM取决于先验选择的核 函数的局限性,提高语音情感的识别率。提供一种基于深度SVM网络模型的语 音情感识别方法。
本发明采取以下技术方案:一种基于深度SVM网络模型的语音情感识别方 法,具体包括以下的步骤,
S100~语音信号的预处理操作:包括端点检测、预加重、分帧加窗;
S200~语音信号的情感特征提取:包括韵律特征、MFCC特征和非线性特征;
S300~构建深度SVM网络模型对语音信号进行训练与识别。
所述的S100包括以下步骤,
S101~端点检测:采用能量和过零率两级判决法对语音信号进行起始点与终 止点的判断;
S102~预加重:通过传递函数H(z)=1-αz-1的一节FIR高通数字滤波器来 实现预加重,其中α为预加重系数,0.9<α<1.0;
S103~加窗分帧:采用hamming窗进行分帧处理,窗函数如下:
所述的S200中,
S201~韵律特征提取:包括语速、平均过零率、能量、基频和共振峰;
韵律特征主要描述了情感语音信号中的非言语信息,包括语音高低与长短、 以及快慢和轻重等方面的变化,也包含了语音流畅表达的信息。
语速:相同文本情况下的相同说话人在表达不同情感时的语速快慢程度不同。 例如,悲伤、恐惧等情感表达时,语速会明显加快,语调会明显上扬;在悲伤情 感表达中,语速自然会减缓。因此,语速可以作为区分不同情感的有效特征。
平均过零率:过零率在一定程度上反映信号的频谱性质,短时平均过零率定 义为:
Zn=|sgn[x(n)]-sgn[x(n-1)]|*ω(n)
上述公式中,ω(n)表示窗函数,
能量:能量是指说话人的声音强度大小。当说话人的情绪发生变化时,声音 的强度也会出现高低起伏变化,例如高兴、恐惧时声音强度较大,悲伤时声音强 度明显变弱。短时能量计算定义为:
上述公式中,n表示某一时刻,s(m)代表语音信号,ω(n-m)表示窗函数。
基频:基音周期是指声带单次开启和闭合的总和时间。对基音周期求倒数, 得到的就是基音频率。基频是声带固有属性,与说话人自身的声带物理特性以及 发生习惯具有高度相关性。当说话人表达不同情绪时,声带的松弛程度不同,从 而产生的基音频率也不同。因此基音频率可以作为区分不同情感的有效特征。
共振峰:共振峰描述了声道共振特性。每个共振峰的特性取决于中心频率和 带宽。如果说话人发出的语音信号包含的情感不同,则相对应的语音信号前三阶 共振峰(F0/F1/F2)位置也不同。因此,共振峰可以作为区分情感的有效特征。
S202~MFCC特征提取:人耳感知声音强度的能力与声音的频率相关。在低 频段处,人耳听觉对声音的感知与声音频率成线性关系。在高频段处,由于存在 掩蔽效应,人耳对声音的感知与声音的频率成非线性关系,因此引入Mel频率来 模拟听觉特性。将普通频率转化到Mel频率:
fmel=1125*ln(1+f/700)。
其中,f表示普通频率(Hz),fmel表示Mel频率。
包括以下步骤,
(1)先对输入的语音进行处理;
(2)通过FFT得到每帧语音信号对应的频谱;
(3)将步骤(2)得到的能量谱经过Mel滤波得到对应的Mel频谱;Mel 滤波器是一组三角滤波器组,对应的中心频率均为f(m),Mel滤波器的中心频 率与频率响应分别为:
其中fh、fl为滤波器应用范围中的最高频率和最低频率,N为进行快速傅 里叶变换时的点数,Fs是采样频率,M是梅尔滤波器组中滤波器个数, B-1=700(eb/1125-1)是fmel的逆函数;
S203~非线性特征提取:根据语音发声过程中的混沌特性,应用非线性动 力学特征分析情感语音信号,提取该模型下情感语音信号的非线性属性特征:最 小延迟时间、关联维数、Hurst指数、Kolmogorov熵、Lyapunov指数;基于语音 信号发生过程中存在混沌特性,将一维情感语音信号进行相空间重构,提取重构 空间下基于轨迹描述轮廓的五种非线性几何特征。
五种非线性几何特征分别为,
①第一轮廓:吸引子到圆心的距离表示为:
其中,二维空间下吸引子三维空间下吸引子
②第二轮廓:吸引子之间的连续轨迹长度表示为
③第三轮廓:吸引子之间的连续轨迹夹角表示为
④第四轮廓:吸引子到标识线的距离表示为
考虑到时间延迟τ=1,当原始波形x(t)滞后的两个样本x(t-1)和x(t-2)存在 较小的差异,即存在恒等式:
x(t)=x(t-1)=x(t-2)
当连续三个吸引子存在较大差异,上式不成立,由于混沌系统的策动因素是 相互影响的,因而在时间先后产生的数据点也是相关的,将上式称为标识线,通 过分析吸引子到标识线的距离来刻画吸引子之间的差异性;
⑤第五轮廓:吸引子连续轨迹总长度表示为S:
其中,上述所定义与S五种物理量即是所提取的非线性几何 特征。
所述的S300包括以下步骤,
S301~训练数据集:
S302~模型:设模型输入为x,输出为y,其中的关系为:
其中κ(·)为核函数,根据SVM隐层每个节点的输出hk(k=1,2,…,K), 且αk (n)和bk为第k个待学习的参数与偏置;hk并不是一维的;接下来隐层特 征h作为下一个非线性单元的输入,即有:
注意h(n)为输入x(n)的隐层特征,h为输入x的隐层特征,其中待学习 的参数为β(n)和c;
S303~优化目标函数:优化目标函数为:
其中参数为:
符号R(θ)为正则项;
S304~求解:采用梯度下降的方式实现参数的优化学习,其核心便是误差 传播项的偏导数求解,由于图4中网络结构仅包含一个隐含层,所以误差传播项 为:
然后采用链式法则,进行逐层参数的更新。
根据上述获得的隐层特征为隐含层节点特征,基于SVM网络模型,则 有:
进而有:
根据核函数定义,可得到:
即输出为:
与现有技术相比,本发明将深度学习中的“深度”含义与支持向量机算法相 结合,形成深度SVM网络用于语音的情感识别。不仅弥补了现有特征在刻画情 感状态上的不足,还有效地解决了SVM模型的两个问题:一是模型的性能取决 于先验选择的核函数;二是具有单层可调整的网络参数,器模型的表征能力有限。 此外,深度SVM模型还可有效地预防过拟合现象,可有效地根据支持向量的个 数自动确定模型的尺寸。
附图说明
图1为基于深度SVM网络模型的语音情感识别方法框图;
图2为基于深度SVM网络模型的语音情感识别方法流程图;
图3为情感特征提取流程图;
图4为深度SVM网络模型结构图。
具体实施方式
下面结合附图和具体实施对本发明进行详细说明。
实施例如图1,一种基于深度SVM网络模型的语音情感识别方法,:具体包 括以下的步骤
S100:语音信号的预处理操作:对语音信号进行端点检测、预加重、加窗分 帧等预处理操作。
首先通过端点检测指出一段信号中确定出语音的起始点和结束点;然后通过 一阶数字滤波器H(z)=1-αz-1,(α=0.98)对语音信号的高频部分进行预加重, 去除口唇辐射的影响,增加语音的高频分辨率;最后使用汉明窗对预加重数字滤 波处理后的信号进行加窗分帧,其中,设置帧长为256,帧移为128。
S200:语音信号的情感特征提取:根据图3情感特征提取流程图所示,经过 语音预处理之后,提取基频、能量、语速、共振峰、MFCC、非线性等情感特征 参数。
1、基频:基音周期是指声带单次开启和闭合的总和时间。对基音周期求倒 数,得到的就是基音频率。基频是声带固有属性,与说话人自身的声带物理特性 以及发生习惯具有高度相关性。当说话人表达不同情绪时,声带的松弛程度不同, 从而产生的基音频率也不同。因此基音频率可以作为区分不同情感的有效特征。
2、能量:能量是指说话人的声音强度大小。当说话人的情绪发生变化时, 声音的强度也会出现高低起伏变化,短时能量计算定义为:
n表示某一时刻,s(m)代表语音信号,ω(n-m)表示窗函数。
3、语速:相同文本情况下的相同说话人在表达不同情感时的语速快慢程度 不同。
4、共振峰:共振峰描述了声道共振特性。每个共振峰的特性取决于中心频 率和带宽。如果说话人发出的语音信号包含的情感不同,则相对应的语音信号前 三阶共振峰(F0/F1/F2)位置也不同。
5、MFCC特征:Mel频率通过非线性计算将语音信号的线性频谱搬移到Mel 频谱中,再转换到倒谱上。将普通频率转化到Mel频率的公式为:
fmel=1125*ln(1+f/700),
f表示普通频率(Hz),fmel表示Mel频率。
提取MFCC特征的流程具体为:(1)先对输入的语音进行处理;(2)通过 FFT得到每帧语音信号对应的频谱;(3)将步骤(2)得到的能量谱经过Mel滤 波得到对应的Mel频谱;(4)对Mel频谱进行倒谱分析,分别包括取对数和DCT 逆变换,取逆变换的第2-13的系数作为MFCC参数,这个MFCC就是这帧语音 的特征。其中,步骤(3)中的Mel滤波器是一组三角滤波器组,对应的中心频 率均为f(m)。Mel滤波器的中心频率与频率响应分别为:
其中fh、fl为滤波器应用范围中的最高频率和最低频率,N为进行快速傅 里叶变换时的点数,Fs是采样频率,M是梅尔滤波器组中滤波器个数, B-1=700(eb/1125-1)是fmel的逆函数。
6、非线性特征:根据语音发声过程中的混沌特性,应用非线性动力学特征 分析情感语音信号,提取该模型下情感语音信号的非线性属性特征:最小延迟时 间、关联维数、Hurst指数、Kolmogorov熵、Lyapunov指数;基于语音信号发生 过程中存在混沌特性,将一维情感语音信号进行相空间重构,提取重构空间下基 于轨迹描述轮廓的五种非线性几何特征。
7、A)非线性属性特征提取:
①最小延迟时间
已知语音信号[x(1),x(2),…,x(N)],利用互信息函数求解不同时间间隔时对 应的语音信号x(i)与x(j)互信息量。当互信息量达到最小时,两个变量之间的 相关性最小,此时对应的时间间隔即为最小延迟时间τ。本文选择平均互信息法 (mutual information,MI)计算最小延迟时间τ如下式:
其中pi和pj分别表述序列幅值分别落在第i和第j段内的概率,pi,j表 示间隔时间为τ分别同时落在第i和第j段内的联合概率。得到的互信息函数 I(τ)曲线上第一个局部最小值所对应的时刻即为最小延迟时间,它量化了两个 离散变量之间的无序性。
②关联维数:
关联维数是混沌动力学的一种非线性表征量,用来描述高维空间语音动力学 模型系统自相似结构,对结构的复杂度可以给出定量的比较。系统结构越复杂对 应关联维数越大。本文使用G-P算法计算关联维数。G-P算法是Grassberger和 Procaccia提出的计算关联维数的方法如下式:
其中D(m)为关联维数,C(r,m)为关联积分函数定义为下式。C(r,m)表 示m维重构空间中任意(Xi,Xj)之间的距离小于r的相点对占所有相点对之 比,定义为:
上式中M为相空间中的总点数,表示为:M=N-(m-1)τ,||Xi-Xj||为相 空间中两矢量距离的最大值,表示为:H为Heaviside 阶跃函数:m取最小嵌入维数后得到相对应的lnC(r,m)→lnr曲 线,通过对该曲线局部直线拟合即可得到关联维数。
③Kolmogorov熵:
Kolmogorov熵(缩写为K)精确化描述时间序列分布概率混乱程度的物理 量。Grassberger和Procaccia提出计算关联维数方法的同时,论证了可以用K2熵逼近K熵的思想来求得K熵。K2熵与关联积分函数C(r,m)存在关系为
由上式计算得到的K2熵就是Kolmogorov熵。
④最大Lyapunov指数:
Lyapunov指数反映了相空间中相邻轨道的局部收敛或者发散的平均变化率。 而最大Lyapunov指数(Largest Lyapunov Exponent,LLE)λ1表示轨道收敛或者 发散的快慢程度。当λ1>0时,λ1值越大表示轨道发散的速率也越大且混沌程 度也越大。本文采用Wolf方法求得最大Lyapunov指数。取相空间中初始点Xi并 寻找其最近邻点Xi'距离为L0。追踪n时刻后两点之间的距离Li满足设定值ε, 则保留此点。开始下一时刻的追踪。当追踪叠加M次后就能得到最大Lyapunov 指数如式:
该方法相较于其他算法具有计算快、对嵌入维m、延迟时间τ和噪声都有很 好的鲁棒性等特点。
⑤Hurst指数:
Hurst指数(缩写为H)衡量了时间序列的长期记忆性。H值得范围为0-1。 如果H>0.5表示时间序列具有长期自相关性,时间序列前后关联性较大。本文 使用重标极差分析方法计算H值。重标极差法(the rescaled-range)分析是一种 非参数统计方法,不受时间序列分布的影响。该方法是将一维情感语音信号 [x(1),x(2),…,x(N)]分成M个长度相同的相邻子序列u。通过计算每个子序列的累 积离差zu与标准差Su.通过计算每个子序列的重标极差Ru/Su,其中 Ru=max zu-min zu得到Hurst指数。计算方法所示:
RM/SM=bHM
通过上式两边取对数,求得H为Hurst指数,其中b为常数。当语音信号的 情感状态不同时,H变化规律也不相同。提取情感语音的Hurst指数特征可以体 现情感变化的前后关联性高低。
B)非线性几何特征提取:
通过相空间重构将一维语音信号映射到高维空间后,在高维空间里分析语音 信号,提取不同语音状态下相空间重构的几何特征:五种基于轨迹的描述符轮廓。
①第一轮廓:吸引子到圆心的距离表示为:
其中,二维空间下吸引子三维空间下吸引子
②第二轮廓:吸引子之间的连续轨迹长度表示为
③第三轮廓:吸引子之间的连续轨迹夹角表示为
④第四轮廓:吸引子到标识线的距离表示为
考虑到时间延迟τ=1,当原始波形x(t)滞后的两个样本x(t-1)和x(t-2)存在 较小的差异,即存在恒等式:
x(t)=x(t-1)=x(t-2)
当连续三个吸引子存在较大差异,上式不成立。由于混沌系统的策动因素是 相互影响的,因而在时间先后产生的数据点也是相关的。因此,本文将上式称为 标识线,通过分析吸引子到标识线的距离来刻画吸引子之间的差异性。
⑤第五轮廓:吸引子连续轨迹总长度表示为S:
其中,上述所定义与S五种物理量即是本文所提取的非线性几 何特征。
S300:构建深度SVM模型:将深度学习中的“深度”含义与支持向量机算 法相结合,形成深度SVM网络。
①训练数据集:
②模型:设模型输入为x,输出为y,其中的关系为:
其中κ(·)为核函数,根据SVM隐层每个节点的输出hk(k=1,2,…,K),且αk (n)和bk为第k个待学习(通过SVM优化目标函数)的参数与偏置;注意:hk并不 是一维的。接下来隐层特征h作为下一个非线性单元(SVM单元)的输入,即 有:
注意h(n)为输入x(n)的隐层特征,h为输入x的隐层特征,其中待学习的参 数为β(n)和c。
③优化目标函数:优化目标函数为:
其中参数为:
符号R(θ)为正则项。
④求解:采用梯度下降的方式实现参数的优化学习,其核心便是误差传播项 的偏导数求解,由于图中的网络结构仅包含一个隐层,所以误差传播项为:
然后采用链式法则,进行逐层参数的更新。
根据上述获得的隐层特征为隐含层节点特征,基于SVM网络模型,则 有:
进而有:
根据核函数定义,可得到:
即输出为:
通过上述步骤的分析,可以看到模型的深度可以通过模型实现扩展,直至形 成深度SVM模型,严格意义上,图4中的网络结构(仅包含一个隐层,或两个 层级下的多SVM模式的组合)下应称为深度SVM模型。
Claims (6)
1.一种基于深度SVM网络模型的语音情感识别方法,其特征在于:包括以下的步骤,
S100~语音信号的预处理操作:包括端点检测、预加重、分帧加窗;
S200~语音信号的情感特征提取:包括韵律特征、MFCC特征和非线性特征;
S300~构建深度SVM网络模型对语音信号进行训练与识别。
2.根据权利要求1所述的基于深度SVM网络模型的语音情感识别方法,其特征在于:所述的S100包括以下步骤,
S101~端点检测:采用能量和过零率两级判决法对语音信号进行起始点与终止点的判断;
S102~预加重:通过传递函数H(z)=1-αz-1的一节FIR高通数字滤波器来实现预加重,其中α为预加重系数,0.9<α<1.0;
S103~加窗分帧:采用hamming窗进行分帧处理,窗函数如下:
3.根据权利要求2所述的基于深度SVM网络模型的语音情感识别方法,其特征在于:所述的S200中,
S201~韵律特征提取:包括语速、平均过零率、能量、基频和共振峰;
S202~MFCC特征提取:引入Mel频率来模拟听觉特性,将普通频率转化到Mel频率:
S203~非线性特征提取:根据语音发声过程中的混沌特性,应用非线性动力学特征分析情感语音信号,提取该模型下情感语音信号的非线性属性特征:最小延迟时间、关联维数、Hurst指数、Kolmogorov熵、Lyapunov指数;基于语音信号发生过程中存在混沌特性,将一维情感语音信号进行相空间重构,提取重构空间下基于轨迹描述轮廓的五种非线性几何特征。
4.根据权利要求3所述的基于深度SVM网络模型的语音情感识别方法,其特征在于:所述的S202包括以下步骤,
(1)先对输入的语音进行处理;
(2)通过FFT得到每帧语音信号对应的频谱;
(3)将步骤(2)得到的能量谱经过Mel滤波得到对应的Mel频谱;Mel滤波器是一组三角滤波器组,对应的中心频率均为f(m),Mel滤波器的中心频率与频率响应分别为:
其中fh、fl为滤波器应用范围中的最高频率和最低频率,N为进行快速傅里叶变换时的点数,Fs是采样频率,M是梅尔滤波器组中滤波器个数,B-1=700(eb/1125-1)是fmel的逆函数;
(4)对Mel频谱进行倒谱分析,分别包括取对数和DCT逆变换,取逆变换的第2-13的系数作为MFCC参数,这个MFCC就是这帧语音的特征。
5.根据权利要求4所述的基于深度SVM网络模型的语音情感识别方法,其特征在于:所述的S203中,五种非线性几何特征分别为,
①第一轮廓:吸引子到圆心的距离表示为:
其中,二维空间下吸引子三维空间下吸引子
②第二轮廓:吸引子之间的连续轨迹长度表示为
③第三轮廓:吸引子之间的连续轨迹夹角表示为
④第四轮廓:吸引子到标识线的距离表示为
考虑到时间延迟τ=1,当原始波形x(t)滞后的两个样本x(t-1)和x(t-2)存在较小的差异,即存在恒等式:
x(t)=x(t-1)=x(t-2)
当连续三个吸引子存在较大差异,上式不成立,由于混沌系统的策动因素是相互影响的,因而在时间先后产生的数据点也是相关的,将上式称为标识线,通过分析吸引子到标识线的距离来刻画吸引子之间的差异性;
⑤第五轮廓:吸引子连续轨迹总长度表示为S:
其中,上述所定义与S五种物理量即是所提取的非线性几何特征。
6.根据权利要求5所述的基于深度SVM网络模型的语音情感识别方法,其特征在于:所述的S300包括以下步骤,
S301~训练数据集:
S302~模型:设模型输入为x,输出为y,其中的关系为:
其中κ(·)为核函数,根据SVM隐层每个节点的输出hk(k=1,2,…,K),且αk (n)和bk为第k个待学习的参数与偏置;hk并不是一维的;接下来隐层特征h作为下一个非线性单元的输入,即有:
注意h(n)为输入x(n)的隐层特征,h为输入x的隐层特征,其中待学习的参数为β(n)和c;
S303~优化目标函数:优化目标函数为:
其中参数为:
符号R(θ)为正则项;
S304~求解:采用梯度下降的方式实现参数的优化学习,其核心便是误差传播项的偏导数求解,然后采用链式法则,进行逐层参数的更新,根据上述获得的隐层特征为隐含层节点特征,基于SVM网络模型,则有:
根据上述获得的隐层特征为隐含层节点特征,基于SVM网络模型,则有:
进而有:
根据核函数定义,可得到:
即输出为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810945062.8A CN109065073A (zh) | 2018-08-16 | 2018-08-16 | 基于深度svm网络模型的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810945062.8A CN109065073A (zh) | 2018-08-16 | 2018-08-16 | 基于深度svm网络模型的语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109065073A true CN109065073A (zh) | 2018-12-21 |
Family
ID=64686463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810945062.8A Pending CN109065073A (zh) | 2018-08-16 | 2018-08-16 | 基于深度svm网络模型的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109065073A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491417A (zh) * | 2019-08-09 | 2019-11-22 | 北京影谱科技股份有限公司 | 基于深度学习的语音情感识别方法和装置 |
CN110619887A (zh) * | 2019-09-25 | 2019-12-27 | 电子科技大学 | 一种基于卷积神经网络的多说话人语音分离方法 |
CN112562642A (zh) * | 2020-10-31 | 2021-03-26 | 苏州大学 | 一种动态多频带非线性语音特征提取方法 |
CN113436649A (zh) * | 2021-06-25 | 2021-09-24 | 武汉大晟极科技有限公司 | 一种语音情感标定辅助方法及系统 |
CN113571095A (zh) * | 2021-06-17 | 2021-10-29 | 南京邮电大学 | 基于嵌套深度神经网络的语音情感识别方法和系统 |
CN118173107A (zh) * | 2024-05-15 | 2024-06-11 | 百鸟数据科技(北京)有限责任公司 | 基于多模态深度特征层级融合的鸟类声音质量分析方法 |
CN118173107B (zh) * | 2024-05-15 | 2024-07-16 | 百鸟数据科技(北京)有限责任公司 | 基于多模态深度特征层级融合的鸟类声音质量分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975856A (zh) * | 2006-10-30 | 2007-06-06 | 邹采荣 | 一种基于支持向量机的语音情感识别方法 |
CN104240720A (zh) * | 2013-06-24 | 2014-12-24 | 北京大学深圳研究生院 | 一种基于多重分形和信息融合的语音情感识别方法 |
CN105913073A (zh) * | 2016-04-05 | 2016-08-31 | 西安电子科技大学 | 基于深度增量支持向量机的sar图像目标识别方法 |
US20160307565A1 (en) * | 2015-04-17 | 2016-10-20 | Microsoft Technology Licensing, Llc | Deep neural support vector machines |
-
2018
- 2018-08-16 CN CN201810945062.8A patent/CN109065073A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1975856A (zh) * | 2006-10-30 | 2007-06-06 | 邹采荣 | 一种基于支持向量机的语音情感识别方法 |
CN104240720A (zh) * | 2013-06-24 | 2014-12-24 | 北京大学深圳研究生院 | 一种基于多重分形和信息融合的语音情感识别方法 |
US20160307565A1 (en) * | 2015-04-17 | 2016-10-20 | Microsoft Technology Licensing, Llc | Deep neural support vector machines |
CN105913073A (zh) * | 2016-04-05 | 2016-08-31 | 西安电子科技大学 | 基于深度增量支持向量机的sar图像目标识别方法 |
Non-Patent Citations (4)
Title |
---|
MOHIT SHAH等: ""A speech emotion recognition framework based on latent Dirichlet allocation: Algorithm and FPGA implementation"", 《2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 * |
YICHUAN TANG: ""Deep Learning using Linear Support Vector Machines"", 《ARXIV:1306.0239V4 [CS.LG]》 * |
宋春晓等: "面向情感语音识别的非线性几何特征提取算法", 《计算机工程与应用》 * |
焦李成 等著: "《深度学习、优化与识别》", 31 July 2017, 清华大学出版社 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110491417A (zh) * | 2019-08-09 | 2019-11-22 | 北京影谱科技股份有限公司 | 基于深度学习的语音情感识别方法和装置 |
CN110619887A (zh) * | 2019-09-25 | 2019-12-27 | 电子科技大学 | 一种基于卷积神经网络的多说话人语音分离方法 |
CN110619887B (zh) * | 2019-09-25 | 2020-07-10 | 电子科技大学 | 一种基于卷积神经网络的多说话人语音分离方法 |
CN112562642A (zh) * | 2020-10-31 | 2021-03-26 | 苏州大学 | 一种动态多频带非线性语音特征提取方法 |
CN113571095A (zh) * | 2021-06-17 | 2021-10-29 | 南京邮电大学 | 基于嵌套深度神经网络的语音情感识别方法和系统 |
CN113436649A (zh) * | 2021-06-25 | 2021-09-24 | 武汉大晟极科技有限公司 | 一种语音情感标定辅助方法及系统 |
CN118173107A (zh) * | 2024-05-15 | 2024-06-11 | 百鸟数据科技(北京)有限责任公司 | 基于多模态深度特征层级融合的鸟类声音质量分析方法 |
CN118173107B (zh) * | 2024-05-15 | 2024-07-16 | 百鸟数据科技(北京)有限责任公司 | 基于多模态深度特征层级融合的鸟类声音质量分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song | English speech recognition based on deep learning with multiple features | |
CN101930735B (zh) | 语音情感识别设备和进行语音情感识别的方法 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
CN108597496A (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN104700843A (zh) | 一种年龄识别的方法及装置 | |
CN112259106A (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
CN111312245A (zh) | 一种语音应答方法、装置和存储介质 | |
Samantaray et al. | A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages | |
Torres-Boza et al. | Hierarchical sparse coding framework for speech emotion recognition | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
Jie et al. | Speech emotion recognition of teachers in classroom teaching | |
Zhao et al. | Research on depression detection algorithm combine acoustic rhythm with sparse face recognition | |
CN117672268A (zh) | 基于相对熵对齐融合的多模态语音情感识别方法 | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
Wang et al. | A spatial–temporal graph model for pronunciation feature prediction of Chinese poetry | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Fan et al. | The impact of student learning aids on deep learning and mobile platform on learning behavior | |
CN114842878A (zh) | 一种基于神经网络的语音情感识别方法 | |
Jie | Speech emotion recognition based on convolutional neural network | |
Paul et al. | Automated speech recognition of isolated words using neural networks | |
Firoze et al. | Bangla user adaptive word Speech recognition: approaches and comparisons | |
Johar | Paralinguistic profiling using speech recognition | |
Cao et al. | Emotion recognition from children speech signals using attention based time series deep learning | |
Liu et al. | Hierarchical component-attention based speaker turn embedding for emotion recognition | |
Bera et al. | Identification of mental state through speech using a deep learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |