CN107845390A - 一种基于pcnn语谱图特征融合的情感语音识别系统 - Google Patents
一种基于pcnn语谱图特征融合的情感语音识别系统 Download PDFInfo
- Publication number
- CN107845390A CN107845390A CN201710857568.9A CN201710857568A CN107845390A CN 107845390 A CN107845390 A CN 107845390A CN 201710857568 A CN201710857568 A CN 201710857568A CN 107845390 A CN107845390 A CN 107845390A
- Authority
- CN
- China
- Prior art keywords
- gabor
- spectrogram
- lbp
- feature
- pcnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 24
- 230000002996 emotional effect Effects 0.000 title claims abstract description 10
- 239000013598 vector Substances 0.000 claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000009432 framing Methods 0.000 claims abstract description 6
- 210000002569 neuron Anatomy 0.000 claims description 28
- 230000008451 emotion Effects 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 9
- 230000008878 coupling Effects 0.000 claims description 7
- 238000010168 coupling process Methods 0.000 claims description 7
- 238000005859 coupling reaction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000010304 firing Methods 0.000 claims description 3
- 230000000638 stimulation Effects 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 abstract description 9
- 239000000284 extract Substances 0.000 abstract description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000008909 emotion recognition Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000001328 optic nerve Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语音识别技术领域。一种基于PCNN语谱图特征融合的情感语音识别系统,对于语音信号进行加窗分帧,然后做离散傅里叶变换,画出语音信号的语谱图;构建PCNN模型,通过脉冲耦合神经网络处理语谱图;将PCNN图谱与5尺度8方向Gabor小波卷积,并提取Gabor幅值特征得到40幅Gabor频谱图;对每一幅Gabor频谱图提取均匀模式LBP特征,将40张Gabor频谱图中的直方图级联得到特征向量
Description
技术领域
本发明涉及语音识别技术领域。
背景技术
随着信息技术的高速发展,人机交互受到越来越多的关注,情感语音识别作为人机交互的关键技术,成为该领域的研究重点。情感语音识别是计算机通过对人类语音情感信息的提取分析,从而对人类情感状态做出判断的语音识别技术,在商业、医疗、教育等众多领域有着广泛的应用。
当前,用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征。韵律特征通过时长、基频、能量等特征对语音情感进行区分,其情感识别能力已得到情感识别邻域的广泛认可。基于谱的相关特征通过声道形状变化和发生运动之间的相关性体现,对频谱能量在各个频谱区间的分布有着明显的影响。声音质量通过共振峰频率及其带宽、频率微扰和振幅微扰、声门参数等特征对语音情感做出有效分析。这些特征中,语音信号时域特性和频域特性起到了重要的作用,但是针对语音信号时域和频域两者相关性结合的研究相对较少。语谱图通过对时域和频域结合,用横轴代表时间,纵轴代表频率,将图像的像素点用频率点表示,采用图像特征分析相邻频率点之间的关系,是一种语音能量时频分布的可视化表达方式,有效的利用了时频两域之间的相关性。
脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)是语谱图特征提取在情感语音识别邻域的有效方法,源于对小新哺乳动物视神经研究而提出的一种新型神经网络模型,是由脉冲耦合神经元构成的二维单层神经元阵列模型。该方法通过将语谱图输入到PCNN后得到输出图像的时间序列作为情感语音的特征,具有时间、尺度等不变性,可以快速有效的实现情感语音识别。
Gabor滤波器是一种用于边缘提取的线性滤波器,通过引入时间局部化的窗函数,进行窗口傅里叶变换,把语音信号划分成许多时间间隔,用傅里叶变换分析每一个时间间隔,然后提取语音信号的局部空间信息和频域信息。Gabor滤波器可以有效提取特定区域内多尺度、多方向空间频率特征,凸显相邻灰度级间的变化,可以很好的兼顾信号在时频域的分析能力。
LBP(local binary pattern)是一种用来描述图像局部纹理特征的算子,其原理是通过设定区域内像素中心的灰度值为阈值,将该值与像素中心周围的像素灰度值比较,如果领域像素点的灰度值大于阈值,则在邻域像素点的位置上标记为1,若灰度值小于阈值则标记为0,经过二值化处理后得到该邻域中心像素点的LBP值。LBP反映了每个像素与周围像素的关系,具有旋转不变性和灰度不变性等显著的优点。
不变矩是一种通过提取具有平移、旋转、和比例不变性的图像特征,从而进行图像识别的方法。图像不变矩分为灰度直方图不变矩和空间不变矩,其对图像平移、旋转、缩放、灰度变换都具有恒定性。不变矩是描述区域特征的方法,矩不变量具有不随图像的位置、大小和方向而变化的特点,是提取图像中的形态特征的有效的工具。Hu提出图像的7个不变矩具有平移、旋转、比例不变性,在目标识别、图像匹配、形状分析等邻域得到了广泛的应用。
发明内容
本发明所要解决的技术问题是:如何提供一种基于PCNN语谱图特征融合的情感语音识别系统,采用支持向量机对系统输出特征进行分类识别,改善语音识别效果。
本发明所采用的技术方案是:一种基于PCNN语谱图特征融合的情感语音识别系统,按照如下的步骤进行:
步骤一、对于语音信号进行加窗分帧,然后做离散傅里叶变换,画出语音信号的语谱图;
步骤二、构建PCNN模型,通过脉冲耦合神经网络处理语谱图;
步骤三、将PCNN图谱与5尺度8方向Gabor小波卷积,并提取Gabor幅值特征得到40幅Gabor频谱图;
步骤四、对每一幅Gabor频谱图提取均匀模式LBP特征,将40张Gabor频谱图中的直方图级联得到特征向量QLBP;
步骤五、计算每一幅Gabor频谱图Hu块的7个不变矩,然后级联,构成一个Gabor频谱图的特征向量,将40幅Gabor频谱图的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量QHu;
步骤六、对特征QLBP和QHu用PCA方法降维后采用最大‐最小归一化方法处理得到特征向量Q′LBP和Q′Hu。利用公式融合Q′LBP和Q′Hu,得到融合特征Q。
步骤七、将融合特征Q带入SVM模型,得到识别准确率。
作为一种优选方式,步骤一中具体为:
对语音信号s(n)进行加窗,本发明采用的窗函数为汉明窗w(n):
用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n):
x(n)=s(n)*w(n)
对加窗语音信号进行分帧处理,则语音信号x(n)表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;
对分帧后的语音信号xn(t)进行离散傅里叶变换:
其中,jj为虚数单位,谐波分量序号k=0,1,...,N-1,则x(n)的短时幅度谱估计为|X(n,k)|,时间t处频谱能量密度函数P(n,k)为:
P(n,k)=|X(n,k)|2=(X(n,k))×(conjj(X(n,k)))
将P(n,k)的值表示为灰度级所构成的二维图像得到语谱图;
作为一种优选方式,步骤二中通过脉冲耦合神经网络处理语谱图按照如下的步骤进行:
每一个神经元依次对应语谱图图像中的一个像素,在这个神经元结构模型中,神经元的输入可以划分为反馈输入F和连接输入L两部分:
Fij(h)=exp(-αF)Fij(h-1)+VF∑cij,mlYml(h-1)+Sij
Lij(h)=exp(-αL)Lij(h-1)+VLΣwij,mlYml(h-1)
其中,h为神经元点火时间序号,Sij是输入刺激信号,取图像像素构成的矩阵中第i、j个像素的灰度值,m、l分别代表图像像素位置所对应的神经元,Fij和Lij分别为馈送输入和链接输入,VF和VL为放大系数,αF和αL为衰减系数,cij,ml和wij,ml为权重矩阵,Yml是其他神经元的输出值;
利用链接输入对馈送输入进行调制,得到神经元的内部活动项Uij:
Uij(h)=Fij(h)[1+βLij(h)]
其中,连接系数β控制邻域神经元的内部活动强度。当神经元内部活动Uij大于其内部的动态阈值θij时,神经元会发生点火并形成脉冲Yij:
将语谱图输入脉冲耦合神经网络,点火一次后得到PCNN图谱;
作为一种优选方式,步骤三中通过将PCNN图谱与5尺度8方向Gabor小波卷积按照如下的步骤进行:
通过设定Gabor滤波器的频率和方向,可以得到一组频率和方向不同的Gabor滤波器,从而实现对图像多分辨率、多方向的分析。Gabor核函数如下所示:
其中,μ表示Gabor的核方向,v表示核尺度,σ表示高斯函数的标准差,z=(x,y)为像素点的空间坐标位置,为波向量,kv=kmax/fv为波向量的尺度,kmax=π/2为滤波器的最大频率,为采样步长,为波向量的方向;
将PCNN图谱与5尺度8方向Gabor小波卷积:
Gu,v(x,y)=I(x,y)*gu,v(x,y)
其中I(x,y)表示图像灰度的空间分布,Gu,v(x,y)是图像与Gabor小波的卷积得到的复数;
通过计算Gabor的幅值特征Au,v(x,y),得到40幅频谱图:
作为一种优选方式,步骤四中通过将40张Gabor频谱图中的直方图级联按照如下的步骤进行:
当LBP算子定义在3*3的邻域上,以中心像素点的灰度值作为阈值,将中心像素周围的8个邻域像素点的灰度值与阈值进行比较。如果领域像素点的灰度值大于阈值,则在邻域像素点的位置上标记为1,若灰度值小于阈值则标记为0。经过二值化处理后得到一个8位二进制数,然后按照像素的不同位置加权得到一个十进制数,即为该邻域中心像素点的LBP值。
图像中的像素点为z(x,y),LBP算子对图像每个像素的p个邻域采样,每个采样点与中心像素做灰度值二值化运算如下:
其中,zc表示中心像素点的灰度值,zp表示采样点的灰度值;
将每个采样点赋予不同的权系数2p,计算该中心像素点的LBP值:
对图像上所有像素点进行LBP编码,得到编码后的图谱ILBP(x,y),对ILBP(x,y)进行直方图统计,直方图计算如下:
其中,E为LBP编码后的最大值;
将40张Gabor图谱中的直方图级联即得到特征向量QLBP;
作为一种优选方式,步骤五中通过将40幅Gabor频谱图的Hu矩特征向量级联构成一幅语谱图的特征向量按照如下的步骤进行:
图像z(x,y)的(p+q)阶矩定义为:
其相应的中心距定义为:
其中,即中心坐标,是目标区域灰度质心。z(x,y)的归一化(p+q)阶中心距定义为:
其中
将每一幅Gabor频谱图划分为3×3个Hu块,利用二阶和三阶归一化矩构造出7个不变矩,对每个Hu块(p+q)阶中心矩计算如下
d1=η20+η02
d2=(η20-η02)2+4η11 2
d3=(η30-3η12)2+(η03-3η21)2
d4=(η30+η12)2+(η21+η03)2
d5=(η30-3η12)(η30+η12)[(η30+η12)2-3(η21+η03)2]+(3η21-η03)(η21+η03)[3(η30+η12)2-(η21+η03)2]
d6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03)
d7=(3η21-η03)(η30+η12)[(η30+η12)2-3(η21+η03)2]+(3η12-η30)(η03+η21)[3(η12+η30)2-(η21+η03)2]
计算出每个Hu块的7个不变矩,然后级联,构成一个Gabor图谱的特征向量,然后40幅Gabor图谱的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量QHu;
作为一种优选方式,步骤六中通过对特征QLBP和QHu用PCA方法降维后融合按照如下的步骤进行:
对特征QLBP和QHu用PCA方法降维后采用最大‐最小归一化方法处理得到特征向量Q′LBP和Q′Hu。由于LBP特征和Hu矩特征对情感语音的识别率的重要程度不同,因此需将归一化处理后的两种特征乘以相应的权值之后再进行融合,得到融合特征Q:
Q=[ω1Q′LBP,ω2Q′Hu]
其中,ω1和ω2分别是LBP特征和Hu矩特征所对应的权值,且ω1+ω2=1,权值的大小代表特征对分类结果的影响程度,最优的权值组合可以通过实验训练得到,融合后的特征Q被用来描述情感语音的特征;
作为一种优选方式,步骤七中通过SVM对特征进行识别按照如下的步骤进行:
将融合得到的情感语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_data,把训练集输入SVM建立模型model:
model=svmtrain(train_label,train_data)
用建立好的模型对测试集进行测试得到识别准确率accuracy:
accuracy=svmpredict(test_label,test_data)
本发明的有益效果是:本发明通过对语音信号进行傅里叶分析,将语音信号转化为语谱图,用脉冲耦合神经网络处理语谱图,然后利用5尺度8方向的Gabor小波与语谱图卷积得到40幅Gabor小波图谱,再提取局部二值模式特征和局部Hu矩特征,融合两部分特征后,采用支持向量机进行分类识别。本发明能从复杂背景下提取有效信息,具有良好的稳定性,有效增强了分类的效果,极大提高了检测性能。
具体实施方式
本发明以windows 7系统作为程序开发软件环境,使用MATLAB R2010a作为程序开发平台,采用德国柏林语音库作为实验数据。语音库由5男5女10个不同的人录制而成,包含平静、害怕、厌恶、喜悦、讨厌、悲伤、愤怒7种不同的情感,共800句语料。本文选取其中494条语句构成数据库进行实验。将5个人的语句作为训练集,在剩余语句中每种情感选取30条语句,一共210条语句作为测试集。
对语音信号s(n)进行加窗,本发明采用的窗函数为汉明窗w(n):
用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n):
x(n)=s(n)*w(n)
对加窗语音信号进行分帧处理,则语音信号x(n)表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;
对分帧后的语音信号xn(t)进行离散傅里叶变换:
其中,谐波分量序号k=0,1,...,N-1,则x(n)的短时幅度谱估计为|X(n,k)|,时间t处频谱能量密度函数P(n,k)为:
P(n,k)=|X(n,k)|2=(X(n,k))×(conj(X(n,k)))
将P(n,k)的值表示为灰度级所构成的二维图像得到语谱图;
每一个神经元依次对应图像中的一个像素,在这个神经元结构模型中,神经元的输入可以划分为反馈输入F和连接输入L两部分:
Fij(h)=exp(-αF)Fij(h-1)+VF∑cij,mlYml(h-1)+Sij
Lij(h)=exp(-αL)Lij(h-1)+VL∑wij,mlYml(h-1)
其中,h为神经元点火时间序号,Sij是输入刺激信号,取图像像素构成的矩阵中第i、j个像素的灰度值,m、l分别代表图像像素位置所对应的神经元,Fij和Lij分别为馈送输入和链接输入,VF和VL为放大系数,αF和αL为衰减系数,cij,ml和wij,ml为权重矩阵,Yml是其他神经元的输出值;
利用链接输入对馈送输入进行调制,得到神经元的内部活动项Uij:
Uij(h)=Fij(h)[1+βLij(h)]
其中,连接系数β控制邻域神经元的内部活动强度。当神经元内部活动Uij大于其内部的动态阈值θij时,神经元会发生点火并形成脉冲Yij:
将语谱图输入脉冲耦合神经网络,点火一次后得到PCNN图谱;
通过设定Gabor滤波器的频率和方向,得到一组频率和方向不同的Gabor滤波器,从而实现对图像多分辨率、多方向的分析。Gabor核函数如下所示:
其中,μ表示Gabor的核方向,v表示核尺度,σ表示高斯函数的标准差,z=(x,y)为像素点的空间坐标位置,为波向量,kv=kmax/fv为波向量的尺度,kmax=π/2为滤波器的最大频率,为采样步长,为波向量的方向;
将PCNN图谱与5尺度8方向Gabor小波卷积:
Gu,v(x,y)=I(x,y)*gu,v(x,y)
其中I(x,y)表示图像灰度的空间分布,Gu,v(x,y)是图像与Gabor小波的卷积得到的复数;
通过计算Gabor的幅值特征Au,v(x,y),得到40幅频谱图:
对每一幅Gabor频谱图提取均匀模式LBP特征,当LBP算子定义在3*3的邻域上,以中心像素点的灰度值作为阈值,将中心像素周围的8个邻域像素点的灰度值与阈值进行比较。如果领域像素点的灰度值大于阈值,则在邻域像素点的位置上标记为1,若灰度值小于阈值则标记为0。经过二值化处理后得到一个8位二进制数,然后按照像素的不同位置加权得到一个十进制数,即为该邻域中心像素点的LBP值。
图像中的像素点为z(x,y),LBP算子对图像每个像素的p个邻域采样,每个采样点与中心像素做灰度值二值化运算如下:
其中,zc表示中心像素点的灰度值,zp表示采样点的灰度值;
将每个采样点赋予不同的权系数2p,计算该中心像素点的LBP值:
对图像上所有像素点进行LBP编码,得到编码后的图谱ILBP(x,y),对ILBP(x,y)进行直方图统计,直方图计算如下:
其中,E为LBP编码后的最大值;
将40张Gabor图谱中的直方图级联即得到特征向量QLBP;
计算每一幅Gabor频谱图Hu块的7个不变矩,图像z(x,y)的(p+q)阶矩定义为:
其相应的中心距定义为:
其中,即中心坐标,是目标区域灰度质心。z(x,y)的归一化(p+q)阶中心距定义为:
其中
将每一幅Gabor频谱图划分为3×3个Hu块,利用二阶和三阶归一化矩构造出7个不变矩,对每个Hu块(p+q)阶中心矩计算如下
d1=η20+η02
d2=(η20-η02)2+4η11 2
d3=(η30-3η12)2+(η03-3η21)2
d4=(η30+η12)2+(η21+η03)2
d5=(η30-3η12)(η30+η12)[(η30+η12)2-3(η21+η03)2]+(3η21-η03)(η21+η03)[3(η30+η12)2-(η21+η03)2]
d6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03)
d7=(3η21-η03)(η30+η12)[(η30+η12)2-3(η21+η03)2]+(3η12-η30)(η03+η21)[3(η12+η30)2-(η21+η03)2]
将计算出的Hu块不变矩级联,构成一个Gabor图谱的特征向量,然后40幅Gabor图谱的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量QHu;
对特征QLBP和QHu用PCA方法降维后采用最大‐最小归一化方法处理得到特征向量Q′LBP和Q′Hu。将归一化处理后的两种特征乘以相应的权值之后再进行融合,得到融合特征Q:
Q=[ω1Q′LBP,ω2Q′Hu]
其中,ω1和ω2分别是LBP特征和Hu矩特征所对应的权值,且ω1+ω2=1,权值的大小代表特征对分类结果的影响程度,最优的权值组合可以通过实验训练得到,融合后的特征Q被用来描述情感语音的特征;
将融合得到的情感语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_data,把训练集输入SVM建立模型model:
model=svmtrain(train_label,train_data)
用建立好的模型对测试集进行测试得到识别准确率accuracy:
accuracy=svmpredict(test_label,test_data)
其中accuracy为测试集样本的分类准确率,对应该测试集样本的语音识别准确率为accuracy=85%。
Claims (8)
1.一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:按照如下的步骤进行
步骤一、对于语音信号s(n)进行加窗分帧,然后做离散傅里叶变换,获得语音信号的语谱图;
步骤二、构建PCNN模型,通过脉冲耦合神经网络处理语谱图;
步骤三、将PCNN图谱与5尺度8方向Gabor小波卷积,并提取Gabor幅值特征得到40幅Gabor频谱图;
步骤四、对每一幅Gabor频谱图提取均匀模式LBP特征,将40张Gabor频谱图中的直方图级联得到特征向量QLBP;
步骤五、计算每一幅Gabor频谱图Hu块的7个不变矩,然后级联,构成一个Gabor频谱图的特征向量,将40幅Gabor频谱图的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量QHu;
步骤六、对特征向量QLBP和QHu用PCA方法降维后采用最大-最小归一化方法处理得到特征向量Q′LBP和Q′Hu,利用公式融合Q′LBP和Q′Hu,得到融合特征Q;
步骤七、将融合特征Q带入SVM模型,得到识别准确率。
2.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤一的详细过程为
对语音信号s(n)进行加窗,本发明采用的窗函数为汉明窗w(n):
用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n):
x(n)=s(n)*w(n)
对加窗语音信号进行分帧处理,则语音信号x(n)表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;
对分帧后的语音信号xn(t)进行离散傅里叶变换:
其中,谐波分量序号k=0,1,...,N-1,则x(n)的短时幅度谱估计为|X(n,k)|,jj为虚数,时间t处频谱能量密度函数P(n,k)为:
P(n,k)=|X(n,k)|2=(X(n,k))×(conjj(X(n,k)))
将P(n,k)的值表示为灰度级所构成的二维图像得到语谱图。
3.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤二具体为
构建PCNN模型,用每一个神经元依次对应语谱图中的一个像素,在这个神经元结构模型中,神经元的输入可以划分为反馈输入Fij(h)和连接输入Lij(h)两部分:
Fij(h)=exp(-αF)Fij(h-1)+VF∑cij,mlYml(h-1)+Sij
Lij(h)=exp(-αL)Lij(h-1)+VLΣwij,mlYml(h-1)
其中,h为神经元点火时间序号,Sij是输入刺激信号,取语谱图的图像像素构成的矩阵中第i、j个像素的灰度值,m、l分别代表图像像素位置所对应的神经元,Fij和Lij分别为馈送输入和链接输入,VF和VL为放大系数,αF和αL为衰减系数,cij,ml和wij,ml为权重矩阵,Yml是其他神经元的输出值;
利用链接输入对馈送输入进行调制,得到神经元的内部活动项Uij:
Uij(h)=Fij(h)[1+βLij(h)]
其中,连接系数β控制邻域神经元的内部活动强度。当神经元内部活动Uij大于其内部的动态阈值θij时,神经元会发生点火并形成脉冲Yij:
将语谱图输入脉冲耦合神经网络,点火一次后得到处理过的PCNN图谱。
4.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤三的详细步骤为:
设定Gabor滤波器的频率和方向,可以得到一组频率和方向不同的Gabor滤波器,从而实现对图像多分辨率、多方向的分析,Gabor核函数如下所示:
其中,μ表示Gabor的核方向,v表示核尺度,σ表示高斯函数的标准差,z=(x,y)为像素点的空间坐标位置,为波向量,kv=kmax/fv为波向量的尺度,kmax=π/2为滤波器的最大频率,为采样步长,为波向量的方向;
将PCNN图谱与5尺度8方向Gabor小波卷积:
Gu,v(x,y)=I(x,y)*gu,v(x,y)
其中I(x,y)表示图像灰度的空间分布,Gu,v(x,y)是图像与Gabor小波的卷积得到的复数;
通过计算Gabor的幅值特征Au,v(x,y),得到40幅频谱图:
5.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤四的详细步骤为
把LBP算子定义在3*3的邻域上,以中心像素点的灰度值作为阈值,将中心像素周围的8个邻域像素点的灰度值与阈值进行比较,如果领域像素点的灰度值大于阈值,则在邻域像素点的位置上标记为1,若灰度值小于阈值则标记为0,经过二值化处理后得到一个8位二进制数,然后按照像素的不同位置加权得到一个十进制数,即为该邻域中心像素点的LBP值,
图像中的像素点为z(x,y),LBP算子对图像每个像素的p个邻域采样,每个采样点与中心像素做灰度值二值化运算如下:
其中,zc表示中心像素点的灰度值,zp表示采样点的灰度值;
将每个采样点赋予不同的权系数2p,计算该中心像素点的LBP值:
对图像上所有像素点进行LBP编码,得到编码后的图谱ILBP(x,y),对ILBP(x,y)进行直方图统计,直方图计算如下:
其中,E为LBP编码后的最大值;
将40张Gabor图谱中的直方图级联即得到特征向量QLBP。
6.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤五中,通过将40幅Gabor频谱图的Hu矩特征向量级联构成一幅语谱图的特征向量的详细过程为:
图像z(x,y)的(p+q)阶矩定义为:
其相应的中心距定义为:
其中,即中心坐标,是目标区域灰度质心。z(x,y)的归一化(p+q)阶中心距定义为:
其中
将每一幅Gabor频谱图划分为3×3个Hu块,利用二阶和三阶归一化矩构造出7个不变矩,对每个Hu块(p+q)阶中心矩计算如下
d1=η20+η02
d2=(η20-η02)2+4η11 2
d3=(η30-3η12)2+(η03-3η21)2
d4=(η30+η12)2+(η21+η03)2
d5=(η30-3η12)(η30+η12)[(η30+η12)2-3(η21+η03)2]+(3η21-η03)(η21+η03)[3(η30+η12)2-(η21+η03)2]
d6=(η20-η02)[(η30+η12)2-(η21+η03)2]+4η11(η30+η12)(η21+η03)
d7=(3η21-η03)(η30+η12)[(η30+η12)2-3(η21+η03)2]+(3η12-η30)(η03+η21)[3(η12+η30)2-(η21+η03)2]
计算出每个Hu块的7个不变矩,然后级联,构成一个Gabor图谱的特征向量,然后40幅Gabor图谱的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量QHu。
7.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤六详细过程为
对特征QLBP和QHu用PCA方法降维后采用最大-最小归一化方法处理得到特征向量Q′LBP和Q′Hu,由于LBP特征和Hu矩特征对情感语音的识别率的重要程度不同,因此需将归一化处理后的两种特征乘以相应的权值之后再进行融合,得到融合特征Q:
Q=[ω1Q′LBP,ω2Q′Hu]
其中,ω1和ω2分别是LBP特征和Hu矩特征所对应的权值,且ω1+ω2=1,权值的大小代表特征对分类结果的影响程度,最优的权值组合可以通过实验训练得到,融合后的特征Q被用来描述情感语音的特征。
8.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤七中的详细过程为
将融合得到的情感语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_data,利用训练集建立SVM模型model:
model=svmtrain(train_label,train_data)
用建立好的模型对测试集进行测试得到识别准确率accuracy:
accuracy=svmpredict(test_label,test_data)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710857568.9A CN107845390A (zh) | 2017-09-21 | 2017-09-21 | 一种基于pcnn语谱图特征融合的情感语音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710857568.9A CN107845390A (zh) | 2017-09-21 | 2017-09-21 | 一种基于pcnn语谱图特征融合的情感语音识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107845390A true CN107845390A (zh) | 2018-03-27 |
Family
ID=61661977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710857568.9A Pending CN107845390A (zh) | 2017-09-21 | 2017-09-21 | 一种基于pcnn语谱图特征融合的情感语音识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107845390A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564965A (zh) * | 2018-04-09 | 2018-09-21 | 太原理工大学 | 一种抗噪语音识别系统 |
CN108847252A (zh) * | 2018-04-26 | 2018-11-20 | 杭州电子科技大学 | 基于声信号语谱图纹理分布的声特征提取方法 |
CN109949825A (zh) * | 2019-03-06 | 2019-06-28 | 河北工业大学 | 基于fpga加速的pcnn算法的噪声分类方法 |
CN110008864A (zh) * | 2019-03-22 | 2019-07-12 | 清华大学深圳研究生院 | 一种微型人手识别设备及识别方法 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN110175551A (zh) * | 2019-05-21 | 2019-08-27 | 青岛科技大学 | 一种手语识别方法 |
CN110503128A (zh) * | 2018-05-18 | 2019-11-26 | 百度(美国)有限责任公司 | 使用卷积生成对抗网络进行波形合成的谱图 |
CN111145785A (zh) * | 2018-11-02 | 2020-05-12 | 广州灵派科技有限公司 | 一种基于语音的情绪识别方法及装置 |
CN111210835A (zh) * | 2020-01-08 | 2020-05-29 | 华南理工大学 | 一种基于听觉模型和信源方位的多通路语音降噪方法 |
CN111276158A (zh) * | 2020-01-22 | 2020-06-12 | 嘉兴学院 | 一种基于语谱图纹理特征的音频场景识别方法 |
WO2020135324A1 (en) * | 2018-12-28 | 2020-07-02 | Alibaba Group Holding Limited | Audio signal processing |
CN111583916A (zh) * | 2020-05-19 | 2020-08-25 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111612028A (zh) * | 2019-12-13 | 2020-09-01 | 珠海大横琴科技发展有限公司 | 一种基于深度学习的船只特征优化方法、装置和电子设备 |
CN111696579A (zh) * | 2020-06-17 | 2020-09-22 | 厦门快商通科技股份有限公司 | 一种语音情感识别方法、装置、设备和计算机存储介质 |
CN112151071A (zh) * | 2020-09-23 | 2020-12-29 | 哈尔滨工程大学 | 一种基于混合小波包特征深度学习的语音情感识别方法 |
CN112740219A (zh) * | 2018-11-19 | 2021-04-30 | 深圳市欢太科技有限公司 | 手势识别模型的生成方法、装置、存储介质及电子设备 |
CN113362857A (zh) * | 2021-06-15 | 2021-09-07 | 厦门大学 | 一种基于CapCNN的实时语音情感识别方法及应用装置 |
CN114841293A (zh) * | 2022-07-04 | 2022-08-02 | 国网信息通信产业集团有限公司 | 一种面向电力物联网的多模态数据融合分析方法与系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024141A (zh) * | 2010-06-29 | 2011-04-20 | 上海大学 | 基于Gabor小波变换和局部二值模式优化的人脸识别方法 |
CN104835507A (zh) * | 2015-03-30 | 2015-08-12 | 渤海大学 | 一种串并结合的多模式情感信息融合与识别方法 |
CN105047194A (zh) * | 2015-07-28 | 2015-11-11 | 东南大学 | 一种用于语音情感识别的自学习语谱图特征提取方法 |
-
2017
- 2017-09-21 CN CN201710857568.9A patent/CN107845390A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102024141A (zh) * | 2010-06-29 | 2011-04-20 | 上海大学 | 基于Gabor小波变换和局部二值模式优化的人脸识别方法 |
CN104835507A (zh) * | 2015-03-30 | 2015-08-12 | 渤海大学 | 一种串并结合的多模式情感信息融合与识别方法 |
CN105047194A (zh) * | 2015-07-28 | 2015-11-11 | 东南大学 | 一种用于语音情感识别的自学习语谱图特征提取方法 |
Non-Patent Citations (2)
Title |
---|
唐闺臣 等: "面向语音情感识别的语谱特征提取算法研究", 《计算机工程与应用》 * |
梁泽 等: "一种基于脉冲耦合神经网络的语音情感识别新方法", 《计算机应用》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564965A (zh) * | 2018-04-09 | 2018-09-21 | 太原理工大学 | 一种抗噪语音识别系统 |
CN108847252A (zh) * | 2018-04-26 | 2018-11-20 | 杭州电子科技大学 | 基于声信号语谱图纹理分布的声特征提取方法 |
CN110503128A (zh) * | 2018-05-18 | 2019-11-26 | 百度(美国)有限责任公司 | 使用卷积生成对抗网络进行波形合成的谱图 |
CN111145785A (zh) * | 2018-11-02 | 2020-05-12 | 广州灵派科技有限公司 | 一种基于语音的情绪识别方法及装置 |
CN112740219A (zh) * | 2018-11-19 | 2021-04-30 | 深圳市欢太科技有限公司 | 手势识别模型的生成方法、装置、存储介质及电子设备 |
US11114103B2 (en) | 2018-12-28 | 2021-09-07 | Alibaba Group Holding Limited | Systems, methods, and computer-readable storage media for audio signal processing |
WO2020135324A1 (en) * | 2018-12-28 | 2020-07-02 | Alibaba Group Holding Limited | Audio signal processing |
CN113196385B (zh) * | 2018-12-28 | 2023-12-29 | 阿里巴巴集团控股有限公司 | 用于音频信号处理的方法和系统及计算机可读存储介质 |
CN113196385A (zh) * | 2018-12-28 | 2021-07-30 | 阿里巴巴集团控股有限公司 | 音频信号处理 |
CN109949825A (zh) * | 2019-03-06 | 2019-06-28 | 河北工业大学 | 基于fpga加速的pcnn算法的噪声分类方法 |
CN110008864A (zh) * | 2019-03-22 | 2019-07-12 | 清华大学深圳研究生院 | 一种微型人手识别设备及识别方法 |
CN110134720A (zh) * | 2019-05-17 | 2019-08-16 | 苏州大学 | 融合局部特征与深度学习的事件联合抽取方法 |
CN110175551B (zh) * | 2019-05-21 | 2023-01-10 | 青岛科技大学 | 一种手语识别方法 |
CN110175551A (zh) * | 2019-05-21 | 2019-08-27 | 青岛科技大学 | 一种手语识别方法 |
CN111612028A (zh) * | 2019-12-13 | 2020-09-01 | 珠海大横琴科技发展有限公司 | 一种基于深度学习的船只特征优化方法、装置和电子设备 |
CN111210835A (zh) * | 2020-01-08 | 2020-05-29 | 华南理工大学 | 一种基于听觉模型和信源方位的多通路语音降噪方法 |
CN111210835B (zh) * | 2020-01-08 | 2023-07-18 | 华南理工大学 | 一种基于听觉模型和信源方位的多通路语音降噪方法 |
CN111276158A (zh) * | 2020-01-22 | 2020-06-12 | 嘉兴学院 | 一种基于语谱图纹理特征的音频场景识别方法 |
CN111583916A (zh) * | 2020-05-19 | 2020-08-25 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111696579A (zh) * | 2020-06-17 | 2020-09-22 | 厦门快商通科技股份有限公司 | 一种语音情感识别方法、装置、设备和计算机存储介质 |
CN111696579B (zh) * | 2020-06-17 | 2022-10-28 | 厦门快商通科技股份有限公司 | 一种语音情感识别方法、装置、设备和计算机存储介质 |
CN112151071B (zh) * | 2020-09-23 | 2022-10-28 | 哈尔滨工程大学 | 一种基于混合小波包特征深度学习的语音情感识别方法 |
CN112151071A (zh) * | 2020-09-23 | 2020-12-29 | 哈尔滨工程大学 | 一种基于混合小波包特征深度学习的语音情感识别方法 |
CN113362857A (zh) * | 2021-06-15 | 2021-09-07 | 厦门大学 | 一种基于CapCNN的实时语音情感识别方法及应用装置 |
CN114841293A (zh) * | 2022-07-04 | 2022-08-02 | 国网信息通信产业集团有限公司 | 一种面向电力物联网的多模态数据融合分析方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107845390A (zh) | 一种基于pcnn语谱图特征融合的情感语音识别系统 | |
Atila et al. | Attention guided 3D CNN-LSTM model for accurate speech based emotion recognition | |
CN108877801B (zh) | 基于多模态情绪识别系统的多轮对话语义理解子系统 | |
CN108899050B (zh) | 基于多模态情绪识别系统的语音信号分析子系统 | |
CN108805089B (zh) | 基于多模态的情绪识别方法 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
US9020822B2 (en) | Emotion recognition using auditory attention cues extracted from users voice | |
CN111898526B (zh) | 基于多流卷积神经网络的肌电手势识别方法 | |
CN103996155A (zh) | 智能交互及心理慰藉机器人服务系统 | |
CN113951883B (zh) | 基于脑电信号情绪识别的性别差异性检测方法 | |
Jinliang et al. | EEG emotion recognition based on granger causality and capsnet neural network | |
CN110348482A (zh) | 一种基于深度模型集成架构的语音情感识别系统 | |
Kadri et al. | Functional Regularized Least Squares Classi cation with Operator-valued Kernels | |
Kuang et al. | Simplified inverse filter tracked affective acoustic signals classification incorporating deep convolutional neural networks | |
Ribeiro et al. | Binary neural networks for classification of voice commands from throat microphone | |
Chinmayi et al. | Emotion Classification Using Deep Learning | |
Mavaddati | Voice-based age, gender, and language recognition based on ResNet deep model and transfer learning in spectro-temporal domain | |
Mohammed et al. | Speech Emotion Recognition Using MELBP Variants of Spectrogram Image. | |
Hu et al. | An features extraction and recognition method for underwater acoustic target based on ATCNN | |
Ying et al. | A Multimodal Driver Emotion Recognition Algorithm Based on the Audio and Video Signals in Internet of Vehicles Platform | |
Pathonsuwan et al. | RS-MSConvNet: A novel end-to-end pathological voice detection model | |
Zhu et al. | Emotion Recognition of College Students Based on Audio and Video Image. | |
Yavuz et al. | Automatic lipreading with principle component analysis | |
Gupta et al. | Depression detection using cascaded attention based deep learning framework using speech data | |
Tomar et al. | CNN-MFCC model for speaker recognition using emotive speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180327 |