CN107845390A - 一种基于pcnn语谱图特征融合的情感语音识别系统 - Google Patents

一种基于pcnn语谱图特征融合的情感语音识别系统 Download PDF

Info

Publication number
CN107845390A
CN107845390A CN201710857568.9A CN201710857568A CN107845390A CN 107845390 A CN107845390 A CN 107845390A CN 201710857568 A CN201710857568 A CN 201710857568A CN 107845390 A CN107845390 A CN 107845390A
Authority
CN
China
Prior art keywords
gabor
spectrogram
lbp
feature
pcnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710857568.9A
Other languages
English (en)
Inventor
白静
郭倩岩
闫建政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201710857568.9A priority Critical patent/CN107845390A/zh
Publication of CN107845390A publication Critical patent/CN107845390A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及语音识别技术领域。一种基于PCNN语谱图特征融合的情感语音识别系统,对于语音信号进行加窗分帧,然后做离散傅里叶变换,画出语音信号的语谱图;构建PCNN模型,通过脉冲耦合神经网络处理语谱图;将PCNN图谱与5尺度8方向Gabor小波卷积,并提取Gabor幅值特征得到40幅Gabor频谱图;对每一幅Gabor频谱图提取均匀模式LBP特征,将40张Gabor频谱图中的直方图级联得到特征向量

Description

一种基于PCNN语谱图特征融合的情感语音识别系统
技术领域
本发明涉及语音识别技术领域。
背景技术
随着信息技术的高速发展,人机交互受到越来越多的关注,情感语音识别作为人机交互的关键技术,成为该领域的研究重点。情感语音识别是计算机通过对人类语音情感信息的提取分析,从而对人类情感状态做出判断的语音识别技术,在商业、医疗、教育等众多领域有着广泛的应用。
当前,用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征。韵律特征通过时长、基频、能量等特征对语音情感进行区分,其情感识别能力已得到情感识别邻域的广泛认可。基于谱的相关特征通过声道形状变化和发生运动之间的相关性体现,对频谱能量在各个频谱区间的分布有着明显的影响。声音质量通过共振峰频率及其带宽、频率微扰和振幅微扰、声门参数等特征对语音情感做出有效分析。这些特征中,语音信号时域特性和频域特性起到了重要的作用,但是针对语音信号时域和频域两者相关性结合的研究相对较少。语谱图通过对时域和频域结合,用横轴代表时间,纵轴代表频率,将图像的像素点用频率点表示,采用图像特征分析相邻频率点之间的关系,是一种语音能量时频分布的可视化表达方式,有效的利用了时频两域之间的相关性。
脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)是语谱图特征提取在情感语音识别邻域的有效方法,源于对小新哺乳动物视神经研究而提出的一种新型神经网络模型,是由脉冲耦合神经元构成的二维单层神经元阵列模型。该方法通过将语谱图输入到PCNN后得到输出图像的时间序列作为情感语音的特征,具有时间、尺度等不变性,可以快速有效的实现情感语音识别。
Gabor滤波器是一种用于边缘提取的线性滤波器,通过引入时间局部化的窗函数,进行窗口傅里叶变换,把语音信号划分成许多时间间隔,用傅里叶变换分析每一个时间间隔,然后提取语音信号的局部空间信息和频域信息。Gabor滤波器可以有效提取特定区域内多尺度、多方向空间频率特征,凸显相邻灰度级间的变化,可以很好的兼顾信号在时频域的分析能力。
LBP(local binary pattern)是一种用来描述图像局部纹理特征的算子,其原理是通过设定区域内像素中心的灰度值为阈值,将该值与像素中心周围的像素灰度值比较,如果领域像素点的灰度值大于阈值,则在邻域像素点的位置上标记为1,若灰度值小于阈值则标记为0,经过二值化处理后得到该邻域中心像素点的LBP值。LBP反映了每个像素与周围像素的关系,具有旋转不变性和灰度不变性等显著的优点。
不变矩是一种通过提取具有平移、旋转、和比例不变性的图像特征,从而进行图像识别的方法。图像不变矩分为灰度直方图不变矩和空间不变矩,其对图像平移、旋转、缩放、灰度变换都具有恒定性。不变矩是描述区域特征的方法,矩不变量具有不随图像的位置、大小和方向而变化的特点,是提取图像中的形态特征的有效的工具。Hu提出图像的7个不变矩具有平移、旋转、比例不变性,在目标识别、图像匹配、形状分析等邻域得到了广泛的应用。
发明内容
本发明所要解决的技术问题是:如何提供一种基于PCNN语谱图特征融合的情感语音识别系统,采用支持向量机对系统输出特征进行分类识别,改善语音识别效果。
本发明所采用的技术方案是:一种基于PCNN语谱图特征融合的情感语音识别系统,按照如下的步骤进行:
步骤一、对于语音信号进行加窗分帧,然后做离散傅里叶变换,画出语音信号的语谱图;
步骤二、构建PCNN模型,通过脉冲耦合神经网络处理语谱图;
步骤三、将PCNN图谱与5尺度8方向Gabor小波卷积,并提取Gabor幅值特征得到40幅Gabor频谱图;
步骤四、对每一幅Gabor频谱图提取均匀模式LBP特征,将40张Gabor频谱图中的直方图级联得到特征向量QLBP
步骤五、计算每一幅Gabor频谱图Hu块的7个不变矩,然后级联,构成一个Gabor频谱图的特征向量,将40幅Gabor频谱图的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量QHu
步骤六、对特征QLBP和QHu用PCA方法降维后采用最大‐最小归一化方法处理得到特征向量Q′LBP和Q′Hu。利用公式融合Q′LBP和Q′Hu,得到融合特征Q。
步骤七、将融合特征Q带入SVM模型,得到识别准确率。
作为一种优选方式,步骤一中具体为:
对语音信号s(n)进行加窗,本发明采用的窗函数为汉明窗w(n):
用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n):
x(n)=s(n)*w(n)
对加窗语音信号进行分帧处理,则语音信号x(n)表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;
对分帧后的语音信号xn(t)进行离散傅里叶变换:
其中,jj为虚数单位,谐波分量序号k=0,1,...,N-1,则x(n)的短时幅度谱估计为|X(n,k)|,时间t处频谱能量密度函数P(n,k)为:
P(n,k)=|X(n,k)|2=(X(n,k))×(conjj(X(n,k)))
将P(n,k)的值表示为灰度级所构成的二维图像得到语谱图;
作为一种优选方式,步骤二中通过脉冲耦合神经网络处理语谱图按照如下的步骤进行:
每一个神经元依次对应语谱图图像中的一个像素,在这个神经元结构模型中,神经元的输入可以划分为反馈输入F和连接输入L两部分:
Fij(h)=exp(-αF)Fij(h-1)+VF∑cij,mlYml(h-1)+Sij
Lij(h)=exp(-αL)Lij(h-1)+VLΣwij,mlYml(h-1)
其中,h为神经元点火时间序号,Sij是输入刺激信号,取图像像素构成的矩阵中第i、j个像素的灰度值,m、l分别代表图像像素位置所对应的神经元,Fij和Lij分别为馈送输入和链接输入,VF和VL为放大系数,αF和αL为衰减系数,cij,ml和wij,ml为权重矩阵,Yml是其他神经元的输出值;
利用链接输入对馈送输入进行调制,得到神经元的内部活动项Uij
Uij(h)=Fij(h)[1+βLij(h)]
其中,连接系数β控制邻域神经元的内部活动强度。当神经元内部活动Uij大于其内部的动态阈值θij时,神经元会发生点火并形成脉冲Yij
将语谱图输入脉冲耦合神经网络,点火一次后得到PCNN图谱;
作为一种优选方式,步骤三中通过将PCNN图谱与5尺度8方向Gabor小波卷积按照如下的步骤进行:
通过设定Gabor滤波器的频率和方向,可以得到一组频率和方向不同的Gabor滤波器,从而实现对图像多分辨率、多方向的分析。Gabor核函数如下所示:
其中,μ表示Gabor的核方向,v表示核尺度,σ表示高斯函数的标准差,z=(x,y)为像素点的空间坐标位置,为波向量,kv=kmax/fv为波向量的尺度,kmax=π/2为滤波器的最大频率,为采样步长,为波向量的方向;
将PCNN图谱与5尺度8方向Gabor小波卷积:
Gu,v(x,y)=I(x,y)*gu,v(x,y)
其中I(x,y)表示图像灰度的空间分布,Gu,v(x,y)是图像与Gabor小波的卷积得到的复数;
通过计算Gabor的幅值特征Au,v(x,y),得到40幅频谱图:
作为一种优选方式,步骤四中通过将40张Gabor频谱图中的直方图级联按照如下的步骤进行:
当LBP算子定义在3*3的邻域上,以中心像素点的灰度值作为阈值,将中心像素周围的8个邻域像素点的灰度值与阈值进行比较。如果领域像素点的灰度值大于阈值,则在邻域像素点的位置上标记为1,若灰度值小于阈值则标记为0。经过二值化处理后得到一个8位二进制数,然后按照像素的不同位置加权得到一个十进制数,即为该邻域中心像素点的LBP值。
图像中的像素点为z(x,y),LBP算子对图像每个像素的p个邻域采样,每个采样点与中心像素做灰度值二值化运算如下:
其中,zc表示中心像素点的灰度值,zp表示采样点的灰度值;
将每个采样点赋予不同的权系数2p,计算该中心像素点的LBP值:
对图像上所有像素点进行LBP编码,得到编码后的图谱ILBP(x,y),对ILBP(x,y)进行直方图统计,直方图计算如下:
其中,E为LBP编码后的最大值;
将40张Gabor图谱中的直方图级联即得到特征向量QLBP
作为一种优选方式,步骤五中通过将40幅Gabor频谱图的Hu矩特征向量级联构成一幅语谱图的特征向量按照如下的步骤进行:
图像z(x,y)的(p+q)阶矩定义为:
其相应的中心距定义为:
其中,即中心坐标,是目标区域灰度质心。z(x,y)的归一化(p+q)阶中心距定义为:
其中
将每一幅Gabor频谱图划分为3×3个Hu块,利用二阶和三阶归一化矩构造出7个不变矩,对每个Hu块(p+q)阶中心矩计算如下
d1=η2002
d2=(η2002)2+4η11 2
d3=(η30-3η12)2+(η03-3η21)2
d4=(η3012)2+(η2103)2
d5=(η30-3η12)(η3012)[(η3012)2-3(η2103)2]+(3η2103)(η2103)[3(η3012)2-(η2103)2]
d6=(η2002)[(η3012)2-(η2103)2]+4η113012)(η2103)
d7=(3η2103)(η3012)[(η3012)2-3(η2103)2]+(3η1230)(η0321)[3(η1230)2-(η2103)2]
计算出每个Hu块的7个不变矩,然后级联,构成一个Gabor图谱的特征向量,然后40幅Gabor图谱的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量QHu
作为一种优选方式,步骤六中通过对特征QLBP和QHu用PCA方法降维后融合按照如下的步骤进行:
对特征QLBP和QHu用PCA方法降维后采用最大‐最小归一化方法处理得到特征向量Q′LBP和Q′Hu。由于LBP特征和Hu矩特征对情感语音的识别率的重要程度不同,因此需将归一化处理后的两种特征乘以相应的权值之后再进行融合,得到融合特征Q:
Q=[ω1Q′LBP,ω2Q′Hu]
其中,ω1和ω2分别是LBP特征和Hu矩特征所对应的权值,且ω12=1,权值的大小代表特征对分类结果的影响程度,最优的权值组合可以通过实验训练得到,融合后的特征Q被用来描述情感语音的特征;
作为一种优选方式,步骤七中通过SVM对特征进行识别按照如下的步骤进行:
将融合得到的情感语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_data,把训练集输入SVM建立模型model:
model=svmtrain(train_label,train_data)
用建立好的模型对测试集进行测试得到识别准确率accuracy:
accuracy=svmpredict(test_label,test_data)
本发明的有益效果是:本发明通过对语音信号进行傅里叶分析,将语音信号转化为语谱图,用脉冲耦合神经网络处理语谱图,然后利用5尺度8方向的Gabor小波与语谱图卷积得到40幅Gabor小波图谱,再提取局部二值模式特征和局部Hu矩特征,融合两部分特征后,采用支持向量机进行分类识别。本发明能从复杂背景下提取有效信息,具有良好的稳定性,有效增强了分类的效果,极大提高了检测性能。
具体实施方式
本发明以windows 7系统作为程序开发软件环境,使用MATLAB R2010a作为程序开发平台,采用德国柏林语音库作为实验数据。语音库由5男5女10个不同的人录制而成,包含平静、害怕、厌恶、喜悦、讨厌、悲伤、愤怒7种不同的情感,共800句语料。本文选取其中494条语句构成数据库进行实验。将5个人的语句作为训练集,在剩余语句中每种情感选取30条语句,一共210条语句作为测试集。
对语音信号s(n)进行加窗,本发明采用的窗函数为汉明窗w(n):
用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n):
x(n)=s(n)*w(n)
对加窗语音信号进行分帧处理,则语音信号x(n)表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;
对分帧后的语音信号xn(t)进行离散傅里叶变换:
其中,谐波分量序号k=0,1,...,N-1,则x(n)的短时幅度谱估计为|X(n,k)|,时间t处频谱能量密度函数P(n,k)为:
P(n,k)=|X(n,k)|2=(X(n,k))×(conj(X(n,k)))
将P(n,k)的值表示为灰度级所构成的二维图像得到语谱图;
每一个神经元依次对应图像中的一个像素,在这个神经元结构模型中,神经元的输入可以划分为反馈输入F和连接输入L两部分:
Fij(h)=exp(-αF)Fij(h-1)+VF∑cij,mlYml(h-1)+Sij
Lij(h)=exp(-αL)Lij(h-1)+VL∑wij,mlYml(h-1)
其中,h为神经元点火时间序号,Sij是输入刺激信号,取图像像素构成的矩阵中第i、j个像素的灰度值,m、l分别代表图像像素位置所对应的神经元,Fij和Lij分别为馈送输入和链接输入,VF和VL为放大系数,αF和αL为衰减系数,cij,ml和wij,ml为权重矩阵,Yml是其他神经元的输出值;
利用链接输入对馈送输入进行调制,得到神经元的内部活动项Uij
Uij(h)=Fij(h)[1+βLij(h)]
其中,连接系数β控制邻域神经元的内部活动强度。当神经元内部活动Uij大于其内部的动态阈值θij时,神经元会发生点火并形成脉冲Yij
将语谱图输入脉冲耦合神经网络,点火一次后得到PCNN图谱;
通过设定Gabor滤波器的频率和方向,得到一组频率和方向不同的Gabor滤波器,从而实现对图像多分辨率、多方向的分析。Gabor核函数如下所示:
其中,μ表示Gabor的核方向,v表示核尺度,σ表示高斯函数的标准差,z=(x,y)为像素点的空间坐标位置,为波向量,kv=kmax/fv为波向量的尺度,kmax=π/2为滤波器的最大频率,为采样步长,为波向量的方向;
将PCNN图谱与5尺度8方向Gabor小波卷积:
Gu,v(x,y)=I(x,y)*gu,v(x,y)
其中I(x,y)表示图像灰度的空间分布,Gu,v(x,y)是图像与Gabor小波的卷积得到的复数;
通过计算Gabor的幅值特征Au,v(x,y),得到40幅频谱图:
对每一幅Gabor频谱图提取均匀模式LBP特征,当LBP算子定义在3*3的邻域上,以中心像素点的灰度值作为阈值,将中心像素周围的8个邻域像素点的灰度值与阈值进行比较。如果领域像素点的灰度值大于阈值,则在邻域像素点的位置上标记为1,若灰度值小于阈值则标记为0。经过二值化处理后得到一个8位二进制数,然后按照像素的不同位置加权得到一个十进制数,即为该邻域中心像素点的LBP值。
图像中的像素点为z(x,y),LBP算子对图像每个像素的p个邻域采样,每个采样点与中心像素做灰度值二值化运算如下:
其中,zc表示中心像素点的灰度值,zp表示采样点的灰度值;
将每个采样点赋予不同的权系数2p,计算该中心像素点的LBP值:
对图像上所有像素点进行LBP编码,得到编码后的图谱ILBP(x,y),对ILBP(x,y)进行直方图统计,直方图计算如下:
其中,E为LBP编码后的最大值;
将40张Gabor图谱中的直方图级联即得到特征向量QLBP
计算每一幅Gabor频谱图Hu块的7个不变矩,图像z(x,y)的(p+q)阶矩定义为:
其相应的中心距定义为:
其中,即中心坐标,是目标区域灰度质心。z(x,y)的归一化(p+q)阶中心距定义为:
其中
将每一幅Gabor频谱图划分为3×3个Hu块,利用二阶和三阶归一化矩构造出7个不变矩,对每个Hu块(p+q)阶中心矩计算如下
d1=η2002
d2=(η2002)2+4η11 2
d3=(η30-3η12)2+(η03-3η21)2
d4=(η3012)2+(η2103)2
d5=(η30-3η12)(η3012)[(η3012)2-3(η2103)2]+(3η2103)(η2103)[3(η3012)2-(η2103)2]
d6=(η2002)[(η3012)2-(η2103)2]+4η113012)(η2103)
d7=(3η2103)(η3012)[(η3012)2-3(η2103)2]+(3η1230)(η0321)[3(η1230)2-(η2103)2]
将计算出的Hu块不变矩级联,构成一个Gabor图谱的特征向量,然后40幅Gabor图谱的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量QHu
对特征QLBP和QHu用PCA方法降维后采用最大‐最小归一化方法处理得到特征向量Q′LBP和Q′Hu。将归一化处理后的两种特征乘以相应的权值之后再进行融合,得到融合特征Q:
Q=[ω1Q′LBP2Q′Hu]
其中,ω1和ω2分别是LBP特征和Hu矩特征所对应的权值,且ω12=1,权值的大小代表特征对分类结果的影响程度,最优的权值组合可以通过实验训练得到,融合后的特征Q被用来描述情感语音的特征;
将融合得到的情感语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_data,把训练集输入SVM建立模型model:
model=svmtrain(train_label,train_data)
用建立好的模型对测试集进行测试得到识别准确率accuracy:
accuracy=svmpredict(test_label,test_data)
其中accuracy为测试集样本的分类准确率,对应该测试集样本的语音识别准确率为accuracy=85%。

Claims (8)

1.一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:按照如下的步骤进行
步骤一、对于语音信号s(n)进行加窗分帧,然后做离散傅里叶变换,获得语音信号的语谱图;
步骤二、构建PCNN模型,通过脉冲耦合神经网络处理语谱图;
步骤三、将PCNN图谱与5尺度8方向Gabor小波卷积,并提取Gabor幅值特征得到40幅Gabor频谱图;
步骤四、对每一幅Gabor频谱图提取均匀模式LBP特征,将40张Gabor频谱图中的直方图级联得到特征向量QLBP
步骤五、计算每一幅Gabor频谱图Hu块的7个不变矩,然后级联,构成一个Gabor频谱图的特征向量,将40幅Gabor频谱图的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量QHu
步骤六、对特征向量QLBP和QHu用PCA方法降维后采用最大-最小归一化方法处理得到特征向量Q′LBP和Q′Hu,利用公式融合Q′LBP和Q′Hu,得到融合特征Q;
步骤七、将融合特征Q带入SVM模型,得到识别准确率。
2.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤一的详细过程为
对语音信号s(n)进行加窗,本发明采用的窗函数为汉明窗w(n):
用窗函数w(n)乘以语音信号s(n),形成加窗语音信号x(n):
x(n)=s(n)*w(n)
对加窗语音信号进行分帧处理,则语音信号x(n)表示为xn(t),其中n为帧序号,t为帧同步的时间序号,N为帧长;
对分帧后的语音信号xn(t)进行离散傅里叶变换:
其中,谐波分量序号k=0,1,...,N-1,则x(n)的短时幅度谱估计为|X(n,k)|,jj为虚数,时间t处频谱能量密度函数P(n,k)为:
P(n,k)=|X(n,k)|2=(X(n,k))×(conjj(X(n,k)))
将P(n,k)的值表示为灰度级所构成的二维图像得到语谱图。
3.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤二具体为
构建PCNN模型,用每一个神经元依次对应语谱图中的一个像素,在这个神经元结构模型中,神经元的输入可以划分为反馈输入Fij(h)和连接输入Lij(h)两部分:
Fij(h)=exp(-αF)Fij(h-1)+VF∑cij,mlYml(h-1)+Sij
Lij(h)=exp(-αL)Lij(h-1)+VLΣwij,mlYml(h-1)
其中,h为神经元点火时间序号,Sij是输入刺激信号,取语谱图的图像像素构成的矩阵中第i、j个像素的灰度值,m、l分别代表图像像素位置所对应的神经元,Fij和Lij分别为馈送输入和链接输入,VF和VL为放大系数,αF和αL为衰减系数,cij,ml和wij,ml为权重矩阵,Yml是其他神经元的输出值;
利用链接输入对馈送输入进行调制,得到神经元的内部活动项Uij
Uij(h)=Fij(h)[1+βLij(h)]
其中,连接系数β控制邻域神经元的内部活动强度。当神经元内部活动Uij大于其内部的动态阈值θij时,神经元会发生点火并形成脉冲Yij
将语谱图输入脉冲耦合神经网络,点火一次后得到处理过的PCNN图谱。
4.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤三的详细步骤为:
设定Gabor滤波器的频率和方向,可以得到一组频率和方向不同的Gabor滤波器,从而实现对图像多分辨率、多方向的分析,Gabor核函数如下所示:
其中,μ表示Gabor的核方向,v表示核尺度,σ表示高斯函数的标准差,z=(x,y)为像素点的空间坐标位置,为波向量,kv=kmax/fv为波向量的尺度,kmax=π/2为滤波器的最大频率,为采样步长,为波向量的方向;
将PCNN图谱与5尺度8方向Gabor小波卷积:
Gu,v(x,y)=I(x,y)*gu,v(x,y)
其中I(x,y)表示图像灰度的空间分布,Gu,v(x,y)是图像与Gabor小波的卷积得到的复数;
通过计算Gabor的幅值特征Au,v(x,y),得到40幅频谱图:
5.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤四的详细步骤为
把LBP算子定义在3*3的邻域上,以中心像素点的灰度值作为阈值,将中心像素周围的8个邻域像素点的灰度值与阈值进行比较,如果领域像素点的灰度值大于阈值,则在邻域像素点的位置上标记为1,若灰度值小于阈值则标记为0,经过二值化处理后得到一个8位二进制数,然后按照像素的不同位置加权得到一个十进制数,即为该邻域中心像素点的LBP值,
图像中的像素点为z(x,y),LBP算子对图像每个像素的p个邻域采样,每个采样点与中心像素做灰度值二值化运算如下:
其中,zc表示中心像素点的灰度值,zp表示采样点的灰度值;
将每个采样点赋予不同的权系数2p,计算该中心像素点的LBP值:
对图像上所有像素点进行LBP编码,得到编码后的图谱ILBP(x,y),对ILBP(x,y)进行直方图统计,直方图计算如下:
其中,E为LBP编码后的最大值;
将40张Gabor图谱中的直方图级联即得到特征向量QLBP
6.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤五中,通过将40幅Gabor频谱图的Hu矩特征向量级联构成一幅语谱图的特征向量的详细过程为:
图像z(x,y)的(p+q)阶矩定义为:
其相应的中心距定义为:
其中,即中心坐标,是目标区域灰度质心。z(x,y)的归一化(p+q)阶中心距定义为:
其中
将每一幅Gabor频谱图划分为3×3个Hu块,利用二阶和三阶归一化矩构造出7个不变矩,对每个Hu块(p+q)阶中心矩计算如下
d1=η2002
d2=(η20022+4η11 2
d3=(η30-3η12)2+(η03-3η21)2
d4=(η3012)2+(η2103)2
d5=(η30-3η12)(η3012)[(η3012)2-3(η2103)2]+(3η2103)(η2103)[3(η3012)2-(η2103)2]
d6=(η2002)[(η3012)2-(η2103)2]+4η113012)(η2103)
d7=(3η2103)(η3012)[(η3012)2-3(η2103)2]+(3η1230)(η0321)[3(η1230)2-(η2103)2]
计算出每个Hu块的7个不变矩,然后级联,构成一个Gabor图谱的特征向量,然后40幅Gabor图谱的Hu矩特征向量级联构成一幅语谱图的Hu矩特征向量QHu
7.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤六详细过程为
对特征QLBP和QHu用PCA方法降维后采用最大-最小归一化方法处理得到特征向量Q′LBP和Q′Hu,由于LBP特征和Hu矩特征对情感语音的识别率的重要程度不同,因此需将归一化处理后的两种特征乘以相应的权值之后再进行融合,得到融合特征Q:
Q=[ω1Q′LBP2Q′Hu]
其中,ω1和ω2分别是LBP特征和Hu矩特征所对应的权值,且ω12=1,权值的大小代表特征对分类结果的影响程度,最优的权值组合可以通过实验训练得到,融合后的特征Q被用来描述情感语音的特征。
8.根据权利要求1所述的一种基于PCNN语谱图特征融合的情感语音识别系统,其特征在于:步骤七中的详细过程为
将融合得到的情感语音特征划分为训练集train_data和测试集test_data两部分,分别添加训练集标签train_label和测试集标签test_data,利用训练集建立SVM模型model:
model=svmtrain(train_label,train_data)
用建立好的模型对测试集进行测试得到识别准确率accuracy:
accuracy=svmpredict(test_label,test_data)。
CN201710857568.9A 2017-09-21 2017-09-21 一种基于pcnn语谱图特征融合的情感语音识别系统 Pending CN107845390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710857568.9A CN107845390A (zh) 2017-09-21 2017-09-21 一种基于pcnn语谱图特征融合的情感语音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710857568.9A CN107845390A (zh) 2017-09-21 2017-09-21 一种基于pcnn语谱图特征融合的情感语音识别系统

Publications (1)

Publication Number Publication Date
CN107845390A true CN107845390A (zh) 2018-03-27

Family

ID=61661977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710857568.9A Pending CN107845390A (zh) 2017-09-21 2017-09-21 一种基于pcnn语谱图特征融合的情感语音识别系统

Country Status (1)

Country Link
CN (1) CN107845390A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564965A (zh) * 2018-04-09 2018-09-21 太原理工大学 一种抗噪语音识别系统
CN108847252A (zh) * 2018-04-26 2018-11-20 杭州电子科技大学 基于声信号语谱图纹理分布的声特征提取方法
CN109949825A (zh) * 2019-03-06 2019-06-28 河北工业大学 基于fpga加速的pcnn算法的噪声分类方法
CN110008864A (zh) * 2019-03-22 2019-07-12 清华大学深圳研究生院 一种微型人手识别设备及识别方法
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法
CN110175551A (zh) * 2019-05-21 2019-08-27 青岛科技大学 一种手语识别方法
CN110503128A (zh) * 2018-05-18 2019-11-26 百度(美国)有限责任公司 使用卷积生成对抗网络进行波形合成的谱图
CN111145785A (zh) * 2018-11-02 2020-05-12 广州灵派科技有限公司 一种基于语音的情绪识别方法及装置
CN111210835A (zh) * 2020-01-08 2020-05-29 华南理工大学 一种基于听觉模型和信源方位的多通路语音降噪方法
CN111276158A (zh) * 2020-01-22 2020-06-12 嘉兴学院 一种基于语谱图纹理特征的音频场景识别方法
WO2020135324A1 (en) * 2018-12-28 2020-07-02 Alibaba Group Holding Limited Audio signal processing
CN111583916A (zh) * 2020-05-19 2020-08-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111612028A (zh) * 2019-12-13 2020-09-01 珠海大横琴科技发展有限公司 一种基于深度学习的船只特征优化方法、装置和电子设备
CN111696579A (zh) * 2020-06-17 2020-09-22 厦门快商通科技股份有限公司 一种语音情感识别方法、装置、设备和计算机存储介质
CN112151071A (zh) * 2020-09-23 2020-12-29 哈尔滨工程大学 一种基于混合小波包特征深度学习的语音情感识别方法
CN112740219A (zh) * 2018-11-19 2021-04-30 深圳市欢太科技有限公司 手势识别模型的生成方法、装置、存储介质及电子设备
CN113362857A (zh) * 2021-06-15 2021-09-07 厦门大学 一种基于CapCNN的实时语音情感识别方法及应用装置
CN114841293A (zh) * 2022-07-04 2022-08-02 国网信息通信产业集团有限公司 一种面向电力物联网的多模态数据融合分析方法与系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024141A (zh) * 2010-06-29 2011-04-20 上海大学 基于Gabor小波变换和局部二值模式优化的人脸识别方法
CN104835507A (zh) * 2015-03-30 2015-08-12 渤海大学 一种串并结合的多模式情感信息融合与识别方法
CN105047194A (zh) * 2015-07-28 2015-11-11 东南大学 一种用于语音情感识别的自学习语谱图特征提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024141A (zh) * 2010-06-29 2011-04-20 上海大学 基于Gabor小波变换和局部二值模式优化的人脸识别方法
CN104835507A (zh) * 2015-03-30 2015-08-12 渤海大学 一种串并结合的多模式情感信息融合与识别方法
CN105047194A (zh) * 2015-07-28 2015-11-11 东南大学 一种用于语音情感识别的自学习语谱图特征提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
唐闺臣 等: "面向语音情感识别的语谱特征提取算法研究", 《计算机工程与应用》 *
梁泽 等: "一种基于脉冲耦合神经网络的语音情感识别新方法", 《计算机应用》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564965A (zh) * 2018-04-09 2018-09-21 太原理工大学 一种抗噪语音识别系统
CN108847252A (zh) * 2018-04-26 2018-11-20 杭州电子科技大学 基于声信号语谱图纹理分布的声特征提取方法
CN110503128A (zh) * 2018-05-18 2019-11-26 百度(美国)有限责任公司 使用卷积生成对抗网络进行波形合成的谱图
CN111145785A (zh) * 2018-11-02 2020-05-12 广州灵派科技有限公司 一种基于语音的情绪识别方法及装置
CN112740219A (zh) * 2018-11-19 2021-04-30 深圳市欢太科技有限公司 手势识别模型的生成方法、装置、存储介质及电子设备
US11114103B2 (en) 2018-12-28 2021-09-07 Alibaba Group Holding Limited Systems, methods, and computer-readable storage media for audio signal processing
WO2020135324A1 (en) * 2018-12-28 2020-07-02 Alibaba Group Holding Limited Audio signal processing
CN113196385B (zh) * 2018-12-28 2023-12-29 阿里巴巴集团控股有限公司 用于音频信号处理的方法和系统及计算机可读存储介质
CN113196385A (zh) * 2018-12-28 2021-07-30 阿里巴巴集团控股有限公司 音频信号处理
CN109949825A (zh) * 2019-03-06 2019-06-28 河北工业大学 基于fpga加速的pcnn算法的噪声分类方法
CN110008864A (zh) * 2019-03-22 2019-07-12 清华大学深圳研究生院 一种微型人手识别设备及识别方法
CN110134720A (zh) * 2019-05-17 2019-08-16 苏州大学 融合局部特征与深度学习的事件联合抽取方法
CN110175551B (zh) * 2019-05-21 2023-01-10 青岛科技大学 一种手语识别方法
CN110175551A (zh) * 2019-05-21 2019-08-27 青岛科技大学 一种手语识别方法
CN111612028A (zh) * 2019-12-13 2020-09-01 珠海大横琴科技发展有限公司 一种基于深度学习的船只特征优化方法、装置和电子设备
CN111210835A (zh) * 2020-01-08 2020-05-29 华南理工大学 一种基于听觉模型和信源方位的多通路语音降噪方法
CN111210835B (zh) * 2020-01-08 2023-07-18 华南理工大学 一种基于听觉模型和信源方位的多通路语音降噪方法
CN111276158A (zh) * 2020-01-22 2020-06-12 嘉兴学院 一种基于语谱图纹理特征的音频场景识别方法
CN111583916A (zh) * 2020-05-19 2020-08-25 科大讯飞股份有限公司 一种语音识别方法、装置、设备及存储介质
CN111696579A (zh) * 2020-06-17 2020-09-22 厦门快商通科技股份有限公司 一种语音情感识别方法、装置、设备和计算机存储介质
CN111696579B (zh) * 2020-06-17 2022-10-28 厦门快商通科技股份有限公司 一种语音情感识别方法、装置、设备和计算机存储介质
CN112151071B (zh) * 2020-09-23 2022-10-28 哈尔滨工程大学 一种基于混合小波包特征深度学习的语音情感识别方法
CN112151071A (zh) * 2020-09-23 2020-12-29 哈尔滨工程大学 一种基于混合小波包特征深度学习的语音情感识别方法
CN113362857A (zh) * 2021-06-15 2021-09-07 厦门大学 一种基于CapCNN的实时语音情感识别方法及应用装置
CN114841293A (zh) * 2022-07-04 2022-08-02 国网信息通信产业集团有限公司 一种面向电力物联网的多模态数据融合分析方法与系统

Similar Documents

Publication Publication Date Title
CN107845390A (zh) 一种基于pcnn语谱图特征融合的情感语音识别系统
Atila et al. Attention guided 3D CNN-LSTM model for accurate speech based emotion recognition
CN108877801B (zh) 基于多模态情绪识别系统的多轮对话语义理解子系统
CN108899050B (zh) 基于多模态情绪识别系统的语音信号分析子系统
CN108805089B (zh) 基于多模态的情绪识别方法
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
US9020822B2 (en) Emotion recognition using auditory attention cues extracted from users voice
CN111898526B (zh) 基于多流卷积神经网络的肌电手势识别方法
CN103996155A (zh) 智能交互及心理慰藉机器人服务系统
CN113951883B (zh) 基于脑电信号情绪识别的性别差异性检测方法
Jinliang et al. EEG emotion recognition based on granger causality and capsnet neural network
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
Kadri et al. Functional Regularized Least Squares Classi cation with Operator-valued Kernels
Kuang et al. Simplified inverse filter tracked affective acoustic signals classification incorporating deep convolutional neural networks
Ribeiro et al. Binary neural networks for classification of voice commands from throat microphone
Chinmayi et al. Emotion Classification Using Deep Learning
Mavaddati Voice-based age, gender, and language recognition based on ResNet deep model and transfer learning in spectro-temporal domain
Mohammed et al. Speech Emotion Recognition Using MELBP Variants of Spectrogram Image.
Hu et al. An features extraction and recognition method for underwater acoustic target based on ATCNN
Ying et al. A Multimodal Driver Emotion Recognition Algorithm Based on the Audio and Video Signals in Internet of Vehicles Platform
Pathonsuwan et al. RS-MSConvNet: A novel end-to-end pathological voice detection model
Zhu et al. Emotion Recognition of College Students Based on Audio and Video Image.
Yavuz et al. Automatic lipreading with principle component analysis
Gupta et al. Depression detection using cascaded attention based deep learning framework using speech data
Tomar et al. CNN-MFCC model for speaker recognition using emotive speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180327