CN105047194B - 一种用于语音情感识别的自学习语谱图特征提取方法 - Google Patents
一种用于语音情感识别的自学习语谱图特征提取方法 Download PDFInfo
- Publication number
- CN105047194B CN105047194B CN201510450338.1A CN201510450338A CN105047194B CN 105047194 B CN105047194 B CN 105047194B CN 201510450338 A CN201510450338 A CN 201510450338A CN 105047194 B CN105047194 B CN 105047194B
- Authority
- CN
- China
- Prior art keywords
- feature
- sound spectrograph
- gabor
- conspicuousness
- modes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Abstract
本发明公开了一种用于语音情感识别的自学习语谱图特征提取方法,首先对已知情感的标准语料库中的语音进行预处理,得到量化后的语谱图灰度图像;然后计算所得到的语谱图灰度图像的Gabor语谱图;再采用可辨别特征学习算法对提取到的LBP统计直方图进行训练,构建不同尺度、不同方向下的全局显著性模式集合;最后采用全局显著性集合对语音不同尺度、不同方向下Gabor图谱的LBP统计直方图进行特征选择,得到处理后的统计直方图,将N个统计直方图级联,得到适合情感分类的语音情感特征。本发明提出的情感特征可以较好地识别不同种类的情感,识别率显著优于现有的声学特征。
Description
技术领域
本发明涉及语音情感识别技术领域,特别涉及一种应用于语音情感识别系统的特征提取方法。
背景技术
语音作为最主要的交流手段之一,在新型的人机交互领域受到越来越广泛的关注,为了使人机交互系统和机器人的对话系统更加智能和完善,语音的情感分析变得越来越重要。此外,在一些长时间的、单调的、高强度的任务(如航天、航海等)中,相关人员常产生某些负面的情绪,有效的识别这些负面情绪,有助于提高个体认知和工作效率,防患于未然。面对犯罪调查、智能协助等问题,语音情感识别也能够起到重要的作用。因此,语音情感识别算法研究具有重要的实用意义。
针对语音情感识别问题,学者们从不同角度进行了研究,取得了许多有价值的成果。在提高算法鲁棒性方面,有学者提出一些抗噪性能良好的情感识别算法。在语音情感识别模型构建方面,许多不同类型的识别模型被提出,例如,加权稀疏识别模型、基于语义的情感识别模型等等。鉴于特征构造及特征选择对识别性能影响较大,许多学者都对情感特征进行了细致的分析和研究,并提出了多种语音情感特征构造方式。语音情感特征一般包括:(1)韵律特征、(2)频域特征、(3)音质特征。在上述特征中,语音信号频域和时域中信号的相关性,在语音情感识别中起到了重要的作用。但针对语音信号相关性的研究,往往只是研究频域或时域中的一个域,很少有文献将语音信号时频两域的相关性结合起来进行研究。语谱图作为一种语音能量时频分布的可视化表达方式,横轴代表时间,纵轴代表频率,连通了时频两域,将语谱图的频率点建模为图像的像素点,可以利用图像特征研究相邻频点间的联系,为研究时频两域相关性提供了一种新的思路。
发明内容
本发明的目的是提供一种用于语音情感识别的自学习语谱图特征提取方法,一方面可以提高各语音情感之间的区分性,对语音情感的分类提供更有效的特征,另一方面可以进一步分析信号间相关性对情感识别的作用。
为实现上述目的,本发明采用的技术方案是:
一种用于语音情感识别的自学习语谱图特征提取方法,包括以下步骤:
(1)、对已知情感的标准语料库中的语音进行预处理,得到量化后的语谱图灰度图像;
(2)、计算步骤(1)所得到的语谱图灰度图像的Gabor语谱图;
(3)、采用可辨别特征学习算法对步骤(2)提取到的LBP统计直方图进行训练,构建不同尺度、不同方向下的全局显著性模式集合,记为
(4)、采用步骤(3)中的全局显著性模式对语音不同尺度、不同方向下Gabor图谱的LBP统计直方图进行特征选择,得到处理后的统计直方图将N个统计直方图级联得到适合情感分类的语音情感特征。
所述步骤(1)的具体步骤为:
(11)、对语音进行分帧、加窗,计算离散傅里叶变换,得到语谱图X;
(12)、通过下式求取线性语谱图:
LLinear(i,j)=|X(i,j)|
(13)、通过下式得到归一化语音图谱:
式中max,min表示语谱图灰度级中的最大最小值;
(14)、归一化后的语谱图乘以255,并进行量化处理,得灰度级为0-255的语谱图灰度图像。
所述步骤(2)的具体步骤为:
(21)、将语谱图灰度图像与Gabor小波的卷积,经过卷积后,每张语谱图灰度图像可以得到N=A×B张Gabor图谱,记为其中A表示Gabor核方向数目,其中B表示Gabor核尺度数目,Gabor小波的核函数定义如下:
其中,μ表示Gabor的核方向,ν表示核尺度,是像素点的空间位置,σ表示高斯函数的半径,其中kv=kmax/fv,kmax=π/2,φμ=πμ/8;
(22)、采用局部二值模式(Local binary pattern,LBP)对Gabor图谱的进行编码,编码后的图谱不进行旋转不变及一致模式映射,并直接计算统计直方图,每条情感语音Gabor图谱的统计直方图,记为
所述步骤(3)的具体步骤为:
(31)、依据不同方向、尺度的Gabor图谱,将所有语音的Gabor图谱提取到的LBP特征分为N个不同的集合,设方向为v,尺度为μ的Gabor图谱LBP直方图组成的集合为其中M表示训练样本总数;
(32)、采用可辨别特征学习算法对训练学习,得到全局显著性模式集合
(33)、由于i=1,2,…,N,最终得到N个全局显著性模式集合
所述步骤(3)中,可辨别特征学习算法步骤如下:
(a)计算每个特征直方图的显著性模式集合;
(b)计算不同类别的可区别显著性模式集合:
计算同一类情感特征显著性模式集合交集,得到不同类别的可区别显著性模式集合;
(c)构建全局显著性模式集合:
计算不同类别可区别显著性模式集合的并集,得到全局显著性模式集合Jglobal。
所述步骤(a)中,
首先,设fv,μ为LBP统计直方图,n为显著性模式集合阈值;
最后,对所有LBP统计直方图进行上述运算,得到特征直方图的显著性模式集合
本发明的有益效果是:
本发明的语音情感识别特征提取方法,基于频点间的相关性,将语谱图建模为图像,并采用图像算法研究频点间的相关性。在所作的统计实验中,采用本发明提取的特征加大了情感间的鉴别性,相比传统的声学特征,提高了情感识别的性能。本发明一方面可以提高各语音情感之间的区分性,对语音情感的分类提供更有效的特征,另一方面可以进一步分析信号间相关性对情感识别的作用。本发明提出的情感特征可以较好地识别不同种类的情感,识别率显著优于现有的声学特征。
附图说明
图1为LBP编码示意图;
图2为分类识别流程图。
具体实施方式
下面结合具体实施方式对本发明作更进一步的说明。
本发明提供了一种用于语音情感识别的自学习语谱图特征提取方法,具体步骤如下所示:
1)语谱图分析与预处理
对已知情感的标准语料库中的语音进行预处理
(1)对语音进行分帧、加窗,计算离散傅里叶变换。
式中,N表示窗长,ω(n)表示汉明窗函数。k表示f(k)=kfs/N,其中fs表示采样频率。
求取线性语谱图:
LLinear(i,j)=|X(i,j)|
(2)采用最大最小归一化方法对语谱图进行归一化,得到归一化语音图谱。
式中max,min表示语谱图灰度级中的最大最小值。
(3)将语谱图量化成0-255的灰度级图像
2)计算Gabor语谱图
Gabor小波的核函数定义如下:
其中,μ表示Gabor的核方向,ν表示核尺度,是像素点的空间位置,σ表示高斯函数的半径。其中kv=kmax/fv,kmax=π/2,φμ=πμ/8。
上式中,ν∈{0,1,2,3,4},μ∈{0,1,2,3,4,5,6,7}。经过上式运算后,得到40张Gabor图谱。
采用LBP对Gabor图谱进行编码,并计算编码后图谱的灰度直方图,编码后的图谱不进行旋转不变及一致模式映射,并直接计算统计直方图。每条情感语音Gabor图谱的统计直方图,记为如图1所示为LBP编码示意图。
3)计算全局显著性模式集合
依据不同方向、尺度的Gabor语谱图,将所有语音的Gabor图谱提取到的LBP特征分为40个不同的集合。设方向为v(v∈{0,1,2,3,4})尺度为μ(μ∈{0,1,2,3,4,5,6,7})的Gabor语谱图LBP直方图组成的集合为其中M表示训练样本总数,计算该集合的全局显著性模式集合,计算步骤如下:
a)计算每个特征直方图的显著性模式集合
首先,设fv,μ为LBP统计直方图,n为显著性模式集合阈值。
然后,对fv,μ进行降序排列,结果记为按照降序后的顺序改变的排列,结果记为保留的前k项,存入向量中,k值通过下述公式求得。
最后,对所有LBP统计直方图进行上述运算,得到特征直方图的显著性模式集合
b)计算不同类别的可区别显著性模式集合。
设属于第j类的nj张语谱图的显著性模式集合为计算同一类情感特征显著性模式集合交集,得到不同类别的可区别显著性模式集合JCj,v,μ。
c)构建全局显著性模式集合。
设不同类别的可区别显著性模式集合JCj,v,μ(j=1,2,…,C),通过下式,可以得到得到全局显著性模式集合Jglobal。
4)全局显著性模式集合特征选择
采用步骤3)中的全局显著性模式对语音不同尺度、不同方向下Gabor图谱的LBP统计直方图进行特征选择,得到处理后的统计直方图将40个统计直方图级联得到适合情感分类的语音情感特征。
声学特征比较实验
按照本发明提取的特征进行情感识别实验,其中识别流程如下所示:
首先,按照本发明中步骤1)到4)对预训练语料库进行特征提取;
然后,采用提取到的特征输入SVM分类器中,进行训练,得到适合情感分类的SVM分类器;
最后,将待识别特征情感语音按照步骤1)到步骤4)提取特征,输入到SVM分类器中,得到分类结果。分类流程如图2所示。
本发明采用柏林库对算法进行验证。柏林库由10个不同的人(5男5女)录制而成,包含7种不同的情感,分别为中性(neutral)、害怕(fear)、厌恶(disgust)、喜悦(joy)、讨厌(boredom)、悲伤(sadness)、生气(anger)。选取其中494条语句构成数据库进行实验。
采用Leave one speaker out(LOSO)方案,即选取柏林库中的9个人作为训练集,剩余的作为测试集;10个人轮流作测试集,将10次识别结果求平均,作为最终识别结果。
实验采样SVM分类器,采用线性核,惩罚参数C设为4096。
将本发明提出的算法与现有文献的声学特征进行比较,声学特征包含了韵律学特征、谱特征和音质特征三种类型,采用openSMILE软件提取56个常见的声学低层描述子,将56个特征分为7个特征组。
表1实验识别结果
表1给出了实验结果。可以看出,所有特征中,本发明提出的特征识别率明显高于现有的声学特征。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种用于语音情感识别的自学习语谱图特征提取方法,其特征在于:包括以下步骤:
(1)、对已知情感的标准语料库中的语音进行预处理,得到量化后的语谱图灰度图像;
(2)、计算步骤(1)所得到的语谱图灰度图像的Gabor语谱图;
(3)、采用可辨别特征学习算法对步骤(2)提取到的LBP统计直方图进行训练,构建不同尺度、不同方向下的全局显著性模式集合,记为
(4)、采用步骤(3)中的全局显著性模式对语音不同尺度、不同方向下Gabor图谱的LBP统计直方图进行特征选择,得到处理后的统计直方图将N个统计直方图级联得到适合情感分类的语音情感特征。
2.如权利要求1所述的用于语音情感识别的自学习语谱图特征提取方法,其特征在于:所述步骤(1)的具体步骤为:
(11)、对语音进行分帧、加窗,计算离散傅里叶变换,得到语谱图X;
(12)、通过下式求取线性语谱图:
LLinear(i,j)=|X(i,j)|
(13)、通过下式得到归一化语音图谱:
式中max,min表示语谱图灰度级中的最大最小值;
(14)、归一化后的语谱图乘以255,并进行量化处理,得灰度级为0-255的语谱图灰度图像。
3.如权利要求1所述的用于语音情感识别的自学习语谱图特征提取方法,其特征在于:所述步骤(2)的具体步骤为:
(21)、将语谱图灰度图像与Gabor小波的卷积,经过卷积后,每张语谱图灰度图像可以得到N=A×B张Gabor图谱,记为其中A表示Gabor核方向数目,其中B表示Gabor核尺度数目,Gabor小波的核函数定义如下:
其中,μ表示Gabor的核方向,ν表示核尺度,是像素点的空间位置,σ表示高斯函数的半径,其中kv=kmax/fv,kmax=π/2,φμ=πμ/8;
(22)、采用局部二值模式(Local binary pattern,LBP)对Gabor图谱的进行编码,编码后的图谱不进行旋转不变及一致模式映射,并直接计算统计直方图,每条情感语音Gabor图谱的统计直方图,记为
4.如权利要求1所述的用于语音情感识别的自学习语谱图特征提取方法,其特征在于:所述步骤(3)的具体步骤为:
(31)、依据不同方向、尺度的Gabor图谱,将所有语音的Gabor图谱提取到的LBP特征分为N个不同的集合,设方向为v,尺度为μ的Gabor图谱LBP直方图组成的集合为其中M表示训练样本总数;
(32)、采用可辨别特征学习算法对训练学习,得到全局显著性模式集合
(33)、由于i=1,2,…,N,最终得到N个全局显著性模式集合
5.如权利要求1或4所述的用于语音情感识别的自学习语谱图特征提取方法,其特征在于:所述步骤(3)中,可辨别特征学习算法步骤如下:
(a)计算每个特征直方图的显著性模式集合;
(b)计算不同类别的可区别显著性模式集合:
计算同一类情感特征显著性模式集合交集,得到不同类别的可区别显著性模式集合;
(c)构建全局显著性模式集合:
计算不同类别可区别显著性模式集合的并集,得到全局显著性模式集合Jglobal。
6.如权利要求5所述的用于语音情感识别的自学习语谱图特征提取方法,其特征在于:所述步骤(a)包括以下步骤:
(a1)首先,设fv,μ为LBP统计直方图,n为显著性模式集合阈值;
(a2)然后,对fv,μ进行降序排列,结果记为按照降序后的顺序改变的排列,结果记为保留的前k项,存入向量中,k值通过下述公式求得:
(a3)最后,对所有LBP统计直方图进行上述步骤(a1)和(a2),得到特征直方图的显著性模式集合
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510450338.1A CN105047194B (zh) | 2015-07-28 | 2015-07-28 | 一种用于语音情感识别的自学习语谱图特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510450338.1A CN105047194B (zh) | 2015-07-28 | 2015-07-28 | 一种用于语音情感识别的自学习语谱图特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105047194A CN105047194A (zh) | 2015-11-11 |
CN105047194B true CN105047194B (zh) | 2018-08-28 |
Family
ID=54453684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510450338.1A Active CN105047194B (zh) | 2015-07-28 | 2015-07-28 | 一种用于语音情感识别的自学习语谱图特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105047194B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105895110A (zh) * | 2016-06-30 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种音频文件的分类方法及装置 |
CN106571135B (zh) * | 2016-10-27 | 2020-06-09 | 苏州大学 | 一种耳语音特征提取方法及系统 |
CN106782606A (zh) * | 2017-01-17 | 2017-05-31 | 山东南工机器人科技有限公司 | 用于导讲机器人的语言交流与互动系统及其工作方法 |
CN107103913B (zh) * | 2017-04-28 | 2020-02-04 | 西北大学 | 一种基于功率谱Gabor特征序列递归模型的语音识别方法 |
CN107564543B (zh) * | 2017-09-13 | 2020-06-26 | 苏州大学 | 一种高情感区分度的语音特征提取方法 |
CN107845390A (zh) * | 2017-09-21 | 2018-03-27 | 太原理工大学 | 一种基于pcnn语谱图特征融合的情感语音识别系统 |
CN108597539B (zh) * | 2018-02-09 | 2021-09-03 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
CN109272993A (zh) * | 2018-08-21 | 2019-01-25 | 中国平安人寿保险股份有限公司 | 语音类别的识别方法、装置、计算机设备和存储介质 |
CN109903749B (zh) * | 2019-02-26 | 2021-04-02 | 天津大学 | 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法 |
CN110310660B (zh) * | 2019-06-06 | 2021-10-08 | 上海工程技术大学 | 一种基于语谱图的语音重采样检测方法 |
CN110310624A (zh) * | 2019-07-03 | 2019-10-08 | 中山大学新华学院 | 一种高效副语音检测识别方法及装置 |
CN110648340B (zh) * | 2019-09-29 | 2023-03-17 | 惠州学院 | 一种基于二进制及水平集处理图像的方法及装置 |
CN110930983A (zh) * | 2019-11-08 | 2020-03-27 | 广州大学 | 用于语音信号的小波特征提取方法、系统和存储介质 |
CN113362857A (zh) * | 2021-06-15 | 2021-09-07 | 厦门大学 | 一种基于CapCNN的实时语音情感识别方法及应用装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592593A (zh) * | 2012-03-31 | 2012-07-18 | 山东大学 | 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 |
CN103258204A (zh) * | 2012-02-21 | 2013-08-21 | 中国科学院心理研究所 | 一种基于Gabor和EOH特征的自动微表情识别方法 |
CN103617436A (zh) * | 2013-12-17 | 2014-03-05 | 山东大学 | 基于差分切片能量图和Gabor变换的微表情识别方法 |
CN104637497A (zh) * | 2015-01-16 | 2015-05-20 | 南京工程学院 | 一种面向语音情感识别的语谱特征提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9020822B2 (en) * | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
-
2015
- 2015-07-28 CN CN201510450338.1A patent/CN105047194B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258204A (zh) * | 2012-02-21 | 2013-08-21 | 中国科学院心理研究所 | 一种基于Gabor和EOH特征的自动微表情识别方法 |
CN102592593A (zh) * | 2012-03-31 | 2012-07-18 | 山东大学 | 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 |
CN103617436A (zh) * | 2013-12-17 | 2014-03-05 | 山东大学 | 基于差分切片能量图和Gabor变换的微表情识别方法 |
CN104637497A (zh) * | 2015-01-16 | 2015-05-20 | 南京工程学院 | 一种面向语音情感识别的语谱特征提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105047194A (zh) | 2015-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105047194B (zh) | 一种用于语音情感识别的自学习语谱图特征提取方法 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
An et al. | Deep CNNs with self-attention for speaker identification | |
Lalitha et al. | Speech emotion recognition using DWT | |
Chang et al. | Learning representations of emotional speech with deep convolutional generative adversarial networks | |
WO2015180368A1 (zh) | 一种半监督语音特征可变因素分解方法 | |
CN109637545B (zh) | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 | |
Dennis | Sound event recognition in unstructured environments using spectrogram image processing | |
Shahzadi et al. | Speech emotion recognition using nonlinear dynamics features | |
Halkias et al. | Classification of mysticete sounds using machine learning techniques | |
Alshamsi et al. | Automated facial expression and speech emotion recognition app development on smart phones using cloud computing | |
CN110534133A (zh) | 一种语音情感识别系统及语音情感识别方法 | |
Zhang et al. | Speech emotion recognition using combination of features | |
CN103456302A (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
Zhang et al. | Multimodal Deception Detection Using Automatically Extracted Acoustic, Visual, and Lexical Features. | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN110033757A (zh) | 一种人声识别算法 | |
CN111128240B (zh) | 一种基于对抗语义擦除的语音情感识别方法 | |
CN110246509B (zh) | 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 | |
Mishra et al. | Gender differentiated convolutional neural networks for speech emotion recognition | |
Primekumar et al. | On-line Malayalam handwritten character recognition using wavelet transform and SFAM | |
Atkar et al. | Speech Emotion Recognition using Dialogue Emotion Decoder and CNN Classifier | |
Shekofteh et al. | MLP-based isolated phoneme classification using likelihood features extracted from reconstructed phase space | |
Wani et al. | Stride based convolutional neural network for speech emotion recognition | |
Angadi et al. | Hybrid deep network scheme for emotion recognition in speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |