CN104637497A - 一种面向语音情感识别的语谱特征提取方法 - Google Patents

一种面向语音情感识别的语谱特征提取方法 Download PDF

Info

Publication number
CN104637497A
CN104637497A CN201510020519.0A CN201510020519A CN104637497A CN 104637497 A CN104637497 A CN 104637497A CN 201510020519 A CN201510020519 A CN 201510020519A CN 104637497 A CN104637497 A CN 104637497A
Authority
CN
China
Prior art keywords
exploded view
yardstick
characteristic
speech
view picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510020519.0A
Other languages
English (en)
Inventor
梁瑞宇
冯月芹
唐闺臣
王青云
花涛
包永强
陈姝
顾保府
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN201510020519.0A priority Critical patent/CN104637497A/zh
Publication of CN104637497A publication Critical patent/CN104637497A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种面向语音情感识别的语谱特征提取方法,步骤一,对语音信号分帧,并进行快速傅里叶变换得到对应的语谱图;步骤二,对语谱图进行分解;步骤三,对分解图像进行中央周边差运算并归一化,得到每幅分解图的特征图;步骤四,提取每幅特征图的特征矩阵;步骤五,特征矩阵降维并重构。本发明从分析语音语谱特征的角度,综合运用图像处理的一些方法,从创新的角度挖掘情感识别的特征,采用多尺度多通道的滤波器对语谱图进行分解,在不同的特征域进行处理,并结合PCA分析,更好的挖掘对语音情感有益的信息。

Description

一种面向语音情感识别的语谱特征提取方法
技术领域
本发明涉及一种面向语音情感识别的语谱特征提取方法,属于语音情感识别技术领域。
背景技术
随着人机交互技术的发展需求,语音情感识别已成为关键技术之一。为了使人机交互系统和机器人的对话系统更加智能和完善,语音的情感分析变得越来越重要。此外,在一些长时间的、单调的、高强度的任务(如航天、航海等)中,相关人员常产生某些负面的情绪。有效的识别这些负面情绪,有助于提高个体认知和工作效率,防患于未然。面向儿童的早期情感分析,也逐渐成为语音情感识别的一个重要研究方向。因此,语音情感识别算法仍然具有重要的应用研究价值。
在语音情感识别的实用性研究方面,很多学者做了很多有益的尝试,获得不少有价值的成果。在提高算法鲁棒性研究方面,有学者提出了一些抗噪性能较好的情感识别算法。在语音情感识别模型研究方面,许多基于不同方法的识别模型被提出,比如加权稀疏识别模型、说话人无关的识别模型、基于词法语义的识别模型等等。鉴于特征参数的选取与构造对情感识别性能的影响较大,许多学者都对情感特征进行了细致的分析和研究,并提出多种语音情感特征的构造方式。上述研究虽然获得了一定的研究成果,但是语音情感特征的选择与构建仍然没有定论,需要进一步的研究。
语音情感识别的常用特征大致可归纳为韵律学特征、谱特征和音质特征这 三种类型。目前这三类语音特征不是时域特征,就是频域特征,缺少针对时频特征对于语音情感识别影响的研究。语谱图作为一种语音能量的时频分布的可视化表达方式,本身就包含了一些语音特征,如能量,共振峰,基频,音调等。因此国内外学者针对语谱图进行了相关研究,突破目前语音信号处理的时频特征的单一性。基于语谱的研究主要包括声分类、声音识别、声音增强等,但是尚没有基于语谱特征的语音情感识别的算法研究。
发明内容
为了解决上述技术问题,本发明提供了一种面向语音情感识别的语谱特征提取方法。
为了达到上述目的,本发明所采用的技术方案是:
一种面向语音情感识别的语谱特征提取方法,包括以下步骤,
步骤一,对语音信号分帧,并进行快速傅里叶变换得到对应的语谱图;
步骤二,对语谱图进行分解
将图像与线性分解高斯核进行卷积运算,在不同的尺度上进行不同通道的分解,得到多通道多尺度的分解图像;所述通道包括颜色通道、亮度通道和方向通道;
步骤三,对分解图像进行中央周边差运算并归一化,得到每幅分解图的特征图;
步骤四,提取每幅特征图的特征矩阵
将特征图分成m行n列,共m×n个子区域,用每个子区域的均值替代该子区域,将特征图归一化为m×n的特征矩阵;
步骤五,特征矩阵降维并重构
将每幅特征图对应的特征矩阵重塑为1×mn的特征向量,并由这些特征向量构成特征向量矩阵,通过对特征向量做主成分分析并保留其99%的主元,得到主特征向量矩阵。
同一通道不同尺度上的分解图像之间的关系为P(σ)=P(σ-1)/2,其中,P(σ)表示尺度σ上的分解图像,P(1)表示原图像。
颜色通道分解,图像被分解成两组分解图像,分别为PR-G(σ)和PB-Y(σ),
PR-G(σ)=(r-g)/max(r,g,b)
PB-Y(σ)=(b-min(r,g))/max(r,g,b)
其中,PR-G(σ)和PB-Y(σ)分别表示R-G和B-Y颜色对在尺度σ上的分解图像,r、g、b分别表示一幅彩色图像中红、绿、蓝分量值,min(·)表示取最小值,max(·)表示取最大值;
亮度通道分解,分解图像为PI(σ),PI(σ)=(r+g+b)/3,表示在尺度σ上的亮度通道分解图像用r、g和b分量的平均值表示,I代表亮度通道;
方向通道分解,分解图像通过二维Gabor方向滤波器来提取,将滤波器与相应尺度的图像进行卷积得到方向通道上的分解图像Pθ(σ),
Pθ(σ)=|PI(σ)×G0(θ)|+|PI(σ)×Gπ/2(θ)|
其中,G0(θ)和Gπ/2(θ)为Gabor方向滤波器,其中0和π/2代表相位,θ代表角度。
得到每幅分解图的特征图的过程为,将中央尺度与周边尺度的分解图进行跨尺度点对点相减,然后归一化得到特征图FPi
FPi=N(|Pec)-Pes)|),i∈[1,l]
其中,e∈{R-G,B-Y,I,θ},σc表示中央尺度,σs表示周边尺度,σs=σc+d,Pec)表示在尺度σc上的e所代表通道的分解图像,Pes)表示在尺度σs上的e所代表通道的分解图像,d代表中央尺度和周边尺度的差值,N代表归一化操作,l为特征图的个数,l等于e的长度乘以σc的长度,再乘以σs的长度。
所述θ={0°,45°,90°,135°},σc={2,3},d={2}。
特征矩阵的数学表示为,
FD i ( p , q ) = mn vh Σ g = pv n ( p + 1 ) v n - 1 Σ f = qh m ( q + 1 ) h m - 1 FP i ( g , f )
其中,p∈[0,n-1],q∈[0,m-1],FDi表示特征图对应的特征矩阵,i∈[1,l],l为特征图的个数,v代表特征图的宽度,h代表特征图的高度。
所述m取值为4,n取值为5。
本发明所达到的有益效果:1、本发明从分析语音语谱特征的角度,综合运用图像处理的一些方法,从创新的角度挖掘情感识别的特征,采用多尺度多通道的滤波器对语谱图进行分解,在不同的特征域进行处理,并结合PCA分析,更好的挖掘对语音情感有益的信息;2、本发明一方面可以提高各语音情感之间 的区分性,对语音情感的分类提供更有效的特征,另一方面可以降低语音情感内部的差异性,减少语音情感识别的错误率。
附图说明
图1为本发明的流程图。
图2为采用本发明的语音识别流程图。
图3为本发明与现有方法的对比图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
如图1所示,一种面向语音情感识别的语谱特征提取方法,包括以下步骤:
步骤一,对语音信号分帧,并进行快速傅里叶变换得到对应的语谱图。
步骤二,对语谱图进行分解
将图像与线性分解高斯核进行卷积运算,在不同的尺度上进行不同通道的分解,得到多通道多尺度的分解图像;这里的通道包括颜色通道、亮度通道和方向通道。
同一通道不同尺度上的分解图像之间的关系为P(σ)=P(σ-1)/2,其中,P(σ)表示尺度σ上的分解图像,P(1)表示原图像。
(1)颜色通道分解 
图像被分解成两组分解图像,分别为PR-G(σ)和PB-Y(σ),
PR-G(σ)=(r-g)/max(r,g,b)
PB-Y(σ)=(b-min(r,g))/max(r,g,b)
其中,PR-G(σ)和PB-Y(σ)分别表示R-G和B-Y颜色对在尺度σ 上的分解图像,r、g、b分别表示一幅彩色图像中红、绿、蓝分量值,min(·)表示取最小值,max(·)表示取最大值。
(2)亮度通道分解 
分解图像为PI(σ),PI(σ)=(r+g+b)/3,表示在尺度σ上的亮度通道分解图像用r、g和b分量的平均值表示,I代表亮度通道。
(3)方向通道分解 
分解图像通过二维Gabor方向滤波器来提取,将滤波器与相应尺度的图像进行卷积得到方向通道上的分解图像Pθ(σ),
Pθ(σ)=|PI(σ)×G0(θ)|+|PI(σ)×Gπ/2(θ)|
其中,G0(θ)和Gπ/2(θ)为Gabor方向滤波器,其中0和π/2代表相位,θ代表角度,θ={0°,45°,90°,135°}。
步骤三,对分解图像进行中央周边差运算并归一化,得到每幅分解图的特征图。
获得特征图过程为:将中央尺度与周边尺度的分解图进行跨尺度点对点相减,然后归一化得到特征图FPi
FPi=N(|Pec)-Pes)|),i∈[1,l]
其中,e∈{R-G,B-Y,I,0°,45°,90°,135°},分别表示颜色通道、亮度通道和方向通道(共7个,2个颜色通道,1个亮度通道,4个方向通道),Pec)表示在尺度σc上的e所代表通道的分解图像, Pes)表示在尺度σs上的e所代表通道的分解图像,σc表示中央尺度,σc={2,3},σs表示周边尺度,σs=σc+d,d代表中央尺度和周边尺度的差值,N代表归一化操作,l为特征图的个数,l等于e的长度乘以σc的长度,再乘以σs的长度。7个通道,4个尺度,因此获得的特征图有28个。
步骤四,提取每幅特征图的特征矩阵
将特征图分成m行n列,共m×n个子区域,用每个子区域的均值替代该子区域,将特征图归一化为m×n的特征矩阵;这里m取值为4,n取值为5。
特征矩阵的数学表示为,
FD i ( p , q ) = mn vh Σ g = pv n ( p + 1 ) v n - 1 Σ f = qh m ( q + 1 ) h m - 1 FP i ( g , f )
其中,p∈[0,n-1],q∈[0,m-1],FDi表示特征图对应的特征矩阵,i∈[1,l],l为特征图的个数,v代表特征图的宽度,h代表特征图的高度。
步骤五,特征矩阵降维并重构
将每幅特征图对应的特征矩阵重塑为1×mn的特征向量,并由这些特征向量构成特征向量矩阵,通过对特征向量做主成分分析并保留其99%的主元,得到主特征向量矩阵。
如图2所示,将本发明运用到语音识别中,该语音识别的主要步骤包括:1)选择语音情感库,将样本分为训练样本和测试样本两个部分;2)对样本进行特征提取和降维操作,此处选取的特征是本发明提取的语谱特征;3)基于改进的蛙跳算法(Im-SFLA)配置支撑向量机(SVM)参数并使用训练样本进行训练;4)进行情感识别并输出识别结果。
为了进一步说明本发明,将本发明与传统特征的语音情感识别算法进行对比,本发明所选用的特征包括音质特征、韵律特征和混沌特征,一共144维,并结合PCA分析,选取13维特征向量作为主特征;传统特征的语音情感识别算法采用基于改进蛙跳算法的支撑向量机算法。试验结果如图3所示,如图可知,采用本发明总体效果良好,平均识别率为78.44%,相比于传统特征识别率提高大约10%;而且针对唤醒度较为接近的高兴和愤怒情感的识别率有明显的改善。
综上所述,本发明从分析语音语谱特征的角度,综合运用图像处理的一些方法,从创新的角度挖掘情感识别的特征,采用多尺度多通道的滤波器对语谱图进行分解,在不同的特征域进行处理,并结合PCA分析,更好的挖掘对语音情感有益的信息,一方面可以提高各语音情感之间的区分性,对语音情感的分类提供更有效的特征,另一方面可以降低语音情感内部的差异性,减少语音情感识别的错误率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (7)

1.一种面向语音情感识别的语谱特征提取方法,其特征在于:包括以下步骤,
步骤一,对语音信号分帧,并进行快速傅里叶变换得到对应的语谱图;
步骤二,对语谱图进行分解
将图像与线性分解高斯核进行卷积运算,在不同的尺度上进行不同通道的分解,得到多通道多尺度的分解图像;所述通道包括颜色通道、亮度通道和方向通道;
步骤三,对分解图像进行中央周边差运算并归一化,得到每幅分解图的特征图;
步骤四,提取每幅特征图的特征矩阵
将特征图分成m行n列,共m×n个子区域,用每个子区域的均值替代该子区域,将特征图归一化为m×n的特征矩阵;
步骤五,特征矩阵降维并重构
将每幅特征图对应的特征矩阵重塑为1×mn的特征向量,并由这些特征向量构成特征向量矩阵,通过对特征向量做主成分分析并保留其99%的主元,得到主特征向量矩阵。
2.根据权利要求1所述的一种面向语音情感识别的语谱特征提取方法,其特征在于:同一通道不同尺度上的分解图像之间的关系为P(σ)=P(σ-1)/2,其中,P(σ)表示尺度σ上的分解图像,P(1)表示原图像。
3.根据权利要求1所述的一种面向语音情感识别的语谱特征提取方法,其 特征在于:颜色通道分解,图像被分解成两组分解图像,分别为PR-G(σ)和PB-Y(σ),
PR-G(σ)=(r-g)/max(r,g,b)
PB-Y(σ)=(b-min(r,g))/max(r,g,b)
其中,PR-G(σ)和PB-Y(σ)分别表示R-G和B-Y颜色对在尺度σ上的分解图像,r、g、b分别表示一幅彩色图像中红、绿、蓝分量值,min(·)表示取最小值,max(·)表示取最大值;
亮度通道分解,分解图像为PI(σ),PI(σ)=(r+g+b)/3,表示在尺度σ上的亮度通道分解图像用r、g和b分量的平均值表示,I代表亮度通道;
方向通道分解,分解图像通过二维Gabor方向滤波器来提取,将滤波器与相应尺度的图像进行卷积得到方向通道上的分解图像Pθ(σ),
Pθ(σ)=|PI(σ)×G0(θ)|+|PI(σ)×Gπ/2(θ)|
其中,G0(θ)和Gπ/2(θ)为Gabor方向滤波器,其中0和π/2代表相位,θ代表角度。
4.根据权利要求3所述的一种面向语音情感识别的语谱特征提取方法,其特征在于:得到每幅分解图的特征图的过程为,将中央尺度与周边尺度的分解图进行跨尺度点对点相减,然后归一化得到特征图FPi
FPi=N(|Pec)-Pes)|),i∈[1,l]
其中,e∈{R-G,B-Y,I,θ},σc表示中央尺度,σs表 示周边尺度,σs=σc+d,Pec)表示在尺度σc上的e所代表通道的分解图像,Pes)表示在尺度σs上的e所代表通道的分解图像,d代表中央尺度和周边尺度的差值,N代表归一化操作,l为特征图的个数,l等于e的长度乘以σc的长度,再乘以σs的长度。
5.根据权利要求4所述的一种面向语音情感识别的语谱特征提取方法,其特征在于:所述θ={0°,45°,90°,135°},σc={2,3},d={2}。
6.根据权利要求4所述的一种面向语音情感识别的语谱特征提取方法,其特征在于:特征矩阵的数学表示为,
其中,p∈[0,n-1],q∈[0,m-1],FDi表示特征图对应的特征矩阵,i∈[1,l],l为特征图的个数,v代表特征图的宽度,h代表特征图的高度。
7.根据权利要求6所述的一种面向语音情感识别的语谱特征提取方法,其特征在于:所述m取值为4,n取值为5。
CN201510020519.0A 2015-01-16 2015-01-16 一种面向语音情感识别的语谱特征提取方法 Pending CN104637497A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510020519.0A CN104637497A (zh) 2015-01-16 2015-01-16 一种面向语音情感识别的语谱特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510020519.0A CN104637497A (zh) 2015-01-16 2015-01-16 一种面向语音情感识别的语谱特征提取方法

Publications (1)

Publication Number Publication Date
CN104637497A true CN104637497A (zh) 2015-05-20

Family

ID=53216161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510020519.0A Pending CN104637497A (zh) 2015-01-16 2015-01-16 一种面向语音情感识别的语谱特征提取方法

Country Status (1)

Country Link
CN (1) CN104637497A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105047194A (zh) * 2015-07-28 2015-11-11 东南大学 一种用于语音情感识别的自学习语谱图特征提取方法
CN105676814A (zh) * 2016-01-11 2016-06-15 大唐环境产业集团股份有限公司 基于sfla-svm的数字化水岛在线加药控制方法
CN106653004A (zh) * 2016-12-26 2017-05-10 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN107103913A (zh) * 2017-04-28 2017-08-29 西北大学 一种基于功率谱Gabor特征序列递归模型的语音识别方法
CN107358946A (zh) * 2017-06-08 2017-11-17 南京邮电大学 基于切片卷积的语音情感识别方法
CN107564543A (zh) * 2017-09-13 2018-01-09 苏州大学 一种高情感区分度的语音特征提取方法
CN108053842A (zh) * 2017-12-13 2018-05-18 电子科技大学 基于图像识别的短波语音端点检测方法
CN108303624A (zh) * 2018-01-31 2018-07-20 舒天才 一种基于声音信号分析的开关柜局部放电检测方法
CN109087628A (zh) * 2018-08-21 2018-12-25 广东工业大学 一种基于轨迹的时间-空间光谱特征的语音情感识别方法
CN109448707A (zh) * 2018-12-18 2019-03-08 北京嘉楠捷思信息技术有限公司 一种语音识别方法及装置、设备、介质
CN110033460A (zh) * 2019-04-03 2019-07-19 中国科学院地理科学与资源研究所 一种基于尺度空间变换的卫星影像中海上养殖区提取方法
CN111128131A (zh) * 2019-12-17 2020-05-08 北京声智科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN111883178A (zh) * 2020-07-17 2020-11-03 渤海大学 一种基于双通道语音转图像式情感识别方法
CN113362857A (zh) * 2021-06-15 2021-09-07 厦门大学 一种基于CapCNN的实时语音情感识别方法及应用装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727905A (zh) * 2009-11-27 2010-06-09 江南大学 一种得到具有精细时频结构的声纹图的方法
CN102044254A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种用于语音可视化的语谱图彩色增强方法
CN201910239U (zh) * 2010-12-21 2011-07-27 西北师范大学 一种基于fpga的语谱分析系统
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102044254A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种用于语音可视化的语谱图彩色增强方法
CN101727905A (zh) * 2009-11-27 2010-06-09 江南大学 一种得到具有精细时频结构的声纹图的方法
CN201910239U (zh) * 2010-12-21 2011-07-27 西北师范大学 一种基于fpga的语谱分析系统
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
ALEIX M.MARTINEZ ET AL: ""PCA Versus LDA"", 《IEEE TRANSACTION ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
CHIH-WEI ET AL: ""A comparison of methods for multiclass support vector machines"", 《IEEE TRANSACTION ON NEURAL NETWORK》 *
KYLE P .WALSH ET AL: ""Selective attention reduces physiological noise in the external ear canals of humans. II: Visual attention"", 《ELSEVIER HEARING RESEARCH》 *
LAURENT ITTI ET AL: ""A model of saliency-based Visual attention for Rapid scene analysis"", 《IEEE TRANSACTION PATTERN ANALYSIS》 *
OZLEM KALINLI ET AL: ""Prominence Detection Using Auditory Attention Cues and Task-Dependent High Level Information"", 《IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》 *
刘尚旺: ""基于改进选择性视觉注意模型的语义图像分割研究"", 《中国博士学位论文全文数据信息科技辑》 *
孙红英 等: ""语谱分析的FPGA实现"", 《电子与信息学报》 *
宋雁斓: ""视觉注意模型及其在图像分类中的应用"", 《中国优秀硕士学位论文全文数据信息科技辑》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105047194B (zh) * 2015-07-28 2018-08-28 东南大学 一种用于语音情感识别的自学习语谱图特征提取方法
CN105047194A (zh) * 2015-07-28 2015-11-11 东南大学 一种用于语音情感识别的自学习语谱图特征提取方法
CN105676814A (zh) * 2016-01-11 2016-06-15 大唐环境产业集团股份有限公司 基于sfla-svm的数字化水岛在线加药控制方法
CN105676814B (zh) * 2016-01-11 2017-12-29 大唐环境产业集团股份有限公司 基于sfla‑svm的数字化水岛在线加药控制方法
CN106653004A (zh) * 2016-12-26 2017-05-10 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN106653004B (zh) * 2016-12-26 2019-07-26 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN107103913A (zh) * 2017-04-28 2017-08-29 西北大学 一种基于功率谱Gabor特征序列递归模型的语音识别方法
CN107103913B (zh) * 2017-04-28 2020-02-04 西北大学 一种基于功率谱Gabor特征序列递归模型的语音识别方法
CN107358946A (zh) * 2017-06-08 2017-11-17 南京邮电大学 基于切片卷积的语音情感识别方法
CN107358946B (zh) * 2017-06-08 2020-11-13 南京邮电大学 基于切片卷积的语音情感识别方法
CN107564543A (zh) * 2017-09-13 2018-01-09 苏州大学 一种高情感区分度的语音特征提取方法
CN107564543B (zh) * 2017-09-13 2020-06-26 苏州大学 一种高情感区分度的语音特征提取方法
CN108053842A (zh) * 2017-12-13 2018-05-18 电子科技大学 基于图像识别的短波语音端点检测方法
CN108053842B (zh) * 2017-12-13 2021-09-14 电子科技大学 基于图像识别的短波语音端点检测方法
CN108303624A (zh) * 2018-01-31 2018-07-20 舒天才 一种基于声音信号分析的开关柜局部放电检测方法
CN109087628A (zh) * 2018-08-21 2018-12-25 广东工业大学 一种基于轨迹的时间-空间光谱特征的语音情感识别方法
CN109448707A (zh) * 2018-12-18 2019-03-08 北京嘉楠捷思信息技术有限公司 一种语音识别方法及装置、设备、介质
CN110033460A (zh) * 2019-04-03 2019-07-19 中国科学院地理科学与资源研究所 一种基于尺度空间变换的卫星影像中海上养殖区提取方法
CN110033460B (zh) * 2019-04-03 2021-02-19 中国科学院地理科学与资源研究所 一种基于尺度空间变换的卫星影像中海上养殖区提取方法
CN111128131A (zh) * 2019-12-17 2020-05-08 北京声智科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN111128131B (zh) * 2019-12-17 2022-07-01 北京声智科技有限公司 语音识别方法、装置、电子设备及计算机可读存储介质
CN111883178A (zh) * 2020-07-17 2020-11-03 渤海大学 一种基于双通道语音转图像式情感识别方法
CN113362857A (zh) * 2021-06-15 2021-09-07 厦门大学 一种基于CapCNN的实时语音情感识别方法及应用装置

Similar Documents

Publication Publication Date Title
CN104637497A (zh) 一种面向语音情感识别的语谱特征提取方法
Harwath et al. Jointly discovering visual objects and spoken words from raw sensory input
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN104463195B (zh) 基于模板匹配的印刷体数字识别方法
EP1881489B1 (en) Mixed audio separation apparatus
CN110808033B (zh) 一种基于双重数据增强策略的音频分类方法
CN105488466B (zh) 一种深层神经网络和水声目标声纹特征提取方法
CN106782565A (zh) 一种声纹特征识别方法及系统
CN102799892B (zh) 一种mfcc水下目标特征提取和识别方法
CN109215680B (zh) 一种基于卷积神经网络的语音还原方法
CN103871426A (zh) 对比用户音频与原唱音频相似度的方法及其系统
EP3501026B1 (en) Blind source separation using similarity measure
CN108091345B (zh) 一种基于支持向量机的双耳语音分离方法
CN108520756B (zh) 一种说话人语音分离的方法及装置
Kim et al. Single channel source separation using smooth nonnegative matrix factorization with Markov random fields
CN108364637B (zh) 一种音频句子边界检测方法
CN107103913B (zh) 一种基于功率谱Gabor特征序列递归模型的语音识别方法
Somervuo Time–frequency warping of spectrograms applied to bird sound analyses
CN107564530A (zh) 一种基于声纹能量特征的无人机检测方法
Do et al. Speech Separation in the Frequency Domain with Autoencoder.
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Zhang et al. Depthwise separable convolutions for short utterance speaker identification
Kitamura et al. Robust music signal separation based on supervised nonnegative matrix factorization with prevention of basis sharing
Suresh et al. Computer-aided interpreter for hearing and speech impaired

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150520

RJ01 Rejection of invention patent application after publication