CN112863517B - 基于感知谱收敛率的语音识别方法 - Google Patents

基于感知谱收敛率的语音识别方法 Download PDF

Info

Publication number
CN112863517B
CN112863517B CN202110071190.6A CN202110071190A CN112863517B CN 112863517 B CN112863517 B CN 112863517B CN 202110071190 A CN202110071190 A CN 202110071190A CN 112863517 B CN112863517 B CN 112863517B
Authority
CN
China
Prior art keywords
convergence rate
voice signal
filter
speech recognition
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110071190.6A
Other languages
English (en)
Other versions
CN112863517A (zh
Inventor
陶智
周长伟
吴迪
伍远博
范子琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202110071190.6A priority Critical patent/CN112863517B/zh
Publication of CN112863517A publication Critical patent/CN112863517A/zh
Application granted granted Critical
Publication of CN112863517B publication Critical patent/CN112863517B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本发明公开了一种基于感知谱收敛率的语音识别方法,包括以下步骤:对语音信号进行多频带划分,得到分频带语音信号;通过对分频带语音信号分帧、作傅里叶变换、计算频谱图的峰值之和和动态范围并进行非线性压缩得到语音信号的感知谱收敛率;将感知谱收敛率分为训练集和测试集,使用训练集训练分类器得到训练完成的分类器,将测试集输入训练完成的分类器进行语音识别。本发明通过多频带划分使语音信号具有听觉感知特性,通过直接对语音信号提取感知谱收敛率,保证实时性的同时克服了提取特征时依赖基音周期、无法度量高维混沌特性的问题,能够更加准确地表征语音信号的非线性特性,提高语音识别的准确率。

Description

基于感知谱收敛率的语音识别方法
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于感知谱收敛率的语音识别方法。
背景技术
随着人工智能与大数据的快速发展,语音识别技术取得显著的进步,逐步进入家电、医疗、汽车电子等各个领域。
语音的识别过程主要包括特征提取和分类器识别,而提取的语音的特征决定了分类器识别的上限。常用的特征参数主要有基频抖动(Jitter)、振幅微扰(Shimmer)、梅尔频率倒谱系数(MFCC)、最大李雅普诺夫指数、关联维和熵值特征等。基频抖动是指相邻周期间声波基频的变化率,反映声带振动周期间频率的差异,振幅微扰则是描述信号的峰峰值幅度的变化,都体现出声带振动的不规律性,进而表征不同语音间的差异(详见文献“LovatoA,Barillari M R,Giacomelli L,et al.Predicting the outcome ofunilateral vocal fold paralysis:a multivariate discriminating model includinggrade ofdysphonia,jitter,shimmer,and voice handicap index-10[J].Annals ofOtology,Rhinology&Laryngology,2019,128(5):447-452.”)。最大李雅普诺夫指数表示相空间相邻轨迹的平均指数发散率的数值特征,最大李雅普诺夫指数和关联维都是基于相空间重构的非线性特征,表示语音信号的混沌程度。熵值特征则是测量信号混乱度的非线性动力学参数,常见来度量语音信号不确定性的熵有样本熵、排列熵和小波熵等(详见文献“Travieso C M,Alonso J B,Orozco-Arroyave J R,et al.Detection ofdifferentvoice diseases based on the nonlinear characterization of speech signals[J].Expert Systems withApplications,2017,82:184-195.”)。
但是,基频抖动、振幅微扰特征的提取依赖于语音的基音周期提取,而对于非周期性、不规律的语音信号,提取其基音周期显然是不现实,并且无法准确提取。最大李雅普诺夫指数、关联维以及熵值特征仅能表征语音信号的低维混沌特性,并且计算复杂,较难应用到实际场景。
发明内容
本发明要解决的技术问题是提供一种采用特征参数感知谱收敛率来进行语音识别,不依赖于语音基音周期提取、降低计算复杂度的,并且同结合人耳听觉感知特性,增强语音的可懂度的基于感知谱收敛率的语音识别方法。
为解决上述技术问题,本发明提供了一种基于感知谱收敛率的语音识别方法,包括以下步骤:
对语音信号进行多频带划分,得到分频带的语音信号;
对分频带语音信号分帧,对每一频带的每一帧语音信号作傅里叶变换,计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围,结合频谱图的峰值之和和频谱图的动态范围进行非线性压缩得到语音信号的感知谱收敛率;
将感知谱收敛率分为训练集和测试集,使用训练集训练分类器得到训练完成的分类器,将测试集输入训练完成的分类器进行语音识别。
进一步地,所述对语音信号进行多频带划分,具体为使用Gammatone滤波器对语音信号进行多频带划分,得到多个频带的语音信号。
进一步地,所述使用Gammatone滤波器对语音信号进行多频带划分时,Gammatone滤波器采用等效矩形带宽的过滤方法,Gammatone滤波器的时域表达形式为:
gi(t)=at(n-1)e-2πBt cos(2πfit+φ)u(t),
其中t为时间变量,n为滤波器阶数,用于模拟人耳基底膜的滤波特性;Ф为滤波器初始相位,fi为第i通道滤波器的中心频率,a为Gammatone滤波器的幅度,B为与等效矩形带宽有关的参数。
进一步地,所述第i通道滤波器的中心频率fi为:
Figure BDA0002905836020000031
其中C为与品质因子和带宽有关的参数,fl和fh是滤波器的最低和最高频率,K为滤波器的个数;
所述与等效矩形带宽有关的参数B的计算公式为B=b1·ERB(fi),其中等效矩形带宽ERB(fi)的计算公式为ERB(fi)=24.7+0.108fi,b1为等效矩形带宽增益。
进一步地,所述对分频带语音信号分帧的方法为采用汉明窗对对分频带语音信号进行分帧,分帧公式为xi(n)=X(n)·gi(n)→yij(n),j=1,2,3…m,其中X(n)为原始语音信号,xi(n)为第i个频率通道的语音信号,yij(n)为第i个频率通道的第j帧的语音信号。
进一步地,所述傅里叶变换公式为
Figure BDA0002905836020000032
其中Si为第i个频率通道的功率谱,ω(n-k)为汉明窗函数,k为语音序列每个采样点的索引。
进一步地,所述第i个频率通道的功率谱Si的计算公式为
Figure BDA0002905836020000033
其中C11...Cmn为所有帧功率谱的幅度值。
进一步地,所述计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围中,频谱图的峰值之和Emaxi的计算公式为
Figure BDA0002905836020000034
其中C(j,k)为第j帧语音信号功率谱的第k个幅度值。
进一步地,所述计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围中,频谱图的动态范围为频谱图的峰值与谷值之差,频谱图的动态范围ΔEi的计算公式为
Figure BDA0002905836020000041
进一步地,所述结合频谱图的峰值之和和动态范围进行非线性压缩得到语音信号的感知谱收敛率,感知谱收敛率GTSL的计算公式为:
Figure BDA0002905836020000042
本发明的有益效果:
(1)本发明通过对语音信号进行多频带划分,使语音信号在表现语音特性时更细致,具有听觉感知特性,可以提高语音识别的准确率。
(2)本发明提出的特征参数感知谱收敛率,无需提取语音的基音周期,克服了传统非线性特征无法度量语音的高维混沌特性的问题,能够更加准确地表征语音信号的非线性特性,提高语音识别的准确率。
(3)本发明直接对输入的语音信号进行处理,计算简单、实时性高、反应速度快、抗干扰能力强,能满足实际应用场景的需求。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1是本发明的流程图。
图2是本发明中感知谱收敛率提取过程的示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
在本发明的描述中,需要理解的是,术语“包括”意图在于覆盖不排他的包含,例如包含了一系列步骤或单元的过程、方法、系统、产品或设备,没有限定于已列出的步骤或单元而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
本发明技术名词说明:
1、最大李雅普诺夫指数和关联维
最大李雅普诺夫指数和关联维(largest Lyapunov exponent and correlationdimension,LLE&D2)是语音识别的一种特征参数,提取步骤为:
(1)对于给定的语音信号,先选定较小的嵌入维数m0,重构相空间;
Figure BDA0002905836020000051
(2)计算关联维C(r)
Figure BDA0002905836020000052
其中
Figure BDA0002905836020000053
表示两相点之间的距离,θ(u)是Heaviside函数,
Figure BDA0002905836020000054
C(r)是一个累积分的函数,表示相空间中吸引子上两点之间距离小于r的概率。
(3)以初始相点x0为基点,在点集中选取一个与x0最近的点x1作为端点,构成初始向量,x0,x1间欧氏距离可记为L(t0)。时间步长或演化时间k,初始向量沿轨线向前演化得到一新向量,其相应点与端点间欧氏距离可记为L(t1),在相应时段内系统线度指数增长率记为:
Figure BDA0002905836020000055
(4)如此继续,直至所有相点,然后取各指数增长率的平均值为最大李雅普诺夫指数估计值:
Figure BDA0002905836020000061
2.梅尔频率倒谱系数
梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs),比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统,非线性表示可以在多个领域中使声音信号有更好的表示。梅尔频率倒谱系数的提取步骤为:
(1)将信号S(n)预加重后采用汉明窗进行加窗分帧,得到每帧信号xn(m),然后通过短时傅里叶变换得到其频谱Xn(k),随后求取频谱的平方,即能量谱Pn(k);
Pn(k)=|Xn(k)|2
(2)用M个Mel带通滤波器对Pn(k)进行滤波,由于每一个频带中分量的作用在人耳中是叠加的,因此将每个滤波器频带内的能量进行叠加;
Figure BDA0002905836020000062
其中,Hm(k)为Mel滤波器频域形式,Sn(m)是每个滤波器频带输出。
(3)将每个滤波器输出取对数功率谱并进行反离散余弦变换,得到L个MFCC系数;
Figure BDA0002905836020000063
(4)将得到的MFCC系数作为第n帧的特征参数,反映了语音信号的静态特征,如果加上人耳更为敏感的一阶差分系数,将得到更好的效果。一阶差分的计算公式如下:
Figure BDA0002905836020000071
其中L取2,表示当前帧前后各2帧的线性组合,反映了语音的动态特征。
参照图1本发明语音识别过程的流程图所示,本发明一种基于感知谱收敛率的语音识别方法的实施例,包括以下步骤:
步骤1:对语音信号进行多频带划分,得到分频带语音信号;多频带划分使语音信号在表现语音特性时更细致,同时具有听觉感知特性。
使用Gammatone滤波器对语音信号进行多频带划分,得到多个频率通道的语音信号。Gammatone滤波器为听觉仿生滤波器,可以使语音信号在表现语音特性时更细致,同时具有听觉感知特性。所述使用Gammatone滤波器对语音信号进行多频带划分时,Gammatone滤波器采用等效矩形带宽的过滤方法,Gammatone滤波器的时域表达形式为:
gi(t)=at(n-1)e-2πBtcos(2πfit+φ)u(t),
其中n为滤波器阶数,用于模拟人耳基底膜的滤波特性;Ф为滤波器初始相位,fi为第i通道滤波器的中心频率,B是与等效矩形带宽有关的参数,a为Gammatone滤波器的幅度。实施例中n取值4,Ф取值0,a取值1。
所述第i通道滤波器的中心频率fi为:
Figure BDA0002905836020000072
其中C为与品质因子和带宽有关的参数,fl和fh是滤波器的最低和最高频率,K为滤波器的个数;本实施例中C取值228.82,K取值24,使用24个频率通道的Gammatone滤波器对语音信号进行多频带划分后得到24频带的语音信号。
所述与等效矩形带宽有关的参数B的计算公式为B=b1·ERB(fi),其中等效矩形带宽ERB(fi)的计算公式为ERB(fi)=24.7+0.108fi。b1为等效矩形带宽增益,即Gammatone滤波器的带宽B是等效矩形带宽的b1倍。本实施例中b1取值1.019。
步骤2:参照图2本发明中感知谱收敛率特征参数提取过程的示意图所示,感知谱收敛率特征参数提取包括对分频带语音信号分帧,对每一频带的每一帧语音信号作傅里叶变换,计算傅里叶变换后所有帧的频谱图的峰值之和和动态范围,通过非线性压缩得到语音信号的感知谱收敛率。
步骤2-1:采用汉明窗对每一个频带的分频带语音信号进行分帧,分帧公式为xi(n)=X(n)·gi(n)→yij(n),j=1,2,3…m,其中X(n)为原始语音信号,xi(n)为第i个频率通道的语音信号,yij(n)为第i个频率通道的第j帧的语音信号。本实施例中帧长为0.024s,帧移为0.012s。
步骤2-2:对每一频带的每一帧语音信号作傅里叶变换,傅里叶变换公式为
Figure BDA0002905836020000081
其中Si为第i个频率通道的功率谱,ω(n-k)为汉明窗函数;k为语音序列每个采样点的索引,为一个变量。所述第i个频率通道的功率谱Si的计算公式为
Figure BDA0002905836020000082
其中C11...Cmn为所有帧功率谱的幅度值。C11…Cmn通过短时傅里叶变换以及功率谱定义得出,不同语音信号的得出值不同
步骤2-3:计算傅里叶变换后每一频带所有帧频谱图的峰值之和,峰值之和Emaxi的计算公式为
Figure BDA0002905836020000083
其中C(j,k)为第j帧语音信号功率谱的第k个幅度值。
步骤2-4:计算傅里叶变换后每一频带所有帧频谱图的动态范围,即频谱图的峰值与谷值之差,动态范围ΔEi的计算公式为
Figure BDA0002905836020000091
步骤2-5:结合帧频谱图的峰值之和和动态范围进行非线性压缩,得到感知谱收敛率。根据步骤2-3和步骤2-4中的频谱图的动态范围和峰值之和计算感知谱收敛率,计算公式为
Figure BDA0002905836020000092
步骤3:将感知谱收敛率分为训练集和测试集,使用训练集训练分类器得到训练完成的分类器,将测试集输入训练完成的分类器进行语音识别,得到语音识别结果。
为了进一步说明本发明的有益效果,本实施例中在多层感知器(MLP)、支持向量机(SVM)、随机森林(RF)三种分类器的情况下,分别使用本发明方法、最大李雅普诺夫指数和关联维(LLE&D2)、梅尔频率倒谱系数(MFCCs)对语音信号进行分类识别。从准确率和消耗时间两方面将本发明方法与最大李雅普诺夫指数和关联维、梅尔频率倒谱系数进行对比,具体实验结果如表1所示:
Figure BDA0002905836020000093
表1实验结果表
由表1可以看出,在多层感知器、支持向量机、随机森林三类分类器中,本发明方法的准确率均达到了99.64%及以上,准确率相较于最大李雅普诺夫指数和关联维、梅尔频率倒谱系数都有明显提高。同时,使用本发明方法进行语音识别时,时间消耗相较于最大李雅普诺夫指数和关联维、梅尔频率倒谱系数有明显减少,最少仅为0.01s。最大李雅普诺夫指数和关联维仅能表征语音信号的低维混沌特性并且计算复杂,通过将本发明与最大李雅普诺夫指数和关联维比较,可以看出本发明通过不依赖于语音基音周期提取、降低计算复杂度从而在提高语音识别的准确性和实时性上效果显著。梅尔频率倒谱系数在语音识别领域应用广泛且表现效果较好,通过将本发明与梅尔频率倒谱系数比较,可以看出本发明在提高语音识别的准确性和实时性的同时,相较于传统的方法性能又得到了进一步提高。由此可见,本发明提出的方法提高了分类器的准确性和实时性,进一步说明了本发明的有益效果。
以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

Claims (9)

1.一种基于感知谱收敛率的语音识别方法,其特征在于,包括以下步骤:
对语音信号进行多频带划分,得到分频带的语音信号;
对分频带语音信号分帧,对每一频带的每一帧语音信号作傅里叶变换,计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围,所述频谱图的动态范围为频谱图的峰值与谷值之差;结合频谱图的峰值之和和频谱图的动态范围进行非线性压缩得到语音信号的感知谱收敛率,所述感知谱收敛率GTSL的计算公式为:
Figure FDA0003923000660000011
将感知谱收敛率分为训练集和测试集,使用训练集训练分类器得到训练完成的分类器,将测试集输入训练完成的分类器进行语音识别。
2.根据权利要求1所述的基于感知谱收敛率的语音识别方法,其特征在于:所述对语音信号进行多频带划分,具体为使用Gammatone滤波器对语音信号进行多频带划分,得到多个频带的语音信号。
3.根据权利要求2所述的基于感知谱收敛率的语音识别方法,其特征在于:所述使用Gammatone滤波器对语音信号进行多频带划分时,Gammatone滤波器采用等效矩形带宽的过滤方法,Gammatone滤波器的时域表达形式为:
gi(t)=at(n-1)e-2πBtcos(2πfit+φ)u(t),
其中t为时间变量,Ф为滤波器初始相位,fi为第i通道滤波器的中心频率,a为Gammatone滤波器的幅度,B为与等效矩形带宽有关的参数;n为滤波器阶数,用于模拟人耳基底膜的滤波特性。
4.根据权利要求3所述的基于感知谱收敛率的语音识别方法,其特征在于:所述第i通道滤波器的中心频率fi为:
Figure FDA0003923000660000021
其中C为与品质因子和带宽有关的参数,fl和fh是滤波器的最低和最高频率,K为滤波器的个数;
所述与等效矩形带宽有关的参数B的计算公式为B=b1·ERB(fi),其中等效矩形带宽ERB(fi)的计算公式为ERB(fi)=24.7+0.108fi,b1为等效矩形带宽增益。
5.根据权利要求1所述的基于感知谱收敛率的语音识别方法,其特征在于:所述对分频带语音信号分帧的方法为采用汉明窗对对分频带语音信号进行分帧,分帧公式为xi(n)=X(n)·gi(n)→yij(n),j=1,2,3…m,其中X(n)为原始语音信号,xi(n)为第i个频率通道的语音信号,yij(n)为第i个频率通道的第j帧的语音信号。
6.根据权利要求1所述的基于感知谱收敛率的语音识别方法,其特征在于:所述傅里叶变换的公式为
Figure FDA0003923000660000022
其中Si为第i个频率通道的功率谱,ω(n-k)为汉明窗函数,k为语音序列每个采样点的索引。
7.根据权利要求6所述的基于感知谱收敛率的语音识别方法,其特征在于:所述第i个频率通道的功率谱Si的计算公式为
Figure FDA0003923000660000023
其中C11...Cmn为所有帧功率谱的幅度值。
8.根据权利要求1所述的基于感知谱收敛率的语音识别方法,其特征在于:所述计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围中,频谱图的峰值之和Emaxi的计算公式为
Figure FDA0003923000660000024
其中C(j,k)为第j帧语音信号功率谱的第k个幅度值。
9.根据权利要求1所述的基于感知谱收敛率的语音识别方法,其特征在于:所述计算傅里叶变换后所有帧的频谱图的峰值之和和频谱图的动态范围中,频谱图的动态范围ΔEi的计算公式为
Figure FDA0003923000660000031
其中C(j,k)为第j帧语音信号功率谱的第k个幅度值。
CN202110071190.6A 2021-01-19 2021-01-19 基于感知谱收敛率的语音识别方法 Active CN112863517B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110071190.6A CN112863517B (zh) 2021-01-19 2021-01-19 基于感知谱收敛率的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110071190.6A CN112863517B (zh) 2021-01-19 2021-01-19 基于感知谱收敛率的语音识别方法

Publications (2)

Publication Number Publication Date
CN112863517A CN112863517A (zh) 2021-05-28
CN112863517B true CN112863517B (zh) 2023-01-06

Family

ID=76007395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110071190.6A Active CN112863517B (zh) 2021-01-19 2021-01-19 基于感知谱收敛率的语音识别方法

Country Status (1)

Country Link
CN (1) CN112863517B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114999459A (zh) * 2022-05-05 2022-09-02 苏州大学 一种基于多尺度递归量化分析的语音识别方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
CN102479505A (zh) * 2010-11-30 2012-05-30 Jvc建伍株式会社 声音处理装置及声音处理方法
CN104091593A (zh) * 2014-04-29 2014-10-08 苏州大学 采用感知语谱结构边界参数的语音端点检测算法
CN105845127A (zh) * 2015-01-13 2016-08-10 阿里巴巴集团控股有限公司 语音识别方法及其系统
CN106571135A (zh) * 2016-10-27 2017-04-19 苏州大学 一种耳语音特征提取方法及系统
CN106653004A (zh) * 2016-12-26 2017-05-10 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN108847255A (zh) * 2018-09-29 2018-11-20 湖南商学院 一种利用情感感知谱特征进行语音情感识别的方法
US10796715B1 (en) * 2016-09-01 2020-10-06 Arizona Board Of Regents On Behalf Of Arizona State University Speech analysis algorithmic system and method for objective evaluation and/or disease detection

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103474066B (zh) * 2013-10-11 2016-01-06 福州大学 基于多频带信号重构的生态声音识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW521266B (en) * 2000-07-13 2003-02-21 Verbaltek Inc Perceptual phonetic feature speech recognition system and method
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
CN102479505A (zh) * 2010-11-30 2012-05-30 Jvc建伍株式会社 声音处理装置及声音处理方法
CN104091593A (zh) * 2014-04-29 2014-10-08 苏州大学 采用感知语谱结构边界参数的语音端点检测算法
CN105845127A (zh) * 2015-01-13 2016-08-10 阿里巴巴集团控股有限公司 语音识别方法及其系统
US10796715B1 (en) * 2016-09-01 2020-10-06 Arizona Board Of Regents On Behalf Of Arizona State University Speech analysis algorithmic system and method for objective evaluation and/or disease detection
CN106571135A (zh) * 2016-10-27 2017-04-19 苏州大学 一种耳语音特征提取方法及系统
CN106653004A (zh) * 2016-12-26 2017-05-10 苏州大学 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法
CN108847255A (zh) * 2018-09-29 2018-11-20 湖南商学院 一种利用情感感知谱特征进行语音情感识别的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Auditory Inspired Convolutional Neural Networks for Ship Type Classificatition with Raw Hydrophone Data;ShengShen,等;《MDPI》;20181231;第1-14页 *
一种基于听觉特性的语音失真测度方法;陈国等;《声学学报(中文版)》;20000910(第05期);第463-467页 *

Also Published As

Publication number Publication date
CN112863517A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
US6691090B1 (en) Speech recognition system including dimensionality reduction of baseband frequency signals
CN102982801B (zh) 一种用于鲁棒语音识别的语音特征提取方法
Ganapathy et al. Robust feature extraction using modulation filtering of autoregressive models
CN108198545B (zh) 一种基于小波变换的语音识别方法
CN109256127B (zh) 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
CN111785285A (zh) 面向家居多特征参数融合的声纹识别方法
CN112786059A (zh) 一种基于人工智能的声纹特征提取方法及装置
US6701291B2 (en) Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis
Nossier et al. Mapping and masking targets comparison using different deep learning based speech enhancement architectures
CN112863517B (zh) 基于感知谱收敛率的语音识别方法
Hasan et al. Preprocessing of continuous bengali speech for feature extraction
Chu et al. A noise-robust FFT-based auditory spectrum with application in audio classification
Wang et al. Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities
Wickramasinghe et al. Auditory inspired spatial differentiation for replay spoofing attack detection
CN111968651A (zh) 一种基于wt的声纹识别方法及系统
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
CN113948088A (zh) 基于波形模拟的语音识别方法及装置
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Rahali et al. Robust Features for Speech Recognition using Temporal Filtering Technique in the Presence of Impulsive Noise
CN110610724A (zh) 基于非均匀子带分离方差的语音端点检测方法及装置
Singh et al. A novel algorithm using MFCC and ERB gammatone filters in speech recognition
Flynn et al. A comparative study of auditory-based front-ends for robust speech recognition using the Aurora 2 database
Wu et al. Robust underwater target recognition using auditory cepstral coefficients

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant