CN106898362A - 基于核主成分分析改进Mel滤波器的语音特征提取方法 - Google Patents

基于核主成分分析改进Mel滤波器的语音特征提取方法 Download PDF

Info

Publication number
CN106898362A
CN106898362A CN201710100827.3A CN201710100827A CN106898362A CN 106898362 A CN106898362 A CN 106898362A CN 201710100827 A CN201710100827 A CN 201710100827A CN 106898362 A CN106898362 A CN 106898362A
Authority
CN
China
Prior art keywords
component analysis
principle component
cepstrum coefficient
gfcc
core principle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710100827.3A
Other languages
English (en)
Other versions
CN106898362B (zh
Inventor
张毅
倪雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201710100827.3A priority Critical patent/CN106898362B/zh
Publication of CN106898362A publication Critical patent/CN106898362A/zh
Application granted granted Critical
Publication of CN106898362B publication Critical patent/CN106898362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于核主成分分析改进Mel滤波器的语音特征提取方法包括步骤:S1,对初始输入语音信号数字化采样、预加重和分帧加窗等处理得到预处理后的语音信号;S2,根据伽马通滤波器特性计算处理后语音信号的伽马通滤波倒谱系数特征;S3,提取伽马通滤波倒谱系数的滑动差分;S4,计算预处理语音信号的基音频率;S5,根据融合公式对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合;S6,根据核主成分分析对数据融合后语音特征转换降维。本发明可获得更具鲁棒性的特征参数。

Description

基于核主成分分析改进Mel滤波器的语音特征提取方法
技术领域
本发明涉及语音信号处理领域,特别是一种改进Mel滤波器的语音特征提取方法。
背景技术
语音信号的特征提取是对输入语音信号在其含有背景噪声的情况下,提取能够有效表征语音信号的特征参数。它解决了环境噪声恶化情形下语音识别系统的识别性能急剧下降的问题。
在对特征参数选择的问题上,目前主流的研究热点是共振峰频率、线性预测系数(LPC)、线谱对(LSP)、线性预测倒谱系数(LPCC)、基于人耳听觉特性的梅尔倒谱系数(MFCC)、伽马通滤波倒谱系数(GFCC)。在信噪比较高情形时基于MFCC的语音识别结果会受到严重影响,识别率急剧地下降,而GFCC是基于声道模型的特征向量,相比MFCC对于环境噪声的鲁棒性更强。标准的GFCC只反映了语音参数的静态特性,而人耳对语音的动态特性更高敏感,二次特征提取就是对原始的GFCC进行分析处理。运用滑动差分方法,进一步得到隐藏在语音特征背后的特征信息。
基音频率是语音识别系统中最重要的判别依据,反映了语音信号的浊音发声时声带振动的频率,能够有效区分语音信息与噪声信号。基于单一特征的识别率往往受其他因素影响恶劣,因此融合GFCC和基音频率两种特征参数作为语音特征,两种参数体现了不同的语音特性,GFCC利用了人耳听觉的非线性特性,更具有鲁棒性;基音频率体现了不同信号声学特征。
自适应融合特征后的语音信号存在两个问题:一是特征矩阵过大,存在降维计算需要;二是信息之间存在冗余,不利于后续处理。因此利用核主成分分析方法对融合特征数据进行转换降维,降低了计算复杂度,提高了识别的实时性。将核函数和主成分分析两种方法进行结合,通过非线性映射实现输入空间到特征空间的转换,求取其协方差矩阵C及其特征值和特征向量,最后进行主成分抽取。
发明内容
本发明旨在解决现有方法中存在的特征参数鲁棒性低问题,特别提出了一种基于核主成分分析改进Mel滤波器的语音特征提取方法。
为了实现本发明的上述目的,本发明提供了一种基于核主成分分析改进Mel滤波器的语音特征提取方法,包括以下步骤:
S1对初始输入语音信号进行数字化采样、预加重和得到预处理语音信号。
S2根据伽马通滤波器计算预处理语音信号的伽马通滤波倒谱系数。
S3对伽马通滤波倒谱系数进行滑动差分处理。
S4根据自相关函数对预处理语音信号进行基音频率提取。
S5根据融合公式对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合。
S6根据核主成分分析对特征数据融合后的语音特征进行降维处理。
上述方法中预加重的传递函数为:
H(z)=1-a*z-1
其中,a是预加重的系数,在通常情况下,a的值为0.95时处理的语音信号效果较好;H(z)表示传递函数,z表示函数变量。
所述分帧加窗处理中采用的加窗函数为:
w(n)表示窗函数,L表示窗函数的长度。
所述伽马通滤波倒谱系数通过对伽马通滤波系数取对数和离散余弦变换处理得到;其中离散余弦变换的计算公式为:
X(k)表示离散余弦变换归一函数,x(n)表示一维语音信号序列,N表示信号序列范围。
伽马通滤波器的时域脉冲响应为:
其中:A为输出增益,M为滤波器阶数,fc是中心频率,是相位,ERB(fc)为等效矩形带宽,t为时间。
所述滑动差分处理如下:
△C(t)=C(t+d)-C(t-d)=[△c0(t),△c1(t),…,△cN-1(t)]
△C(t+p)=C(t+p+d)-C(t+p-d)
△C[t+(k-1)p]=C[t+(k-1)p+d]-C[t+(k-1)p-d]
将t时刻,t+p时刻一直到t+(k-1)p时刻的一阶差分倒谱系数顺序相连,即为当前帧的滑动差分特征向量:
△GFCC(t)=[△C(t),△C(t+p),…,△C(t+(k-1)p)]
上式中△C(t)表示第t帧语音的一阶差分倒谱系数;△cN-1(t)表示第t帧语音的第N-1个倒谱系数;C(t+d)表示第t+d帧语音的GFCC系数;C(t-d)表示第t-d帧语音的GFCC系数;△C(t+p)表示第t+p帧语音的一阶差分倒谱系数;C(t+p+d)表示第t+p+d帧语音的GFCC系数;C(t+p-d)表示第t+p-d帧语音的GFCC系数;△C[t+(k-1)p]表示第t+(k-1)p帧语音的一阶差分倒谱系数;C[t+(k-1)p+d]表示第t+(k-1)p+d帧语音的GFCC系数;C[t+(k-1)p-d]表示第t+(k-1)p-d帧语音的GFCC系数。d,p,k表示对应的时刻。
所述自相关函数为:
其中,Sn(m)为加窗后的语音信号,Rn(k)表示自相关函数值,k表示时间的延迟量,K表示语音分帧后每帧的长度。
所述特征数据融合为:
其中,LGFCC为伽马通滤波倒谱系数及其滑动差分,Fpitch为被测信号的基音频率,S表示数据融合值,Lmax表示最大似然度之差,α表示权重调节系数,k1表示拉普普拉斯平滑系数,Fmax表示归一化基音频率参数,k2表示拉普拉斯平滑系数。
综上所述,由于采用了上述技术方案,本发明的有益效果是:提高了语音识别的识别精度,改善了语音识别的抗噪性,从而获得更具鲁棒性的特征参数。
附图说明
图1是本发明的流程示意图。
具体实施方式
下面详细介绍本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示具有相同或类似功能的意义。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参见图1的流程图,基于核主成分分析改进Mel滤波器的语音特征提取方法包括以下步骤:
S1,对初始输入语音信号数字化采样、预加重和分帧加窗等处理得到预处理后的语音信号,预加重的传递函数为:
H(z)=1-a*z-1
其中,a是预加重的系数,在通常情况下,a的值为0.95时处理的语音信号效果较好。H(z)表示传递函数,z表示函数变量。
加窗函数表达方式为:
w(n)表示窗函数,L表示窗函数的长度。
S2,根据伽马通滤波器特性计算处理后语音信号伽马通滤波倒谱系数特征,伽马通滤波器的时域脉冲响应为:
其中:A为输出增益,M为滤波器阶数,fc是中心频率,是相位,t为时间,ERB(fc)为等效矩形带宽(Equivalent Rectangular Bandwidth,ERB),它决定了脉冲响应的衰减速度,可定义为中心频率fc的函数:
ERB(fc)=24.7+0.108fc
中心频率fc的计算公式为:
其中:fH为滤波器的截止频率,ωi是滤波器重叠因子。
S3,提取伽马通滤波倒谱系数的滑动差分,对伽马通滤波倒谱系数进行滑动差分计算:
△C(t)=C(t+d)-C(t-d)=[△c0(t),△c1(t),…,△cN-1(t)]
△C(t+p)=C(t+p+d)-C(t+p-d)
△C[t+(k-1)p]=C[t+(k-1)p+d]-C[t+(k-1)p-d]
将t时刻,t+p时刻一直到t+(k-1)p时刻的一阶差分倒谱系数顺序相连,即为当前帧的滑动差分特征向量:
△GFCC(t)=[△C(t),△C(t+p),…,△C(t+(k-1)p)]
上式中△C(t)表示第t帧语音的一阶差分倒谱系数;△cN-1(t)表示第t帧语音的第N-1个倒谱系数;C(t+d)表示第t+d帧语音的GFCC系数;C(t-d)表示第t-d帧语音的GFCC系数;△C(t+p)表示第t+p帧语音的一阶差分倒谱系数;C(t+p+d)表示第t+p+d帧语音的GFCC系数;C(t+p-d)表示第t+p-d帧语音的GFCC系数;△C[t+(k-1)p]表示第t+(k-1)p帧语音的一阶差分倒谱系数;C[t+(k-1)p+d]表示第t+(k-1)p+d帧语音的GFCC系数;C[t+(k-1)p-d]表示第t+(k-1)p-d帧语音的GFCC系数。d,p,k表示对应的时刻。
S4,计算完步骤S3中涉及的伽马通滤波倒谱系数及滑动差分之后,还需计算预处理语音信号的基音频率,根据自相关函数对预处理后语音信号提取基音频率:
自相关函数为:
其中,Sn(m)为加窗后的语音信号。Rn(k)表示自相关函数值,k表示时间的延迟量,N表示语音分帧后每帧的长度。
S5,对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合:
其中,LGFCC为伽马通滤波倒谱系数及其滑动差分,Fpitch为被测信号的基音频率。LGFCC表示伽马通滤波倒谱系数作滑动差分后的似然度,S表示数据融合值,Lmax表示最大似然度之差,α表示权重调节系数,k1表示拉普普拉斯平滑系数,Fmax表示归一化基音频率参数,k2表示拉普拉斯平滑系数。
S6,利用核主成分分析对融合特征数据进行转换降维,将输入特征空间RN映射到特征空间F后其协方差矩阵为:
C表示协方差矩阵,M表示特征空间的维度,φ(xj)表示第j个特征映射值,T表示转置运算符号。
C的特征值和特征向量满足:
λ(φ(xk)·V)=(φ(xk)·CV),1≤k≤M
λ表示特征值,V表示特征向量。
输入特征在映射空间向量上的投影为:
Vk表示特征向量,表示标准化系数,φ(x)表示输入特征映射值。

Claims (8)

1.基于核主成分分析改进Mel滤波器的语音特征提取方法,包括以下步骤:
S1对初始输入语音信号进行数字化采样、预加重和得到预处理语音信号;
S2根据伽马通滤波器计算预处理语音信号的伽马通滤波倒谱系数;
S3对伽马通滤波倒谱系数进行滑动差分处理;
S4根据自相关函数对预处理语音信号进行基音频率提取;
S5根据融合公式对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合;
S6根据核主成分分析对特征数据融合后的语音特征进行降维处理。
2.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述预加重的传递函数为:
H(z)=1-a*z-1
其中,a表示预加重的系数,H(z)表示传递函数,z表示函数变量。
3.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述分帧加窗处理中采用的加窗函数为:
w ( n ) = 0.54 - 0.46 c o s [ 2 π n ( L - 1 ) ] 0 , 0 ≤ n ≤ ( L - 1 ) n = e l s e
w(n)表示窗函数,L表示窗函数的长度。
4.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述伽马通滤波倒谱系数通过对伽马通滤波系数取对数和离散余弦变换处理得到;其中离散余弦变换的计算公式为:
X ( k ) = 2 N Σ n = 0 N - 1 2 2 x ( n ) c o s [ π ( 2 n + 1 ) k 2 N ] , 0 ≤ k ≤ N - 1
X(k)表示离散余弦变换归一函数,x(n)表示一维语音信号序列,N表示信号序列范围值。
5.根据权利要求1或4所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述伽马通滤波器的时域脉冲响应为:
其中:A为输出增益,M为滤波器阶数,fc是中心频率,是相位,ERB(fc)为等效矩形带宽,t为时间。
6.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述滑动差分处理如下:
△C(t)=C(t+d)-C(t-d)=[△c0(t),△c1(t),…,△cN-1(t)]
△C(t+p)=C(t+p+d)-C(t+p-d)
△C[t+(k-1)p]=C[t+(k-1)p+d]-C[t+(k-1)p-d]
将t时刻,t+p时刻一直到t+(k-1)p时刻的一阶差分倒谱系数顺序相连,即为当前帧的滑动差分特征向量:
△GFCC(t)=[△C(t),△C(t+p),…,△C(t+(k-1)p)]
上式中△C(t)表示第t帧语音的一阶差分倒谱系数;△cN-1(t)表示第t帧语音的第N-1个倒谱系数;C(t+d)表示第t+d帧语音的GFCC系数;C(t-d)表示第t-d帧语音的GFCC系数;△C(t+p)表示第t+p帧语音的一阶差分倒谱系数;C(t+p+d)表示第t+p+d帧语音的GFCC系数;C(t+p-d)表示第t+p-d帧语音的GFCC系数;△C[t+(k-1)p]表示第t+(k-1)p帧语音的一阶差分倒谱系数;C[t+(k-1)p+d]表示第t+(k-1)p+d帧语音的GFCC系数;C[t+(k-1)p-d]表示第t+(k-1)p-d帧语音的GFCC系数。
7.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述自相关函数为:
R n ( k ) = Σ m = 0 K - k - 1 S n ( m ) S n ( m + k )
其中,Sn(m)为加窗后的语音信号,Rn(k)表示自相关函数值,k表示时间的延迟量,K表示语音分帧后每帧的长度。
8.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述特征数据融合为:
S = α L G F C C + 1 L m a x + k 1 + ( 1 - α ) F p i t c h + 1 F m a x + k 2
其中,LGFCC为伽马通滤波倒谱系数及其滑动差分,Fpitch为被测信号的基音频率,S表示数据融合值,Lmax表示最大似然度之差,α表示权重调节系数,k1、k2均表示拉普普拉斯平滑系数,Fmax表示归一化基音频率参数。
CN201710100827.3A 2017-02-23 2017-02-23 基于核主成分分析改进Mel滤波器的语音特征提取方法 Active CN106898362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710100827.3A CN106898362B (zh) 2017-02-23 2017-02-23 基于核主成分分析改进Mel滤波器的语音特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710100827.3A CN106898362B (zh) 2017-02-23 2017-02-23 基于核主成分分析改进Mel滤波器的语音特征提取方法

Publications (2)

Publication Number Publication Date
CN106898362A true CN106898362A (zh) 2017-06-27
CN106898362B CN106898362B (zh) 2019-11-12

Family

ID=59185283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710100827.3A Active CN106898362B (zh) 2017-02-23 2017-02-23 基于核主成分分析改进Mel滤波器的语音特征提取方法

Country Status (1)

Country Link
CN (1) CN106898362B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034246A (zh) * 2018-07-27 2018-12-18 中国矿业大学(北京) 一种路基含水状态的确定方法及确定系统
CN109065070A (zh) * 2018-08-29 2018-12-21 昆明理工大学 一种基于核函数的音频特征信号的降维方法
CN109102799A (zh) * 2018-08-17 2018-12-28 信阳师范学院 一种基于频域系数对数和的语音端点检测方法
CN109346104A (zh) * 2018-08-29 2019-02-15 昆明理工大学 一种基于谱聚类的音频特征降维方法
CN112836591A (zh) * 2021-01-14 2021-05-25 清华大学深圳国际研究生院 一种油气长输管道光纤预警信号特征提取方法
CN114464175A (zh) * 2021-09-23 2022-05-10 中国海洋石油集团有限公司 一种无触摸式现场人员钻井工具清单领用系统及其领用方法
CN115017451A (zh) * 2022-04-28 2022-09-06 西安交通大学 基于Laplace小波与KPCA的固体润滑轴承转移膜性能声发射表征法
CN117475360A (zh) * 2023-12-27 2024-01-30 南京纳实医学科技有限公司 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
CN103065627A (zh) * 2012-12-17 2013-04-24 中南大学 基于dtw与hmm证据融合的特种车鸣笛声识别方法
CN103578481A (zh) * 2012-07-24 2014-02-12 东南大学 一种跨语言的语音情感识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
CN103578481A (zh) * 2012-07-24 2014-02-12 东南大学 一种跨语言的语音情感识别方法
CN103065627A (zh) * 2012-12-17 2013-04-24 中南大学 基于dtw与hmm证据融合的特种车鸣笛声识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TETSUYA TAKIGUCHI ET AL.: "Robust Feature Extraction using Kernel PCA", 《ICASSP 2006》 *
YUXUAN WANG ET AL.: "Exploring Monaural Features for Classification-Based Speech Segregation", 《IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》 *
何艳: "基于语音特征分析的汉语方言辨识研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034246A (zh) * 2018-07-27 2018-12-18 中国矿业大学(北京) 一种路基含水状态的确定方法及确定系统
CN109102799A (zh) * 2018-08-17 2018-12-28 信阳师范学院 一种基于频域系数对数和的语音端点检测方法
CN109102799B (zh) * 2018-08-17 2023-01-24 信阳师范学院 一种基于频域系数对数和的语音端点检测方法
CN109065070A (zh) * 2018-08-29 2018-12-21 昆明理工大学 一种基于核函数的音频特征信号的降维方法
CN109346104A (zh) * 2018-08-29 2019-02-15 昆明理工大学 一种基于谱聚类的音频特征降维方法
CN109065070B (zh) * 2018-08-29 2022-07-19 昆明理工大学 一种基于核函数的音频特征信号的降维方法
CN112836591A (zh) * 2021-01-14 2021-05-25 清华大学深圳国际研究生院 一种油气长输管道光纤预警信号特征提取方法
CN112836591B (zh) * 2021-01-14 2024-02-27 清华大学深圳国际研究生院 一种油气长输管道光纤预警信号特征提取方法
CN114464175A (zh) * 2021-09-23 2022-05-10 中国海洋石油集团有限公司 一种无触摸式现场人员钻井工具清单领用系统及其领用方法
CN115017451A (zh) * 2022-04-28 2022-09-06 西安交通大学 基于Laplace小波与KPCA的固体润滑轴承转移膜性能声发射表征法
CN117475360A (zh) * 2023-12-27 2024-01-30 南京纳实医学科技有限公司 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法
CN117475360B (zh) * 2023-12-27 2024-03-26 南京纳实医学科技有限公司 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法

Also Published As

Publication number Publication date
CN106898362B (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
EP3955246B1 (en) Voiceprint recognition method and device based on memory bottleneck feature
CN106898362A (zh) 基于核主成分分析改进Mel滤波器的语音特征提取方法
Sinha et al. Assessment of pitch-adaptive front-end signal processing for children’s speech recognition
Deshwal et al. Feature extraction methods in language identification: a survey
Das et al. Exploring different attributes of source information for speaker verification with limited test data
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
JPS59226400A (ja) 音声認識装置
Athineos et al. LP-TRAP: Linear predictive temporal patterns
CN104123934A (zh) 一种构音识别方法及其系统
CN103985390A (zh) 一种基于伽马通相关图语音特征参数提取方法
Shahnawazuddin et al. Pitch-normalized acoustic features for robust children's speech recognition
Wolfel et al. Minimum variance distortionless response spectral estimation
US20140200889A1 (en) System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
JP2006235243A (ja) 音響信号分析装置及び音響信号分析プログラム
US20080162134A1 (en) Apparatus and methods for vocal tract analysis of speech signals
CN117935789A (zh) 语音识别方法及系统、设备、存储介质
Kaur et al. Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition
JPS63158596A (ja) 音韻類似度計算装置
Darling et al. Feature extraction in speech recognition using linear predictive coding: an overview
Sangeetha et al. Robust automatic continuous speech segmentation for indian languages to improve speech to speech translation
Sinha et al. Continuous density hidden markov model for hindi speech recognition
JPS60114900A (ja) 有音・無音判定法
CN112908303A (zh) 音频信号的处理方法、装置以及电子设备
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant