CN106898362A - 基于核主成分分析改进Mel滤波器的语音特征提取方法 - Google Patents
基于核主成分分析改进Mel滤波器的语音特征提取方法 Download PDFInfo
- Publication number
- CN106898362A CN106898362A CN201710100827.3A CN201710100827A CN106898362A CN 106898362 A CN106898362 A CN 106898362A CN 201710100827 A CN201710100827 A CN 201710100827A CN 106898362 A CN106898362 A CN 106898362A
- Authority
- CN
- China
- Prior art keywords
- component analysis
- principle component
- cepstrum coefficient
- gfcc
- core principle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 title claims abstract description 19
- 230000004927 fusion Effects 0.000 claims abstract description 14
- 238000009432 framing Methods 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 238000005311 autocorrelation function Methods 0.000 claims description 9
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000000034 method Methods 0.000 claims description 5
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 abstract description 4
- 230000009467 reduction Effects 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 15
- 238000013507 mapping Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000155 melt Substances 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于核主成分分析改进Mel滤波器的语音特征提取方法包括步骤:S1,对初始输入语音信号数字化采样、预加重和分帧加窗等处理得到预处理后的语音信号;S2,根据伽马通滤波器特性计算处理后语音信号的伽马通滤波倒谱系数特征;S3,提取伽马通滤波倒谱系数的滑动差分;S4,计算预处理语音信号的基音频率;S5,根据融合公式对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合;S6,根据核主成分分析对数据融合后语音特征转换降维。本发明可获得更具鲁棒性的特征参数。
Description
技术领域
本发明涉及语音信号处理领域,特别是一种改进Mel滤波器的语音特征提取方法。
背景技术
语音信号的特征提取是对输入语音信号在其含有背景噪声的情况下,提取能够有效表征语音信号的特征参数。它解决了环境噪声恶化情形下语音识别系统的识别性能急剧下降的问题。
在对特征参数选择的问题上,目前主流的研究热点是共振峰频率、线性预测系数(LPC)、线谱对(LSP)、线性预测倒谱系数(LPCC)、基于人耳听觉特性的梅尔倒谱系数(MFCC)、伽马通滤波倒谱系数(GFCC)。在信噪比较高情形时基于MFCC的语音识别结果会受到严重影响,识别率急剧地下降,而GFCC是基于声道模型的特征向量,相比MFCC对于环境噪声的鲁棒性更强。标准的GFCC只反映了语音参数的静态特性,而人耳对语音的动态特性更高敏感,二次特征提取就是对原始的GFCC进行分析处理。运用滑动差分方法,进一步得到隐藏在语音特征背后的特征信息。
基音频率是语音识别系统中最重要的判别依据,反映了语音信号的浊音发声时声带振动的频率,能够有效区分语音信息与噪声信号。基于单一特征的识别率往往受其他因素影响恶劣,因此融合GFCC和基音频率两种特征参数作为语音特征,两种参数体现了不同的语音特性,GFCC利用了人耳听觉的非线性特性,更具有鲁棒性;基音频率体现了不同信号声学特征。
自适应融合特征后的语音信号存在两个问题:一是特征矩阵过大,存在降维计算需要;二是信息之间存在冗余,不利于后续处理。因此利用核主成分分析方法对融合特征数据进行转换降维,降低了计算复杂度,提高了识别的实时性。将核函数和主成分分析两种方法进行结合,通过非线性映射实现输入空间到特征空间的转换,求取其协方差矩阵C及其特征值和特征向量,最后进行主成分抽取。
发明内容
本发明旨在解决现有方法中存在的特征参数鲁棒性低问题,特别提出了一种基于核主成分分析改进Mel滤波器的语音特征提取方法。
为了实现本发明的上述目的,本发明提供了一种基于核主成分分析改进Mel滤波器的语音特征提取方法,包括以下步骤:
S1对初始输入语音信号进行数字化采样、预加重和得到预处理语音信号。
S2根据伽马通滤波器计算预处理语音信号的伽马通滤波倒谱系数。
S3对伽马通滤波倒谱系数进行滑动差分处理。
S4根据自相关函数对预处理语音信号进行基音频率提取。
S5根据融合公式对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合。
S6根据核主成分分析对特征数据融合后的语音特征进行降维处理。
上述方法中预加重的传递函数为:
H(z)=1-a*z-1
其中,a是预加重的系数,在通常情况下,a的值为0.95时处理的语音信号效果较好;H(z)表示传递函数,z表示函数变量。
所述分帧加窗处理中采用的加窗函数为:
w(n)表示窗函数,L表示窗函数的长度。
所述伽马通滤波倒谱系数通过对伽马通滤波系数取对数和离散余弦变换处理得到;其中离散余弦变换的计算公式为:
X(k)表示离散余弦变换归一函数,x(n)表示一维语音信号序列,N表示信号序列范围。
伽马通滤波器的时域脉冲响应为:
其中:A为输出增益,M为滤波器阶数,fc是中心频率,是相位,ERB(fc)为等效矩形带宽,t为时间。
所述滑动差分处理如下:
△C(t)=C(t+d)-C(t-d)=[△c0(t),△c1(t),…,△cN-1(t)]
△C(t+p)=C(t+p+d)-C(t+p-d)
△C[t+(k-1)p]=C[t+(k-1)p+d]-C[t+(k-1)p-d]
将t时刻,t+p时刻一直到t+(k-1)p时刻的一阶差分倒谱系数顺序相连,即为当前帧的滑动差分特征向量:
△GFCC(t)=[△C(t),△C(t+p),…,△C(t+(k-1)p)]
上式中△C(t)表示第t帧语音的一阶差分倒谱系数;△cN-1(t)表示第t帧语音的第N-1个倒谱系数;C(t+d)表示第t+d帧语音的GFCC系数;C(t-d)表示第t-d帧语音的GFCC系数;△C(t+p)表示第t+p帧语音的一阶差分倒谱系数;C(t+p+d)表示第t+p+d帧语音的GFCC系数;C(t+p-d)表示第t+p-d帧语音的GFCC系数;△C[t+(k-1)p]表示第t+(k-1)p帧语音的一阶差分倒谱系数;C[t+(k-1)p+d]表示第t+(k-1)p+d帧语音的GFCC系数;C[t+(k-1)p-d]表示第t+(k-1)p-d帧语音的GFCC系数。d,p,k表示对应的时刻。
所述自相关函数为:
其中,Sn(m)为加窗后的语音信号,Rn(k)表示自相关函数值,k表示时间的延迟量,K表示语音分帧后每帧的长度。
所述特征数据融合为:
其中,LGFCC为伽马通滤波倒谱系数及其滑动差分,Fpitch为被测信号的基音频率,S表示数据融合值,Lmax表示最大似然度之差,α表示权重调节系数,k1表示拉普普拉斯平滑系数,Fmax表示归一化基音频率参数,k2表示拉普拉斯平滑系数。
综上所述,由于采用了上述技术方案,本发明的有益效果是:提高了语音识别的识别精度,改善了语音识别的抗噪性,从而获得更具鲁棒性的特征参数。
附图说明
图1是本发明的流程示意图。
具体实施方式
下面详细介绍本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示具有相同或类似功能的意义。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参见图1的流程图,基于核主成分分析改进Mel滤波器的语音特征提取方法包括以下步骤:
S1,对初始输入语音信号数字化采样、预加重和分帧加窗等处理得到预处理后的语音信号,预加重的传递函数为:
H(z)=1-a*z-1
其中,a是预加重的系数,在通常情况下,a的值为0.95时处理的语音信号效果较好。H(z)表示传递函数,z表示函数变量。
加窗函数表达方式为:
w(n)表示窗函数,L表示窗函数的长度。
S2,根据伽马通滤波器特性计算处理后语音信号伽马通滤波倒谱系数特征,伽马通滤波器的时域脉冲响应为:
其中:A为输出增益,M为滤波器阶数,fc是中心频率,是相位,t为时间,ERB(fc)为等效矩形带宽(Equivalent Rectangular Bandwidth,ERB),它决定了脉冲响应的衰减速度,可定义为中心频率fc的函数:
ERB(fc)=24.7+0.108fc
中心频率fc的计算公式为:
其中:fH为滤波器的截止频率,ωi是滤波器重叠因子。
S3,提取伽马通滤波倒谱系数的滑动差分,对伽马通滤波倒谱系数进行滑动差分计算:
△C(t)=C(t+d)-C(t-d)=[△c0(t),△c1(t),…,△cN-1(t)]
△C(t+p)=C(t+p+d)-C(t+p-d)
△C[t+(k-1)p]=C[t+(k-1)p+d]-C[t+(k-1)p-d]
将t时刻,t+p时刻一直到t+(k-1)p时刻的一阶差分倒谱系数顺序相连,即为当前帧的滑动差分特征向量:
△GFCC(t)=[△C(t),△C(t+p),…,△C(t+(k-1)p)]
上式中△C(t)表示第t帧语音的一阶差分倒谱系数;△cN-1(t)表示第t帧语音的第N-1个倒谱系数;C(t+d)表示第t+d帧语音的GFCC系数;C(t-d)表示第t-d帧语音的GFCC系数;△C(t+p)表示第t+p帧语音的一阶差分倒谱系数;C(t+p+d)表示第t+p+d帧语音的GFCC系数;C(t+p-d)表示第t+p-d帧语音的GFCC系数;△C[t+(k-1)p]表示第t+(k-1)p帧语音的一阶差分倒谱系数;C[t+(k-1)p+d]表示第t+(k-1)p+d帧语音的GFCC系数;C[t+(k-1)p-d]表示第t+(k-1)p-d帧语音的GFCC系数。d,p,k表示对应的时刻。
S4,计算完步骤S3中涉及的伽马通滤波倒谱系数及滑动差分之后,还需计算预处理语音信号的基音频率,根据自相关函数对预处理后语音信号提取基音频率:
自相关函数为:
其中,Sn(m)为加窗后的语音信号。Rn(k)表示自相关函数值,k表示时间的延迟量,N表示语音分帧后每帧的长度。
S5,对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合:
其中,LGFCC为伽马通滤波倒谱系数及其滑动差分,Fpitch为被测信号的基音频率。LGFCC表示伽马通滤波倒谱系数作滑动差分后的似然度,S表示数据融合值,Lmax表示最大似然度之差,α表示权重调节系数,k1表示拉普普拉斯平滑系数,Fmax表示归一化基音频率参数,k2表示拉普拉斯平滑系数。
S6,利用核主成分分析对融合特征数据进行转换降维,将输入特征空间RN映射到特征空间F后其协方差矩阵为:
C表示协方差矩阵,M表示特征空间的维度,φ(xj)表示第j个特征映射值,T表示转置运算符号。
C的特征值和特征向量满足:
λ(φ(xk)·V)=(φ(xk)·CV),1≤k≤M
λ表示特征值,V表示特征向量。
输入特征在映射空间向量上的投影为:
Vk表示特征向量,表示标准化系数,φ(x)表示输入特征映射值。
Claims (8)
1.基于核主成分分析改进Mel滤波器的语音特征提取方法,包括以下步骤:
S1对初始输入语音信号进行数字化采样、预加重和得到预处理语音信号;
S2根据伽马通滤波器计算预处理语音信号的伽马通滤波倒谱系数;
S3对伽马通滤波倒谱系数进行滑动差分处理;
S4根据自相关函数对预处理语音信号进行基音频率提取;
S5根据融合公式对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合;
S6根据核主成分分析对特征数据融合后的语音特征进行降维处理。
2.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述预加重的传递函数为:
H(z)=1-a*z-1
其中,a表示预加重的系数,H(z)表示传递函数,z表示函数变量。
3.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述分帧加窗处理中采用的加窗函数为:
w(n)表示窗函数,L表示窗函数的长度。
4.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述伽马通滤波倒谱系数通过对伽马通滤波系数取对数和离散余弦变换处理得到;其中离散余弦变换的计算公式为:
X(k)表示离散余弦变换归一函数,x(n)表示一维语音信号序列,N表示信号序列范围值。
5.根据权利要求1或4所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述伽马通滤波器的时域脉冲响应为:
其中:A为输出增益,M为滤波器阶数,fc是中心频率,是相位,ERB(fc)为等效矩形带宽,t为时间。
6.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述滑动差分处理如下:
△C(t)=C(t+d)-C(t-d)=[△c0(t),△c1(t),…,△cN-1(t)]
△C(t+p)=C(t+p+d)-C(t+p-d)
△C[t+(k-1)p]=C[t+(k-1)p+d]-C[t+(k-1)p-d]
将t时刻,t+p时刻一直到t+(k-1)p时刻的一阶差分倒谱系数顺序相连,即为当前帧的滑动差分特征向量:
△GFCC(t)=[△C(t),△C(t+p),…,△C(t+(k-1)p)]
上式中△C(t)表示第t帧语音的一阶差分倒谱系数;△cN-1(t)表示第t帧语音的第N-1个倒谱系数;C(t+d)表示第t+d帧语音的GFCC系数;C(t-d)表示第t-d帧语音的GFCC系数;△C(t+p)表示第t+p帧语音的一阶差分倒谱系数;C(t+p+d)表示第t+p+d帧语音的GFCC系数;C(t+p-d)表示第t+p-d帧语音的GFCC系数;△C[t+(k-1)p]表示第t+(k-1)p帧语音的一阶差分倒谱系数;C[t+(k-1)p+d]表示第t+(k-1)p+d帧语音的GFCC系数;C[t+(k-1)p-d]表示第t+(k-1)p-d帧语音的GFCC系数。
7.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述自相关函数为:
其中,Sn(m)为加窗后的语音信号,Rn(k)表示自相关函数值,k表示时间的延迟量,K表示语音分帧后每帧的长度。
8.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述特征数据融合为:
其中,LGFCC为伽马通滤波倒谱系数及其滑动差分,Fpitch为被测信号的基音频率,S表示数据融合值,Lmax表示最大似然度之差,α表示权重调节系数,k1、k2均表示拉普普拉斯平滑系数,Fmax表示归一化基音频率参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710100827.3A CN106898362B (zh) | 2017-02-23 | 2017-02-23 | 基于核主成分分析改进Mel滤波器的语音特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710100827.3A CN106898362B (zh) | 2017-02-23 | 2017-02-23 | 基于核主成分分析改进Mel滤波器的语音特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106898362A true CN106898362A (zh) | 2017-06-27 |
CN106898362B CN106898362B (zh) | 2019-11-12 |
Family
ID=59185283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710100827.3A Active CN106898362B (zh) | 2017-02-23 | 2017-02-23 | 基于核主成分分析改进Mel滤波器的语音特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106898362B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034246A (zh) * | 2018-07-27 | 2018-12-18 | 中国矿业大学(北京) | 一种路基含水状态的确定方法及确定系统 |
CN109065070A (zh) * | 2018-08-29 | 2018-12-21 | 昆明理工大学 | 一种基于核函数的音频特征信号的降维方法 |
CN109102799A (zh) * | 2018-08-17 | 2018-12-28 | 信阳师范学院 | 一种基于频域系数对数和的语音端点检测方法 |
CN109346104A (zh) * | 2018-08-29 | 2019-02-15 | 昆明理工大学 | 一种基于谱聚类的音频特征降维方法 |
CN112836591A (zh) * | 2021-01-14 | 2021-05-25 | 清华大学深圳国际研究生院 | 一种油气长输管道光纤预警信号特征提取方法 |
CN114464175A (zh) * | 2021-09-23 | 2022-05-10 | 中国海洋石油集团有限公司 | 一种无触摸式现场人员钻井工具清单领用系统及其领用方法 |
CN115017451A (zh) * | 2022-04-28 | 2022-09-06 | 西安交通大学 | 基于Laplace小波与KPCA的固体润滑轴承转移膜性能声发射表征法 |
CN117475360A (zh) * | 2023-12-27 | 2024-01-30 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6931373B1 (en) * | 2001-02-13 | 2005-08-16 | Hughes Electronics Corporation | Prototype waveform phase modeling for a frequency domain interpolative speech codec system |
CN103065627A (zh) * | 2012-12-17 | 2013-04-24 | 中南大学 | 基于dtw与hmm证据融合的特种车鸣笛声识别方法 |
CN103578481A (zh) * | 2012-07-24 | 2014-02-12 | 东南大学 | 一种跨语言的语音情感识别方法 |
-
2017
- 2017-02-23 CN CN201710100827.3A patent/CN106898362B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6931373B1 (en) * | 2001-02-13 | 2005-08-16 | Hughes Electronics Corporation | Prototype waveform phase modeling for a frequency domain interpolative speech codec system |
CN103578481A (zh) * | 2012-07-24 | 2014-02-12 | 东南大学 | 一种跨语言的语音情感识别方法 |
CN103065627A (zh) * | 2012-12-17 | 2013-04-24 | 中南大学 | 基于dtw与hmm证据融合的特种车鸣笛声识别方法 |
Non-Patent Citations (3)
Title |
---|
TETSUYA TAKIGUCHI ET AL.: "Robust Feature Extraction using Kernel PCA", 《ICASSP 2006》 * |
YUXUAN WANG ET AL.: "Exploring Monaural Features for Classification-Based Speech Segregation", 《IEEE TRANSACTIONS ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》 * |
何艳: "基于语音特征分析的汉语方言辨识研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034246A (zh) * | 2018-07-27 | 2018-12-18 | 中国矿业大学(北京) | 一种路基含水状态的确定方法及确定系统 |
CN109102799A (zh) * | 2018-08-17 | 2018-12-28 | 信阳师范学院 | 一种基于频域系数对数和的语音端点检测方法 |
CN109102799B (zh) * | 2018-08-17 | 2023-01-24 | 信阳师范学院 | 一种基于频域系数对数和的语音端点检测方法 |
CN109065070A (zh) * | 2018-08-29 | 2018-12-21 | 昆明理工大学 | 一种基于核函数的音频特征信号的降维方法 |
CN109346104A (zh) * | 2018-08-29 | 2019-02-15 | 昆明理工大学 | 一种基于谱聚类的音频特征降维方法 |
CN109065070B (zh) * | 2018-08-29 | 2022-07-19 | 昆明理工大学 | 一种基于核函数的音频特征信号的降维方法 |
CN112836591A (zh) * | 2021-01-14 | 2021-05-25 | 清华大学深圳国际研究生院 | 一种油气长输管道光纤预警信号特征提取方法 |
CN112836591B (zh) * | 2021-01-14 | 2024-02-27 | 清华大学深圳国际研究生院 | 一种油气长输管道光纤预警信号特征提取方法 |
CN114464175A (zh) * | 2021-09-23 | 2022-05-10 | 中国海洋石油集团有限公司 | 一种无触摸式现场人员钻井工具清单领用系统及其领用方法 |
CN115017451A (zh) * | 2022-04-28 | 2022-09-06 | 西安交通大学 | 基于Laplace小波与KPCA的固体润滑轴承转移膜性能声发射表征法 |
CN117475360A (zh) * | 2023-12-27 | 2024-01-30 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物体征提取与分析方法 |
CN117475360B (zh) * | 2023-12-27 | 2024-03-26 | 南京纳实医学科技有限公司 | 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106898362B (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3955246B1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
CN106898362A (zh) | 基于核主成分分析改进Mel滤波器的语音特征提取方法 | |
Sinha et al. | Assessment of pitch-adaptive front-end signal processing for children’s speech recognition | |
Deshwal et al. | Feature extraction methods in language identification: a survey | |
Das et al. | Exploring different attributes of source information for speaker verification with limited test data | |
Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
JPS59226400A (ja) | 音声認識装置 | |
Athineos et al. | LP-TRAP: Linear predictive temporal patterns | |
CN104123934A (zh) | 一种构音识别方法及其系统 | |
CN103985390A (zh) | 一种基于伽马通相关图语音特征参数提取方法 | |
Shahnawazuddin et al. | Pitch-normalized acoustic features for robust children's speech recognition | |
Wolfel et al. | Minimum variance distortionless response spectral estimation | |
US20140200889A1 (en) | System and Method for Speech Recognition Using Pitch-Synchronous Spectral Parameters | |
Kanabur et al. | An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition | |
JP2006235243A (ja) | 音響信号分析装置及び音響信号分析プログラム | |
US20080162134A1 (en) | Apparatus and methods for vocal tract analysis of speech signals | |
CN117935789A (zh) | 语音识别方法及系统、设备、存储介质 | |
Kaur et al. | Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition | |
JPS63158596A (ja) | 音韻類似度計算装置 | |
Darling et al. | Feature extraction in speech recognition using linear predictive coding: an overview | |
Sangeetha et al. | Robust automatic continuous speech segmentation for indian languages to improve speech to speech translation | |
Sinha et al. | Continuous density hidden markov model for hindi speech recognition | |
JPS60114900A (ja) | 有音・無音判定法 | |
CN112908303A (zh) | 音频信号的处理方法、装置以及电子设备 | |
Singh et al. | A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |