CN105679321A - 语音识别方法、装置及终端 - Google Patents

语音识别方法、装置及终端 Download PDF

Info

Publication number
CN105679321A
CN105679321A CN201610063803.0A CN201610063803A CN105679321A CN 105679321 A CN105679321 A CN 105679321A CN 201610063803 A CN201610063803 A CN 201610063803A CN 105679321 A CN105679321 A CN 105679321A
Authority
CN
China
Prior art keywords
cepstrum
mfcc parameter
iteration
prime
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610063803.0A
Other languages
English (en)
Other versions
CN105679321B (zh
Inventor
黎小松
傅文治
胡绩强
汪平炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yingmu Technology Co ltd
Original Assignee
Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yulong Computer Telecommunication Scientific Shenzhen Co Ltd filed Critical Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority to CN201610063803.0A priority Critical patent/CN105679321B/zh
Publication of CN105679321A publication Critical patent/CN105679321A/zh
Application granted granted Critical
Publication of CN105679321B publication Critical patent/CN105679321B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种语音识别方法、装置及终端,用以提高现有语音识别方式的抗噪性能。所述方法包括:获取一帧语音信号,从所述语音信号中提取d维MFCC参数;对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。

Description

语音识别方法、装置及终端
技术领域
本发明涉及电子领域,特别是涉及一种语音识别方法、装置及终端。
背景技术
语音特征提取在语音识别过程中是非常关键的步骤,目前语音识别算法主要是在信号空间对噪声信号进行预处理(比如滤波),以得到更为纯净的语音信号,但是语音识别在嘈杂环境下识别率仍不理想;因此如何能准确有效地提取出反映语音特征的特征参数是个重要的研究课题;特征参数的鲁棒性和精确性直接影响到语音识别的准确率;同时,特征提取对语音识别系统的实时性也有着很大的影响。
目前,特征参数提取方法主要有基音、共振峰、线性预测编码(LinearPredictiveCoding,LPC)、线性预测倒谱系数(LPCC)和梅尔倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)等。LPC和LPCC没有考虑到人耳的听觉特性,没有采用非线性的频率变换,不能精确地描述说话人的特征。MFCC参数模拟了人耳对语音不同频谱的感知能力,考虑了人耳的听觉特性,MFCC特征性能较好,计算复杂度低,具有良好的识别性能和鲁棒性;但传统的MFCC特征参数频谱能量泄露严重和描述语音信号的共振峰特性不够,因此传统的基于MFCC特征参数进行语音识别过程冗余性较高,导致低信噪比的语音识别系统鲁棒性较差和识别率下降明显。
发明内容
本发明的目的在于提供一种语音识别方法、装置及终端,用以提高现有语音识别方式的抗噪性能。
根据本发明的一个方面,本发明提供一种语音识别方法,其特征在于,包括:
获取一帧语音信号,从所述语音信号中提取d维MFCC参数;
对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;
根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;
基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。
进一步,基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别的步骤,具体包括:
对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值;
根据d个所述特征补偿值,对d维所述迭代倒谱MFCC参数进行特征补偿;
基于经过特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
进一步,基于经过特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别的步骤,具体包括:
对经过特征补偿的所述迭代倒谱MFCC参数,采用主成分分析方式进行降维处理;
基于降维处理后的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
进一步,采用下述公式进行倒谱计算,获得d维所述倒谱MFCC参数:
C &prime; ( n ) = C ( n ) n = 0 C ( n ) + &Sigma; k = 0 n - 1 kC &prime; ( n ) C ( n ) / n 0 < n &le; d &Sigma; k = 0 n - 1 kC &prime; ( n ) C ( n ) / n n > d ;
其中,C(n)为第n维MFCC参数;C′(n)为第n维倒谱MFCC参数;d为一帧语音信号提取的MFCC参数的维数。
进一步,采用下述公式进行迭代处理,获得d维所述迭代倒谱MFCC参数:
C i ( n ) = ( 1 - &alpha; 2 ) C 0 &prime; ( n + 1 ) + &alpha;C 1 &prime; ( n + 1 ) i = 1 C i - 1 &prime; ( n + 1 ) + &alpha; ( C i &prime; ( n + 1 ) - C i - 1 &prime; ( n ) ) i > 1 ;
其中,i为迭代次数,α为扭曲因子,C0′(n+1)为迭代初值。
根据本发明的另一个方面,本发明提供一种语音识别装置,其特征在于,包括:
参数提取模块,用于获取一帧语音信号,从所述语音信号中提取d维MFCC参数;
倒谱模块,用于对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;
迭代模块,用于根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;
识别模块,用于基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。
进一步,所述识别模块包括特征补偿单元和识别单元,
所述特征补偿单元,用于对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值;
根据d个所述特征补偿值,对d维所述迭代倒谱MFCC参数进行特征补偿;
所述识别单元,用于基于经过特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
进一步,所述识别模块还包括降维单元,用于对经过特征补偿的所述迭代倒谱MFCC参数,采用主成分分析方式进行降维处理;
所述识别单元,具体用于基于降维处理后的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
进一步,所述倒谱模块采用下述公式进行倒谱计算,获得d维所述倒谱MFCC参数:
C &prime; ( n ) = C ( n ) n = 0 C ( n ) + &Sigma; k = 0 n - 1 kC &prime; ( n ) C ( n ) / n 0 < n &le; d &Sigma; k = 0 n - 1 kC &prime; ( n ) C ( n ) / n n > d ;
其中,C(n)为第n维MFCC参数;C′(n)为第n维倒谱MFCC参数或者为特征补偿的第n维倒谱MFCC参数;d为一帧语音信号提取的MFCC参数的维数。
进一步,所述迭代模块采用下述公式进行迭代处理,获得d维所述迭代倒谱MFCC参数:
C i ( n ) = ( 1 - &alpha; 2 ) C 0 &prime; ( n + 1 ) + &alpha;C 1 &prime; ( n + 1 ) i = 1 C i - 1 &prime; ( n + 1 ) + &alpha; ( C i &prime; ( n + 1 ) - C i - 1 &prime; ( n ) ) i > 1 ;
其中,i为迭代次数,α为扭曲因子,C0′(n+1)为迭代初值。
根据本发明的再一个方面,本发明提供一种终端,所述终端包括本发明所述的语音识别装置。
本发明有益效果如下:本发明提高在特征空间进行语音识别的抗噪性能,具体说,通过对传统的MFCC参数通过倒谱计算后进行迭代,获取MFCC参数特征的动态变化轨迹以提高抗噪性能,并在提高抗噪性能的同时也不影响语音识别的实时性能。
附图说明
图1是本发明实施例中一种语音识别方法的流程图;
图2是本发明实施例中扭曲因子与识别率的关系示意图;
图3是本发明实施例中一种语音识别装置的结构示意图。
具体实施方式
为了提高现有语音识别方式的抗噪性能,本发明提供了一种语音识别方法、装置及终端,以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不限定本发明。
实施例一
本发明实施例提供一种语音识别方法,包括:
S101,获取一帧语音信号,从所述语音信号中提取d维MFCC参数;d的取值范围为正整数,一般情况下d=24;
S102,对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;
S103,根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;
S104,基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。
本发明实施例实现了在特征空间来增强语音识别的抗噪性能,通过对传统的MFCC参数通过倒谱计算后进行迭代,获取MFCC参数特征的动态变化轨迹以提高抗噪性能,并在提高抗噪性能的同时也不影响语音识别的实时性能。
以下详细说明本发明实施例。
一、S101的具体实现:
MFCC以人耳听觉特性为基础:不同的人对不同频率的声音体现出的听觉灵敏度并不相同,但一般情况下,人耳在感知声音的这个过程中,高音较难掩盖低音,但低音则容易掩盖高音。在高频区域的声音掩蔽的临界带宽比低频区域的声音掩蔽的临界带宽大。当频率大小差不多的两个音调于同一时间发出时,由于高音被低音所掩盖,人耳通常只能够听得到低频的那一个音调。所以在语音的识别过程中可以通过滤波器对语音信号进行处理,将各频段划分成不同的语音信号特征。人耳对不同频率的语音响应灵敏度呈对数关系,MFCC参数就是基于这种Mel频率下的特征提取,所以需要对实际的线性频率进行Mel系数频率转换,转换公式如下:
M ( f ) = 2595 log 10 ( 1 + f 700 )
由于人耳只能区分具有一定带宽的频率分量,所以MFCC特征提取模仿人类的听觉设计了Mel频率三角带通滤波器来提取特征,每个带通滤波器提取一个参数,一共24个滤波器,所以一帧语音提取24个特征参数。每个滤波器的中间频率可以由如下公式表示:
f ( m ) = ( N F s ) F &lsqb; M ( f l ) + m M ( f h ) - M ( f l ) M + 1 &rsqb;
F ( b ) = 700 ( e b 1125 - 1 )
式中:
fh、fl分别为滤波器的最高和最低频率,取fl=0,fh=F(s),F(s)为最高语音频率;M——滤波器个数M=24。
每个带通滤波器频率响应函数定义如下:
MFCC特征提取步骤包括:
②256个采样点数为一帧,假设一段语音的帧数为n,则有n*256个数据点。
②对每一帧的语音信号做FFT变换(FastFourierTransformation,快速傅氏变换),每一帧语音有256个复数形式的数据点。
③对这些复数求功率谱,即将所有复数的实部平方和虚部平方求和得到离散功率谱,一帧语音同样有256个功率谱,但是功率谱两边对称实际上只有129个数据。
④对功率谱进行Mel滤波器计算,滤波器由24*129的矩阵表示,将它们进行叉乘运算得到24*1的运算结果。
⑤对这24个结果取对数log运算得到对数频谱S(m)。
⑥对S(m)进行离散余弦变换最终得到24个(维)MFCC参数。
C ( n ) = &Sigma; m = 1 M - 1 S ( m ) c o s ( &pi; n ( m + 0.5 ) M ) 1 &le; n &le; M
MFCC特征参数考虑到人耳听觉特性,模仿人耳听觉功能进行特征参数提取,但低频部分滤波器密集,高频部分滤波器稀疏,所以在高频部分相邻频带之间的频谱能量相互泄露严重,不利于反映高频语音信号的共振特性的问题,即对语音信号的高频部分共振特性描述不够,从而影响该特征参数的抗噪性能。
二、S102的具体实现:
声音经过声带振动和共振腔滤波后,声音的一部分会得到强化,另一部分出现衰减,造成声音频谱分布不均匀,就像山峰一样,称这种山峰为共振峰。共振峰很好地反应了语音信号的共振特性,是语音信号的频谱中能量相对集中的区域,是音色和音质的重要参数。因此,通过对语音信号的共振峰的提取可以改善特征参数的共振特性。
倒谱可以通过两种方式求取:一种是通过对参数的Z变换的对数模函数进行反Z变换类似LPC求倒谱的方式可以得到倒谱,这种倒谱有利于表示语音信号的共振峰,增强了语音信号的元音描述能力,却使得语音信号的辅音描述能力变差。另外一种是通过离散余弦变换对参数进行加权求取的倒谱,这种倒谱有利于增强参数的抗噪能力和低频语音信号敏感度。其中,Z变换(z-transformation)可将时域信号变换为在复频域的表达式。
本发明实施例通过类似LPC求倒谱的方式,对MFCC参数的Z变换的对数模函数进行反Z变换,这种倒谱方式有利于表示语音信号的共振峰,增强了语音信号的元音描述能力。
本发明实施例优选采用下述公式进行倒谱计算:
C &prime; ( n ) = C ( n ) n = 0 C ( n ) + &Sigma; k = 0 n - 1 kC &prime; ( n ) C ( n ) / n 0 < n &le; d &Sigma; k = 0 n - 1 kC &prime; ( n ) C ( n ) / n n > d ;
其中,C(n)为第n维MFCC参数;C′(n)为第n维倒谱MFCC参数或者为特征补偿的第n维倒谱MFCC参数;d为一帧语音信号提取的MFCC参数的维数。
三、S103的具体实现:
在S102中的倒谱计算方式虽然增强了语音信号的元音描述能力,却使得语音信号的辅音描述能力变差;因此本发明实施例S103采用迭代处理方式获取向量的动态变化轨迹来增强特征对辅音的描述;也就是说在对MFCC参数通过倒谱计算后,进行迭代获取特征的动态变化轨迹来减弱倒谱对辅音信号的影响。
其中迭代处理方式可以参照现有的迭代处理方式,也可采用如下优选方式:
C i ( n ) = ( 1 - &alpha; 2 ) C 0 &prime; ( n + 1 ) + &alpha;C 1 &prime; ( n + 1 ) i = 1 C i - 1 &prime; ( n + 1 ) + &alpha; ( C i &prime; ( n + 1 ) - C i - 1 &prime; ( n ) ) i > 1 ;
其中,i为迭代次数,α为扭曲因子;0.2≤α≤1;C0′(n+1)为迭代初值,也就是说C0′(n+1)=C′(n+1)。本发明实施例中i取值优选与d相同,例如取24。
在本发明实施例中,α值的大小影响识别率,如图2所示,图中横坐标表示α的值,纵坐标代表了识别率百分比。可以看出,当α小于0.2时,识别率87%左右,但随着α值的增加,识别率明显提高;在α=0.3时已经能够达到92%左右;而当α=0.451时,识别率达到94.86%左右;在α=0.75时,识别率达到90%左右。
在本步骤的具体实现过程中,还可以通过对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值;
根据d个所述特征补偿值,对d维所述迭代倒谱MFCC参数进行特征补偿;
基于d维特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
也就是说,通过对24个迭代倒谱MFCC参数进行前向一阶差分或二阶差分,得到迭代倒谱MFCC参数的上下波动的特征补偿值,通过特征补偿值对迭代倒谱MFCC参数进行特征补偿;该方式很好地对语音信号的波动特征进行了补偿,进一步解决了频谱泄漏带来的共振特性缺失的问题。
其中,一阶差分、二阶差分的具体实现属于现有技术,在此不再赘述。
为了减少特征参数的冗余信息,本发明实施例优选采用主成分分析舍弃那些表征能力弱和那些增加了语音识别后起反作用的特征分量,选取表征语音特征最有效的部分。这样既为语音识别后续过程减少了计算量,又减少了数据的存储量,同时还对语音特征参数进行了最优化,提高了语音的识别率和识别效率。主成分分析(PrincipalComponentAnalysis,PCA)属于常规技术,就是在原始数据中舍去一些不重要的数据,并且寻找和保留最有效、最重要的数据。
也就是说,对d维特征补偿的所述迭代倒谱MFCC参数,采用主成分分析方式进行降维处理,
基于降维的特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别。具体说:
主成分分析的步骤如下:
①算输入向量的自相关矩阵RXX的特征值和特征向量;
②特征向量归一化,将特征值从大到小重新排序;
③将原始输入向量投影到前m个特征值对应的特征向量构成的子空间,得到其中第一个分量具有的方差最大,其次依次减少。
通过主成分分析,能够对语音特征参数模型复杂的数据结构进行分析,保留语音序列中有价值的特征值,筛选贡献较小或者没有贡献的特征值,得到维度降低、数量级大大减小但是语音识别特征信息不减少的特征向量。
S104的具体实现属于常规技术,不再赘述。
实施例二
本发明提供一种语音识别装置,为实施例一的装置实施例,包括:
参数提取模块30,用于获取一帧语音信号,从所述语音信号中提取d维MFCC参数;
倒谱模块32,用于对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;
迭代模块34,用于根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;
识别模块36,用于基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。
本发明实施例实现了在特征空间来增强语音识别的抗噪性能,通过对传统的MFCC参数通过倒谱计算后进行迭代,获取MFCC参数特征的动态变化轨迹以提高抗噪性能,并在提高抗噪性能的同时也不影响语音识别的实时性能。
作为本发明实施例的一种优选实施方式,其中,所述识别模块36包括特征补偿单元和识别单元,
所述特征补偿单元,用于对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值;
根据d个所述特征补偿值,对d维所述迭代倒谱MFCC参数进行特征补偿;
所述识别单元,用于基于d维特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
作为本发明实施例的又一种优选实施方式,所述识别模块36还包括降维单元,用于对d维特征补偿的所述迭代倒谱MFCC参数,采用主成分分析方式进行降维处理,
所述识别单元,具体用于基于降维的特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
其中,所述倒谱模块32采用下述公式进行倒谱计算,获得d维所述倒谱MFCC参数:
C &prime; ( n ) = C ( n ) n = 0 C ( n ) + &Sigma; k = 0 n - 1 kC &prime; ( n ) C ( n ) / n 0 < n &le; d &Sigma; k = 0 n - 1 kC &prime; ( n ) C ( n ) / n n > d ;
其中,C(n)为第n维MFCC参数;C′(n)为第n维倒谱MFCC参数或者为特征补偿的第n维倒谱MFCC参数;d为一帧语音信号提取的MFCC参数的维数。
所述迭代模块34采用下述公式进行迭代处理,获得d维所述迭代倒谱MFCC参数:
C i ( n ) = ( 1 - &alpha; 2 ) C 0 &prime; ( n + 1 ) + &alpha;C 1 &prime; ( n + 1 ) i = 1 C i - 1 &prime; ( n + 1 ) + &alpha; ( C i &prime; ( n + 1 ) - C i - 1 &prime; ( n ) ) i > 1 ;
其中,i为迭代次数,α为扭曲因子,C0′(n+1)为迭代初值。
实施例三
本发明实施例提供一种终端,所述终端包括实施例二所述的语音识别装置。本发明实施例中的终端具体指代具有语音识别功能的终端,包括手机、平板电脑、PDA(个人数字助理)、笔记本电脑等等。
本发明实施例在具体实现过程中,参阅实施例一和二,具有实施例一和二的技术效果,在此不再赘述。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。

Claims (11)

1.一种语音识别方法,其特征在于,包括:
获取一帧语音信号,从所述语音信号中提取d维MFCC参数;
对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;
根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;
基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。
2.如权利要求1所述的方法,其特征在于,基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别的步骤,具体包括:
对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值;
根据d个所述特征补偿值,对d维所述迭代倒谱MFCC参数进行特征补偿;
基于经过特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
3.如权利要求2所述的方法,其特征在于,基于经过特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别的步骤,具体包括:
对经过特征补偿的所述迭代倒谱MFCC参数,采用主成分分析方式进行降维处理;
基于降维处理后的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
4.如权利要求1-3任意一项所述的方法,其特征在于,采用下述公式进行倒谱计算,获得d维所述倒谱MFCC参数:
C &prime; ( n ) = C ( n ) n = 0 C ( n ) + &Sigma; k = 1 n - 1 kC &prime; ( n ) C ( n ) / n 0 < n &le; d &Sigma; k = 1 n - 1 kC &prime; ( n ) C ( n ) / n n > d ;
其中,C(n)为第n维MFCC参数;C′(n)为第n维倒谱MFCC参数;d为一帧语音信号提取的MFCC参数的维数。
5.如权利要求1-3任意一项所述的方法,其特征在于,采用下述公式进行迭代处理,获得d维所述迭代倒谱MFCC参数:
C i ( n ) = ( 1 - &alpha; 2 ) C 0 &prime; ( n + 1 ) + &alpha;C 1 &prime; ( n + 1 ) i = 1 C i - 1 &prime; ( n + 1 ) + &alpha; ( C i &prime; ( n + 1 ) - C i - 1 &prime; ( n ) ) i > 1 ;
其中,i为迭代次数,α为扭曲因子,C0′(n+1)为迭代初值。
6.一种语音识别装置,其特征在于,包括:
参数提取模块,用于获取一帧语音信号,从所述语音信号中提取d维MFCC参数;
倒谱模块,用于对d维所述MFCC参数进行倒谱计算,获得d维倒谱MFCC参数;
迭代模块,用于根据预设的迭代次数对各维所述倒谱MFCC参数进行迭代处理,获得d维迭代倒谱MFCC参数;
识别模块,用于基于d维所述迭代倒谱MFCC参数,对所述语音信号进行识别。
7.如权利要求6所述的装置,其特征在于,所述识别模块包括特征补偿单元和识别单元,
所述特征补偿单元,用于对d维所述迭代倒谱MFCC参数采用差分方式获得d个特征补偿值;
根据d个所述特征补偿值,对d维所述迭代倒谱MFCC参数进行特征补偿;
所述识别单元,用于基于经过特征补偿的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
8.如权利要求7所述的装置,其特征在于,所述识别模块还包括降维单元,用于对经过特征补偿的所述迭代倒谱MFCC参数,采用主成分分析方式进行降维处理;
所述识别单元,具体用于基于降维处理后的所述迭代倒谱MFCC参数,对所述语音信号进行识别。
9.如权利要求6-8任意一项所述的装置,其特征在于,所述倒谱模块采用下述公式进行倒谱计算,获得d维所述倒谱MFCC参数:
C &prime; ( n ) = C ( n ) n = 0 C ( n ) + &Sigma; k = 1 n - 1 kC &prime; ( n ) C ( n ) / n 0 < n &le; d &Sigma; k = 1 n - 1 kC &prime; ( n ) C ( n ) / n n > d ;
其中,C(n)为第n维MFCC参数;C′(n)为第n维倒谱MFCC参数;d为一帧语音信号提取的MFCC参数的维数。
10.如权利要求6-8任意一项所述的装置,其特征在于,所述迭代模块采用下述公式进行迭代处理,获得d维所述迭代倒谱MFCC参数:
C i ( n ) = ( 1 - &alpha; 2 ) C 0 &prime; ( n + 1 ) + &alpha;C 1 &prime; ( n + 1 ) i = 1 C i - 1 &prime; ( n + 1 ) + &alpha; ( C i &prime; ( n + 1 ) - C i - 1 &prime; ( n ) ) i > 1 ;
其中,i为迭代次数,α为扭曲因子,C0′(n+1)为迭代初值。
11.一种终端,其特征在于,所述终端包括如权利要求6-10任意一项的语音识别装置。
CN201610063803.0A 2016-01-29 2016-01-29 语音识别方法、装置及终端 Active CN105679321B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610063803.0A CN105679321B (zh) 2016-01-29 2016-01-29 语音识别方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610063803.0A CN105679321B (zh) 2016-01-29 2016-01-29 语音识别方法、装置及终端

Publications (2)

Publication Number Publication Date
CN105679321A true CN105679321A (zh) 2016-06-15
CN105679321B CN105679321B (zh) 2020-05-19

Family

ID=56303101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610063803.0A Active CN105679321B (zh) 2016-01-29 2016-01-29 语音识别方法、装置及终端

Country Status (1)

Country Link
CN (1) CN105679321B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564956A (zh) * 2018-03-26 2018-09-21 京北方信息技术股份有限公司 一种声纹识别方法和装置、服务器、存储介质
CN109065070A (zh) * 2018-08-29 2018-12-21 昆明理工大学 一种基于核函数的音频特征信号的降维方法
WO2020034628A1 (zh) * 2018-08-14 2020-02-20 平安科技(深圳)有限公司 口音识别方法、装置、计算机装置及存储介质
CN111402922A (zh) * 2020-03-06 2020-07-10 武汉轻工大学 基于小样本的音频信号分类方法、装置、设备及存储介质
CN112397087A (zh) * 2020-11-13 2021-02-23 展讯通信(上海)有限公司 共振峰包络估计、语音处理方法及装置、存储介质、终端

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
CN1758332A (zh) * 2005-10-31 2006-04-12 浙江大学 基于倒谱特征线性情感补偿的说话人识别方法
US20090144058A1 (en) * 2003-04-01 2009-06-04 Alexander Sorin Restoration of high-order Mel Frequency Cepstral Coefficients
CN101546555A (zh) * 2009-04-14 2009-09-30 清华大学 用于语种识别的约束异方差线性鉴别分析方法
CN102201230A (zh) * 2011-06-15 2011-09-28 天津大学 一种突发事件语音检测方法
CN102436809A (zh) * 2011-10-21 2012-05-02 东南大学 英语口语机考系统中网络语音识别方法
CN102436815A (zh) * 2011-09-13 2012-05-02 东南大学 一种应用于英语口语网络机考系统的语音识别装置
CN104900229A (zh) * 2015-05-25 2015-09-09 桂林电子科技大学信息科技学院 一种语音信号混合特征参数的提取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1397929A (zh) * 2002-07-12 2003-02-19 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
US20090144058A1 (en) * 2003-04-01 2009-06-04 Alexander Sorin Restoration of high-order Mel Frequency Cepstral Coefficients
CN1758332A (zh) * 2005-10-31 2006-04-12 浙江大学 基于倒谱特征线性情感补偿的说话人识别方法
CN101546555A (zh) * 2009-04-14 2009-09-30 清华大学 用于语种识别的约束异方差线性鉴别分析方法
CN102201230A (zh) * 2011-06-15 2011-09-28 天津大学 一种突发事件语音检测方法
CN102436815A (zh) * 2011-09-13 2012-05-02 东南大学 一种应用于英语口语网络机考系统的语音识别装置
CN102436809A (zh) * 2011-10-21 2012-05-02 东南大学 英语口语机考系统中网络语音识别方法
CN104900229A (zh) * 2015-05-25 2015-09-09 桂林电子科技大学信息科技学院 一种语音信号混合特征参数的提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张毅 等: "基于人耳听觉特性的语音识别预处理研究", 《计算机仿真》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564956A (zh) * 2018-03-26 2018-09-21 京北方信息技术股份有限公司 一种声纹识别方法和装置、服务器、存储介质
WO2020034628A1 (zh) * 2018-08-14 2020-02-20 平安科技(深圳)有限公司 口音识别方法、装置、计算机装置及存储介质
CN109065070A (zh) * 2018-08-29 2018-12-21 昆明理工大学 一种基于核函数的音频特征信号的降维方法
CN109065070B (zh) * 2018-08-29 2022-07-19 昆明理工大学 一种基于核函数的音频特征信号的降维方法
CN111402922A (zh) * 2020-03-06 2020-07-10 武汉轻工大学 基于小样本的音频信号分类方法、装置、设备及存储介质
CN111402922B (zh) * 2020-03-06 2023-06-30 武汉轻工大学 基于小样本的音频信号分类方法、装置、设备及存储介质
CN112397087A (zh) * 2020-11-13 2021-02-23 展讯通信(上海)有限公司 共振峰包络估计、语音处理方法及装置、存储介质、终端

Also Published As

Publication number Publication date
CN105679321B (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
Hossan et al. A novel approach for MFCC feature extraction
CN111261147B (zh) 一种面向语音识别系统的音乐嵌入攻击防御方法
Ganapathy et al. Robust feature extraction using modulation filtering of autoregressive models
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN105679321A (zh) 语音识别方法、装置及终端
CN109256127B (zh) 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
CN104900229A (zh) 一种语音信号混合特征参数的提取方法
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
Shi et al. Fusion feature extraction based on auditory and energy for noise-robust speech recognition
CN111899750A (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
Krobba et al. Mixture linear prediction Gammatone Cepstral features for robust speaker verification under transmission channel noise
Thomas et al. Acoustic and data-driven features for robust speech activity detection
CN111326170A (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
CN117219102A (zh) 一种基于听觉感知的低复杂度语音增强方法
CN111261192A (zh) 一种基于lstm网络的音频检测方法、电子设备及存储介质
Dai et al. An improved feature fusion for speaker recognition
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Naing et al. A front-end technique for automatic noisy speech recognition
Zheng et al. Bandwidth extension WaveNet for bone-conducted speech enhancement
Liang et al. Real-time speech enhancement algorithm for transient noise suppression
Seyedin et al. New features using robust MVDR spectrum of filtered autocorrelation sequence for robust speech recognition
Allosh et al. Speech recognition of Arabic spoken digits

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210519

Address after: 518052 a605, building G4, TCL International e city, Shuguang community, Xili street, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen yingmu Technology Co.,Ltd.

Address before: 518057 South Mountain High-tech Industrial Park North District, Shenzhen City, Guangdong Province, 1 Kupai Information Port, 6 floors

Patentee before: YULONG COMPUTER TELECOMMUNICATION SCIENTIFIC (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right