CN105513587B - 一种mfcc提取方法及装置 - Google Patents

一种mfcc提取方法及装置 Download PDF

Info

Publication number
CN105513587B
CN105513587B CN201410488089.0A CN201410488089A CN105513587B CN 105513587 B CN105513587 B CN 105513587B CN 201410488089 A CN201410488089 A CN 201410488089A CN 105513587 B CN105513587 B CN 105513587B
Authority
CN
China
Prior art keywords
data frame
voice data
processing parameter
processing
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410488089.0A
Other languages
English (en)
Other versions
CN105513587A (zh
Inventor
廖安华
李立华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201410488089.0A priority Critical patent/CN105513587B/zh
Publication of CN105513587A publication Critical patent/CN105513587A/zh
Application granted granted Critical
Publication of CN105513587B publication Critical patent/CN105513587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请实施例提供了一种MFCC提取方法及装置,依据语音数据帧的范围,确定第一处理参数,并使用所述第一处理参数,放大所述经过预处理后的语音数据帧后,提取放大后的语音数据帧的MFCC,可见,在进行MFCC提取之前,先将数据帧进行放大,并且因为第一处理参数与所述预处理后的语音数据帧的数据范围反相关,也就是说,语音数据帧的数据范围越小,第一处理参数越大,所以,对于能量较小的语音数据帧,在进行定点化时,比能量大的数据帧放大的程度更大,因为大数据帧比小数据帧更能抵消定点化带来的误差,所以,本申请实施例提供的方法及装置,能够提高从小能量的语音数据帧中提取到的MFCC的精度。

Description

一种MFCC提取方法及装置
技术领域
本申请涉及信号处理领域,尤其涉及一种MFCC提取方法及装置。
背景技术
Mel频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)是受人的听觉系统研究成果推动而导出的声学特征,MFCC在语音识别领域应用广泛,在进行语音识别时,通常需要从语音数据中提取出MFCC。
基于硬件的限制,语音识别设备只能实现整数计算,因此,在MFCC提取的过程中,需要将浮点数转换为整数,这一过程称为定点化。在现有技术中,一般采用固定的定点化位数,这对于能量较小的语音数据(例如,不响亮的语音)会导致较大的误差。
申请内容
本申请实施例提供了一种MFCC提取方法及装置,目的在于解决在提取能量较小的MFCC的过程中,出现的误差较大的问题。
为了实现上述目的,本申请实施例提供了以下技术方案:
一种MFCC提取方法,包括:
提取经过预处理后的语音数据帧的数据范围;
依据所述数据范围,确定第一处理参数,所述第一处理参数与所述预处理后的语音数据帧的数据范围反相关;
使用所述第一处理参数,放大所述经过预处理后的语音数据帧,放大后的语音数据帧用于提取MFCC。
可选地,所述依据所述数据范围,确定第一处理参数包括:
通过遍历所述语音数据帧中的每一个数据,确定所述语音数据帧中的最大值;
依据所述最大值与预设的参考值,确定第一处理参数,所述第一处理参数与所述差值反相关。
可选地,所述依据所述最大值与预设的参考值之间的差值,确定第一处理参数包括:
使用二进制表示所述最大值;
将所述参考值的位数与所述最大值的有效位数之差确定为第一处理参数,所述参考值为二进制数值。
可选地,所述使用所述第一处理参数,放大所述经过预处理后的语音数据帧包括:
使用二进制表示所述数据帧中的每个数据;
将使用二进制表示的每个数据的有效数值向左移动N位,所述N为所述第一处理参数。
一种MFCC提取方法,包括:
获取经过预处理后的语音数据帧;
依据经过所述预处理后的语音数据帧的数据范围,使用第一处理参数,将所述语音数据帧放大,其中所述第一处理参数由所述数据范围确定,并与所述语音数据帧的数据范围反相关;
将放大后的语音数据帧进行第二处理,所述第二处理中至少包括依据所述第一处理参数,缩小放大后的语音数据帧的过程;
获取进行第二处理后的语音数据帧的MFCC。
可选地,所述将放大后的语音数据帧进行第二处理包括:
将所述放大后的语音数据帧进行快速傅里叶变换,得到第一结果;
将所述第一结果进行快速傅里叶能量运算,得到第二结果;
将所述第二结果进行Mel滤波,得到第三结果;
将所述第三结果进行取对数运算,得到第四结果;
通过依据所述第一处理参数,缩小所述第四结果。
可选地,所述依据所述第一处理参数,缩小所述第四结果包括:
将所述第四结果减去所述第一处理参数的结果,得到第五结果,其中,所述第一处理参数为参考值与使用二进制表示所述最大值的有效位数之差,所述参考值为二进制数值。
可选地,所述获取进行第二处理后的语音数据帧的MFCC包括:
通过将所述第五结果进行离散余弦变换,确定所述语音数据帧的MFCC。
可选地,所述获取经过预处理后的语音数据帧包括:
将语音数据进行预加重处理;
将预加重处理后的语音数据进行分帧处理,得到语音数据帧;
将所述语音数据帧进行加窗处理。
一种MFCC提取装置,包括:
数据范围提取模块,用于提取经过预处理后的语音数据帧的数据范围;
处理参数确定模块,用于依据所述数据范围,确定第一处理参数,所述第一处理参数与所述预处理后的语音数据帧的数据范围反相关;
第一放大模块,用于使用所述第一处理参数,放大所述经过预处理后的语音数据帧,放大后的语音数据帧用于提取MFCC。
可选地,所述处理参数确定模块包括:
最大值确定单元,用于通过遍历所述语音数据帧中的每一个数据,确定所述语音数据帧中的最大值;
参数确定单元,用于依据所述最大值与预设的参考值,确定第一处理参数,所述第一处理参数与所述差值反相关。
可选地,所述参数确定单元用于依据所述最大值与预设的参考值,确定第一处理参数包括:
所述参数确定单元具体用于,使用二进制表示所述最大值,并将所述参考值的位数与所述最大值的有效位数之差确定为第一处理参数,所述参考值为二进制数值。
可选地,所述第一放大模块用于使用所述第一处理参数,放大所述经过预处理后的语音数据帧包括:
所述第一放大模块具体用于,使用二进制表示所述数据帧中的每个数据,并将使用二进制表示的每个数据的有效数值向左移动N位,所述N为所述第一处理参数。
一种MFCC提取装置,包括:
预处理模块,用于获取经过预处理后的语音数据帧;
第二放大模块,用于依据经过所述预处理后的语音数据帧的数据范围,使用第一处理参数,将所述语音数据帧放大,其中所述第一处理参数由所述数据范围确定,并与所述语音数据帧的数据范围反相关;
第二处理模块,用于将放大后的语音数据帧进行第二处理,所述第二处理中至少包括依据所述第一处理参数,缩小放大后的语音数据帧的过程;
MFCC获取模块,用于获取进行第二处理后的语音数据帧的MFCC。
可选地,所述第二处理模块包括:
快速傅里叶变换单元,用于将所述放大后的语音数据帧进行快速傅里叶变换,得到第一结果;
快速傅里叶能量运算单元,用于将所述第一结果进行快速傅里叶能量运算,得到第二结果;
Mel滤波单元,用于将所述第二结果进行Mel滤波,得到第三结果;
取对数单元,用于将所述第三结果进行取对数运算,得到第四结果;
缩小单元,用于通过依据所述第一处理参数,缩小所述第四结果。
可选地,所述缩小单元用于通过依据所述第一处理参数,缩小所述第四结果包括:
所述缩小单元具体用于,将所述第四结果减去所述第一处理参数的结果,得到第五结果,其中,所述第一处理参数为参考值与使用二进制表示所述最大值的有效位数之差,所述参考值为二进制数值。
可选地,所述MFCC获取模块用于获取进行第二处理后的语音数据帧的MFCC包括:
所述MFCC获取模块具体用于,通过将所述第五结果进行离散余弦变换,确定所述语音数据帧的MFCC。
可选地,所述预处理模块包括:
预加重单元,用于将语音数据进行预加重处理;
分帧单元,用于将预加重处理后的语音数据进行分帧处理,得到语音数据帧;
加窗单元,用于将所述语音数据帧进行加窗处理。
本申请实施例提供的MFCC提取方法及装置,依据语音数据帧的范围,确定第一处理参数,并使用所述第一处理参数,放大所述经过预处理后的语音数据帧后,提取放大后的语音数据帧的MFCC,可见,在进行MFCC提取之前,先将数据帧进行放大,并且因为第一处理参数与所述预处理后的语音数据帧的数据范围反相关,也就是说,语音数据帧的数据范围越小,第一处理参数越大,所以,对于能量较小的语音数据帧,在进行定点化时,比能量大的数据帧放大的程度更大,因为大数据帧比小数据帧更能抵消定点化带来的误差,所以,本申请实施例提供的方法及装置,能够提高从小能量的语音数据帧中提取到的MFCC的精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种MFCC提取方法的流程图;
图2为本申请实施例公开的又一种MFCC提取方法的流程图;
图3为本申请实施例公开的又一种MFCC提取方法的流程图;
图4为本申请实施例公开的又一种MFCC提取方法的流程图;
图5为本申请实施例公开的一种MFCC提取装置的结构示意图;
图6为本申请实施例公开的又一种MFCC提取装置的结构示意图。
具体实施方式
本申请实施例公开了一种MFCC提取方法及装置,可以应用在从语音中提取MFCC的过程中,目的在于减小提取小能量的语音数据帧的MFCC的误差。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例公开的一种MFCC提取方法,包括以下步骤:
S101:提取经过预处理后的语音数据帧的数据范围;
S102:依据所述数据范围,确定第一处理参数,所述第一处理参数与所述预处理后的语音数据帧的数据范围反相关;
S103:使用所述第一处理参数,放大所述经过预处理后的语音数据帧,放大后的语音数据帧用于提取MFCC。
现有技术中,在提取MFCC的过程中,无论语音数据帧的大小,均采用固定的量化位数(fixed-point expression)对每一帧语音数据帧进行定点化处理(包括放大处理),而对于能量较小的语音数据帧,即使放大后,数据范围还是很小,因此,在通过后续各处理步骤的累积后,形成的误差依然不可忽视。
本实施例所述方法,依据语音数据帧的数据范围确定第一处理参数,因为第一处理参数与语音数据帧的数据范围反相关,也就是说,语音数据帧的数据范围越小,第一处理参数越大,可见,对于数据范围本身很小的语音数据帧而言,使用较大的第一参数对其进行放大,所以,能够将数据范围很小的语音数据帧放大至一个较大的数据范围,因为大数据范围比小数据范围更能抵消定点化带来的误差,所以,能够提升从能量较小的语音数据帧提取的MFCC的精度。
图2为本申请实施例公开的又一种MFCC提取方法,具体包括以下步骤:
S201:提取经过预处理后的语音数据帧的数据范围;
通常,每一个数据帧均包括256个数据点,语音数据帧的数据范围指:这256个数据点的值的集合,其中包括最大值和最小值。
S202:通过遍历所述语音数据帧中的每一个数据,确定所述语音数据帧中的最大值;
S203:依据所述最大值与预设的参考值,确定第一处理参数,其中,第一处理参数与所述差值反相关;
具体地,依据所述最大值与预设的参考值,确定第一处理参数的具体过程为:
S2031:使用二进制表示所述最大值;
S2032:将所述参考值的位数与所述最大值的有效位数之差确定为第一处理参数,所述参考值为二进制数值;
例如,一个数据帧中的所有数据点的最大值为十六位二进制数0000 000000011000,其中,最高位为符号位,预设的参考值的位数为15。因为最大值的有效位的位数为5位,所以,第一处理参数为15-5=10。
S204:使用二进制表示所述数据帧中的每个数据;
S205:将使用二进制表示的每个数据的有效数值向左移动N位,所述N为所述第一处理参数;
例如,数据点0000 0000 0001 1000,向左移动10为后,变为0110 0000 00000000。
S206:使用放大后的语音数值帧提取MFCC。
本实施例所述的方法,通过二进制移位机制实现第一处理参数的确定,在保证提取精度的前提下,易于软硬件的实现。
图3为本申请实施例公开的又一种MFCC提取方法,包括以下步骤:
S301:获取经过预处理后的语音数据帧;
S302:依据经过所述预处理后的语音数据帧的数据范围,使用第一处理参数,将所述语音数据帧放大;
其中所述第一处理参数由所述数据范围确定,并与所述语音数据帧的数据范围反相关;
此步骤的具体实现方式可以参见图2所示的实施例,这里不再赘述。
S303:将放大后的语音数据帧进行第二处理,所述第二处理中至少包括依据所述第一处理参数,缩小放大后的语音数据帧的过程;
S304:获取进行第二处理后的语音数据帧的MFCC。
本实施例所述的方法,与现有技术相比,在经过预处理之后,使用第一处理参数,将语音数据帧进行放大,因为第一处理参数与语音数据帧的数据范围反相关,所以,越是能量小的语音数据帧,被放大的程度越大,之后,再使用第一处理参数将放大的语音数据帧进行缩小,直至最终得到MFCC,即在定点化过程中,先放大数据帧以抵消误差,在后续过程中,再缩小数据帧,从而提高MFCC提取的精度。
本实施例中,预处理以及第二处理的具体方式可以参见图4所示。
图4所示为本申请实施例公开的又一种MFCC提取方法,包括以下步骤:
S401:将语音数据进行预加重(pre-emphasis)处理;
所谓预加重过程为:将经采样后的数字语音信号s(n)通过一个高通滤波器(highpass filter)。
因为发声过程中声带和嘴唇的效应,使得高频共振峰的振幅低于低频共振峰的振幅,进行预加重的目的就是为了消除声带和嘴唇的效应,来补偿语音信号的高频部分。
S402:将预加重处理后的语音数据进行分帧(frame blocking)处理,得到语音数据帧;
一般取10-20ms为一帧,为了避免窗边界对信号的遗漏,因此对帧做偏移时候,要有帧迭(帧与帧之间需要重叠一部分)。一般取帧长的一半作为帧移,也就是每次位移一帧的二分之一后再取下一帧,这样可以避免帧与帧之间的特性变化太大。
S403:将所述语音数据帧进行加窗(window)处理;
语音在长范围内是不停变动的,没有固定的特性无法做处理,所以将每一帧代入窗函数,窗外的值设定为0,其目的是消除各个帧两端可能会造成的信号不连续性。常用的窗函数有方窗、汉明窗和汉宁窗等,根据窗函数的频域特性,常采用汉明窗。
S404:依据经过所述预处理后的语音数据帧的数据范围,使用第一处理参数,将所述语音数据帧放大,其中所述第一处理参数由所述数据范围确定,并与所述语音数据帧的数据范围反相关;
此步骤即为MFCC提取过程中的定点化过程,本实施例中所述第一处理参数的位数即为通常意义上的量化位数。
第一参数的确定过程以及方法过程如图2所示,这里不再赘述。
例如,语音数据帧中的数据点0000 0000 0001 1000,向左移动10为后,变为01100000 0000 0000。
S405:将所述放大后的语音数据帧进行快速傅里叶(FFT)变换,得到第一结果;
由于语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域上来观察,此时它的频谱会随着时间作缓慢的变化。所以通常将加窗后的帧经过FFT(FastFourier Transform)求出每帧的频谱参数。
S406:将所述第一结果进行快速傅里叶能量运算,得到第二结果;
S407:将所述第二结果进行Mel滤波,得到第三结果;
Mel滤波即将语音数据帧的频谱参数通过一组N个三角形带通滤波器(N一般为20~30个)所组成的梅尔(Mel)刻度滤波器。
S408:将所述第三结果进行取对数运算,得到第四结果;
S409:通过依据所述第一处理参数,缩小所述第四结果,得到第五结果;
此步骤具体的实现方式为:将所述第四结果减去所述第一处理参数的结果,得到第五结果,其中,所述第一处理参数为参考值与使用二进制表示所述最大值的有效位数之差,所述参考值为二进制数值。
例如,数据点0000 0000 0001 1000,向左移动10为后,变为0110 0000 00000000,此为放大过程,与此放大过程相对应的缩小过程为:将第四结果减去10,得到第五结果。
S410:通过将所述第五结果进行离散余弦变换,确定所述语音数据帧的MFCC。
本实施例中公开了一个提取MFCC的完整过程,在此过程中,越是能量小的数据帧越是被较大程度地放大,以减小MFCC提取过程中小能量语音数据帧的误差,提高MFCC的提取精度。
与上述方法实施例相对应地,本申请实施例还公开了一种MFCC提取装置,如图5所示,包括:
数据范围提取模块501,用于提取经过预处理后的语音数据帧的数据范围;
处理参数确定模块502,用于依据所述数据范围,确定第一处理参数,所述第一处理参数与所述预处理后的语音数据帧的数据范围反相关;
第一放大模块503,用于使用所述第一处理参数,放大所述经过预处理后的语音数据帧,放大后的语音数据帧用于提取MFCC。
本实施例中,具体地,所述处理参数确定模块502可以包括:最大值确定单元5021以及参数确定单元5022,其中,最大值确定单元5021,用于通过遍历所述语音数据帧中的每一个数据,确定所述语音数据帧中的最大值;参数确定单元5022,用于依据所述最大值与预设的参考值,确定第一处理参数,所述第一处理参数与所述差值反相关。
进一步地,所述参数确定单元5022依据所述最大值与预设的参考值,确定第一处理参数的具体实现方式为:使用二进制表示所述最大值,并将所述参考值的位数与所述最大值的有效位数之差确定为第一处理参数,所述参考值为二进制数值。
所述第一放大模块503使用所述第一处理参数,放大所述经过预处理后的语音数据帧的具体实现方式为:使用二进制表示所述数据帧中的每个数据,并将使用二进制表示的每个数据的有效数值向左移动N位,所述N为所述第一处理参数。
本实施例所述的装置,用于放大语音数据帧的第一处理参数与语音数据帧的数据范围反相关,因此,对于能量较小的语音数据帧,放大的程度越大,从而减小MFCC提取的误差,提高精度。
图6所述为本申请实施例公开的又一种MFCC提取装置,包括:
预处理模块601,用于获取经过预处理后的语音数据帧;
第二放大模块602,用于依据经过所述预处理后的语音数据帧的数据范围,使用第一处理参数,将所述语音数据帧放大,其中所述第一处理参数由所述数据范围确定,并与所述语音数据帧的数据范围反相关;
第二处理模块603,用于将放大后的语音数据帧进行第二处理,所述第二处理中至少包括依据所述第一处理参数,缩小放大后的语音数据帧的过程;
MFCC获取模块604,用于获取进行第二处理后的语音数据帧的MFCC。
具体地,本实施例中,第二处理模块603具体包括以下单元:
快速傅里叶变换单元6031,用于将所述放大后的语音数据帧进行快速傅里叶变换,得到第一结果;
快速傅里叶能量运算单元6032,用于将所述第一结果进行快速傅里叶能量运算,得到第二结果;
Mel滤波单元6033,用于将所述第二结果进行Mel滤波,得到第三结果;
取对数单元6034,用于将所述第三结果进行取对数运算,得到第四结果;
缩小单元6035,用于通过依据所述第一处理参数,缩小所述第四结果。
进一步地,所述缩小单元通过依据所述第一处理参数,缩小所述第四结果的具体实现方式为:将所述第四结果减去所述第一处理参数的结果,得到第五结果,其中,所述第一处理参数为参考值与使用二进制表示所述最大值的有效位数之差,所述参考值为二进制数值。
具体地,本实施例中,MFCC获取模块604获取进行第二处理后的语音数据帧的MFCC的具体实现方式为:通过将所述第五结果进行离散余弦变换,确定所述语音数据帧的MFCC。
具体地,所述预处理模块601可以包括以下单元:
预加重单元6011,用于将语音数据进行预加重处理;
分帧单元6012,用于将预加重处理后的语音数据进行分帧处理,得到语音数据帧;
加窗单元6013,用于将所述语音数据帧进行加窗处理。
本实施例所述的装置,在经过预处理之后,使用第一处理参数,将语音数据帧进行放大,因为第一处理参数与语音数据帧的数据范围反相关,所以,越是能量小的语音数据帧,被放大的程度越大,之后,再使用第一处理参数将放大的语音数据帧进行缩小,直至最终得到MFCC,从而提高MFCC提取的精度。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (16)

1.一种MFCC提取方法,其特征在于,包括:
提取经过加窗处理后的各个语音数据帧的数据范围;
针对每个语音数据帧,依据所述语音数据帧的数据范围,确定所述语音数据帧对应的第一处理参数,所述第一处理参数与所述语音数据帧的数据范围反相关;使用所述第一处理参数,放大所述语音数据帧,将放大后的语音数据帧进行快速傅里叶变换,对快速傅里叶变换的结果进行处理,确定所述语音数据帧的MFCC;
其中,所述依据所述语音数据帧的数据范围,确定所述语音数据帧对应的第一处理参数包括:
通过遍历所述语音数据帧中的每一个数据,确定所述语音数据帧中的最大值;
依据所述最大值与预设的参考值,确定第一处理参数,所述第一处理参数为所述参考值的位数与二进制表示的最大值的有效位数之差。
2.根据权利要求1所述的方法,其特征在于,所述依据所述最大值与预设的参考值之间的差值,确定第一处理参数包括:
使用二进制表示所述最大值;
将所述参考值的位数与所述最大值的有效位数之差确定为第一处理参数,所述参考值为二进制数值。
3.根据权利要求2所述的方法,其特征在于,所述使用所述第一处理参数,放大所述语音数据帧包括:
使用二进制表示所述数据帧中的每个数据;
将使用二进制表示的每个数据的有效数值向左移动N位,所述N为所述第一处理参数。
4.一种MFCC提取方法,其特征在于,包括:
获取经过加窗处理后的各个语音数据帧;
针对每个语音数据帧,依据所述语音数据帧的数据范围,使用所述语音数据帧对应的第一处理参数,将所述语音数据帧放大,其中所述第一处理参数由所述语音数据帧的数据范围确定,并与所述语音数据帧的数据范围反相关;确定所述语音数据帧对应的第一处理参数包括:通过遍历所述语音数据帧中的每一个数据,确定所述语音数据帧中的最大值;依据所述最大值与预设的参考值,确定第一处理参数,所述第一处理参数为所述参考值的位数与二进制表示的最大值的有效位数之差;
将放大后的语音数据帧进行快速傅里叶变换;
将快速傅里叶变换的结果进行第二处理,所述第二处理中至少包括依据所述第一处理参数,缩小放大后的语音数据帧的过程;
获取进行第二处理后的语音数据帧的MFCC。
5.根据权利要求4所述的方法,其特征在于,所述将放大后的语音数据帧进行第二处理包括:
将所述放大后的语音数据帧进行快速傅里叶变换,得到第一结果;
将所述第一结果进行快速傅里叶能量运算,得到第二结果;
将所述第二结果进行Mel滤波,得到第三结果;
将所述第三结果进行取对数运算,得到第四结果;
通过依据所述第一处理参数,缩小所述第四结果。
6.根据权利要求5所述的方法,其特征在于,所述依据所述第一处理参数,缩小所述第四结果包括:
将所述第四结果减去所述第一处理参数的结果,得到第五结果,其中,所述第一处理参数为参考值的位数与使用二进制表示最大值的有效位数之差,所述参考值为二进制数值。
7.根据权利要求6所述的方法,其特征在于,所述获取进行第二处理后的语音数据帧的MFCC包括:
通过将所述第五结果进行离散余弦变换,确定所述语音数据帧的MFCC。
8.根据权利要求4所述的方法,其特征在于,所述获取经过预处理后的各个语音数据帧包括:
将语音数据进行预加重处理;
将预加重处理后的语音数据进行分帧处理,得到各个语音数据帧;
将各个所述语音数据帧进行加窗处理。
9.一种MFCC提取装置,其特征在于,包括:
数据范围提取模块,用于提取经过加窗处理后的各个语音数据帧的数据范围;
处理参数确定模块,用于针对每个语音数据帧,依据所述语音数据帧的数据范围,确定所述语音数据帧对应的第一处理参数,所述第一处理参数与所述语音数据帧的数据范围反相关;
第一放大模块,用于使用所述第一处理参数,放大所述经过预处理后的语音数据帧,将放大后的语音数据帧进行快速傅里叶变换,对快速傅里叶变换的结果进行处理,确定所述语音数据帧的MFCC;
其中,所述处理参数确定模块包括:
最大值确定单元,用于通过遍历所述语音数据帧中的每一个数据,确定所述语音数据帧中的最大值;
参数确定单元,用于依据所述最大值与预设的参考值,确定第一处理参数,所述第一处理参数为所述参考值的位数与二进制表示的最大值的有效位数之差。
10.根据权利要求9所述的装置,其特征在于,所述参数确定单元用于依据所述最大值与预设的参考值,确定第一处理参数包括:
所述参数确定单元具体用于,使用二进制表示所述最大值,并将所述参考值的位数与所述最大值的有效位数之差确定为第一处理参数,所述参考值为二进制数值。
11.根据权利要求10所述的装置,其特征在于,所述第一放大模块用于使用所述第一处理参数,放大所述语音数据帧包括:
所述第一放大模块具体用于,使用二进制表示所述数据帧中的每个数据,并将使用二进制表示的每个数据的有效数值向左移动N位,所述N为所述第一处理参数。
12.一种MFCC提取装置,其特征在于,包括:
预处理模块,用于获取经过加窗处理后的各个语音数据帧;
第二放大模块,用于针对每个语音数据帧,依据所述语音数据帧的数据范围,使用所述语音数据帧对应的第一处理参数,将所述语音数据帧放大,其中所述第一处理参数由所述语音数据帧的数据范围确定,并与所述语音数据帧的数据范围反相关;确定所述语音数据帧对应的第一处理参数包括:通过遍历所述语音数据帧中的每一个数据,确定所述语音数据帧中的最大值;依据所述最大值与预设的参考值,确定第一处理参数,所述第一处理参数为所述参考值的位数与二进制表示的最大值的有效位数之差;将放大后的语音数据帧进行快速傅里叶变换;
第二处理模块,用于将快速傅里叶变换的结果进行第二处理,所述第二处理中至少包括依据所述第一处理参数,缩小放大后的语音数据帧的过程;
MFCC获取模块,用于获取进行第二处理后的语音数据帧的MFCC。
13.根据权利要求12所述的装置,其特征在于,所述第二处理模块包括:
快速傅里叶变换单元,用于将所述放大后的语音数据帧进行快速傅里叶变换,得到第一结果;
快速傅里叶能量运算单元,用于将所述第一结果进行快速傅里叶能量运算,得到第二结果;
Mel滤波单元,用于将所述第二结果进行Mel滤波,得到第三结果;
取对数单元,用于将所述第三结果进行取对数运算,得到第四结果;
缩小单元,用于依据所述第一处理参数,缩小所述第四结果。
14.根据权利要求13所述的装置,其特征在于,所述缩小单元用于依据所述第一处理参数,缩小所述第四结果包括:
所述缩小单元具体用于,将所述第四结果减去所述第一处理参数的结果,得到第五结果,其中,所述第一处理参数为参考值的位数与使用二进制表示最大值的有效位数之差,所述参考值为二进制数值。
15.根据权利要求14所述的装置,其特征在于,所述MFCC获取模块用于获取进行第二处理后的语音数据帧的MFCC包括:
所述MFCC获取模块具体用于,通过将所述第五结果进行离散余弦变换,确定所述语音数据帧的MFCC。
16.根据权利要求12所述的装置,其特征在于,所述预处理模块包括:
预加重单元,用于将语音数据进行预加重处理;
分帧单元,用于将预加重处理后的语音数据进行分帧处理,得到各个语音数据帧;
加窗单元,用于将各个所述语音数据帧进行加窗处理。
CN201410488089.0A 2014-09-22 2014-09-22 一种mfcc提取方法及装置 Active CN105513587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410488089.0A CN105513587B (zh) 2014-09-22 2014-09-22 一种mfcc提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410488089.0A CN105513587B (zh) 2014-09-22 2014-09-22 一种mfcc提取方法及装置

Publications (2)

Publication Number Publication Date
CN105513587A CN105513587A (zh) 2016-04-20
CN105513587B true CN105513587B (zh) 2020-07-24

Family

ID=55721516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410488089.0A Active CN105513587B (zh) 2014-09-22 2014-09-22 一种mfcc提取方法及装置

Country Status (1)

Country Link
CN (1) CN105513587B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910494B (zh) * 2016-06-28 2020-11-13 创新先进技术有限公司 一种音频识别方法和装置
CN106683664A (zh) * 2016-11-22 2017-05-17 中南大学 无线充电的语音开启方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1427368A (zh) * 2001-12-19 2003-07-02 中国科学院自动化研究所 掌上电脑非特定人语音识别方法
CN1532811A (zh) * 2003-03-21 2004-09-29 ض� 用于依佛雷姆-玛拉赫滤波器的精确分段多项式近似
CN1658153A (zh) * 2004-02-18 2005-08-24 联发科技股份有限公司 复合式动态定点数表示法与运算法及其处理器结构
CN1945488A (zh) * 2006-11-07 2007-04-11 北京中星微电子有限公司 一种求定点数字信号常用函数值的方法及装置
CN103004192A (zh) * 2010-07-15 2013-03-27 高通股份有限公司 用于视频译码中的固定点变换的可变局部位深增加
CN103021405A (zh) * 2012-12-05 2013-04-03 渤海大学 基于music和调制谱滤波的语音信号动态特征提取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7103547B2 (en) * 2001-05-07 2006-09-05 Texas Instruments Incorporated Implementing a high accuracy continuous speech recognizer on a fixed-point processor
KR100486733B1 (ko) * 2003-02-24 2005-05-03 삼성전자주식회사 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1427368A (zh) * 2001-12-19 2003-07-02 中国科学院自动化研究所 掌上电脑非特定人语音识别方法
CN1532811A (zh) * 2003-03-21 2004-09-29 ض� 用于依佛雷姆-玛拉赫滤波器的精确分段多项式近似
CN1658153A (zh) * 2004-02-18 2005-08-24 联发科技股份有限公司 复合式动态定点数表示法与运算法及其处理器结构
CN1945488A (zh) * 2006-11-07 2007-04-11 北京中星微电子有限公司 一种求定点数字信号常用函数值的方法及装置
CN103004192A (zh) * 2010-07-15 2013-03-27 高通股份有限公司 用于视频译码中的固定点变换的可变局部位深增加
CN103021405A (zh) * 2012-12-05 2013-04-03 渤海大学 基于music和调制谱滤波的语音信号动态特征提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于MFCC的语音识别加速技术研究";张军;《中国优秀硕士学位论文全文数据库信息科技辑》;20100715(第7期);正文第10页第2段-第16页,第21页第3段-第23页最后一段,第37页第3段-第50页 *

Also Published As

Publication number Publication date
CN105513587A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
CN106486130B (zh) 噪声消除、语音识别方法及装置
DE102019113534B4 (de) Verfahren und System zur Zeitdomänen-Merkmalsextraktion für die automatische Spracherkennung
WO2018223727A1 (zh) 识别声纹的方法、装置、设备及介质
CN108335694B (zh) 远场环境噪声处理方法、装置、设备和存储介质
CN1210608A (zh) 一种有噪语音参数增强的方法和装置
CN108847253B (zh) 车辆型号识别方法、装置、计算机设备及存储介质
KR20090076683A (ko) 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체
CN108682432B (zh) 语音情感识别装置
EP4189677B1 (en) Noise reduction using machine learning
Towsey Noise removal from wave-forms and spectrograms derived from natural recordings of the environment
CN112599148A (zh) 一种语音识别方法及装置
CN111863008A (zh) 一种音频降噪方法、装置及存储介质
CN105513587B (zh) 一种mfcc提取方法及装置
CN109102818B (zh) 一种基于信号频率概率密度函数分布的去噪音频采样算法
CN114996489A (zh) 新闻数据的违规检测方法、装置、设备及存储介质
CN108053834B (zh) 音频数据处理方法、装置、终端及系统
CN110610696A (zh) 一种基于混合信号域的mfcc特征提取方法及装置
CN105355206B (zh) 一种声纹特征提取方法和电子设备
JP2010102129A (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
CN100358007C (zh) 一种利用改进的谱相减法提高语音识别精度的方法
CN110197657B (zh) 一种基于余弦相似度的动态音声特征提取方法
CN111341327A (zh) 一种基于粒子群算法的说话人语音识别方法、装置和设备
CN112397087B (zh) 共振峰包络估计、语音处理方法及装置、存储介质、终端
CN114360566A (zh) 一种语音信号的降噪处理方法、装置以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant