CN109147818A - 声学特征提取方法、装置、存储介质及终端设备 - Google Patents

声学特征提取方法、装置、存储介质及终端设备 Download PDF

Info

Publication number
CN109147818A
CN109147818A CN201811273425.4A CN201811273425A CN109147818A CN 109147818 A CN109147818 A CN 109147818A CN 201811273425 A CN201811273425 A CN 201811273425A CN 109147818 A CN109147818 A CN 109147818A
Authority
CN
China
Prior art keywords
frequency
frame
meier
data
data block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811273425.4A
Other languages
English (en)
Inventor
陈岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201811273425.4A priority Critical patent/CN109147818A/zh
Publication of CN109147818A publication Critical patent/CN109147818A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Abstract

本申请实施例中提供的一种声学特征提取方法、装置、存储介质及终端设备,该方法包括:获取待处理语音信号;对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;根据所述梅尔频谱数据确定梅尔频率倒谱系数。通过采用上述技术方案,可以降低提取梅尔频率倒谱系数时对每帧数据的算法的次数,可以降低提取声学特征带来的功耗。

Description

声学特征提取方法、装置、存储介质及终端设备
技术领域
本申请实施例涉及信号处理技术领域,尤其涉及一种声学特征提取方法、装置、存储介质及终端设备。
背景技术
随着终端设备的快速发展,越来越多的语音功能应用到终端设备中,例如声纹唤醒和语音识别等等。梅尔频率倒谱系数(MFCC,Mel Frequency Cepstrum Coefficient)是基于人耳的听觉而导出的声学特征,广泛应用于语音识别领域应,在进行声纹唤醒或者语音识别时,通常需要从语音数据中提取出梅尔频率倒谱系数作为识别语音的特征。而现有技术中对梅尔频率倒谱系数的提取处理会造成终端设备的较多的功耗,所以需要对梅尔频率倒谱系数的提取方法进行优化。
发明内容
本申请实施例提供的一种声学特征提取方法、装置、存储介质及终端设备,可以降低终端设备的功耗。
第一方面,本申请实施例提供了一种声学特征提取方法,包括:
获取待处理语音信号;
对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;
对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;
将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;
根据所述梅尔频谱数据确定梅尔频率倒谱系数。
第二方面,本申请实施例提供了一种声学特征提取装置,包括:
信号获取模块,用于获取待处理语音信号;
分帧模块,用于对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;
能量谱获取模块,用于对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;
滤波模块,用于将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;
系数提取模块,用于根据所述梅尔频谱数据确定梅尔频率倒谱系数。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的声学特征提取方法。
第四方面,本申请实施例提供了一种终端设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的声学特征提取方法。
本申请实施例中提供的一种声学特征提取方案,通过获取待处理语音信号;对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;根据所述梅尔频谱数据确定梅尔频率倒谱系数。通过采用上述技术方案,可以降低提取梅尔频率倒谱系数时对每帧数据的算法的次数,可以降低提取声学特征带来的功耗。
附图说明
图1为本申请实施例提供的一种声学特征提取方法的流程示意图;
图2为本申请实施例提供的分帧处理的示意图;
图3为本申请实施例提供的矩形滤波器组的示意图;
图4为本申请实施例提供的一种声学特征提取装置的结构框图;
图5为本申请实施例提供的一种终端设备的结构示意图;
图6为本申请实施例提供的另一种终端设备的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本申请的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
图1为本申请实施例提供的一种声学特征提取方法的流程示意图,该方法可以由声学特征提取装置执行,其中该装置可以由软件和/或硬件实现,一般可以集成在终端设备中,也可以集成在其他安装有操作系统的设备中。如图1所示,该方法包括:
S110、获取待处理语音信号。
其中,所述待处理语音信号可以是经过预加重滤波的语音信号,还可以是未经过预加重滤波的语音信号,也就是普通的语音信号。所述预加重滤波为对输入的语音信号进行高通滤波处理,可以提高语音信号中的高频部分,使得频谱变得平坦。
如果所述待处理语音信号为未经过预加重滤波处理的语音信号,则可以在对待处理语音信号进行分帧处理后再对每一帧语音数据块进行预加重滤波处理。
示例性地,所述预加重滤波器的响应公式可以是:
S111、对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续。
其中,所述待处理语音信号一般包括一段时间区间的语音信号,而一段时间区间中包括至少两帧语音数据块,为了方便对语音信号进行后续的运算处理,需要对待处理语音信号进行分帧处理,以得到以帧为单位的语音数据块。示例性地,将待处理语音信号分为若干帧语音数据块,每帧语音数据块包括80个语音数据。
在常规的梅尔频率倒谱系数提取操作中,在分帧处理时,每两个相邻帧之间会设置一段重叠区间,如图2所示,其中,语音数据块120和语音数据块121是在时域上先后的两帧语音数据块,两者在时域上有一段区间是重叠的,所以在后续的处理过程中,该重叠部分的数据会被运算两次,即在对语音数据块120进行特征提取时运算一次,在对语音数据块121进行特征提取时再运算一次。
在本申请实施例中的分帧处理时,每两个相邻帧的语音数据块在时域上是保持连续的,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续,如图2中所示,其中,语音数据块130、语音数据块131和语音数据块132是在时域上依次先后的三帧相邻的语音数据块、语音数据块130在时域上保持连续,语音数据块130和语音数据块131在时域上保持连续。常规的分帧处理中的每一帧语音数据块包括160个数据,两帧相邻的数据块的长度一共包括320个数据,但是因为重叠的部分,实际上的有效长度包括240个数据,但是在后续运算中需要对320个数据进行运算。而本申请实施例中的每一个语音数据块包括80个数据,三个连续的数据块一共包括240个数据,有效长度也是240个数据,所以在后续运算中只需要对240个数据进行运算,从而可以降低后续运算处理中的运算量。
S112、对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱。
其中,所述加窗处理为对所述语音数据块进行滤波处理,将每帧数据块乘以汉明窗,以增加两帧连续的数据块的先后的连续性。示例性地,所述汉明窗为:
傅里叶变换用于将语音数据块从时域转换为频域,以得到语音信号在不同频率上的分布情况,即语音能量谱。加窗处理和傅里叶变化处理的具体实施方式可以参考现有技术,在此不再赘述。
S113、将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据。
其中,所述梅尔滤波器组包括若干个滤波器,滤波器的数量可以根据梅尔频率区间的划分数量进行确定,在此不做限定。梅尔滤波器组的设置和人耳听觉模型相对应,只关注某些特定频率,允许某些特定频率的信号通过;梅尔滤波器组可以对语音能量谱中的冗余的数据进行滤除,保证语音能量谱中有效的数据,以得到梅尔频谱数据,可以准确体现语音特征的数据。
常规的梅尔频率倒谱系数提取操作中,一般是采用三角滤波器作为梅尔滤波器组中的滤波器。可选地,本申请实施例的梅尔滤波器组可以是矩形滤波器组,在本申请实施例中的分帧处理中,每两个连续帧数据块之间没有重叠部分,所以本申请实施例采用矩形滤波器作为梅尔滤波器组中的滤波器,可以保证每帧语音能量谱中的有效的数据。
所述矩形滤波器组中的每个矩形滤波器的中心频率在梅尔频率上依次等间隔排列,每个矩形滤波器的在频域上的宽度和对应的梅尔频率区间对应。
梅尔频率为与人耳对语音信号的感知相对应的频率。人耳对语音信号不同频率的感知在频域上不会呈现线性关系,一般是对低频的感知比较高,对高频的感知比较低;示例性地,两种语音信号的频率相差两倍,但是人耳听到两种语音信号并不会有相差两倍的感知。而人耳对语音信号不同频率的感知在梅尔频率上呈现线性关系;示例性地,若人耳听到两种语音信号所感知的音调相差两倍,则该两种语音信号在梅尔频率上也相差两倍。
所述矩形滤波器组中每个滤波器的中心频率在梅尔频率上依次等间隔排列,相应地,在普通频域上会呈现在低频处比较密集、高频处比较稀疏的呈现状态。示例性地,如图3所示,图中的横轴表示普通频域,纵轴表示滤波器的幅值。图3中示出了位于低频处的四个矩形滤波器:f1、f2、f3和f4,以及示出了位于高频处的四个矩形滤波器:f9、f10、f11和f12;其中,f1、f2、f3和f4的分布比较密集,f9、f10、f11和f12的分布比较稀疏。
所述梅尔频率区间为在梅尔频率上均匀分布的不同的区间,每个矩形滤波器的在频域上的宽度和对应的梅尔频率区间对应,即每个矩形滤波器的宽度在梅尔频率上是相同的,相应地,在普通频率上会呈现低频处的滤波器的宽度比较窄,在高频处的滤波器的宽度比较宽的呈现。示例性地,如图3所示,低频处的滤波器的宽度比较窄,高频处的滤波器的宽度较宽。
通过将所述矩形滤波器组中的每个矩形滤波器的中心频率在梅尔频率上依次等间隔排列,每个矩形滤波器的在频域上的宽度和对应的梅尔频率区间对应,可以使矩形滤波器组提取对每一帧语音数据块在不同梅尔频率区间的能量谱,即梅尔频谱数据。
可选地,所述矩形滤波器组的中心频率在频域和梅尔频率的映射关系符合如下公式:
其中,所述f为频域上的频率,所述Mel(f)为梅尔频率。
可选地,所述矩形滤波器组的每个矩形滤波器的幅值均相同。其中,对于每个矩形滤波器采用相同的幅值,在将语音数据谱通过梅尔滤波器组时,可以降低每帧语音数据谱的计算次数。常规的梅尔滤波器组采用三角滤波器,即每帧语音数据谱中的每个数据都需要乘以对应的增益,将一帧中的所有乘了增益的数据相加,得到梅尔频谱数据。而语音能量谱通过矩形滤波器组,且每个矩形滤波器组的幅值均相同,即每个数据所要乘的增益均相同,可以降低计算梅尔频谱数据的运算量。示例性地,所述矩形滤波器的幅值为1,若矩形滤波器的幅值设为1,则每一帧的语音能量谱中的数据只需要进行相加,无需进行乘法运算,可以更进一步降低计算梅尔频谱数据的运算量。
S114、根据所述梅尔频谱数据确定梅尔频率倒谱系数。
其中,可以通过对梅尔频谱数据进行离散余弦变换以确定梅尔频率倒谱系数。
可选地,对所述梅尔频谱数据进行离散余弦变换,以确定梅尔频率倒谱系数,其中,每一帧的离散余弦变换中的能量谱为当前梅尔频谱数据的能量谱,与相邻帧的梅尔频谱数据的能量谱之和。
其中,离散余弦变换公式为:
其中,K为梅尔滤波器组中滤波器的个数,l为每个滤波器的阶数,示例性地,如果K=12,则l=1,2,…,12;Sk是梅尔频谱数据,
本申请实施例的方案中,在分帧处理时,每两帧语音数据块在时域上是保持连续的,所以在对每一帧语音数据块进行离散余弦变换时,可以将当前计算的能量谱确定为当前帧的梅尔频谱数据的能量谱加上相邻帧的梅尔频谱数据的能量谱之和;示例性地,如图2所示,语音数据块130的梅尔频谱数据为SFn-1,k,语音数据块131的梅尔频谱数据为SFn,k,将两者的梅尔频谱数据相加,即Sn,k=SFn-1,k+SFn,k,将Sn,k作为对语音数据块130的运算中梅尔频谱数据,如此可以实现另一种类型的重叠,但是相比常规的算法,运算量更低。
可选地,在确定梅尔频率倒谱系数之前,还包括:
对静态频谱数据进行动态差分参数的提取,以确定梅尔频率倒谱系数,其中,所述静态频谱数据为对所述梅尔频谱数据进行离散余弦变换所确定。
所述动态差分参数的提取公式为:
其中,对梅尔频谱数据进行离散余弦变换后所确定的频谱数据只反映了语音的静态特性,所以通过进一步对静态频谱数据进行动态差分参数的提取,来确定语音的动态特性,进而可以得到识别度更高的梅尔频率倒谱系数。
本申请实施例中提供的一种声学特征提取方法,通过获取待处理语音信号;对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;根据所述梅尔频谱数据确定梅尔频率倒谱系数。通过采用上述技术方案,可以降低提取梅尔频率倒谱系数时对每帧数据的算法的次数,可以降低提取声学特征带来的功耗。
图4为本申请实施例提供的一种声学特征提取装置的结构框图,该装置可以执行声学特征提取方法,如图4所示,该装置包括:
信号获取模块210,用于获取待处理语音信号;
分帧模块211,用于对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;
能量谱获取模块212,用于对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;
滤波模块213,用于将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;
系数提取模块214,用于根据所述梅尔频谱数据确定梅尔频率倒谱系数。
本申请实施例中提供的一种声学特征提取装置,通过获取待处理语音信号;对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;根据所述梅尔频谱数据确定梅尔频率倒谱系数。通过采用上述技术方案,可以降低提取梅尔频率倒谱系数时对每帧数据的算法的次数,可以降低提取声学特征带来的功耗。
可选地,所述梅尔滤波器组为矩形滤波器组,所述矩形滤波器组中的每个矩形滤波器的中心频率在梅尔频率上依次等间隔排列,每个矩形滤波器的在频域上的宽度和对应的梅尔频率区间对应。
可选地,所述矩形滤波器组的中心频率在频域和梅尔频率的映射关系符合如下公式:
其中,所述f为频域上的频率,所述Mel(f)为梅尔频率。
可选地,所述矩形滤波器组的每个矩形滤波器的幅值均相同。
可选地,所述矩形滤波器的幅值为1。
可选地,系数提取模块具体用于:
对所述梅尔频谱数据进行离散余弦变换,以确定梅尔频率倒谱系数,其中,每一帧的离散余弦变换中的能量谱为当前梅尔频谱数据的能量谱,与相邻帧的梅尔频谱数据的能量谱之和。
可选地,在确定梅尔频率倒谱系数之前,还包括:
对静态频谱数据进行动态差分参数的提取,以确定梅尔频率倒谱系数,其中,所述静态频谱数据为对所述梅尔频谱数据进行离散余弦变换所确定。
本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的声学特征提取操作,还可以执行本申请任意实施例所提供的声学特征提取方法中的相关操作。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行声学特征提取方法,该方法包括:
获取待处理语音信号;
对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;
对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;
将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;
根据所述梅尔频谱数据确定梅尔频率倒谱系数。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
本申请实施例提供了一种终端设备,该终端设备中可集成本申请实施例提供的声学特征提取装置。
图5为本申请实施例提供的一种终端设备的结构示意图,本申请实施例提供了一种终端设备30,包括存储器31,处理器32及存储在存储器31上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例所述的声学特征提取方法。本申请实施例提供的终端设备,可以降低提取声学特征带来的功耗。
图6为本申请实施例提供的一种终端设备的结构示意图。如图6所示,该终端设备可以包括:壳体(图中未示出)、触摸屏(图中未示出)、触摸按键(图中未示出)、存储器301、中央处理器(Central Processing Unit,CPU)302(又称处理器,以下简称CPU)、电路板(图中未示出)和电源电路(图中未示出)。所述电路板安置在所述壳体围成的空间内部;所述CPU302和所述存储器301设置在所述电路板上;所述电源电路,用于为所述终端设备的各个电路或器件供电;所述存储器301,用于存储可执行程序代码;所述CPU302通过读取所述存储器301中存储的可执行程序代码来运行与所述可执行程序代码对应的计算机程序,以实现以下步骤:
获取待处理语音信号;
对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;
对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;
将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;
根据所述梅尔频谱数据确定梅尔频率倒谱系数。
所述终端设备还包括:外设接口303、RF(Radio Frequency,射频)电路305、音频电路306、扬声器311、电源管理芯片308、输入/输出(I/O)子系统309、触摸屏312、其他输入/控制设备310以及外部端口304,这些部件通过一个或多个通信总线或信号线307来通信。
应该理解的是,图示终端设备300仅仅是终端设备的一个范例,并且终端设备300可以具有比图中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。
下面就本实施例提供的用于实现声学特征提取的终端设备进行详细的描述,该终端设备以手机为例。
存储器301,所述存储器301可以被CPU302、外设接口303等访问,所述存储器301可以包括高速随机存取存储器,还可以包括非易失性存储器,例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
外设接口303,所述外设接口303可以将设备的输入和输出外设连接到CPU302和存储器301。
I/O子系统309,所述I/O子系统309可以将设备上的输入输出外设,例如触摸屏312和其他输入/控制设备310,连接到外设接口303。I/O子系统309可以包括显示控制器3091和用于控制其他输入/控制设备310的一个或多个输入控制器3092。其中,一个或多个输入控制器3092从其他输入/控制设备310接收电信号或者向其他输入/控制设备310发送电信号,其他输入/控制设备310可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是,输入控制器3092可以与以下任一个连接:键盘、红外端口、USB接口以及诸如鼠标的指示设备。
触摸屏312,所述触摸屏312是用户终端设备与用户之间的输入接口和输出接口,将可视输出显示给用户,可视输出可以包括图形、文本、图标、视频等。
I/O子系统309中的显示控制器3091从触摸屏312接收电信号或者向触摸屏312发送电信号。触摸屏312检测触摸屏上的接触,显示控制器3091将检测到的接触转换为与显示在触摸屏312上的用户界面对象的交互,即实现人机交互,显示在触摸屏312上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是,设备还可以包括光鼠,光鼠是不显示可视输出的触摸敏感表面,或者是由触摸屏形成的触摸敏感表面的延伸。
RF电路305,主要用于建立手机与无线网络(即网络侧)的通信,实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地,RF电路305接收并发送RF信号,RF信号也称为电磁信号,RF电路305将电信号转换为电磁信号或将电磁信号转换为电信号,并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路305可以包括用于执行这些功能的已知电路,其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC(COder-DECoder,编译码器)芯片组、用户标识模块(Subscriber Identity Module,SIM)等等。
音频电路306,主要用于从外设接口303接收音频数据,将该音频数据转换为电信号,并且将该电信号发送给扬声器311。
扬声器311,用于将手机通过RF电路305从无线网络接收的语音信号,还原为声音并向用户播放该声音。
电源管理芯片308,用于为CPU302、I/O子系统及外设接口所连接的硬件进行供电及电源管理。
本申请实施例提供的终端设备,可以降低提取声学特征带来的功耗。
上述实施例中提供的声学特征提取装置、存储介质及终端设备可执行本申请任意实施例所提供的声学特征提取方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的声学特征提取方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (10)

1.一种声学特征提取方法,其特征在于,包括:
获取待处理语音信号;
对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;
对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;
将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;
根据所述梅尔频谱数据确定梅尔频率倒谱系数。
2.如权利要求1所述的方法,其特征在于,所述梅尔滤波器组为矩形滤波器组,所述矩形滤波器组中的每个矩形滤波器的中心频率在梅尔频率上依次等间隔排列,每个矩形滤波器的在频域上的宽度和对应的梅尔频率区间对应。
3.如权利要求2所述的方法,其特征在于,所述矩形滤波器组的中心频率在频域和梅尔频率的映射关系符合如下公式:
其中,所述f为频域上的频率,所述Mel(f)为梅尔频率。
4.如权利要求2所述的方法,其特征在于,所述矩形滤波器组的每个矩形滤波器的幅值均相同。
5.如权利要求4所述的方法,其特征在于,所述矩形滤波器的幅值为1。
6.如权利要求1至5任一项所述的方法,其特征在于,根据所述梅尔频谱数据确定梅尔频率倒谱系数包括:
对所述梅尔频谱数据进行离散余弦变换,以确定梅尔频率倒谱系数,其中,每一帧的离散余弦变换中的能量谱为当前梅尔频谱数据的能量谱,与相邻帧的梅尔频谱数据的能量谱之和。
7.如权利要求6所述的方法,其特征在于,在确定梅尔频率倒谱系数之前,还包括:
对静态频谱数据进行动态差分参数的提取,以确定梅尔频率倒谱系数,其中,所述静态频谱数据为对所述梅尔频谱数据进行离散余弦变换所确定。
8.一种声学特征提取装置,其特征在于,包括:
信号获取模块,用于获取待处理语音信号;
分帧模块,用于对所述待处理语音信号进行分帧处理,得到以帧为单位的连续的语音数据块,其中,每两个相邻帧的语音数据块中,前一帧的语音数据块中的最后一个数据和后一帧的语音数据块中的第一个数据在时域上保持连续;
能量谱获取模块,用于对所述语音数据块进行加窗处理和傅里叶变换处理,以得到语音能量谱;
滤波模块,用于将所述语音能量谱通过梅尔滤波器组,以得到梅尔频谱数据;
系数提取模块,用于根据所述梅尔频谱数据确定梅尔频率倒谱系数。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的声学特征提取方法。
10.一种终端设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的声学特征提取方法。
CN201811273425.4A 2018-10-30 2018-10-30 声学特征提取方法、装置、存储介质及终端设备 Pending CN109147818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811273425.4A CN109147818A (zh) 2018-10-30 2018-10-30 声学特征提取方法、装置、存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811273425.4A CN109147818A (zh) 2018-10-30 2018-10-30 声学特征提取方法、装置、存储介质及终端设备

Publications (1)

Publication Number Publication Date
CN109147818A true CN109147818A (zh) 2019-01-04

Family

ID=64806435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811273425.4A Pending CN109147818A (zh) 2018-10-30 2018-10-30 声学特征提取方法、装置、存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN109147818A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110049395A (zh) * 2019-04-25 2019-07-23 维沃移动通信有限公司 耳机控制方法及耳机设备
CN110444202A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110556125A (zh) * 2019-10-15 2019-12-10 出门问问信息科技有限公司 基于语音信号的特征提取方法、设备及计算机存储介质
CN111081247A (zh) * 2019-12-24 2020-04-28 腾讯科技(深圳)有限公司 语音识别的方法以及终端、服务器和计算机可读存储介质
CN111210806A (zh) * 2020-01-10 2020-05-29 东南大学 一种基于串行fft的低功耗mfcc语音特征提取电路
CN111415674A (zh) * 2020-05-07 2020-07-14 北京声智科技有限公司 语音降噪方法及电子设备
CN111739544A (zh) * 2019-03-25 2020-10-02 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备及存储介质
CN112669819A (zh) * 2020-12-16 2021-04-16 东南大学 基于不重叠分帧和串行fft的极低功耗语音特征提取电路
CN112908307A (zh) * 2021-01-29 2021-06-04 云从科技集团股份有限公司 一种音频特征提取方法、系统、设备及介质
CN113160797A (zh) * 2021-04-25 2021-07-23 北京华捷艾米科技有限公司 音频特征处理方法及装置、存储介质及电子设备
CN113571043A (zh) * 2021-07-27 2021-10-29 广州欢城文化传媒有限公司 一种方言模拟力测评方法、装置、电子设备及存储介质
CN113611288A (zh) * 2021-08-06 2021-11-05 南京华捷艾米软件科技有限公司 一种音频特征提取方法、装置及系统
CN113746583A (zh) * 2021-09-18 2021-12-03 鹰潭市广播电视传媒集团有限责任公司 公共播音设备的远程管理系统、方法、装置和存储介质
CN113823089A (zh) * 2021-09-19 2021-12-21 广州丹雅科技有限公司 交通量检测方法、装置、电子设备及可读存储介质
CN115129923A (zh) * 2022-05-17 2022-09-30 荣耀终端有限公司 语音搜索方法、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095624A (zh) * 2014-05-15 2015-11-25 中国电子科技集团公司第三十四研究所 一种光纤传感振动信号的识别方法
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN107274887A (zh) * 2017-05-09 2017-10-20 重庆邮电大学 基于融合特征mgfcc的说话人二次特征提取方法
CN107527620A (zh) * 2017-07-25 2017-12-29 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
CN107993663A (zh) * 2017-09-11 2018-05-04 北京航空航天大学 一种基于Android的声纹识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095624A (zh) * 2014-05-15 2015-11-25 中国电子科技集团公司第三十四研究所 一种光纤传感振动信号的识别方法
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN107274887A (zh) * 2017-05-09 2017-10-20 重庆邮电大学 基于融合特征mgfcc的说话人二次特征提取方法
CN107527620A (zh) * 2017-07-25 2017-12-29 平安科技(深圳)有限公司 电子装置、身份验证的方法及计算机可读存储介质
CN107993663A (zh) * 2017-09-11 2018-05-04 北京航空航天大学 一种基于Android的声纹识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张晶: "基于 MFCC 参数的说话人特征提取算法的改进", 《电声技术》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111739544A (zh) * 2019-03-25 2020-10-02 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备及存储介质
CN111739544B (zh) * 2019-03-25 2023-10-20 Oppo广东移动通信有限公司 语音处理方法、装置、电子设备及存储介质
CN110049395A (zh) * 2019-04-25 2019-07-23 维沃移动通信有限公司 耳机控制方法及耳机设备
CN110049395B (zh) * 2019-04-25 2020-06-05 维沃移动通信有限公司 耳机控制方法及耳机设备
CN110444202A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110444202B (zh) * 2019-07-04 2023-05-26 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110556125A (zh) * 2019-10-15 2019-12-10 出门问问信息科技有限公司 基于语音信号的特征提取方法、设备及计算机存储介质
CN111081247A (zh) * 2019-12-24 2020-04-28 腾讯科技(深圳)有限公司 语音识别的方法以及终端、服务器和计算机可读存储介质
CN111210806A (zh) * 2020-01-10 2020-05-29 东南大学 一种基于串行fft的低功耗mfcc语音特征提取电路
CN111415674A (zh) * 2020-05-07 2020-07-14 北京声智科技有限公司 语音降噪方法及电子设备
CN112669819B (zh) * 2020-12-16 2024-04-02 东南大学 基于不重叠分帧和串行fft的极低功耗语音特征提取电路
CN112669819A (zh) * 2020-12-16 2021-04-16 东南大学 基于不重叠分帧和串行fft的极低功耗语音特征提取电路
CN112908307A (zh) * 2021-01-29 2021-06-04 云从科技集团股份有限公司 一种音频特征提取方法、系统、设备及介质
CN113160797A (zh) * 2021-04-25 2021-07-23 北京华捷艾米科技有限公司 音频特征处理方法及装置、存储介质及电子设备
CN113571043A (zh) * 2021-07-27 2021-10-29 广州欢城文化传媒有限公司 一种方言模拟力测评方法、装置、电子设备及存储介质
CN113611288A (zh) * 2021-08-06 2021-11-05 南京华捷艾米软件科技有限公司 一种音频特征提取方法、装置及系统
CN113746583A (zh) * 2021-09-18 2021-12-03 鹰潭市广播电视传媒集团有限责任公司 公共播音设备的远程管理系统、方法、装置和存储介质
CN113823089A (zh) * 2021-09-19 2021-12-21 广州丹雅科技有限公司 交通量检测方法、装置、电子设备及可读存储介质
CN115129923A (zh) * 2022-05-17 2022-09-30 荣耀终端有限公司 语音搜索方法、设备及存储介质
CN115129923B (zh) * 2022-05-17 2023-10-20 荣耀终端有限公司 语音搜索方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109147818A (zh) 声学特征提取方法、装置、存储介质及终端设备
US10237651B2 (en) Audio signal processing method and electronic device for supporting the same
CN108027952B (zh) 用于提供内容的方法和电子设备
CN107509153B (zh) 声音播放器件的检测方法、装置、存储介质及终端
CN110992963B (zh) 网络通话方法、装置、计算机设备及存储介质
CN108735209A (zh) 唤醒词绑定方法、智能设备及存储介质
CN108470034A (zh) 一种智能设备服务提供方法及系统
CN110060685A (zh) 语音唤醒方法和装置
US10783884B2 (en) Electronic device-awakening method and apparatus, device and computer-readable storage medium
CN109379678A (zh) 非线性补偿方法、装置、存储介质及终端设备
CN111986691B (zh) 音频处理方法、装置、计算机设备及存储介质
US11915700B2 (en) Device for processing user voice input
CN105912296A (zh) 语音控制方法及系统
CN111445901A (zh) 音频数据获取方法、装置、电子设备及存储介质
CN107799113B (zh) 音频处理方法、装置、存储介质及移动终端
CN108196862A (zh) 语音设备的升级装置及方法
CN111383658B (zh) 音频信号的对齐方法和装置
CN107566595A (zh) 移动终端的音量控制方法、装置及存储介质和移动终端
KR102461608B1 (ko) 스피커에 포함된 진동판을 이용하여 하우징 내부 공간의 액체를 외부로 배출하는 전자 장치, 및 그 전자 장치의 제어 방법
CN110717053A (zh) 基于歌曲的图片显示方法、装置、终端以及存储介质
CN109656719A (zh) 算法处理方法、装置、存储介质及终端设备
CN106790963B (zh) 音频信号的控制方法及装置
CN112750449B (zh) 回声消除方法、装置、终端、服务器及存储介质
JP2022095689A (ja) 音声データノイズ低減方法、装置、機器、記憶媒体及びプログラム
CN111314553B (zh) 音量调节方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104

RJ01 Rejection of invention patent application after publication