CN108198545B - 一种基于小波变换的语音识别方法 - Google Patents

一种基于小波变换的语音识别方法 Download PDF

Info

Publication number
CN108198545B
CN108198545B CN201711370166.2A CN201711370166A CN108198545B CN 108198545 B CN108198545 B CN 108198545B CN 201711370166 A CN201711370166 A CN 201711370166A CN 108198545 B CN108198545 B CN 108198545B
Authority
CN
China
Prior art keywords
frequency
recognition
signal
characteristic
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711370166.2A
Other languages
English (en)
Other versions
CN108198545A (zh
Inventor
胡宁
程海峰
胡晓宁
王晏平
王海涛
王庚
马进伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Group Anhui Co Ltd
Anhui Jianzhu University
Original Assignee
China Mobile Group Anhui Co Ltd
Anhui Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Group Anhui Co Ltd, Anhui Jianzhu University filed Critical China Mobile Group Anhui Co Ltd
Priority to CN201711370166.2A priority Critical patent/CN108198545B/zh
Publication of CN108198545A publication Critical patent/CN108198545A/zh
Application granted granted Critical
Publication of CN108198545B publication Critical patent/CN108198545B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于小波变换的语音识别方法,声音输入设备输入语音信号;预处理模块对输入的信号进行预处理;特征提取模块提出基于小波变换的特征参数;训练模块将特征参数提取后的特征矢量参数,然后通过特征建模模块建立训练语音的参考模型库;识别模块将输入语音的特征矢量参数和参考模型库的模型进行比较,将相似度最高的模型作为识别候选结果输出;后处理模块对步骤(5)中的识别候选结果通过语音输出模块处理得到最终的识别结果。本发明小波变换对不同的频率在时域上的取样步长是可调节的,它比傅氏变换具有更好的时频窗口特性,较易扑捉细节。同时,将上述参数用于单元音识别中,也取得较好的效果。

Description

一种基于小波变换的语音识别方法
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于小波变换的语音识别方法。
背景技术
计算机技术的飞速发展,使人与机器用自然语言进行对话的梦想逐渐接近现实。语音识别就是研究让机器听懂人类语言的一门科学,也是人机交互最重要的一步。在语音识别系统中,特征参数提取是关键环节之一。语音识别中信号处理一般都采用的是傅里叶变换。傅里叶变换物理意义直观、计算简捷,广泛应用在信号的谱分析中。但是也有严重的不足。傅里叶变换表示了信号频谱的统计特性,它是信号在整个时域内的积分,信号的频谱表征了信号中频率分量的总强度,但却不能表明这些频率分量是何时产生的,没有局部分析信号的功能,不具备瞬变信息。而在对时变或非平稳语音信号(尤其辅音)的分析中,应当尽可能的知道信号在任意时刻附近的频域特征,因此将一维的时域信号映射到一个二维的时频平面来观察信号的时频特性,即构建信号的相空间,则形成信号的时频分析。小波变换对不同的频率成分在时频域上的取样步长是调节性的,它在高频时取样步长小,而在低频时取样步长大。小波变换在时频域都有局部分析能力,正是这些特性,使得小波变换在语音信号处理中有更大的优势。
(1)傅氏变换处理平稳信号较好,而对非平稳信号处理效果差,如辅音。对辅音在时频域变化快的信号,小波变换是较好的选择。Farooq等人[1]提出用小波包得到局部频率段特征,小波包将频率划分为多个子带,子带能量值作为特征参数,在塞音识别中,识别率比参数MFCC提高了10个百分点。有噪语音相对于干净语音上在时频域上叠加了干扰值,在特征参数中提取中减去一个定值,这个值相当于白噪声的频谱值,和干净语音特性接近[2];Farooq[3]又用离散小波变换划分局部频率段,低频部分得到较细的划分,在音素识别中元音识别率最好。生理学研究证明,对听觉起关键作用的耳蜗内基底膜,其作用相当于一组建立在薄膜振动基础上的恒Q的带通频率分析器。并且生理信号被分解后长表现出高频分量持续时间较短,低频分量持续时间较长的特点。这也正和小波分析的性质互相吻合。为此,张学英等人[4]提出基于Bark域小波包分解,应用在语音识别中,在噪音中识别率比参数MFCC高10个百分点。Farooq O.[5]和Ruhi Sarikaya[6]提出了基于Mel域小波包分解,分别在语音识别中和说话人识别中取得了较好的识别效果。小波包分解在小波空间和尺度空间进行分解,得到众多频段,从信号处理的观点看,用尽量少的系数,反映尽可能多的信息,这需要优化小波包分解。Jorge Silva[7]提出最低代价树裁剪算法进行小波包分解,在音素识别中取得较好的效果。
(2)一帧语音信号可能包含两个音素,假如前一个音素是辅音,后一个音素为元音,则前一个音素频率的低频和高频受到后一个音素低频和高频的影响,MFCC参数提取是对整个频段处理,无法克服临近音素的影响。而离散小波变换捕捉到音素过渡的信息,而这种过渡信息可能只出现在一些局部频率段,Nehe N.S.[8]用离散小波变换对信号频段划分,在子带做LPCC(Linear Predictive Cepstral Coefficient),对语音识别取得了较好的结果。同样Weaam Alkhaldi[9]应用在在阿拉伯语识别和电话语音识别[10]系统中。Malik[11]用同样的方法运用在说话人识别中。Mangesh S.Deshpande[12]用小波包分解划分频段,Jian-Da Wu[13]用不规则小波包分解划分频段,在说话人识别中都取得了较好的效果。
(3)基于听觉机理的小波包分解。人的听觉系统有一个重要特性,就是耳蜗对于声信号的时频分析特性。1999年,Doh-Suk Kim[14]提出一种听觉模型,它主要由耳蜗带通滤波器和非线性压缩组成,耳蜗带通滤波器组模仿耳蜗对声信号的时频分析特性,非线性压缩则模仿基底膜的机械振动造成听觉神经的发放,提出参数ZCPA(Zero-Crossings withPeak Amplitudes),即过零点间的峰值。相邻神经发放时间间隔倒数被视为频率直方图,相邻零点间的峰值作为一个非线性加权因子模仿听觉神经的发放速度。小波滤波器具有旁瓣长度短、划分严格等特点,P.K.Sahu等人提出基于Bark域小波包分解[15][16]取代耳蜗带通滤波器组,再提取参数,在孤立词识别中识别效果较佳,尤其在噪音环境中。
传统处理信号的分析方法有傅氏变换,傅氏变换是信号的统计特性,它是信号在整个时域内的积分。一旦窗函数选定,信号的时频特性也就确定了,辅音是一种动态性较强的音,傅氏变换处理辅音效果不佳。小波变换具有多分辨率的特点,可以由粗到细逐步观察信号,尤其是对于辅音这类在时频域变化快的信号,小波变换是一种较好的分析工具。
发明内容
本发明目的就是为了弥补已有技术的缺陷,提供一种基于小波变换的语音识别特征参数的处理方法。
本发明是通过以下技术方案实现的:
一种基于小波变换的语音识别方法,具体步骤如下:
(1)声音输入设备输入语音信号;
(2)预处理模块对输入的信号进行预处理;
(3)特征提取模块提出基于小波变换的特征参数;
(4)训练模块将特征参数提取后的特征矢量参数,然后通过特征建模模块建立训练语音的参考模型库;
(5)识别模块将输入语音的特征矢量参数和参考模型库的模型进行比较,将相似度最高的模型作为识别候选结果输出;
(6)后处理模块对步骤(5)中的识别候选结果通过语音输出模块处理得到最终的识别结果。
步骤(3)中提取出基于小波变换的特征参数,具体步骤如下:
1)对输入的信号进行预处理,提升信号高频部分,使信号的频谱更加平坦,再进行分帧、加汉明窗函数;
2)将每帧加窗的信号进行小波包变换,获得子频带;辅音高频段信息量丰富,而元音在低频信息信息量大,再对每个子频带取傅氏变换;
3)对每个子频带取傅里叶变换,再进行频率合成;
4)用M个Mel带通滤波器对其滤波,将每个滤波器的输出取对数,得到相应频带的对数功率谱,并进行离散余弦变换,得到13维Mel频率倒谱系数。
输入汉语元音、辅音x(t),t为时间变量,
语音信号进行采样:对输入语音信号进行采样频率fs.为8kHz的采样,采样后的信号为X(t),
Figure BDA0001513574250000041
,再进行预加重1-0.98Z-1的处理,1-0.98Z-1的时域形式为
Figure BDA0001513574250000045
预加重后的语音信号
Figure BDA0001513574250000042
其中,
Figure BDA0001513574250000043
为冲激函数;
用窗长10ms,窗移8ms的汉明窗对语音信号进行加窗处理,分帧采用交叠分段的方法,前一帧和后一帧的交叠部分为帧移,用可移动的有限长度窗口进行加权的方法实现,即用窗函数w′(t)来乘预加重后的语音信号a(t),从而形成加窗语音信号b(t),
b(t)=a(t)×w′(t)
其窗函数为:
Figure BDA0001513574250000044
N为窗长,窗长即为帧长,加窗分帧处理后得到的第i帧信号为
xd(t)=w′(t)b(t),0≤t≤N-1
特征参数提取阶段:
对预处理后的每一帧语音信号分别取2或3层小波包变换,得到4或8个子频带,再对每个子频带求64个点FFT,再对各个频带进行合成;
参数MFCC是通过傅氏变换求得,Mel频率与实际频率的具体关系用下式表示:
Mel(f)=2595*lg(1+f/700) (1)
根据Zwicker的分析,临界频率带宽随着频率的变化而变化,并与Mel频率的增长一致,在1000Hz以下,呈线性分布,带宽为100Hz左右;在1000Hz以上呈对数增长,类似于临界频带的划分,将语音频率划分成一系列三角形的滤波器序列,即Mel滤波器组,取每个三角形的滤波器频率带宽内所有信号幅度加权作为某个带通滤波器的输出,然后对所有的滤波器输出做对数运算,再进一步做离散余弦变换DCT,即得到频率倒谱系数WPMFCC;
根据式将实际频率尺度转换为Mel频率尺度;
在Mel频率轴上配置L个通道的三角形滤波器组,L的个数由信号的截止频率决定,每一个三角形滤波器的中心频率c(l)在Mel频率上等间隔分配,设分别是第l个三角形滤波器的下限、中心和上限频率,则相邻三角形滤波器之间的下限、中心和上限频率有如图所示的如下关系成立:
c(l)=h(l-1)=o(.+1)
根据语音信号幅度谱Xn(k)求每一个三角形滤波器的输出:
Figure BDA0001513574250000051
Figure BDA0001513574250000052
对所有滤波器输出做对数运算,再进一步做离散余弦变换即可得到MFCC;
Figure BDA0001513574250000053
以单词作为一个识别单元,利用模板匹配方法进行识别,在训练阶段,将训练数据中每个单词提取的特征矢量时间序列作为模板存入模板库,在识别阶段,将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
本发明的优点是:本发明提出了参数WPMFCC,将该参数用于辅音和元音识别,在变化快的辅音(塞音、清擦音、塞擦音)识别率较高,这些辅音在时频域变化较快,傅氏变换不能扑捉某些信息,小波变换对不同的频率在时域上的取样步长是可调节的,它比傅氏变换具有更好的时频窗口特性,较易扑捉细节。同时,将上述参数用于单元音识别中,也取得较好的效果。
附图说明
图1为本发明的流程图。
图2为本发明的硬件结构图。
具体实施方式
如图1、2所示,一种基于小波变换的语音识别方法,具体步骤如下:
(1)声音输入设备1输入语音信号;
(2)预处理模块2对输入的信号进行预处理;
(3)特征提取模块3提出基于小波变换的特征参数;
(4)训练模块4将特征参数提取后的特征矢量参数,然后通过特征建模模块建立训练语音的参考模型库;
(5)识别模块5将输入语音的特征矢量参数和参考模型库的模型进行比较,将相似度最高的模型作为识别候选结果输出;
(6)后处理模块6对步骤(5)中的识别候选结果通过语音输出模块7处理得到最终的识别结果。
步骤(3)中提取出基于小波变换的特征参数,具体步骤如下:
1)对输入的信号进行预处理,提升信号高频部分,使信号的频谱更加平坦,再进行分帧、加汉明窗函数;
2)将每帧加窗的信号进行小波包变换,获得子频带;辅音高频段信息量丰富,而元音在低频信息信息量大,再对每个子频带取傅氏变换;
3)对每个子频带取傅里叶变换,再进行频率合成;
4)用M个Mel带通滤波器对其滤波,将每个滤波器的输出取对数,得到相应频带的对数功率谱,并进行离散余弦变换,得到13维Mel频率倒谱系数。
输入汉语元音、辅音x(t),t为时间变量,
预处理与特征提取
语音信号进行采样:对输入语音信号进行采样频率fs.为8kHz的采样,采样后的信号为x(t)′,
Figure BDA0001513574250000071
,再进行预加重1-0.98Z-1的处理,1-0.98Z-1的时域形式为
Figure BDA0001513574250000074
预加重后的语音信号
Figure BDA0001513574250000072
其中,
Figure BDA0001513574250000075
为冲激函数。
用窗长10ms,窗移8ms的汉明窗对语音信号进行加窗处理,分帧采用交叠分段的方法,前一帧和后一帧的交叠部分为帧移,用可移动的有限长度窗口进行加权的方法实现,即用窗函数w′(t)来乘预加重后的语音信号a(t),从而形成加窗语音信号b(t),
b(t)=a(t)×w′(t)
其窗函数为:
Figure BDA0001513574250000073
N为窗长,窗长即为帧长,加窗分帧处理后得到的第i帧信号为
xd(t)=w′(t)b(t),0≤t≤N-1
特征参数提取阶段
对预处理后的每一帧语音信号分别取2或3层小波包变换,得到4或8个子频带,再对每个子频带求64个点FFT(快速傅里叶变换),再对各个频带进行合成。
参数MFCC(Mel-Frequency Cepstral Coefficients)主要是通过傅氏变换求得,傅氏变换是信号的统计特性,对信号的细节描述差。MFCC的分析着眼于人耳的听觉特性,人耳所听到声音的高低与声音的频率并不成线性正比关系,而用Mel频率尺度则更符合人耳的听觉特性。所谓Mel频率尺度,它的值大体上对应于实际频率的对数分布关系。Mel频率与实际频率的具体关系可用下式表示:
Mel(f)=2595*lg(1+f/700) (1)
根据Zwicker的分析,临界频率带宽随着频率的变化而变化,并与Mel频率的增长一致,在1000Hz以下,大致呈线性分布,带宽为100Hz左右;在1000Hz以上呈对数增长。类似于临界频带的划分,可用将语音频率划分成一系列三角形的滤波器序列,即Mel滤波器组,取每个三角形的滤波器频率带宽内所有信号幅度加权作为某个带通滤波器的输出,然后对所有的滤波器输出做对数运算,再进一步做离散余弦变换(DCT),即得到WPMFCC。
根据式将实际频率尺度转换为Mel频率尺度。
在Mel频率轴上配置L个通道的三角形滤波器组,L的个数由信号的截止频率决定。每一个三角形滤波器的中心频率c(l)在Mel频率上等间隔分配。设分别是第l个三角形滤波器的下限、中心和上限频率,则相邻三角形滤波器之间的下限、中心和上限频率有如图所示的如下关系成立:
c(l)=h(l-1)=o(.+1)
根据语音信号幅度谱Xn(k)求每一个三角形滤波器的输出:
Figure BDA0001513574250000081
Figure BDA0001513574250000082
对所有滤波器输出做对数运算,再进一步做离散余弦变换(DCT)即可得到MFCC。
Figure BDA0001513574250000083
语音识别
以单词作为一个识别单元,利用模板匹配方法进行识别,在训练阶段,将训练数据中每个单词提取的特征矢量时间序列作为模板存入模板库,在识别阶段,将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

Claims (2)

1.一种基于小波变换的语音识别方法,其特征在于:具体步骤如下:
(1)声音输入设备输入语音信号;
(2)预处理模块对输入的信号进行预处理;
(3)特征提取模块提出基于小波变换的特征参数;
(4)训练模块将特征参数提取后的特征矢量参数,然后通过特征建模模块建立训练语音的参考模型库;
(5)识别模块将输入语音的特征矢量参数和参考模型库的模型进行比较,将相似度最高的模型作为识别候选结果输出;
(6)后处理模块对步骤(5)中的识别候选结果通过语音输出模块处理得到最终的识别结果;
步骤(3)中提取出基于小波变换的特征参数,具体步骤如下:
1)对输入的信号进行预处理、分帧、加汉明窗函数;
2)将每帧加窗的信号进行小波包变换,获得子频带;
3)对每个子频带取傅里叶变换,再进行频率合成;
4)用M个Mel带通滤波器对其滤波,将每个滤波器的输出取对数,得到相应频带的对数功率谱,并进行离散余弦变换,得到13维Mel频率倒谱系数。
2.根据权利要求1所述的一种基于小波变换的语音识别方法,其特征在于:步骤(3)的具体步骤如下:
输入汉语元音、辅音x(t),t为时间变量,
语音信号进行采样:对输入语音信号进行采样频率fs为8kHz的采样,采样后的信号为x(t)′,
Figure FDA0003162466250000011
再进行预加重1-0.98Z-1的处理,1-0.98Z-1的时域形式为
Figure FDA0003162466250000012
预加重后的语音信号
Figure FDA0003162466250000013
其中,
Figure FDA0003162466250000014
为冲激函数;
用窗长10ms,窗移8ms的汉明窗对语音信号进行加窗处理,分帧采用交叠分段的方法,前一帧和后一帧的交叠部分为帧移,用可移动的有限长度窗口进行加权的方法实现,即用窗函数w′(t)来乘预加重后的语音信号a(t),从而形成加窗语音信号b(t),
b(t)=a(t)×w′(t)
其窗函数为:
Figure FDA0003162466250000021
N为窗长,窗长即为帧长,加窗分帧处理后得到的第i帧信号为xi(t)=w′(t)b(t),0≤t≤N-1
特征参数提取阶段:
对预处理后的每一帧语音信号分别取2或3层小波包变换,得到4或8个子频带,再对每个子频带求64个点FFT,再对各个频带进行合成;
参数MFCC是通过傅氏变换求得,Mel频率与实际频率的具体关系用下式表示:
Mel(f)=2595*lg(1+f/700) (1)
根据Zwicker的分析,临界频率带宽随着频率的变化而变化,并与Mel频率的增长一致,在1000Hz以下,呈线性分布,带宽为100Hz左右;在1000Hz以上呈对数增长,类似于临界频带的划分,将语音频率划分成一系列三角形的滤波器序列,即Mel滤波器组,取每个三角形的滤波器频率带宽内所有信号幅度加权作为某个带通滤波器的输出,然后对所有的滤波器输出做对数运算,再进一步做离散余弦变换DCT,即得到频率倒谱系数WPMFCC;
根据式(1)将实际频率尺度转换为Mel频率尺度;
在Mel频率轴上配置L个通道的三角形滤波器组,L的个数由信号的截止频率决定,每一个三角形滤波器的中心频率c(l)在Mel频率上等间隔分配,设分别是第1个三角形滤波器的下限、中心和上限频率,则相邻三角形滤波器之间的下限、中心和上限频率有如图所示的如下关系成立:
c(l)=h(l-1)=o(l+1)
根据语音信号幅度谱Xn(k)求每一个三角形滤波器的输出:
Figure FDA0003162466250000031
Figure FDA0003162466250000032
对所有滤波器输出做对数运算,再进一步做离散余弦变换即可得到参数MFCC;
Figure FDA0003162466250000033
以单词作为一个识别单元,利用模板匹配方法进行识别,在训练阶段,将训练数据中每个单词提取的特征矢量时间序列作为模板存入模板库,在识别阶段,将待识别语音的特征矢量时间序列依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
CN201711370166.2A 2017-12-19 2017-12-19 一种基于小波变换的语音识别方法 Expired - Fee Related CN108198545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711370166.2A CN108198545B (zh) 2017-12-19 2017-12-19 一种基于小波变换的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711370166.2A CN108198545B (zh) 2017-12-19 2017-12-19 一种基于小波变换的语音识别方法

Publications (2)

Publication Number Publication Date
CN108198545A CN108198545A (zh) 2018-06-22
CN108198545B true CN108198545B (zh) 2021-11-02

Family

ID=62574764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711370166.2A Expired - Fee Related CN108198545B (zh) 2017-12-19 2017-12-19 一种基于小波变换的语音识别方法

Country Status (1)

Country Link
CN (1) CN108198545B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922535A (zh) * 2018-08-23 2018-11-30 上海华测导航技术股份有限公司 用于接收机的语音交互系统及交互方法
CN109637524A (zh) * 2019-01-18 2019-04-16 徐州工业职业技术学院 一种人工智能交互方法及人工智能交互装置
CN111866522A (zh) * 2019-04-29 2020-10-30 杭州海康威视数字技术股份有限公司 一种录像数据编码方法及装置
CN111866444A (zh) * 2019-04-29 2020-10-30 杭州海康威视数字技术股份有限公司 一种录像数据存储方法及装置
CN110827852B (zh) * 2019-11-13 2022-03-04 腾讯音乐娱乐科技(深圳)有限公司 一种有效语音信号的检测方法、装置及设备
CN113933590A (zh) * 2020-07-14 2022-01-14 森兰信息科技(上海)有限公司 波的频谱的计算方法、系统、介质及装置
CN111920390A (zh) * 2020-09-15 2020-11-13 成都启英泰伦科技有限公司 一种基于嵌入式终端的鼾声检测方法
CN117636880A (zh) * 2023-12-13 2024-03-01 南京龙垣信息科技有限公司 一种用于提升语音外呼辨音准确率的声纹识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120562B1 (en) * 2003-12-17 2006-10-10 L-3 Integrated Systems Company Signal source identification utilizing wavelet-based signal processing and associated method
CN103236258A (zh) * 2013-05-06 2013-08-07 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN104269178A (zh) * 2014-08-08 2015-01-07 华迪计算机集团有限公司 对语音信号进行自适应谱减和小波包消噪处理的方法和装置
CN106992000A (zh) * 2017-04-07 2017-07-28 安徽建筑大学 一种基于预测的多特征融合的老人语音情感识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040083094A1 (en) * 2002-10-29 2004-04-29 Texas Instruments Incorporated Wavelet-based compression and decompression of audio sample sets

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7120562B1 (en) * 2003-12-17 2006-10-10 L-3 Integrated Systems Company Signal source identification utilizing wavelet-based signal processing and associated method
CN103236258A (zh) * 2013-05-06 2013-08-07 东南大学 基于巴氏距离最优小波包分解的语音情感特征提取方法
CN104269178A (zh) * 2014-08-08 2015-01-07 华迪计算机集团有限公司 对语音信号进行自适应谱减和小波包消噪处理的方法和装置
CN106992000A (zh) * 2017-04-07 2017-07-28 安徽建筑大学 一种基于预测的多特征融合的老人语音情感识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Emotion Recognition in Speech Using MFCC and Wavelet Features;K.V.Krishna Kishore,P.Krishna Satish;《IEEE》;20121231;第842-847页 *
基于小波包分析的鲁棒性语音识别;张君昌,李艳艳;《计算机工程与应用》;20111231;第47卷(第10期);第124-126、243页 *
基于小波包分解的抗噪说话人识别特征参数;张昊慧;《通信技术》;20101231;第43卷(第12期);第144-146页 *
基于能量检测的复杂环境下的鸟鸣识别;张小霞,李应;《计算机应用》;20131001;第33卷(第10期);第2945-2949页 *

Also Published As

Publication number Publication date
CN108198545A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN108198545B (zh) 一种基于小波变换的语音识别方法
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
JP5230103B2 (ja) 自動音声認識器のためのトレーニングデータを生成する方法およびシステム
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
US4829574A (en) Signal processing
Joshi et al. MATLAB based feature extraction using Mel frequency cepstrum coefficients for automatic speech recognition
CN110931022B (zh) 基于高低频动静特征的声纹识别方法
CN112786059A (zh) 一种基于人工智能的声纹特征提取方法及装置
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
Janse et al. A comparative study between mfcc and dwt feature extraction technique
CN105679321B (zh) 语音识别方法、装置及终端
Abdalla et al. DWT and MFCCs based feature extraction methods for isolated word recognition
CN108172214A (zh) 一种基于Mel域的小波语音识别特征参数提取方法
Fazel et al. Sparse auditory reproducing kernel (SPARK) features for noise-robust speech recognition
Hsieh et al. Robust speech features based on wavelet transform with application to speaker identification
Khanna et al. Application of vector quantization in emotion recognition from human speech
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
Siafarikas et al. Wavelet packet based speaker verification
Shu-Guang et al. Isolated word recognition in reverberant environments
Maged et al. Improving speaker identification system using discrete wavelet transform and AWGN
Singh et al. A comparative study of recognition of speech using improved MFCC algorithms and Rasta filters
Wu et al. Robust target feature extraction based on modified cochlear filter analysis model
Mehta et al. Robust front-end and back-end processing for feature extraction for Hindi speech recognition
Rahali et al. Robust Features for Speech Recognition using Temporal Filtering Technique in the Presence of Impulsive Noise
Jiang et al. Acoustic feature comparison of MFCC and CZT-based cepstrum for speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211102