CN104778948A - 一种基于弯折倒谱特征的抗噪语音识别方法 - Google Patents
一种基于弯折倒谱特征的抗噪语音识别方法 Download PDFInfo
- Publication number
- CN104778948A CN104778948A CN201510212759.0A CN201510212759A CN104778948A CN 104778948 A CN104778948 A CN 104778948A CN 201510212759 A CN201510212759 A CN 201510212759A CN 104778948 A CN104778948 A CN 104778948A
- Authority
- CN
- China
- Prior art keywords
- bending
- signal
- feature
- filter
- wave filter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明涉及听觉滤波器的抗噪性能和抗噪语音识别特征提取,属于电子信息技术中的信号处理技术领域,具体涉及一种基于弯折倒谱特征的抗噪语音识别方法。针对现有滤波器带宽不满足非对称性分布,对应的提取特征无法准确表征人耳听觉特性的不足,本发明的主要目的在于提供一种基于弯折倒谱特征的抗噪语音识别方法,将WFBs(弯折滤波器组)应用于信号频谱的分析中,有效利用带宽的非对称性,充分使用一阶全通变换的弯折因子来控制频带分布,从而在不同听觉尺度上研究听觉特性滤波器的抗噪性能,提高抗噪特征的识别率。
Description
技术领域
本发明涉及听觉滤波器的抗噪性能和抗噪语音识别特征提取,属于电子信息技术中的信号处理技术领域,具体涉及一种基于弯折倒谱特征的抗噪语音识别方法。
背景技术
语音识别系统在干净环境下识别性能良好,但在噪声环境下,识别结果则大幅降低。目前,国内外研究的热点主要集中在抗噪特征的提取和后端抗噪识别网络两大方面。而对于抗噪特征的提取,研究者们主要采用现有特征的差分改进和多种特征的拼接组合,对提取特征的前端滤波器关注不多。提取特征的前端滤波器,由一组带通滤波器构成,用来模拟人耳的听觉特性,常见的有FIR滤波器、MEL滤波器、Gammatone滤波器等。人耳具有很强的噪音鲁棒性,因此能够更好模拟人耳听觉特性的滤波器将更有利于提取抗噪特征。
耳蜗具备频率选择功能,即不同频率映射到基底膜的不同位置,因此常被认为由一组带通滤波器组成。耳蜗的频率选择性表现为:基底膜上的每一个位置对应着一个特征频率,将此频率下的纯音信号输入耳蜗时,基底膜对应位置会发生最大幅度的振动。耳蜗作为一个滤波器组,呈现以下特征:1)滤波器带宽不同:低频处的带宽较窄,而高频处带宽较宽;2)单个滤波器的频率响应非对称分布:基底膜的每个位置对应一个特征频率,该位置对此频率的响应幅度最大。特征频率的左侧斜率比较平缓,特征频率的右侧斜率较陡;3)单个滤波器的频率响应同刺激声的强度相关:基底膜的振动特性是呈压缩非线性的。
D.S.Kim早期采用窗函数设计法设计16通道的FIR滤波器,用来仿真耳蜗基底膜的作用,达到了良好的识别结果。滤波器的中心频率为f=165.4(102.1x-1),其中f是中心频率,单位Hz,x是基底膜归一化距离,0<x<1。滤波器的频带划分根据等值矩形带宽(Equivalent Rectangular Bandwidth,ERB)ERB=6.23(f/1000)2+93.39(f/1000)+28.52确定,式中f是中心频率,单位Hz。但由于FIR滤波器仅满足各个滤波器带宽不同这一特征,而无法满足其他两条特征,因此仍存在改进的空间。
MEL滤波器是一组三角带通滤波器,Stevens和Volkman1940年指出,人的主观感知频域的划定是非线性的,Fmel=1125log(1+f/700),式中的Fmel是以美(Mel)为单位的感知频率,f是以Hz为单位的实际频率。其带宽按临界带(Critical Band)的划分,将语音在频域上划分成一系列的频率群组成了三角形的滤波器组,即Mel滤波器。其滤波器分布在MEL域是均匀分布,带宽呈对称性分布。
GT滤波器最早由Johannesma于1972年提出,用来描述猫的听神经生理学冲激响应数据的特性,通过“逆相关”法可以证明GT函数的波形与猫听觉神经数据形状是一致的。GT滤波器用一个因果的冲激响应来描述滤波器特性,其时域表达式为:g(t)=Bntn-1exp(-2πBt)cos(2πfit+φ)u(t),其中B=b1ERB(fi), 但其带宽却呈对称性分布,且频率响应无法反映与刺激声强度的关系。
发明内容
有鉴于此,针对现有滤波器带宽不满足非对称性分布,对应的提取特征无法准确表征人耳听觉特性的不足,本发明的主要目的在于提供一种基于弯折倒谱特征的抗噪语音识别方法,将WFBs(弯折滤波器组)应用于信号频谱的分析中,有效利用带宽的非对称性,充分使用一阶全通变换的弯折因子来控制频带分布,从而在不同听觉尺度上研究听觉特性滤波器的抗噪性能,提高抗噪特征的识别率。
为达到上述目的,本发明采用的技术方案如下:
一种基于弯折倒谱特征的抗噪语音识别方法,该方法利用带宽非对称性分布的弯折滤波器提取信号的倒谱特征并使用径向基神经网络进行非特定人识别,包括以下步骤:
预处理语料库语音信号,包括预加重、分帧和加窗过程;
计算信号功率谱;
弯折滤波器下进行信号功率谱映射;
对数和离散余弦变化;以及
对弯折倒谱特征进行后端径向基函数神经网络识别。
上述方案中,所述语料库语音信号预处理的步骤,具体包括:
预加重,采用预加重系数为0.9375的高通滤波器H(z)=1-αz-1消除口唇辐射造成的信号衰减,提升信号的高频部分;
对预加重后的信号进行分帧,一般分帧帧长为10ms~30ms,本发明中的语音采样频率为fs=11025Hz,帧长256样点,帧移128样点;
加窗,采用汉明窗对每帧信号x(n)进行平滑,即y(n)=x(n)*w(n),从而去除吉布斯效应。
上述方案中,所述计算信号功率谱的具体步骤为:采用傅里叶变换得到信号的频谱Y(ω)=fft(y(n))=fft(x(n)*w(n)),并对频谱的模值求平方PS=|Y(ω)|2。
上述方案中,所述弯折滤波器下进行信号功率谱映射的步骤,具体包括:
将语音帧的功率谱与弯折滤波器16个子带带通滤波器分别卷积;
对映射到16通道滤波器中每一通道的功率谱求和。
上述方案中,所述弯折滤波器下信号功率谱映射过程,进一步包括:
弯折滤波器的设计,利用一阶全通变换取代公式中的z-1,其中h(n)为长度为N的序列,M为滤波器组的通道数;则新的传递函数为实现频率从z域变换到ζ域的转换,即弯折滤波器的传递函数为令z=ejω,则弯折滤波器组的频率响应为 ρ为弯折因子。
不同弯折因子下的弯折滤波器,公式和分别给出采用采用一阶全通变换模拟Bark和ERB频率尺度时对应的弯折因子,其中fs为采样频率,单位kHz;当采样率fs=11.025kHz时,ρ=0.48和ρ=0.63时分别模拟Bark尺度和ERB尺度。而ρ=0时弯折滤波器为一组均匀滤波器组,带宽呈对称性分布。
本发明采用一阶全通变换函数设计的带宽呈非对称分布的弯折滤波器组(Warped Filter Banks,WFBs),采用全通函数中的弯折因子ρ控制滤波器中心频率和带宽的分布,典型的弯折因子ρ=0.48,ρ=0.63分别对应Bark和ERB尺度的滤波器。其带宽低频处较窄,高频处较宽,且呈非对称性分布,与FIR、MEL和Gammatone滤波器相比(附图2、3、4),更符合人耳听觉特性(附图6、7)。因此本发明以WFBs滤波器为基础提取抗噪特征,分析待识别语音信号的特征分布,进而研究听觉特性滤波器的抗噪性能对语音识别的作用。
每一通道的滤波器功率谱求和,记为WFBsm{x}=∑Hm(ω)*|fft(x(n)*w(n))|2,其中m为滤波器通道数,Hm(ω)为弯折滤波器频率响应;当m=k,k=1,2...,16时,WFBsm{x}为一帧信号x(n)在第k通道滤波器的映射。
上述方案中,所述对数和离散余弦变换的步骤,具体包括:
将弯折滤波器的输出求以自然数为底的对数,计算公式为:s(m)=ln(WFBm{x}),m=1,2,...,16;
进一步,将对数谱s(m)作离散余弦变换(Discrete Cosine Transform-DCT),计算公式为:求取一帧信号的倒谱系数,得到16维弯折倒谱特征(Warped FilterCepstral Coefficient-WFCC)。
上述方案中,所述对弯折倒谱特征WFCC进行后端径向基函数(Radial Basis Function,RBF)神经网络识别的步骤,具体包括:
对弯折倒谱特征WFCC特征进行时间和幅度归一化,由于每个语音文件的长短不同,分帧后的帧数各不相同,无法作为RBF网络的输入,因此将每个语音文件帧数统一为64帧,每一帧提取16维特征,得到1024维特征作为识别网络的输入;
RBF网络结构由三层结构组成,将训练文件的特征作为RBF输入,得到训练RBF神经网络,然后将测试文件的特征作为输入,得到测试RBF神经网络,与训练RBF网络按照一定的匹配规则进行模式匹配,得到识别结果。
上述方案中,所述语料库语音信号是韩语语料库,词语内容为数字和简单控制性语句。此语料库包括10词、20词、30词、40词以及50词五种不同的子库,每一子库分别在不同的信噪比15dB,20dB,25dB,30dB以及clean下录制完成。本语料库由16名男性发声构成,每人每词发音3遍,在完全闭集的非特定人识别中,采用9人的发音作为训练语料库,而另外7人的发音作为测试语料库进行实验。
上述方案中,所述后端径向基函数神经网络结构,具体包括:RBF由输入层、隐层和输出层组成的前向神经网络模型,具体第一层为输入层,由信号源节点组成;第二层为隐含层,采用高斯函数作为径向基函数,作为隐单元的“基”构成隐含层空间;第三层为输出层,输出节点为线性求和单元,它对输入模式的作用做出响应。每个语音文件是1024维特征,作为RBF网络的输入,则RBF输入层节点数为1024。RBF网络隐层节点数则根据识别词汇量变化,10词对应10个隐节点,50词对应50个隐节点;输出层节点数与隐层节点数相同。
上述方案中,所述按照一定的匹配规则进行模式匹配得到识别结果,具体步骤为:
训练RBF神经网络模型确定后,将测试集的单词输入网络分别进行识别测试。每输入一个单词的1024维特征矢量,经过隐层、输出层的计算后就可以得到每个单词的分类号,将这个分类号与输入特征矢量自带的分类号比较,相等则识别正确,反之,识别错误。最后将识别正确的个数与所有待识别单词数做比值即可得到最终的识别率。
从本发明所述技术方案可以看出,本发明使用带宽非对称分布的弯折滤波器提取倒谱特征进行抗噪语音识别,充分利用人耳听觉特性的抗噪鲁棒性,提取不同听觉尺度的弯折倒谱特征参数,有效提高抗噪识别率,具有以下有益效果:
1)弯折倒谱特征更全面地刻画语音在人耳听觉感知上的特性,弥补传统特征的不足,具体来说,传统特征是映射在带宽对称分布的滤波器下,而弯折倒谱特征在非对称分布带宽Bark和ERB尺度下的映射,与均匀对称分布尺度相比,Bark尺度下更符合人耳听觉特性,识别效果最好,且在低信噪比时高于传统的MFCC特征,识别结果如表1~表5所示;
表1.Bark尺度(ρ=0.48)WFCC识别结果
表2.ERB尺度(ρ=0.63)WFCC识别结果
表3.对称分布(ρ=0)WFCC识别结果
表4.MFCC识别结果
2)本发明涉及的弯折滤波器的弯折因子,可以根据实际情况进行设置,自适应于待识别的语料库,得到最优识别结果;
3)本发明对语料库的语言语种、话者性别等没有限制,可以适用于其他语料库,提高抗噪语音识别的通用性。
附图说明
图1是本发明基于弯折倒谱特征的抗噪语音识别系统框图。
图2是现有的FIR滤波器的频率响应图。
图3是现有的MEL滤波器的频率响应图。
图4是现有的Gammatone(GT)滤波器的频率响应图。
图5是本发明WFBs滤波器弯折因子ρ=0的频率响应图。
图6是本发明WFBs滤波器弯折因子ρ=0.48的频率响应图。
图7是本发明WFBs滤波器弯折因子ρ=0.63的频率响应图。
具体实施方式
本发明的核心内容是:利用带宽非对称分布的弯折滤波器提取倒谱特征,充分利用人耳听觉特性的抗噪鲁棒性,提取不同听觉尺度的弯折倒谱特征参数,并进行后端RBF网络识别,包括以下步骤:预处理语料库语音信号,包括预加重、分帧和加窗过程;计算信号功率谱;弯折滤波器下进行信号功率谱映射;对数和离散余弦变化;以及对弯折倒谱特征进行后端径向基函数神经网络识别。
所述预处理语料库语音信号的步骤,具体包括:预加重,采用预加重系数为0.9375的高通滤波器H(z)=1-αz-1消除口唇辐射造成的信号衰减,提升信号的高频部分;对预加重后的信号进行分帧,一般分帧帧长为10ms~30ms,本发明中的语音采样频率为fs=11025Hz,帧长256样点,帧移128样点;加窗,采用汉明窗对每帧信号x(n)进行平滑,即y(n)=x(n)*w(n),从而去除吉布斯效应。
所述计算信号功率谱的具体步骤为:采用傅里叶变换得到信号的频谱Y(ω)=fft(y(n))=fft(x(n)*w(n)),并对频谱的模值求平方PS=|Y(ω)|2。
所述弯折滤波器下进行信号功率谱映射的步骤,具体包括:将语音帧的功率谱与弯折滤波器16个子带带通滤波器分别卷积;对映射到16通道滤波器中每一通道的功率谱求和。
所述弯折滤波器下信号功率谱映射过程,进一步包括:弯折滤波器的设计,利用一阶全通变换 取代公式 中的z-1,其中h(n)为长度为N的序列,M为滤波器组的通道数。则新的传递函数为实现频率从z域变换到ζ域的转换。即弯折滤波器的传递函数为令z=ejω,则弯折滤波器组的频率响应为ρ为弯折因子;不同弯折因子下的弯折滤波器,公式 和 分别给出采用采用一阶全通变换模拟Bark和ERB频率尺度时对应的弯折因子,其中fs为采样频率,单位kHz。当采样率fs=11.025kHz时,ρ=0.48和ρ=0.63时分别模拟Bark尺度和ERB尺度。而ρ=0时弯折滤波器为一组均匀滤波器组,带宽呈对称性分布;每一通道的滤波器功率谱求和,记为WFBsm{x}=∑Hm(ω)*|fft(x(n)*w(n))|2,其中m为滤波器通道数,Hm(ω)为弯折滤波器频率响应。当m=k,k=1,2...,16时,WFBsm{x}为一帧信号x(n)在第k通道滤波器的映射。
所述对数和离散余弦变换的步骤,具体包括:
将弯折滤波器的输出求以自然数为底的对数,计算公式为:s(m)=ln(WFBm{x}),m=1,2,...,16;进一步,将对数谱s(m)作离散余弦变换(Discrete Cosine Transform-DCT),计算公式为:求取一帧信号的倒谱系数,得到16维弯折倒谱特征(Warped FilterCepstral Coefficient-WFCC)。
所述对弯折倒谱特征WFCC进行后端径向基函数(Radial Basis Function,RBF)神经网络识别的步骤,具体包括:对弯折倒谱特征WFCC特征进行时间和幅度归一化,由于每个语音文件的长短不同,分帧后的帧数各不相同,无法作为RBF网络的输入,因此将每个语音文件帧数统一为64帧,每一帧提取16维特征,得到1024维特征作为识别网络的输入;RBF网络结构由三层结构组成,将训练文件的特征作为RBF输入,得到训练RBF神经网络,然后将测试文件的特征作为输入,得到测试RBF神经网络,与训练RBF网络按照一定的匹配规则进行模式匹配,得到识别结果。
所述语料库语音信号是韩语语料库,词语内容为数字和简单控制性语句。此语料库包括10词、20词、30词、40词以及50词五种不同的子库,每一子库分别在不同的信噪比15dB,20dB,25dB,30dB以及clean下录制完成。本语料库由16名男性发声构成,每人每词发音3遍,在完全闭集的非特定人识别中,采用9人的发音作为训练语料库,而另外7人的发音作为测试语料库进行实验。
所述后端径向基函数神经网络结构,具体包括:RBF由输入层、隐层和输出层组成的前向神经网络模型,具体第一层为输入层,由信号源节点组成;第二层为隐含层,采用高斯函数作为径向基函数,作为隐单元的“基”构成隐含层空间;第三层为输出层,输出节点为线性求和单元,它对输入模式的作用做出响应。每个语音文件是1024维特征,作为RBF网络的输入,则RBF输入层节点数为1024。RBF网络隐层节点数则根据识别词汇量变化,10词对应10个隐节点,50词对应50个隐节点;输出层节点数与隐层节点数相同。
所述按照一定的匹配规则进行模式匹配得到识别结果,具体步骤为:训练RBF神经网络模型确定后,将测试集的单词输入网络分别进行识别测试。每输入一个单词的1024维特征矢量,经过隐层、输出层的计算后就可以得到每个单词的分类号,将这个分类号与输入特征矢量自带的分类号比较,相等则识别正确,反之,识别错误。最后将识别正确的个数与所有待识别单词数做比值即可得到最终的识别率。
Claims (10)
1.一种基于弯折倒谱特征的抗噪语音识别方法,其特征在于,该方法利用弯折滤波器提取语音倒谱特征参数描述声音信号在人耳听觉空间的分布和映射并使用径向基神经网络对非特定人进行识别,包括以下步骤:
预处理语料库语音信号,包括预加重、分帧和加窗过程;
计算信号功率谱;
弯折滤波器下进行信号功率谱映射;
对数和离散余弦变化;以及
对弯折倒谱特征进行后端径向基函数神经网络识别。
2.根据权利要求1所述的一种基于弯折倒谱特征的抗噪语音识别方法,其特征在于,所述预处理语料库语音信号的步骤,具体包括:
预加重,采用预加重系数为0.9375的高通滤波器H(z)=1-αz-1消除口唇辐射造成的信号衰减,提升信号的高频部分;
对预加重后的信号进行分帧,一般分帧帧长为10ms~30ms,本发明中的语音采样频率为fs=11025Hz,帧长256样点,帧移128样点;
加窗,采用汉明窗对每帧信号x(n)进行平滑,即y(n)=x(n)*w(n),从而去除吉布斯效应。
3.根据权利要求1所述的一种基于弯折倒谱特征的抗噪语音识别方法,其特征在于,所述计算信号功率谱的具体步骤为:采用傅里叶变换得到信号的频谱Y(ω)=fft(y(n))=fft(x(n)*w(n)),并对频谱的模值求平方PS=|Y(ω)|2。
4.根据权利要求1所述的一种基于弯折倒谱特征的抗噪语音识别方法,其特征在于,所述弯折滤波器下进行信号功率谱映射的步骤,具体包括:
将语音帧的功率谱与弯折滤波器16个子带带通滤波器分别卷积;
对映射到16通道滤波器中每一通道的功率谱求和。
5.根据权利要求4所述的一种基于弯折倒谱特征的抗噪语音识别方法,其特征在于,所述弯折滤波器下信号功率谱映射过程,进一步包括:
弯折滤波器的设计,利用一阶全通变换取代公式m=0,1,...,M-1中的z-1,其中h(n)为长度为N的序列,M为滤波器组的通道数,则新的传递函数为实现频率从z域变换到ζ域的转换,即弯折滤波器的传递函数为令z=ejω,则弯折滤波器组的频率响应为 ρ为弯折因子;
不同弯折因子下的弯折滤波器,公式和分别给出采用采用一阶全通变换模拟Bark和ERB频率尺度时对应的弯折因子,其中fs为采样频率,单位kHz;当采样率fs=11.025kHz时,ρ=0.48和ρ=0.63时分别模拟Bark尺度和ERB尺度;而ρ=0时弯折滤波器为一组均匀滤波器组,带宽呈对称性分布;
每一通道的滤波器功率谱求和,记为WFBsm{x}=ΣHm(ω)*|fft(x(n)*w(n))|2,其中m为滤波器通道数,Hm(ω)为弯折滤波器频率响应;当m=k,k=1,2...,16时,WFBsm{x}为一帧信号x(n)在第k通道滤波器的映射。
6.根据权利要求1所述的一种基于弯折倒谱特征的抗噪语音识别方法,其特征在于,所述对数和离散余弦变换的步骤,具体包括:
将弯折滤波器的输出求以自然数为底的对数,计算公式为:s(m)=ln(WFBm{x}),m=1,2,...,16;
进一步,将对数谱s(m)作离散余弦变换,计算公式为:求取一帧信号的倒谱系数,得到16维弯折倒谱特征。
7.根据权利要求1所述的一种基于弯折倒谱特征的抗噪语音识别方法,其特征在于,所述对弯折倒谱特征WFCC进行后端径向基函数神经网络识别的步骤,具体包括:
对弯折倒谱特征WFCC特征进行时间和幅度归一化,由于每个语音文件的长短不同,分帧后的帧数各不相同,无法作为RBF网络的输入,因此将每个语音文件帧数统一为64帧,每一帧提取16维特征,得到1024维特征作为识别网络的输入;
RBF网络结构由三层结构组成,将训练文件的特征作为RBF输入,得到训练RBF神经网络,然后将测试文件的特征作为输入,得到测试RBF神经网络,与训练RBF网络按照一定的匹配规则进行模式匹配,得到识别结果。
8.根据权利要求1所述的一种基于弯折倒谱特征的抗噪语音识别方法,其特征在于,所述语料库语音信号是韩语语料库,词语内容为数字和简单控制性语句;此语料库包括10词、20词、30词、40词以及50词五种不同的子库,每一子库分别在不同的信噪比15dB,20dB,25dB,30dB以及clean下录制完成;本语料库由16名男性发声构成,每人每词发音3遍,在完全闭集的非特定人识别中,采用9人的发音作为训练语料库,而另外7人的发音作为测试语料库进行实验。
9.根据权利要求7所述的一种基于弯折倒谱特征的抗噪语音识别方法,其特征在于,所述后端径向基函数神经网络结构,具体包括:
RBF由输入层、隐层和输出层组成的前向神经网络模型,具体第一层为输入层,由信号源节点组成;第二层为隐含层,采用高斯函数作为径向基函数,作为隐单元的“基”构成隐含层空间;第三层为输出层,输出节点为线性求和单元,它对输入模式的作用做出响应;每个语音文件是1024维特征,作为RBF网络的输入,则RBF输入层节点数为1024;RBF网络隐层节点数则根据识别词汇量变化,10词对应10个隐节点,50词对应50个隐节点;输出层节点数与隐层节点数相同。
10.根据权利要求7所述的一种基于弯折倒谱特征的抗噪语音识别方法,其特征在于,所述按照一定的匹配规则进行模式匹配得到识别结果,具体步骤为:
训练RBF神经网络模型确定后,将测试集的单词输入网络分别进行识别测试;每输入一个单词的1024维特征矢量,经过隐层、输出层的计算后就可以得到每个单词的分类号,将这个分类号与输入特征矢量自带的分类号比较,相等则识别正确,反之,识别错误;最后将识别正确的个数与所有待识别单词数做比值即可得到最终的识别率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510212759.0A CN104778948B (zh) | 2015-04-29 | 2015-04-29 | 一种基于弯折倒谱特征的抗噪语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510212759.0A CN104778948B (zh) | 2015-04-29 | 2015-04-29 | 一种基于弯折倒谱特征的抗噪语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104778948A true CN104778948A (zh) | 2015-07-15 |
CN104778948B CN104778948B (zh) | 2018-05-01 |
Family
ID=53620376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510212759.0A Active CN104778948B (zh) | 2015-04-29 | 2015-04-29 | 一种基于弯折倒谱特征的抗噪语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104778948B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105118501A (zh) * | 2015-09-07 | 2015-12-02 | 徐洋 | 语音识别的方法及系统 |
CN105656448A (zh) * | 2015-12-28 | 2016-06-08 | 广东工业大学 | 一种音频滤波器 |
CN106448656A (zh) * | 2016-10-26 | 2017-02-22 | 安徽省云逸智能科技有限公司 | 一种基于自然语言处理的机器人语音识别方法 |
CN113409819A (zh) * | 2021-08-19 | 2021-09-17 | 中国空气动力研究与发展中心低速空气动力研究所 | 一种基于听觉谱特征提取的直升机声信号识别方法 |
CN113517901A (zh) * | 2021-04-13 | 2021-10-19 | 深圳市太美亚电子科技有限公司 | 一种太阳能智能家居系统的智能手环及其控制方法 |
CN116934926A (zh) * | 2023-09-15 | 2023-10-24 | 杭州优航信息技术有限公司 | 一种基于多模态数据融合的识别方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002056300A1 (en) * | 2001-01-16 | 2002-07-18 | Koninklijke Philips Electronics N.V. | Parametric encoder and method for encoding an audio or speech signal |
CN101903941A (zh) * | 2007-12-21 | 2010-12-01 | 沃福森微电子股份有限公司 | 具有低速率仿真的噪声消除系统 |
-
2015
- 2015-04-29 CN CN201510212759.0A patent/CN104778948B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002056300A1 (en) * | 2001-01-16 | 2002-07-18 | Koninklijke Philips Electronics N.V. | Parametric encoder and method for encoding an audio or speech signal |
CN101903941A (zh) * | 2007-12-21 | 2010-12-01 | 沃福森微电子股份有限公司 | 具有低速率仿真的噪声消除系统 |
Non-Patent Citations (5)
Title |
---|
XUEYING ZHANG ETC: "Warped Filter Banks Used in Noisy Speech Recognition", 《INNOBATIVE COMPUTING, INFORMATION AND CONTROL (ICICIC), 2009 FOURTH INTERNATIONAL CONFERENCE》 * |
周学广 等: "《信息内容安全》", 30 November 2012, 武汉大学出版社 * |
李弼程 等: "《模式识别原理与应用》", 28 February 2008, 西安电子科技大学出版社 * |
沈希忠: "《数字信号处理》", 30 April 2014, 机械工业出版社 * |
黄丽霞: "非特定人鲁棒性语音识别中前端滤波器的研究", 《中国博士学位论文全文数据库》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105118501A (zh) * | 2015-09-07 | 2015-12-02 | 徐洋 | 语音识别的方法及系统 |
CN105118501B (zh) * | 2015-09-07 | 2019-05-21 | 徐洋 | 语音识别的方法及系统 |
CN105656448A (zh) * | 2015-12-28 | 2016-06-08 | 广东工业大学 | 一种音频滤波器 |
CN105656448B (zh) * | 2015-12-28 | 2018-12-25 | 广东工业大学 | 一种音频滤波器 |
CN106448656A (zh) * | 2016-10-26 | 2017-02-22 | 安徽省云逸智能科技有限公司 | 一种基于自然语言处理的机器人语音识别方法 |
CN113517901A (zh) * | 2021-04-13 | 2021-10-19 | 深圳市太美亚电子科技有限公司 | 一种太阳能智能家居系统的智能手环及其控制方法 |
CN113409819A (zh) * | 2021-08-19 | 2021-09-17 | 中国空气动力研究与发展中心低速空气动力研究所 | 一种基于听觉谱特征提取的直升机声信号识别方法 |
CN113409819B (zh) * | 2021-08-19 | 2022-01-25 | 中国空气动力研究与发展中心低速空气动力研究所 | 一种基于听觉谱特征提取的直升机声信号识别方法 |
CN116934926A (zh) * | 2023-09-15 | 2023-10-24 | 杭州优航信息技术有限公司 | 一种基于多模态数据融合的识别方法和系统 |
CN116934926B (zh) * | 2023-09-15 | 2023-12-05 | 杭州优航信息技术有限公司 | 一种基于多模态数据融合的识别方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104778948B (zh) | 2018-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN104778948A (zh) | 一种基于弯折倒谱特征的抗噪语音识别方法 | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
CN102968990B (zh) | 说话人识别方法和系统 | |
CN108198545B (zh) | 一种基于小波变换的语音识别方法 | |
CN110931022B (zh) | 基于高低频动静特征的声纹识别方法 | |
CN108922541A (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
CN106653004B (zh) | 感知语谱规整耳蜗滤波系数的说话人识别特征提取方法 | |
Shi et al. | Robust speaker recognition based on improved GFCC | |
CN107274887A (zh) | 基于融合特征mgfcc的说话人二次特征提取方法 | |
CN103559893B (zh) | 一种水下目标gammachirp倒谱系数听觉特征提取方法 | |
CN109448755A (zh) | 人工耳蜗听觉场景识别方法 | |
CN105845143A (zh) | 基于支持向量机的说话人确认方法及其系统 | |
CN110503967A (zh) | 一种语音增强方法、装置、介质和设备 | |
CN107895582A (zh) | 面向多源信息领域的说话人自适应语音情感识别方法 | |
CN111508504A (zh) | 基于听觉中枢感知机理的说话人识别方法 | |
Maganti et al. | Auditory processing-based features for improving speech recognition in adverse acoustic conditions | |
Zouhir et al. | A bio-inspired feature extraction for robust speech recognition | |
Gandhiraj et al. | Auditory-based wavelet packet filterbank for speech recognition using neural network | |
CN115472168B (zh) | 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备 | |
Aggarwal et al. | Performance evaluation of artificial neural networks for isolated Hindi digit recognition with LPC and MFCC | |
Montalvão et al. | Is masking a relevant aspect lacking in MFCC? A speaker verification perspective |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |