CN102290047B - 基于稀疏分解与重构的鲁棒语音特征提取方法 - Google Patents

基于稀疏分解与重构的鲁棒语音特征提取方法 Download PDF

Info

Publication number
CN102290047B
CN102290047B CN 201110283908 CN201110283908A CN102290047B CN 102290047 B CN102290047 B CN 102290047B CN 201110283908 CN201110283908 CN 201110283908 CN 201110283908 A CN201110283908 A CN 201110283908A CN 102290047 B CN102290047 B CN 102290047B
Authority
CN
China
Prior art keywords
atom
voice
dictionary
noise
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110283908
Other languages
English (en)
Other versions
CN102290047A (zh
Inventor
韩纪庆
何勇军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of technology high tech Development Corporation
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN 201110283908 priority Critical patent/CN102290047B/zh
Publication of CN102290047A publication Critical patent/CN102290047A/zh
Application granted granted Critical
Publication of CN102290047B publication Critical patent/CN102290047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

基于稀疏分解与重构的鲁棒语音特征提取方法,涉及稀疏分解与重构的语音特征提取方法,解决了1、原子字典的选取:具有较高的时间复杂度,而且难以满足信号投影后稀疏;2、信号的稀疏分解:考虑语音信号和噪声信号的时间相关性的较少;3、信号的重构:忽略了原子的先验概率以及各个原子相互转换的概率的问题,它包括具体步骤如下:步骤一、预处理;步骤二、作离散傅立叶变换,并求功率谱;步骤三、原子字典训练,保存;步骤四、稀疏分解;步骤五、语音谱重构;步骤六、加梅尔三角滤波器并取对数;步骤七、得到梅尔倒谱系数与梅尔倒谱稀疏拼接,形成鲁棒特征。用于多媒体信息处理领域。

Description

基于稀疏分解与重构的鲁棒语音特征提取方法
技术领域
本发明涉及稀疏分解与重构的语音特征提取方法。
背景技术
让机器能像人一样感知和理解语音一直是人类的梦想,语音识别为这一梦想带来了希望。经过几十年发展,语音识别技术取得了巨大成就,从最初的孤立词识别到如今的大词表连续语音识别(Large Vocabulary Continue Speech Recognition,LVCSR),语音识别技术已经迈出实验室并逐步走向应用。在理想环境下,目前的小词表以及中等词表识别系统的识别率能达到99%以上,LVCSR系统识别率也能超过95%,但在噪声情况下,识别率将急剧下降。数十年来,研究者们尝试用各种方法来增强语音识别系统的鲁棒性,虽取得了一定进展,但目前的语音识别系统仍然难以适应复杂的应用环境。
噪声在现实应用中广泛存在,这些种噪声可能是加性的,可能是卷积性的,也可能是两者的混合。一般认为,外部环境噪声呈加性,信道影响呈卷积性。特别地,当训练环境没有噪声而测试环境存在噪声,或者训练环境和测试环境存在不同的噪声,将会引起环境失配。环境失配必然导致语音特征参数的分布存在偏差进而影响系统性能。
为了增强语音识别系统的环境鲁棒性,研究者们提出了大量的方法。这些方法大致可分为两类,即特征增强和模型补偿。特征增强试图从畸变语音中提取鲁棒特征。这类方法或先对信号去噪然后提取特征,例如谱减,维纳滤波,卡尔曼滤波,子空间法等,或直接补偿特征,例如倒谱均值方差规正(Cepstral Mean Normalization,CMN),特征弯折,短时高斯化,相关谱滤波(RelAtive SpecTrAl,RASTA),非线性滤波等。模型补偿则试图修改声学模型来适应环境,典型的有并行混合模型(Parallel Model Combination,PMC),泰勒级数展开(Vector Taylor Series,VTS)以及各种自适应方法如最大似然线性回归(MaximumLikelihood Linear Regression,MLLR),最大后验概率(Maxi-mum A-Posteriori,MAP)等。
虽然研究者们提出了各种方法试图解决语音识别系统的噪声鲁棒性问题,但其效果仍然无法满足现实应用需求。一方面,应用环境复杂多变,存在着各种难以预测的时变噪声;另一方面,目前的方法普遍基于噪声的平稳性假设,且需要对噪声建模以实现噪声谱的估计。这决定了目前的方法在噪声平稳时能取得较好的效果,在复杂的时变噪声情况下无法取得理想的效果。
近年来,随着稀疏分解与重构理论的成熟,信号的稀疏表示在信号处理各个领域展示出了巨大的潜力。信号满足稀疏性是指信号被分解在某个原子字典上时,仅有少量原子的系数不为零。现实中的大量信号,诸如图像,语音等都满足稀疏性或近似稀疏。另一方面,从人的认知角度上看,大量研究表明,人的感知神经系统总是从海量的神经元中,同时激活极少一部分以实现对外部刺激的编码。也就是说,人在感知外部刺激获取信息时,也遵从稀疏性原则。信号的稀疏表示在信号压缩、分析、去噪等各个方面均表现出了巨大的潜力。
信号的稀疏分解与重构存在的问题:
1、原子字典的选取:目前的各种方法大多需要反复迭代,具有较高的时间复杂度,而且难以满足信号投影后稀疏;
2、信号的稀疏分解:目前的稀疏分解方法满足的准则有稀疏性和重构误差最小准则,考虑语音信号和噪声信号的时间相关性的较少;
3、信号的重构:目前的方法大多数等概率地考虑原子的贡献,忽略了原子的先验概率以及各个原子相互转换的概率。
发明内容
本发明的目的是为了解决现有1、原子字典的选取:具有较高的时间复杂度,而且难以满足信号投影后稀疏;2、信号的稀疏分解:考虑语音信号和噪声信号的时间相关性的较少;3、信号的重构:忽略了原子的先验概率以及各个原子相互转换的概率的问题,提供一种基于稀疏分解与重构的鲁棒语音特征提取方法。
基于稀疏分解与重构的鲁棒语音特征提取方法,它包括具体步骤如下:
步骤一、预处理,将读入的语音进行分帧、加窗,使语音从时间序列转变为帧序列;
步骤二、作离散傅立叶变换,并求功率谱: X a ( k ) = | | Σ n = 0 N - 1 x ( n ) e - j 2 kπ / N | | 2 , 0 ≤ k ≤ N ; 式中x(n)为加窗后的语音帧,N表示傅立叶变换的点数;判断是否进行原子字典训练,否,执行步骤四;
步骤三、原子字典训练,保存;利用算法I,从大量语音中选取样本作为字典原子;
步骤四、稀疏分解;
步骤五、语音谱重构;
步骤六、加梅尔三角滤波器并取对数;定义一个有M个滤波器的滤波器组即滤波器的个数和临界带的个数相近,采用的滤波器为三角滤波器,中心频率为f(m),m=0,2,...,M-1,滤波器组中每个三角滤波器的跨度在梅尔标度上是相等的;三角滤波器的频率响应定义为:
H m ( k ) = 0 k < f ( m - 1 ) ork > f ( m + 1 ) 2 ( k - f ( m - 1 ) ) ( f ( m + 1 ) - f ( m - 1 ) ) ( f ( m ) - f ( m - 1 ) ) f ( m - 1 ) < k < f ( m ) 2 ( f ( m + 1 ) - k ) ( f ( m + 1 ) - f ( m - 1 ) ) ( f ( m + 1 ) - f ( m ) ) f ( m ) &le; k &le; f ( m + 1 )
对功率谱加梅尔滤波器组:
S ( m ) = ln ( &Sigma; k = 0 N - 1 | X a ( k ) | 2 H m ( k ) ) , 0 &le; m < M ;
步骤七、经离散余弦变换(DCT)得到梅尔倒谱系数: c ( n ) = &Sigma; m = 0 M - 1 S ( m ) cos ( n&pi; ( m - 0.5 ) / M ) , 0 &le; n &le; M , 计算一阶差分和二阶差分,与梅尔倒谱稀疏拼接,形成鲁棒特征。
本发明与目前主流方法性能对比表:
  方法   集A   集B   集C   平均
  无补偿   60.43   55.85   69.01   60.31
  CMN   68.65   73.71   69.69   70.88
  AFE   89.27   87.92   88.53   88.58
  本专利   93.22   94.02   94.52   92.92
测试集合为Aurora-2,任务为语音识别,所列内容为词识别率(%);其中CMN为倒谱均值规正,AFE为欧洲分布式语音识别前端特征提取标准。
附图说明
图1本发明的流程的示意图。
具体实施方式
具体实施方式一:结合图1说明本实施方式,本实施方式包括具体步骤如下:
步骤一、预处理,将读入的语音进行分帧、加窗,使语音从时间序列转变为帧序列;
步骤二、作离散傅立叶变换,并求功率谱: X a ( k ) = | | &Sigma; n = 0 N - 1 x ( n ) e - j 2 k&pi; / N | | 2 , 0 &le; k &le; N ; - - - ( 5 )
式中x(n)为加窗后的语音帧,N表示傅立叶变换的点数;判断是否进行原子字典训练,否,执行步骤四;
步骤三、原子字典训练,保存;利用算法I,从大量语音中选取样本作为字典原子;
步骤四、稀疏分解;
步骤五、语音谱重构;
步骤六、加梅尔三角滤波器并取对数;定义一个有M个滤波器的滤波器组即滤波器的个数和临界带的个数相近,采用的滤波器为三角滤波器,中心频率为f(m),m=0,2,...,M-1,滤波器组中每个三角滤波器的跨度在梅尔标度上是相等的;三角滤波器的频率响应定义为:
H m ( k ) = 0 k < f ( m - 1 ) ork > f ( m + 1 ) 2 ( k - f ( m - 1 ) ) ( f ( m + 1 ) - f ( m - 1 ) ) ( f ( m ) - f ( m - 1 ) ) f ( m - 1 ) < k < f ( m ) 2 ( f ( m + 1 ) - k ) ( f ( m + 1 ) - f ( m - 1 ) ) ( f ( m + 1 ) - f ( m ) ) f ( m ) &le; k &le; f ( m + 1 ) - - - ( 6 )
对功率谱加梅尔滤波器组:
S ( m ) = ln ( &Sigma; k = 0 N - 1 | X a ( k ) | 2 H m ( k ) ) , 0 &le; m < M - - - ( 7 ) ;
步骤七、经离散余弦变换(DCT)得到梅尔倒谱系数: c ( n ) = &Sigma; m = 0 M - 1 S ( m ) cos ( n&pi; ( m - 0.5 ) / M ) , 0 &le; n &le; M (8),计算一阶差分和二阶差分,与梅尔倒谱稀疏拼接,形成鲁棒特征。
具体实施方式二:实施方式一中的步骤一的具体过程是:
本发明的输入是语音的离散时间信号,首先要对语音进行预处理,包括分帧、加窗。分帧的目的在于将时间信号分割为相互交叠的语音片断,即帧;接下来,对每帧语音加窗;目前广泛采用的窗函数有汉明窗和汉宁窗,本发明采用汉明窗:
其中n为时间序号,L为窗长。其它步骤与实施方式一相同。
具体实施方式三:实施方式一中的步骤三的具体过程是:在满足重构训练样本误差最小的情况下从训练语音帧中选取具有代表性的帧作为原子;对于噪声原子,考虑动态更新,以追踪时变噪声的影响,提出算法I:
算法I
Figure BDA0000093530130000051
其中Φ为原子字典,d(ft,Φ)=min{di|di=||fti||2};其中φi为目前的Φ中的第i个原子,||·||2为2-范数算子;算法首先对原子字典置空,定义d(ft,φ)=0,φ表示空集;然后从第一帧语音开始,按照距离最小准则逐个加入原子,对于剩余语音帧中与原子字典内原子很相近的语音帧作抛弃处理,否者,加入原子字典;该算法能保证所选取的原子重构出的信号误差最小。在噪声情况下,同样也为各种噪声训练原子字典;并将语音原子字典和噪声原子字典拼在一起,组成一个大的冗余原子字典。其它步骤与实施方式一相同。
具体实施方式四:实施方式一中的步骤四的具体过程是:对混噪语音帧的稀疏分解,就是要寻找混噪语音在冗余字典上的稀疏表示。直观上,语音分量被表示在语音原子上,噪声分量被表示在噪声原子上;在重构时,将所有噪声分量上的系数置为0,仅保留语音声量上的非零系数。接下来我们将推导这一原理。
假定有语音原子
Figure BDA0000093530130000052
和噪声原子组成原子字典Φ=[Φs Φv]。混噪语音y=s+v,其中s为清晰语音,v为噪声;混噪语音在冗余字典上的分解为x,即有
y = &Phi;x = &Phi; s &Phi; v x s x v = &Phi; s x s + &Phi; v x v - - - ( 1 )
其中xs为混噪语音在清晰语音原子上系数向量,xv为y在噪声原子上的系数向量;清晰语音通过如下方式重构:
s ^ = &Phi; s x s - - - ( 2 )
在稀疏分解方面,我们充分考虑语音的时域相关性,即相邻帧语音差别较小的特点,提出如下稀疏分解准则:
min X | Y - &Phi;X | | 2 2 + rank ( S ) + rank ( V ) + | | &Phi; s x i s - &Phi; s x i - 1 s | | 2 2 + | | &Phi; n x i v - &Phi; n x i - 1 v | | 2 2 - - - ( 3 )
其中Y=[y1,y2,...,yT]为混噪语音帧序列,为各帧语音在语音字典上的稀疏表示,
Figure BDA0000093530130000062
为各帧混噪语音中噪声在噪声字典上的稀疏表示, X = [ x 1 , x 2 , . . . , x T ] = S V , rank(.)为求秩算子;上式第1项保证重构误差要尽可能小,第2、3两项保证分解满足稀疏准则,第3、4两项保证分解满足时域连续性;上式可以通过常用的优化方法求解,典型的有梯度下降算法。
当语音字典中有足够多的样例能在一定误差范围表示信号,噪声字典也有足够多样例表达混噪语音中的噪声。我们将问题稍作简化,即要在语音字典中找到一个原子
Figure BDA0000093530130000064
在噪声字典中也找到一个原子用于重构混噪语音信号,使得
Figure BDA0000093530130000066
最小,其中
Figure BDA0000093530130000067
我们采用贪心算法:对于待分解语音帧y,按照如下算法进行分解:
算法II
Figure BDA0000093530130000071
算法中bigvalue被设置为一个较大的值作为门限,算法中的“<”定义为向量之间的比较,即左边向量的元素全部大于右边向量对应的元素,含有该符号的行可以丢弃存在频谱分量上的值大于y对应分量值的那些原子,减少运算量。矩阵error用于存储重构误差。find_min_index(error)函数用于寻找error中值最小的元素的下标。该方法效率高,去噪能力强,而且不受信噪比的影响,应用中取得了良好效果。其它步骤与实施方式一相同。
具体实施方式五:实施方式一中的步骤五的具体过程是:对于步骤三训练的原子字典,统计各个原子被使用到的次数,累加起来除以语音帧总数作为对应原子的先验概率;对原子之间的转移概率也做相同的统计,建立原子转移矩阵;重构时利用贝叶斯公式,在满足最大后验概率的准则下重构清晰语音帧的频谱。其它步骤与实施方式一相同。
传统的重构方法采用式子(2)重构清晰语音,即假定语音原子字典中的每个原子具有相同的先验概率以及任意两个原子之间的转换概率相等。这种假定忽略了语音本身的不均衡性和时间依赖性。比如,一个词的后面紧接着要发生的词是具有一定概率、可以统计的;语音中词的出现频率也不尽相同,也可以统计并作为先验概率,辅助语音重构。在帧的层次道理也一样。
具体实施方式六:本实施方式采用具体实施方式一的技术方案,结合具体的环境进行实验,说明本发明的效果:
步骤一、预处理:
该发明的输入是语音的离散时间信号,首先要对语音进行预处理,包括分帧、加窗。分帧的目的在于将时间信号分割为相互交叠的语音片断,即帧。每帧长度通常为30ms左右,帧移为10ms。接下来,对每帧语音加窗。目前广泛采用的窗函数有汉明窗和汉宁窗,而本方法采用汉明窗:
Figure BDA0000093530130000081
其中n为时间序号,L为窗长。
步骤二:作离散傅立叶变换并求功率谱:
X a ( k ) = | | &Sigma; n = 0 N - 1 x ( n ) e - j 2 k&pi; / N | | 2 , 0 &le; k &le; N - - - ( 5 )
式中x(n)为加窗后的语音帧,N表示傅立叶变换的点数。判断是否原子字典训练,否,执行步骤四。
步骤三、字典训练:
利用算法I,从大量语音中选取样本作为字典原子。字典训练结束后,得到的原子字典保存起来,供稀疏分解和语音谱重构使用。
步骤四、稀疏分解:
对于稀疏分解,如果运算资源充足,应用的实时性要求不太高,则用梯度下降算法优化式(3)获得语音的稀疏分解。反之,则使用算法II进行稀疏分解。
步骤五、语音谱重构:
在训练原子字典后,将所有训练帧分解在语音原子字典上,然后统计各个原子被使用到的次数,累加起来除以语音帧总数作为对应原子的先验概率。对原子之间的转移概率也做相同的统计,建立原子转移矩阵。重构时利用贝叶斯公式,在满足最大后验概率的准则下重构清晰语音帧的频谱。充分考虑原子的先验概率和语音帧之间的时间依赖性,达到重构的目的。
步骤六、加梅尔三角滤波器并取对数:
我们定义一个有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为f(m),m=0,2,...,M-1,本发明取M=28。滤波器组中每个三角滤波器的跨度在梅尔标度上是相等的。三角滤波器的频率响应定义为:
H m ( k ) = 0 k < f ( m - 1 ) ork > f ( m + 1 ) 2 ( k - f ( m - 1 ) ) ( f ( m + 1 ) - f ( m - 1 ) ) ( f ( m ) - f ( m - 1 ) ) f ( m - 1 ) < k < f ( m ) 2 ( f ( m + 1 ) - k ) ( f ( m + 1 ) - f ( m - 1 ) ) ( f ( m + 1 ) - f ( m ) ) f ( m ) &le; k &le; f ( m + 1 ) - - - ( 6 )
对功率谱加梅尔滤波器组:
S ( m ) = ln ( &Sigma; k = 0 N - 1 | X a ( k ) | 2 H m ( k ) ) , 0 &le; m < M - - - ( 7 )
步骤七、经离散余弦变换(DCT)得到梅尔倒谱系数:
c ( n ) = &Sigma; m = 0 M - 1 S ( m ) cos ( n&pi; ( m - 0.5 ) / M ) , 0 &le; n &le; M - - - ( 8 )
计算一阶差分和二阶差分,与梅尔倒谱稀疏拼接在一起,形成鲁棒特征。

Claims (4)

1.基于稀疏分解与重构的鲁棒语音特征提取方法,其特征是它包括具体步骤如下:
步骤一、预处理,将读入的语音进行分帧、加窗,使语音从时间序列转变为帧序列;
步骤二、作离散傅立叶变换,并求功率谱:
Figure FDA00001925586100011
式中x(n)为加窗后的语音帧,N表示傅立叶变换的点数;判断是否进行原子字典训练,否,执行步骤四;
步骤三、原子字典训练,保存;利用算法I,从大量语音中选取样本作为字典原子;
步骤四、稀疏分解;
步骤五、语音谱重构;
步骤六、加梅尔三角滤波器并取对数;定义一个有M个滤波器的滤波器组即滤波器的个数和临界带的个数相近,采用的滤波器为三角滤波器,中心频率为f(m),m=0,2,…,M-1,滤波器组中每个三角滤波器的跨度在梅尔标度上是相等的;三角滤波器的频率响应定义为:
H m ( k ) = 0 k < f ( m - 1 ) ork > f ( m + 1 ) 2 ( k - f ( m - 1 ) ) ( f ( m + 1 ) - f ( m - 1 ) ) ( f ( m ) - f ( m - 1 ) ) f ( m - 1 ) < k < f ( m ) 2 ( f ( m + 1 ) - k ) ( f ( m + 1 ) - f ( m - 1 ) ) ( f ( m + 1 ) - f ( m ) ) f ( m ) &le; k &le; f ( m + 1 )
对功率谱加梅尔滤波器组:
S ( m ) = ln ( &Sigma; k = 0 N - 1 | X a ( k ) | 2 H m ( k ) ) , 0 &le; m < M ;
步骤七、经离散余弦变换得到梅尔倒谱系数: c ( n ) = &Sigma; m = 0 M - 1 S ( m ) cos ( n&pi; ( m - 0.5 ) / M ) , 0 &le; n &le; M , 计算一阶差分和二阶差分,与梅尔倒谱稀疏拼接,形成鲁棒特征;
步骤三的具体过程是:在满足重构训练样本误差最小的情况下从训练语音帧中选取具有代表性的帧作为原子;对于噪声原子,考虑动态更新,以追踪时变噪声的影响,提出算法I:
Figure FDA00001925586100021
其中:f1,f2,……fT,以功率谱体现;Φ为原子字典,即:具有代表性样本集合,d(ft,Φ)=min{di|di=‖fti2};其中φi为目前的Φ中的第i个原子,‖·‖2为2-范数算子;算法首先对原子字典置空,定义d(ft,φ)=0,φ表示空集;从第一帧语音开始,按照距离最小准则逐个加入原子,对于剩余语音帧中与原子字典内原子很相近的语音帧作抛弃处理,否者,加入原子字典;该算法能保证所选取的原子重构出的信号误差最小;在噪声情况下,同样也为各种噪声训练原子字典;并将语音原子字典和噪声原子字典拼在一起,组成一个大的冗余原子字典。
2.根据权利要求1所述基于稀疏分解与重构的鲁棒语音特征提取方法,其特征在于步骤一的输入的是语音的离散时间信号,预处理时,采用汉明窗:
w ( n ) = 0.54 - 0.46 cos ( 2 &pi;n / ( L - 1 ) ) 0 &le; n &le; L - 1 0
其中n为时间序号,L为窗长。
3.根据权利要求1所述基于稀疏分解与重构的鲁棒语音特征提取方法,其特征在于步骤四的具体过程是:对混噪语音帧的稀疏分解,就是混噪语音在冗余字典上的稀疏表示;语音分量被表示在语音原子上,噪声分量被表示在噪声原子上;在重构时,将所有噪声分量上的系数置为0,仅保留语音声量上的非零系数;推导这一原理:
假定有语音原子
Figure FDA00001925586100023
和噪声原子
Figure FDA00001925586100024
组成原子字典Φ=[ΦsΦv];混噪语音y=s+v,其中s为清晰语音,v为噪声;混噪语音在冗余字典上的分解为x,即有: y = &Phi;x = &Phi; s &Phi; v x s x v = &Phi; s x s + &Phi; v x v
其中xs为混噪语音在清晰语音原子上系数向量,xv为y在噪声原子上的系数向量;清晰语音
Figure FDA00001925586100031
通过如下方式重构:
s ^ = &Phi; s x s
在稀疏分解方面,考虑语音的时域相关性,即相邻帧语音差别较小的特点,提出如下稀疏分解准则:
min X | | Y - &Phi;X | | 2 2 + rank ( S ) + rank ( V ) + | | &Phi; s x i s - &Phi; s x i - 1 s | | 2 2 + | | &Phi; n x i v - &Phi; n x i - 1 v | | 2 2
其中Y=[y1,y2,…,yT]为混噪语音帧序列,
Figure FDA00001925586100034
为各帧语音在语音字典上的稀疏表示,
Figure FDA00001925586100035
为各帧混噪语音中噪声在噪声字典上的稀疏表示, X = [ x 1 , x 2 , . . . , x T ] = S V , rank(.)为求秩算子;在语音字典中找到一个原子在噪声字典中也找到一个原子
Figure FDA00001925586100038
用于重构混噪语音信号,使得
Figure FDA00001925586100039
最小,其中
Figure FDA000019255861000310
采用贪心算法:对于待分解语音帧y,按照如下算法进行分解:
算法中bigvalue被设置为一个较大的值作为门限,算法中的“<”定义为向量之间的比较,即左边向量的元素全部大于右边向量对应的元素,含有该符号的行可以丢弃存在频谱分量上的值大于y对应分量值的那些原子,减少运算量;矩阵error用于存储重构误差,find_min_index(error)函数用于寻找error中值最小的元素的下标。
4.根据权利要求1所述基于稀疏分解与重构的鲁棒语音特征提取方法,其特征在于步骤五的具体过程是:对于步骤三训练的原子字典,统计各个原子被使用到的次数,累加起来除以语音帧总数作为对应原子的先验概率;对原子之间的转移概率也做相同的统计,建立原子转移矩阵;重构时利用贝叶斯公式,在满足最大后验概率的准则下重构清晰语音帧的频谱。
CN 201110283908 2011-09-22 2011-09-22 基于稀疏分解与重构的鲁棒语音特征提取方法 Active CN102290047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110283908 CN102290047B (zh) 2011-09-22 2011-09-22 基于稀疏分解与重构的鲁棒语音特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110283908 CN102290047B (zh) 2011-09-22 2011-09-22 基于稀疏分解与重构的鲁棒语音特征提取方法

Publications (2)

Publication Number Publication Date
CN102290047A CN102290047A (zh) 2011-12-21
CN102290047B true CN102290047B (zh) 2012-12-12

Family

ID=45336410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110283908 Active CN102290047B (zh) 2011-09-22 2011-09-22 基于稀疏分解与重构的鲁棒语音特征提取方法

Country Status (1)

Country Link
CN (1) CN102290047B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104094323B (zh) * 2012-02-03 2017-11-21 梅伊有限公司 用于表征通货项的设备和方法
CN102664010B (zh) * 2012-05-04 2014-04-16 山东大学 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
CN102915742B (zh) * 2012-10-30 2014-07-30 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
CN103245376B (zh) * 2013-04-10 2016-01-20 中国科学院上海微系统与信息技术研究所 一种弱信号目标检测方法
CN103971700A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 语音监控方法及装置
CN105139855A (zh) * 2014-05-29 2015-12-09 哈尔滨理工大学 一种两阶段稀疏分解的说话人识别方法与装置
CN103986539B (zh) * 2014-06-10 2016-02-03 哈尔滨工业大学 一种基于稀疏去噪的认知无线电频谱感知方法
CN104200812B (zh) * 2014-07-16 2017-04-05 电子科技大学 一种基于稀疏分解的音频噪声实时检测方法
EP3007467B1 (en) * 2014-10-06 2017-08-30 Oticon A/s A hearing device comprising a low-latency sound source separation unit
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与系统
CN105845139B (zh) * 2016-05-20 2020-06-16 北方民族大学 一种离线语音控制方法和装置
CN106373559B (zh) * 2016-09-08 2019-12-10 河海大学 一种基于对数谱信噪比加权的鲁棒特征提取方法
CN108444725B (zh) * 2016-11-04 2020-05-15 北京自动化控制设备研究所 一种针对大数据的快速噪声滤除方法
CN106644042B (zh) * 2016-11-25 2019-10-18 中国船舶重工集团公司第七一0研究所 基于可控滤波器组的舰船噪声功率谱分析电路及其方法
CN108205127B (zh) * 2017-12-25 2021-11-09 电子科技大学 一种基于稀疏表示的水声信号处理方法
CN108917917A (zh) * 2018-05-16 2018-11-30 国网山东省电力公司莱芜供电公司 一种基于稀疏分解的断路器机械振动信号去噪方法
CN110570845B (zh) * 2019-08-15 2021-10-22 武汉理工大学 一种基于域不变特征的语音识别方法
CN110542855B (zh) * 2019-09-08 2021-09-21 广东石油化工学院 基于离散余弦变换的负荷开关事件检测方法和系统
CN110703144B (zh) * 2019-09-08 2021-07-09 广东石油化工学院 基于离散余弦变换的变压器运行状态检测方法和系统
CN110837791B (zh) * 2019-11-02 2023-04-07 山东科技大学 一种基于过完备字典的声速剖面反演方法
CN113129918B (zh) * 2021-04-15 2022-05-03 浙江大学 联合波束形成和深度复数U-Net网络的语音去混响方法
CN116361727A (zh) * 2023-03-28 2023-06-30 重庆大学 一种基于音频特征和SRC-Adaboost的电池换电系统驱动齿轮故障诊断方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1384960A (zh) * 1999-10-29 2002-12-11 艾利森电话股份有限公司 语音识别的健壮特征提取方法和装置
CN1650349A (zh) * 2002-04-30 2005-08-03 诺基亚有限公司 用于抗噪声语音识别的在线参数直方图正态化
CN1653519A (zh) * 2002-03-20 2005-08-10 高通股份有限公司 通过分析源信号的冗余特征进行稳健话音识别的方法
CN101027716A (zh) * 2004-09-23 2007-08-29 皇家飞利浦电子股份有限公司 健壮的说话者相关的语音识别系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1384960A (zh) * 1999-10-29 2002-12-11 艾利森电话股份有限公司 语音识别的健壮特征提取方法和装置
CN1653519A (zh) * 2002-03-20 2005-08-10 高通股份有限公司 通过分析源信号的冗余特征进行稳健话音识别的方法
CN1650349A (zh) * 2002-04-30 2005-08-03 诺基亚有限公司 用于抗噪声语音识别的在线参数直方图正态化
CN101027716A (zh) * 2004-09-23 2007-08-29 皇家飞利浦电子股份有限公司 健壮的说话者相关的语音识别系统

Also Published As

Publication number Publication date
CN102290047A (zh) 2011-12-21

Similar Documents

Publication Publication Date Title
CN102290047B (zh) 基于稀疏分解与重构的鲁棒语音特征提取方法
Zeghidour et al. End-to-end speech recognition from the raw waveform
Sarikaya et al. High resolution speech feature parametrization for monophone-based stressed speech recognition
CN102483916B (zh) 声音特征量提取装置和声音特征量提取方法
CN103117059B (zh) 一种基于张量分解的语音信号特征提取方法
Athineos et al. Autoregressive modeling of temporal envelopes
EP1103951B1 (en) Adaptive wavelet extraction for speech recognition
CN105957537B (zh) 一种基于l1/2稀疏约束卷积非负矩阵分解的语音去噪方法和系统
CN103310798B (zh) 降噪方法和装置
Févotte et al. Sparse linear regression with structured priors and application to denoising of musical audio
CN109192200B (zh) 一种语音识别方法
DE60025748T2 (de) Spracherkennung
WO2005013261A1 (de) Verfahren zur spracherkennung und kommunikationsgerät
CN102915742A (zh) 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
Dua et al. Discriminative training using heterogeneous feature vector for Hindi automatic speech recognition system
DE60305907T2 (de) Verfahren zur modellierung von beträgen der oberwellen in der sprache
CN103258537A (zh) 利用特征结合对语音情感进行识别的方法及其装置
CN104392719B (zh) 一种用于语音识别系统的中心子带模型自适应方法
CN106023984A (zh) 基于车联网的语音识别方法
Tufekci et al. Applied mel-frequency discrete wavelet coefficients and parallel model compensation for noise-robust speech recognition
CN105869627A (zh) 基于车联网的语音处理方法
Gemello et al. Multiple resolution analysis for robust automatic speech recognition
CN108022588A (zh) 一种基于双特征模型的鲁棒语音识别方法
Farooq et al. Mel-scaled wavelet filter based features for noisy unvoiced phoneme recognition
Gemello et al. Integration of fixed and multiple resolution analysis in a speech recognition system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200402

Address after: 150001 No. 118 West straight street, Nangang District, Heilongjiang, Harbin

Patentee after: Harbin University of technology high tech Development Corporation

Address before: 150001 Harbin, Nangang, West District, large straight street, No. 92

Patentee before: HARBIN INSTITUTE OF TECHNOLOGY

TR01 Transfer of patent right