CN105529034A - 一种基于混响的语音识别方法和装置 - Google Patents
一种基于混响的语音识别方法和装置 Download PDFInfo
- Publication number
- CN105529034A CN105529034A CN201510982838.XA CN201510982838A CN105529034A CN 105529034 A CN105529034 A CN 105529034A CN 201510982838 A CN201510982838 A CN 201510982838A CN 105529034 A CN105529034 A CN 105529034A
- Authority
- CN
- China
- Prior art keywords
- object module
- signal
- iteration
- voice signal
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000007476 Maximum Likelihood Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006854 communication Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明实施例提供了一种基于混响的语音识别方法和装置,该方法包括:接收原始语音信号;去除所述原始语音信号中的混响信号,获得特征语音信号;对所述特征语音信号进行语音识别,获得识别结果。本发明实施例增加了语音识别解码器的健壮性,提高了识别的准确率,扩大了语音识别系统和智能硬件可使用的场景种类。
Description
技术领域
本发明涉及语音处理技术领域,特别是涉及一种基于混响的语音识别方法和一种基于混响的语音识别装置。
背景技术
目前,移动互联网的快速发展带动了如手机、平板电脑等移动设备的广泛普及,而作为移动设备上人机交互最方便自然的方式之一,语音输入正逐渐被广大用户所接受。
用户在说话时,环境通常比较复杂,可能由其他物体(如房间内的墙壁等)反射用户的声音,使得语音中包含了回声,即俗称混响。
在远场识别等情景下,混响往往带来干扰,导致语音识别系统性能显著下降,语音识别的准确率降低,当混响严重时,这些系统甚至无法正常发挥功能。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于混响的语音识别方法和相应的一种基于混响的语音识别装置。
依据本发明的一个方面,提供了一种基于混响的语音识别方法,包括:
接收原始语音信号;
去除所述原始语音信号中的混响信号,获得特征语音信号;
对所述特征语音信号进行语音识别,获得识别结果。
可选地,所述去除所述原始语音信号中的混响信号,获得特征语音信号的步骤包括:
将所述原始语音信号输入表征声道模型的线性预测模型、表征为待识别的特征语音信号和混响信号的叠加,所述混响信号中具有待识别的线性模型系数;
计算线性模型系数的值;
将所述原始语音信号减去代入所述线性模型系数的值的混响信号,以识别出特征语音信号。
可选地,所述将所述原始语音信号输入表征声道模型的线性预测模型中的步骤包括:
将所述原始语音信号进行短时傅里叶变换;
将进行短时傅里叶变换之后的原始语音信号输入表征声道模型的线性预测模型中。
可选地,所述计算线性模型系数的值的步骤包括:
获取非混响语音信号在目标模型参数下的分布概率;
采用所述分布概率和所述线性预测模型按照极大似然估计生成目标模型;
对所述目标模型进行迭代;
判断所述目标模型是否迭代收敛;若是,则输出线性模型系数的值;若否,则返回执行所述对所述目标模型进行迭代的步骤。
可选地,非混响语音信号在目标模型参数下的分布概率,由非混响语音信号进行短时傅里叶变换之后、按照时间变化的高斯分布计算。
可选地,所述采用所述分布概率和所述线性预测模型按照极大似然估计生成目标模型的步骤包括:
计算所述分布概率和所述线性预测模型的乘积;
将所述乘积取负对数,获得目标模型。
可选地,所述对所述目标模型进行迭代的步骤包括:
将上一次迭代的线性模型系数代入目标模型中;
计算代入线性模型系数的目标模型取最大值时的目标模型参数;
将计算出的目标模型参数代入目标模型中;
计算代入目标模型参数的目标模型取取最大值时的线性模型系数。
可选地,所述判断所述目标模型是否迭代收敛的步骤包括:
计算当前迭代的目标模型参数与上一次迭代的目标模型参数之间的参数差值;
计算当前迭代的线性模型系数与上一次迭代的线性模型系数之间的系数差值;
判断所述参数差值是否小于预设的参数阈值、且所述系数差值是否小于预设的系数阈值;
若是,则确定所述目标模型迭代收敛;
若否,则确定所述目标模型迭代未收敛。
根据本发明的另一方面,提供了一种基于混响的语音识别装置,包括:
语音信号接收模块,适于接收原始语音信号;
去混响模块,适于去除所述原始语音信号中的混响信号,获得特征语音信号;
语音识别模块,适于对所述特征语音信号进行语音识别,获得识别结果。
可选地,所述去混响模块还适于:
将所述原始语音信号输入表征声道模型的线性预测模型、表征为待识别的特征语音信号和混响信号的叠加,所述混响信号中具有待识别的线性模型系数;
计算线性模型系数的值;
将所述原始语音信号减去代入所述线性模型系数的值的混响信号,以识别出特征语音信号。
可选地,所述去混响模块还适于:
将所述原始语音信号进行短时傅里叶变换;
将进行短时傅里叶变换之后的原始语音信号输入表征声道模型的线性预测模型中。
可选地,所述去混响模块还适于:
获取非混响语音信号在目标模型参数下的分布概率;
采用所述分布概率和所述线性预测模型按照极大似然估计生成目标模型;
对所述目标模型进行迭代;
判断所述目标模型是否迭代收敛;若是,则输出线性模型系数的值;若否,则返回执行所述对所述目标模型进行迭代的步骤。
可选地,非混响语音信号在目标模型参数下的分布概率,由非混响语音信号进行短时傅里叶变换之后、按照时间变化的高斯分布计算。
可选地,所述去混响模块还适于:
计算所述分布概率和所述线性预测模型的乘积;
将所述乘积取负对数,获得目标模型。
可选地,所述去混响模块还适于:
将上一次迭代的线性模型系数代入目标模型中;
计算代入线性模型系数的目标模型取最大值时的目标模型参数;
将计算出的目标模型参数代入目标模型中;
计算代入目标模型参数的目标模型取取最大值时的线性模型系数。
可选地,所述去混响模块还适于:
计算当前迭代的目标模型参数与上一次迭代的目标模型参数之间的参数差值;
计算当前迭代的线性模型系数与上一次迭代的线性模型系数之间的系数差值;
判断所述参数差值是否小于预设的参数阈值、且所述系数差值是否小于预设的系数阈值;
若是,则确定所述目标模型迭代收敛;
若否,则确定所述目标模型迭代未收敛。
本发明实施例在去除原始语音信号中的混响信号之后再进行语音识别,增加了语音识别解码器的健壮性,提高了识别的准确率,扩大了语音识别系统和智能硬件可使用的场景种类。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种基于混响的语音识别方法实施例的步骤流程图;
图2示出了根据本发明一个实施例的一种语音信号的频谱图;以及
图3示出了根据本发明一个实施例的一种基于混响的语音识别装置实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了根据本发明一个实施例的一种基于混响的语音识别方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,接收原始语音信号;
在具体实现中,用户可以通过配置有麦克风等声卡设备的电子设备输入语言信号。
其中,该电子设备可以为移动设备,如手机、平板电脑、个人数字助理、穿戴设备(如眼镜、手表等)等等,也可以为固定设备,如个人电脑、智能电视、智能家居/家电(如空调、电饭煲)等等,本发明实施例对此不加以限制。
当电子设备接收到声卡设备转换的原始语言信号时,可以在本地去除其中的混响信号,也可以发送至服务器去除其中的混响信号,本发明实施例对此不加以限制。
由于用户在说话时,环境通常比较复杂,可能由其他物体(如房间内的墙壁等)反射用户的声音,使得语音中包含了回声,因此,所输入的的原始语言信号通常为混响的语音信号。
步骤102,去除所述原始语音信号中的混响信号,获得特征语音信号;
在本发明实施例中,可以基于盲解卷积的方式去除语音信号中的混响信号,获得纯净的特征语音信息进行语音识别。
在本发明的一种可选实施例中,步骤102可以包括如下子步骤:
子步骤S11,将所述原始语音信号输入表征声道模型的线性预测模型、表征为待识别的特征语音信号和混响信号的叠加;
在本发明实施例中,可以认为声道模型为线性预测模型,该混响信号中具有待识别的线性模型系数。
声道模型是给声音从声源到接收端之间传播经过的通道建立的数学模型,用来描述声音在传播过程中可能产生的变化。
在具体实现中,可以将原始语音信号进行短时傅里叶变换(STFT,short-timeFouriertransform,或short-termFouriertransform),将进行短时傅里叶变换之后的原始语音信号输入表征声道模型的线性预测模型中。
短时傅里叶变换一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位。
短时傅里叶变换的思想是:选择一个时频局部化的窗函数,假定分析窗函数g(t)在一个短时间间隔内是平稳(伪平稳)的,移动窗函数,使f(t)g(t)在不同的有限时间宽度内是平稳信号,从而计算出各个不同时刻的功率谱。
因此,线性预测模型可以表达为:
其中,sn,l指声源信号在时刻n频带l的STFT的值,yn,l指需要预测的信号在时刻n频带l的STFT的值。
在本发明实施例中,yn,l是可观察到的、混响后的原始语言信号;sn,l是观察不到的、需要估计的、未知的、去混响后的特征语音信号,可以表达为混响信号。
此外,指线性模型系数,*H指矩阵共轭转置,Δ是预测延时,K是预测阶数。
子步骤S12,计算线性模型系数的值;
由于线性预测模型中仅具有一个未知的线性模型系数,因此,当计算出线性模型系数的值之后,通过移项可以计算出特征语音信号。
在本发明的一种可选实施例中,子步骤S12可以包括如下子步骤:
子步骤S121,获取非混响语音信号在目标模型参数下的分布概率;
非混响语音信号可以指纯净的语音信号,不存在混响信号。
在本发明实施例中,可以假设声源信号为时间变化高斯分布。
即非混响语音信号在目标模型参数下的分布概率,由非混响语音信号进行短时傅里叶变换之后、按照时间变化的高斯分布计算。
即,非混响语音信号在目标模型参数下的分布概率p(sn,l;Φ)为:
其中,sn,l指非混响语音信号在时刻n频带l的短时傅立叶变换(STFT)的值,Φ指目标模型的参数集合,即Φ={λn,l}。λn,l是高斯分布的标注差。
子步骤S122,采用所述分布概率和所述线性预测模型按照极大似然估计生成目标模型;
极大似然估计(MaximumLikelihoodEstimate,MLE)也称为最大概似估计或最大似然估计,即已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次试验,观察其结果,利用结果推出参数的大概值。
在具体实现中,可以计算分布概率和线性预测模型的乘积,将乘积取负对数,获得目标模型
其中,p(y;Φ,Ψ)指信号y在声源模型Φ及声道模型Ψ下的概率。
子步骤S123,对所述目标模型进行迭代;
由于目标模型较为复杂,较难获得解析解,因此,可以采用分别计算的方法迭代估计出参数的值。
虽然在线性预测模型中只需要线性模型系数g,但是在目标模型计线性模型系数g的时候需要目标模型参数λ,因此,在迭代时可以一起估算。
在每一轮迭代中:
1、预测目标模型参数:
可以将上一次迭代的线性模型系数g代入目标模型中,由于目标模型存在两个未知的线性模型系数g和目标模型参数λ,将线性模型系数g代入之后,剩下未知的目标模型参数λ,则可以计算代入线性模型系数g的目标模型取最大值时的目标模型参数λ。
2、预测线性模型系数:
可以将计算出的目标模型参数λ代入目标模型中,由于目标模型存在两个未知的线性模型系数g和目标模型参数λ,将目标模型参数λ代入之后,剩下未知的线性模型系数g,则可以计算代入目标模型参数λ的目标模型取取最大值时的线性模型系数g。
需要说明的是,对于目标模型参数λ,在初始时可以设置一个值,如一个随机值,以进行迭代。
子步骤S124,判断所述目标模型是否迭代收敛;若是,则执行子步骤S125,若否,则返回执行子步骤S123,
在具体实现中,可以计算当前迭代的目标模型参数与上一次迭代的目标模型参数之间的参数差值,以及,计算当前迭代的线性模型系数与上一次迭代的线性模型系数之间的系数差值。
判断参数差值是否小于预设的参数阈值、且系数差值是否小于预设的系数阈值;若是,则确定目标模型迭代收敛;若否,则确定目标模型迭代未收敛。
一般情况下,迭代2-3次即会收敛,如果不收敛,则可以一直运行下去,因此,为了防止计算时间过长,除了比较差值之外,还可以通过设置最大迭代次数强制停止运行,即当超过最大迭代次数时,认为迭代收敛。
子步骤S125,输出线性模型系数的值。
若迭代收敛,则可以认为线性模型系数的值最优,可以输出至线性预测模型。
子步骤S13,将所述原始语音信号减去代入所述线性模型系数的值的混响信号,以识别出特征语音信号。
在具体实现中,可以在线性预测模型中通过移项计算出特征语音信号sn,l:
如图2所示,第一个图(即左侧的图)是干净声源(非混响)的语音信号的频谱图,第二个图(即中间的图)是混响后的语音信号的频谱图,第三个图(即右侧的图)是运用本发明实施例去混响之后的语音信号的频谱图。
其中,频谱图横轴表示时间,纵轴表示频带,颜色代表STFT的值,颜色越深表示在这个点的能量越大。
观察第一个图可以发现,人的语言特点:语音由一个一个的音素(颜色较深的竖条)组成,每个因素之间有明显的短停顿(竖条之间有明显的浅色分隔)。
在第二个图中,竖条之间分隔变得模糊,表示语音信号经过混响后音素之间的停顿可能消失。
在第三个图中,经过去混响后,恢复了一些停顿,相较于第二个图的竖条间的界限更加明显。
由此可见,相比于混响的语音信号,去混响后的语音信号表示的声音更加接近原始的干净语音。
步骤103,对所述特征语音信号进行语音识别,获得识别结果。
需要说明的是,可以在电子设备本地对特征语音信号进行语音识别,也可以在服务器中对特征语音信号进行语音识别,本发明实施例对此不加以限制。
在具体实现中,进行语音识别的语音识别系统通常由以下几个基本模块所构成:
1、信号处理及特征提取模块;该模块的主要任务是从音频数据中提取特征,供声学模型处理。同时,它一般也包括了一些信号处理技术,以尽可能降低环境噪声、信道、说话人等因素对特征造成的影响。
2、声学模型;语音识别系统多采用基于一阶隐马尔科夫模型进行建模。
3、发音词典;发音词典包含语音识别系统所能处理的词汇集及其发音。发音词典实际提供了声学模型与语言模型的映射。
4、语言模型;语言模型对语音识别系统所针对的语言进行建模。理论上,包括正则语言,上下文无关文法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。
5、解码器;解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。
其中,在本发明实施例中,解码器可以基于WFST(WeightedFinite-stateTransducer,带权有限状态转换器)建立。
本发明实施例在去除原始语音信号中的混响信号之后再进行语音识别,增加了语音识别解码器的健壮性,提高了识别的准确率,扩大了语音识别系统和智能硬件可使用的场景种类。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了根据本发明一个实施例的一种基于混响的语音识别装置实施例的结构框图,具体可以包括如下模块:
语音信号接收模块301,适于接收原始语音信号;
去混响模块302,适于去除所述原始语音信号中的混响信号,获得特征语音信号;
语音识别模块303,适于对所述特征语音信号进行语音识别,获得识别结果。
在本发明的一种可选实施例中,所述去混响模块302还可以适于:
将所述原始语音信号输入表征声道模型的线性预测模型、表征为待识别的特征语音信号和混响信号的叠加,所述混响信号中具有待识别的线性模型系数;
计算线性模型系数的值;
将所述原始语音信号减去代入所述线性模型系数的值的混响信号,以识别出特征语音信号。
在本发明的一种可选实施例中,所述去混响模块302还可以适于:
将所述原始语音信号进行短时傅里叶变换;
将进行短时傅里叶变换之后的原始语音信号输入表征声道模型的线性预测模型中。
在本发明的一种可选实施例中,所述去混响模块302还可以适于:
获取非混响语音信号在目标模型参数下的分布概率;
采用所述分布概率和所述线性预测模型按照极大似然估计生成目标模型;
对所述目标模型进行迭代;
判断所述目标模型是否迭代收敛;若是,则输出线性模型系数的值;若否,则返回执行所述对所述目标模型进行迭代的步骤。
在具体实现中,非混响语音信号在目标模型参数下的分布概率,由非混响语音信号进行短时傅里叶变换之后、按照时间变化的高斯分布计算。
在本发明的一种可选实施例中,所述去混响模块302还可以适于:
计算所述分布概率和所述线性预测模型的乘积;
将所述乘积取负对数,获得目标模型。
在本发明的一种可选实施例中,所述去混响模块302还可以适于:
将上一次迭代的线性模型系数代入目标模型中;
计算代入线性模型系数的目标模型取最大值时的目标模型参数;
将计算出的目标模型参数代入目标模型中;
计算代入目标模型参数的目标模型取取最大值时的线性模型系数。
在本发明的一种可选实施例中,所述去混响模块302还可以适于:
计算当前迭代的目标模型参数与上一次迭代的目标模型参数之间的参数差值;
计算当前迭代的线性模型系数与上一次迭代的线性模型系数之间的系数差值;
判断所述参数差值是否小于预设的参数阈值、且所述系数差值是否小于预设的系数阈值;
若是,则确定所述目标模型迭代收敛;
若否,则确定所述目标模型迭代未收敛。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于混响的语音识别设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明实施例公开了A1、一种基于混响的语音识别方法,包括:
接收原始语音信号;
去除所述原始语音信号中的混响信号,获得特征语音信号;
对所述特征语音信号进行语音识别,获得识别结果。
A2、如A1所述的方法,所述去除所述原始语音信号中的混响信号,获得特征语音信号的步骤包括:
将所述原始语音信号输入表征声道模型的线性预测模型、表征为待识别的特征语音信号和混响信号的叠加,所述混响信号中具有待识别的线性模型系数;
计算线性模型系数的值;
将所述原始语音信号减去代入所述线性模型系数的值的混响信号,以识别出特征语音信号。
A3、如A2所述的方法,所述将所述原始语音信号输入表征声道模型的线性预测模型中的步骤包括:
将所述原始语音信号进行短时傅里叶变换;
将进行短时傅里叶变换之后的原始语音信号输入表征声道模型的线性预测模型中。
A4、如A2所述的方法,所述计算线性模型系数的值的步骤包括:
获取非混响语音信号在目标模型参数下的分布概率;
采用所述分布概率和所述线性预测模型按照极大似然估计生成目标模型;
对所述目标模型进行迭代;
判断所述目标模型是否迭代收敛;若是,则输出线性模型系数的值;若否,则返回执行所述对所述目标模型进行迭代的步骤。
A5、如A4所述的方法,非混响语音信号在目标模型参数下的分布概率,由非混响语音信号进行短时傅里叶变换之后、按照时间变化的高斯分布计算。
A6、如A4所述的方法,所述采用所述分布概率和所述线性预测模型按照极大似然估计生成目标模型的步骤包括:
计算所述分布概率和所述线性预测模型的乘积;
将所述乘积取负对数,获得目标模型。
A7、如A4所述的方法,所述对所述目标模型进行迭代的步骤包括:
将上一次迭代的线性模型系数代入目标模型中;
计算代入线性模型系数的目标模型取最大值时的目标模型参数;
将计算出的目标模型参数代入目标模型中;
计算代入目标模型参数的目标模型取取最大值时的线性模型系数。
A8、如A4所述的方法,所述判断所述目标模型是否迭代收敛的步骤包括:
计算当前迭代的目标模型参数与上一次迭代的目标模型参数之间的参数差值;
计算当前迭代的线性模型系数与上一次迭代的线性模型系数之间的系数差值;
判断所述参数差值是否小于预设的参数阈值、且所述系数差值是否小于预设的系数阈值;
若是,则确定所述目标模型迭代收敛;
若否,则确定所述目标模型迭代未收敛。
本发明实施例还公开了B9、一种基于混响的语音识别装置,包括:
语音信号接收模块,适于接收原始语音信号;
去混响模块,适于去除所述原始语音信号中的混响信号,获得特征语音信号;
语音识别模块,适于对所述特征语音信号进行语音识别,获得识别结果。
B10、如B9所述的装置,所述去混响模块还适于:
将所述原始语音信号输入表征声道模型的线性预测模型、表征为待识别的特征语音信号和混响信号的叠加,所述混响信号中具有待识别的线性模型系数;
计算线性模型系数的值;
将所述原始语音信号减去代入所述线性模型系数的值的混响信号,以识别出特征语音信号。
B11、如B10所述的装置,所述去混响模块还适于:
将所述原始语音信号进行短时傅里叶变换;
将进行短时傅里叶变换之后的原始语音信号输入表征声道模型的线性预测模型中。
B12、如B10所述的装置,所述去混响模块还适于:
获取非混响语音信号在目标模型参数下的分布概率;
采用所述分布概率和所述线性预测模型按照极大似然估计生成目标模型;
对所述目标模型进行迭代;
判断所述目标模型是否迭代收敛;若是,则输出线性模型系数的值;若否,则返回执行所述对所述目标模型进行迭代的步骤。
B13、如B12所述的装置,非混响语音信号在目标模型参数下的分布概率,由非混响语音信号进行短时傅里叶变换之后、按照时间变化的高斯分布计算。
B14、如B12所述的装置,所述去混响模块还适于:
计算所述分布概率和所述线性预测模型的乘积;
将所述乘积取负对数,获得目标模型。
B15、如B12所述的装置,所述去混响模块还适于:
将上一次迭代的线性模型系数代入目标模型中;
计算代入线性模型系数的目标模型取最大值时的目标模型参数;
将计算出的目标模型参数代入目标模型中;
计算代入目标模型参数的目标模型取取最大值时的线性模型系数。
B16、如B12所述的装置,所述去混响模块还适于:
计算当前迭代的目标模型参数与上一次迭代的目标模型参数之间的参数差值;
计算当前迭代的线性模型系数与上一次迭代的线性模型系数之间的系数差值;
判断所述参数差值是否小于预设的参数阈值、且所述系数差值是否小于预设的系数阈值;
若是,则确定所述目标模型迭代收敛;
若否,则确定所述目标模型迭代未收敛。
Claims (10)
1.一种基于混响的语音识别方法,包括:
接收原始语音信号;
去除所述原始语音信号中的混响信号,获得特征语音信号;
对所述特征语音信号进行语音识别,获得识别结果。
2.如权利要求1所述的方法,其特征在于,所述去除所述原始语音信号中的混响信号,获得特征语音信号的步骤包括:
将所述原始语音信号输入表征声道模型的线性预测模型、表征为待识别的特征语音信号和混响信号的叠加,所述混响信号中具有待识别的线性模型系数;
计算线性模型系数的值;
将所述原始语音信号减去代入所述线性模型系数的值的混响信号,以识别出特征语音信号。
3.如权利要求2所述的方法,其特征在于,所述将所述原始语音信号输入表征声道模型的线性预测模型中的步骤包括:
将所述原始语音信号进行短时傅里叶变换;
将进行短时傅里叶变换之后的原始语音信号输入表征声道模型的线性预测模型中。
4.如权利要求2所述的方法,其特征在于,所述计算线性模型系数的值的步骤包括:
获取非混响语音信号在目标模型参数下的分布概率;
采用所述分布概率和所述线性预测模型按照极大似然估计生成目标模型;
对所述目标模型进行迭代;
判断所述目标模型是否迭代收敛;若是,则输出线性模型系数的值;若否,则返回执行所述对所述目标模型进行迭代的步骤。
5.如权利要求4所述的方法,其特征在于,非混响语音信号在目标模型参数下的分布概率,由非混响语音信号进行短时傅里叶变换之后、按照时间变化的高斯分布计算。
6.如权利要求4所述的方法,其特征在于,所述采用所述分布概率和所述线性预测模型按照极大似然估计生成目标模型的步骤包括:
计算所述分布概率和所述线性预测模型的乘积;
将所述乘积取负对数,获得目标模型。
7.如权利要求4所述的方法,其特征在于,所述对所述目标模型进行迭代的步骤包括:
将上一次迭代的线性模型系数代入目标模型中;
计算代入线性模型系数的目标模型取最大值时的目标模型参数;
将计算出的目标模型参数代入目标模型中;
计算代入目标模型参数的目标模型取取最大值时的线性模型系数。
8.如权利要求4所述的方法,其特征在于,所述判断所述目标模型是否迭代收敛的步骤包括:
计算当前迭代的目标模型参数与上一次迭代的目标模型参数之间的参数差值;
计算当前迭代的线性模型系数与上一次迭代的线性模型系数之间的系数差值;
判断所述参数差值是否小于预设的参数阈值、且所述系数差值是否小于预设的系数阈值;
若是,则确定所述目标模型迭代收敛;
若否,则确定所述目标模型迭代未收敛。
9.一种基于混响的语音识别装置,包括:
语音信号接收模块,适于接收原始语音信号;
去混响模块,适于去除所述原始语音信号中的混响信号,获得特征语音信号;
语音识别模块,适于对所述特征语音信号进行语音识别,获得识别结果。
10.如权利要求9所述的装置,其特征在于,所述去混响模块还适于:
将所述原始语音信号输入表征声道模型的线性预测模型、表征为待识别的特征语音信号和混响信号的叠加,所述混响信号中具有待识别的线性模型系数;
计算线性模型系数的值;
将所述原始语音信号减去代入所述线性模型系数的值的混响信号,以识别出特征语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510982838.XA CN105529034A (zh) | 2015-12-23 | 2015-12-23 | 一种基于混响的语音识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510982838.XA CN105529034A (zh) | 2015-12-23 | 2015-12-23 | 一种基于混响的语音识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105529034A true CN105529034A (zh) | 2016-04-27 |
Family
ID=55771210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510982838.XA Pending CN105529034A (zh) | 2015-12-23 | 2015-12-23 | 一种基于混响的语音识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105529034A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106128451A (zh) * | 2016-07-01 | 2016-11-16 | 北京地平线机器人技术研发有限公司 | 用于语音识别的方法及装置 |
CN106161795A (zh) * | 2016-07-19 | 2016-11-23 | 西北工业大学 | 基于手机麦克风的键盘输入感知方法 |
CN106558315A (zh) * | 2016-12-02 | 2017-04-05 | 深圳撒哈拉数据科技有限公司 | 异质麦克风自动增益校准方法及系统 |
CN110299143A (zh) * | 2018-03-21 | 2019-10-01 | 现代摩比斯株式会社 | 用于识别语音说话人的装置及其方法 |
CN114299977A (zh) * | 2021-11-30 | 2022-04-08 | 北京百度网讯科技有限公司 | 混响语音的处理方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09261133A (ja) * | 1996-03-25 | 1997-10-03 | Nippon Telegr & Teleph Corp <Ntt> | 残響抑圧方法および装置 |
CN101385386A (zh) * | 2006-03-03 | 2009-03-11 | 日本电信电话株式会社 | 混响除去装置、混响除去方法、混响除去程序和记录介质 |
CN101416237A (zh) * | 2006-05-01 | 2009-04-22 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
CN101903948A (zh) * | 2007-12-19 | 2010-12-01 | 高通股份有限公司 | 用于基于多麦克风的语音增强的系统、方法及设备 |
US20140270226A1 (en) * | 2013-03-15 | 2014-09-18 | Broadcom Corporation | Adaptive modulation filtering for spectral feature enhancement |
JP2015161814A (ja) * | 2014-02-27 | 2015-09-07 | ヤマハ株式会社 | 音響処理装置 |
-
2015
- 2015-12-23 CN CN201510982838.XA patent/CN105529034A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09261133A (ja) * | 1996-03-25 | 1997-10-03 | Nippon Telegr & Teleph Corp <Ntt> | 残響抑圧方法および装置 |
CN101385386A (zh) * | 2006-03-03 | 2009-03-11 | 日本电信电话株式会社 | 混响除去装置、混响除去方法、混响除去程序和记录介质 |
CN101416237A (zh) * | 2006-05-01 | 2009-04-22 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
CN101903948A (zh) * | 2007-12-19 | 2010-12-01 | 高通股份有限公司 | 用于基于多麦克风的语音增强的系统、方法及设备 |
US20140270226A1 (en) * | 2013-03-15 | 2014-09-18 | Broadcom Corporation | Adaptive modulation filtering for spectral feature enhancement |
JP2015161814A (ja) * | 2014-02-27 | 2015-09-07 | ヤマハ株式会社 | 音響処理装置 |
Non-Patent Citations (1)
Title |
---|
谢识予: "《计量经济学》", 31 December 2000 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106128451A (zh) * | 2016-07-01 | 2016-11-16 | 北京地平线机器人技术研发有限公司 | 用于语音识别的方法及装置 |
CN106128451B (zh) * | 2016-07-01 | 2019-12-10 | 北京地平线机器人技术研发有限公司 | 用于语音识别的方法及装置 |
CN106161795A (zh) * | 2016-07-19 | 2016-11-23 | 西北工业大学 | 基于手机麦克风的键盘输入感知方法 |
CN106161795B (zh) * | 2016-07-19 | 2019-03-29 | 西北工业大学 | 基于手机麦克风的键盘输入感知方法 |
CN106558315A (zh) * | 2016-12-02 | 2017-04-05 | 深圳撒哈拉数据科技有限公司 | 异质麦克风自动增益校准方法及系统 |
CN106558315B (zh) * | 2016-12-02 | 2019-10-11 | 深圳撒哈拉数据科技有限公司 | 异质麦克风自动增益校准方法及系统 |
CN110299143A (zh) * | 2018-03-21 | 2019-10-01 | 现代摩比斯株式会社 | 用于识别语音说话人的装置及其方法 |
CN110299143B (zh) * | 2018-03-21 | 2023-04-11 | 现代摩比斯株式会社 | 用于识别语音说话人的装置及其方法 |
CN114299977A (zh) * | 2021-11-30 | 2022-04-08 | 北京百度网讯科技有限公司 | 混响语音的处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161752B (zh) | 回声消除方法和装置 | |
JP7434137B2 (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
Qian et al. | Speech Enhancement Using Bayesian Wavenet. | |
KR102151682B1 (ko) | 다중채널 음성 인식을 위한 적응성 오디오 강화 | |
Chen et al. | MVA processing of speech features | |
CN105529034A (zh) | 一种基于混响的语音识别方法和装置 | |
CN112420026B (zh) | 优化关键词检索系统 | |
Wang et al. | Recurrent deep stacking networks for supervised speech separation | |
Lei et al. | Speech enhancement for in‐vehicle voice control systems using wavelet analysis and blind source separation | |
JP2016045221A (ja) | 信号解析装置、方法、及びプログラム | |
CN113077806A (zh) | 音频处理方法及装置、模型训练方法及装置、介质和设备 | |
Tran et al. | Nonparametric uncertainty estimation and propagation for noise robust ASR | |
CN111862962A (zh) | 一种语音识别方法及系统 | |
EP3147900B1 (en) | Method and device for processing audio signal | |
Kumar et al. | Performance evaluation of a ACF-AMDF based pitch detection scheme in real-time | |
Hajimolahoseini et al. | Instantaneous fundamental frequency estimation of non‐stationary periodic signals using non‐linear recursive filters | |
KR101802444B1 (ko) | 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법 | |
CN115938346B (zh) | 音准评估方法、系统、设备及存储介质 | |
CN102598126A (zh) | 信息处理装置及其附属设备、信息处理系统及其控制方法和控制程序 | |
US20230306980A1 (en) | Method and System for Audio Signal Enhancement with Reduced Latency | |
CN111968620A (zh) | 算法的测试方法、装置、电子设备及存储介质 | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
CN103778914A (zh) | 基于信噪比加权模板特征匹配的抗噪语音识别方法及装置 | |
CN112634930A (zh) | 多通道声音增强方法、装置及电子设备 | |
Hao et al. | Denoi-spex+: a speaker extraction network based speech dialogue system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160427 |