CN104157294A - 一种农产品市场要素信息采集的鲁棒性语音识别方法 - Google Patents

一种农产品市场要素信息采集的鲁棒性语音识别方法 Download PDF

Info

Publication number
CN104157294A
CN104157294A CN201410429563.2A CN201410429563A CN104157294A CN 104157294 A CN104157294 A CN 104157294A CN 201410429563 A CN201410429563 A CN 201410429563A CN 104157294 A CN104157294 A CN 104157294A
Authority
CN
China
Prior art keywords
omega
spectrum
speech
noise
eigenwert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410429563.2A
Other languages
English (en)
Other versions
CN104157294B (zh
Inventor
诸叶平
许金普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Information Institute of CAAS
Original Assignee
Agricultural Information Institute of CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Information Institute of CAAS filed Critical Agricultural Information Institute of CAAS
Priority to CN201410429563.2A priority Critical patent/CN104157294B/zh
Publication of CN104157294A publication Critical patent/CN104157294A/zh
Application granted granted Critical
Publication of CN104157294B publication Critical patent/CN104157294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及语音识别技术领域,特别是关于一种农产品市场要素信息采集的鲁棒性语音识别方法,包括采集初始语音信号,利用最小均方误差(MMSE)谱减算法对所述初始语音信号进行去噪,得到近似纯净语音信号,提取所述近似纯净语音信号的特征值,对所述特征值进行倒谱均值方差归一化(CMVN)补偿,根据该补偿后的语音特征向量训练隐马尔可夫模型(HMM)。通过上述的方法,面向非特定人的中等词汇量的连续语音识别系统,所采用的算法简单,易于实现,计算量小。

Description

一种农产品市场要素信息采集的鲁棒性语音识别方法
技术领域
本发明涉及语音识别技术领域,特别是关于一种农产品市场要素信息采集的鲁棒性语音识别方法。
背景技术
农产品市场信息关系到农业和社会稳定,是保证经济稳定健康发展的基础。针对农产品市场信息的重要性,国家相关的部门和地方政府也纷纷建立了各种形式的农产品市场信息采集平台,信息的采集方式往往利用传统的人工抄录再进行二次录入计算机、电话报价或邮件汇总等方式来完成,但此类信息采集方法重复劳动较多,效率不高,且时效性较差。为此,很多机构和科研人员纷纷提出了信息采集的方法,开发了各种便携式的信息采集设备。这些方式有自身的优点和便捷之处,提高了工作效率,但也存在不少问题。一般来说,便携式设备的屏幕和按健都较小,而农产品市场信息采集的工作场所往往是在室外,容易受到强烈光线、雨雾冰雪、恶劣天气、野外环境等条件的限制,给操作带来了不便;另一方面,从人机交互的角度考虑,现有的信息采集设备主要依靠双手和视觉的配合来完成操作,但对需要人工干预的情况下进行的信息采集,因其大部分是在生产过程、操作同时进行的,传统的设备必然导致操作人员暂时中断当前的工作转而进行信息的采集,这样就会导致劳动生产效率的降低。此外,传统的信息采集设备因操作界面和提示信息的复杂等因素,对操作人员的知识水平和认知能力都具有较高的要求。
近年来,随着语音识别(Speech Recognition)技术的迅速发展,基于语音交互界面的设备也在诸多行业开始应用。语音识别可以将语音转换为文本的形式,进而进行各种形式的处理和应用。从人机交互的角度看,语音交互界面是最佳的便携式设备的人机交互接口。经过几十年的研究,语音识别有了长足的发展。在相对安静的环境中,语音识别能取得非常好的识别结果。但在噪声环境下,现有的面向非特定人的语音识别系统因受到噪声的污染,其识别性能则会急剧下降,尤其是在低信噪比的情况下,识别性能更为糟糕。一方面,造成这种低识别率的原因是识别环境与训练环境的不匹配,这种不匹配是造成识别性能下降的主要原因。噪声鲁棒性语音识别的研究目标就是消除或尽量减少这种不匹配现象,提高识别性能。另一方面,农产品市场信息采集的作业环境非常复杂,如大型农产品批发市场、社区农贸市场、超市、农产品加工车间等,其所处的环境噪声包括人群噪声、汽车噪声、工厂机器噪声等,给语音识别带了较大的影响。而目前缺乏专门的面向农产品市场信息采集领域的专用识别引擎,通用领域的语音识别系统往往是大词汇量连续语音识别,在该环境下表现不佳。
发明内容
为了解决现有技术中针对于农产品市场信息采集终端不能语音识别的问题,提出了一种农产品市场要素信息采集的鲁棒性语音识别方法,通过谱减算法和CMVN相结合的方式实现了在我国农贸市场高效率的语音识别。
本发明实施例提供了一种农产品市场要素信息采集的鲁棒性语音识别方法,包括,
步骤101,采集初始语音信号;
步骤102,利用谱减算法对所述初始语音信号进行去噪,得到近似纯净语音信号;
步骤103,提取所述近似纯净语音信号的特征值;
步骤104,对所述特征值进行倒谱均值方差归一化补偿;
步骤105,根据该补偿后的语音特征向量训练隐马尔可夫模型。
根据本发明实施例所述的一种高鲁棒性语音识别方法的一个进一步的方面,在所述对所述特征值进行倒谱均值方差归一化补偿之后还包括,对待识别语音信号进行所述步骤101-步骤104,将得到补偿后的待识别语音特征向量输入所述隐马尔可夫模型进行识别,输出识别结果。
根据本发明实施例所述的一种高鲁棒性语音识别方法的再一个进一步的方面,在所述利用谱减算法对所述初始语音信号进行去噪中进一步包括,利用如下公式对初始语音信号进行谱减算法:
其中,γp(ω)和αp(ω)是最优减法参数,p为幂指数,|Y(ω)|p是带噪语音信号谱,为无语音段求得的噪声信号,是估计的噪声谱,|Xp(ω)|p是采用理想的谱减模型条件下的近似纯净语音谱,是估计的近似纯净语音谱;
参数γp(ω)和αp(ω)通过最小化频谱的均方误差得到:
e p ( ω ) = | X p ( ω ) | p - | X ^ ( ω ) | p ;
初始语音信号|Y(ω)|p为|Xp(ω)|p和噪声谱的和,对某一常数p成立:
|Y(ω)|p=|Xp(ω)|p+|D(ω)|p,其中,|D(ω)|p是理想中噪声谱的真实值;
通过计算谱误差ep(ω)的最小化均方值E[{ep(ω)}2],得到如下的最优减法参数:
α p ( ω ) = ξ p ( ω ) 1 + ξ p ( ω ) ,
γ p ( ω ) = ξ p ( ω ) 1 + ξ p ( ω ) { 1 - ξ - p / 2 ( ω ) } ,
其中,ξ(ω)对应于信号能量和噪声能量的比值,称为先验SNR,通过 ξ ( ω ) = ( 1 - η ) max ( | Y ( ω ) | 2 | D ^ ( ω ) | 2 - 1,0 ) + η | X ^ prev ( ω ) | 2 | D ^ ( ω ) | 2 计算得到,其中η为平滑常数,是上一分析帧中求得的近似纯净语音的功率谱,|Y(ω)|2是初始语音信号的功率谱。
根据本发明实施例所述的一种高鲁棒性语音识别方法的另一个进一步的方面,所述η为0.98。
根据本发明实施例所述的一种高鲁棒性语音识别方法的另一个进一步的方面,对所述特征值进行倒谱均值方差归一化补偿进一步包括,对第t帧特征值进行倒谱均值归一化:
o ‾ t = o t - μ t
并进行倒谱方差归一化:
o ^ t = o t - μ t σ t ,
其中,ot为第t帧的特征值,μt为第t帧的均值,σt为第t帧的方差。
6.根据权利要求5所述的一种高鲁棒性语音识别方法,其特征在于,所述特征值的序列为O={o1,o2,…,ot-N,…,ot-1,ot,ot+1,…,ot+N,…,oT},T为所述序列的长度,采用了分段特征向量归一化方法,第t帧的均值和方差表示为:
μ t = 1 2 N + 1 Σ i = t - N t + N o i ,
σ t 2 = 1 2 N + 1 Σ i = t - N t + N ( o i - μ t ) 2
其中,N为以t为中心点的分段长度半径,通常取20~40之间。
通过本发明实施例的方法,针对不同农产品市场信息采集环境的特点,提出了一种联合前端谱减增强和后续特征补偿的鲁棒性抗噪方法,针对特定的领域能有效的提高系统的识别率,特别是在较低(0dB~10dB)信噪比时,其性能提高程度更为明显。本发明尤其适合在不同的农产品市场信息采集噪声环境中使用,面向非特定人的中等词汇量的连续语音识别系统,所采用的算法简单,易于实现,计算量小。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1所示为本发明实施例一种农产品市场要素信息采集的鲁棒性语音识别方法的流程图;
图2所示为本发明实施例在大型农产品批发市场与其他语音识别算法的识别率曲线图;
图3所示为本发明实施例在社区农产品市场与其他语音识别算法的识别率曲线图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
如图1所示为本发明实施例一种农产品市场要素信息采集的鲁棒性语音识别方法的流程图。
包括步骤101,采集初始语音信号。
步骤102,利用谱减算法(MMSE)对所述初始语音信号进行去噪,得到近似纯净语音信号。
步骤103,提取所述近似纯净语音信号的特征值。
步骤104,对所述特征值进行倒谱均值方差归一化(CMVN)补偿。
步骤105,根据该补偿后的语音特征向量训练生成隐马尔可夫模型(HMM)。
作为本发明的一个实施例,在所述对所述特征值进行倒谱均值方差归一化补偿之后还包括,对待识别语音信号进行所述步骤101-步骤104,将得到补偿后的待识别语音特征向量输入所述隐马尔可夫模型进行识别,输出结果。
作为本发明的一个实施例,在所述利用谱减算法(MMSE)对所述初始语音信号进行去噪中进一步包括,利用如下公式对初始语音信号进行谱减算法:
其中,γp(ω)和αp(ω)是最优减法参数,p为幂指数,|Y(ω)|p是初始的带噪语音谱,为无语音段求得的噪声信号,是估计得到的噪声谱,|Xp(ω)|p是采用理想的谱减模型条件下的近似纯净语音谱,是求得近似的近似纯净语音谱,并非真实值;p=1时为幅度谱,p=2时为功率谱,二者最为常用,p也可以为其他值,如p=3。
参数γp(ω)和αp(ω)通过最小化频谱的均方误差得到:
e p ( ω ) = | X p ( ω ) | p - | X ^ ( ω ) | p ;
所述ep(ω)表示谱误差,即真实的语音谱和估计得语音谱之间的差;
初始语音信号|Y(ω)|p为|Xp(ω)|p和噪声谱的和,对某一常数p成立:
|Y(ω)|p=|Xp(ω|p+|D(ω)|p,其中,|D(ω)|是理想中噪声谱的真实值;
通过计算谱误差ep(ω)的最小化均方值E[{ep(ω)}2],得到如下的最优减法参数:
α p ( ω ) = ξ p ( ω ) 1 + ξ p ( ω ) ,
γ p ( ω ) = ξ p ( ω ) 1 + ξ p ( ω ) { 1 - ξ - p / 2 ( ω ) } ,
ξ(ω)对应于信号能量和噪声能量的比值,称为先验(a priori)SNR,通过 ξ ( ω ) = ( 1 - η ) max ( | Y ( ω ) | 2 | D ^ ( ω ) | 2 - 1,0 ) + η | X ^ prev ( ω ) | 2 | D ^ ( ω ) | 2 计算得到,其中η为平滑常数,是上一分析帧中求得的近似纯净语音的功率谱,上式第二部分就是取得上一帧的信噪比SNR,ξ(ω)和ξp(ω)是p次方的关系,p=1,或p=2,p如前所述,|Y(ω)|2是原始带噪语音信号的功率谱,是估计的噪声功率谱。
作为本发明的一个实施例,所述η为0.98。
作为本发明的一个实施例,对所述特征值进行倒谱均值方差归一化(CMVN)补偿进一步包括,对第t帧的特征值进行倒谱均值归一化(CMN):
o ‾ t = o t - μ t
并进行倒谱方差归一化(Cepstral Variance Normalization,CVN):
o ^ t = o t - μ t σ t ,
其中,ot为第t帧的特征值,μt为第t帧的均值,σt为第t帧的方差。
作为本发明的一个实施例,所述特征值的序列为O={o1,o2,…,ot-N,…,ot-1,ot,ot+1,…,ot+N,…,oT},T为所述序列的长度,采用了分段特征向量归一化方法,第t帧的均值和方差表示为:
μ t = 1 2 N + 1 Σ i = t - N t + N o i ,
σ t 2 = 1 2 N + 1 Σ i = t - N t + N ( o i - μ t ) 2
其中,N为以t为中心点的分段长度半径,通常取20~40之间。
通过上述的方法,针对不同农产品市场信息采集环境的特点,提出了一种联合前端谱减增强和后续特征补偿的鲁棒性抗噪方法,针对特定的领域能有效的提高系统的识别率,特别是在较低(0dB~10dB)信噪比时,其性能提高程度更为明显。本发明尤其适合在不同的农产品市场信息采集噪声环境中使用,面向非特定人的中等词汇量的连续语音识别系统,所采用的算法简单,易于实现,计算量小。
本发明提出了一种适用于农产品市场信息采集的鲁棒性语音识别方法,所采用的技术包括在前端使用谱减算法去噪,对处理后的训练数据提取稳定的MFCC(Mel频率倒谱系数)特征,并联合倒谱均值方差归一化(CMVN)进行失真补偿,并训练出HMM(隐马尔可夫模型)模型。模型的建立以扩展的声韵母三音子为建模单元,很好的模拟了音节内部以及音节间的协同发音问题,提高了模型的稳定性。同时,对三音子建模带来的模型数量增加导致的训练样本数量相对减小问题,本发明利用了传统的决策树状态聚类算法,对同一音素三音子模型的相同状态位置进行聚类,使得具有相同发音特征的三音子模型状态绑定到一起。以上述各种策略训练出来的HMM模型具有较好的识别性能。
本发明的训练数据采集自典型的农产品市场信息采集环境,主要包括四种场合:大型农产品批发市场、社区农贸市场、超市(生鲜水果区)和农产品加工厂。训练数据的录音内容为现场录制的农产品市场要素信息,包括200多中鲜活农产品的产品名称、产品等级、价格、产地、交易量和供应量,说话人为随机选择的略带地方口音的汉语普通话。语法规则在录制前进行了一定的约束,更符合实际的业务需求。
发明关键的部分在于提出了一种用改进的谱减算法进行去噪,而后联合倒谱均值方差归一化方法进行后续失真补偿的鲁棒性抗噪声方法。首先对改进的谱减算法进行说明。
在传统的谱减中为了防止出现减法后出现负值,一般都采用过减技术(over subtraction),即设置一个过减因子,同时设置一个谱减下限参数。其形式如下
其中α为过减因子,β为谱下限参数。本发明采用了一种确定上述参数的方法,使得估计的信号幅度谱在最小均方误差意义下最小。具体如下,首先给出一般的谱减算法描述:
| X ^ ( ω ) | p = γ p ( ω ) | Y ( ω ) | p - α p ( ω ) | D ^ ( ω ) | p - - - ( 2 )
其中γp(ω)和αp(ω)是要计算的最优过减算法的参数,p为幂指数,无语音段求得的估计噪声信号,|Y(ω)|p是初始带噪语音谱。参数γp(ω)和αp(ω)可以通过最小化频谱的均方误差得到:
e p ( ω ) = | X p ( ω ) | p - | X ^ ( ω ) | p - - - ( 3 )
其中|Xp(ω)|p是采用理想的谱减模型条件下的近似纯净语音谱。这里假定带噪语音谱是两个独立频谱的和,即|Xp(ω)|p和噪声谱|D(ω)|p。即有下面的方程对某一常数p成立:
|Y(ω)|p=|Xp(ω)|p+|D(ω)|p    (4)
其中|D(ω)|是理想中的真实噪声谱。通过计算谱误差ep(ω)的最小化均方值E[{ep(ω)}2],可以得到如下的最优减法参数:
α p ( ω ) = ξ p ( ω ) 1 + ξ p ( ω ) - - - ( 5 )
γ p ( ω ) = ξ p ( ω ) 1 + ξ p ( ω ) { 1 - ξ - p / 2 ( ω ) } - - - ( 6 )
其中,以上方程的推导基于这样的假设,即语音和噪声的各自频谱分量是统计独立的,且为零均值高斯随机变量。
为了约束αp(ω)和γp(ω),令αp(ω)=γp(ω),将αp(ω)和γp(ω)带入式得到的最优约束估计器有如下形式:
| X ^ ( ω ) | = { ξ p ( ω ) δ p + ξ p ( ω ) [ | Y ( ω ) | p - | D ^ ( ω ) | p ] } 1 / p - - - ( 7 )
其中δp对于给定的幂指数p为常数。为防止出现负值,式(7)会采用谱下限。通过对衰减后的带噪语音谱μY(ω)(0<μ<1)和前一帧增强且平滑后的语音谱进行平均,可以得到平滑后的频谱下限:
&mu; | Y &OverBar; ( &omega; ) | = 0.5 ( &mu; | Y ( &omega; ) | + | X &OverBar; prev ( &omega; ) | ) - - - ( 8 )
其中表示平滑后的谱下限。即,如果式(7)增强后的频谱值小于μY(ω),则其取值为最终约束估计器(Constrained Estimator)有如下形式:
ξ(ω)项对应于信号能量和噪声能量的比值,通常称为先验(a priori)SNR。但并不能直接得到近似纯净信号,因此该式不能直接计算,本发明中利用了一种近似的估计:
&xi; ( &omega; ) = ( 1 - &eta; ) max ( | Y ( &omega; ) | 2 | D ^ ( &omega; ) | 2 - 1,0 ) + &eta; | X ^ prev ( &omega; ) | 2 | D ^ ( &omega; ) | 2 - - - ( 10 )
其中η为平滑常数,一般设为0.98,式(10)就是对当前的瞬时信噪比(第一项)和过去的信噪比(第二项)的加权平均。
由于在前端通过语音增强除去大部分的噪声,提高语音信号的成分,而增强带来的频谱畸变和音乐噪声可看作信道乘性噪声和加性背景噪声,因此可以通过CMVN方法做进一步的补偿。CMVN方法(即CMN倒谱均值归一化和CVN倒谱方差归一化的联合,也称MVN)在特征空间对均值和方差进行归一化处理,在特征空间对噪声产生的偏差进行补偿。
在特征提取阶段,CMN通过计算MFCC倒谱特征均值获得噪声在倒谱域的分量,然后将这一分量从每一帧中减去,从而消除信道的卷积噪声带来的影响。同时对加性噪声也有一定的作用,因为加性噪声在倒谱域经过一定的假设也可以看作卷积噪声。CMVN是CMN的进一步扩展,对均值和方差同时进行归一化,可以近似消除加性噪声。
本发明对说话人的每句话作为归一化单元,采用了一种分段特征向量归一化的改进算法,所述特征值的序列为O={o1,o2,…,ot-N,…,ot-1,ot,ot+1,…,ot+N,…,oT},T为所述序列的长度,采用了分段特征值归一化方法,第t帧的均值和方差表示为:
&mu; t = 1 2 N + 1 &Sigma; i = t - N t + N o i - - - ( 11 )
&sigma; t 2 = 1 2 N + 1 &Sigma; i = t - N t + N ( o i - &mu; t ) 2 - - - ( 12 )
其中,N为以t为中心点的分段长度半径,N的值不能太大也不能太小,通常取20~40之间。N太小不能反应出特征矢量的统计特性;若N太大,则均值和方差的计算需要准备好较多的特征矢量,不利于实时性的识别。分段特征向量归一化不仅有利于实时性,可以避免整段语音中较多静音段时对均值和方差带来的影响,因为即使静音过多,也只会影响分段,而不会对整个语音段造成影响。
根据上述计算的第t帧的均值和方差,则倒谱均值归一化(CMN)的定义为:
o &OverBar; t = o t - &mu; t - - - ( 11 )
倒谱方差归一化(Cepstral Variance Normalization,CVN),其定义为:
o ^ t = o t - &mu; t &sigma; t - - - ( 12 )
下面结合实例来说明本发明中算法的有效性。
实例1:在大型农产品批发市场环境下的测试。测试集录制了3男3女每人50句话,共计300句,采用手机在相对安静的环境下录制作为近似纯净语音,且说话人不在训练集中。然后采用人工加噪的方式加入大型农产品批发市场环境下的噪声,最终得到信噪比分别为-5dB,0dB,5dB,10dB,15dB,20dB,25dB的带噪语音,每种不同信噪比的测试语音300句,共计2100句。对基线系统,单独采用各种谱减算法,以及联合CMVN后的各种算法进行对比试验,得到如表1所示的识别率。其中本算法是SSMMSE(谱减最小均方误差)+CMVN,其识别率曲线如附图2所示。
表1在大型农产品批发市场环境下的识别率
实例2:类似上述实例1,在社区农贸市场环境下进行上述实验,得到的识别率结果如下表2所示,其识别率结果曲线如附图3所示。
表2在社区农贸市场环境的识别率
从上述实例可以看出,本发明提出的抗噪声鲁棒性语音识别算法在农产品市场信息采集领域有较高识别率,特别是在较低信噪比环境下,其提升性能更为明显。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种农产品市场要素信息采集的鲁棒性语音识别方法,其特征在于包括,
步骤101,采集初始语音信号;
步骤102,利用谱减算法对所述初始语音信号进行去噪,得到近似纯净语音信号;
步骤103,提取所述近似纯净语音信号的特征值;
步骤104,对所述特征值进行倒谱均值方差归一化补偿;
步骤105,根据该补偿后的语音特征向量训练隐马尔可夫模型。
2.根据权利要求1所述的一种农产品市场要素信息采集的鲁棒性语音识别方法,其特征在于,在所述对所述特征值进行倒谱均值方差归一化补偿之后还包括,对待识别语音信号进行所述步骤101-步骤104,将得到补偿后的待识别语音特征向量输入所述隐马尔可夫模型进行识别,输出识别结果。
3.根据权利要求1所述的一种农产品市场要素信息采集的鲁棒性语音识别方法,其特征在于,在所述利用谱减算法对所述初始语音信号进行去噪中进一步包括,利用如下公式对初始语音信号进行谱减算法:
其中,γp(ω)和αp(ω)是最优减法参数,p为幂指数,|Y(ω)|p是带噪语音信号谱,为无语音段求得的噪声信号,是估计的噪声谱,|Xp(ω)|p是采用理想的谱减模型条件下的近似纯净语音谱,是估计的近似纯净语音谱;
参数γp(ω)和αp(ω)通过最小化频谱的均方误差得到:
e p ( &omega; ) = | X p ( &omega; ) | p - | X ^ ( &omega; ) | p ;
初始语音信号|Y(ω)|p为|Xp(ω)|p和噪声谱的和,对某一常数p成立:
|Y(ω)|p=|Xp(ω)|p+|D(ω)|p,其中,|D(ω)|p是理想中噪声谱的真实值;
通过计算谱误差ep(ω)的最小化均方值E[{ep(ω)}2],得到如下的最优减法参数:
&alpha; p ( &omega; ) = &xi; p ( &omega; ) 1 + &xi; p ( &omega; ) ,
&gamma; p ( &omega; ) = &xi; p ( &omega; ) 1 + &xi; p ( &omega; ) { 1 - &xi; - p / 2 ( &omega; ) } ,
其中,ξ(ω)对应于信号能量和噪声能量的比值,称为先验SNR,通过 &xi; ( &omega; ) = ( 1 - &eta; ) max ( | Y ( &omega; ) | 2 | D ^ ( &omega; ) | 2 - 1,0 ) + &eta; | X ^ prev ( &omega; ) | 2 | D ^ ( &omega; ) | 2 计算得到,其中η为平滑常数,是上一分析帧中求得的近似纯净语音的功率谱,|Y(ω)|2是初始语音信号的功率谱,是估计的噪声功率谱。
4.根据权利要求3所述的一种高鲁棒性语音识别方法,其特征在于,所述η为0.98。
5.根据权利要求1所述的一种高鲁棒性语音识别方法,其特征在于,对所述特征值进行倒谱均值方差归一化补偿进一步包括,对第t帧特征值进行倒谱均值归一化:
o &OverBar; t = o t - &mu; t
并进行倒谱方差归一化:
o ^ t = o t - &mu; t &sigma; t ,
其中,ot为第t帧的特征值,μt为第t帧的均值,σt为第t帧的方差。
6.根据权利要求5所述的一种高鲁棒性语音识别方法,其特征在于,所述特征值的序列为O={o1,o2,…,ot-N,…,ot-1,ot,ot+1,…,ot+N,…,oT},T为所述序列的长度,采用了分段特征向量归一化方法,第t帧的均值和方差表示为:
&mu; t = 1 2 N + 1 &Sigma; i = t - N t + N o i ,
&sigma; t 2 = 1 2 N + 1 &Sigma; i = t - N t + N ( o i - &mu; t ) 2
其中,N为以t为中心点的分段长度半径,取20~40之间。
CN201410429563.2A 2014-08-27 2014-08-27 一种农产品市场要素信息采集的鲁棒性语音识别方法 Active CN104157294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410429563.2A CN104157294B (zh) 2014-08-27 2014-08-27 一种农产品市场要素信息采集的鲁棒性语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410429563.2A CN104157294B (zh) 2014-08-27 2014-08-27 一种农产品市场要素信息采集的鲁棒性语音识别方法

Publications (2)

Publication Number Publication Date
CN104157294A true CN104157294A (zh) 2014-11-19
CN104157294B CN104157294B (zh) 2017-08-11

Family

ID=51882776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410429563.2A Active CN104157294B (zh) 2014-08-27 2014-08-27 一种农产品市场要素信息采集的鲁棒性语音识别方法

Country Status (1)

Country Link
CN (1) CN104157294B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719370A (zh) * 2016-01-18 2016-06-29 上海交通大学 停车场声纹验证系统及其方法
CN108109006A (zh) * 2017-12-20 2018-06-01 黑龙江省农业信息中心 农产品市场监控预警系统
CN110197670A (zh) * 2019-06-04 2019-09-03 大众问问(北京)信息科技有限公司 音频降噪方法、装置及电子设备
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法
WO2021217750A1 (zh) * 2020-04-30 2021-11-04 锐迪科微电子科技(上海)有限公司 消除语音交互中信道差异的方法及系统、电子设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588536A (zh) * 2004-09-29 2005-03-02 上海交通大学 语音识别中状态结构调整方法
JP2008236077A (ja) * 2007-03-16 2008-10-02 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息系统有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
CN103594094A (zh) * 2012-08-15 2014-02-19 王景芳 自适应谱减法实时语音增强

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588536A (zh) * 2004-09-29 2005-03-02 上海交通大学 语音识别中状态结构调整方法
JP2008236077A (ja) * 2007-03-16 2008-10-02 Kobe Steel Ltd 目的音抽出装置,目的音抽出プログラム
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息系统有限公司 一种基于隐马尔可夫模型的汽车声音识别方法
CN103594094A (zh) * 2012-08-15 2014-02-19 王景芳 自适应谱减法实时语音增强

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PENG DAI等: "Robust speech recognition by using spectral subtraction with noise peak shifting", 《IET SIGNAL PROCESSING》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719370A (zh) * 2016-01-18 2016-06-29 上海交通大学 停车场声纹验证系统及其方法
CN105719370B (zh) * 2016-01-18 2018-06-12 上海交通大学 停车场声纹验证系统及其方法
CN108109006A (zh) * 2017-12-20 2018-06-01 黑龙江省农业信息中心 农产品市场监控预警系统
CN110197670A (zh) * 2019-06-04 2019-09-03 大众问问(北京)信息科技有限公司 音频降噪方法、装置及电子设备
CN110197670B (zh) * 2019-06-04 2022-06-07 大众问问(北京)信息科技有限公司 音频降噪方法、装置及电子设备
WO2021217750A1 (zh) * 2020-04-30 2021-11-04 锐迪科微电子科技(上海)有限公司 消除语音交互中信道差异的方法及系统、电子设备及介质
CN113113022A (zh) * 2021-04-15 2021-07-13 吉林大学 一种基于说话人声纹信息的自动识别身份的方法

Also Published As

Publication number Publication date
CN104157294B (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
CN103000174B (zh) 语音识别系统中基于快速噪声估计的特征补偿方法
CN102930866B (zh) 一种用于口语练习的学生朗读作业的评判方法
CN104157294A (zh) 一种农产品市场要素信息采集的鲁棒性语音识别方法
CN103236260B (zh) 语音识别系统
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
CN103377647B (zh) 一种基于音视频信息的自动音乐记谱方法及系统
CN104200804B (zh) 一种面向人机交互的多类信息耦合的情感识别方法
CN105405439B (zh) 语音播放方法及装置
CN103310789B (zh) 一种基于改进的并行模型组合的声音事件识别方法
CN107146601A (zh) 一种用于说话人识别系统的后端i‑vector增强方法
CN103856689B (zh) 面向新闻视频的人物对话字幕提取方法
CN102968986B (zh) 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN105006230A (zh) 一种面向非特定人的语音敏感信息检测和过滤方法
CN102436809B (zh) 英语口语机考系统中网络语音识别方法
CN106486131A (zh) 一种语音去噪的方法及装置
CN104835498A (zh) 基于多类型组合特征参数的声纹识别方法
CN106971741A (zh) 实时将语音进行分离的语音降噪的方法及系统
CN103456310A (zh) 一种基于谱估计的瞬态噪声抑制方法
CN103730112B (zh) 语音多信道模拟与采集方法
CN109767782A (zh) 一种提高dnn模型泛化性能的语音增强方法
CN104485103A (zh) 一种基于矢量泰勒级数的多环境模型孤立词识别方法
CN102426837B (zh) 农业现场数据采集的移动设备语音识别的鲁棒性方法
CN107221343B (zh) 一种数据质量的评估方法及评估系统
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Xu Jinpu

Inventor after: Zhu Yeping

Inventor before: Zhu Yeping

Inventor before: Xu Jinpu

GR01 Patent grant
GR01 Patent grant