CN103310798A

CN103310798A - 降噪方法和装置

Info

Publication number: CN103310798A
Application number: CN2013100713023A
Authority: CN
Inventors: 市川治
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-03-07
Filing date: 2013-03-06
Publication date: 2013-09-18
Anticipated expiration: 2033-03-06
Also published as: JP2013186258A; JP5875414B2; US20130238324A1; CN103310798B; US9190072B2

Abstract

本公开涉及降噪方法和装置。[问题]本发明的目的是提供一种应用于语音识别前端的降噪新技术。[解决手段]通过给出代表观测语音的谐波结构的显著性的置信指标作为每个频带的输出的权重来优化前端的输出。在第一方法中，当通过对给出从观测语音生成的消除了噪声的语音的概率分布的模型执行MMSE估计而估计纯语音时，使用置信指标作为权重对MMSE估计的后验概率进行加权。在第二方法中，针对每个频带以置信指标作为权重在观测语音的观测值与纯语音估计值之间执行线性插值。该第一方法和第二方法可以结合。

Description

降噪方法和装置

技术领域

本发明涉及语音识别技术，并且更具体地涉及降噪技术。

背景技术

在语音识别技术中，去除背景噪声的效果是对改进话语识别精度的重要问题。当背景噪声相对较小时，相关领域的滤波技术(例如谱减法和Wiener滤波)具有成效，但是对较大的背景噪声无法获得理想的结果，因为目标语音被淹没在噪声中。

为此，近几年已注意使用纯语音(例如无任何噪声叠加的话语语音)的概率模型的方法。已经报告这些基于模型的降噪的方法显示了甚至对大背景噪声的高性能。为此，日本专利申请公开号.2008-298844(专利文献1)公开了一种采用基于模型的降噪的语音识别系统。

[引用列表]

[专利文献]

[专利文献1]日本专利申请公开号2008-298844

发明内容

[技术问题]

本发明的目的是提供一种应用于语音识别前端的降噪新技术。

[问题的解决方案]

发明者已经努力地检查了应用于语音识别前端的降噪的方法，并且因此，设想了一种配置，其中代表观测语音的谐波结构的显著性的置信指标给定为每个频带的输出的权重，从而实现了本发明。

换言之，根据本发明提供了第一方法，它是一种降噪的方法，包括：基于观测语音的谱生成每个频带的置信指标的步骤；以及通过对基于观测语音生成的纯语音的概率模型执行MMSE估计以及对于每个频带使用该置信指标作为权重对MMSE估计的后验概率进行加权来估计纯语音的估计值的步骤。

而且，根据本发明提供了第二方法，它是一种降噪方法，包括：基于观测语音的谱生成每个频带的置信指标的步骤；从观测语音估计纯语音估计值的步骤；以及通过针对每个频带以置信指标用作为权重在所述观测语音的观测值和纯语音估计值之间执行线性插值而得到输出值的步骤。

此外，根据本发明，提供组合上述第一方法和第二方法的第三方法，用于使计算机执行每个所述方法的计算机程序产品，以及实现用于实现每个所述方法的功能的降噪装置。

[发明的有益效果]

如上所述，根据本发明，通过给出代表观测语音的谐波结构的显著性的置信指标作为每个频带的输出的权重，优化前端的输出。

附图说明

图1所示为相关领域的语音识别系统中前端的配置的示意图。

图2所示为从观测语音的频谱生成梅尔(mel)LPW的步骤的示意图。

图3所示为从梅尔LPW生成置信指标α的步骤的示意图。

图4所示为第一实施方式的语音识别系统中前端的配置的示意图。

图5所示为第一实施方式的前端执行的过程的流程图。

图6所示为从梅尔LPW生成置信指标β的步骤的示意图。

图7所示为第二实施方式的语音识别系统中前端的配置的示意图。

图8所示为第二实施方式的前端执行的过程的流程图。

图9所示为第三实施方式的语音识别系统中前端的配置的示意图。

图10所示为第三实施方式的前端执行的过程的流程图。

具体实施方式

此后，将参考图中所示的实施方式说明本发明。但是，本发明不限于图中所示的实施方式。注意，在下列要参考的图中，对共同的元件给出相同的标号，且其说明被适当省略。

一般而言，一种语音识别系统包括前端和后端，前端将某种转换应用于话语语音的声学信号以提取特征量，后端基于前端提取的特征量查找数据库以指定话语的内容。本发明是对迄今为止已应用于前端的降噪的改进，并且旨在通过对观测语音的每个频带利用置信来优化所述前端的输出。

此后，将基于三个实施方式来描述本发明。第一实施方式公开了一种改进基于模型的噪声补偿中使用的MMSE(最小均方误差)的估计的技术。第二实施方式公开了一种通过在纯语音的估计值和观测值之间实现线性插值优化输出值的技术。此外，第三实施方式公开了一种组合上述两种技术的技术。

<基于模型的噪声补偿>

在开始描述本发明的实施方式之前，将基于图1描述应用于前端的基于模型的噪声补偿。注意，在下文描述中，“观测语音”是指其中背景噪声叠加在话语语音上的实际观测到的声音；“纯语音”是指没有任何噪声叠加的话语语音；“纯语音估计值”是指从观测语音估计出的纯语音的估计值。而且，“频谱”是指功率谱或幅度谱。

简言之，基于模型的噪声补偿是这样的技术：在给出观测值y时，将纯语音x建模为x的概率分布p(x|y)并且从概率模型p(x|y)估计纯语音x的估计值。MMSE估计是用在后续阶段的估计中的基础技术。

图1简要示出了应用基于模型的噪声补偿的相关领域的语音识别系统中前端500的配置。

用麦克风收集和记录的观测语音被A/D转换器转换为数字信号(声学信号)。此后，使用适当的窗函数，数字信号经过成帧以及离散傅里叶变换(DFT)，其然后被转换为每一帧的频谱。接下来。频谱经过梅尔滤波器组(一种滤波器组，其中带通滤波器以相等间隔布置在梅尔标度上)并且取其对数，其继而被转换为梅尔对数谱并且被输入到降噪单元502。

降噪单元502包括基于模型的噪声补偿部分512，MMSE估计部分514，以及存储纯语音的高斯混合模型(此后称为GMM)的数据库516。基于输入梅尔对数谱，降噪单元502生成每一帧的纯语音估计值，并且向特征量提取单元504输出所述纯语音估计值。

基于模型的噪声补偿部分512是一个功能部分，它将包括在观测语音中的纯语音表示为概率分布并且通过诸如VTS、SPLICE、DNA或Segura的现有建模算法来实现。基于模型的噪声补偿部分512通过使用被输入降噪单元502的每个帧的梅尔对数谱以及存储在数据库516中的纯语音模块性(GMM)来执行特定的算术运算，并且输出包括在观测语音中的纯语音作为具有针对每个频带的维度的混合多维正态分布。

MMSE估计部分514基于从基于模型的噪声补偿部分512输出的概率分布来执行MMSE估计，并且生成纯语音估计值。注意，存储在数据库516中的纯语音模型是梅尔对数谱域中的GMM，其是基于先验学习而针对每个音素生成的。基于模型的噪声补偿部分512输出纯语音作为梅尔对数谱域中的GMM。MMSE估计部分514生成纯语音估计值作为梅尔对数谱域中的向量。

特征量提取单元504提取特定的特征量，例如来自从MMSE估计部分514输出的纯语音估计值的梅尔倒频谱系数(MFCC)，并且将该特征量发送给后端。在后端，通过使用例如HMM、声学模型或N-gram语言模型等已有配置，基于从前端接收的特征量指定话语的内容。

上面已经简要说描述相关技术的语音识别系统中的前端的配置。接下来，将详细描述已有的MMSE估计。相关领域的基于模型的噪声补偿算法包括已在上文描述的从观测语音直接估计纯语音估计值的第一方法，以及从观测语音估计补偿量并且从观测语音和补偿量的估计值之间的差异得到纯语音估计值的第二方法。在第二方法中，MMSE估计用于估计补偿量。下文描述将基于Segura所采用的第二方法以便简化描述。

<现有MMSE估计>

观测语音y的帧t中的频带d(梅尔标度上的频带)梅尔对数谱域中的观测值y_d(t)可以在下面的公式(1)中表示为纯语音值x_d(t)和噪声值n_d(t)的函数：

公式1

y_d(t)＝x_d(t)+log(1+exp(n_d(t)-x_d(t))) (1)

当从以上公式(1)忽略t并且公式(1)表示为向量时，获得下面的公式(2)：

公式2

y＝x+g (2)

每个频带d的失配向量g由下面公式(3)中指示的失配函数G给出：

公式3

g_d＝G_d(x，n)＝log(1+exp(n_d-x_d)) (3)

这里，纯语音x被建模为下列公式(4)中指示的K混合GMM：

公式4

p (x) = Σ_{k}^{K} γ_{k} \cdot N (x; μ_{x, k}, Σ_{x, k}) - - - (4)

在以上公式(4)中，γ_k，μ_x，k，和∑_x，k分别指示第k正态分布的先验概率、均值向量和协方差矩阵。

通过基于以上公式(1)到(4)使用线性泰勒展开，失配向量g被建模为下列公式(5)中指示的K混合GMM：

公式5

p (x) = Σ_{k}^{K} γ_{k} \cdot N (g; μ_{g, k}, Σ_{g, k}) - - - (5)

注意，以上公式(5)中的均值向量μ_g，k表示为下列公式(6)，并且协方差矩阵∑_g，k表示为下列公式(7)：

公式6

μ_{g, k} &cong; \log (1 + \exp (μ_{n} - μ_{x, k})) = G (μ_{x, k}, μ_{n}) - - - (6)

Σ_{g, k} &cong; F {(μ_{x, k}, μ_{n})}^{2} \cdot (Σ_{x, k} + Σ_{n}) - - - (7)

以上公式(7)中辅助函数F并定义为下列公式(8)：

公式7

F_d(x，n)＝(1+exp(x_d-n_d))^-1 (8)

因此，纯语音估计值x^由下列公式(9-1)给出：

公式8

\hat{x} = y - &Integral; g \cdot p (g | y) dg &cong; y - Σ_{k}^{K} ρ_{k} (y) \cdot μ_{g, k} - - - (9 - 1)

相反，在从观测语音y直接估计纯语音估计值x^的第一方法中，纯语音估计值x^由下列公式(9-2)而不是以上公式(9-1)给出：

公式9

\hat{x} = &Integral; x \cdot p (x | y) dx &cong; Σ_{k}^{K} ρ_{k} (y) \cdot μ_{x, k} - - - (9 - 2)

这里，以上公式(9-1)和(9-2)中后验概率ρ_k都由下列公式(10)给出：

公式10

ρ_{k} (y) = γ_{k} \cdot N (y; μ_{y, k}, Σ_{y, k}) / \underset{k^{'}}{Σ} γ_{k^{'}} \cdot N (y; μ_{y, k^{'}}, Σ_{y, k^{'}}) - - - (10)

以上公式(10)中均值向量μ_y，k表示为下列公式(11)，并且协方差矩阵∑_y，k表示为下列公式(12)：

公式11

μ_{y, k} &cong; μ_{x, k} + G (μ_{x, k}, μ_{n}) - - - (11)

Σ_{y, k} &cong; {1 - F {(μ_{x, k}, μ_{n})}^{2}} \cdot Σ_{x, k} + F {(μ_{x, k}, μ_{n})}^{2} \cdot Σ_{n} - - - (12)

注意，在以上公式(11)和(12)中，语音模型参数[μ_x，k，∑_x，k]由先验学习数据给出，并且噪声模型参数[μ_n，∑_n]基于非语音片段中的、被给予MMSE估计部分514的观测值而由基于模型的噪声补偿部分512设置。

如以上所述，简言之，MMSE估计是将纯语音估计值x^近似为使用后验概率ρ_k(y)作为权重而被加权的k个概率分布的均值向量μ_x，k之和的过程。本发明的第一实施方式注重这一点并且通过适当修改MMSE估计中的后验概率优化前端的输出。

<第一实施方式：CW-MMSE>

在本节中，将描述通过使用置信指标作为权重对MMSE估计中的后验概率进行加权的技术。在下文描述中，这种技术称为CW-MMSE(置信加权MMSE)。

在现有MMSE中，纯语音估计值x^由以下公式(9-1)(9-2)给出，并且每个公式中后验概率ρ_k(y)由以下公式(10)给出，如以上所述。

公式12

\hat{x} = y - &Integral; g \cdot p (g | y) dg &cong; y - Σ_{k}^{K} ρ_{k} (y) \cdot μ_{g, k} - - - (9 - 1)

\hat{x} = &Integral; x \cdot p (x | y) dx &cong; Σ_{k}^{K} ρ_{k} (y) \cdot μ_{x, k} - - - (9 - 2)

公式13

ρ_{k} (y) = γ_{k} \cdot N (y; μ_{y, k}, Σ_{y, k}) / \underset{k^{'}}{Σ} γ_{k^{'}} \cdot N (y; μ_{y, k^{'}}, Σ_{y, k^{'}}) - - - (10)

这里，在给出纯语音估计值x^的上面公式(9-1)(9-2)中，CW-MMSE使用利用置信指标α_d加权的后验概率ρ′_k(y)而不是后验概率ρ_k(y)作为权重。下面的公式(13)指示CW-MMSE使用的后验概率ρ′_k(y)：

公式14

ρ_{k}^{'} (y) = γ_{k} \cdot N^{'} (y; μ_{y, k}, Σ_{y, k}) / \underset{k^{'}}{Σ} γ_{k^{'}} \cdot N^{'} (y; μ_{y, k^{'}}, Σ_{y, k^{'}}) - - - (13)

这里，以上公式(13)中正态分布由以下公式(14)给出，其使用对角协方差假设。注意，在以下公式(14)中，D指示正交分布的维度的数目：

公式15

N^{'} (y; μ_{y, k}, Σ_{y, k}) =

Π_{d = 1}^{D} {{(2 π)}^{- \frac{1}{2}} \cdot {| Σ_{y, k, d} |}^{- \frac{1}{2}} \cdot \exp (- {(y_{d} - μ_{y, k, d})}^{2} / {2 Σ}_{y, k, d})}^{α_{d}} - - - (14)

参考以上公式(14)可以理解：正态分布N′(它是公式中用于计算后验概率ρ′_k(y)的项)被乘以使用置信指标α_d作为权重的指标。这里，置信指标是代表频带的置信的指标。一般地，频带的置信是从背景噪声引起的信号退化的角度估计的。在本发明中，置信指标定义如下。

<置信指标>

已知：包括在人类话语中的元音的频谱具有谐波结构。在没有背景噪声的环境中，元音的谐波结构保持在观测语音的频谱的整个频带中。相反，在例如车辆的驾驶声音或空调声音的宽带噪声中，元音的谐波结构在很多频带中被丢失，并且谐波结构仅被保持在诸如语音功率集中的共振峰(formant)的频带中。

从这点出发，本发明假设由背景噪声引起的退化很少发生在具有明显谐波结构的频带中，并且将谐波结构的显著性定义为该频带的置信指标。此后，将描述本发明的一种生成置信指标的方法。

本发明的置信指标是使用LPW(局部峰值权重)生成的。这里，LPW是这样的：例如包括共振峰信息的巨大改变从观测语音的谱能量分布中被移除，仅提取对应于谐波结构的规则的波峰和波谷，并且其值被规则化。在本发明中，通过执行以下的过程而生成每一帧的LPW。

首先，采用观测语音的帧t的频谱的算法，并且其对数谱经过离散余弦变换以获得倒谱。接下来，在获得的倒谱的项中，仅对应于LPW元音的谐波结构的域中的项被留下，并且其他项被删掉。此后，对处理的倒频谱进行反离散余弦变换，以将倒谱转换回对数谱域，其被进一步转换回频谱域。最后，被转换的谱被规则化使得频谱的均值变成1，由此获得LPW。图2(a)示出观测语音的帧t的频谱。图2(b)示出基于图2(a)所示的频谱而生成的LPW。

接下来，通过在梅尔标度上平滑图2(b)所示的LPW而获得图2(c)所示的梅尔LPW。特别地，通过使LPW经过梅尔滤波器组(一种滤波器组，其中带通滤波器以相等间隔布置在梅尔标度上)而对值进行平滑，并且针对每个梅尔频带获得一个值。如图2(c)所示，在每个梅尔频带给出梅尔LPW值。梅尔LPW值的大小对应于高分辨率的频谱带的谐波结构的显著性，其对应于每个梅尔频带。

在本发明中，通过适当方法规则化的梅尔LPW值被用作置信指标。在CW-MMSE情况下，以上公式(14)中的置信指标α_d可以由以下过程生成。

首先，为了置信指标α_d不采用极值，图3(a)所示梅尔LPW的动态范围通过使用适当的缩放函数被压缩。因此，每个频带的梅尔LPW值w_d被转换为α′_d。缩放函数的示例包括曲线函数。以下公式(15)指示通过使用曲线函数将梅尔LPW值w_d转换为α′_d的公式：

公式16

α′_d＝1.0/(1.0+exp(-a.(w_d-1.0))) (15)

注意，在以上公式(15)中，a是调谐参数，并且设置适当的常数值。

接下来，压缩的值α′_d被规则化使得均值变成1。使均值变成1的规则化被完成，因为置信指标α_d在以上公式(14)中被用作位指标权重。以下公式(16)指示用于规则化α′_d且获得置信指标α_d的公式：

公式17

α_{d} = α_{d}^{'} / (\frac{1}{D} \underset{d^{'}}{Σ} α_{d^{'}}^{'}) - - - (16)

图3(b)示出由上述过程生成的置信指标α_d。如图3(b)所示，在每个梅尔频带给出置信指标α_d。

在静默部分或无声部分的情况下，帧t中频带d的置信指标α_d将一致接近1。在这种情况下，以上公式(14)中的正态分布N′变成一般正态分布。因此，后验概率ρ′_k(y)不被加权。

当存在元音的谐波结构在有声部分的帧t中明显的谱频带时，对应频带d的置信指标α_d将变得大于1。于是，对于频带d，以上公式(14)中的正态分布N′变大，并且频带d的后验概率ρ′_k(y)变大。这意味着，在由CW-MMSE执行的MMSE估计中，对应于其中元音的谐波结构明显的谱频带的梅尔频带的贡献变大。

相反，当存在元音的谐波结构在有声部分的帧t中被丢失的谱频带时，对应频带d的置信指标α_d将变得小于1。于是，对于频带d，以上公式(14)中的正态分布N′变小，并且频带d的后验概率ρ′_k(y)变小。这意味着，在由CW-MMSE执行的MMSE估计中，对应于其中元音的谐波结构丢失的谱频带的梅尔频带的贡献变小。

图4示意地示出根据第一实施方式的语音识别系统中前端1000的配置。前端1000的降噪单元100包括实现CW-MMSE而不是现有MMSE的CW-MMSE估计部分102。前端1000还包括置信指标生成单元104。置信指标生成单元104包括LPW生成部分105、梅尔LPW生成部分106以及规则化部分107。此后，将基于图5所示的流程图描述由前端1000执行的过程。注意，在下文描述中，将适当地参考图4。

首先，当获得对应于观测语音的一个帧的频谱Y时(步骤S101)，LPW生成部分105提取频谱Y的谐波结构并且生成LPW(步骤S102)。接下来，梅尔LPW生成部分106从LPW生成梅尔LPW(步骤S103)。规则化部分107用适当方法对梅尔LPW进行规则化，并且生成针对每个频带的置信指标α(平均值是1)(步骤S104)。置信指标生成单元104向降噪单元100的CW-MMSE估计部分102提供生成的置信指标α。

此后，对应于一个帧的频谱Y被转换为梅尔对数谱y(步骤S105)并且被输入到降噪单元100。降噪单元100通过使用输入的梅尔对数谱y和从置信指标生成单元104提供的置信指标α来估计纯语音。这时，CW-MMSE估计部分102使用置信指标α作为权重对MMSE估计的后验概率进行加权(步骤S106)。

降噪单元100将CW-MMSE估计部分102估计的纯语音估计值x^输出到特征量提取单元504(步骤S107)。特征量提取单元504从纯语音估计值x^提取特定的特征量并且将该特征量发送给后端。上述过程系列对观测语音的每一帧重复执行(步骤108中的否)。当到达最后一帧时(步骤108中的是)，处理结束。

如上所述，利用CW-MMSE，每个频带影响MMSE估计的结果，具有根据其置信水平的贡献度。因此，前端的输出被优化。

上文已描述了第一实施方式。接下来，将描述第二实施方式，其中输出值通过在语音模态和观测语音之间实现线性插值而被优化。

<第二实施方式：CW-INT>

如果观测语音等效于纯语音，输出观测语音而不处理它是最佳的。但是，利用基于模型的方法，即使在这种情况下纯语音的模型也将被估计，并且输出因此变得比纯语音更差。第二实施方式公开了解决这个问题的一种技术。

在本节中，将描述一种在语音模态和观测语音之间实现线性插值的技术，其中置信指标作为权重。在下文描述中，这种技术被称为CW-INT(置信加权的插值)。

在CW-INT中，频带d中输出值x～_d被以下公式(17)中指示的线性插值函数给出：

公式18

{\tilde{x}}_{d} = (1.0 - β_{d}) \cdot {\hat{x}}_{d} + β_{d} \cdot y_{d} - - - (17)

在以上公式(17)中，x^_d指示频带d中的纯语音估计值，β_d指示给频带d的置信指标，y_d指示频带d中的观测值，并且x～_d指示频带d中的输出值。使用置信指标β_d作为权重，以上公式(17)中的线性插值函数被加权，其采用从0到1的值。线性插值函数指示，随着β_d接近1，输出值x～_d接近观测值y_d，并且，随着β_d接近0，输出值x～_d接近纯语音估计值x^_d。

这里，本发明的置信指标通过利用适当方法对梅尔LPW值进行规则化而生成，如上所述。在CW-INT的情况下，以上公式(17)中的置信指标β_d可以被下面的过程生成。

图6(a)示出所获得的针对帧t的梅尔LPW。在CW-INT的情况下，通过使用适当的缩放函数，梅尔MPW值w_d被规则化，使得w_d值取从0到1的值，其中1是最大值。缩放函数的示例包括曲线函数。以下公式(18)指示用于通过使用曲线函数规则化梅尔MPW值w_d并且获得置信指标β_d的公式：

公式19

β_d＝1.0/(1.0+exp(-a·(w_d-1.0-b))) (18)

注意，在以上公式(18)中，a和b是调谐参数，并且设置适当常数值。

图6(b)指示由上述过程生成的置信指标β_d。如图6(b)所示，在每个梅尔频带给出置信指标β_d。

当存在元音的谐波结构在有声部分的帧t中明显的谱频带时，对应频带d的置信指标β_d接近1。于是，频带d中的输出值x～_d，其是以上公式(17)中指示的线性插值的结果，将变得距观测值y_d比距纯语音估计值x^_d更近。

相反，当存在元音的谐波结构在有声部分的帧t中被丢失的谱频带时，对应频带d的置信指标β_d接近0。于是，频带d中的输出值x～_d，其是以上公式(17)中指示的线性插值的结果，将变得距纯语音估计值x^_d比距观测值y_d更近。

图7示意地示出根据第二实施方式的语音识别系统中前端2000的配置。包括在前端2000中的降噪单元503是一个功能单元，它基于观测语音的每一帧的梅尔对数谱的输入而生成和输出纯语音估计值(梅尔对数谱域中的向量)。在第二实施方式中，降噪单元503可采用基于模型的噪声补偿，如图1所示的降噪单元502中，或者可以采用滤波技术，例如谱减法技术。前端2000还包括置信指标生成单元104和线性插值单元200。置信指标生成单元104包括LPW生成部分105、梅尔LPW生成部分106和规则化部分108。此后，将基于图8所示的流程图描述由前端2000执行的处理。注意，在下文描述中将适当参考图7。

首先，当获得对应于观测语音的一帧的频谱Y时(步骤S201)，LPW生成部分105提取频谱Y的谐波结构并且生成LPW(步骤S202)。接下来，梅尔LPW生成部分106从LPW生成梅尔LPW(步骤S203)。规则化部分108用适当的方法对梅尔LPW进行规则化，并且生成针对每个频带的置信指标β(值从0到1)(步骤S204)。

此后，对应于一帧的频谱Y被转换为梅尔对数谱y(步骤S205)。转换的梅尔对数谱y被输入到线性插值单元200和降噪单元503。降噪单元503通过使用适当的方法而从梅尔对数谱y估计纯语音，并且将纯语音估计值x^输出到线性插值单元200(步骤S206)。

线性插值单元200针对每个频带在梅尔对数谱y的向量与从降噪单元503输入的纯语音估计值x^(梅尔对数谱域中的向量)之间执行线性插值。这时，线性插值单元200以置信指标β作为权重实现该线性插值，并且得到输出值x～(步骤S207)。

线性插值单元200将得到的输出值x～输出到特征量提取单元504(步骤S208)。特征量提取单元504从输出值x～提取特定特征量，并且将该特征量发送给后端。上述过程系列对观测语音的每一帧重复执行(步骤209中的否)。当到达最后一帧时(步骤209中的是)，处理结束。

如上所述，利用CW-INT，每个频带中观测值根据其置信水平被反映在输出值中。于是，前端的输出被优化。

以上已描述明了第二实施方式。最后，将描述结合第一实施方式和第二实施方式的第三实施方式。

<第三实施方式：CW-MMSE+CW-INT>

在这个部分中，将描述上文已经描述的CW-MMSE和CW-INT的技术。在下文描述中，这种技术被称为CW-MMSE+CW-INT。

图9示意地示出根据第三实施方式的语音识别系统中的前端3000的配置。前端3000包括：包括CW-MMSE估计部分102的降噪单元100、线性插值单元200(CW-INT)、LPW生成部分105、置信指标生成单元104和梅尔LPW生成部分106。此后，将基于图10所示的流程图说明前端3000执行的处理。注意，在下面描述中，将适当参考图9。

首先，当获得对应于观测语音的一帧的频谱Y时(步骤S301)，LPW生成部分105提取频谱Y的谐波结构并且生成LPW(步骤S302)。接下来，梅尔LPW生成部分106从LPW生成梅尔LPW(步骤S303)。规则化部分107用适当的方法对梅尔LPW进行规则化，并且生成针对每个频带的置信指标α(值的均值为1)。同时，规则化部分108对梅尔LPW进行规则化，并且生成针对每个频带的置信指标β(值从0到1)(步骤S304)。置信指标生成单元104将生成的置信指标α和置信指标β分别提供给降噪单元100中的CW-MMSE估计部分102和线性插值单元200。

此后，对应于一帧的频谱Y被转换为梅尔对数谱y(步骤S305)。转换的梅尔对数谱y被输入到线性插值单元200和降噪单元100。降噪单元100通过使用输入的梅尔对数谱y和从置信指标生成单元104提供的置信指标α来估计纯语音。这时，CW-MMSE估计部分102使用置信指标α作为权重对MMSE估计的后验概率进行加权(步骤S306)，并且将纯语音估计值x^输出到线性插值单元200。

线性插值单元200针对每个频带而在梅尔对数谱y的向量与从降噪单元100输入的纯语音估计值x^(梅尔对数谱域中的向量)之间执行线性插值(步骤S307)。这时，线性插值单元200以置信指标β作为权重实现该线性插值，并且得到输出值x～。

线性插值单元200将得到的输出值x～输出到特征量提取单元504(步骤S308)。特征量提取单元504从输出值x～提取特定的特征量并且将该特征量发送给后端。上述过程系列对观测语音的每一帧重复执行(步骤309中的否)。当到达最后一帧时(步骤309中的是)，处理结束。

如上所述，利用CW-MMSE+CW-INT，MMSE的估计值被优化，而且，最佳插值在估计值和观测值之间实现。因此，前端的输出被优化。

已参考实施方式描述了本发明。但是，本发明不限于上述实施方式，并且改变包括被在本发明的范围中，只要它们具在本领域技术人员考虑的实施方式的范围中的有本发明的操作和有利效果。

上述实施方式的功能可以用面向对象的编程语言例如C、C++、C#或Java(注册商标)写的并且在装置上可执行的程序产品实现。实施方式的程序产品可以存储在装置可读记录介质上，例如硬盘驱动、CD-ROM、MO、DVD、软盘、EEPROM或EPROM，用于分发。可替换地，所述程序产品可以以装置可读格式通过网络被传输。

[示例]

此后，将使用示例更具体地说明本发明。但是，本发明不限于以下所述示例。

生成三种计算机程序产品(CW-MMSE，CW-INT，和CW-MMSE+CW-INT)以使计算机执行以上公开的本发明的方法，并且使用日本信息处理协会(IPSJ)提供的车内语音识别评估框架评估每个计算机程序产品的性能。

<实验条件>

使用车内语音识别评估数据库CENSREC-3进行这个实验。评估条件是使用远程麦克风用于学习数据和测试数据的条件3。输出实验必需的多种特征量的前端被准备并且被应用于所述学习数据和所述测试数据。所述特征量在39维度中，包括MFCC12维度+ΔMFCC12维度+ΔΔMFCC12维度+C0+ΔC0+ΔΔC0，并且应用话语单元中的CMN。后端的配置，例如生成声学模型的方法，不变(0类)。

当车辆空闲时，使用用近讲麦克风收集和记录的数据学习纯语音的GMM。使用24维度中的梅尔对数谱的特征量，并且混合的数目是256。

<实验结果>

以下表1共同地指示三个示例程序产品(CW-MMSE，CW-INT，和CW-MMSE+CW-INT)的单词准确率(％)和比较的示例程序产品(标准MMSE：Segra的MMSE)。注意，“CENSREC-3基线”是不执行语音增强或降噪的基线。

[表1]

基于以上表1指示的单词准确率(％)的所有环境的平均，参考标准MMSE的错误减少率(％)，其是比较示例，使用以下公式(19)计算：

公式20

因此，参考标准MMSE的错误减少率(％)在CW-MMSE、CW-INT和CW-MMSE+CW-INT中分别是14.4％，24.4％和26.2％。结果指示本发明的方法大大改进了语音识别准确度。

标号列表

100：降噪单元

102：CW-MMSE估计单元

105：LPW生成部分

104：置信指标生成单元

106：梅尔LPW生成单元

107、108：规则化单元

200：线性插值单元

502、503：降噪单元

504：特征量提取单元

512：基于模型的噪声补偿单元

516：数据库

500、1000、2000、3000：前端

Claims

1.一种降噪方法，包括：

基于观测语音的谱生成针对每个频带的置信指标的步骤；以及

通过对基于所述观测语音而生成的纯语音的概率模型执行MMSE估计以及针对每个频带使用所述置信指标作为权重对所述MMSE估计的后验概率进行加权来估计纯语音估计值的步骤。

2.根据权利要求1所述的方法，其中所述置信指标是代表所述观测语音的谐波结构的显著性的指标。

3.根据权利要求1或2所述的方法，其中生成置信指标的所述步骤包括：

从所述观测语音的所述谱提取谐波结构并且对所述谐波结构进行规则化的步骤；

在梅尔标度上对经规则化的值进行平滑的步骤；以及

对经平滑的所述值进行规则化使得经平滑的所述值的均值变为1的步骤。

4.根据权利要求1或2所述的方法，

其中生成置信指标的所述步骤是生成第一置信指标和第二置信指标的步骤，

其中估计纯语音估计值的所述步骤是通过对基于所述观测语音而生成的纯语音的概率模型执行MMSE估计以及针对每个频带使用所述第一置信指标作为权重对所述MMSE估计的后验概率进行加权来估计纯语音估计值的步骤，以及

其中所述方法还包括通过针对每个频带以所述第二置信指标作为权重在所述观测语音的观测值与所述纯语音估计值之间执行线性插值来得到输出值的步骤。

5.根据权利要求4所述的方法，其中生成第一置信指标和第二置信指标的所述步骤包括：

在梅尔标度上对经规则化的值进行平滑的步骤；

通过对经平滑的所述值进行规则化使得经平滑的所述值的均值变为1来生成所述第一置信指标的步骤；以及

通过对经平滑的所述值从0到1进行规则化来生成所述第二置信指标的步骤。

6.一种降噪方法，包括：

基于观测语音的谱生成针对每个频带的置信指标的步骤；

从所述观测语音估计纯语音估计值的步骤；以及

通过针对每个频带以所述置信指标作为权重在所述观测语音的观测值与所述纯语音估计值之间执行线性插值来得到输出值的步骤。

7.根据权利要求6所述的方法，其中所述置信指标是代表所述观测语音的谐波结构的显著性的指标。

8.根据权利要求6或7所述的方法，其中生成置信指标的所述步骤包括：

在梅尔标度上对经规则化的值进行平滑的步骤；以及

对经平滑的所述值从0到1进行规则化的步骤。

9.一种降噪装置，包括：

置信指标生成单元，被配置为基于观测语音的谱生成针对每个频带的置信指标；以及

降噪单元，被配置为通过对基于所述观测语音而生成的纯语音的概率模型执行MMSE估计以及针对每个频带使用所述置信指标作为权重对所述MMSE估计的后验概率进行加权来估计纯语音估计值。

10.根据权利要求9所述的装置，

其中所述置信指标生成单元生成第一置信指标和第二置信指标，

其中所述降噪单元针对每个频带使用所述第一置信指标作为权重对所述MMSE估计的所述后验概率进行加权，以及

其中所述装置还包括线性插值单元，被配置为通过针对每个频带以所述第二置信指标作为权重在所述观测语音的观测值与所述纯语音估计值之间执行线性插值来得到输出值。

11.一种降噪装置，包括：

置信指标生成单元，被配置为基于观测语音的谱生成针对每个频带的置信指标；

降噪单元，被配置为从所述观测语音估计纯语音估计值；以及

线性插值单元，被配置为通过针对每个频带以所述置信指标作为权重在所述观测语音的观测值与所述纯语音估计值之间执行线性插值来得到输出值。

12.根据权利要求9-11的任一项所述的装置，其中所述置信指标是代表所述观测语音的谐波结构的显著性的指标。