CN101223574A

CN101223574A - 使用话带信号的语音识别装置和方法

Info

Publication number: CN101223574A
Application number: CNA2006800256079A
Authority: CN
Inventors: 曹灌铉; 韩汶星; 朴俊锡; 郑泳圭
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2005-12-08
Filing date: 2006-12-01
Publication date: 2008-07-16
Anticipated expiration: 2026-12-01
Also published as: CN101223574B; KR20070061134A; KR100738341B1

Abstract

提供一种语音识别装置和方法。所述语音识别装置包括：信号处理单元，用于计算话带信号的对数频谱和包含噪声的语音信号的对数频谱，所述话带信号和所述语音信号接收自外部信道；权重计算单元，用于通过利用所述话带信号的对数频谱和所述语音信号的对数频谱分派权重来计算归一化值，并利用所述归一化值补偿所述话带信号的对数频谱；特征提取单元，用于从所述话带信号的经补偿的对数频谱中提取特征向量；以及识别单元，用于利用所述特征向量学习识别模型并执行语音识别。

Description

使用话带信号的语音识别装置和方法

技术领域

本发明涉及使用一种话带信号(voice band signal)的语音识别装置和方法，而且更具体地，涉及这样的语音识别装置及其方法：其通过计算话带信号与包含噪声的语音信号之间的频谱差值、基于所述频谱差值计算相邻帧的每个频带中的平均数、向所述平均数分派通过实验得到的权重从而执行归一化(normalization)并产生归一化值、借助利用所述归一化值补偿所述话带信号来提取特征向量、以及学习(learn)所述特征向量的识别模型来识别语音。

背景技术

随着有线/无需通信的发展，语音识别技术已经备受关注。语音识别技术的优点在于，其能够为用户提供更方便的接口。

为了在现实生活中利用语音识别技术，必须减少叠加在语音中的干扰信号的影响。

干扰信号是可能叠加在作为实际识别目标的语音中的每一种信号。干扰信号的示例包括由环境噪声导致的失真、通信线路失真、回声、背景音乐、他人的语音等等。由环境噪声导致的失真是显著降低语音识别性能的因素。因而，已经积极地开展关于补偿由环境噪声导致的失真的研究。

作为一种用于补偿由环境噪声导致的失真的方法，韩国专利登记号No.0446626公开了一种噪声抑制方法。根据韩国专利登记号No.0446626，依次使用独立分量分析(Independent Component Analysis，ICA)和谱相减法来抑制语音信号中的噪声。

作为另一种方法，韩国专利公布号No.0442825公开了一种用于语音识别的环境补偿方法。根据韩国专利登记号No.0442825，利用环境补偿方法来补偿被噪声或线路失真污染的语音的频谱，以获得与实际语音频谱接近的频谱。

然而，因为使用ICA来控制噪声信号，所以韩国专利公布号No.0446626需要大量的计算，而且在噪声的类型与语音类似时难以分离信号。

韩国专利登记号No.0442825使用平均补偿方法，其没有通过估计代表噪声或线路失真的环境参数来对任意环境进行优化。因而，对具体环境的适应性较差。

此外，韩国专利登记号No.0442825在利用相对于被污染的语音信号的环境参数来补偿失真语音信号的过程中需要大量的计算。因而，难以在资源有限的实时小型设备(例如，小型移动终端)中操作。

发明内容

技术问题

因而，本发明的目的是提供一种这样的语音识别装置及其方法：其通过计算话带信号与包含噪声的语音信号之间的频谱差值、基于所述频谱差值计算相邻帧的每个频带中的平均数、向所述平均数分派通过实验得到的权重从而执行归一化并产生归一化值、借助利用所述归一化值补偿所述话带信号来提取特征向量、以及学习所述特征向量的识别模型来识别语音。

技术方案

根据本发明的一个方面，提供一种语音识别装置，包括：信号处理单元，用于计算话带信号的对数频谱和包含噪声的语音信号的对数频谱，所述话带信号和所述语音信号接收自外部信道；权重计算单元，用于通过利用所述话带信号的对数频谱和所述语音信号的对数频谱分派权重来计算归一化值，并利用所述归一化值补偿所述话带信号的对数频谱；特征提取单元，用于从所述话带信号的经补偿的对数频谱中提取特征向量；以及识别单元，用于利用所述特征向量学习识别模型并执行语音识别。

根据本发明的另一个方面，提供一种语音识别方法，包括步骤：a)计算话带信号的对数频谱和包含噪声的语音信号的对数频谱，所述话带信号和所述语音信号接收自外部信道；b)通过利用所述话带信号的对数频谱和所述语音信号的对数频谱分派权重来计算归一化值，并利用所述归一化值补偿所述话带信号的对数频谱；c)从所述话带信号的经补偿的对数频谱中提取特征向量；以及d)利用所述特征向量学习识别模型并执行语音识别。

有益效果

根据本发明的语音识别装置和方法通过利用话带信号，即便在严重的噪声环境中也能够正确地识别用户的命令。

此外，由于抑制环境噪声仅需要少量的计算，因此本发明可以应用于适合于例如个人数字助理(PDA)的使用有限资源的小型移动设备的识别装置。

更进一步，本发明可以提供便于不能自由运用他们的双手的伤残人士的可替代接口。

附图说明

通过下面参照附图对优选实施例的描述，本发明的以上和其它目的和特征将变得显而易见，其中：

图1是根据本发明的实施例的使用话带信号的语音识别装置的框图；

图2是示出图1的权重计算单元的操作的流程图；以及

图3是示出根据本发明的实施例的使用话带信号的语音识别方法的流程图。

具体实施方式

通过下面参照附图对实施例的描述，本发明的其它目的和特征将变得显而易见。

图1是根据本发明的实施例的使用话带信号的语音识别装置的框图。

参照图1，所述语音识别装置包括信号处理单元10、权重计算单元20、特征提取单元30、以及识别单元40。

信号处理单元10接收来自每个信道的话带信号和包含噪声的语音信号，并计算所接收信号的对数频谱(log spectrum)。也即，信号处理单元10以预定时间间隔对每个帧执行快速傅立叶变换(FFT)以将所接收的信号转换为频域信号，并利用滤波器组计算话带信号的对数频谱和语音信号的对数频谱。由于信号处理单元10中计算话带信号的对数频谱和语音信号的对数频谱的过程是公知的，将略去其详细描述。

信号处理单元10向权重计算单元20提供话带信号的对数频谱和语音信号的对数频谱。

权重计算单元20从信号处理单元10接收话带信号的对数频谱和语音信号的对数频谱，并计算用于加强话带信号的对数频谱的归一化值。

权重计算单元20补偿具有比语音信号低的精确度(definition)的话带信号。也即，权重计算单元20补偿其精确度比语音信号低的话带信号，因为即便没有因为环境噪声而造成失真，但是在话带信号通过语音频带之后回声也未被反射。

此外，权重计算单元20将计算得到的权重应用于话带信号的对数频谱，并向特征提取单元30提供经补偿的对数频谱。

特征提取单元30提取语音识别装置的学习所必需的特征向量。特征提取单元30可以使用美尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient，MFCC)、线性预测倒谱系数(LPCC)、感知线性预测倒谱系数(PLPCC)等等来提取语音的特征。

识别单元40利用所提取的特征向量来学习识别模型。识别模型的示例包括隐马尔科夫模型(HMM)、动态时间规整(DTW)、以及神经网络。

识别单元40存储已经经历利用识别模型的学习过程的特征向量作为模型参数。识别单元40利用模型参数测量与之前学习的模型的相似度，并执行所接收信号的语音识别。

图2是示出图1的权重计算单元20的操作的流程图。

参照图2，在步骤S21中权重计算单元20从信号处理单元10接收话带信号的对数频谱(X)和语音信号的对数频谱(Y)，并计算频谱差值(Z)。频谱差值(Z)是话带信号的对数频谱(X)与语音信号的对数频谱(Y)之间的幅度差值，而且表示为公式1。

Z＝X-Y 公式1

在步骤S22中，权重计算单元20缓冲频谱差值以临时存储该频谱差值，并计算N个相邻帧(例如，N＝3-5)的每个频带中的局部移动平均数。利用公式2来计算局部移动平均数D_b ^t。

D_{b}^{t} = \frac{1}{N} Σ_{i = 0}^{N - 1} Z_{b}^{t - i}

公式2

其中b代表频带索引，t代表作为帧索引的时间，而N代表用于计算局部移动平均数的缓冲帧的数量。

利用局部运动平均数，权重计算单元20避免话带信号的对数频谱突然改变。

在步骤S23中，权重计算单元20通过向局部移动平均数(D_b ^t)分派权重来计算归一化值。所述权重是与信噪比(SNR)成比例的值。

通过实验得到与SNR成比例的权重。优选的是，所述权重小于0.1(10％)，以避免从信号处理单元10提供的原始话带信号的对数频谱的严重失真。

权重计算单元20利用公式3来计算归一化值

{\hat{X}}_{b} = W_{b} D_{b}

公式3

其中b代表频带索引，D_b代表频带b处的局部移动平均数，而W_b代表频带b处的权重。

权重计算单元20向特征提取单元30提供补偿频谱。所述补偿频谱是其中利用归一化值补偿了从信号处理单元10提供的原始话带信号的对数频谱的频谱。

参照图3，语音识别装置如下使用话带信号来补偿由环境噪声导致的失真。

在步骤S100中，语音识别装置接收来自外部信道的话带信号和语音信号，并计算话带信号的对数频谱和语音信号的对数频谱。

在步骤S101中，语音识别装置计算话带信号的对数频谱与语音信号的对数频谱之间的频谱差值。语音识别装置缓冲计算得到的频谱差值。在步骤S102中，语音识别装置存储所缓冲的频谱差值，并计算N个相邻帧的每个频带中的局部移动平均数。

在步骤S103中，语音识别装置通过根据SNR向局部移动平均数分派权重来计算归一化值。在步骤S104中，语音识别装置通过利用归一化值补偿计算得到的原始话带信号的对数频谱来产生补偿频谱。

在步骤S105中，语音识别装置从补偿频谱中提取特征向量。在步骤S106中，语音识别装置利用所提取的特征向量学习识别模型，并执行语音识别。

可以将根据本发明的实施例的方法实现为程序并存储在能够执行该程序的计算机可读记录介质中。计算机可读记录介质的示例包括CD-ROM、RAM、ROM、软盘、硬盘、磁光盘等等。

虽然已经参照某些优选实施例描述了本发明，但是本领域技术人员应当理解，可以作出各种变更和修改而不背离由所附权利要求书限定的本发明的范围。

对相关申请的交叉引用

本申请包含与分别于2005年12月8日和2006年6月2日向韩国知识产权局提交的韩国专利申请No.2005-119803和2006-50045有关的主题，其全部内容通过参照而被合并于此。

Claims

1.一种语音识别装置，包括：

信号处理单元，用于计算话带信号的对数频谱和包含噪声的语音信号的对数频谱，所述话带信号和所述语音信号接收自外部信道；

权重计算单元，用于通过利用所述话带信号的对数频谱和所述语音信号的对数频谱分派权重来计算归一化值，并利用所述归一化值补偿所述话带信号的对数频谱；

特征提取单元，用于从所述话带信号的经补偿的对数频谱中提取特征向量；以及

识别单元，用于利用所述特征向量学习识别模型，并执行语音识别。

2.如权利要求1所述的语音识别装置，其中，所述信号处理单元对所述话带信号和所述语音信号执行快速傅立叶变换FFT，并通过利用滤波器组来计算所述话带信号的对数频谱和所述语音信号的对数频谱。

3.如权利要求1所述的语音识别装置，其中，所述权重计算单元计算所述话带信号的对数频谱与所述语音信号的对数频谱之间的差值，缓冲计算得到的差值，计算N个相邻帧的每个频带中的局部移动平均数，其中N为正整数，通过根据信噪比SNR向所述局部移动平均数分派权重来计算归一化值，并利用所述归一化值补偿所述话带信号的对数频谱。

4.如权利要求3所述的语音识别装置，其中，所述权重计算单元向所述局部移动平均数分派小于10％的权重。

5.一种语音识别方法，包括步骤：

a)计算话带信号的对数频谱和包含噪声的语音信号的对数频谱，所述话带信号和所述语音信号接收自外部信道；

b)通过利用所述话带信号的对数频谱和所述语音信号的对数频谱分派权重来计算归一化值，并利用所述归一化值补偿所述话带信号的对数频谱；

c)从所述话带信号的经补偿的对数频谱中提取特征向量；以及

d)利用所述特征向量学习识别模型，并执行语音识别。

6.如权利要求5所述的语音识别方法，其中，所述步骤a)包括步骤：

对所述话带信号和所述语音信号执行快速傅立叶变换FFT；以及

通过利用滤波器组来计算所述话带信号的对数频谱和所述语音信号的对数频谱。

7.如权利要求5所述的语音识别方法，其中，所述步骤b)包括步骤：

计算所述话带信号的对数频谱与所述语音信号的对数频谱之间的差值；

缓冲计算得到的差值；

计算N个相邻帧的每个频带中的局部移动平均数，其中N为正整数；

通过根据信噪比SNR向所述局部移动平均数分派权重来计算所述归一化值；以及

利用所述归一化值补偿所述话带信号的对数频谱。

8.如权利要求7所述的语音识别方法，其中，在步骤b)中向所述局部移动平均数分派小于10％的权重。