CN101149922A

CN101149922A - 语音识别装置和语音识别方法

Info

Publication number: CN101149922A
Application number: CNA2007101469505A
Authority: CN
Inventors: 赤岭政巳; 雷姆科·特尤南
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-09-21
Filing date: 2007-09-03
Publication date: 2008-03-26
Also published as: US20080077404A1; JP2008076730A; JP4427530B2

Abstract

一种语音识别装置，包括：提取单元，其分析输入信号并从输入信号从提取用于语音识别的特征；存储单元，其被配置为在其中存储声音模型，该声音模型是用于评估在该特征中包含什么类型的音素的随机模型；语音识别单元，其基于该特征对输入信号进行语音识别，并且从该声音模型确定具有最大似然度的单词；以及优化单元，其根据输入信号以及由语音识别单元进行的语音识别的状态中的至少一个，动态地自优化该特征和声音模型的参数。

Description

语音识别装置和语音识别方法

技术领域

本发明涉及语音识别装置和语音识别方法

背景技术

在语音识别中，使用随机模型形式的声音模型来估计在特征中包含什么类型的音素。通常使用隐马尔可夫模型(HMM)作为声音模型。HMM的每个状态的特征由高斯混合模型(GMM)来表现。一般，HMM与每个音素对应，GMM是HMM的各状态的特征的统计模型，该特征是从接收语音信号中提取的。在常规方法中，使用同一特征来计算所有GMM，并且即使语音识别的状态改变，该特征也是恒定的。

此外，在常规方法中，无法依赖于语音识别的状态来改变GMM，从而无法实现充分的识别性能。换言之，在常规方法中，当创建声音模型时设置声音模型的参数(例如，取决于上下文的结构、模型数目、高斯分布数目、以及模型和状态的共有构造)，并且这些参数不会随着语音识别的进行而改变。

如果在嘈杂地方进行语音识别，例如在行进的车辆内，语音信号的噪声级别持续剧烈变化。由此，如果可以根据噪声级别动态地改变声音模型，则可以增加语音识别的精度。然而，常规声音模型是静态的，即，其不会随着噪声级别改变。因此，利用常规声音模型无法获得足够的识别精度。

此外，在常规声音模型中，对于语音识别使用同一特征，即使条件或状态改变。例如，即使HMM的每个状态具有相同的音素，HMM的每个状态的有效特征也因单词内的位置而不同。然而，在常规声音模型中，该特征无法改变。因此，利用常规声音模型无法获得足够的识别精度。

此外，当在嘈杂地方执行语音识别时，很显然，摩擦音的声音模型的有效特征以及参数与元音的不同。然而，在常规声音模型中，无法改变声音模型的有效特征和参数。因此，利用常规声音模型无法获得足够的识别精度。

通过解码来从声学模型和语言模型中选择预期的单词，并且将该单词确定为识别单词。使用单路(one-pass)解码方法或多路(multi-pass)(通常为二路)解码方法来进行解码。在二路解码方法中，可以在第一路和第二路之间改变声学模型。因此，可以根据讲话者的性别或者噪声级别而使用适当的声音模型。这种解码过程在例如以下引用文献中描述：

Schwartz R.，Austin S.，Kubala F.，Makhoul J.，Nguyen L.，PlacewayP.，Zavaglios G.，“New Uses for the N-best Sentence Hypotheses withinthe Byblos Speech Recognition System”，Proc.ICASSP 92，pp.1-4，SanFrancisco，USA，1992。

Rayner M.，Carter D.，Digalakis V.，and Price P.，“CombiningKnowledge Sources to Reorder N-best Speech Hypothesis Lists，”InProceedings ARPA Human Language Technology Workshop，pages212-217.ARPA，March 1994。

在二路解码方法中，可以在第一路和第二路之间改变声学模型，以便可以获得特定的识别精度程度。

然而，即使在二路解么方法中，也无法依赖于语音识别的状态来优化特征。此外，无法逐帧地优化声音模型的参数，因为声音模型是基于发声而选择的。换言之，即使在二路解码方法中，也无法获得足够的识别精度。

发明内容

根据本发明的一个方面，一种语音识别装置包括：特征提取单元，其分析输入信号并从输入信号从提取用于语音识别的特征；声音模型存储单元，其被配置为在其中存储声音模型，该声音模型是用于评估在该特征中包含什么类型的音素的随机模型；语音识别单元，其基于该特征对输入信号进行语音识别，并且从该声音模型确定具有最大似然度的单词；以及优化单元，其根据输入信号以及由语音识别单元进行的语音识别的状态中的至少一个，动态地自优化该特征和声音模型的参数。

根据本发明的另一方面，一种语音识别方法包括：分析输入信号并从输入信号中提取用于语音识别的特征；基于该特征进行输入信号的语音识别，并且从声音模型确定具有最大似然比的单词，该声音模型是用于估计在该特征中包含什么类型的音素的随机模型；以及根据输入信号或者通过上述执行步骤所执行的语音识别的状态，来动态地自优化该特征和声音模型的的参数。

附图说明

图1是根据本发明实施例的语音识别装置的硬件结构的框图；

图2是语音识别装置的功能结构的框图；

图3是用于说明隐马尔可夫模型(HMM)的数据结构示例的示意图；

图4是用于说明HMM与决策树之间的关系的示意图；

图5是用于说明决策树结构的树示图；

图6是决策树示例的树示图；

图7是用于说明针对一个特征计算模型的似然度的流程图；

图8是用于说明决策树的学习过程的流程图。

具体实施方式

下面结合附图详细说明本发明的示例性实施例。图1是根据本发明实施例的语音识别装置1的硬件结构的框图。语音识别装置1例如是个人计算机，并且包括对语音识别装置1进行控制的中央处理单元(CPU)2。CPU 2经由总线5连接到只读存储器(ROM)3和随机存取存储器(RAM)4。ROM 3中存储有基本输入/输出系统(BIOS)信息等。RAM4中可重写地存储有数据，由此用作CPU 2的CPU缓冲器。

硬盘驱动器(HDD)6、光盘ROM(CD-ROM)驱动器8、通信控制单元10、输入单元11和显示单元12经由各自的输入/输出(I/O)接口(未示出)连接到总线5。HDD 6中存储有计算机程序等。CD-ROM驱动器8被配置为读取CD-ROM 7。通信控制单元10控制语音识别装置1与网络9之间的通信。输入单元11包括键盘或鼠标。语音识别装置1接收经由输入单元11来自用户的可操作指令。显示单元12被配置为在其上显示信息，并且包括阴极射线管(CRT)、液晶显示器(LCD)等。

CD-ROM 7是其中存储有诸如操作系统(OS)或计算机程序的计算机软件的记录介质。当CD-ROM驱动器8读取CD-ROM 7中存储的计算机程序时，CPU 2在HDD 6上安装该计算机程序。

顺便提及，代替CD-ROM 7，可以使用例如诸如数字多功能盘(DVD)的光盘、磁光盘、诸如软盘(FD)的磁盘、以及半导体存储器。此外，代替使用诸如CD-ROM 7的物理记录介质，通信控制单元10可以被配置为经由因特网从网络9下载计算机程序，并且所下载的计算机程序可以存储在HDD 6中。在这种配置中，发送服务器需要包括诸如如上所述的记录介质的存储单元来在其中存储该计算机程序。该计算机程序可以使用预定OS来启动。该OS可以进行一些处理。该计算机程序可以被包括在计算机程序文件组中，该组包括预定应用软件和OS。

CPU 2控制整个语音识别装置1的操作，并且基于HDD 6上加载的计算机程序执行每个处理。

下面详细描述在安装于HDD 6上的计算机程序使CPU 2执行的多个功能中的由语音识别装置1包括的功能。

图2是语音识别装置1的功能结构的框图。该语音识别装置1包括作为优化单元的自优化声音模型100、特征提取单元103、作为识别单元的解码器104、以及语言模型105。语音识别装置1通过使用自优化声音模型100执行语音识别处理。

输入信号(未示出)被输入到特征提取单元103。特征提取单元103通过分析输入信号，而从输入信号中提取用于语音识别的特征，并且将所提取的特征输出到自优化声音模型100。可以使用各种类型的声音特征作为该特征。另选地，可以使用高级特征，诸如讲话者的性别、因素上下文等。作为高级特征的示例，可以使用在常规语音识别方法中使用的作为Mel频率倒谱系数(MFCC，Mel Frequency cepstrum Coefficient)静态特征或感知线性预测(PLP，Perceptual Linear Predictive)静态特征、Δ(一次微分)和ΔΔ(二次微分)参数以及能量参数的组合的39维的声音特征量、性别的种类以及输入信号的信噪比(SNR)级别，以用于语音识别。

自优化声音模型100包括隐马尔可夫模型(HMM)101和决策树102。决策树102是在每个分支处分层的树示图。HMM 101与在常规语音识别方法中使用的HMM 101相同。一个或多个决策树(102)对应于高斯混合模型(GMM)，所述高斯混合模型用作常规语音识别方法中的HMM的每个状态的特征。自优化声音模型100用于针对来自特征提取单元103的语音特征输入，计算HMM 101的状态的似然度。似然度代表模型的似真性，即，该模型如何解释一现象，以及根据该模型出现该现象的频度。

语音模型105是用于估计每个单词所使用的上下文的类型的随机模型。语言模型105与在常规语音识别方法中使用的语言模型相同。

解码器104计算每个单词的似然度，并且确定自优化声音模型100和语言模型105中的具有最大似然度(参见图4)的单词作为识别单词。具体的，在接收到来自自优化声音模型100的似然度结果时，解码器104向自优化声音模型100发送关于识别目标帧的信息，诸如解码器104中的语音识别状态和HMM的状态的音素上下文。音素上下文表示构成一个单词的因素字符串的一部分。

下面详细描述HMM 101和决策树102。

在HMM 101中，从特征提取单元103输出的特征时序数据和每个音素的标签被以相关联的方式记录。图3是用于解释HMM 101的数据结构示例的示意图。在HMM 101中，通过包括多个节点和定向链接的有限自动机(finite automaton)来代表特征时序数据。所述节点中的每个指示一个验证状态。例如，节点i1、i2和i3对应于同一音素“i”，而各自具有不同的状态。定向链接中的每一个与状态间的状态转换概率(未示出)关联。

图4是用于说明HMM 101与决策树102之间的关系的示意图。HMM 101包括多个状态201。每个状态201都与决策树102关联。

下面参照图5详细描述决策树102的操作。决策树102包括节点300、多个节点301和多个叶子302。节点300是根节点，即，其是树结构的最上面的节点。节点300和301中的每一个都具有两个孩子节点：“是”和“否”。这些孩子节点可以是节点301或者叶子302。这些节点300和301中的每一个都具有关于预先设置的特征的问题，由此根据问题的答案而分支到两个孩子节点“是”和“否”。每个叶子302都不具有问题或孩子节点，但是输出针对所接收数据中包括的模型的似然度(参见图4)。似然度可以通过学习过程来计算，并且被预先存储在每个叶子302中。

图6是决策树102的示例的树示图。如图6所示，根据该实施例的声音模型可以根据讲话者的性别、SNR、语音识别的状态以及输入语音的上下文而输出似然度。决策树102与HMM 101的两个状态(即，状态1(201A)和状态2(201B))相关联。决策树102通过使用与状态201A和201B对应的学习数据来执行学习过程。特征C1和C5分别表示第一和第五PLP倒谱系数。根结点300和节点301A和301B被状态201A和201共享，并且被应用于状态201A和201B。节点301C具有关于状态的问题。节点301D到301G取决于节点301C的状态。即，某些特征在状态201和201B之间被共同使用，但是其它特征的使用取决于状态。此外，取决于状态而使用的特征的数目不是恒定的。在图6所示的示例中，状态2(201B)使用比状态1(201A)更多的特征。似然度根据SNR是否少于五分贝而改变，即，根据环境噪声级别是高还是低、或者对象音素的先前音素是否为“/ah/”而改变。在节点301B中，问题是输入语音的讲话者的性别是否是女性。即，似然度根据讲话者的性别而改变。

决策树102的节点和叶子的数目的参数、在每个节点中使用的特征和问题、从每个叶子输出的似然度等是由学习过程基于学习数据而决定的。这些参数被优化以获得最大似然度和最大识别率。如果学习数据包括足够的数据，并且如果语音信号是在执行语音识别的实际地方处获得的，则还在实际环境中优化决策树102。

下面参照图7更详细的描述由自优化声音模型100执行用于针对所接收的特征来计算HMM 101的每个状态的似然度的过程。

首先，选择与表示对象音素的HMM 101的特定状态对应的决策树102(步骤S1)。

随后，将根节点300设置为活动节点，即，可以提问题的节点，而节点301和叶子302被设置为非活动节点(步骤S2)。然后，从特征提取单元103中检取与步骤S1和S2中设置的数据对应的特征(步骤S3)。

通过使用所检取的特征，根节点300计算对于预先存储在根节点300中的问题的答案(步骤S4)。确定该问题的答案是否为“是”(步骤S5)。如果答案是“是”(步骤S5中为是)，则将表示“是”的孩子节点设置为活动节点(步骤S6)。如果答案为“否”(步骤S5中为否)，则将表示“否”的孩子节点设置为活动节点(步骤S7)。

然后，确定活动节点是否为叶子302(步骤S8)。如果该活动节点为叶子302(步骤S8中为是)，则将存储在叶子302中的似然度输出，因此该叶子302不再分支到其它节点(步骤S9)。如果该活动节点不是叶子302(步骤S8中为否)，则系统控制进行倒步骤S3。

如上所述，将取决于输入的特征、关于特征的问题以及似然度写入使用决策树102的声音模型中。因此，决策树102可以有效地优化声音特征、与高级特征相关的问题、以及取决于输入信号或识别状态的似然度。该优化可以通过下文详细说明的学习过程来实现。

图8是用于说明对于决策树102的学习处理的流程图。对于决策树102的学习基本上用于通过使用被基于输入样本是否属于HMM 101的状态而预先分为多个类的学习样本，来确定问题和似然度，该问题对于识别输入样本是否属于与目标决策树102对应的HMM 101的特定状态是需要的。学习样本预先被用于进行强制对齐以通过使用一般使用的语音识别法确定输入样本是否与HMM 101的哪个状态对应，然后将属于该状态的样本标签化为正解类，并把不属于该状态的样本标记为其他类。顺便指出，对于HMM 101的学习能按照与常规方法相同的方式来进行。

与决策树102对应的对象状态的学习样本被输入，并且创建只包括一个根节点300的决策树102(步骤S11)。在决策树102中，根节点300分支为多个节点，并且这些节点进一步分支为多个孩子节点。

然后，选择待分支的对象节点(步骤S12)。顺便指出，节点301需要包括特定量的学习样本(例如，一百个或更多个学习样本)，并且这些学习样本需要由多个类构成。

确定该对象节点是否满足以上条件(步骤S13)。如果确定结果为“否”(步骤S13中为否)，则系统控制进行到步骤S17(步骤S18)。如果确定结果为“是”(步骤S13中为是)，则提出关于输入到对象节点301的所有特征(学习样本)的可用问题，并且评估通过这些问题的答案所获得的所有分支(分为多个孩子节点)(步骤S14)。在步骤S14中的评估是基于由这些节点的分支产生的似然度的增加率而执行的。关于所述特征(其为学习样本)的问题是根据所述特征而不同的。例如，关于声音特征的问题被表达为大或小。关于性别或者噪声类型的问题被表达为类别。即，如果特征被表达为类别，则问题是该特征是否超过阈值。另一方面，如果由类别来表示该特征，则问题是该特征是否属于特定类别。

然后，选择用于优化评估的适当问题(步骤S15)。换言之，评估对于所有学习样本的可用问题，并且选择用于优化似然度增加率的问题。

根据所选问题，学习样本被分支为两个叶子302：“是”和“否”。然后基于属于每个分支叶子的学习样本来计算每个叶子302的似然度(步骤S16)。通过以下等式计算叶子L的似然度：

存储在叶子L处的似然度＝P(真类别|L)/P(真类别)，并且计算结果被存储在叶子L中，其中P(真类别|L)表示叶子L中的真类别的后验概率，并且P(真类别)表示真类别的先验概率。

然后，系统控制返回到步骤S12，并且对于新叶子执行学习过程。决策树102在每次重复步骤S12到S16时增长。在此情况下，如果没有满足所述条件的对象节点(步骤S13中为否)，则剪除剪枝对象节点(步骤S17和S18)。从底部向上剪除(删除)该剪枝对象节点，即，从低级节点到高级节点剪除。具体地，当孩子节点被删除时，针对似然度降低来评估具有两个孩子节点的所有节点。最少似然度降低的节点被重复剪除(步骤S18)，直到节点的数目少于预定值(步骤S17)。如果节点的数目少于预定值(步骤S17中为否)，则终止对于决策树102的第一轮学习过程。

当终止了对于决策树102的学习过程时，通过使用学到的声音模型，对用于学习的语音样本执行强制对齐。通过使用经更新的学习样本来更新决策树102的每个叶子的似然度。这些过程被重复执行预定次数，或者被重复执行直到整个似然度的增加率低于阈值为止，然后完成学习过程。

通过这种方式，根据输入信号的级别或者语音识别的状态来动态地自优化特征和声音模型的参数。换言之，可以根据输入语音的状况和状态、音素识别以及语音识别来优化声音模型的参数，例如特征(不仅包括声音特征还包括高级特征)的类型和数目，商品化结构和份的数目，状态的数目，取决于上下文的模型的数目。从而，可以实现高识别性能。

对于本领域技术人员来说，其它特征和修改将是显而易见的。因此，本发明在其更广义方面不限于这里所示和描述的具体说明以及代表性实施例。因此，可以在不脱离由所附权利要求及其等同物所限定的总体发明概念的精神或范围的情况下进行各种修改。

Claims

1.一种语音识别装置，包括：

特征提取单元，其分析输入信号并从输入信号从提取用于语音识别的特征；

声音模型存储单元，其被配置为在其中存储声音模型，该声音模型是用于评估在该特征中包含什么类型的音素的随机模型；

语音识别单元，其基于该特征对输入信号进行语音识别，并且从该声音模型确定具有最大似然度的单词；以及

优化单元，其根据输入信号以及由语音识别单元进行的语音识别的状态中的至少一个，动态地自优化该特征和声音模型的参数。

2.根据权利要求1所述的语音识别装置，其中

优化单元包括通过分支而分层的决策树，

多个叶子，位于该决策树的末端，并且在该多个叶子中分别存储对于声音模型的似然度，以及

通过从所述叶子中选择期望的叶子，来选择取决于输入信号以及语音识别状态的似然度。

3.根据权利要求2所述的语音识别装置，其中决策树是通过学习过程构建的，该学习过程通过使用被基于输入样本是否属于特定状态而预先分为多个类的学习样本，来确定问题和似然度，其对于识别输入样本是否属于与作为学习对象的决策树对应的声音模型的特定状态是需要的。

4.根据权利要求1所述的语音识别装置，其中存储在声音模型存储单元中的声音模型是隐马尔可夫模型(HMM)，并且

每个状态中的特征的似然度是使用决策树而计算的。

5.一种语音识别方法，包括：

分析输入信号并从输入信号中提取用于语音识别的特征；

基于该特征进行输入信号的语音识别，并且从声音模型确定具有最大似然度的单词，该声音模型是用于估计在该特征中包含什么类型的音素的随机模型；以及

根据输入信号或者通过上述执行步骤所执行的语音识别的状态，来动态地自优化该特征和声音模型的参数。