CN1199148C

CN1199148C - 语音识别装置、语音识别方法

Info

Publication number: CN1199148C
Application number: CNB011192038A
Authority: CN
Inventors: 赫尔穆特·勒克; 南野活树; 浅野康治; 小川浩明
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-03-14
Filing date: 2001-03-14
Publication date: 2005-04-27
Anticipated expiration: 2021-03-14
Also published as: US7249017B2; JP4543294B2; CN1320902A; JP2001255889A; US20010053974A1; US20040167779A1; EP1134727A2; EP1134727A3

Abstract

为了防止未知单词导致的语音识别精度的降低，在词典数据库中存储了一个单词词典，其中除了语音识别对象的单词以外，还存储了作为声音元素和声音元素序列的后缀，这些元素构成了未知单词，用来根据其语音部分对未知单词进行分类，根据这种单词词典，匹配部分连接声音数据库的声音模型，并在连接的声学模型的基础上，用特征提取部分输出的特征序列计算出得分，然后匹配部分根据此得分选择代表语音识别结果的单词序列。

Description

语音识别装置、语音识别方法

技术领域

本发明涉及一种语音识别装置、一种语音识别方法和一种记录介质。更具体的说，本发明涉及一种语音识别装置和一种语音识别方法，它们能够在例如发言中含有未知的单词时减小语音识别精度的降低，并涉及一种记录介质。

背景技术

图1示出了一种用来进行连续语音识别的常规语音识别装置的例子的结构图。

将用户生成的语音输入到一话筒1上中。在话筒1中，输入的语音转换成一种作为电子信号的音频信号。将这种音频信号提供给一个AD(模-数)转换部分2。在AD转换部分2中，对来自话筒1的作为模拟信号的音频信号进行采样和量化，转换成作为数字信号的音频数据。将这种音频数据提供给特征提取部分3。

特征提取部分3在来自AD转换部分2的音频数据的每个合适的帧都进行如傅立叶变换和滤波之类的声学处理，从而提取出特征，诸如，例如MFCC(Mel频率倒谱系数)；并将此特征提供给匹配部分4。此外，特征提取部分3还可以提取诸如频谱、线性预测系数、倒谱系数和线频谱对的特征。

根据例如连续分配HMM的方法同时利用来自特征提取部分3的特征，参考必须的声音模型数据库5、词典数据库6和语法数据库7，匹配部分4对输入到匹配部分4(输入语音)的语音输入进行语音识别。

更具体的说，声音模型数据库5中存储了一个声音模型，它示出了各个声音元素和要进行语音识别的口语中音节的声学特征。这里，由于语音识别是根据连续分配HMM方法进行的，所以对声音模型，例如，使用了HMM(隐马尔可夫模型)。词典数据库6中存储了单词词典，其中描述了每个单词(词汇)的发音信息(音韵信息)，这些单词(词汇)是语音识别的对象。语法数据库7中存储了连接(链接)词典数据库6的词典中输入的每个单词的语法规则(语言模型)。这里，作为语法规则，例如也可以使用基于上下文无关语法(CFG)的规则，统计的单词排序概率(N语法)等。

通过参考词典数据库6的单词词典，匹配部分4可以连接存储在声音模型数据库5中的声音模型，从而形成该单词的声音模型(单词模型)。此外，通过参考存储在语法数据库7中的语法规则，匹配部分4可以连接数个单词模型，并根据其特征使用按此方式连接的单词模型，以便用连续分配HMM的方法识别输入到话筒1上的语音。也就是说，匹配部分4可以检测出其中在所观察的特征提取部分3输出的时间序列的特征处的得分(似然性)最大的一系列单词模型，并将与此单词模型序列对应的单词序列作为语音识别的结果输出。

更具体的说，匹配部分4累积单词序列的每个特征出现的概率，此单词序列对应着已连接的单词模型；并把累计数值假定作为一个得分，将得分最高的单词序列作为语音识别结果输出。

得分计算通常是通过共同评价一个声学得分(下文中称作“声学得分”)和一个语言得分(下文中在合适处称作“语言得分”)进行的，其中声学得分是由存储在声音模型数据库5中的声音模型给出的，语言得分是由语法数据库7中存储的语法规则给出的。

更具体的说，例如，在HMM方法的情况中，要根据所观察的特征提取部分3输出的特征序列的概率(出现概率)，为每个来自声学模型的单词计算声学得分，声学模型构成了一个单词模型。而且，例如，在bigram的情况中，语言得分是根据连接(链接)的特定单词和正好在它前面的一个单词的可能性来决定的。然后，根据为每个单词共同评价声学得分和语言得分而得到的最后得分(下文中在合适处称作“最后得分”)来决定语音识别的结果。

具体的说，当由N个单词组成的单词序列中的第k个单词表示成w_k时，并且单词w_k的声学得分表示成A(w_k)，语言得分表示成L(w_k)时，可以根据下面的方程计算出此单词序列的最后得分，例如：

S＝∑(A(w_k)+C_k×L(w_k))

...(1)

其中，∑表示K从1到N变化时的总和，C_k表示应用到单词w_k的语言得分L(w_k)上的加权。

匹配部分4进行匹配过程，以决定例如将方程(1)所示的最后得分最大化的N和一个单词序列w₁，w₂，...，w_N，并将此单词序列w₁，w₂，...，w_N作为语音识别的结果输出。

作为例如上述过程进行的结果，在图1中的语音识别装置中，例如，当用户说出“ニユ一ヨ一クに行きたいです(我想去纽约)”时，对每个单词如“ニユ一ヨ一ク”、“に”、“行きたい”和“です”都会给出一个声学得分和一个语言得分。当共同评价它们得到的最后得分最大时，将此单词序列“ニユ一ヨ一ク”、“に”、“行きたい”和“です”作为语音识别结果输出。

如果对输入到词典数据库6的单词词典中的所有单词都独立地进行声学得分计算，由于计算量很大，所以可以使用一种方法，它可以形成使多个单词的声学得分计算共同(共享)部分。也就是说，存在一种方法，其中作为单词词典的单词，对开始处音素相同的单词，从开始音素到与开始音素相同的音素使用共同的声学模型，对以后的音素使用各自的声学模型，从而形成一个整体为树形结构的网络，并使用此网络来判定声学得分。

在这种情况下，例如，如图2所示，单词词典是由树形结构的单词网络(单词网络)构成的，树形结构是通过顺序连接与来自作为语音识别对象的每个单词的开始处，来自作为开始点的根节点音素对应的分支而得到的。

当单词网络形成时，对在其开始处其音素相同的单词，以上述方式，共同使用与开始音素到与开始音素相同的音素对应的分支。也就是说，在图2中，用附在每个分支上的斜杠(/)包围的字母字符表示一个音素，矩形封闭的部分表示一个单词。例如，对于单词“I”、“ice”、“icy”和“up”来说，其开始处的音素/A/是相同的，因此，可以产生对应着音素/A/的共同分支。此外，对于单词“I”、“ice”和“icy”来说，由于除开始音素/A/之外，其第二个音素/I/也是相同的，所以还产生对应着第二个音素/I/的共同分支。此外，对于单词“ice”和“icy”来说，由于除了开始音素/A/和第二个音素/I/之外，第三个音素/S/也是相同的，所以还产生对应着第三个音素/S/的共同分支。

此外，对于单词“be”和“beat”来说，由于其第一个音素/B/和其第二个音素/I/都是相同的，所以产生对应着开始音素/B/和第二个音素/I/的共同分支。

在使用构成图2的单词网络的单词词典的情况下，匹配部分4从声音模型数据库5中读出音素的声学模型，这些音素对应着从单词网络的根节点扩展出来的分支序列；连接它们，并根据连接的声学模型，通过使用来自特征提取部分3的特征序列计算出声学得分。

这样，以共同方式计算出了单词“I”、“ice”、“icy”和“up”的第一个音素/A/的声学得分。用共同方式计算出单词“I”、“ice”和“icy”的第一个音素和第二个音素/A/和/I/的声学得分。此外，也可以用共同方式计算出单词“ice”和“icy”的第一个到第三个音素/A/、/I/和/S/的声学得分。对单词“up”余下的音素(第二个音素)/P/和单词“icy”余下的音素(第四个音素)/I/，分别计算出声学得分。

用共同方式对单词“be”和“beat”的第一个和第二个音素/B/和/I/计算声学得分。然后，对单词“beat”余下的部分(第三个音素)/T/，分别计算声学得分。

这样，通过使用构成单词网络的单词词典，就可以大大降低声学得分的计算量。

在匹配部分4中，用上述方式当在声学模型的基础上使用特征序列计算声学得分时，此声学模型沿从单词网络的根节点扩展的分支系列(下文中称作“路径”)相连接，最终，可以达到单词网络的末节点(在图2中，在从根节点沿着分支向右运动的情况下最后分支的结尾)。也就是说，例如在使用HMM作为声学模型的情况下，当在HMM基础上使用特征序列来计算声学得分时，HMM沿构成路径的分支序列相连接；在连接的HMM的最后状态中，存在着声学得分大到一定程度(下文中称作“局部极大值时间”)的时刻。

在这种情况下，在匹配部分4中，假定从用于声学得分计算的开始处的特征的时间到局部最大值的时间区域为语音区域，其中给出了与此路径对应的单词，将此单词假定为作为语音识别结果的单词序列组成部分的候选单词。然后，根据沿从单词网络根节点扩展的分支(路径)系列连接的声学模型，使用局部最大值时间之后的特征序列，再一次对此单词的候选之后连接的候选单词进行声学得分的计算。

在匹配部分4中，作为上述重复处理过程的结果，可以得到作为大量的语音识别结果候选的单词序列。匹配部分4可以排除掉这些大量的单词序列候选中声学得分较低的单词，也就是说，进行声学修剪，从而只选择出(留下)一个单词序列，它的声学得分要等于或大于预定的阈值，也就是说，从声学的角度看，只有一个具有特定确信度的单词序列可以作为语音识别的结果；处理过程继续。

此外，在作为语音识别结果的候选单词序列的产生过程中，用上述方式计算声学得分时，匹配部分4可以根据输入到语法数据库7中的语法规则，如N字母组，计算出单词的语言得分，此单词是作为语音识别结果候选单词序列的组成部分。然后，匹配部分4排除掉具有较低声学得分的单词，也就是说，进行语言修剪，从而只选择(留下)一个单词序列，它的语言得分要等于或大于预定的阈值，也就是说，从语言的角度看，只有一个具有特定确信度的单词序列可以作为语音识别的结果；处理过程继续。

如上所述，匹配部分4计算出一个单词的声学得分和语言得分，并根据此声学得分和语言得分进行声学和语言修剪，从而选择出一个或多个类似的单词序列作为语音识别的结果。然后，通过重复计算在连接的单词序列之后连接的单词的声学得分和语言得分，最终可以得到作为语音识别结果的候选的一个或多个具有特定确信度的单词序列。然后，匹配部分4从这些单词序列中判定出具有最高最终分的单词序列，例如，如方程(1)所示，作为语音识别的结果。

在语音识别装置中，要输入到词典数据库6的单词词典中的作为语音识别对象的单词的数量是有限的，例如，由于装置的计算速度、存储容量等。

当作为语音识别对象的单词数量有限时，如果用户说出了并非语音识别对象的单词(下文在合适处称作“未知单词”)，就会发生各种问题。

更具体的说，在匹配部分4中，即使说出了未知单词，也是使用未知单词的语音特征来为输入到单词词典的每个单词计算声学得分，声学得分大到一定程度的单词就会被错误地选择为未知单词语音识别结果的候选。

如上所述，在说出未知单词时，就会在未知单词的部分发生错误，而且，这种错误还可能导致其他部分的错误。

更具体的说，例如，在上述方式中，在用户说出“ニユ一ヨ一クに行きたいです(我想去纽约)”的情况下，当“ニユ一ヨ一ク(纽约)”为未知单词时，由于在“ニユ一ヨ一ク(纽约)”的位置处选择了一个错误的单词，所以很难精确地判定出未知单词“ニユ一ヨ一ク(纽约)”和它后面的单词“に(到)”之间的界限。因此，就会在单词之间的边界处发生错误，这种错误会影响其他部分的声学得分的计算。

具体的说，在上述方式中，在选择了并非“ニユ一ヨ一ク(纽约)”的错误单词之后，就要用特征序列来计算下一个单词的声学得分，此特征序列中用来计算错误单词的声学得分的特征序列的末端为开始端。因此，进行声学得分的计算时，用的是语音“ニユ一ヨ一ク(纽约)”末端部分的特征，或进行计算时就没有使用下一个语音“に(到)”的初始部分的特征。因此，存在着这种情况：作为语音识别结果的正确的单词“に(到)”的声学得分比其他单词的要小。

此外，在这种情况下，即使错误地识别成语音识别结果的单词的声学得分不是很大，此单词的语言得分也会很高。因此，存在着这种情况，其中共同评价声学得分和语言得分时，总分变得比共同评价作为语音识别结果的正确单词“に(到)”的声学得分和语言得分的总分要大(下文在合适处称作“单词总分”)。

如上所述，作为在未知单词的语音识别中出错的结果，在未知单词临近部分的单词的语音识别也会出错。

在语音识别装置中，作为语音识别的对象的单词，例如，通常会选择在报纸、小说等里具有较高出现率的单词，但是不能保证用户不说出低出现率的单词。因此，对未知单词做某种处理是必要的。

一个处理未知单词的方法的例子是，例如将一个并非语音识别对象的未知单词分成了数个片段，诸如构成单词的声音元素或由数个声音元素构成的声音元素序列；这些片断可以在伪方式(通常叫做“亚单词”)中作为一个单词，这样，单词就成为了语音识别的对象。

由于构成单词和声音元素序列的声音元素类型的数量不是很大，所以即使这些声音元素和声音元素序列都作为亚单词，成为了语音识别的对象，也不会对计算总量和存储容量产生太大的影响。在这种情况下，就将未知词汇识别成伪单词序列(下文中在合适的地方称作“伪单词”)，作为结果，未知单词的数量显然变为零。

在这种情况下，即使不仅说出了一个未知单词，而且说出了输入到单词词典中的单词，都可以将它们识别成一个伪单词序列。是将说出的单词识别成输入到单词词典中的单词，还是识别成伪单词序列中的单词，这要根据为每个单词计算的总分来决定。

然而，在使用伪单词的情况下，由于将未知单词识别成了一个伪单词或一个声音元素序列的声音元素，所以就不能使用其属性来处理未知单词了。也就是说，对未知单词来讲，由于，例如作为属性的语音部分不可知，所以不能使用语法规则，而使语音识别精度降低。

此外，还存在着数种类型的语音识别装置，其中词典数据库6中预先存储了多种语言的单词词典，而且单词词典，例如，是根据用户的操作来切换的，这就使多种语言的语音识别成为可能。在这种情况下，除了当前使用的单词词典的语言种类之外，语言的单词也成为了未知单词；然而，如果作为属性，已知了未知单词的语言，就可以自动切换此语言的单词词典，而且，在这种情况下，就能够正确识别出作为未知单词的单词。

具体的说，例如，当词典数据库6中存储了英语和法语的单词词典的情况下，当使用英语词典时，如果已知未知单词为法语单词，考虑到讲话人会切换到法国人，单词词典也会从英语词典切换到法语词典，从而使得高精度的语音识别成为可能。

发明内容

鉴于这种情况而提出了本发明。本发明的目的之一是通过允许得到未知单词的属性来改进语音识别的精度。

为了实现上述目标，依据本发明的一个方面，提供有一种语音识别装置，它包括：来从语音中提取语音特征的提取设备；在词典基础上使用该特征来计算得分的计算设备，此词典中输入了构成未知单词的元素的未知单词构成元素和作为语音识别对象的单词，未知单词构成元素是构成未知单词的元素，并且包括属性分支，可以根据属性对未知单词进行分类；用来根据得分来选择表示语音识别结果的单词序列的选择设备。

其中，在词典中，可以输入用来根据语音的一部分对未知单词进行分类的未知单词构成元素。

在词典中，可以将后缀作为未知-单词-构成的元素输入。

在词典中，构成未知单词的音素可以和后缀一起输入。

在词典中，可以输入根据语言对未知单词进行分类的未知-单词-构成的元素。

本发明的语音识别装置还可以包括一个词典。

依据本发明的另一个方面，提供有一种语音识别方法，它包括以下步骤：从语音中提取语音特征；在词典基础上使用该特征来计算得分，此词典中输入了构成未知单词的元素的未知单词构成元素和作为语音识别对象的单词，未知单词构成元素可以根据属性对未知单词进行分类；根据得分来选择表示语音识别结果的单词序列。

依据本发明的另一个方面，提供有一种已经记录有程序的记录介质，此程序包括以下步骤：从语音中提取语音特征；在词典基础上使用该特征来计算得分，此词典中输入了构成未知单词的元素的未知单词构成元素和作为语音识别对象的单词，未知单词构成的元素是构成未知单词的元素，并且包括回路元素，可以根据属性对未知单词进行分类；根据得分来选择表示语音识别结果的单词序列。

在本发明的语音识别装置、语音识别方法和记录介质中；在词典基础上使用该特征计算出一个得分，此词典中输入了构成未知单词的元素的未知单词构成元素和作为语音识别对象的单词，未知单词构成元素可以根据属性对未知单词进行分类；根据得分来选择出一个表示语音识别结果的单词序列。

附图说明

本发明的上述目的和进一步的目的、方面和新特征可以从结合附图阅读以下详细描述中变得更清楚。

图1的框图示出了一个常规语音识别装置例子的结构；

图2的示意图示出了存储在图1的词典数据库6中的单词词典结构的例子；

图3的框图示出了应用了本发明的一个语音识别装置实施例的结构的例子；

图4的示意图示出了存储在图3的词典数据库6中的单词词典结构的例子；

图5的流程图描述了图3中的语音识别装置的处理过程；

图6的示意图示出了存储在图3的词典数据库6中的单词词典结构的另一个例子；

图7的框图示出了应用了本发明的一个计算机实施例的结构的例子。

具体实施方式

图3示出了应用了本发明的一个语音识别装置实施例的结构的例子；图3中与图1中的组件相对应的的组件都给予相同的参考号，并在下文中省略了对其的描述。也就是说，图3中的语音识别装置在构造上基本类似于图1中的语音识别装置。

但是，除了为语音识别的对象输入了单词词典(“下文中在合适处称作”标准词典”)之外，此词典存储在图1中的词典数据库6中；在图3的语音识别装置的词典数据库6中，还存储了未知单词的词典，此词典中输入了未知单词构成的元素和作为语音识别对象的单词，未知单词构成的元素是构成未知单词的元素，可以用来根据属性对未知单词进行分类。也就是说，在图3的实施例中，存储在词典数据库6中的单词词典由标准词典和未知单词的词典构成。

在图3的词典数据库6中的单词词典中，还构成了一个类似于图1中词典数据库6的单词词典的单词网络。

更具体的说，在图3的词典数据库6中的单词词典中，例如，如图4所示，构成了一个类似于上述图2中情形的单词词典，并假定它为标准词典。此外，在图3的词典数据库6中的单词词典中，将作为一个或多个分支的通用分支连接到了根节点上，通用分支对应着一个声音元素或构成未知单词的声音元素序列的伪单词的音素；并且，将作为一个或多个分支的属性分支连接到了通用分支上，属性分支对应着用来根据属性对未知单词进行分类的音素(序列)，从而构成了处理未知单词的单词网络；并假定它为未知单词的词典。

更具体的说，在图4的实施例中，未知单词词典是用通用分支和属性分支按顺序连接到根节点上的方法形成的。而且，作为回路的分支(下文在合适处称作“回路分支”)也连接在通用分支上。由于通用分支由一个或多个分支构成，这些分支对应着各种声音元素或声音元素序列的伪单词的音素；通过重复地穿越通用分支，并在穿过回路分支后，再一次穿越通用分支，就可以将所有单词(包括在标准词典和未知单词中输入的单词)都识别成伪单词序列。

但是，是将说出的单词识别成输入到标准词典里的单词，还是作为伪单词系列的未知单词，这要根据为每个单词计算出的分数来决定。

在上述方式中，除了回路分支以外，属性分支也连接在通用分支上。属性分支由一个或多个分支构成，它对应着用来根据语音部分，例如未知单词，进行分类的后缀的音素(序列)。也就是说，如果语音识别对象的语言为，例如，英语，则属性分支就由英语名词通用的后缀“tion”和“ing”的音素对应的分支；英语动词的通用后缀“ed”的音素对应的分支；英语形容词的通用后缀“ive”的音素对应的分支；和其他分支构成。

在图3的匹配部分4中，以与图1的匹配部分4类似的方式，沿分支序列(路径)连接存储在声音模型数据库5里的声学模型，分支序列(路径)是从形成图4所示单词词典的单词网络的根节点扩展而来的，根据已连接的声学模型，用特征序列来计算声学得分。作为结果，最终可以达到单词网络最后的节点，并得到声学得分。也就是说，例如，在用HMM作为声学模型的情况中，可以在连接的HMM基础上沿形成路径的分支序列使用的特征序列来计算声学得分。作为结果，在连接的HMM的最终状态处，特定时间(局部最大值时间)的声学得分会变得大到一定程度，并假定此声学得分为与用于计算的路径对应单词的声学得分。

在这种情况下，如果用于声学得分计算的特征序列为输入到标准词典中的单词语音的特征序列，沿构成标准词典的单词网络的任意一个单词对应的路径计算的声学得分基本上都会变大。

另一方面，如果用于声学得分计算的特征序列不是输入到标准词典中的单词语音的特征序列，也就是说，是一个未知单词，沿构成未知单词词典的单词网络的一个或多个路径对应的路径计算的声学得分基本上都会变大。

更具体地说，考虑到除未知单词后缀以外的主干(或词根、基础部分、或基本部分)，通过重复地穿越通用分支，并在穿过回路分支后，根据需要再一次穿越通用分支，就可以得到大到一定程度的声学得分。对未知单词的后缀，通过穿越后缀音素对应的属性分支，也可以得到大到一定程度的声学得分。因此，对未知单词来讲，沿此路径计算的声学得分变得比沿其他路径计算的得分要大，此路径穿越通用分支预定次数并且此后再穿越预定的属性分支。

未知单词的声学得分变大时所用路径的组成部分的属性分支得到未知单词的语音部分。也就是说，如果作为路径组成部分的属性分支是对应着“tion”和“ing”的音素的分支，就可以判断此未知单词的语音部分为名词。而且，如果属性分支是对应着“ed”的音素的分支，就可以判断此未知单词的语音部分为动词。另外，如果属性分支是对应着“ive”的音素的分支，就可以判断此未知单词的语音部分为形容词。

下面，参考图5的流程图，描述图3中的语音识别装置的一个连续的语音识别过程。

当用户发声时，发出的声音进入话筒1和AD转换部分2，从而转换成数字声音数据，将这种数据要提供给特征提取部分3。在步骤S1中，特征提取部分3从提供至此的声音数据里按每帧的顺序提取语音特征，并将它们提供给匹配部分4。

匹配部分4中包含一个缓冲器(未示出)，临时存储特征提取部分3提供的特征。在步骤S2中，匹配部分4用缓冲器中存储的必要特征的序列来计算得分。

更具体的说，在匹配部分4中，存储在声音模型数据库5中的声学得分沿分支(路径)序列连接，分支(路径)序列是从形成图4所示的单词词典的单词网络的根节点扩展而来的；在连接的声学模型的基础上，使用特征序列来计算声学得分。作为结果，最终可以达到单词词典的最终节点，并得到声学得分。

具体的说，例如，在用HMM作为声学模型的情况中，在匹配部分4中，可以在连接的HMM础上沿形成路径的分支序列使用特征序列来计算声学得分。在此计算过程中，存在着连接的HMM的最终状态中的声学得分变得大到一定程度(局部最大时间)的一个时间。将局部最大时间处的声学得分假定为与用于计算的路径对应的单词(在本实施例中，也包括除输入到标准词典的单词之外的未知单词)的声学得分。

此外，在匹配部分4中，假定从声学得分计算使用的开始处的特征的时间到局部最大时间的区域为语音区域，其中说出了与此路径对应的单词，将此单词假定为作为语音识别结果的单词序列组成部分的候选单词。接着，在沿从单词网络的根节点扩展而来的分支(路径)序列连接的HMM的基础上，使用局部最大时间之后的特征序列，再一次对在上述候选单词之后连接的单词，进行声学得分的计算。

在匹配部分4中，作为上述重复过程的结果，可以得到作为大量的语音识别结果候选的一个或多个单词序列。匹配部分4可以从这些大量的单词序列候选中排除掉声学得分较低的单词，以便进行声学修剪，从而只选择出一个单词序列，它的声学得分要等于或大于预定的阈值，也就是说，从声学的角度看，只有一个具有特定确信度的单词序列可以作为语音识别的结果；得分的计算继续。

此外，在作为语音识别结果的候选单词序列的产生过程中，用上述方式计算声学得分时，匹配部分4根据输入到语法数据库7的语法规则，诸如两字母组(考虑到了与前一个过程的关系的一个单词的出现概率)和一个三字母组(考虑到与前一个过程和前一个单词之间的关系的一个单词的出现概率)计算出单词的语言得分，它是作为语音识别结果的候选单词序列的组成部分。然后，匹配部分4排除掉具有较低语言得分的单词，以便进行语言修剪，从而只选择一个单词序列，它的语言得分要等于或大于预定的阈值，也就是说，从语言的角度看，只有具有特定确信度的单词序列才可以作为语音识别的结果；处理过程继续。

这里，当作为语音识别结果的候选单词序列含有未知单词的情况下，对于未知单词来讲，可以通过构成计算声学得分时所用路径的属性分支得到未知单词的语音部分。因此，对未知单词来讲，通过在此方式中得到的语音部分的基础上应用语法规则(语言模型)，可以得到具有较高精确度的语言得分。

如上所述，通过计算单词的声学得分和语言得分，通过在声学得分和语言得分的基础上进行声学和语言修剪，匹配部分4重复着与语音识别结果类似的单词序列的选择，以及连接在连接的单词序列之后的单词的声学得分和语言得分计算。这样，匹配部分4最终可以在整个语音区域(假定此语音区域可以用某种技术检测)内得到作为语音识别结果候选的一个或多个单词序列。

然后，处理过程进行到步骤S3，匹配部分4为一个或多个单词序列中的每一个都计算出，例如上述方程(1)给出的，最终得分。而且，匹配部分4会选择出最终得分最大的单词序列，判定此单词序列为最终的语音识别结果并输出，则处理过程终止。

特征提取部分3进行的特征提取和匹配部分4进行的得分计算并行进行。

此外，在匹配部分4中，不仅对语音识别结果的候选的单词序列，而且对图4中单词网络的路径都要进行声学修剪。也就是说，在沿着路径进行声学得分计算的处理过程中，当预料到得不到大到一定程度的声学得分时，此时就会取消沿着此路径的声学得分的计算。作为结果，就降低了计算量，使得快速处理成为可能。

如上所述，伪单词的音素对应的通用分支连接在根节点上，伪单词是构成未知单词的一个声音元素或一个声音元素序列。而且，根据其语音部分对未知单词进行分类用的音素(序列)对应的属性分支连接在通用分支上，从而形成了处理未知单词的单词网络，并使用此单词网络来计算声学得分。这样，就使得估计未知单词的语音部分成为可能，使根据其语音部分计算出高精度的语言得分成为可能。作为结果，可以防止不能确定未知单词的精确的语言得分的情况导致的语音识别精度的降低，并可以提高语音识别的精度。

在图4的实施例中，可以根据其后缀估计出未知单词的语音部分。此外，例如还可以根据其前缀的属性等，估计出未知单词的含意内容，并可以使用此语言得分。

而且，还可以根据其属性估计出例如未知单词的语言。

更具体的说，在估计未知单词语言时，在图3的词典数据库6中的单词词典中，形成了如图6所示的单词网络。

还是在图6中，按与图4中情况类似方式，单词词典由标准词典和维持单词的词典构成。

然而，在图6中，作为伪单词的音素对应的一个或多个分支的属性分支连接在根节点上，伪单词是未知单词语言的一个声音元素或一个声音元素序列；从而形成了一个处理未知单词的单词网络，并假定它是未知单词的词典。

更具体的说，在图6的实施例中，通过假定语音识别装置进行的语音识别对象的语言基本上为例如英语，由英语单词构成标准词典。

对除英语之外的每个语言L1和L2(如法语、德语等)来讲，形成一个未知单词的词典。在下文中，将语言L1和L2的未知单词的词典分别称作“L1语言词典”和“L2语言词典”。

L1语言词典用这种方式组织：伪单词的音素对应的一个或多个属性分支连接在根节点上，伪单词是语言L1的一个声音元素或一个声音元素序列；而且，回路分支也连接在属性分支上。L2语言词典也是用这种方法组织的：伪单词的音素对应的一个或多个属性分支连接在根节点上，伪单词是语言L2的一个声音元素或一个声音元素序列；而且，回路分支也连接在属性分支上。

因此，在图6中，由于语言L1和L2的属性分支是由伪单词的音素对应的一个或多个分支构成的，伪单词为各个语言的各种声音元素或声音元素序列，通过重复地穿越属性分支，并在穿过回路分支后，再次地穿越属性分支，可以将语言L1和L2的每个单词都识别成一个伪单词系列。

然而，在这种情况下，除了英语的声学模型以外，还需要在图3的声音模型数据库5中存储语言L1和L2中每一种的各种声音元素和声音元素序列的声学模型。

在使用作为如图6所示的单词网络组成部分的单词词典时，以与使用4的单词词典的情况类似的方式，在匹配部分4中，沿分支(路径)系列连接声学模型数据库5中存储的声学模型，分支(路径)是从构成图6的单词词典的单词网络的根节点扩展而来的，并在连接的声学模型基础上使用特征序列计算出声学得分。作为结果，最终可以达到单词网络的最终节点，并得到声学得分。也就是说，例如，在用HMM作为声学模型的情况中，可以在HMM基础上使用特征序列来计算声学得分，HMM是沿形成路径的分支序列连接的。作为结果，在连接的HMM的最终状态处，在特定时间(局部最大时间)的声学得分会变得大到一定程度。并将假定此声学得分为与用于计算的路径对应的单词的声学得分。

在这种情况下，如果声学得分计算所用的特征序列是输入到标准词典中的英语语音的特征序列，则沿与构成标准词典的单词网络的一个单词对应的路径计算出来的声学得分基本上会变大。

另一方面，如果声学得分计算所用的特征序列不是输入标准词典的单词语音的特征序列，也就是说，为作为未知单词的语言L1和L2的单词的语音，则沿构成未知单词词典(这里，是L1语言的词典或L2语言的词典)的单词网络的一个路径计算出来的声学得分会变大。

更具体的说，就作为未知单词的语言L1和L2的单词的语音来讲，通过重复地穿越语言L1和L2的属性分支，并在穿过回路分支后，根据需要再次地穿越语言L1和L2的属性分支，可以得到的声学得分比按其他路径计算出的声学得分大。

当未知单词的声学得分变大时作为所用路径组成部分的属性分支使得到未知单词的语言成为可能。也就是说，如果作为路径组成部分的属性分支是语言L1或L2的属性分支，就可以估计出未知单词的语言是语言L1或L2。

因此，在这种情况下，例如，如果在数据库6中，除了如图6所示的单词词典以外，还预先为语言L1和L2中的每一个都预先存储了与图6的标准词典相似组织的单词词典；则在估计出未知单词是语言L1或L2之后，就将要使用的词典切换到估计语言的单词词典，并再一次进行得分计算，这样，就能够用估计语言对发言进行高精度的语音识别了。

在上述情况中，尽管对未知单词的语言做出了两种语言的估计，但是也可以做出只有一种语言、三种或更多语言的估计。

接着，可以用硬件进行、也可以由软件进行上述处理系列。当处理过程由软件进行时，要将构成软件的程序安装到一个通用计算机上。

相应地，图7显示了一个计算机实施例的结构的例子，其中安装了执行上述处理系列的程序。

程序可以事先记录在计算机中含有的作为记录介质的硬盘105和ROM103上。

作为替换，程序还可以临时或永久存储(记录)在一个可移动的记录介质111上，诸如一个软盘、一个CD-ROM(光盘只读存储器)、一个MO(磁光)盘、一个DVD(数字通用光盘)、一个磁盘或一个半导体存储器。可以将这种可移动记录介质111作为通常称之为为软件包的东西来提供。

除了例如从上述的一个可移动记录介质111安装到计算机上以外，也可以借助数字卫星广播使用的人造卫星从下载站点上用无线方式传送程序，或是借助网络用导线向计算机上传输程序，如LAN(局域网)或因特网；在计算机中，用这种方式传输的程序可以用通信部分108来接收，并能够安装在其中包含的硬盘105上。

计算机中含有一个CPU(中央处理单元)102。输入/输出接口110通过总线101与CPU 102相连。作为用户操作由键盘、鼠标、话筒等构成的输入部分107结果，当通过输入/输出接口110输入命令时，CPU 102就会根据命令执行存储在ROM(只读存储器)103中的程序。作为另一种选择，CPU 102也可以载入硬盘105中存储的一个程序，一个通过卫星或网络传输的程序，它由通信部分108接收并安装在硬盘105上；或一个从载入驱动109的可移动记录介质111中读到RAM(随即存取存储器)104中的程序，它安装在硬盘105上；并执行此程序。作为结果，CPU 102根据上述流程进行处理，或进行根据上述框图中的结构进行的处理。然后，CPU 102按要求，例如通过输入/输出接口110，从显示部分106输出处理结果，显示部分106由一个LCD(液晶显示器)、一个扬声器等构成；或是从通信部分108将处理结果传出，并在硬盘105中记录处理结果。

这里，在本技术说明书中，描述一个程序的处理步骤不需要必需按照流程图中的所述顺序的时间序列进行处理，此程序可以使计算机执行各种类型的处理过程，它还包括并行或独立(例如，并行处理或面向对象的处理)进行的处理。

而且，一个程序可以由一个计算机处理，也可以是由多个计算机用分布方式处理。此外，一个程序也可以传输到一个远程计算机上并执行。

尽管在本实施例中，使用了HMM作为声学模型，此外，也可以使用，例如基于神经网络的模型作为声学模型。

尽管在本实施例中，匹配部分4所用的单词词典中含有未知单词的词典，此词典中含有构成未知单词的未知单词构成元素，这些元素用来根据属性对未知单词进行分类。此外，例如，在进行通常称作初步选择过程的语音识别装置中，即为了匹配部分4进行的得分计算的目标初步选择一个或多个单词；初步选择使用的单词词典中可以含有未知单词的词典。

此外，在本实施例中，对于开始处其音素相同的单词，从开始音素到与开始音素相同的音素都使用共同的声学模型，对此后的音素使用各自的声学模型，从而形成一个整体为树形结构的网络，根据此网络，可以计算出声学得分。然而，也可以通过为每个单词单独连接声学模型，对每个单词进行独立的声学得分计算。

此外，在图4的实施例中，回路分支连接在通用分支上，通过重复地穿越通用分支，并在穿过回路分支后，根据需要再一次穿越通用分支，就能得到大到一定程度的声学得分。此外，对未知单词的词根来讲，例如，声学得分的计算可以用这种方式下的viterbi(维特比)方法进行，此种方式为：不使用回路分支而且串连连接所需数量的通用分支。对图6中的回路分支连接的属性分支使用同样的方式。

此外，尽管在本实施例中，英语为语音识别的对象，本发明还可以应用到除英语之外的语言对象进行语音识别的情况。

依据本发明的语音识别装置、语音识别方法和记录介质，在词典基础上使用特征计算得分，此词典中输入了未知单词构成元素和作为语音识别对象的单词，未知单词构成元素是构成未知单词的元素，可以用来根据属性对未知单词进行分类，并根据此得分选择代表语音识别结果的单词序列。这样，就使得估计诸如语音部分的未知单词的属性成为可能，因此，可以防止未知单词导致的语音识别精度的降低。

在不偏离本发明的精神实质和范围的情况下，可以构造本发明的许多不同的实施例。应该理解，本发明并不局限于本说明书中描述的具体实施例。相反地，本发明还包括如后附的权利要求书所确定的本发明的精神实质和范围内包括的各种修改和等价配置。以下权利要求书中的范围要符合最广泛的解释，以便囊括所有的修改、等价结构和功能。

Claims

1.一种语音识别装置，用来计算表示与输入语音的语音识别结果的相似度的得分，用来根据此得分对所述语音进行连续的语音识别，所述语音识别装置包括：

用来从所述语音中提取所述语音特征的提取设备；

在词典基础上使用所述特征来计算得分的计算设备，此词典中输入了未知单词构成元素和作为语音识别对象的单词，未知单词构成元素是构成未知单词的元素，并且包括属性分支，可以根据其属性对未知单词进行分类；

用来根据所述得分选择表示语音识别结果的所述单词序列的选择设备；

其中，在上述词典中输入了用来根据其语言对未知单词进行分类的未知单词构成元素。

2.根据权利要求1所述的语音识别装置，其特征在于，在所述词典中输入了作为未知单词构成元素的后缀。

3.根据权利要求2所述的语音识别装置，其特征在于，在所述词典中和所述后缀一起输入构成未知单词的音素。

4.一种语音识别方法，用来计算表示与输入语音的语音识别结果相似度的得分，用来根据此得分对上述语音进行连续的语音识别，上述语音识别方法包括以下步骤：

从所述语音中提取所述语音特征；

在词典基础上使用所述特征来计算得分，此词典中输入了未知单词构成元素和作为语音识别对象的单词，未知单词构成元素是构成未知单词的元素，并且包括属性分支，可以用来根据属性对未知单词进行分类；

在上述词典中输入用来根据其语言对未知单词进行分类的未知单词构成元素；

根据所述得分选择表示语音识别结果的单词序列。