CN1653518A

CN1653518A - 语音识别设备

Info

Publication number: CN1653518A
Application number: CNA038105667A
Authority: CN
Inventors: 宫崎敏幸
Original assignee: Asahi Kasei Kogyo KK
Current assignee: Asahi Kasei Corp
Priority date: 2002-05-10
Filing date: 2003-05-07
Publication date: 2005-08-10
Anticipated expiration: 2023-05-07
Also published as: EP1505573A1; KR100650473B1; JP4316494B2; KR20040102224A; EP1505573A4; US7487091B2; WO2003096324A1; AU2003235868A1; EP1505573B1; JPWO2003096324A1; CN1320520C; US20050203737A1; DE60323362D1

Abstract

提供一种能优选地用于减少用于与说话者无关的语音识别所需的存储容量的语音识别设备。匹配单元114将属于第一语音模型网络300的语音模型和无用信息模型350展开在RAM112中，以及将由语音模型抽取单元106抽取的语音参数提供给RAM112中的语音模型，当从无用信息模型350输出的出现概率等于或大于预定值时，匹配单元114基于从属于第一语音模型网络300的语音模型输出的出现概率，将属于任何一个语音模型组402的语音模型展开在RAM112中。

Description

语音识别设备

技术领域

本发明涉及基于用于与说话者无关的语音识别的语音模型来识别语音的系统，以及具体地说，涉及能优选地用于减少与说话者无关的语音识别所需的存储器容量的语音识别设备。

背景技术

通常，用于识别非特定人的语音的技术称为与说话者无关的语音识别，以及用于识别特定人的语音的技术称为与说话者相关的语音识别。

作为用于识别语音的一种方法，例如，使用通过用于每个音素的语音参数模型化的语音模型来识别语音，组成一个词的音素定义为语音单元。用词“Hokkaido”举例，用具有串联连接的九个音素“h”、“o”、“ts”、“k”、“a”、“i”、“d”、“o”和“u”的网络产生语音模型“Hokkaido”。另外，为识别另一词，诸如“Aomori”或“Akita”，应当准备匹配该词的语音模型。在与说话者无关的语音识别的情况下，用对许多人公用的语音参数来模型化这一语音模型。

作为用于使用音素的语音模型的用于与说话者无关的语音识别的技术，通常已知Hidden Markov Model(在下文中简称为HMM)，并在例如“Digital signal Processing of Speech/Sound Information”(Kiyohiro Shikano，Testu Nakamura和Shiro Ise共同拥有著作权，SHOKODO CO.，LTD.)中详细地描述。

将参考图7、8A和8B简单地描述用于通过HMM的与说话者无关的语音识别的方法。图7表示具有划分成预定段的音素的音素组。图8A和8B表示通过串联连接的音素的网络模型化的语音模型的原理。

根据HMM，在日语的情况下，首先使用元音、摩擦音、塞擦音、爆破音、半元音和鼻音的任何音素，通过串联连接的音素的网络组成一个词，如图7所示。产生匹配该词的状态转变以及对每种状态，指定表示转变到下一状态的概率的转变概率以及表示当转变到下一状态时，输出语音参数的概率的输出概率，由此产生语音模型。例如，通过按说话顺序，串联连接的九个音素的网络能模型化用于词“Hokkaido”的语音模型，如图8A所示。每个音素的HMM的状态转变如图8B所示。

在这里，图8B中的a(I，J)表示从状态I到状态J的转变概率，例如，该图中的a(1，1，)表示从状态1到状态1的转变概率。此外，b(I，x)表示当获得语音参数x时，状态I中的输出概率，以及该图中的b(1，x)表示当获得语音参数x时，状态1的输出概率。

此外，图8B中的p(I)表示状态I的概率，并用下述公式(1)表示。

P(I)＝max(p(I)×a(I，I)，p(I-1)×a(I-1，I))×b(I，X).......(1)

在上述公式(1)中，“max”是选择自变量的最大值的函数。

现在，参考图9将详细地描述使用类似此的多个语音模型来识别具有相对长的词序列的语音。其例子包括具有象地址等等链接的辖区的名称和城市、市镇或乡村的名称的词序列的语音识别。图9表示语音模型网络500的结构。

如图9所示，语音模型网络包括检测输入语音的不发声部分的停止(pose)、组合了能识别辖区名称的语音的多个语音模型的语音模型组504、组合了能识别辖区下各城市名称的语音的多个语音模型的语音模型组506、组合了能识别城市下行政区或城镇名称的语音的多个语音模型的语音模型组508、组合了能识别行政区或城镇下地区名称的多个语音模型的语音模型组510和检测输入语音的不发声部分的停止512。

语音模型组504组合了对应于辖区并能识别辖区名称的语音的语音模型，并链接到停止502。

语音模型组506组合了对应于城市并能识别城市名称的语音的语音模型，并链接到属于语音模型组504的语音模型。在图9的例子中，组合了能识别属于Kanagawa辖区的城市名称的语音的语音模型的语音模型组506被链接到属于能识别Kanagawa辖区的语音的语音模型组504的一个语音模型。

语音模型组508组合了对应于行政区或城镇并能识别这些行政区或城镇名称的语音的语音模型，并链接到属于语音模型组506的语音模型。在图9的例子中，组合了能识别属于Fujisawa市的城镇名称的语音的语音模型的语音模型组508链接到属于语音模型组506的一个语音模型，其能识别Fujisawa市的语音。

语音模型组510组合了对应于区域并能识别区域名称的语音的语音模型，并链接到属于语音模型组508的语音模型。在图9的例子中，组合了能识别属于北行政区的区域名称的语音的语音模型的语音模型组510链接到能识别北行政区的语音、属于语音模型组508的一个语音模型。

停止512链接到语音模型组508或语音模型组510。

此外，在这些链接关系中，当给定语音参数时，按停止502、语音模型组504、语音模型组506、语音模型组508、语音模型组510和停止512的顺序，或按停止502、语音模型组504、语音模型组506、语音模型组508和停止512的顺序，传播出现概率的变化。

用这种方式，对于与说话者无关的语音识别，预先准备多个语音模型，以及将语音模型存放在存储器，诸如RAM中以便识别语音。

然而，用这种方法，当链接词的数量增加时，词的数量随词组合在一起而剧增，因此，通过Viterbi算法等等的语音识别处理所需的存储器容量增加，以及在内置系统，诸如汽车导航中，构成系统的存储器容量也增加。例如，如果识别日本的地方名称，在能识别具有辖区名称其后跟随城市、城镇或乡村名称的词序列的语音的语音模型网络中，将要识别的词的数量约为3500，同时，在能识别具有辖区和城市、城镇或乡村名称其后跟随行政区、国家等等名称的词序列的语音模型网络中，要识别的词的数量大于几十万。

鉴于现有技术的未解决问题做出了本发明，本发明的目的在于提供能优选地用于降低与说话者无关的语音识别所需的存储器容量的语音识别设备。

发明内容

为实现上述目的，根据本发明第1方面的语音识别设备包括这样模型化的语音模型，以使得基于给定语音参数，将特定语音包括在输入语音中的概率输出为出现概率，以及当给定特定语音参数时出现概率增加，该设备从输入语音抽取语音参数，以及基于所抽取的语音参数和语音模型来识别语音，

其中，该设备包括用于展开语音模型的语音模型展开存储装置，

构成多个语音模型组，每个组组合了特定语音参数不同的多个语音模型，以及构成指定用于诸语音模型组的预定链接关系的语音模型网络，以及

与语音模型网络中的多个语音模型组具有链接关系的语音模型组被定义为主要语音模型组，以及与语音模型网络中的该主要语音模型组具有链接关系的语音模型组定义为辅助语音模型组；以及

当识别语音时，

这样模型化非特定语音识别语音模型，以使得当给定表示不同于能由属于主要语音模型组的语音模型识别的特定语音的语音的语音参数时，出现概率增加，以及属于主要语音模型组的语音模型被展开在语音模型展开存储装置中；以及

将从输入语音抽取的语音参数提供给语音模型展开存储装置中的语音模型，以及基于从属于主要语音模型组的语音模型输出的出现概率和从非特定语音识别语音模型输出的出现概率，使属于任何一个辅助语音模型组的语音模型展开在语音模型展开存储装置中。

利用该结构，当识别语音时，使非特定语音识别语音模型和属于主要语音模型组的语音模型展开在语音模型展开存储装置中，以及将从输入语音抽取的语音参数提供给语音模型展开存储装置中的语音模型。基于从属于主要语音模型组的语音模型输出的出现概率和从非特定语音识别语音模型输出的出现概率，使属于任何一个辅助语音模型组的语音模型展开在语音模型展开存储装置中。

在这里，主要语音模型组和辅助语音模型组可以具有任何链接关系，例如，可设想辅助语音模型组链接到主要语音模型组的后面的情形，或主要语音模型组链接到辅助语音模型组的后面的情形。在这里，后面是指相对于出现概率的改变被传播的方向的后面。这对主要语音模型组和非特定语音识别语音模型组的链接关系，或辅助语音模型组和非特定语音识别语音模型的链接关系成立。这在根据本发明第12方面的语音识别程序或根据本发明第14方面的语音识别方法中同样成立。

此外，在预定语音单元中模型化语音模型，该预定语音单元可以是一个音素或可以是一序列音素。这在根据本发明第2方面的语音识别设备、本发明第12和第13方面的语音识别程序以及根据本发明第14和第15方面的语音识别方法中同样成立。

此外，语音模型展开存储装置通过任何方法以及在任何时间存储语音模型，以及可以预先存储语音模型，或在不预先存储语音模型的情况下于操作主设备期间，可以存储通过从外部输入的语音模型，等等。这在根据本发明第2方面的语音识别设备、本发明第12和第13方面的语音识别程序以及本发明第14和第15方面的语音识别方法中同样成立。

此外，根据本发明第2方面的语音识别设备包括这样模型化的语音模型，以使得基于给定语音参数，将特定语音包括在输入语音中的概率输出为出现概率，以及当给定特定语音参数时出现概率增加，该设备从输入语音抽取语音参数，以及基于所抽取的语音参数和语音模型来识别语音，

其中，该设备包括：

第一语音模型组，其组合了特定语音参数不同的多个语音模型；

第二语音模型组，其组合了特定语音参数的多个语音模型且与属于第一语音模型组的任何语音模型具有链接关系；

第三语音模型组，其组合了特定语音参数不同的多个语音模型且与属于第一语音模型组的任何其他语音模型具有链接关系；

这样模型化的非特定语音识别语音模型，以使得当给定表示不同于能由属于第一语音模型组的语音模型识别的特定语音的语音的语音参数时，出现概率增加；

用于展开语音模型的语音模型展开存储装置；

用于从输入语音抽取语音参数的语音参数抽取装置；以及

语音识别装置，用于基于属于第一语音模型组、第二语音组和第三语音模型组的语音模型、以及由语音参数抽取装置抽取的语音参数来识别语音；以及

语音识别装置将属于第一语音模型组和非特定语音识别语音模型的语音模型展开在语音模型展开存储装置中，将由语音参数抽取装置抽取的语音参数提供给语音模型展开存储装置中的语音模型，以及基于从属于第一语音模型组的语音模型输出的出现概率和从非特定语音识别语音模型输出的出现概率，将属于第二语音模型组和第三语音模型组中任何一个的语音模型展开在语音模型展开存储装置中。

通过这种结构，当从人输入语音时，由语音参数抽取装置从输入语音抽取语音参数。通过语音识别装置，使属于第一语音模型组的语音模型和非特定语音识别语音模型展开在语音模型展开存储装置中，以及将所抽取的参数提供给语音模型展开存储装置中的语音模型。基于从属于第一语音模型组的语音模型输出的出现概率以及从非特定语音识别语音模型输出的出现概率，属于第二语音模型组和第三语音模型组中任何一个的语音模型被展开在语音模型展开存储装置中。

在这里，第一语音模型组、第二语音模型组和第三语音模型组可以具有任何链接关系，例如，可想到将第二语音模型组和第三语音模型组链接到第一语音模型组的后面的情形，或将第一语音模型组链接到第二语音模型组和第三语音模型组后面的情形。在这里，后面是指相对于出现概率的改变被传播的方向的后面。这对第一语音模型组和非特定语音识别语音模型的链接关系，或第二语音模型组和第三语音模型组和非特定语音识别语音模型的链接关系成立。

此外，根据本发明第3方面的语音识别设备是根据本发明第2方面的语音识别设备，其中，语音识别装置将由语音参数抽取装置抽取的语音参数提供给语音模型展开存储装置中的语音模型，以及当从非特定语音识别语音模型输出的出现概率等于或大于预定值，基于从属于第一语音模型组的语音模型输出的出现概率，将属于第二语音模型组和第三语音模型组中任何一个的语音模型展开在语音模型展开存储装置中。

利用该结构，通过语音识别装置，将所抽取的语音参数提供给语音模型展开存储装置中的语音模型。当从非特定语音识别语音模型输出的出现概率等于或大于预定值时，基于从属于第一语音模型组的语音模型输出的出现概率，使属于第二语音模型组和第三语音模型组中任何一个的语音模型展开在语音模型展开存储装置中。

另外，根据本发明第4方面的语音识别设备是如本发明第二和第3方面的任何一个的语音识别设备，其中，语音识别装置将由语音参数抽取装置抽取的语音参数提供给语音模型展开存储装置中的语音模型，以及当从非特定语音识别语音模型输出的出现概率等于或大于预定值，从语音模型展开存储装置移出属于第一语音模型组的语音模型和非特定语音识别语音模型，以及基于从属于第一语音模型组的语音模型输出的出现概率，将属于第二语音模型组和第三语音模型组中任何一个的语音模型展开在语音模型展开存储装置中。

利用该结构，通过语音识别装置将所抽取的语音参数提供给语音模型展开存储装置中的语音模型。当从非特定语音识别语音模型输出的出现概率等于或大于预定值时，从语音模型展开存储装置移出属于第一语音模型组和非特定语音识别语音模型的语音模型，并基于从属于第一语音模型组的语音模型输出的出现概率，使属于第二语音模型组和第三语音模型组中任何一个的语音模型展开在语音模型展开存储装置中。

另外，根据本发明第5方面的语音识别设备是如本发明第3和第4方面的任何一个的语音识别设备，

其中，非特定语音识别语音模型链接到属于第一语音模型组的语音模型；以及

当给定语音参数时，按第一语音模型组的语音模型和非特定语音识别语音模型的顺序，传播出现概率的变化。

利用该结构，通过语音识别装置将所抽取的语音参数提供给语音模型展开存储装置中的语音模型。因此，按第一语音模型组的语音模型和非特定语音识别语音模型的顺序，传播出现概率的变化。

另外，根据本发明第6方面的语音识别设备是如本发明第5方面的语音识别设备，

其中，该设备进一步包括用于存储语音参数的语音参数存储装置，

语音参数抽取装置从输入语音抽取语音参数，以及按预定顺序将所抽取的语音参数存储在语音参数存储装置中；以及

语音识别装置按预定顺序从语音参数存储装置读取语音参数，以及将所读取的语音参数提供给语音模型展开存储装置的语音模型，以及当从非特定语音识别语音模型输出的出现概率等于或大于预定值时，基于从属于第一语音模型组的语音模型输出的出现概率，将属于第二语音模型组和第三语音模型组中任何一个的语音模型展开在语音模型展开存储装置中，按与预定顺序相反的顺序，使语音参数存储装置中的语音参数的读位置移回预定的数，按预定顺序从读位置读取语音参数，以及将所读取的语音参数提供给语音模型展开存储装置中的语音模型。

利用该结构，当从人输入语音时，通过语音参数抽取装置从输入语音抽取语音参数，以及按预定顺序将所抽取的语音参数存储在语音参数存储装置中。通过语音识别装置，按预定顺序从语音参数存储装置读取语音参数，以及将所读取的语音参数提供给语音模型展开存储装置中的语音模型。当从非特定语音识别语音模型输出的出现概率等于或大于预定值时，基于从属于第一语音模型组的语音模型输出的出现概率，使属于第二语音模型组和第三语音模型组中任何一个的语音模型展开在语音模型展开存储装置中。按与预定顺序相反的顺序，使语音参数存储装置中的语音参数的读位置返回预定数，按预定顺序从读位置读取语音参数，以及将所读取的语音参数提供给语音模型展开存储装置中的语音模型。

在这里，语音参数存储装置通过任何方法和在任何时间存储语音参数，以及可以预先存储语音模型，或在不预先存储语音参数的情况下于操作主设备期间，可以存储通过从外部输入的语音参数，等等。

此外，根据本发明第7方面的语音识别设备是如本发明第6方面的语音识别设备，其中，语音识别装置将来自第一语音模型组、出现概率最高的语音模型指定为识别语音模型，使属于与识别语音模型具有链接关系的第二语音模型组和第三语音模型组中一个的语音模型展开在语音模型展开存储装置中，计算出现概率的变化从识别语音模型传播到非特定语音识别语音模型为止所需的时间，以及按相当于所需的时间的数返回语音参数存储装置中语音参数的读位置。

利用该结构，通过语音识别装置，将来自第一语音模型组、出现概率最高的语音模型指定为识别语音模型，以及使属于与识别语音模型具有链接关系的第二语音模型组和第三语音模型组中一个的语音模型展开在语音模型展开存储装置中。计算出现概率的变化从识别语音模型传播到非特定语音识别模型为止所需的时间，以及按对应于所需时间的数返回语音参数存储装置中的语音参数的读位置。

此外，根据本发明第8方面的语音识别设备是如本发明第7方面的语音识别设备，其中，语音识别装置按相当于所需时间的数，使语音参数存储装置中的语音参数的读位置从指定识别语音模型时的读位置返回。

利用该结构，通过语音识别装置，按对应于所计算的所需时间的数，使语音参数存储装置中的语音参数的读位置从指定识别语音模型时的读位置返回。

另外，根据本发明第9方面的语音识别设备是如本发明第2-8方面中的任何一个的语音识别设备的一个实施例，

其中，代替属于第二语音模型组和第三语音模型组的语音模型，表示能由语音模型识别的特定语音的发音的发音表示字符串存储在语音模型展开存储装置中，以及按等于属于第二语音模型组的语音模型的数量和属于第三语音模型组的语音模型的数量中较大的一个的数，将能够基于发音表示字符串构成的语音模型的语音模型模板存储在语音模型展开存储装置中，

如果属于第二语音模型组和第三语音模型组中任一个的语音模型展开在语音模型展开存储装置中，语音识别装置基于语音模型展开存储装置中的、相应于将被展开在语音模型展开存储装置中的语音模型的发音表示字符串，由语音模型展开存储装置中的语音模型模板来构成语音模型。

利用该结构，如果通过语音识别装置，将属于第二语音模型组和第三语音模型组中任一个的语音模型展开在语音模型展开存储装置中，通过语音识别装置，基于语音模型展开存储装置中的、相应于将被展开在语音模型展开存储装置中的语音模型的发音表示字符串，由语音模型展开存储装置中的语音模型模板中构成语音模型。

另外，根据本发明第10方面的语音识别设备是如本发明第2-9方面中的任何一个的语音识别设备，其中，语音识别装置将来自第一语音模型组、出现概率最高的语音模型指定为第一识别语音模型，将展开在语音模型展开存储装置中、来自第二语音模型组和第三语音模型组的语音模型、出现概率最高的语音模型指定为第二识别语音模型，以及确定第二识别语音模型的特定语音与第一识别语音模型的特定语音的结合包括在输入语音中。

利用该结构，通过语音识别装置，将来自第一语音模型组、出现概率最高的语音模型指定为第一识别语音模型，以及将展开在语音模型展开存储装置中、来自第二语音模型组和第三语音模型组的语音模型、出现概率最高的语音模型指定为的第二识别语音模型。确定第二识别语音模型的特定语音与第一识别语音模型的特定语音的结合包括在输入语音中。

另外，根据本发明第11方面的语音识别设备是如本发明第2-第10方面中的任何一个的语音识别设备，其中，非特定语音识别语音模型是无用信息模型。

利用该结构，当从人输入语音时，通过语音参数抽取装置从输入语音抽取语音参数。通过语音识别装置，使属于第一语音模型组的语音模型和无用信息模型展开在语音模型展开存储装置中，以及将所抽取的语音参数提供给语音模型展开存储装置中的语音模型。基于从属于第一语音模型组的语音模型输出的出现概率和从无用信息模型输出的出现概率，使属于第二语音模型组和第三语音模型组中任何一个的语音模型展开在语音模型展开存储装置中。

为实现上述目的，根据本发明第12方面的语音识别程序使用这样模型化的语音模型，以使得基于给定语音参数，将特定语音包括在输入语音中的概率输出为出现概率，以及当给定特定语音参数时出现概率增加，该程序从输入语音抽取语音参数，以及基于所抽取的语音参数和语音模型来识别语音，

其中，该程序使包括用于展开语音模型的语音模型展开存储装置的计算机执行处理，

其中，构成多个语音模型组，每个组组合了特定语音参数不同的多个语音模型，以及构成指定用于语音模型组的预定链接关系的语音模型网络，以及

与语音模型网络中的多个语音模型组具有链接关系的语音模型组被定义为主要语音模型组，以及与语音模型网络中的主要语音模型组具有链接关系的语音模型组定义为辅助语音模型组；以及

当识别语音时，

这样模型化非特定语音识别语音模型，以使得当给定表示不同于能由属于主要语音模型组的语音模型识别的特定语音的语音的语音参数时，出现概率增加，以及属于主要语音模型组的语音模型展开在语音模型展开存储装置中；以及

将从输入语音抽取的语音参数提供给语音模型展开存储装置中的语音模型，以及基于从属于主要语音模型组的语音模型输出的出现概率和从非特定语音识别语音模型输出的出现概率，使属于辅助语音模型组的任何一个的语音模型展开在语音模型展开存储装置中。

利用该结构，如果由计算机读取该程序以及计算机根据所读取的程序执行处理，获得与根据本发明第1方面的语音识别设备同等的作用。

另外，根据本发明第13方面的语音识别程序使用这样模型化的语音模型，以使得基于给定语音参数，将特定语音包括在输入语音中的概率输出为出现概率，以及当给定特定语音参数时出现概率增加，该程序从输入语音抽取语音参数，以及基于所抽取的语音参数和语音模型来识别语音，

其中，该程序使计算机能使用：

第二语音模型组，其组合了特定语音参数不同的多个语音模型且与属于第一语音模型组的任何语音模型具有链接关系；

语音模型展开存储装置，用于展开语音模型，

从而执行作为以下装置实现的处理：用于从输入语音抽取语音参数的语音参数抽取装置，以及，用于基于属于第一语音模型组、第二语音模型组和第三语音模型组的语音模型以及由语音参数抽取装置抽取的语音参数来识别语音的语音识别装置；以及

语音识别装置将属于第一语音模型组的语音模型和非特定语音识别模型展开在语音模型展开存储装置中，将由语音参数抽取装置抽取的语音参数提供给语音模型展开存储装置中的语音模型，以及基于从属于第一语音模型组的语音模型输出的出现概率和从非特定语音识别语音模型输出的出现概率，将属于第二语音模型组和第三语音模型组中任何一个的语音模型展开在语音模型展开存储装置中。

利用该结构，如果由计算机读取该程序以及计算机根据所读取的程序执行处理，将获得与根据本发明第2方面的语音识别设备同等的作用。

为实现上述目的，根据本发明第14方面的语音识别方法使用这样模型化的语音模型，以使得基于给定语音参数，将特定语音包括在输入语音中的概率输出作为出现概率，以及当给定特定语音参数时出现概率增加，该方法从输入语音抽取语音参数，以及基于所抽取的语音参数和语音模型来识别语音，

当识别语音时，

这样模型化非特定语音识别语音模型，以使得当给定表示不同于能由属于主要语音模型组的语音模型识别的特定语音的语音的语音参数时，出现概率增加，以及将属于主要语音模型组的语音模型展开在语音模型展开存储装置中；以及

根据本发明第15方面的语音识别方法使用这样模型化的语音模型，以使得基于给定的语音参数，将特定语音包括在输入语音中的概率输出作为出现概率，以及当给定特定语音参数时出现概率增加，该方法从输入语音抽取语音参数，以及基于所抽取的语音参数和语音模型来识别语音，

其中，该方法使用：

该方法包括：

用于从输入语音抽取语音参数的语音参数抽取步骤；以及

语音识别步骤，用于基于属于第一语音模型组、第二语音组和第三语音模型组的语音模型以及在语音参数抽取步骤中抽取的语音参数来识别语音；以及

在语音识别步骤中，这样模型化非特定语音识别语音模型，以使得当给定表示不同于能由属于第一语音模型组的语音模型识别的特定语音的语音的语音参数时，出现概率增加，将属于第一语音模型组的语音模型展开在语音模型展开存储装置中，将在语音参数抽取步骤中抽取的语音参数提供给语音模型展开存储装置中的语音模型，以及基于从属于第一语音模型组的语音模型输出的出现概率和从非特定语音识别语音模型输出的出现概率，将属于第二语音模型组和第三语音模型组中任何一个的语音模型展开在语音模型展开存储装置中。

附图说明

图1是表示语音识别设备100的结构的框图；

图2A和2B表示用串联链接的音素的网络模型化的语音模型的原理，其中，图2A表示具有串联链接的音素的词语音模型，以及图2B表示每个音素的HMM状态转变；

图3表示第一语音模型网络300的结构；

图4表示无用信息模型(garbage model)350的结构；

图5表示第二语音模型网络400的结构；

图6是表示语音模型网络间的转变时序的时间图；

图7表示分成预定段的音素组；

图8A和8B表示通过串联链接的音素的网络模型化的语音模型的原理，其中图8A表示通过串联链接的音素的网络在男人和女人间共享的词语音模型，以及图8B表示每个音素的HMM状态转变；以及

图9表示语音模型网络500的结构。

具体实施方式

下面，将参考附图来描述本发明的第一实施例。图1、2A和2B以及图3-6表示根据本发明的语音识别设备的第一实施例。

在该实施例中，根据本发明的语音识别设备应用于使用具有链接的多个语音模型的语音模型网络来识别相对长的词序列，诸如地址的语音，如图1所示。

首先，将参考图1描述语音识别设备1的结构。图1是表示语音识别设备100的结构的框图。

语音识别设备100与包括通过总线连接到其上的CPU、ROM、RAM、I/F等等的通用计算机具有相同的功能，并且包括麦克风102、A/D转换来自麦克风102的输入语音的A/D转换器104、从由A/D转换器104转换的语音数据抽取语音参数的语音参数抽取单元106、存储由语音参数抽取单元106抽取的语音参数的环形缓冲器108、存储语音模型的语音模型存储单元110、用于展开(spread)语音模型存储单元110中的语音模型的RAM 112、匹配单元114、存储语音参数抽取单元106和匹配单元114的程序等等的ROM 116，以及输出匹配单元114的识别结果的输出单元118，如图1所示。

环形缓冲器108具有用于存储语音参数的预定存储区。在写入环形缓冲器108中时，将由语音参数抽取单元106抽取的语音参数写入用写指针表示的地址，以及使写指针递增1。然而，当写指针到达存储区末端的地址时，将写指针设定为头端的地址。通过重复此操作，按从语音参数抽取单元106抽取的顺序，将语音参数循环地写入环形缓冲器108。由语音参数抽取单元106控制写指针。

此外，在从环形缓冲器108读取时，从由读指针表示的地址读取语音参数，以及使读指针递增1。然而，当读指针到达存储区末端的地址时，将读指针设置为头端的地址。通过重复此操作，按写入环形缓冲器108的顺序，从环形缓冲器108循环地读取语音参数。由匹配单元114控制读指针并调整该读指针以便不超过写指针。

语音模型存储单元110存储这样模型化的语音模型，以使得基于给定语音参数，将特定语音包括在输入语音中的概率输出作为出现概率，以及当给定特定的语音参数时出现概率增加。

参考图2A和2B，简单地描述用于通过HMM的与说话者无关的语音识别方法。图2A和2B表示通过串联链接的音素的网络模型化的语音模型的原理。

根据HMM，在日语的情况下，首先通过使用元音、摩擦音、塞擦音、爆破音、半元音和鼻音的任何音素串联链接的音素网络组成一个词。创建匹配该词的状态转变以及对每个状态，指定表示转变到下一状态的概率的转变概率，以及表示当转变到下一状态时输出语音参数的概率的输出概率，由此创建语音模型。例如，能通过按图2A所示的说话顺序串联连接的九个音素的网络模型化用于词“Hokkaido”的语音模型。每个音素的HMM的状态转变如图2B所示。

在这里，图2B中的a(I，J)表示从状态I到状态J的转变概率，例如，该图中的a(1，1)表示从状态1到状态1的转变概率。此外，b(I，x)表示当获得语音参数x时，状态I中的输出概率，以及该图中的b(1，x)表示当获得语音参数x时，状态1的输出概率。

此外，图2B中的p(I)表示状态I的概率，并用上述公式(1)表示。

如果使用类似此的多个语音模型来识别具有连接成象地址等等的辖区名称和城市、城镇或乡村的名称的词序列的语音，则建立具有链接的多个语音模型化的语音模型网络。

在这一实施例中，通过展开在RAM 112上的单元创建语音模型网络，以及该网络包括第一语音模型网络300和第二语音模型网络400。第二语音模型网络400逻辑地链接到第一语音模型网络300的后面。在这里，后面是指相对于出现概率改变的传播方向的后面。

参考图3详细描述第一语音模型网络300的结构。图3表示第一语音模型网络300的结构。

如图3所示，第一语音模型网络300包括：检测输入语音的不发声部分的停止302、组合了能识别辖区名称的语音的多个语音模型的语音模型组304、组合了能识别辖区下城市名称的语音的多个语音模型的语音模型组306和组合了能识别城市下的行政区或城镇名称的语音的多个语音模型的语音模型组308。

语音模型组304组合了对应于辖区并能识别辖区名称的语音模型，并链接到停止302。

语音模型组306组合了对应于城市并能识别城市名称的语音模型，并链接到属于语音模型组304的每个语音模型。在图3的例子中，将组合了能识别属于Kanagawa辖区的城市名称的语音的语音模型的语音模型组306链接到属于语音模型组304的一个语音模型，其能识别Kanagawa辖区的语音。

语音模型组308组合了对应于行政区或城镇并能识别行政区或城镇名称的语音的语音模型，并链接到属于语音模型组306的语音模型。在图3的例子中，组合了能识别属于Fujisawa市的城镇名称的语音的语音模型的语音模型组308链接到属于语音模型组306的一个语音模型，其能识别Fujisawa市的语音。

此外，无用信息模型350链接到第一语音模型网络300的后面。模型化无用信息模型350，以便当给定表示不同于能由属于语音模型组304、语音模型组306和语音模型组308的语音模型识别的特定语音的语音的语音参数时，出现概率增加，该无用信息模型链接到语音模型组306或语音模型组308。无用信息模型350是用于未知冗余词的填充符模型，并具有这样的特性，即，如果说出不存在于语音模型网络中的任何路径上所存在的一系列语音模型(在下文中，称为标签序列(label sequence))中的词，则出现概率(似然性)增加。例如，图4所示的例子表示仅识别辖区名称的语音模型组，以及相对于辖区名称前的冗余词，诸如“anoh”或“sonoh”，提高了识别辖区名称的速率。对于无用信息模型350的说明，参见现有的文献“H.Boulard，B.D′hoore和J.-Bolite，“Optimizing recognition and RejectionPerformance in Wordspotting Systems””，Porc.ICASSP，Adelaide，Austria，pp.I-373-376，1994。

此外，在这些链接关系中，当给定语音参数时，按停止302、语音模型组304、语音模型组306、语音模型组308和无用信息模型350的顺序，或按停止302、语音模型组304、语音模型组306和无用信息模型350的顺序，传播出现概率的变化。

现在，将参考图5详细地描述第二语音模型网络400的结构。图5表示第二语音模型网络400的结构。

如图5所示，第二语音模型网络400包括组合了能识别行政区或城镇的区域名称的多个语音模型的语音模型组以及用于检测输入语音的不发声部分的停止404。

语音模型组402组合了对应于区域并能识别区域名称的语音的语音模型，并链接到无用信息模型350。在图5的例子中，组合了能识别属于北行政区的区域名称的语音的语音模型的语音模型组402链接到无用信息模型350。

停止404链接到语音模型组402。

现在，将描述匹配单元114的结构。

匹配单元1-4从语音模型存储单元110读取属于第一语音模型网络300的语音模型和无用信息模型350，以及将所读取的语音模型和无用信息模型350展开在RAM 112中。

然后，从由环形缓冲器108的读指针表示的地址读取语音参数，以及使读指针递增1。然而，当读指针达到存储区未端的地址时，将读指针设置为头端的地址。

然后，将所读取的语音参数提供给RAM 112中的语音模型。当从无用信息模型350输出的出现概率等于或大于预定值时，将出现概率的积分值最高的标签序列识别为来自第一语音模型网络300的第一识别语音模型。

然后，从RAM 112移出属于第一语音模型网络300的语音模型和无用信息模型350，从语音模型存储单元110读取将链接到第一识别语音模型的末端的语音模型组402的语音模型和停止404，以及将所读取的语音模型和停止404展开在RAM 112中。

然后，计算直到出现概率的变化从第一识别语音模型传播到无用信息模型350所需的时间，以及按对应于所计算的所需时间的数，返回环形缓冲器108中的语音参数的读指针。然而，当读指针达到存储区的头端的地址时，将读指针设置成末端的地址。

从由环形缓冲器108中的读指针表示的地址读取语音参数，以及将所读取的语音参数提供给RAM 112中的语音模型。因此，将出现概率的积分值最高的语音模型指定为来自语音模型组402的第二识别语音模型，以及确定第二识别语音模型的特定语音与第一识别语音模型的特定语音的结合包括在输入语音中。

现在，将参考图6描述这一实施例的操作。图6是表示语音模型网络间的转换的时序的时间图。

在这里，将以用在汽车导航等等中的相对长的词序列，诸如地址的语音识别为例描述该操作。

为识别语音，通过匹配单元114，从语音模型存储单元110读取属于第一语音模型网络300的语音模型以及无用信息模型350，以及将所读取的语音模型和无用信息模型350展开在RAM 112中。

在这种状态下，当从麦克风102输入来自人的语音时，由A/D转换器104对来自麦克风102的输入语音进行A/D转换，由语音参数抽取单元106从由A/D转换器104转换的语音数据抽取语音参数，以及将所抽取的语音参数写入环形缓冲器108中由写指针表示的地址中。用这种方式，按从语音参数抽取单元106抽取的顺序，循环地将语音参数写入环形缓冲器108。

然后，通过匹配单元114，从环形缓冲器108中由读指针表示的地址读取语音参数，以及使读指针递增1。此时，当读指针达到存储区的末端的地址时，将读指针设置成头端的地址。

然后，将所读取的语音参数提供给RAM 112中的语音模型。当从无用信息模型350输出的出现概率等于或大于预定值时，将出现概率的积分值最高的标签序列指定为来自第一语音模型网络300的第一识别语音模型。在图6的例子中，当从人输入语音“KanagawakenFujisawashi Mirokuji”时，将能识别特定语音“Kanagawaken”的语音模型指定为语音模型组304中的第一识别语音模型，以及将能识别特定语音“Fujisawashi”的语音模型指定为语音模型组306中的第一识别语音模型。

然后，从RAM 112移出属于第一语音模型网络300的语音模型和无用信息模型350，从语音模型存储单元110读取属于将链接到第一识别语音模型末端的一个语音模型组402的语音模型和停止404，以及将所读取的语音模型和停止404展开在RAM 112中。在图6的例子中，组合了能识别Fujisawa市下的区域名称的多个语音模型的语音模型组402链接到第一识别语音模型的末端，因此，读取这样一个语音模型组402。

然后，计算出现概率的变化从第一识别语音模型传播到无用信息模型350所需的时间，以及按对应于所计算的所需时间的数，返回环形缓冲器108中的语音参数的读指针。此时，当读指针到达存储区的头端的地址时，将读指针设置成末端的地址。返回读指针的目的是降低直到无用信息模型350的出现概率变得等于预定值为止的延迟时间的影响。在图6的例子中，使读指针递减1作为回溯帧数。

从由环形缓冲器108中的读指针表示的地址读取语音参数，以及将所读取的语音参数提供给RAM 112中的语音模型。因此，将出现概率的积分值最高的语音模型指定为来自语音模型组402的第二识别语音模型。在图6所示的例子中，当从人输入语音“KanagawakenFujisawashi Mirokuji”时，将能识别特定语音“Mirokuji”的语音模型指定为第二语音模型组402中的第二识别语音模型。当指定第一识别语音模型和第二识别语音模型时，确定第二识别语音模型的特定语音与第一识别语音模型的特定语音的结合包括在输入语音中。即，确定语音“Kanagawaken Fujisawashi Mirokuji”包括在输入语音中。

(实例)

现在，将描述本发明的实例。

能识别约3500个词的语音的语音模型包括在第一语音模型网络300中，以及组合了能识别最多约1000个词的语音的语音模型的语音模型组402包括在第二语音模型网络400中。

如果属于第一语音模型网络300和第二语音模型网络400的所有语音模型都展开在RAM 112中以便如在传统的技术中那样识别语音，则用于展开语音模型所需的存储容量为约20(MByte)，以及用于通过Viterbi算法等的语音识别处理所需的存储容量约为1(Mbyte)，这导致耗费总共21(Mbyte)的存储容量。

另一方面，如在本发明中那样，如果属于第一语音模型网络300的语音模型和无用信息模型350展开在RAM 112中以便识别前级(pre-stage)中的语音，移出它们，然后使属于第二语音模型网络400的语音模型展开在RAM 112中以便识别后级(post-stage)中的语音，则用于展开语音模型所需的存储容量约为1.4(MByte)，以及用于通过Viterbi算法等等的语音识别处理所需的存储容量约为0.5(MByte)，这导致耗费总共1.9(Mbyte)的存储容量。因此，与传统技术相比，减少了91％的所需存储容量。

用这种方式，在该实施例中，匹配单元114将属于第一语音模型网络300的语音模型和无用信息模型350展开在RAM 112中，将由语音参数抽取单元116抽取的语音参数提供给RAM 112中的语音模型，以及基于从属于第一语音模型网络300的语音模型输出的出现概率以及从无用信息模型350输出的出现概率，将属于任何一个语音模型组402的语音模型展开在RAM 112中。

用这种方式，即使使用具有链接关系的多个语音模型组识别语音，也不需要展开用于所有语音模型组402的语音模型，但应当将用于语音模型组402中任何一个的语音模型展开在RAM 112中，从而与传统技术相比可以减少用于识别语音所需的存储容量。

另外，在该实施例中，匹配单元114将由语音参数抽取单元106抽取的语音参数提供给RAM 112中的语音模型，以及当从无用信息模型350输出的出现概率等于或大于预定值时，匹配单元114从RAM112移出属于第一语音模型网络300的语音模型和无用信息模型350，以及基于从属于第一语音模型网络300的语音模型输出的出现概率，使属于的任何一个语音模型组402语音模型展开在RAM 112中。

用这种方式，由于属于任何一个语音模型组402的语音模型展开在RAM 112中，从RAM 112中移出属于第一语音模型网络300的语音模型和无用信息模型350，从而使得减少识别语音所需的存储容量成为可能。

另外，在该实施例中，无用信息模型350链接到属于第一语音模型网络300的语音模型，以及当给定语音参数时，按第一语音模型网络300的语音模型和无用信息模型350的顺序，传播出现概率的变化。

用这种方法，当使用具有顶层处为第一语音模型网络300的分层链接关系的多个语音模型组时，能减少所需存储容量。例如，当如在该实施例中，识别用在汽车导航等等中的相对长的词序列，诸如地址等等的语音时，这很有利。

另外，在该实施例中，语音参数抽取单元106从输入语音抽取语音参数，以及按预定顺序，将所抽取的语音参数存储在环形缓冲器108中，匹配单元114按预定顺序从环形缓冲器108读取语音参数，以及将所读取的语音参数提供给RAM 112中的语音模型，以及当从无用信息模型350输出的出现概率等于或大于预定值时，匹配单元114基于从属于第一语音模型网络300的语音模型输出的出现概率，将属于任何一个语音模型组402的语音模型展开在RAM 112中，按与预定顺序相反的顺序，将环形缓冲器108中的语音参数的读指针按预定数返回，按预定顺序从读指针读取语音参数，以及将所读取的语音参数提供给RAM 112中的语音模型。

用这种方式，需要一些延迟时间，直到无用信息模型350的出现概率变得等于预定值为止，因此，通过返回环形缓冲器108中的读指针，能减少延迟时间的影响，以便当使用属于任何一个语音模型组402的语音模型来识别语音时，能相当准确地识别语音。

另外，在该实施例中，匹配单元114将来自第一语音模型网络300、出现概率最高的标签序列识别为第一识别语音模型，使属于与第一识别语音模型具有链接关系的一个语音模型组402的语音模型展开在RAM 112中，计算从出现概率的变化从第一识别语音模型传播到无用信息模型350所需的时间，以及按对应于所需时间的数，返回环形缓冲器108中的语音参数的读指针。

用这种方式，按对应于所花时间的数返回语音模型的读指针，直到出现概率的变化从第一识别语音模型传播到无用信息模型350为止，因此，能进一步减少延迟时间的影响，以便当使用属于任何一个语音模型组402的语音模型识别语音时，可更准确地识别语音。

另外，在该实施例中，匹配单元114按对应于所需时间的数，使环形缓冲器108中的语音参数的读指针从指定第一识别语音模型时的读指针返回。

用这种方式，相对于指定第一识别语音模型时的读指针，按对应于所花时间的数返回语音参数的读指针，直到出现概率的变化从第一识别语音模型传播到无用信息模型350为止。因此，能进一步减少延迟时间的影响，以便当使用属于任何一个语音模型组402的语音模型识别语音时，更准确地识别语音。

在上述第一实施例中，语音参数抽取单元106相当于根据本发明第2、3、4、6或13方面的语音参数抽取设备，通过语音参数抽取单元106抽取相当于根据本发明第15方面的语音参数抽取步骤，以及环形缓冲器108相当于根据本发明第6、7或8方面的语音参数存储设备。此外，RAM 112对应于根据本发明第1、2、3、4、6、7、10、12、13、14或15方面的语音模型展开存储装置，以及匹配单元114相当于本发明第2、3、4、6、7、8、10或13方面的语音识别装置。

此外，在上述第一实施例中，第一语音模型网络300和第二语音模型网络400相当于本发明第1、12或14方面的语音模型网络，以及语音型组306或语音模型组308相当于根据本发明第1、12或14方面的主语音模型组，或根据本发明第2、3、4、5、6、7、10、13或15方面的第一语音模型组。此外，无用信息模型350相当于根据本发明第1、2、3、4、5、6、7、11、12、13、14或15方面的非特定语音识别语音模型，以及语音模型组402相当于本发明第1、12或14方面的辅助语音模型组、根据本发明第2、3、4、6、7、10、13或15方面的第二语音模型组，或根据本发明第2、3、4、6、7、10、13或15方面的第三语音模型组。

现在，将描述本发明的第二实施例。

在该实施例中，如图1所示，根据本发明的语音识别设备应用于使用具有链接到其上的多个语音模型的语音模型网络来识别相对长的词序列，诸如地址的语音，以及不同于第一实施例之处在于根据语音模型模板来构成语音模型。

在语音模型存储单元110中，代替属于语音模型组402的语音模型，存储表示能由语音模型识别的特定语音的发音的假名字符串，以及能基于假名字符串构成语音模型的语音模型模板被存储在属于语音模型组402的多个语音模型中。

匹配单元114从语音模型存储单元110读取属于第一语音模型网络300的语音模型、无用信息模型350、假名字符串和语音模型模板，以及使读取的语音模型、无用信息模型350、假名字符串和语音模型模板存储在RAM 112中。

然后，如果属于任何一个语音模型组402的语音模型展开在RAM112中，基于RAM 112中的、对应于将展开在RAM 112中的语音模型的假名字符串，由RAM 112中的语音模型模板来构成语音模板。

如果使用HMM识别语音，最后要求将希望识别的词，例如“Hokkaido”转换成HMM序列。在这种情况下，首先将“Hokkaido”转换成音素序列“h，q，ts，k，a，i，d，o，u”。然后，可以将音素序列“h，q，ts，k，a，i，d，o，u”进一步划分成更精确的音素序列，但最后，产生对应于各个音素序列的HMM序列。

在图2A和2B所示的例子中，向每个音素序列指定3个HMM状态。即，这意味着“Hokkaido”的字符数据具有9(音素序列)×3(状态数)＝27个状态。如果用一半大小的字符表示，“Hokkaido”等于6(Byte)的数据。如果每个用2(Byte)表示，HMM的每个状态等于27×2＝54(Byte)。

此外，对语音模型网络的数据，描述语音模型到语音模型的链接信息(语法或规则)。例如，词“Hokkaido”是链接到“Hokkaido的城市、城镇和乡村名称”的信息。另外，如果当识别词时使识别结果返回为词的ID，则可以包括词的ID值等等。另外，在语音识别中，包括另外的数据作为语音模型网络的数据。

因此，如果将语音模型直接展开在RAM 112中的情形与假名字符串和语音模型模板展开在RAM 112中，然后仅构成用于识别语音所需的语音模型的情形进行比较，后者需要更少的存储容量。

现在将描述这一实施例的操作。

在这里，以识别用在汽车导航等等中的相当长的词序列，诸如地址的语音为例来描述该操作。

为识别语音，通过匹配单元114，从语音模型存储单元110读取属于第一语音模型网络300的语音模型、无用信息模型350、假名字符串和语音模型模板，以及将所读取的语音模型、无用信息模型350、假名字符串和语音模型模板展开在RAM 112中。

在这种情况下，当从麦克风102输入来自人的语音时，通过A/D转换器104对来自麦克风102的输入语音进行A/D转换，由语音参数抽取单元106从由A/D转换器104转换的语音数据抽取语音参数，以及将所抽取的语音参数写入环形缓冲器108中由写指针表示的地址中。在这种情况下，按从语音参数抽取单元10抽取的顺序，使语音参数循环地写入环形缓冲器108中。

因此，通过匹配单元114，从环形缓冲器108中由读指针表示的地址读取语音参数，以及使读指针递增1。此时，当读指针到达存储区末端的地址时，使读指针设置为头端的地址。

然后，将所读取的语音参数提供给RAM 112中的语音模型。当从无用信息模型350输出的出现概率等于或大于预定值时，将出现概率的积分值最高的标签序列指定为来自第一语音模型网络300的第一识别语音模型。

然后，应当使属于将被链接到第一识别语音模型的末端的一个语音模型组402的语音模型以及停止404展开在RAM 112中，但在这种情况下，基于RAM 112中的、对应于将展开在RAM 112中的语音模型的假名字符串，由RAM 112中的语音模型模板构成语音模型。

然后，计算出现概率的变化从第一识别语音模型传播到无用信息模型350为止所需的时间，以及按对应于计算的所需时间的数，使环形缓冲器108中的语音参数的读指针返回。此时，当读指针到达存储区头端的地址时，将读指针设置成末端的地址。返回读指针的目的是降低直到无用信息模型350的出现概率变得等于预定值为止的延迟时间的影响。

从环形缓冲器108中由读指针表示的地址读取语音参数，以及将所读取的语音参数提供给RAM 112中的语音模型。因此，将出现概率的积分值最高的语音模型识别为来自语音模型组402的第二识别语音模型。

(实例)

现在，将描述本发明的例子。诸如词的数量的条件与上述实例中相同。

如果像在传统技术中那样，属于第一语音模型网络300和第二语音模型网络400的所有语音模型都展开在RAM 112中以便识别语音，则用于展开语音模型所需的存储容量约为20(MByte)，以及通过Viterbi算法等等的语音识别处理所需的存储容量约为1(MByte)，这导致耗费总共21(MByte)的存储容量。

另一方面，如果象在本发明中那样，属于第一语音模型网络300的语音模型和无用信息模型350展开在RAM 112中以便识别前级中的语音，以及基于假名字符串由语音模板构成语音模型以便识别后级中的语音，则用于展开语音模板所需的存储容量约为0.86(MByte)，以及用于通过Viterbi算法等等的语音识别处理所需的存储容量约为0.5(MByte)，这导致耗费总共1.36(MByte)的存储容量。因此，与传统技术相比，这能减少93％的所需存储容量。

用这种方式，在该实施例中，如果属于任何一个语音模型组402的语音模型展开在RAM 112中，匹配单元114基于RAM 112中的、对应于将被展开在RAM 112中的语音模型的假名字符串，由RAM112中的语音模型模板构成语音模型。

用这种方式，与语音模型相比，语音模型模板通常具有小的数据容量，因此，当需要时，通过动态展开语音模型，能进一步减少识别语音所需的存储容量。此外，为执行一系列语音识别，能减少读取语音模型所需的时间，因为不从语音模型存储单元110读取语音模型。

在如上所述的第二实施例中，RAM 112相当于根据本发明第9方面的语音模型展开存储装置，匹配单元114相当于根据本发明第9方面的语音识别装置，以及语音模型组402相当于根据本发明第9方面的第二语音模型组，或相当于根据本发明第9方面的第三语音模型组。此外，假名字符串相当于发音表示字符串。

在如上所述的第二实施例中，匹配单元114从语音模型存储单元110读取属于第一语音模型网络300的语音模型、无用信息模型350、假名字符串和语音模型模板，使所读取的语音模型、无用信息模型350、假名字符串和语音模型模板展开在RAM 112中，以及基于RAM112中的、对应于将被展开在RAM 112中的语音模型的假名字符串，由RAM 112中的语音模型模板构成语音模型，如果属于任何一个语音模型组402的语音模型展开在RAM 112中(但本发明不限于此)，对于假名字符串或语音模型模板，仅读取RAM 112中后级中语音识别(通过第二语音模型网络400的语音识别)所需的那些假名字符串或语音模板。

此外，在如上所述的第一和第二实施例中，无用信息模型350链接到第一语音模型网络300的后面，但本发明不限于此，可以将无用信息模型350链接到第一语音模型网络300的前面，以及基于从属于第一语音模型网络300的语音模型输出的出现概率，可以将属于任何一个语音模型组402的语音模型展开在RAM 112中。

此外，在如上所述的第一和第二实施例中，在语音模型网络间转换时，如果无用信息模型350具有多个历史信息，则能建立匹配所需要的多个候选词的语音模型网络来执行识别处理。在如上所述的地方名称的识别的例子中，如果在第一语音模型网络300中获得的第一候选词是“Kanagawaken Fujisawashi”的标签序列，以及第二候选词是“Kanagawaken Atsugishi”的标签序，例如，能建立将被链接到“Kanagawaken Fujisawashi”的标签序列的语音模型网络和将被链接到“Kanagawaken Atsugishi”的标签序列的语音模型网络，以及能在考虑到在一个语音模型网络中的每个出现概率以及在另一个语音模型网络中的每个出现概率的情况下输出最终识别结果。

此外，在如上所述的第一和第二实施例中，已经描述了为实现语音参数抽取单元106和匹配单元114的功能，总是执行预先存储在ROM 116中的控制程序的情形，但本发明不限于此，可以从存储表示那些过程的程序的存储介质读取RAM 112中的程序并执行。

在这里，存储介质包括半导体存储介质，诸如RAM或ROM、磁存储型存储介质，诸如FD和HD、光读取型存储介质，诸如CD、CDV、LD和DVD，以及磁存储型/光读取型存储介质，诸如MO，包括任何存储介质，只要它们能由计算机读取，而与读取过程，诸如电、磁和光过程无关。

此外，在如上所述的第一和第二实施例中，使用如图1所示的链接的多个语音模型，将根据本发明的语音识别设备应用于识别相对长的词序列，诸如地址，但本发明不限于此，并且能将语音识别设备应用于不背离本发明的精神的限度内的其他任何情形。

如上所述，根据本发明第1方面的语音识别设备，即使使用具有链接关系的多个语音模型组来识别语音，也不需要展开所有辅助语音模型组的语音模型，而仅任何一个辅助语音模型组中的语音模型应当被展开在语音模型展开存储装置中，从而与传统技术相比，使得减少识别语音所需的存储容量成为可能。

另外，根据本发明第2至11方面的语音识别设备，不需要展开第二语音模型组和第三语音模型组两者的语音模型，但是仅第二语音模型组和第三语音模型组中任何一个的语音模型应当被展开在语音模型展开存储装置中，从而与传统技术相比，使得减少识别语音所需的存储容量成为可能。

另外，根据本发明第4方面的语音识别设备，当属于第二语音模型组和第三语音模型组中任何一个的语音模型展开在语音模型展开存储装置中时，从语音模型展开存储装置移出属于第一语音模型组的语音模型和非特定语音识别语音模型，从而使得进一步减少识别语音所需的存储容量成为可能。

另外，根据本发明第5至8方面的语音识别设备，当使用具有顶层处为第一语音模型组的分层链接关系的多个语音模型组来识别语音时，能减少所需存储容量。

另外，根据本发明第6至8方面的语音识别设备，需要一些延迟时间，直到非特定语音识别语音模型的出现概率变得等于预定值为止，因此，通过返回语音参数存储装置中语音参数的该位置，能减少延迟时间的影响，以便当使用属于第二语音模型组和第三语音模型组中任何一个的语音模型来识别语音时，相当准确地识别语音。

另外，根据本发明第7至8方面的语音识别设备，按所花费时间的数返回语音参数的读位置，直到出现概率的变化从识别语音模型传播到非特定语音识别语音模型为止，因此，能进一步减少延迟时间的影响，以便当使用属于第二语音模型和第三语音模型组中任何一个的语音模型来识别语音时，更准确地识别语音。

另外，根据本发明第8方面的语音识别设备，相对于指定识别语音模型时的读取位置，按对应于所花时间的数返回使语音参数的读位置，直到出现概率的变化从识别语音模型传播到非特定语音识别语音模型为止，因此，能进一步减少延迟时间的影响，以便当使用属于第二语音模型和第三语音模型组中任何一个的语音模型来识别语音时，更准确地识别语音。

另外，根据本发明第9方面的语音识别设备，与语音模型相比，语音模型模板通常具有小的数据容量，因此，当需要时，通过动态展开语音模型，能进一步减少用于识别语音所需的存储容量。

根据本发明方面12方面的语音识别程序，能获得与根据本发明第1方面的语音识别设备相同的效果。

此外，根据本发明第13方面的语音识别程序，能获得与根据本发明第2方面的语音识别设备相同的效果。

根据本发明第14方面的语音识别方法，能获得与根据本发明第1方面的语音识别设备相同的效果。

根据本发明第15方面的语音识别方法，能获得与根据本发明第2方面的语音识别设备相同的效果。

Claims

1.一种语音识别设备，包括被这样模型化的语音模型，以使得基于给定语音参数，将特定语音包括在输入语音中的概率输出作为出现概率，以及当给定特定语音参数时所述出现概率增加，该设备从输入语音抽取所述语音参数，以及基于所抽取的语音参数和所述语音模型来识别语音，

其特征在于，所述设备包括用于展开所述语音模型的语音模型展开存储装置，

构成多个语音模型组，每个组组合了所述特定语音参数不同的多个语音模型，以及构成指定用于语音模型组的预定链接关系的语音模型网络，以及

与所述语音模型网络中的多个语音模型组具有链接关系的语音模型组被定义为主要语音模型组，以及与所述语音模型网络中的所述主要语音模型组具有链接关系的语音模型组被定义为辅助语音模型组；以及

当识别语音时，

这样模型化非特定语音识别语音模型，以使得当给定表示不同于能由属于所述主要语音模型组的语音模型识别的特定语音的语音的语音参数时，所述出现概率增加，以及属于所述主要语音模型组的语音模型被展开在所述语音模型展开存储装置中；以及

将从输入语音抽取的语音参数提供给所述语音模型展开存储装置中的语音模型，以及基于从属于所述主要语音模型组的语音模型输出的出现概率和从所述非特定语音识别语音模型输出的出现概率，使属于所述辅助语音模型组的任何一个的语音模型展开在所述语音模型展开存储装置中。

2.一种语音识别设备，包括这样模型化的语音模型，以使得基于给定语音参数，将特定语音包括在输入语音中的概率输出作为出现概率，以及当给定特定语音参数时所述出现概率增加，所述设备从输入语音抽取所述语音参数，以及基于所抽取的语音参数和所述语音模型来识别语音，

其特征在于，所述设备包括：

第一语音模型组，其组合了所述特定语音参数不同的多个语音模型；

第二语音模型组，其组合了所述特定语音参数不同的多个语音模型且与属于所述第一语音模型组的任何语音模型具有链接关系；

第三语音模型组，其组合了所述特定语音参数不同的多个语音模型且与属于所述第一语音模型组的任何其他语音模型具有链接关系；

这样模型化的非特定语音识别语音模型，以使得当给定表示不同于能由属于所述第一语音模型组的语音模型识别的特定语音的语音的语音参数时，所述出现概率增加；

用于展开所述语音模型的语音模型展开存储装置；

用于从输入语音抽取所述语音参数的语音参数抽取装置；以及

语音识别装置，用于基于属于所述第一语音模型组、所述第二语音模型组和所述第三语音模型组的语音模型以及由所述语音参数抽取装置抽取的语音参数来识别语音；以及

所述语音识别装置将属于所述第一语音模型组的语音模型和所述非特定语音识别语音模型展开在所述语音模型展开存储装置中，将由所述语音参数抽取装置抽取的语音参数提供给所述语音模型展开存储装置中的语音模型，以及基于从属于所述第一语音模型组的语音模型输出的出现概率和从所述非特定语音识别语音模型输出的出现概率，将属于所述第二语音模型组和所述第三语音模型组中任何一个的语音模型展开在所述语音模型展开存储装置中。

3.如权利要求2所述的语音识别设备，其特征在于，所述语音识别装置将由所述语音参数抽取装置抽取的语音参数提供给所述语音模型展开存储装置中的语音模型，以及当从所述非特定语音识别语音模型输出的出现概率等于或大于预定值时，基于从属于所述第一语音模型组的语音模型输出的出现概率，将属于所述第二语音模型组和所述第三语音模型组中任何一个的语音模型展开在所述语音模型展开存储装置中。

4.如权利要求2和3的任何一个所述的语音识别设备，其特征在于，所述语音识别装置将由所述语音参数抽取装置抽取的语音参数提供给所述语音模型展开存储装置中的语音模型，以及当从所述非特定语音识别语音模型输出的出现概率等于或大于所述预定值时，从所述语音模型展开存储装置移出属于所述第一语音模型组的语音模型和所述非特定语音识别语音模型，以及基于从属于所述第一语音模型组的语音模型输出的出现概率，将属于所述第二语音模型组和所述第三语音模型组中任何一个的语音模型展开在所述语音模型展开存储装置中。

5.如权利要求3和4的任何一个所述的语音识别设备，

其特征在于，所述非特定语音识别语音模型链接到属于所述第一语音模型组的语音模型；以及

当给定所述语音参数时，按所述第一语音模型组的语音模型和所述非特定语音识别语音模型的顺序，传播所述出现概率的变化。

6.如权利要求5所述的语音识别设备，其特征在于，

其特征在于，所述设备进一步包括用于存储所述语音参数的语音参数存储装置，

所述语音参数抽取装置从输入语音抽取所述语音参数，以及按预定顺序将所抽取的语音参数存储在所述语音参数存储装置中；以及

所述语音识别装置按所述预定顺序从所述语音参数存储装置读取所述语音参数，以及将所读取的语音参数提供给所述语音模型展开存储装置的语音模型，以及当从所述非特定语音识别语音模型输出的出现概率等于或大于所述预定值时，基于从属于所述第一语音模型组的语音模型输出的出现概率，将属于所述第二语音模型组和所述第三语音模型组中任何一个的语音模型展开在所述语音模型展开存储装置中，按与所述预定顺序相反的顺序，使所述语音参数存储装置中所述语音参数的读位置移回预定数，按所述预定顺序从读位置读取所述语音参数，以及将所读取的语音参数提供给所述语音模型展开存储装置中的语音模型。

7.如权利要求6所述的语音识别设备，其特征在于，所述语音识别装置将来自所述第一语音模型组、所述出现概率最高的语音模型指定为识别语音模型，使属于与所述识别语音模型具有链接关系的所述第二语音模型组和所述第三语音模型组中之一的语音模型展开在所述语音模型展开存储装置中，计算所述出现概率的变化从所述识别语音模型传播到所述非特定语音识别语音模型为止所需的时间，以及按相应于所述的所需时间的数，返回所述语音参数存储装置中所述语音参数的读位置。

8.如权利要求7所述的语音识别设备，其特征在于，所述语音识别装置按相应于所述的所需时间的数，从指定所述识别语音模型时的所述读位置返回所述语音参数存储装置中所述语音参数的读位置。

9.如权利要求2-8的任何一个所述的语音识别设备，

其特征在于，代替属于所述第二语音模型组和所述第三语音模型组的语音模型，将表示能由语音模型识别的特定语音的发音的发音表示字符串存储在所述语音模型展开存储装置中，以及按等于属于所述第二语音模型组的语音模型的数量和属于所述第三语音模型组的语音模型的数量中较大的一个的数，将能基于所述发音表示字符串构成所述语音模型的语音模型模板存储在所述语音模型展开存储装置中，

如果属于所述第二语音模型组和第三语音模型组中任何一个的语音模型展开在所述语音模型展开存储装置中，则所述语音识别装置基于所述语音模型展开存储装置中的、相应于将被展开在所述语音模型展开存储装置中的语音模型的发音表示字符串，由所述语音模型展开存储装置中的语音模型模板来构成所述语音模型。

10.如权利要求2-9的任何一个所述的语音识别设备，其特征在于，所述语音识别装置将来自所述第一语音模型组、所述出现概率最高的语音模型指定为第一识别语音模型，将展开在所述语音模型展开存储装置中、来自所述第二语音模型组和所述第三语音模型组的语音模型、所述出现概率最高的语音模型指定为第二识别语音模型，以及确定所述第二识别语音模型的特定语音与所述第一识别语音模型的特定语音的结合包括在输入语音中。

11.如权利要求2-10的任何一个所述的语音识别设备，其特征在于，所述非特定语音识别语音模型是无用信息模型。

12.一种语音识别程序，其使用这样模型化的语音模型，以使得基于给定语音参数，将特定语音包括在输入语音中的概率输出作为出现概率，以及当给定特定语音参数时所述出现概率增加，该识别程序从输入语音抽取所述语音参数，以及基于所抽取的语音参数和所述语音模型来识别语音，

其特征在于，所述程序使包括用于展开所述语音模型的语音模型展开存储装置的计算机执行处理，

其中，构成多个语音模型组，每个组组合了所述特定语音参数不同的多个语音模型，以及构成指定用于语音模型组的预定链接关系的语音模型网络，以及

当识别语音时，

这样模型化非特定语音识别语音模型，以使得当给定表示不同于能由属于所述主要语音模型组的语音模型识别的特定语音的语音的语音参数时，所述出现概率增加，以及属于所述主要语音模型组的语音模型展开在所述语音模型展开存储装置中；以及

13.一种语音识别程序，其使用这样模型化的语音模型，以使得基于给定语音参数，将特定语音包括在输入语音中的概率输出作为出现概率，以及当给定特定语音参数时所述出现概率增加，该识别程序从输入语音抽取所述语音参数，以及基于所抽取的语音参数和所述语音模型来识别语音，

其特征在于，所述程序使计算机能使用：

这样模型化的非特定语音识别语音模型，以使得当给定表示不同于能由属于所述第一语音模型组的语音模型识别的特定语音的语音的语音参数时，所述出现概率增加；以及

语音模型展开存储装置，用于展开所述语音模型

从而实现作为以下装置实现的处理：用于从输入语音抽取所述语音参数的语音参数抽取装置，以及，用于基于属于所述第一语音模型组、所述第二语音组和所述第三语音模型组的语音模型以及由所述语音参数抽取装置抽取的语音参数来识别语音的语音识别装置；以及

14.一种语音识别方法，其使用这样模型化的语音模型，以使得基于给定语音参数，将特定语音包括在输入语音中的概率输出作为出现概率，以及当给定特定语音参数时所述出现概率增加，该方法从输入语音抽取所述语音参数，以及基于所抽取的语音参数和所述语音模型来识别语音，

其特征在于，构成多个语音模型组，每个组组合了所述特定语音参数不同的多个语音模型，以及构成指定用于语音模型组的预定链接关系的语音模型网络，以及

当识别语音时，

将从输入语音抽取的语音参数提供给所述语音模型展开存储装置中的语音模型，以及基于从属于所述主要语音模型组的语音模型输出的出现概率和从所述非特定语音识别语音模型输出的出现概率，使属于任何一个所述辅助语音模型组的语音模型展开在所述语音模型展开存储装置中。

15.一种语音识别方法，其使用这样模型化的语音模型，以使得基于给定语音参数，将特定语音包括在输入语音中的概率输出作为出现概率，以及当给定特定语音参数时所述出现概率增加，该方法从输入语音抽取所述语音参数，以及基于所抽取的语音参数和所述语音模型来识别语音，

其特征在于，所述方法使用：

所述方法包括：

用于从输入语音抽取所述语音参数的语音参数抽取步骤；以及

语音识别步骤，用于基于属于所述第一语音模型组、所述第二语音模型组和所述第三语音模型组的语音模型以及在所述语音参数抽取步骤中抽取的语音参数来识别语音；以及

在所述语音识别步骤中，这样模型化非特定语音识别语音模型，以使得当给定表示不同于能由属于所述第一语音模型组的语音模型识别的特定语音的语音的语音参数时，所述出现概率增加，将属于所述第一语音模型组的语音模型展开在语音模型展开存储装置中，将在所述语音参数抽取步骤中抽取的语音参数提供给所述语音模型展开存储装置中的语音模型，以及基于从属于所述第一语音模型组的语音模型输出的出现概率和从所述非特定语音识别语音模型输出的出现概率，将属于所述第二语音模型组和所述第三语音模型组中任何一个的语音模型展开在所述语音模型展开存储装置中。