JP2002268673A

JP2002268673A - 音声認識装置、音声認識方法、及び音声認識プログラム

Info

Publication number: JP2002268673A
Application number: JP2001070937A
Authority: JP
Inventors: Tomohiro Iwasaki; 知弘岩▲さき▼
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2001-03-13
Filing date: 2001-03-13
Publication date: 2002-09-20
Anticipated expiration: 2021-03-13
Also published as: JP4104831B2

Abstract

(57)【要約】【課題】音声認識応答時間を短縮することのできる音
声認識装置、音声認識方法および音声認識方法を実行す
るための電子計算機用プログラムを記憶した記録媒体を
得ることを目的とする。【解決手段】音声入力をする音響分析手段１と、読み
出し速度の早い記憶媒体からなる第一辞書記憶手段６
と、読み出し速度の遅い記憶媒体からなる第二辞書記憶
手段７と、第一辞書記憶手段６に記憶された部分辞書を
読み出して照合データとして記憶する照合データ記憶手
段４と、第二辞書記憶手段７に記憶された部分辞書を読
み出して照合データとして遅延照合データ記憶手段８
と、先行して照合データ記憶手段４の照合データの照合
処理を進め、照合処理間で処理の遅れがなくなると、遅
延照合データ記憶手段８の照合データを照合データ記憶
手段４の照合データにマージするモデル照合手段５とを
有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は音声により住所検
索などの大語彙認識を行う音声認識装置、音声認識方
法、及び音声認識プログラムに関するものである。

【０００２】

【従来の技術】大語彙の音声認識を行う場合には、大規
模な単語辞書が必要である。全ての単語辞書を高速に参
照可能な内部メモリに置いて認識処理を行うことが望ま
しいが、組み込み機器など内部メモリ量が小さい場合に
は、一部の辞書を参照速度の遅い記憶媒体に記録して、
これらを参照しながら認識を行う必要がある場合があ
る。ここでは、特願平１１−２５４２８６号明細書に記
述されている音声認識装置を一例として、従来の音声認
識装置の説明を行う。以下、音声認識方式としてはＨＭ
Ｍ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマ
ルコフモデル）を用い、認識対象を住所とし、認識する
単位であるノードを音節として説明を行う。

【０００３】図６は従来の音声認識装置の構成を示す図
である。１は音声信号を入力し音響分析を行い特徴ベク
トルの時系列に変換する音響分析手段であり、２は認識
対象の標準モデルを記憶する標準モデル記憶手段であ
る。６は辞書を記憶した高速に参照可能な記録媒体から
なる第一辞書記憶手段であり、７は辞書を記憶した高速
では参照不可能な記録媒体からなる第二辞書記憶手段で
ある。３は部分辞書とその部分辞書が記録された記録媒
体との対応を表すために、部分辞書が記録された記憶媒
体またグループ名を記憶する記録媒体記憶手段である。
４は照合処理の作業領域として、第一辞書記憶手段６及
び第二辞書記憶手段７に記憶された部分辞書を読み出し
て照合データとして記憶する照合データ記憶手段であ
り、５は音響分析手段１からの特徴ベクトルに対し、標
準モデル記憶手段２からの標準モデルと、照合データ記
憶手段４に記憶された第一辞書記憶手段６及び第二辞書
記憶手段７から読み出された照合データとしての部分辞
書とを参照しながら、標準モデルと照合データとの照合
処理を行い、特徴ベクトルを認識した認識結果を出力す
るモデル照合手段である。

【０００４】以下の説明では、第一辞書記憶手段６をＲ
ＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、第
二辞書記憶手段７をＤＶＤ−ＲＯＭ（Ｄｉｇｉｔａｌ
ＶｅｒｓａｔｉｌｅＤｉｓｋ−ＲｅａｄＯｎｌｙ
Ｍｅｍｏｒｙ）として説明を行う。ＲＡＭは高速に参照
可能な記録媒体であるが、コストが非常に高いという特
徴がある。これに対して、ＤＶＤ−ＲＯＭは非常に大容
量でコストが安いが読み出し速度が遅いという特徴があ
る。

【０００５】住所などの大語彙の認識を行う場合には単
語辞書の大きさが膨大となり、単語辞書をＲＡＭに全部
記憶しておくことはコストが大きくなる。さらに、単語
辞書をすべてＤＶＤ−ＲＯＭに記憶した場合には、ＤＶ
Ｄ−ＲＯＭの参照回数が大きくなり、参照のオーバーヘ
ッドにより認識する時間が非常に長くなり、音声認識装
置としての応答速度に問題が生じる。そのため、辞書を
記憶する記憶媒体を２種類用い、選択された使用頻度の
高い部分辞書のみＲＡＭに記憶し、使用頻度の低い部分
辞書はコストの安いＤＶＤ−ＲＯＭに記憶するものとす
る。

【０００６】次に動作について説明する。図７は、認識
対象となる住所の例を示す図である。ここでは図７に示
す住所を認識対象とする場合の動作について説明する。
認識に先立ち標準モデル記憶手段２には標準モデルが、
第一辞書記憶手段（ＲＡＭ）６および第二辞書記憶手段
（ＤＶＤ−ＲＯＭ）７には住所を表現する辞書が、各
々、収められているものとする。

【０００７】図８は、第一辞書記憶手段６および第二辞
書記憶手段７に記憶されている単語辞書の内容を示す。
図８では、認識対象の住所の地名が四角形の枠の中に、
またその接続が矢印で示されている。各単語は角の丸い
枠で示されたｎｅｔ１からｎｅｔ１２の部分辞書に分割
されて記憶されており、ｎｅｔ１からｎｅｔ１２の各部
分辞書を単位としてモデル照合手段５に取り込まれ、照
合演算に用いることができる。三角は部分辞書へのエン
トリーポイントを示し、例えば部分辞書ｎｅｔ５の「江
ノ島」は部分辞書ｎｅｔ９の「1丁目」、「２丁目」、
「３丁目」のそれぞれに接続されていることを示す。

【０００８】ここで、含まれる部分辞書の使用予想頻度
に応じて、その部分辞書を記憶する記録媒体をＲＡＭか
らなる第一辞書記憶手段６あるいはＤＶＤ−ＲＯＭから
なる第二辞書記憶手段７に決定し、図１６に示すように
各部分辞書が記憶された記録媒体を記憶媒体記憶手段３
に記録しているものとする。図８において、実線の角の
丸い枠で示された部分辞書（ｎｅｔ１からｎｅｔ４、ｎ
ｅｔ９、および、ｎｅｔ１２）は、ＲＡＭからなる第一
辞書記憶手段６に記憶されていて、破線の角の丸い枠で
示された部分辞書（ｎｅｔ５からｎｅｔ８、ｎｅｔ１
０、および、ｎｅｔ１１）は、ＤＶＤ−ＲＯＭからなる
第二辞書記憶手段７に記憶されている。

【０００９】ＤＶＤ−ＲＯＭ（第二辞書記憶手段７）は
１回の参照に時間がかかるため、ＤＶＤ−ＲＯＭに記憶
してある依存関係の強い部分辞書をひとまとめのグルー
プとして記憶して、参照する時に依存性の高い部分辞書
をまとめて読み出すことにより参照回数を減少させてい
る。

【００１０】ここでは図８の一点鎖線に示すように、部
分辞書ｎｅｔ５および部分辞書ｎｅｔ６をグループｇｒ
ｐ１にまとめ、部分辞書ｎｅｔ７、部分辞書ｎｅｔ８、
部分辞書ｎｅｔ１０、及び部分辞書ｎｅｔ１１をｇｒｐ
２にまとめるものとする。基本的には県単位でグループ
化しているが、グループ選択の精度を向上させるため、
それぞれの先頭単語の部分辞書ｎｅｔ３およびｎｅｔ４
はＲＡＭ（第一辞書記憶手段６）上に置くものとする。
このように構成することにより、グループの選択時に先
読み情報としてｎｅｔ３及びｎｅｔ４を使用することが
できるため、認識時にグループの選択精度が向上する。
各部分辞書がどのグループに属するかは図１６に示すよ
うに記録媒体記憶手段３に記憶されている。

【００１１】図１５に示した部分辞書ｎｅｔ２を一例と
して、部分辞書の構造について説明する。ｎｅｔ２はひ
とつのエントリーポイント（ｅｎｔｒｙ０）を有し、内
部に「神奈川県」と「香川県」の２単語を含む。神奈川
県は次に部分辞書ｎｅｔ３のエントリーポイントｅｎｔ
ｒｙ０に接続され、香川県は次に部分辞書ｎｅｔ４のエ
ントリーポイントｅｎｔｒｙ０に接続される。香川県の
ノードに対してモデル照合する場合には、図１８に示す
単語内のノード情報を用いる。

【００１２】図１６は香川県のノード情報を示した図で
ある。香川県は、「カ」、「ガ」、「ワ」、「ケ」、お
よび「ン」の５ノードから構成され、ここでは各ノード
にｎｏｄｅ１からｎｏｄｅ５までの番号が与えられてい
る。

【００１３】図１４は標準モデル記憶手段２の記憶内容
を示す図である。それぞれのノードに対応するＨＭＭの
パラメータが記憶されている。ＨＭＭのパラメータとし
ては状態数、状態間の遷移確率などＨＭＭの照合演算に
必要なパラメータがあらかじめ入っているものとする。

【００１４】図９及び図１０は、照合データ記憶手段４
の記憶内容を示す図である。図９に示すように、認識が
開始されるとまず、最初の単語である無音を含む部分辞
書ｎｅｔ１がＲＡＭからなる第一辞書記憶手段６より読
み出され、照合データ記憶手段４に読み出された部分辞
書に必要な作業領域が取られる。

【００１５】認識処理が進められ、続く部分辞書の照合
処理が必要となると、図１０に示すように部分辞書ｎｅ
ｔ１に続く部分辞書ｎｅｔ２がＲＡＭより読み出され、
照合データ記憶手段４内に部分辞書ｎｅｔ２に必要な作
業領域が確保される。このように認識処理が進むにつ
れ、第一辞書記憶手段６または第二辞書記憶手段７より
必要な部分辞書が読み出され、照合データ記憶手段４に
読み出された部分辞書に必要な作業領域が確保されてゆ
く。

【００１６】次にモデル照合の動作について説明する。
音響分析手段１に音声信号が入力されると一定時間間隔
で音響分析が行われ、特徴ベクトルに変換されて出力さ
れる。音声信号が入力されている間、音響分析手段１か
らモデル照合手段５へは繰り返し特徴ベクトルが送られ
る。この特徴ベクトルが送られる時間間隔をフレームと
呼び、通常１０ミリ秒程度の値のフレームが用いられ
る。

【００１７】図１１は、モデル照合手段５の内部で行わ
れる処理の流れ図である。モデル照合手段５の内部では
図１１に示す流れ図で示される処理をフレーム単位で繰
り返す。

【００１８】ステップＳＴ４５１ではノード内の状態に
対する照合演算を行うノード内演算処理が行われる。ス
テップＳＴ４５２ではビームサーチの評価値を決定する
評価値決定処理が行われる。

【００１９】ステップＳＴ４５３ではビームサーチ処理
を行うビームサーチ演算処理が行われ、ステップＳＴ４
５４ではノード間の演算を行うノード間演算処理が行わ
れる。

【００２０】図１２はノード（ｎ）に対する照合データ
記憶手段４のデータ構造の詳細を説明する図である。図
９と図１０では照合データ記憶手段４の記憶内容を単語
単位で示していたが、図１２ではノードの内容について
記述してある。ノード（ｎ）はＳｎ（１）、Ｓｎ
（２）、Ｓｎ（３）の３状態から構成されているものと
する。

【００２１】ノード（ｎ）の左端の状態Ｓｎ（０）はノ
ード間演算のために用いられる疑似状態であり、Ｓｎ
（１）、Ｓｎ（２）、Ｓｎ（３）の３つの状態がモデル
の実体を表す。ａｎ（ｉ，ｊ）は状態ｉから状態ｊへの
遷移確率に基づくペナルティーを表し、ｂｎ（ｉ）は状
態ｉの出力確率に基づくペナルティーを表す。ペナルテ
ィーは確率が小さいほど大きな値となる。これらの遷移
確率に基づくペナルティー、および出力確率に基づくペ
ナルティーはＨＭＭを用いる認識では標準的に用いられ
るパラメータであり、ここでは詳細な説明は省略する。

【００２２】これらのパラメータはあらかじめ図１４に
示すように標準モデル記憶手段２に記憶されている。第
一辞書記憶手段６あるいは第二辞書記憶手段７からノー
ド（ｎ）を含む部分辞書が読み出された場合に、図１４
に示されたパラメータが標準モデル記憶手段２から読み
出され、照合データ記憶手段４の中に図１２に示すよう
な照合データに対する領域が与えられる。

【００２３】図１１のステップＳＴ４５１でのノード内
演算処理においては、フレーム単位で特徴ベクトルに対
する出力確率と状態間の遷移確率を用いて式（１）に示
すモデル照合演算が行われ、Ｓｎ（ｉ）の更新が行われ
る。式（１）のＩｎはノード（ｎ）の状態数を表す。出
力確率は入力された特徴ベクトルに対してそれぞれの状
態の音響特徴を表す分布に対する確率演算を行い求めら
れる。Ｓ_n（ｉ）＝ｍａｘ（（Ｓ_n（ｉ）＋ａ_n（ｉ，ｉ）），（Ｓ_n（ｉ−１）＋ａ_n（ｉ−１，ｉ））＋ｂ_n（ｉ）ｉ＝１，Ｉ_n （１）

【００２４】図１１のステップＳＴ４５２の評価値決定
処理では、式（２）より、ビームサーチのための評価値
Ｅｎｏｄｅ（ｎ）と、ノード間遷移を行うための評価値
Ｅａｒｃ（ｎ）と、ビームサーチの基準値Ｅｂｅｓｔｎ
ｏｄｅを求める。Ｅｂｅｓｔｎｏｄｅはノードの中で最
も良いビームサーチの評価値で代表するものとする。Ｅｎｏｄｅ（ｎ）＝ｍａｘ（Ｓ_n（ｉ））_1<i<In Ｅａｒｃ（ｎ）＝Ｓ_n（Ｉ_n）Ｅｂｅｓｔｎｏｄｅ＝ｍａｘ（Ｅｎｏｄｅ（ｎ））_1<n<N （２）

【００２５】図１１のステップＳＴ４５３のビームサー
チ演算処理では、式（２）により求められたビームサー
チのための評価値Ｅｎｏｄｅ（ｎ）が以下の式（３）の
条件を満たさない場合、そのノードの照合演算を非活性
化して、演算量を下げるものである。非活性化されたノ
ードに対するノード内演算処理は行われない。式（３）
のＴｎｏｄｅはビームサーチのための閾値であり、予め
定められた規定値を用いる。Ｅｎｏｄｅ（ｎ）＞Ｅｂｅｓｔｎｏｄｅ−Ｔｎｏｄｅ（３）

【００２６】続いて図１１のステップＳＴ４５４のノー
ド間演算処理では、式（２）で求められたノード間遷移
を行うための評価値Ｅａｒｃ（ｎ）が式（４）の条件を
満たすノードが照合データ記憶手段４に設けられた作業
領域内になかった場合には、第一辞書記憶手段６または
第二辞書記憶手段７より新たなノードを含む部分辞書が
読み出されて、照合データ記憶手段４に新たなノードの
作業領域を確保して、新たに読み込んだノードを活性化
してノード間照合演算を行う。Ｅａｒｃ（ｎ）＞Ｅｂｅｓｔｎｏｄｅ−Ｔａｒｃ（４）

【００２７】続くノードを（ｎ＋１）とした場合にノー
ド（ｎ＋１）の作業領域が確保された様子を図１３に示
す。読み込まれた直後、ノード（ｎ＋１）の各状態のス
コアは最も低い値に初期化される。

【００２８】続いてノード（ｎ）とノード（ｎ＋１）の
間で式（５）に示すノード間の照合処理を行う。ノード
間の照合処理は以下の式で示される。Ｓ_n+1 （０）＝Ｓ_n（Ｉ_n）（５）

【００２９】続くノード（ｎ＋１）が照合データ記憶手
段４に作業領域が取られており、非活性化されていた場
合には再度活性化させて、式（５）に示すノード間の照
合演算を行う。

【００３０】モデル照合手段５では特徴ベクトルが入力
されるたび繰り返し上記のように照合処理を進め、音声
信号のすべての特徴ベクトルに対する処理が終了した
ら、最終的に最もスコアの高かった単語列を認識結果と
して出力する。

【００３１】上記のように構成することにより、例えば
「神奈川県藤沢市」という発声であれば藤沢市の最終ノ
ードが式（４）の条件を満たし、続く部分辞書ｎｅｔ５
を読み込もうとする。また、「香川県大川郡」の発声で
あれば部分辞書ｎｅｔ８を読み込もうとする。

【００３２】ここで図１７の記録媒体記憶手段３の記憶
内容を参照すると部分辞書ｎｅｔ５や部分辞書ｎｅｔ８
はＤＶＤ−ＲＯＭ（第二辞書記憶手段７）上にあること
がわかる。ＤＶＤ−ＲＯＭ上の部分辞書はグループ化さ
れているため、同じく記録媒体記憶手段３を調べ含まれ
るグループ名を調べる。

【００３３】部分辞書ｎｅｔ８を参照する場合、部分辞
書ｎｅｔ８はグループｇｒｐ２に属しているため、音声
認識装置はグループｇｒｐ２の中にある部分辞書ｎｅｔ
７、部分辞書ｎｅｔ８、部分辞書ｎｅｔ１０、部分辞書
ｎｅｔ１１をまとめて照合データ記憶手段４に取り込
む。これにより、今後発声が予測される部分辞書ｎｅｔ
８の後続部分辞書である部分辞書ｎｅｔ１０、および部
分辞書ｎｅｔ１１も同時に読み込むことが可能であり、
ＤＶＤ−ＲＯＭの参照回数の減少が可能である。この場
合、最終的に認識に用いない部分辞書も同時に取り込ん
でしまうという問題はあるが、参照回数のオーバーヘッ
ドを考えると、参照回数を減少させる方が応答時間の短
縮につながる。

【００３４】図１８を用いて音声認識装置の処理の流れ
を時間に沿って説明する。図１８は一例として「香川
県」「高松市」「朝日町」に対する照合データ記憶手段
に記憶されている照合データを示す図である。縦軸は演
算範囲を図１２に示す状態単位で示す。横軸は時間を表
す。演算された状態と時間の範囲を四角形の枠で示す。
四角形の枠の上に記載されているＦ１からＦ１７までは
音声信号のフレームを表している。実際の音声信号はも
っと多くのフレームからなっているが、ここでは説明の
ため１７フレームとして説明する。

【００３５】まず、音声が入力されると、無音部に続い
て「香川県」の先頭のノードから処理が開始される。た
だし、この図では無音は表示していない。音声信号が１
フレーム分入力されるたびに、そのフレームに対する演
算範囲内のノードの演算が行われる。音声信号が入力さ
れるたびに認識対象範囲が進行してゆき、ビームサーチ
により古いノードが演算範囲からはずれてゆく。「高松
市」の最終ノードが式（４）の条件を満たした場合、Ｄ
ＶＤ−ＲＯＭ上の部分辞書の参照が必要となる。

【００３６】図１８ではＦ７では式（４）の条件を満た
さず、Ｆ８で初めて満たすものとする。Ｆ８においてＤ
ＶＤ−ＲＯＭの参照が始まり、終了するまですべてのノ
ードに対する照合演算を停止する。ＤＶＤ−ＲＯＭから
の必要な部分辞書のロードが終了した場合、Ｆ９から照
合処理が再開される。

【００３７】

【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、高速で参照すること
が不可能な記録媒体への参照が必要となった場合に、必
要な部分辞書のデータを取り込む間、音声認識処理が待
ち状態となり、結果として音声認識応答時間が遅くなる
といった課題があった。

【００３８】また、従来の音声認識装置は、式（４）の
条件を満たしたグループよりＤＶＤ−ＲＯＭからのダウ
ンロードを開始するため、部分辞書の選択精度が不足し
ており、正解を含む部分辞書以外の参照が多くなり、特
に高速で参照することが不可能な記録媒体への参照が多
くなり、結果として音声認識反応時間が遅くなるといっ
た課題があった。また、ＤＶＤ−ＲＯＭへの参照回数を
一定数に制限した場合に認識率の低下が大きい等の課題
があった。

【００３９】この発明は、上記のような課題を解決する
ためになされたもので、音声認識応答時間を短縮するこ
とのできる音声認識装置、音声認識方法および音声認識
プログラムを得ることを目的とする。

【００４０】

【課題を解決するための手段】この発明に係る音声認識
装置は、入力された音声に対し音響分析を行い特徴ベク
トルの時系列に変換する音響分析手段と、読み出し速度
の早い記憶媒体からなる第一辞書記憶手段と、読み出し
速度の遅い記憶媒体からなる第二辞書記憶手段と、第一
辞書記憶手段に記憶された部分辞書を読み出して照合演
算を行うための照合データとして記憶する照合データ記
憶手段と、第二辞書記憶手段に記憶された部分辞書を読
み出して照合演算を行うための照合データとして遅延照
合データ記憶手段と、第二辞書記憶手段に記憶された部
分辞書を読み出している間、先行して照合データ記憶手
段に記憶された照合データを用いて照合処理を進め、第
二辞書記憶手段からの読み出しが終了すると遅延照合デ
ータ記憶手段に記憶された照合データを用いて照合処理
を行い、照合データ記憶手段に記憶された照合データを
用いた照合処理と遅延照合データ記憶手段に記憶された
照合データを用いた照合処理との間で処理の遅れがなく
なると、遅延照合データ記憶手段に記憶された照合デー
タを照合データ記憶手段に記憶された照合データにマー
ジするモデル照合手段とを有するものである。

【００４１】この発明に係る音声認識装置は、モデル照
合手段が、第二辞書記憶手段から部分辞書がダウンロー
ドされている間に、照合データ記憶手段に記憶された照
合データを用いた照合処理の照合結果により、ダウンロ
ードされている部分辞書に対応する照合データよりも評
価値の高い照合データが検出された場合に、第二辞書記
憶手段からダウンロードする部分辞書を評価値の高い照
合データに対応する部分辞書に切り替えてダウンロード
を行うものである。

【００４２】この発明に係る音声認識装置は、モデル照
合手段が、一定時間待ってから、照合データ記憶手段に
より記憶された照合データを用いた照合処理の照合結果
により、第二辞書記憶手段に記憶された部分辞書のうち
からダウンロードを行う部分辞書を選択してダウンロー
ドを行うものである。

【００４３】この発明に係る音声認識装置は、モデル照
合手段が、照合データ記憶手段に記憶された照合データ
の照合処理の結果が所定の値を超えると、第二辞書記憶
手段に記憶された部分辞書のうちその照合データに対応
する部分辞書をダウンロードするものである。

【００４４】この発明に係る音声認識装置は、モデル照
合手段が、照合データ記憶手段に記憶された照合データ
の照合処理の結果が所定の値を超えてから一定時間の間
待って第二辞書記憶手段に記憶された部分辞書のうちか
らどの部分辞書をダウンロードするかを選択するもので
ある。

【００４５】この発明に係る音声認識方法は、入力され
た音声に対し音響分析を行い特徴ベクトルの時系列に変
換する音響分析過程と、読み出し速度の早い記憶媒体に
部分辞書を記憶する第一辞書記憶過程と、読み出し速度
の遅い記憶媒体に部分辞書を記憶する第二辞書記憶過程
と、第一辞書記憶過程で記憶された部分辞書に対する照
合演算に用いる照合データを記憶する照合データ記憶過
程と、第二辞書記憶過程で記憶された部分辞書に対する
照合演算に用いる照合データを記憶する遅延照合データ
記憶過程と、上記第二辞書記憶過程で記憶された部分辞
書のダウンロードを行っている間、先行して照合データ
記憶過程で記憶された照合データを用いて照合処理を進
め、第二辞書記憶過程で記憶された部分辞書のダウンロ
ードが終了すると遅延照合データ記憶過程で記憶された
照合データを用いて照合処理を行い、照合データ記憶過
程で記憶された照合データを用いた照合処理と遅延照合
データ記憶過程で記憶された照合データを用いた照合処
理との間で処理の遅れがなくなると、遅延照合データ記
憶過程で記憶された照合データを照合データ記憶過程で
記憶された照合データにマージするモデル照合過程とを
有するものである。

【００４６】この発明に係る音声認識方法は、モデル照
合過程において、第二辞書記憶過程で記憶された部分辞
書のダウンロードが行われている間に、照合データ記憶
過程で記憶された照合データを用いた照合処理の照合結
果により評価値の高い部分辞書が検出された場合に、ダ
ウンロードを行う部分辞書を切り替えるものである。

【００４７】この発明に係る音声認識方法は、モデル照
合過程において、照合データ記憶過程で記憶された照合
データを用いた照合処理の照合結果が得られるのを一定
時間の間待ってから、ダウンロードを行う部分辞書を選
択してダウンロードを行うものである。

【００４８】この発明に係る音声認識方法は、モデル照
合過程において、照合データ記憶過程で記憶された照合
データの照合処理の結果が所定の値を超えると、第二辞
書記憶過程で記憶された部分辞書のうちその照合データ
に対応する部分辞書をダウンロードするものである。

【００４９】この発明に係る音声認識方法は、モデル照
合過程において、照合データ記憶過程で記憶された照合
データの照合処理の結果が所定の値を超えてから一定時
間の間待って第二辞書記憶過程で記憶された部分辞書の
うちからどの部分辞書をダウンロードするかを選択する
ものである。

【００５０】この発明に係る音声認識プログラムは、入
力された音声に対し音響分析を行い特徴ベクトルの時系
列に変換する音響分析機能と、読み出し速度の早い記憶
媒体に部分辞書を記憶する第一辞書記憶機能と、読み出
し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記
憶機能と、第一辞書記憶機能で記憶された部分辞書に対
する照合演算に用いる照合データを記憶する照合データ
記憶機能と、第二辞書記憶機能で記憶された部分辞書に
対する照合演算に用いる照合データを記憶する遅延照合
データ記憶機能と、第二辞書記憶機能で記憶された部分
辞書のダウンロードを行っている間、先行して照合デー
タ記憶機能で記憶された照合データを用いて照合処理を
進め、第二辞書記憶機能で記憶された部分辞書のダウン
ロードが終了すると遅延照合データ記憶機能で記憶され
た照合データを用いて照合処理を行い、照合データ記憶
機能で記憶された照合データを用いた照合処理と遅延照
合データ記憶機能で記憶された照合データを用いた照合
処理との間で処理の遅れがなくなると、遅延照合データ
記憶機能で記憶された照合データを照合データ記憶機能
で記憶された照合データにマージするモデル照合機能と
をコンピュータに実現させるための音声認識プログラム
である。

【００５１】

【発明の実施の形態】以下、この発明の実施の一形態を
説明する。実施の形態１．図１はこの発明の実施の形態１による音
声認識装置の構成を示す図である。図１において、８は
第二辞書記憶手段７の部分辞書に対する照合演算に用い
る遅延照合データ記憶手段である。５は第二辞書記憶手
段７からのダウンロードを行っている間、先行して照合
データ記憶手段４の照合データを用いて照合処理を進
め、第二辞書記憶手段７のダウンロードが終了すると遅
延照合データ記憶手段８のデータを用いて演算を行い、
第一辞書記憶手段６と第二辞書記憶手段７との間で処理
の遅れがなくなると遅延照合データ記憶手段８の照合デ
ータを照合データ記憶手段４の照合データにマージする
モデル照合手段である。その他の部分は図６に示した従
来の音声認識装置と同一のため、説明を省略する。

【００５２】次に動作について説明する。以下、第一辞
書記憶手段６をＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓ
Ｍｅｍｏｒｙ）、第二辞書記憶手段７をＤＶＤ−ＲＯＭ
（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ−Ｒ
ｅａｄＯｎｌｙＭｅｍｏｒｙ）として説明を行う。

【００５３】この実施の形態１でも説明のために従来例
と同じ図７に示す住所を認識対象とし、図８に示す単語
辞書の構成を持っているものとする。また、図１６に示
す記憶媒体記憶手段の内容も同じであるものとする。

【００５４】また、認識処理の流れも従来の音声認識装
置と同一であるため、ここでは説明を省略する。ここで
はこの発明の大きな特徴である遅延照合データ記憶手段
８を中心として説明を行う。

【００５５】以下、「香川県高松市朝日町」と発声した
場合について照合データ記憶手段４の記憶内容について
図２を用いて説明を行う。

【００５６】正解を含む３つの単語「香川県」、「高松
市」、「朝日町」のみについて説明を行う。照合データ
記憶手段４の中には照合処理中に上記の３つの単語以外
の単語の照合データも生成される場合もあるが、わかり
やすくするためここでは表示しない。

【００５７】図２は照合データ記憶手段４と遅延照合デ
ータ記憶手段８の記憶内容の変化について示す図であ
る。認識が開始されると、ＲＡＭからなる第一辞書記憶
手段６から部分辞書を読み込み、照合データ記憶手段４
に「香川県」の照合データが生成される（ステップ
１）。

【００５８】次に「高松市」の部分辞書が必要となる
と、ＲＡＭからなる第一辞書記憶手段６より高松市の部
分辞書を読み込み、「高松市」の照合データが生成され
る（ステップ２）。ここまでは、従来の音声認識装置と
同じ動作である。

【００５９】次に「朝日町」の部分辞書が必要となる
と、ＤＶＤ−ＲＯＭからなる第二辞書記憶手段７からグ
ループｇｒｐ２（図８）を読み出し、内部に含まれてい
る部分辞書より遅延照合データ記憶手段８に照合データ
を生成する（ステップ３）。

【００６０】ＤＶＤ−ＲＯＭからなる第二辞書記憶手段
７上の部分辞書を参照するには、時間が必要であるた
め、「朝日町」を含むグループｇｒｐ２のダウンロード
中も、照合データ記憶手段４上の照合データの「香川
県」と「高松市」の照合処理を、「朝日町」の照合処理
とは非同期に継続する。グループｇｒｐ２のダウンロー
ドが終了すると、遅延照合データ記憶手段８に「朝日
町」に対して、遅延分をまとめて照合処理を行う。

【００６１】次に、「朝日町」の遅延照合処理が終了す
ると、遅延照合データ記憶手段８から「朝日町」の照合
データが照合データ記憶手段４に移され、以後、「香川
県」、「高松市」と一緒に時間同期で照合処理が進めら
れる（ステップ４）。

【００６２】さらに、詳しく説明を行う。図３は同じく
ノード「香川県」「高松市」「朝日町」に対する照合デ
ータ記憶手段４および遅延照合データ記憶手段８に記憶
されている照合データのうちモデル照合手段５による演
算の演算対象となっている範囲を示す図である。図３に
おいて縦軸は単語辞書をノード単位で示し、横軸は時間
をフレーム単位で表す。図３で四角形の枠で示している
ものが演算範囲である。四角形の枠の上に記載されてい
るＦ１からＦ１７までは音声信号のフレームを表す。実
際の音声信号はもっと多くのフレームからなっている
が、ここでは説明のため１７フレームとして説明する。

【００６３】すでに述べたように、フレームとは、音声
信号が入力されている間、音響分析手段１からモデル照
合手段５へ繰り返し特徴ベクトルが送られる時間間隔の
ことで、通常１０ミリ秒程度の値のフレームが用いられ
る。

【００６４】図３の最上部に示しているステップ１から
ステップ４までは図２の各ステップとの対応を示すもの
である。図３の太い実線の四角形の枠で囲まれた部分
は、遅延照合データ記憶手段８を用いての遅延照合処理
を表し、太い破線の四角形で囲まれた部分は、照合デー
タ記憶手段４を用いての照合処理を表している。

【００６５】まず、音声が入力されると、無音部に続い
て「香川県」の先頭のノードから処理が開始される。た
だし、この図３では無音は表示していない。音声信号が
１フレーム分入力されるたびに、そのフレームに対する
演算範囲内のノードの演算が行われる。式（４）の条件
を満たすたびに認識対象範囲が進行してゆき、ビームサ
ーチにより式（３）の条件を満たすたびに古い状態は演
算範囲からはずれてゆく。

【００６６】「高松市」の最後のノードが式（４）の条
件を満たした場合、後続の「朝日町」の部分辞書をダウ
ンロードするため、ＤＶＤ−ＲＯＭからなる第二辞書記
憶手段７の参照が生じる。図３ではフレームＦ７では式
（４）の条件を満たさず、フレームＦ８で初めて満たす
ものとする。フレームＦ８のモデル照合終了後にＤＶＤ
−ＲＯＭからなる第二辞書記憶手段７の参照が始まる。

【００６７】この時、従来の音声認識装置ではＤＶＤ−
ＲＯＭ（第二辞書記憶手段７）の参照が終了するまです
べての状態に対する照合演算は停止する。即ち、従来の
音声認識装置では、図１７に示すように、「朝日町」の
照合データをＤＶＤ−ＲＯＭから参照する間は、フレー
ムＦ８に続くフレームＦ９の照合処理は行われない。

【００６８】これに対し、この実施の形態１による音声
認識装置では照合データ記憶手段４に存在する照合デー
タに関しては照合処理を継続する。図３において「高松
市」の照合データは既に照合データ記憶手段４中に存在
するため、「高松市」の照合データに関しては、ＤＶＤ
−ＲＯＭ（第二辞書記憶手段７）からの「朝日町」の照
合データの転送中も、照合演算を継続する。つまり、Ｄ
ＶＤ−ＲＯＭ（第二辞書記憶手段７）を参照することに
より遅延する照合データ（図３の場合には「朝日町」の
照合データ）を切り離し、フレーム同期でモデル照合処
理を継続することを意味する。遅延した照合データは別
の遅延照合データ記憶手段８を用いて、照合データ記憶
手段４とは独立して演算を行う。

【００６９】ＤＶＤ−ＲＯＭ（第二辞書記憶手段７）か
らの必要な部分辞書は遅延照合データ記憶手段８に取り
込まれ、必要な部分辞書の遅延照合データ記憶手段８へ
のロードが終了してから照合処理が再開される。図３の
例では処理待ちとなっている演算範囲はフレームＦ９か
らフレームＦ１３までの「朝日町」の照合データであ
る。

【００７０】モデル照合手段５では、ＤＶＤ−ＲＯＭ
（第二辞書記憶手段７）内の必要な部分辞書の遅延照合
データ記憶手段８への転送が終了すると、照合データ記
憶手段４の照合データに対するモデル照合処理を中断
し、遅延照合データ記憶手段８の照合データに対する処
理を行う。

【００７１】「朝日町」のフレームＦ９からフレームＦ
１３に対する照合処理が終了すると、遅延照合データ記
憶手段８の「朝日町」の照合データは全て照合データ記
憶手段４に転送されて、照合データ記憶手段４の照合デ
ータと結合され（マージされ）、遅延照合データ記憶手
段８の中身はクリアされる。以後、照合データ記憶手段
４としてフレーム同期で処理が進められる。

【００７２】このように構成することで、ＤＶＤ−ＲＯ
Ｍ（第二辞書記憶手段７）に参照を行っている間にも、
依存しない照合処理を進めることができ、応答速度の速
い音声認識装置を構成できるという効果がある。

【００７３】上記の説明ではＲＡＭ（第一辞書記憶手段
６）とＤＶＤ−ＲＯＭ（第二辞書記憶手段７）を記憶媒
体として用いる場合を一例として説明したが、ＲＡＭの
代わりにフラッシュＲＯＭ、ＥＰＲＯＭ、ＲＯＭ、ＲＡ
Ｍなど、また、ＤＶＤ−ＲＯＭの代わりにＣＤ−ＲＷ、
ＤＶＤ−ＲＡＭ、ＤＶＤ−ＲＷ、ＤＶＤ−Ｒ／Ｗ、ハー
ドディスクなどであっても良く同様に効果を奏する。遅
い記憶媒体としてインターネットなど音声認識装置の外
部にある記憶媒体であっても良く、同様な効果を奏す
る。

【００７４】また、上記の説明で用いた部分辞書のグル
ープへの分類は一例を示したものであり、他の分類の方
法でも良い。

【００７５】また、上記の説明では２種類の記憶媒体を
用いる方法について説明したが、３種類以上の記憶媒体
を用いてもよく同様に効果を奏する。

【００７６】また、上記の説明ではノードを単語として
説明したが、ノードは音素片、音素、半音節、音節、形
態素などの単位でも良く、同様に効果を奏する。また、
音声認識方式もＨＭＭとして説明したが、これはＤＰ
（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチン
グやニューラルネットを用いる音声認識方式でも良く同
様に効果を奏する。

【００７７】以上説明したように、この実施の形態１の
音声認識装置は、音声入力を入力し音響分析を行い特徴
ベクトルの時系列に変換する音響分析手段１と、読み出
し速度の早い記憶媒体からなる第一辞書記憶手段６と、
読み出し速度の遅い記憶媒体からなる第二辞書記憶手段
７と、第一辞書記憶手段６に記憶された部分辞書を読み
出して照合演算を行うための照合データとして記憶する
照合データ記憶手段４と、第二辞書記憶手段７に記憶さ
れた部分辞書を読み出して照合演算を行うための照合デ
ータとして遅延照合データ記憶手段８と、第二辞書記憶
手段７に記憶された部分辞書を読み出している間、先行
して照合データ記憶手段４に記憶された照合データを用
いて照合処理を進め、第二辞書記憶手段７からの読み出
しが終了すると遅延照合データ記憶手段８に記憶された
照合データを用いて照合処理を行い、照合データ記憶手
段４に記憶された照合データを用いた照合処理と遅延照
合データ記憶手段８に記憶された照合データを用いた照
合処理との間で処理の遅れがなくなると、遅延照合デー
タ記憶手段８に記憶された照合データを照合データ記憶
手段４に記憶された照合データにマージするモデル照合
手段５とを有する。

【００７８】また、以上の説明では、この実施の形態１
を音声認識装置としたが、この音声認識装置の各構成要
素が行う処理過程を備えた音声認識方法として、この実
施の形態１を実現することもできる。

【００７９】即ち、この実施の形態１の音声認識方法
は、音声入力を入力し音響分析を行い特徴ベクトルの時
系列に変換する音響分析過程と、読み出し速度の早い記
憶媒体に部分辞書を記憶する第一辞書記憶過程と、読み
出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書
記憶過程と、第一辞書記憶過程で記憶された部分辞書に
対する照合演算に用いる照合データを記憶する照合デー
タ記憶過程と、第二辞書記憶過程で記憶された部分辞書
に対する照合演算に用いる照合データを記憶する遅延照
合データ記憶過程と、第二辞書記憶過程で記憶された部
分辞書のダウンロードを行っている間、先行して上記照
合データ記憶過程で記憶された照合データを用いて照合
処理を進め、第二辞書記憶過程で記憶された部分辞書の
ダウンロードが終了すると遅延照合データ記憶過程で記
憶された照合データを用いて照合処理を行い、照合デー
タ記憶過程で記憶された照合データを用いた照合処理と
遅延照合データ記憶過程で記憶された照合データを用い
た照合処理との間で処理の遅れがなくなると、遅延照合
データ記憶過程で記憶された照合データを照合データ記
憶過程で記憶された照合データにマージするモデル照合
過程とを有する。

【００８０】また、この実施の形態１は、この音声認識
装置の各構成要素が行う処理機能をコンピュータで実現
させるための音声認識プログラムとして実現することも
できる。

【００８１】即ち、この実施の形態１の音声認識プログ
ラムは、音声入力を入力し音響分析を行い特徴ベクトル
の時系列に変換する音響分析機能と、読み出し速度の早
い記憶媒体に部分辞書を記憶する第一辞書記憶機能と、
読み出し速度の遅い記憶媒体に部分辞書を記憶する第二
辞書記憶機能と、第一辞書記憶機能で記憶された部分辞
書に対する照合演算に用いる照合データを記憶する照合
データ記憶機能と、第二辞書記憶機能で記憶された部分
辞書に対する照合演算に用いる照合データを記憶する遅
延照合データ記憶機能と、第二辞書記憶機能で記憶され
た部分辞書のダウンロードを行っている間、先行して照
合データ記憶機能で記憶された照合データを用いて照合
処理を進め、第二辞書記憶機能で記憶された部分辞書の
ダウンロードが終了すると遅延照合データ記憶機能で記
憶された照合データを用いて照合処理を行い、照合デー
タ記憶機能で記憶された照合データを用いた照合処理と
遅延照合データ記憶機能で記憶された照合データを用い
た照合処理との間で処理の遅れがなくなると、遅延照合
データ記憶機能で記憶された照合データを照合データ記
憶機能で記憶された照合データにマージするモデル照合
機能とをコンピュータに実現させるためのものである。

【００８２】以上のように、この実施の形態１によれ
ば、ＤＶＤ−ＲＯＭ（第二辞書記憶手段）からのダウン
ロードを、ＲＡＭ（第一辞書記憶手段）からのダウンロ
ードを行う照合データ記憶手段とは異なる遅延照合デー
タ記憶手段で行うようにしたので、ＤＶＤ−ＲＯＭ（第
二辞書記憶手段）に参照を行っている間にも、依存しな
い照合処理を進めることができ、応答速度の速い音声認
識装置を構成できるという効果が得られる。

【００８３】実施の形態２．以下、第一辞書記憶手段６
をＲＡＭ、第二辞書記憶手段７をＤＶＤ−ＲＯＭとして
この発明の実施の形態２について説明を行う。

【００８４】説明のために従来例と同じ図７に示す住所
を認識対象とし、図８に示す単語辞書の構成を持ってい
るものとする。また、図９に示す照合データ記憶手段４
の内容、図１７に示す記録媒体記憶手段３の内容も同じ
であるものとする。

【００８５】非常に参照速度が遅い記憶媒体を使用する
場合、参照は最低限にする必要がある場合がある。例え
ば、ＤＶＤ−ＲＯＭへの参照を１回のみに留める場合、
従来の音声認識装置においてもＤＶＤ−ＲＯＭへの参照
の回数制限を行い、式（４）を最も早く満たした単語の
後続部分辞書を選択するという方法が採用されている。

【００８６】具体的に説明すると、図８の単語辞書にお
いては「高松市」、「鎌倉市」、「藤沢市」、「大川
郡」の４単語がＤＶＤ−ＲＯＭ上の部分辞書に接続され
ている。４単語の最後のノードに対して式（４）の評価
が行われ、条件を満たした場合ＤＶＤ−ＲＯＭ上から部
分辞書が読み込まれる。ここで回数制限をかけることに
より、他のノードからＤＶＤ−ＲＯＭへの参照要求があ
っても許可しないことにより、ＤＶＤ−ＲＯＭへの参照
を1回のみに留めることも可能である。しかし、ここで
正解を含むグループを選択できなかったら、認識不能と
なる。正解を含むグループは早期に参照される傾向にあ
るが、ここではさらに、別の評価値をもって識別能力を
向上する実施の形態２について説明を行う。

【００８７】この実施の形態２における音声認識装置の
構成は図１に示した実施の形態１と同じのためここでは
説明を省略する。

【００８８】この実施の形態２は、モデル照合手段５の
機能が実施の形態１と異なっているため、以下にモデル
照合手段５の機能について説明を行う。

【００８９】図４は、この実施の形態２によるグループ
選択の動作を説明する図である。図４において、縦軸
は、以下の式（６）により求められる表価値Ｅ（ｎ，
Ｆ）の値を表し、横軸は、フレーム単位で表現した時間
を表している。

【００９０】ＤＶＤ−ＲＯＭからなる第二辞書記憶手段
７の転送要求をわかりやすくするため、式（６）で「高
松市」、「鎌倉市」、「藤沢市」、「大川郡」の最終ノ
ードの評価値の時間変化を示してみる。Ｅ（ｎ，Ｆ）＝｛Ｅｂｅｓｔｎｏｄｅ−Ｅａｒｃ［ｎ］｝_f=F （６）

【００９１】式（６）の評価値Ｅ（ｎ，Ｆ）が−Ｔａｒ
ｃを上回った場合、式（４）の条件に合致することを意
味する。

【００９２】このため図４の例では、フレームＦ７にお
いては「鎌倉市」が条件を満たし、フレームＦ８におい
ては「高松市」が条件を満たし、各フレームにおいて条
件を満たす照合データ（「鎌倉市」及び「高松市」）の
後続部分辞書についてのＤＶＤ−ＲＯＭ（第二辞書記憶
手段７）へのダウンロード要求が発生することを意味す
る。「鎌倉市」の後続部分辞書はｇｒｐ１に属してお
り、「高松市」の後続部分辞書はｇｒｐ２に属してい
る。このため、フレームＦ７において「鎌倉市」の後続
グループｇｒｐ１の読み出しを開始する。

【００９３】実施の形態１では、モデル照合手段５は
「鎌倉市」の後続グループｇｒｐ１のダウンロードの終
了を待って、「高松市」の後続グループｇｒｐ２のダウ
ンロードを開始する。この実施の形態２におけるモデル
照合手段５はグループ選択機能を有し、このグループ選
択機能では、正解が含まれると予測される評価値を用い
て、評価値の低いグループの読み込み処理を中断し、よ
り評価値の高いグループを優先して読み込むことを特徴
とする。

【００９４】式（６）の評価値は、「鎌倉市」の後続グ
ループｇｒｐ１のダウンロード中も照合データ記憶手段
５の「鎌倉市」及び「高松市」の照合データのモデル照
合処理を継続することにより、更新されているため、ｇ
ｒｐ１のダウンロード中に、より適切なグループを選択
することが可能である。

【００９５】この評価値は式（７）に示すように式
（６）のＥ（ｎ，Ｆ）の先頭フレームから現在のフレー
ムまでの最小値とする。

【数１】

【００９６】先頭フレームから現在フレームまでのＥｍ
ｉｎ（ｎ，Ｆ）の最大値をグループ選択の基準とするこ
ととする。図４においてはフレームＦ８において式
（７）の値より「鎌倉市」の後続グループよりは「高松
市」の後続グループ方が確からしいと判断できる。その
場合、図４の横軸の下に模式的に表したように、グルー
プ選択機能により、「鎌倉市」の後続グループｇｒｐ１
の読込みを中断して、「高松市」の後続グループｇｒｐ
２の読み出しを開始する。

【００９７】この後、「高松市」の後続グループの条件
を上回る候補はないため、ＤＶＤ−ＲＯＭからの部分辞
書の読込みが終了し、高松市の住所に関する遅延照合演
算が行われる。

【００９８】このように、式（４）の条件を満たす順番
に加え、式（７）のようなダウンロードの評価値を導入
することによりＤＶＤ−ＲＯＭからのダウンロードを行
うグループ選択の精度を向上することができる。

【００９９】音声認識装置をこのように構成することに
より、参照速度の遅い記憶媒体からダウンロードしてい
る間に、評価値の更新を行い、ダウンロード元をより確
からしいグループへ切り替えることができるため、この
結果、応答速度の良好な音声認識装置を得られる効果が
ある。

【０１００】なお、式（７）の評価値は一例を示したも
のであり、他の評価値を用いても同様に効果がある。

【０１０１】以上説明したように、この実施の形態２の
音声認識装置は、実施の形態１の音声認識装置におい
て、モデル照合手段５が、第二辞書記憶手段７から部分
辞書がダウンロードされている間に、照合データ記憶手
段４に記憶された照合データを用いた照合処理の照合結
果により、上記ダウンロードされている部分辞書に対応
する照合データよりも評価値の高い照合データが検出さ
れた場合に、上記第二辞書記憶手段７からダウンロード
する部分辞書を上記表価値の高い照合データに対応する
部分辞書に切り替えてダウンロードを行うものである。

【０１０２】また、この実施の形態２の音声認識装置
は、モデル照合手段５が、照合データ記憶手段４に記憶
された照合データの照合処理の結果が所定の値を超える
と、第二辞書記憶手段７に記憶された部分辞書のうちそ
の照合データに対応する部分辞書をダウンロードするも
のである。

【０１０３】以上の説明では、この実施の形態２を音声
認識装置として説明したが、この音声認識装置の各構成
要素において行われる処理過程を有する音声認識方法と
してこの実施の形態２を実現することもできる。

【０１０４】即ち、この実施の形態２の音声認識方法
は、実施の形態１の音声認識方法において、モデル照合
過程において、第二辞書記憶過程で記憶された部分辞書
のダウンロードが行われている間に、照合データ記憶過
程で記憶された照合データを用いた照合処理の照合結果
により評価値の高い部分辞書が検出された場合に、ダウ
ンロードを行う部分辞書を切り替えるものである。

【０１０５】また、この実施の形態２の音声認識方法
は、モデル照合過程において、照合データ記憶過程で記
憶された照合データの照合処理の結果が所定の値を超え
ると、第二辞書記憶過程で記憶された部分辞書のうちそ
の照合データに対応する部分辞書をダウンロードするも
のである。

【０１０６】また、この実施の形態２は、音声認識装置
の各構成要素が行う処理機能をコンピュータで実現させ
るための音声認識プログラムとして実現することもでき
る。

【０１０７】即ち、この実施の形態２の音声認識プログ
ラムは、実施の形態１の音声認識プログラムにおいて、
モデル照合機能において、第二辞書記憶機能で記憶され
た部分辞書のダウンロードが行われている間に、照合デ
ータ記憶機能で記憶された照合データを用いた照合処理
の照合結果により評価値の高い部分辞書が検出された場
合に、ダウンロードを行う部分辞書を切り替えるもので
ある。

【０１０８】また、この実施の形態２の音声認識プログ
ラムは、モデル照合機能において、照合データ記憶機能
で記憶された照合データの照合処理の結果が所定の値を
超えると、第二辞書記憶機能で記憶された部分辞書のう
ちその照合データに対応する部分辞書をダウンロードす
るものである。

【０１０９】以上のように、この実施の形態２によれ
ば、式（４）の条件を満たす順番に加え、式（７）のよ
うなダウンロードの評価値を導入することにより、ＤＶ
Ｄ−ＲＯＭからのダウンロードを行うグループ選択の精
度を向上することができる効果が得られる。

【０１１０】また、参照速度の遅い記憶媒体からダウン
ロードしている間に、評価値の更新を行うようにしたの
で、ダウンロード元をより確からしいグループへ切り替
えることができるため、応答速度の良好な音声認識装置
を得られる効果が得られる。

【０１１１】実施の形態３．上記の実施の形態２では式
（７）の評価値により、グループの読み込みを中断する
ものであったが、この実施の形態３では、一定時間内の
評価値の変化を見て読み込むグループを判定するもので
ある。

【０１１２】説明のために従来例と同じ図７に示す住所
を認識対象とし、図８に示す単語辞書の構成を持ってい
るものとする。また、図９に示す照合データ記憶手段４
の内容、図１７に示す記録媒体記憶手段３の内容も同じ
であるものとする。

【０１１３】この実施の形態３の構成は図１に示す実施
の形態１と同じのため、ここでは説明を省略する。

【０１１４】また、モデル照合手段５以外の動作は実施
の形態２と同じのため、ここでは説明を省略する。

【０１１５】ここではモデル照合手段５の動作について
説明を行う。図５はこの実施の形態３によるグループ選
択機能の動作を説明する図である。図５においても、図
４と同様に、縦軸は、式（６）により求められる表価値
Ｅ（ｎ，Ｆ）の値を表し、横軸は、フレーム単位で表現
した時間を表している。

【０１１６】この実施の形態３においても図４に示す評
価値の変化であったものとする。フレームＦ７において
「鎌倉市」の最終ノードの評価値が式（４）の条件を満
たすため、図５の横軸の下に模式的に表したように、グ
ループ選択機能により「鎌倉市」の後続グループがダウ
ンロード待ち状態になる。この実施の形態３ではこれか
ら時間Ｔ経過後、式（７）の条件で全ての後続グループ
を調べる判定が行われ、最も評価値の高い上位Ｎグルー
プをダウンロードするものである。

【０１１７】図５ではＮ＝１の場合を示し、時間Ｔ経過
後、「高松市」の後続グループが最も評価値が高いため
ダウンロードされ、遅延照合処理が実行される。「鎌倉
市」の後続グループはダウンロードされないため、認識
対象とはならない。

【０１１８】音声認識装置をこのように構成することに
より、参照速度の遅い記憶媒体からダウンロードするグ
ループの選択精度を向上することができるため、ダウン
ロードする部分辞書の量を減少させることができ、この
結果、応答速度の良好な音声認識装置を得られる効果が
ある。

【０１１９】以上説明したように、この実施の形態３の
音声認識装置は、実施の形態１の音声認識装置におい
て、モデル照合手段５が、一定時間待ってから、照合デ
ータ記憶手段４により記憶された照合データを用いた照
合処理の照合結果により、第二辞書記憶手段７に記憶さ
れた部分辞書のうちからダウンロードを行う部分辞書を
選択してダウンロードを行うものである。

【０１２０】また、この実施の形態３の音声認識装置
は、モデル照合手段５が、照合データ記憶手段４に記憶
された照合データの照合処理の結果が所定の値を超えて
から一定時間の間待って第二辞書記憶手段７に記憶され
た部分辞書のうちからどの部分辞書をダウンロードする
かを選択するものである。

【０１２１】以上の説明では、この実施の形態３を音声
認識装置として説明したが、この音声認識装置の各構成
要素において行われる処理過程を有する音声認識方法と
してこの実施の形態３を実現することもできる。即ち、
この実施の形態３の音声認識方法は、実施の形態１の音
声認識方法において、モデル照合過程において、照合デ
ータ記憶過程で記憶された照合データを用いた照合処理
の照合結果が得られるのを一定時間の間待ってから、ダ
ウンロードを行う部分辞書を選択してダウンロードを行
うものである。

【０１２２】また、この実施の形態３の音声認識方法
は、モデル照合過程において、照合データ記憶過程で記
憶された照合データの照合処理の結果が所定の値を超え
てから一定時間の間待って第二辞書記憶過程で記憶され
た部分辞書のうちからどの部分辞書をダウンロードする
かを選択するものである。

【０１２３】また、この実施の形態３は、音声認識装置
の各構成要素が行う処理機能をコンピュータで実現させ
るための音声認識プログラムとして実現することもでき
る。

【０１２４】即ち、この実施の形態３の音声認識プログ
ラムは、実施の形態１の音声認識プグラムにおいて、モ
デル照合機能において、照合データ記憶機能で記憶され
た照合データを用いた照合処理の照合結果が得られるの
を一定時間の間待ってから、ダウンロードを行う部分辞
書を選択してダウンロードを行うものである。

【０１２５】また、この実施の形態３の音声認識プログ
ラムは、モデル照合機能において、照合データ記憶機能
で記憶された照合データの照合処理の結果が所定の値を
超えてから一定時間の間待って第二辞書記憶機能で記憶
された部分辞書のうちからどの部分辞書をダウンロード
するかを選択するものである。

【０１２６】以上のように、この実施の形態３によれ
ば、評価値の更新を一定時間の間待ってから行いその評
価値に基づいてダウンロードする部分辞書を選択してダ
ウンロードするようにしたので、参照速度の遅い記憶媒
体からダウンロードするグループの選択精度を向上する
ことができ、ダウンロードする部分辞書の量を減少さ
せ、応答速度の良好な音声認識装置を得られる効果が得
られる。

【０１２７】

【発明の効果】以上のように、この発明によれば、参照
速度の遅い記憶媒体からのダウンロードを参照速度の速
い記憶媒体からのダウンロードを行う記憶手段とは異な
る記憶手段で行うようにしたので、参照速度の遅い記憶
媒体に参照を行っている間にも、その参照速度の遅い記
憶媒体への参照動作に依存しない照合処理を進めること
ができ、応答速度の速い音声認識装置を得られる効果が
ある。

【０１２８】この発明によれば、ダウンロードの評価値
を導入することにより、参照速度の遅い記憶媒体からの
ダウンロードを行うグループ選択の精度を向上すること
ができる効果がある。また、参照速度の遅い記憶媒体か
らダウンロードしている間に、評価値の更新を行うよう
にしたので、ダウンロード元をより確からしいグループ
へ切り替えることができるため、応答速度の良好な音声
認識装置を得られる効果がある。

【０１２９】この発明によれば、評価値の更新を一定時
間の間待ってから行いその評価値に基づいてダウンロー
ドする部分辞書を選択してダウンロードするようにした
ので、参照速度の遅い記憶媒体からダウンロードするグ
ループの選択精度を向上することができ、ダウンロード
する部分辞書の量を減少させ、応答速度の良好な音声認
識装置を得られる効果がある。

【０１３０】この発明によれば、参照速度の遅い記憶媒
体からのダウンロードを参照速度の速い記憶媒体からの
ダウンロードを行う記憶過程とは異なる記憶過程で行う
ようにしたので、参照速度の遅い記憶媒体に参照を行っ
ている間にも、その参照速度の遅い記憶媒体への参照動
作に依存しない照合処理を進めることができ、応答速度
の速い音声認識方法を得られる効果がある。

【０１３１】この発明によれば、ダウンロードの評価値
を導入することにより、参照速度の遅い記憶媒体からの
ダウンロードを行うグループ選択の精度を向上すること
ができる効果がある。また、参照速度の遅い記憶媒体か
らダウンロードしている間に、評価値の更新を行うよう
にしたので、ダウンロード元をより確からしいグループ
へ切り替えることができるため、応答速度の良好な音声
認識方法を得られる効果がある。

【０１３２】この発明によれば、評価値の更新を一定時
間の間待ってから行いその評価値に基づいてダウンロー
ドする部分辞書を選択してダウンロードするようにした
ので、参照速度の遅い記憶媒体からダウンロードするグ
ループの選択精度を向上することができ、ダウンロード
する部分辞書の量を減少させ、応答速度の良好な音声認
識方法を得られる効果がある。

【０１３３】この発明によれば、参照速度の遅い記憶媒
体からのダウンロードを参照速度の速い記憶媒体からの
ダウンロードを行う記憶機能とは異なる記憶機能で行う
ようにしたので、参照速度の遅い記憶媒体に参照を行っ
ている間にも、その参照速度の遅い記憶媒体への参照動
作に依存しない照合処理を進めることができ、応答速度
の速い音声認識プログラムを得られる効果がある。

【図面の簡単な説明】

【図１】この発明の実施の形態１の音声認識装置の構
成を説明する図である。

【図２】この発明の実施の形態１の音声認識装置の照
合データ記憶手段の記憶内容の構成を説明する図であ
る。

【図３】演算範囲を説明する図である。

【図４】この発明の実施の形態２の音声認識装置グル
ープ選択の動作を説明する図である。

【図５】この発明の実施の形態３の音声認識装置グル
ープ選択の動作を説明する図である。

【図６】従来の音声認識装置の構成を説明する図であ
る。

【図７】認識対象の住所の一例を表す図である。

【図８】単語辞書の構成を示す図である。

【図９】照合データ記憶手段の記憶内容を示す図であ
る。

【図１０】照合データ記憶手段の記憶内容を示す図で
ある。

【図１１】モデル照合部の動作を説明する図である。

【図１２】照合データ記憶手段のＨＭＭの内容を示す
図である。

【図１３】照合データ記憶手段のＨＭＭの内容を示す
図である。

【図１４】標準モデル記憶手段の内容を示す図であ
る。

【図１５】部分辞書の構造を示す図である。

【図１６】単語データの内部情報を表す図である。

【図１７】記録媒体記憶手段の記憶内容を示す図であ
る。

【図１８】従来の音声認識装置の演算範囲を説明する
図である。

【符号の説明】

１音響分析手段、２標準モデル記憶手段、３記録
媒体記憶手段、４照合データ記憶手段、５モデル照
合手段、６第一辞書記憶手段、７第二辞書記憶手
段、８遅延照合データ記憶手段。

Claims

【特許請求の範囲】

【請求項１】入力された音声に対し音響分析を行い特
徴ベクトルの時系列に変換する音響分析手段と、読み出し速度の早い記憶媒体からなる第一辞書記憶手段
と、読み出し速度の遅い記憶媒体からなる第二辞書記憶手段
と、上記第一辞書記憶手段に記憶された部分辞書を読み出し
て照合演算を行うための照合データとして記憶する照合
データ記憶手段と、上記第二辞書記憶手段に記憶された部分辞書を読み出し
て照合演算を行うための照合データとして遅延照合デー
タ記憶手段と、上記第二辞書記憶手段に記憶された部分辞書を読み出し
ている間、先行して上記照合データ記憶手段に記憶され
た照合データを用いて照合処理を進め、上記第二辞書記
憶手段からの読み出しが終了すると上記遅延照合データ
記憶手段に記憶された照合データを用いて照合処理を行
い、上記照合データ記憶手段に記憶された照合データを
用いた照合処理と上記遅延照合データ記憶手段に記憶さ
れた照合データを用いた照合処理との間で処理の遅れが
なくなると、上記遅延照合データ記憶手段に記憶された
照合データを上記照合データ記憶手段に記憶された照合
データにマージするモデル照合手段とを有することを特
徴とする音声認識装置。
【請求項２】モデル照合手段が、第二辞書記憶手段から部分辞書がダウンロードされてい
る間に、照合データ記憶手段に記憶された照合データを
用いた照合処理の照合結果により、上記ダウンロードさ
れている部分辞書に対応する照合データよりも評価値の
高い照合データが検出された場合に、上記第二辞書記憶
手段からダウンロードする部分辞書を上記評価値の高い
照合データに対応する部分辞書に切り替えてダウンロー
ドを行うことを特徴とする請求項１記載の音声認識装
置。
【請求項３】モデル照合手段が、一定時間待ってから、照合データ記憶手段により記憶さ
れた照合データを用いた照合処理の照合結果により、第
二辞書記憶手段に記憶された部分辞書のうちからダウン
ロードを行う部分辞書を選択してダウンロードを行うこ
とを特徴とする請求項１記載の音声認識装置。
【請求項４】モデル照合手段が、照合データ記憶手段に記憶された照合データの照合処理
の結果が所定の値を超えると、第二辞書記憶手段に記憶
された部分辞書のうちその照合データに対応する部分辞
書をダウンロードすることを特徴とする請求項２記載の
音声認識装置。
【請求項５】モデル照合手段が、照合データ記憶手段に記憶された照合データの照合処理
の結果が所定の値を超えてから一定時間の間待って第二
辞書記憶手段に記憶された部分辞書のうちからどの部分
辞書をダウンロードするかを選択することを特徴とする
請求項３記載の音声認識装置。
【請求項６】入力された音声に対し音響分析を行い特
徴ベクトルの時系列に変換する音響分析過程と、読み出し速度の早い記憶媒体に部分辞書を記憶する第一
辞書記憶過程と、読み出し速度の遅い記憶媒体に部分辞書を記憶する第二
辞書記憶過程と、上記第一辞書記憶過程で記憶された部分辞書に対する照
合演算に用いる照合データを記憶する照合データ記憶過
程と、上記第二辞書記憶過程で記憶された部分辞書に対する照
合演算に用いる照合データを記憶する遅延照合データ記
憶過程と、上記第二辞書記憶過程で記憶された部分辞書のダウンロ
ードを行っている間、先行して上記照合データ記憶過程
で記憶された照合データを用いて照合処理を進め、上記
第二辞書記憶過程で記憶された部分辞書のダウンロード
が終了すると上記遅延照合データ記憶過程で記憶された
照合データを用いて照合処理を行い、上記照合データ記
憶過程で記憶された照合データを用いた照合処理と上記
遅延照合データ記憶過程で記憶された照合データを用い
た照合処理との間で処理の遅れがなくなると、上記遅延
照合データ記憶過程で記憶された照合データを上記照合
データ記憶過程で記憶された照合データにマージするモ
デル照合過程とを有することを特徴とする音声認識方
法。
【請求項７】モデル照合過程において、第二辞書記憶過程で記憶された部分辞書のダウンロード
が行われている間に、照合データ記憶過程で記憶された
照合データを用いた照合処理の照合結果により評価値の
高い部分辞書が検出された場合に、ダウンロードを行う
部分辞書を切り替えることを特徴とする請求項６記載の
音声認識方法。
【請求項８】モデル照合過程において、照合データ記憶過程で記憶された照合データを用いた照
合処理の照合結果が得られるのを一定時間の間待ってか
ら、ダウンロードを行う部分辞書を選択してダウンロー
ドを行うことを特徴とする請求項６記載の音声認識方
法。
【請求項９】モデル照合過程において、照合データ記憶過程で記憶された照合データの照合処理
の結果が所定の値を超えると、第二辞書記憶過程で記憶
された部分辞書のうちその照合データに対応する部分辞
書をダウンロードすることを特徴とする請求項７記載の
音声認識方法。
【請求項１０】モデル照合過程において、照合データ記憶過程で記憶された照合データの照合処理
の結果が所定の値を超えてから一定時間の間待って第二
辞書記憶過程で記憶された部分辞書のうちからどの部分
辞書をダウンロードするかを選択することを特徴とする
請求項８記載の音声認識方法。
【請求項１１】入力された音声に対し音響分析を行い
特徴ベクトルの時系列に変換する音響分析機能と、読み出し速度の早い記憶媒体に部分辞書を記憶する第一
辞書記憶機能と、読み出し速度の遅い記憶媒体に部分辞書を記憶する第二
辞書記憶機能と、上記第一辞書記憶機能で記憶された部分辞書に対する照
合演算に用いる照合データを記憶する照合データ記憶機
能と、上記第二辞書記憶機能で記憶された部分辞書に対する照
合演算に用いる照合データを記憶する遅延照合データ記
憶機能と、上記第二辞書記憶機能で記憶された部分辞書のダウンロ
ードを行っている間、先行して上記照合データ記憶機能
で記憶された照合データを用いて照合処理を進め、上記
第二辞書記憶機能で記憶された部分辞書のダウンロード
が終了すると上記遅延照合データ記憶機能で記憶された
照合データを用いて照合処理を行い、上記照合データ記
憶機能で記憶された照合データを用いた照合処理と上記
遅延照合データ記憶機能で記憶された照合データを用い
た照合処理との間で処理の遅れがなくなると、上記遅延
照合データ記憶機能で記憶された照合データを上記照合
データ記憶機能で記憶された照合データにマージするモ
デル照合機能とをコンピュータに実現させるための音声
認識プログラム。