JP4104831B2

JP4104831B2 - 音声認識装置、音声認識方法、及び音声認識プログラム

Info

Publication number: JP4104831B2
Application number: JP2001070937A
Authority: JP
Inventors: 知弘岩▲さき▼
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2001-03-13
Filing date: 2001-03-13
Publication date: 2008-06-18
Anticipated expiration: 2021-03-13
Also published as: JP2002268673A

Description

【０００１】
【発明の属する技術分野】
この発明は音声により住所検索などの大語彙認識を行う音声認識装置、音声認識方法、及び音声認識プログラムに関するものである。
【０００２】
【従来の技術】
大語彙の音声認識を行う場合には、大規模な単語辞書が必要である。全ての単語辞書を高速に参照可能な内部メモリに置いて認識処理を行うことが望ましいが、組み込み機器など内部メモリ量が小さい場合には、一部の辞書を参照速度の遅い記憶媒体に記録して、これらを参照しながら認識を行う必要がある場合がある。ここでは、特願平１１−２５４２８６号明細書に記述されている音声認識装置を一例として、従来の音声認識装置の説明を行う。以下、音声認識方式としてはＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ：隠れマルコフモデル）を用い、認識対象を住所とし、認識する単位であるノードを音節として説明を行う。
【０００３】
図６は従来の音声認識装置の構成を示す図である。
１は音声信号を入力し音響分析を行い特徴ベクトルの時系列に変換する音響分析手段であり、２は認識対象の標準モデルを記憶する標準モデル記憶手段である。６は辞書を記憶した高速に参照可能な記録媒体からなる第一辞書記憶手段であり、７は辞書を記憶した高速では参照不可能な記録媒体からなる第二辞書記憶手段である。３は部分辞書とその部分辞書が記録された記録媒体との対応を表すために、部分辞書が記録された記憶媒体またグループ名を記憶する記録媒体記憶手段である。４は照合処理の作業領域として、第一辞書記憶手段６及び第二辞書記憶手段７に記憶された部分辞書を読み出して照合データとして記憶する照合データ記憶手段であり、５は音響分析手段１からの特徴ベクトルに対し、標準モデル記憶手段２からの標準モデルと、照合データ記憶手段４に記憶された第一辞書記憶手段６及び第二辞書記憶手段７から読み出された照合データとしての部分辞書とを参照しながら、標準モデルと照合データとの照合処理を行い、特徴ベクトルを認識した認識結果を出力するモデル照合手段である。
【０００４】
以下の説明では、第一辞書記憶手段６をＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、第二辞書記憶手段７をＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）として説明を行う。ＲＡＭは高速に参照可能な記録媒体であるが、コストが非常に高いという特徴がある。これに対して、ＤＶＤ−ＲＯＭは非常に大容量でコストが安いが読み出し速度が遅いという特徴がある。
【０００５】
住所などの大語彙の認識を行う場合には単語辞書の大きさが膨大となり、単語辞書をＲＡＭに全部記憶しておくことはコストが大きくなる。さらに、単語辞書をすべてＤＶＤ−ＲＯＭに記憶した場合には、ＤＶＤ−ＲＯＭの参照回数が大きくなり、参照のオーバーヘッドにより認識する時間が非常に長くなり、音声認識装置としての応答速度に問題が生じる。そのため、辞書を記憶する記憶媒体を２種類用い、選択された使用頻度の高い部分辞書のみＲＡＭに記憶し、使用頻度の低い部分辞書はコストの安いＤＶＤ−ＲＯＭに記憶するものとする。
【０００６】
次に動作について説明する。
図７は、認識対象となる住所の例を示す図である。ここでは図７に示す住所を認識対象とする場合の動作について説明する。認識に先立ち標準モデル記憶手段２には標準モデルが、第一辞書記憶手段（ＲＡＭ）６および第二辞書記憶手段（ＤＶＤ−ＲＯＭ）７には住所を表現する辞書が、各々、収められているものとする。
【０００７】
図８は、第一辞書記憶手段６および第二辞書記憶手段７に記憶されている単語辞書の内容を示す。図８では、認識対象の住所の地名が四角形の枠の中に、またその接続が矢印で示されている。各単語は角の丸い枠で示されたｎｅｔ１からｎｅｔ１２の部分辞書に分割されて記憶されており、ｎｅｔ１からｎｅｔ１２の各部分辞書を単位としてモデル照合手段５に取り込まれ、照合演算に用いることができる。三角は部分辞書へのエントリーポイントを示し、例えば部分辞書ｎｅｔ５の「江ノ島」は部分辞書ｎｅｔ９の「1丁目」、「２丁目」、「３丁目」のそれぞれに接続されていることを示す。
【０００８】
ここで、含まれる部分辞書の使用予想頻度に応じて、その部分辞書を記憶する記録媒体をＲＡＭからなる第一辞書記憶手段６あるいはＤＶＤ−ＲＯＭからなる第二辞書記憶手段７に決定し、図１６に示すように各部分辞書が記憶された記録媒体を記憶媒体記憶手段３に記録しているものとする。図８において、実線の角の丸い枠で示された部分辞書（ｎｅｔ１からｎｅｔ４、ｎｅｔ９、および、ｎｅｔ１２）は、ＲＡＭからなる第一辞書記憶手段６に記憶されていて、破線の角の丸い枠で示された部分辞書（ｎｅｔ５からｎｅｔ８、ｎｅｔ１０、および、ｎｅｔ１１）は、ＤＶＤ−ＲＯＭからなる第二辞書記憶手段７に記憶されている。
【０００９】
ＤＶＤ−ＲＯＭ（第二辞書記憶手段７）は１回の参照に時間がかかるため、ＤＶＤ−ＲＯＭに記憶してある依存関係の強い部分辞書をひとまとめのグループとして記憶して、参照する時に依存性の高い部分辞書をまとめて読み出すことにより参照回数を減少させている。
【００１０】
ここでは図８の一点鎖線に示すように、部分辞書ｎｅｔ５および部分辞書ｎｅｔ６をグループｇｒｐ１にまとめ、部分辞書ｎｅｔ７、部分辞書ｎｅｔ８、部分辞書ｎｅｔ１０、及び部分辞書ｎｅｔ１１をｇｒｐ２にまとめるものとする。基本的には県単位でグループ化しているが、グループ選択の精度を向上させるため、それぞれの先頭単語の部分辞書ｎｅｔ３およびｎｅｔ４はＲＡＭ（第一辞書記憶手段６）上に置くものとする。このように構成することにより、グループの選択時に先読み情報としてｎｅｔ３及びｎｅｔ４を使用することができるため、認識時にグループの選択精度が向上する。各部分辞書がどのグループに属するかは図１６に示すように記録媒体記憶手段３に記憶されている。
【００１１】
図１５に示した部分辞書ｎｅｔ２を一例として、部分辞書の構造について説明する。ｎｅｔ２はひとつのエントリーポイント（ｅｎｔｒｙ０）を有し、内部に「神奈川県」と「香川県」の２単語を含む。神奈川県は次に部分辞書ｎｅｔ３のエントリーポイントｅｎｔｒｙ０に接続され、香川県は次に部分辞書ｎｅｔ４のエントリーポイントｅｎｔｒｙ０に接続される。香川県のノードに対してモデル照合する場合には、図１８に示す単語内のノード情報を用いる。
【００１２】
図１６は香川県のノード情報を示した図である。香川県は、「カ」、「ガ」、「ワ」、「ケ」、および「ン」の５ノードから構成され、ここでは各ノードにｎｏｄｅ１からｎｏｄｅ５までの番号が与えられている。
【００１３】
図１４は標準モデル記憶手段２の記憶内容を示す図である。それぞれのノードに対応するＨＭＭのパラメータが記憶されている。ＨＭＭのパラメータとしては状態数、状態間の遷移確率などＨＭＭの照合演算に必要なパラメータがあらかじめ入っているものとする。
【００１４】
図９及び図１０は、照合データ記憶手段４の記憶内容を示す図である。
図９に示すように、認識が開始されるとまず、最初の単語である無音を含む部分辞書ｎｅｔ１がＲＡＭからなる第一辞書記憶手段６より読み出され、照合データ記憶手段４に読み出された部分辞書に必要な作業領域が取られる。
【００１５】
認識処理が進められ、続く部分辞書の照合処理が必要となると、図１０に示すように部分辞書ｎｅｔ１に続く部分辞書ｎｅｔ２がＲＡＭより読み出され、照合データ記憶手段４内に部分辞書ｎｅｔ２に必要な作業領域が確保される。このように認識処理が進むにつれ、第一辞書記憶手段６または第二辞書記憶手段７より必要な部分辞書が読み出され、照合データ記憶手段４に読み出された部分辞書に必要な作業領域が確保されてゆく。
【００１６】
次にモデル照合の動作について説明する。
音響分析手段１に音声信号が入力されると一定時間間隔で音響分析が行われ、特徴ベクトルに変換されて出力される。音声信号が入力されている間、音響分析手段１からモデル照合手段５へは繰り返し特徴ベクトルが送られる。この特徴ベクトルが送られる時間間隔をフレームと呼び、通常１０ミリ秒程度の値のフレームが用いられる。
【００１７】
図１１は、モデル照合手段５の内部で行われる処理の流れ図である。モデル照合手段５の内部では図１１に示す流れ図で示される処理をフレーム単位で繰り返す。
【００１８】
ステップＳＴ４５１ではノード内の状態に対する照合演算を行うノード内演算処理が行われる。ステップＳＴ４５２ではビームサーチの評価値を決定する評価値決定処理が行われる。
【００１９】
ステップＳＴ４５３ではビームサーチ処理を行うビームサーチ演算処理が行われ、ステップＳＴ４５４ではノード間の演算を行うノード間演算処理が行われる。
【００２０】
図１２はノード（ｎ）に対する照合データ記憶手段４のデータ構造の詳細を説明する図である。図９と図１０では照合データ記憶手段４の記憶内容を単語単位で示していたが、図１２ではノードの内容について記述してある。ノード（ｎ）はＳｎ（１）、Ｓｎ（２）、Ｓｎ（３）の３状態から構成されているものとする。
【００２１】
ノード（ｎ）の左端の状態Ｓｎ（０）はノード間演算のために用いられる疑似状態であり、Ｓｎ（１）、Ｓｎ（２）、Ｓｎ（３）の３つの状態がモデルの実体を表す。ａｎ（ｉ，ｊ）は状態ｉから状態ｊへの遷移確率に基づくペナルティーを表し、ｂｎ（ｉ）は状態ｉの出力確率に基づくペナルティーを表す。ペナルティーは確率が小さいほど大きな値となる。これらの遷移確率に基づくペナルティー、および出力確率に基づくペナルティーはＨＭＭを用いる認識では標準的に用いられるパラメータであり、ここでは詳細な説明は省略する。
【００２２】
これらのパラメータはあらかじめ図１４に示すように標準モデル記憶手段２に記憶されている。第一辞書記憶手段６あるいは第二辞書記憶手段７からノード（ｎ）を含む部分辞書が読み出された場合に、図１４に示されたパラメータが標準モデル記憶手段２から読み出され、照合データ記憶手段４の中に図１２に示すような照合データに対する領域が与えられる。
【００２３】
図１１のステップＳＴ４５１でのノード内演算処理においては、フレーム単位で特徴ベクトルに対する出力確率と状態間の遷移確率を用いて式（１）に示すモデル照合演算が行われ、Ｓｎ（ｉ）の更新が行われる。式（１）のＩｎはノード（ｎ）の状態数を表す。出力確率は入力された特徴ベクトルに対してそれぞれの状態の音響特徴を表す分布に対する確率演算を行い求められる。
Ｓ_n（ｉ）＝ｍａｘ（（Ｓ_n（ｉ）＋ａ_n（ｉ，ｉ）），（Ｓ_n（ｉ−１）＋ａ_n（ｉ−１，ｉ））＋ｂ_n（ｉ）
ｉ＝１，Ｉ_n （１）
【００２４】
図１１のステップＳＴ４５２の評価値決定処理では、式（２）より、ビームサーチのための評価値Ｅｎｏｄｅ（ｎ）と、ノード間遷移を行うための評価値Ｅａｒｃ（ｎ）と、ビームサーチの基準値Ｅｂｅｓｔｎｏｄｅを求める。Ｅｂｅｓｔｎｏｄｅはノードの中で最も良いビームサーチの評価値で代表するものとする。
Ｅｎｏｄｅ（ｎ）＝ｍａｘ（Ｓ_n（ｉ））_1<i<In
Ｅａｒｃ（ｎ）＝Ｓ_n（Ｉ_n）
Ｅｂｅｓｔｎｏｄｅ＝ｍａｘ（Ｅｎｏｄｅ（ｎ））_1<n<N （２）
【００２５】
図１１のステップＳＴ４５３のビームサーチ演算処理では、式（２）により求められたビームサーチのための評価値Ｅｎｏｄｅ（ｎ）が以下の式（３）の条件を満たさない場合、そのノードの照合演算を非活性化して、演算量を下げるものである。非活性化されたノードに対するノード内演算処理は行われない。式（３）のＴｎｏｄｅはビームサーチのための閾値であり、予め定められた規定値を用いる。
Ｅｎｏｄｅ（ｎ）＞Ｅｂｅｓｔｎｏｄｅ−Ｔｎｏｄｅ（３）
【００２６】
続いて図１１のステップＳＴ４５４のノード間演算処理では、式（２）で求められたノード間遷移を行うための評価値Ｅａｒｃ（ｎ）が式（４）の条件を満たすノードが照合データ記憶手段４に設けられた作業領域内になかった場合には、第一辞書記憶手段６または第二辞書記憶手段７より新たなノードを含む部分辞書が読み出されて、照合データ記憶手段４に新たなノードの作業領域を確保して、新たに読み込んだノードを活性化してノード間照合演算を行う。
Ｅａｒｃ（ｎ）＞Ｅｂｅｓｔｎｏｄｅ−Ｔａｒｃ（４）
【００２７】
続くノードを（ｎ＋１）とした場合にノード（ｎ＋１）の作業領域が確保された様子を図１３に示す。読み込まれた直後、ノード（ｎ＋１）の各状態のスコアは最も低い値に初期化される。
【００２８】
続いてノード（ｎ）とノード（ｎ＋１）の間で式（５）に示すノード間の照合処理を行う。ノード間の照合処理は以下の式で示される。
Ｓ_n+1 （０）＝Ｓ_n（Ｉ_n）（５）
【００２９】
続くノード（ｎ＋１）が照合データ記憶手段４に作業領域が取られており、非活性化されていた場合には再度活性化させて、式（５）に示すノード間の照合演算を行う。
【００３０】
モデル照合手段５では特徴ベクトルが入力されるたび繰り返し上記のように照合処理を進め、音声信号のすべての特徴ベクトルに対する処理が終了したら、最終的に最もスコアの高かった単語列を認識結果として出力する。
【００３１】
上記のように構成することにより、例えば「神奈川県藤沢市」という発声であれば藤沢市の最終ノードが式（４）の条件を満たし、続く部分辞書ｎｅｔ５を読み込もうとする。また、「香川県大川郡」の発声であれば部分辞書ｎｅｔ８を読み込もうとする。
【００３２】
ここで図１７の記録媒体記憶手段３の記憶内容を参照すると部分辞書ｎｅｔ５や部分辞書ｎｅｔ８はＤＶＤ−ＲＯＭ（第二辞書記憶手段７）上にあることがわかる。ＤＶＤ−ＲＯＭ上の部分辞書はグループ化されているため、同じく記録媒体記憶手段３を調べ含まれるグループ名を調べる。
【００３３】
部分辞書ｎｅｔ８を参照する場合、部分辞書ｎｅｔ８はグループｇｒｐ２に属しているため、音声認識装置はグループｇｒｐ２の中にある部分辞書ｎｅｔ７、部分辞書ｎｅｔ８、部分辞書ｎｅｔ１０、部分辞書ｎｅｔ１１をまとめて照合データ記憶手段４に取り込む。これにより、今後発声が予測される部分辞書ｎｅｔ８の後続部分辞書である部分辞書ｎｅｔ１０、および部分辞書ｎｅｔ１１も同時に読み込むことが可能であり、ＤＶＤ−ＲＯＭの参照回数の減少が可能である。この場合、最終的に認識に用いない部分辞書も同時に取り込んでしまうという問題はあるが、参照回数のオーバーヘッドを考えると、参照回数を減少させる方が応答時間の短縮につながる。
【００３４】
図１８を用いて音声認識装置の処理の流れを時間に沿って説明する。図１８は一例として「香川県」「高松市」「朝日町」に対する照合データ記憶手段に記憶されている照合データを示す図である。縦軸は演算範囲を図１２に示す状態単位で示す。横軸は時間を表す。演算された状態と時間の範囲を四角形の枠で示す。四角形の枠の上に記載されているＦ１からＦ１７までは音声信号のフレームを表している。実際の音声信号はもっと多くのフレームからなっているが、ここでは説明のため１７フレームとして説明する。
【００３５】
まず、音声が入力されると、無音部に続いて「香川県」の先頭のノードから処理が開始される。ただし、この図では無音は表示していない。音声信号が１フレーム分入力されるたびに、そのフレームに対する演算範囲内のノードの演算が行われる。音声信号が入力されるたびに認識対象範囲が進行してゆき、ビームサーチにより古いノードが演算範囲からはずれてゆく。「高松市」の最終ノードが式（４）の条件を満たした場合、ＤＶＤ−ＲＯＭ上の部分辞書の参照が必要となる。
【００３６】
図１８ではＦ７では式（４）の条件を満たさず、Ｆ８で初めて満たすものとする。Ｆ８においてＤＶＤ−ＲＯＭの参照が始まり、終了するまですべてのノードに対する照合演算を停止する。ＤＶＤ−ＲＯＭからの必要な部分辞書のロードが終了した場合、Ｆ９から照合処理が再開される。
【００３７】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、高速で参照することが不可能な記録媒体への参照が必要となった場合に、必要な部分辞書のデータを取り込む間、音声認識処理が待ち状態となり、結果として音声認識応答時間が遅くなるといった課題があった。
【００３８】
また、従来の音声認識装置は、式（４）の条件を満たしたグループよりＤＶＤ−ＲＯＭからのダウンロードを開始するため、部分辞書の選択精度が不足しており、正解を含む部分辞書以外の参照が多くなり、特に高速で参照することが不可能な記録媒体への参照が多くなり、結果として音声認識反応時間が遅くなるといった課題があった。また、ＤＶＤ−ＲＯＭへの参照回数を一定数に制限した場合に認識率の低下が大きい等の課題があった。
【００３９】
この発明は、上記のような課題を解決するためになされたもので、音声認識応答時間を短縮することのできる音声認識装置、音声認識方法および音声認識プログラムを得ることを目的とする。
【００４０】
【課題を解決するための手段】
この発明に係る音声認識装置は、入力された音声に対し音響分析を行い特徴ベクトルの時系列に変換する音響分析手段と、読み出し速度の早い記憶媒体からなる第一辞書記憶手段と、読み出し速度の遅い記憶媒体からなる第二辞書記憶手段と、第一辞書記憶手段に記憶された部分辞書を読み出して照合演算を行うための照合データとして記憶する照合データ記憶手段と、第二辞書記憶手段に記憶された部分辞書を読み出して照合演算を行うための照合データとして遅延照合データ記憶手段と、第二辞書記憶手段に記憶された部分辞書を読み出している間、先行して照合データ記憶手段に記憶された照合データを用いて照合処理を進め、第二辞書記憶手段からの読み出しが終了すると遅延照合データ記憶手段に記憶された照合データを用いて照合処理を行い、照合データ記憶手段に記憶された照合データを用いた照合処理と遅延照合データ記憶手段に記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、遅延照合データ記憶手段に記憶された照合データを照合データ記憶手段に記憶された照合データにマージするモデル照合手段とを有するものである。
【００４１】
この発明に係る音声認識装置は、モデル照合手段が、第二辞書記憶手段から部分辞書がダウンロードされている間に、照合データ記憶手段に記憶された照合データを用いた照合処理の照合結果により、ダウンロードされている部分辞書に対応する照合データよりも評価値の高い照合データが検出された場合に、第二辞書記憶手段からダウンロードする部分辞書を評価値の高い照合データに対応する部分辞書に切り替えてダウンロードを行うものである。
【００４２】
この発明に係る音声認識装置は、モデル照合手段が、一定時間待ってから、照合データ記憶手段により記憶された照合データを用いた照合処理の照合結果により、第二辞書記憶手段に記憶された部分辞書のうちからダウンロードを行う部分辞書を選択してダウンロードを行うものである。
【００４３】
この発明に係る音声認識装置は、モデル照合手段が、照合データ記憶手段に記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶手段に記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードするものである。
【００４４】
この発明に係る音声認識装置は、モデル照合手段が、照合データ記憶手段に記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶手段に記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択するものである。
【００４５】
この発明に係る音声認識方法は、入力された音声に対し音響分析を行い特徴ベクトルの時系列に変換する音響分析過程と、読み出し速度の早い記憶媒体に部分辞書を記憶する第一辞書記憶過程と、読み出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記憶過程と、第一辞書記憶過程で記憶された部分辞書に対する照合演算に用いる照合データを記憶する照合データ記憶過程と、第二辞書記憶過程で記憶された部分辞書に対する照合演算に用いる照合データを記憶する遅延照合データ記憶過程と、上記第二辞書記憶過程で記憶された部分辞書のダウンロードを行っている間、先行して照合データ記憶過程で記憶された照合データを用いて照合処理を進め、第二辞書記憶過程で記憶された部分辞書のダウンロードが終了すると遅延照合データ記憶過程で記憶された照合データを用いて照合処理を行い、照合データ記憶過程で記憶された照合データを用いた照合処理と遅延照合データ記憶過程で記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、遅延照合データ記憶過程で記憶された照合データを照合データ記憶過程で記憶された照合データにマージするモデル照合過程とを有するものである。
【００４６】
この発明に係る音声認識方法は、モデル照合過程において、第二辞書記憶過程で記憶された部分辞書のダウンロードが行われている間に、照合データ記憶過程で記憶された照合データを用いた照合処理の照合結果により評価値の高い部分辞書が検出された場合に、ダウンロードを行う部分辞書を切り替えるものである。
【００４７】
この発明に係る音声認識方法は、モデル照合過程において、照合データ記憶過程で記憶された照合データを用いた照合処理の照合結果が得られるのを一定時間の間待ってから、ダウンロードを行う部分辞書を選択してダウンロードを行うものである。
【００４８】
この発明に係る音声認識方法は、モデル照合過程において、照合データ記憶過程で記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶過程で記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードするものである。
【００４９】
この発明に係る音声認識方法は、モデル照合過程において、照合データ記憶過程で記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶過程で記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択するものである。
【００５０】
この発明に係る音声認識プログラムは、入力された音声に対し音響分析を行い特徴ベクトルの時系列に変換する音響分析機能と、読み出し速度の早い記憶媒体に部分辞書を記憶する第一辞書記憶機能と、読み出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記憶機能と、第一辞書記憶機能で記憶された部分辞書に対する照合演算に用いる照合データを記憶する照合データ記憶機能と、第二辞書記憶機能で記憶された部分辞書に対する照合演算に用いる照合データを記憶する遅延照合データ記憶機能と、第二辞書記憶機能で記憶された部分辞書のダウンロードを行っている間、先行して照合データ記憶機能で記憶された照合データを用いて照合処理を進め、第二辞書記憶機能で記憶された部分辞書のダウンロードが終了すると遅延照合データ記憶機能で記憶された照合データを用いて照合処理を行い、照合データ記憶機能で記憶された照合データを用いた照合処理と遅延照合データ記憶機能で記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、遅延照合データ記憶機能で記憶された照合データを照合データ記憶機能で記憶された照合データにマージするモデル照合機能とをコンピュータに実現させるための音声認識プログラムである。
【００５１】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１はこの発明の実施の形態１による音声認識装置の構成を示す図である。図１において、８は第二辞書記憶手段７の部分辞書に対する照合演算に用いる遅延照合データ記憶手段である。５は第二辞書記憶手段７からのダウンロードを行っている間、先行して照合データ記憶手段４の照合データを用いて照合処理を進め、第二辞書記憶手段７のダウンロードが終了すると遅延照合データ記憶手段８のデータを用いて演算を行い、第一辞書記憶手段６と第二辞書記憶手段７との間で処理の遅れがなくなると遅延照合データ記憶手段８の照合データを照合データ記憶手段４の照合データにマージするモデル照合手段である。その他の部分は図６に示した従来の音声認識装置と同一のため、説明を省略する。
【００５２】
次に動作について説明する。
以下、第一辞書記憶手段６をＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、第二辞書記憶手段７をＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ−ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）として説明を行う。
【００５３】
この実施の形態１でも説明のために従来例と同じ図７に示す住所を認識対象とし、図８に示す単語辞書の構成を持っているものとする。また、図１６に示す記憶媒体記憶手段の内容も同じであるものとする。
【００５４】
また、認識処理の流れも従来の音声認識装置と同一であるため、ここでは説明を省略する。ここではこの発明の大きな特徴である遅延照合データ記憶手段８を中心として説明を行う。
【００５５】
以下、「香川県高松市朝日町」と発声した場合について照合データ記憶手段４の記憶内容について図２を用いて説明を行う。
【００５６】
正解を含む３つの単語「香川県」、「高松市」、「朝日町」のみについて説明を行う。照合データ記憶手段４の中には照合処理中に上記の３つの単語以外の単語の照合データも生成される場合もあるが、わかりやすくするためここでは表示しない。
【００５７】
図２は照合データ記憶手段４と遅延照合データ記憶手段８の記憶内容の変化について示す図である。認識が開始されると、ＲＡＭからなる第一辞書記憶手段６から部分辞書を読み込み、照合データ記憶手段４に「香川県」の照合データが生成される（ステップ１）。
【００５８】
次に「高松市」の部分辞書が必要となると、ＲＡＭからなる第一辞書記憶手段６より高松市の部分辞書を読み込み、「高松市」の照合データが生成される（ステップ２）。ここまでは、従来の音声認識装置と同じ動作である。
【００５９】
次に「朝日町」の部分辞書が必要となると、ＤＶＤ−ＲＯＭからなる第二辞書記憶手段７からグループｇｒｐ２（図８）を読み出し、内部に含まれている部分辞書より遅延照合データ記憶手段８に照合データを生成する（ステップ３）。
【００６０】
ＤＶＤ−ＲＯＭからなる第二辞書記憶手段７上の部分辞書を参照するには、時間が必要であるため、「朝日町」を含むグループｇｒｐ２のダウンロード中も、照合データ記憶手段４上の照合データの「香川県」と「高松市」の照合処理を、「朝日町」の照合処理とは非同期に継続する。グループｇｒｐ２のダウンロードが終了すると、遅延照合データ記憶手段８に「朝日町」に対して、遅延分をまとめて照合処理を行う。
【００６１】
次に、「朝日町」の遅延照合処理が終了すると、遅延照合データ記憶手段８から「朝日町」の照合データが照合データ記憶手段４に移され、以後、「香川県」、「高松市」と一緒に時間同期で照合処理が進められる（ステップ４）。
【００６２】
さらに、詳しく説明を行う。
図３は同じくノード「香川県」「高松市」「朝日町」に対する照合データ記憶手段４および遅延照合データ記憶手段８に記憶されている照合データのうちモデル照合手段５による演算の演算対象となっている範囲を示す図である。図３において縦軸は単語辞書をノード単位で示し、横軸は時間をフレーム単位で表す。図３で四角形の枠で示しているものが演算範囲である。四角形の枠の上に記載されているＦ１からＦ１７までは音声信号のフレームを表す。実際の音声信号はもっと多くのフレームからなっているが、ここでは説明のため１７フレームとして説明する。
【００６３】
すでに述べたように、フレームとは、音声信号が入力されている間、音響分析手段１からモデル照合手段５へ繰り返し特徴ベクトルが送られる時間間隔のことで、通常１０ミリ秒程度の値のフレームが用いられる。
【００６４】
図３の最上部に示しているステップ１からステップ４までは図２の各ステップとの対応を示すものである。図３の太い実線の四角形の枠で囲まれた部分は、遅延照合データ記憶手段８を用いての遅延照合処理を表し、太い破線の四角形で囲まれた部分は、照合データ記憶手段４を用いての照合処理を表している。
【００６５】
まず、音声が入力されると、無音部に続いて「香川県」の先頭のノードから処理が開始される。ただし、この図３では無音は表示していない。音声信号が１フレーム分入力されるたびに、そのフレームに対する演算範囲内のノードの演算が行われる。式（４）の条件を満たすたびに認識対象範囲が進行してゆき、ビームサーチにより式（３）の条件を満たすたびに古い状態は演算範囲からはずれてゆく。
【００６６】
「高松市」の最後のノードが式（４）の条件を満たした場合、後続の「朝日町」の部分辞書をダウンロードするため、ＤＶＤ−ＲＯＭからなる第二辞書記憶手段７の参照が生じる。図３ではフレームＦ７では式（４）の条件を満たさず、フレームＦ８で初めて満たすものとする。フレームＦ８のモデル照合終了後にＤＶＤ−ＲＯＭからなる第二辞書記憶手段７の参照が始まる。
【００６７】
この時、従来の音声認識装置ではＤＶＤ−ＲＯＭ（第二辞書記憶手段７）の参照が終了するまですべての状態に対する照合演算は停止する。即ち、従来の音声認識装置では、図１７に示すように、「朝日町」の照合データをＤＶＤ−ＲＯＭから参照する間は、フレームＦ８に続くフレームＦ９の照合処理は行われない。
【００６８】
これに対し、この実施の形態１による音声認識装置では照合データ記憶手段４に存在する照合データに関しては照合処理を継続する。図３において「高松市」の照合データは既に照合データ記憶手段４中に存在するため、「高松市」の照合データに関しては、ＤＶＤ−ＲＯＭ（第二辞書記憶手段７）からの「朝日町」の照合データの転送中も、照合演算を継続する。つまり、ＤＶＤ−ＲＯＭ（第二辞書記憶手段７）を参照することにより遅延する照合データ（図３の場合には「朝日町」の照合データ）を切り離し、フレーム同期でモデル照合処理を継続することを意味する。遅延した照合データは別の遅延照合データ記憶手段８を用いて、照合データ記憶手段４とは独立して演算を行う。
【００６９】
ＤＶＤ−ＲＯＭ（第二辞書記憶手段７）からの必要な部分辞書は遅延照合データ記憶手段８に取り込まれ、必要な部分辞書の遅延照合データ記憶手段８へのロードが終了してから照合処理が再開される。図３の例では処理待ちとなっている演算範囲はフレームＦ９からフレームＦ１３までの「朝日町」の照合データである。
【００７０】
モデル照合手段５では、ＤＶＤ−ＲＯＭ（第二辞書記憶手段７）内の必要な部分辞書の遅延照合データ記憶手段８への転送が終了すると、照合データ記憶手段４の照合データに対するモデル照合処理を中断し、遅延照合データ記憶手段８の照合データに対する処理を行う。
【００７１】
「朝日町」のフレームＦ９からフレームＦ１３に対する照合処理が終了すると、遅延照合データ記憶手段８の「朝日町」の照合データは全て照合データ記憶手段４に転送されて、照合データ記憶手段４の照合データと結合され（マージされ）、遅延照合データ記憶手段８の中身はクリアされる。以後、照合データ記憶手段４としてフレーム同期で処理が進められる。
【００７２】
このように構成することで、ＤＶＤ−ＲＯＭ（第二辞書記憶手段７）に参照を行っている間にも、依存しない照合処理を進めることができ、応答速度の速い音声認識装置を構成できるという効果がある。
【００７３】
上記の説明ではＲＡＭ（第一辞書記憶手段６）とＤＶＤ−ＲＯＭ（第二辞書記憶手段７）を記憶媒体として用いる場合を一例として説明したが、ＲＡＭの代わりにフラッシュＲＯＭ、ＥＰＲＯＭ、ＲＯＭ、ＲＡＭなど、また、ＤＶＤ−ＲＯＭの代わりにＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−ＲＷ、ＤＶＤ−Ｒ／Ｗ、ハードディスクなどであっても良く同様に効果を奏する。遅い記憶媒体としてインターネットなど音声認識装置の外部にある記憶媒体であっても良く、同様な効果を奏する。
【００７４】
また、上記の説明で用いた部分辞書のグループへの分類は一例を示したものであり、他の分類の方法でも良い。
【００７５】
また、上記の説明では２種類の記憶媒体を用いる方法について説明したが、３種類以上の記憶媒体を用いてもよく同様に効果を奏する。
【００７６】
また、上記の説明ではノードを単語として説明したが、ノードは音素片、音素、半音節、音節、形態素などの単位でも良く、同様に効果を奏する。また、音声認識方式もＨＭＭとして説明したが、これはＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチングやニューラルネットを用いる音声認識方式でも良く同様に効果を奏する。
【００７７】
以上説明したように、この実施の形態１の音声認識装置は、音声入力を入力し音響分析を行い特徴ベクトルの時系列に変換する音響分析手段１と、読み出し速度の早い記憶媒体からなる第一辞書記憶手段６と、読み出し速度の遅い記憶媒体からなる第二辞書記憶手段７と、第一辞書記憶手段６に記憶された部分辞書を読み出して照合演算を行うための照合データとして記憶する照合データ記憶手段４と、第二辞書記憶手段７に記憶された部分辞書を読み出して照合演算を行うための照合データとして遅延照合データ記憶手段８と、第二辞書記憶手段７に記憶された部分辞書を読み出している間、先行して照合データ記憶手段４に記憶された照合データを用いて照合処理を進め、第二辞書記憶手段７からの読み出しが終了すると遅延照合データ記憶手段８に記憶された照合データを用いて照合処理を行い、照合データ記憶手段４に記憶された照合データを用いた照合処理と遅延照合データ記憶手段８に記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、遅延照合データ記憶手段８に記憶された照合データを照合データ記憶手段４に記憶された照合データにマージするモデル照合手段５とを有する。
【００７８】
また、以上の説明では、この実施の形態１を音声認識装置としたが、この音声認識装置の各構成要素が行う処理過程を備えた音声認識方法として、この実施の形態１を実現することもできる。
【００７９】
即ち、この実施の形態１の音声認識方法は、音声入力を入力し音響分析を行い特徴ベクトルの時系列に変換する音響分析過程と、読み出し速度の早い記憶媒体に部分辞書を記憶する第一辞書記憶過程と、読み出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記憶過程と、第一辞書記憶過程で記憶された部分辞書に対する照合演算に用いる照合データを記憶する照合データ記憶過程と、第二辞書記憶過程で記憶された部分辞書に対する照合演算に用いる照合データを記憶する遅延照合データ記憶過程と、第二辞書記憶過程で記憶された部分辞書のダウンロードを行っている間、先行して上記照合データ記憶過程で記憶された照合データを用いて照合処理を進め、第二辞書記憶過程で記憶された部分辞書のダウンロードが終了すると遅延照合データ記憶過程で記憶された照合データを用いて照合処理を行い、照合データ記憶過程で記憶された照合データを用いた照合処理と遅延照合データ記憶過程で記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、遅延照合データ記憶過程で記憶された照合データを照合データ記憶過程で記憶された照合データにマージするモデル照合過程とを有する。
【００８０】
また、この実施の形態１は、この音声認識装置の各構成要素が行う処理機能をコンピュータで実現させるための音声認識プログラムとして実現することもできる。
【００８１】
即ち、この実施の形態１の音声認識プログラムは、音声入力を入力し音響分析を行い特徴ベクトルの時系列に変換する音響分析機能と、読み出し速度の早い記憶媒体に部分辞書を記憶する第一辞書記憶機能と、読み出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記憶機能と、第一辞書記憶機能で記憶された部分辞書に対する照合演算に用いる照合データを記憶する照合データ記憶機能と、第二辞書記憶機能で記憶された部分辞書に対する照合演算に用いる照合データを記憶する遅延照合データ記憶機能と、第二辞書記憶機能で記憶された部分辞書のダウンロードを行っている間、先行して照合データ記憶機能で記憶された照合データを用いて照合処理を進め、第二辞書記憶機能で記憶された部分辞書のダウンロードが終了すると遅延照合データ記憶機能で記憶された照合データを用いて照合処理を行い、照合データ記憶機能で記憶された照合データを用いた照合処理と遅延照合データ記憶機能で記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、遅延照合データ記憶機能で記憶された照合データを照合データ記憶機能で記憶された照合データにマージするモデル照合機能とをコンピュータに実現させるためのものである。
【００８２】
以上のように、この実施の形態１によれば、ＤＶＤ−ＲＯＭ（第二辞書記憶手段）からのダウンロードを、ＲＡＭ（第一辞書記憶手段）からのダウンロードを行う照合データ記憶手段とは異なる遅延照合データ記憶手段で行うようにしたので、ＤＶＤ−ＲＯＭ（第二辞書記憶手段）に参照を行っている間にも、依存しない照合処理を進めることができ、応答速度の速い音声認識装置を構成できるという効果が得られる。
【００８３】
実施の形態２．
以下、第一辞書記憶手段６をＲＡＭ、第二辞書記憶手段７をＤＶＤ−ＲＯＭとしてこの発明の実施の形態２について説明を行う。
【００８４】
説明のために従来例と同じ図７に示す住所を認識対象とし、図８に示す単語辞書の構成を持っているものとする。また、図９に示す照合データ記憶手段４の内容、図１７に示す記録媒体記憶手段３の内容も同じであるものとする。
【００８５】
非常に参照速度が遅い記憶媒体を使用する場合、参照は最低限にする必要がある場合がある。例えば、ＤＶＤ−ＲＯＭへの参照を１回のみに留める場合、従来の音声認識装置においてもＤＶＤ−ＲＯＭへの参照の回数制限を行い、式（４）を最も早く満たした単語の後続部分辞書を選択するという方法が採用されている。
【００８６】
具体的に説明すると、図８の単語辞書においては「高松市」、「鎌倉市」、「藤沢市」、「大川郡」の４単語がＤＶＤ−ＲＯＭ上の部分辞書に接続されている。４単語の最後のノードに対して式（４）の評価が行われ、条件を満たした場合ＤＶＤ−ＲＯＭ上から部分辞書が読み込まれる。ここで回数制限をかけることにより、他のノードからＤＶＤ−ＲＯＭへの参照要求があっても許可しないことにより、ＤＶＤ−ＲＯＭへの参照を1回のみに留めることも可能である。しかし、ここで正解を含むグループを選択できなかったら、認識不能となる。正解を含むグループは早期に参照される傾向にあるが、ここではさらに、別の評価値をもって識別能力を向上する実施の形態２について説明を行う。
【００８７】
この実施の形態２における音声認識装置の構成は図１に示した実施の形態１と同じのためここでは説明を省略する。
【００８８】
この実施の形態２は、モデル照合手段５の機能が実施の形態１と異なっているため、以下にモデル照合手段５の機能について説明を行う。
【００８９】
図４は、この実施の形態２によるグループ選択の動作を説明する図である。図４において、縦軸は、以下の式（６）により求められる表価値Ｅ（ｎ，Ｆ）の値を表し、横軸は、フレーム単位で表現した時間を表している。
【００９０】
ＤＶＤ−ＲＯＭからなる第二辞書記憶手段７の転送要求をわかりやすくするため、式（６）で「高松市」、「鎌倉市」、「藤沢市」、「大川郡」の最終ノードの評価値の時間変化を示してみる。
Ｅ（ｎ，Ｆ）＝｛Ｅｂｅｓｔｎｏｄｅ−Ｅａｒｃ［ｎ］｝_f=F （６）
【００９１】
式（６）の評価値Ｅ（ｎ，Ｆ）が−Ｔａｒｃを上回った場合、式（４）の条件に合致することを意味する。
【００９２】
このため図４の例では、フレームＦ７においては「鎌倉市」が条件を満たし、フレームＦ８においては「高松市」が条件を満たし、各フレームにおいて条件を満たす照合データ（「鎌倉市」及び「高松市」）の後続部分辞書についてのＤＶＤ−ＲＯＭ（第二辞書記憶手段７）へのダウンロード要求が発生することを意味する。「鎌倉市」の後続部分辞書はｇｒｐ１に属しており、「高松市」の後続部分辞書はｇｒｐ２に属している。このため、フレームＦ７において「鎌倉市」の後続グループｇｒｐ１の読み出しを開始する。
【００９３】
実施の形態１では、モデル照合手段５は「鎌倉市」の後続グループｇｒｐ１のダウンロードの終了を待って、「高松市」の後続グループｇｒｐ２のダウンロードを開始する。この実施の形態２におけるモデル照合手段５はグループ選択機能を有し、このグループ選択機能では、正解が含まれると予測される評価値を用いて、評価値の低いグループの読み込み処理を中断し、より評価値の高いグループを優先して読み込むことを特徴とする。
【００９４】
式（６）の評価値は、「鎌倉市」の後続グループｇｒｐ１のダウンロード中も照合データ記憶手段５の「鎌倉市」及び「高松市」の照合データのモデル照合処理を継続することにより、更新されているため、ｇｒｐ１のダウンロード中に、より適切なグループを選択することが可能である。
【００９５】
この評価値は式（７）に示すように式（６）のＥ（ｎ，Ｆ）の先頭フレームから現在のフレームまでの最小値とする。
【数１】

【００９６】
先頭フレームから現在フレームまでのＥｍｉｎ（ｎ，Ｆ）の最大値をグループ選択の基準とすることとする。図４においてはフレームＦ８において式（７）の値より「鎌倉市」の後続グループよりは「高松市」の後続グループ方が確からしいと判断できる。その場合、図４の横軸の下に模式的に表したように、グループ選択機能により、「鎌倉市」の後続グループｇｒｐ１の読込みを中断して、「高松市」の後続グループｇｒｐ２の読み出しを開始する。
【００９７】
この後、「高松市」の後続グループの条件を上回る候補はないため、ＤＶＤ−ＲＯＭからの部分辞書の読込みが終了し、高松市の住所に関する遅延照合演算が行われる。
【００９８】
このように、式（４）の条件を満たす順番に加え、式（７）のようなダウンロードの評価値を導入することによりＤＶＤ−ＲＯＭからのダウンロードを行うグループ選択の精度を向上することができる。
【００９９】
音声認識装置をこのように構成することにより、参照速度の遅い記憶媒体からダウンロードしている間に、評価値の更新を行い、ダウンロード元をより確からしいグループへ切り替えることができるため、この結果、応答速度の良好な音声認識装置を得られる効果がある。
【０１００】
なお、式（７）の評価値は一例を示したものであり、他の評価値を用いても同様に効果がある。
【０１０１】
以上説明したように、この実施の形態２の音声認識装置は、実施の形態１の音声認識装置において、モデル照合手段５が、第二辞書記憶手段７から部分辞書がダウンロードされている間に、照合データ記憶手段４に記憶された照合データを用いた照合処理の照合結果により、上記ダウンロードされている部分辞書に対応する照合データよりも評価値の高い照合データが検出された場合に、上記第二辞書記憶手段７からダウンロードする部分辞書を上記表価値の高い照合データに対応する部分辞書に切り替えてダウンロードを行うものである。
【０１０２】
また、この実施の形態２の音声認識装置は、モデル照合手段５が、照合データ記憶手段４に記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶手段７に記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードするものである。
【０１０３】
以上の説明では、この実施の形態２を音声認識装置として説明したが、この音声認識装置の各構成要素において行われる処理過程を有する音声認識方法としてこの実施の形態２を実現することもできる。
【０１０４】
即ち、この実施の形態２の音声認識方法は、実施の形態１の音声認識方法において、モデル照合過程において、第二辞書記憶過程で記憶された部分辞書のダウンロードが行われている間に、照合データ記憶過程で記憶された照合データを用いた照合処理の照合結果により評価値の高い部分辞書が検出された場合に、ダウンロードを行う部分辞書を切り替えるものである。
【０１０５】
また、この実施の形態２の音声認識方法は、モデル照合過程において、照合データ記憶過程で記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶過程で記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードするものである。
【０１０６】
また、この実施の形態２は、音声認識装置の各構成要素が行う処理機能をコンピュータで実現させるための音声認識プログラムとして実現することもできる。
【０１０７】
即ち、この実施の形態２の音声認識プログラムは、実施の形態１の音声認識プログラムにおいて、モデル照合機能において、第二辞書記憶機能で記憶された部分辞書のダウンロードが行われている間に、照合データ記憶機能で記憶された照合データを用いた照合処理の照合結果により評価値の高い部分辞書が検出された場合に、ダウンロードを行う部分辞書を切り替えるものである。
【０１０８】
また、この実施の形態２の音声認識プログラムは、モデル照合機能において、照合データ記憶機能で記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶機能で記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードするものである。
【０１０９】
以上のように、この実施の形態２によれば、式（４）の条件を満たす順番に加え、式（７）のようなダウンロードの評価値を導入することにより、ＤＶＤ−ＲＯＭからのダウンロードを行うグループ選択の精度を向上することができる効果が得られる。
【０１１０】
また、参照速度の遅い記憶媒体からダウンロードしている間に、評価値の更新を行うようにしたので、ダウンロード元をより確からしいグループへ切り替えることができるため、応答速度の良好な音声認識装置を得られる効果が得られる。
【０１１１】
実施の形態３．
上記の実施の形態２では式（７）の評価値により、グループの読み込みを中断するものであったが、この実施の形態３では、一定時間内の評価値の変化を見て読み込むグループを判定するものである。
【０１１２】
説明のために従来例と同じ図７に示す住所を認識対象とし、図８に示す単語辞書の構成を持っているものとする。また、図９に示す照合データ記憶手段４の内容、図１７に示す記録媒体記憶手段３の内容も同じであるものとする。
【０１１３】
この実施の形態３の構成は図１に示す実施の形態１と同じのため、ここでは説明を省略する。
【０１１４】
また、モデル照合手段５以外の動作は実施の形態２と同じのため、ここでは説明を省略する。
【０１１５】
ここではモデル照合手段５の動作について説明を行う。
図５はこの実施の形態３によるグループ選択機能の動作を説明する図である。図５においても、図４と同様に、縦軸は、式（６）により求められる表価値Ｅ（ｎ，Ｆ）の値を表し、横軸は、フレーム単位で表現した時間を表している。
【０１１６】
この実施の形態３においても図４に示す評価値の変化であったものとする。フレームＦ７において「鎌倉市」の最終ノードの評価値が式（４）の条件を満たすため、図５の横軸の下に模式的に表したように、グループ選択機能により「鎌倉市」の後続グループがダウンロード待ち状態になる。
この実施の形態３ではこれから時間Ｔ経過後、式（７）の条件で全ての後続グループを調べる判定が行われ、最も評価値の高い上位Ｎグループをダウンロードするものである。
【０１１７】
図５ではＮ＝１の場合を示し、時間Ｔ経過後、「高松市」の後続グループが最も評価値が高いためダウンロードされ、遅延照合処理が実行される。「鎌倉市」の後続グループはダウンロードされないため、認識対象とはならない。
【０１１８】
音声認識装置をこのように構成することにより、参照速度の遅い記憶媒体からダウンロードするグループの選択精度を向上することができるため、ダウンロードする部分辞書の量を減少させることができ、この結果、応答速度の良好な音声認識装置を得られる効果がある。
【０１１９】
以上説明したように、この実施の形態３の音声認識装置は、実施の形態１の音声認識装置において、モデル照合手段５が、一定時間待ってから、照合データ記憶手段４により記憶された照合データを用いた照合処理の照合結果により、第二辞書記憶手段７に記憶された部分辞書のうちからダウンロードを行う部分辞書を選択してダウンロードを行うものである。
【０１２０】
また、この実施の形態３の音声認識装置は、モデル照合手段５が、照合データ記憶手段４に記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶手段７に記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択するものである。
【０１２１】
以上の説明では、この実施の形態３を音声認識装置として説明したが、この音声認識装置の各構成要素において行われる処理過程を有する音声認識方法としてこの実施の形態３を実現することもできる。
即ち、この実施の形態３の音声認識方法は、実施の形態１の音声認識方法において、モデル照合過程において、照合データ記憶過程で記憶された照合データを用いた照合処理の照合結果が得られるのを一定時間の間待ってから、ダウンロードを行う部分辞書を選択してダウンロードを行うものである。
【０１２２】
また、この実施の形態３の音声認識方法は、モデル照合過程において、照合データ記憶過程で記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶過程で記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択するものである。
【０１２３】
また、この実施の形態３は、音声認識装置の各構成要素が行う処理機能をコンピュータで実現させるための音声認識プログラムとして実現することもできる。
【０１２４】
即ち、この実施の形態３の音声認識プログラムは、実施の形態１の音声認識プグラムにおいて、モデル照合機能において、照合データ記憶機能で記憶された照合データを用いた照合処理の照合結果が得られるのを一定時間の間待ってから、ダウンロードを行う部分辞書を選択してダウンロードを行うものである。
【０１２５】
また、この実施の形態３の音声認識プログラムは、モデル照合機能において、照合データ記憶機能で記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶機能で記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択するものである。
【０１２６】
以上のように、この実施の形態３によれば、評価値の更新を一定時間の間待ってから行いその評価値に基づいてダウンロードする部分辞書を選択してダウンロードするようにしたので、参照速度の遅い記憶媒体からダウンロードするグループの選択精度を向上することができ、ダウンロードする部分辞書の量を減少させ、応答速度の良好な音声認識装置を得られる効果が得られる。
【０１２７】
【発明の効果】
以上のように、この発明によれば、参照速度の遅い記憶媒体からのダウンロードを参照速度の速い記憶媒体からのダウンロードを行う記憶手段とは異なる記憶手段で行うようにしたので、参照速度の遅い記憶媒体に参照を行っている間にも、その参照速度の遅い記憶媒体への参照動作に依存しない照合処理を進めることができ、応答速度の速い音声認識装置を得られる効果がある。
【０１２８】
この発明によれば、ダウンロードの評価値を導入することにより、参照速度の遅い記憶媒体からのダウンロードを行うグループ選択の精度を向上することができる効果がある。また、参照速度の遅い記憶媒体からダウンロードしている間に、評価値の更新を行うようにしたので、ダウンロード元をより確からしいグループへ切り替えることができるため、応答速度の良好な音声認識装置を得られる効果がある。
【０１２９】
この発明によれば、評価値の更新を一定時間の間待ってから行いその評価値に基づいてダウンロードする部分辞書を選択してダウンロードするようにしたので、参照速度の遅い記憶媒体からダウンロードするグループの選択精度を向上することができ、ダウンロードする部分辞書の量を減少させ、応答速度の良好な音声認識装置を得られる効果がある。
【０１３０】
この発明によれば、参照速度の遅い記憶媒体からのダウンロードを参照速度の速い記憶媒体からのダウンロードを行う記憶過程とは異なる記憶過程で行うようにしたので、参照速度の遅い記憶媒体に参照を行っている間にも、その参照速度の遅い記憶媒体への参照動作に依存しない照合処理を進めることができ、応答速度の速い音声認識方法を得られる効果がある。
【０１３１】
この発明によれば、ダウンロードの評価値を導入することにより、参照速度の遅い記憶媒体からのダウンロードを行うグループ選択の精度を向上することができる効果がある。また、参照速度の遅い記憶媒体からダウンロードしている間に、評価値の更新を行うようにしたので、ダウンロード元をより確からしいグループへ切り替えることができるため、応答速度の良好な音声認識方法を得られる効果がある。
【０１３２】
この発明によれば、評価値の更新を一定時間の間待ってから行いその評価値に基づいてダウンロードする部分辞書を選択してダウンロードするようにしたので、参照速度の遅い記憶媒体からダウンロードするグループの選択精度を向上することができ、ダウンロードする部分辞書の量を減少させ、応答速度の良好な音声認識方法を得られる効果がある。
【０１３３】
この発明によれば、参照速度の遅い記憶媒体からのダウンロードを参照速度の速い記憶媒体からのダウンロードを行う記憶機能とは異なる記憶機能で行うようにしたので、参照速度の遅い記憶媒体に参照を行っている間にも、その参照速度の遅い記憶媒体への参照動作に依存しない照合処理を進めることができ、応答速度の速い音声認識プログラムを得られる効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１の音声認識装置の構成を説明する図である。
【図２】この発明の実施の形態１の音声認識装置の照合データ記憶手段の記憶内容の構成を説明する図である。
【図３】演算範囲を説明する図である。
【図４】この発明の実施の形態２の音声認識装置グループ選択の動作を説明する図である。
【図５】この発明の実施の形態３の音声認識装置グループ選択の動作を説明する図である。
【図６】従来の音声認識装置の構成を説明する図である。
【図７】認識対象の住所の一例を表す図である。
【図８】単語辞書の構成を示す図である。
【図９】照合データ記憶手段の記憶内容を示す図である。
【図１０】照合データ記憶手段の記憶内容を示す図である。
【図１１】モデル照合部の動作を説明する図である。
【図１２】照合データ記憶手段のＨＭＭの内容を示す図である。
【図１３】照合データ記憶手段のＨＭＭの内容を示す図である。
【図１４】標準モデル記憶手段の内容を示す図である。
【図１５】部分辞書の構造を示す図である。
【図１６】単語データの内部情報を表す図である。
【図１７】記録媒体記憶手段の記憶内容を示す図である。
【図１８】従来の音声認識装置の演算範囲を説明する図である。
【符号の説明】
１音響分析手段、２標準モデル記憶手段、３記録媒体記憶手段、４照合データ記憶手段、５モデル照合手段、６第一辞書記憶手段、７第二辞書記憶手段、８遅延照合データ記憶手段。

Claims

入力された音声に対し音響分析を行い特徴ベクトルの時系列に変換する音響分析手段と、
読み出し速度の早い記憶媒体からなる第一辞書記憶手段と、
読み出し速度の遅い記憶媒体からなる第二辞書記憶手段と、
上記第一辞書記憶手段に記憶された部分辞書を読み出して照合演算を行うための照合データとして記憶する照合データ記憶手段と、
上記第二辞書記憶手段に記憶された部分辞書を読み出して照合演算を行うための照合データとして遅延照合データ記憶手段と、
上記第二辞書記憶手段に記憶された部分辞書を読み出している間、先行して上記照合データ記憶手段に記憶された照合データを用いて照合処理を進め、上記第二辞書記憶手段からの読み出しが終了すると上記遅延照合データ記憶手段に記憶された照合データを用いて照合処理を行い、上記照合データ記憶手段に記憶された照合データを用いた照合処理と上記遅延照合データ記憶手段に記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、上記遅延照合データ記憶手段に記憶された照合データを上記照合データ記憶手段に記憶された照合データにマージするモデル照合手段とを有することを特徴とする音声認識装置。
モデル照合手段が、
第二辞書記憶手段から部分辞書がダウンロードされている間に、照合データ記憶手段に記憶された照合データを用いた照合処理の照合結果により、上記ダウンロードされている部分辞書に対応する照合データよりも評価値の高い照合データが検出された場合に、上記第二辞書記憶手段からダウンロードする部分辞書を上記評価値の高い照合データに対応する部分辞書に切り替えてダウンロードを行うことを特徴とする請求項１記載の音声認識装置。
モデル照合手段が、
一定時間待ってから、照合データ記憶手段により記憶された照合データを用いた照合処理の照合結果により、第二辞書記憶手段に記憶された部分辞書のうちからダウンロードを行う部分辞書を選択してダウンロードを行うことを特徴とする請求項１記載の音声認識装置。
モデル照合手段が、
照合データ記憶手段に記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶手段に記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードすることを特徴とする請求項２記載の音声認識装置。
モデル照合手段が、
照合データ記憶手段に記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶手段に記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択することを特徴とする請求項３記載の音声認識装置。
入力された音声に対し音響分析を行い特徴ベクトルの時系列に変換する音響分析過程と、
読み出し速度の早い記憶媒体に部分辞書を記憶する第一辞書記憶過程と、
読み出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記憶過程と、
上記第一辞書記憶過程で記憶された部分辞書に対する照合演算に用いる照合データを記憶する照合データ記憶過程と、
上記第二辞書記憶過程で記憶された部分辞書に対する照合演算に用いる照合データを記憶する遅延照合データ記憶過程と、
上記第二辞書記憶過程で記憶された部分辞書のダウンロードを行っている間、先行して上記照合データ記憶過程で記憶された照合データを用いて照合処理を進め、上記第二辞書記憶過程で記憶された部分辞書のダウンロードが終了すると上記遅延照合データ記憶過程で記憶された照合データを用いて照合処理を行い、上記照合データ記憶過程で記憶された照合データを用いた照合処理と上記遅延照合データ記憶過程で記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、上記遅延照合データ記憶過程で記憶された照合データを上記照合データ記憶過程で記憶された照合データにマージするモデル照合過程とを有することを特徴とする音声認識方法。
モデル照合過程において、
第二辞書記憶過程で記憶された部分辞書のダウンロードが行われている間に、照合データ記憶過程で記憶された照合データを用いた照合処理の照合結果により評価値の高い部分辞書が検出された場合に、ダウンロードを行う部分辞書を切り替えることを特徴とする請求項６記載の音声認識方法。
モデル照合過程において、
照合データ記憶過程で記憶された照合データを用いた照合処理の照合結果が得られるのを一定時間の間待ってから、ダウンロードを行う部分辞書を選択してダウンロードを行うことを特徴とする請求項６記載の音声認識方法。
モデル照合過程において、
照合データ記憶過程で記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶過程で記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードすることを特徴とする請求項７記載の音声認識方法。
モデル照合過程において、
照合データ記憶過程で記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶過程で記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択することを特徴とする請求項８記載の音声認識方法。
入力された音声に対し音響分析を行い特徴ベクトルの時系列に変換する音響分析機能と、
読み出し速度の早い記憶媒体に部分辞書を記憶する第一辞書記憶機能と、
読み出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記憶機能と、
上記第一辞書記憶機能で記憶された部分辞書に対する照合演算に用いる照合データを記憶する照合データ記憶機能と、
上記第二辞書記憶機能で記憶された部分辞書に対する照合演算に用いる照合データを記憶する遅延照合データ記憶機能と、
上記第二辞書記憶機能で記憶された部分辞書のダウンロードを行っている間、先行して上記照合データ記憶機能で記憶された照合データを用いて照合処理を進め、上記第二辞書記憶機能で記憶された部分辞書のダウンロードが終了すると上記遅延照合データ記憶機能で記憶された照合データを用いて照合処理を行い、上記照合データ記憶機能で記憶された照合データを用いた照合処理と上記遅延照合データ記憶機能で記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、上記遅延照合データ記憶機能で記憶された照合データを上記照合データ記憶機能で記憶された照合データにマージするモデル照合機能とをコンピュータに実現させるための音声認識プログラム。