JP4104831B2 - 音声認識装置、音声認識方法、及び音声認識プログラム - Google Patents
音声認識装置、音声認識方法、及び音声認識プログラム Download PDFInfo
- Publication number
- JP4104831B2 JP4104831B2 JP2001070937A JP2001070937A JP4104831B2 JP 4104831 B2 JP4104831 B2 JP 4104831B2 JP 2001070937 A JP2001070937 A JP 2001070937A JP 2001070937 A JP2001070937 A JP 2001070937A JP 4104831 B2 JP4104831 B2 JP 4104831B2
- Authority
- JP
- Japan
- Prior art keywords
- collation
- dictionary
- collation data
- stored
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は音声により住所検索などの大語彙認識を行う音声認識装置、音声認識方法、及び音声認識プログラムに関するものである。
【0002】
【従来の技術】
大語彙の音声認識を行う場合には、大規模な単語辞書が必要である。全ての単語辞書を高速に参照可能な内部メモリに置いて認識処理を行うことが望ましいが、組み込み機器など内部メモリ量が小さい場合には、一部の辞書を参照速度の遅い記憶媒体に記録して、これらを参照しながら認識を行う必要がある場合がある。ここでは、特願平11−254286号明細書に記述されている音声認識装置を一例として、従来の音声認識装置の説明を行う。以下、音声認識方式としてはHMM(Hidden Markov Model:隠れマルコフモデル)を用い、認識対象を住所とし、認識する単位であるノードを音節として説明を行う。
【0003】
図6は従来の音声認識装置の構成を示す図である。
1は音声信号を入力し音響分析を行い特徴ベクトルの時系列に変換する音響分析手段であり、2は認識対象の標準モデルを記憶する標準モデル記憶手段である。6は辞書を記憶した高速に参照可能な記録媒体からなる第一辞書記憶手段であり、7は辞書を記憶した高速では参照不可能な記録媒体からなる第二辞書記憶手段である。3は部分辞書とその部分辞書が記録された記録媒体との対応を表すために、部分辞書が記録された記憶媒体またグループ名を記憶する記録媒体記憶手段である。4は照合処理の作業領域として、第一辞書記憶手段6及び第二辞書記憶手段7に記憶された部分辞書を読み出して照合データとして記憶する照合データ記憶手段であり、5は音響分析手段1からの特徴ベクトルに対し、標準モデル記憶手段2からの標準モデルと、照合データ記憶手段4に記憶された第一辞書記憶手段6及び第二辞書記憶手段7から読み出された照合データとしての部分辞書とを参照しながら、標準モデルと照合データとの照合処理を行い、特徴ベクトルを認識した認識結果を出力するモデル照合手段である。
【0004】
以下の説明では、第一辞書記憶手段6をRAM(Random AccessMemory)、第二辞書記憶手段7をDVD−ROM(Digital Versatile Disk−Read Only Memory)として説明を行う。RAMは高速に参照可能な記録媒体であるが、コストが非常に高いという特徴がある。これに対して、DVD−ROMは非常に大容量でコストが安いが読み出し速度が遅いという特徴がある。
【0005】
住所などの大語彙の認識を行う場合には単語辞書の大きさが膨大となり、単語辞書をRAMに全部記憶しておくことはコストが大きくなる。さらに、単語辞書をすべてDVD−ROMに記憶した場合には、DVD−ROMの参照回数が大きくなり、参照のオーバーヘッドにより認識する時間が非常に長くなり、音声認識装置としての応答速度に問題が生じる。そのため、辞書を記憶する記憶媒体を2種類用い、選択された使用頻度の高い部分辞書のみRAMに記憶し、使用頻度の低い部分辞書はコストの安いDVD−ROMに記憶するものとする。
【0006】
次に動作について説明する。
図7は、認識対象となる住所の例を示す図である。ここでは図7に示す住所を認識対象とする場合の動作について説明する。認識に先立ち標準モデル記憶手段2には標準モデルが、第一辞書記憶手段(RAM)6および第二辞書記憶手段(DVD−ROM)7には住所を表現する辞書が、各々、収められているものとする。
【0007】
図8は、第一辞書記憶手段6および第二辞書記憶手段7に記憶されている単語辞書の内容を示す。図8では、認識対象の住所の地名が四角形の枠の中に、またその接続が矢印で示されている。各単語は角の丸い枠で示されたnet1からnet12の部分辞書に分割されて記憶されており、net1からnet12の各部分辞書を単位としてモデル照合手段5に取り込まれ、照合演算に用いることができる。三角は部分辞書へのエントリーポイントを示し、例えば部分辞書net5の「江ノ島」は部分辞書net9の「1丁目」、「2丁目」、「3丁目」のそれぞれに接続されていることを示す。
【0008】
ここで、含まれる部分辞書の使用予想頻度に応じて、その部分辞書を記憶する記録媒体をRAMからなる第一辞書記憶手段6あるいはDVD−ROMからなる第二辞書記憶手段7に決定し、図16に示すように各部分辞書が記憶された記録媒体を記憶媒体記憶手段3に記録しているものとする。図8において、実線の角の丸い枠で示された部分辞書(net1からnet4、net9、および、net12)は、RAMからなる第一辞書記憶手段6に記憶されていて、破線の角の丸い枠で示された部分辞書(net5からnet8、net10、および、net11)は、DVD−ROMからなる第二辞書記憶手段7に記憶されている。
【0009】
DVD−ROM(第二辞書記憶手段7)は1回の参照に時間がかかるため、DVD−ROMに記憶してある依存関係の強い部分辞書をひとまとめのグループとして記憶して、参照する時に依存性の高い部分辞書をまとめて読み出すことにより参照回数を減少させている。
【0010】
ここでは図8の一点鎖線に示すように、部分辞書net5および部分辞書net6をグループgrp1にまとめ、部分辞書net7、部分辞書net8、部分辞書net10、及び部分辞書net11をgrp2にまとめるものとする。基本的には県単位でグループ化しているが、グループ選択の精度を向上させるため、それぞれの先頭単語の部分辞書net3およびnet4はRAM(第一辞書記憶手段6)上に置くものとする。このように構成することにより、グループの選択時に先読み情報としてnet3及びnet4を使用することができるため、認識時にグループの選択精度が向上する。各部分辞書がどのグループに属するかは図16に示すように記録媒体記憶手段3に記憶されている。
【0011】
図15に示した部分辞書net2を一例として、部分辞書の構造について説明する。net2はひとつのエントリーポイント(entry0)を有し、内部に「神奈川県」と「香川県」の2単語を含む。神奈川県は次に部分辞書net3のエントリーポイントentry0に接続され、香川県は次に部分辞書net4のエントリーポイントentry0に接続される。香川県のノードに対してモデル照合する場合には、図18に示す単語内のノード情報を用いる。
【0012】
図16は香川県のノード情報を示した図である。香川県は、「カ」、「ガ」、「ワ」、「ケ」、および「ン」の5ノードから構成され、ここでは各ノードにnode1からnode5までの番号が与えられている。
【0013】
図14は標準モデル記憶手段2の記憶内容を示す図である。それぞれのノードに対応するHMMのパラメータが記憶されている。HMMのパラメータとしては状態数、状態間の遷移確率などHMMの照合演算に必要なパラメータがあらかじめ入っているものとする。
【0014】
図9及び図10は、照合データ記憶手段4の記憶内容を示す図である。
図9に示すように、認識が開始されるとまず、最初の単語である無音を含む部分辞書net1がRAMからなる第一辞書記憶手段6より読み出され、照合データ記憶手段4に読み出された部分辞書に必要な作業領域が取られる。
【0015】
認識処理が進められ、続く部分辞書の照合処理が必要となると、図10に示すように部分辞書net1に続く部分辞書net2がRAMより読み出され、照合データ記憶手段4内に部分辞書net2に必要な作業領域が確保される。このように認識処理が進むにつれ、第一辞書記憶手段6または第二辞書記憶手段7より必要な部分辞書が読み出され、照合データ記憶手段4に読み出された部分辞書に必要な作業領域が確保されてゆく。
【0016】
次にモデル照合の動作について説明する。
音響分析手段1に音声信号が入力されると一定時間間隔で音響分析が行われ、特徴ベクトルに変換されて出力される。音声信号が入力されている間、音響分析手段1からモデル照合手段5へは繰り返し特徴ベクトルが送られる。この特徴ベクトルが送られる時間間隔をフレームと呼び、通常10ミリ秒程度の値のフレームが用いられる。
【0017】
図11は、モデル照合手段5の内部で行われる処理の流れ図である。モデル照合手段5の内部では図11に示す流れ図で示される処理をフレーム単位で繰り返す。
【0018】
ステップST451ではノード内の状態に対する照合演算を行うノード内演算処理が行われる。ステップST452ではビームサーチの評価値を決定する評価値決定処理が行われる。
【0019】
ステップST453ではビームサーチ処理を行うビームサーチ演算処理が行われ、ステップST454ではノード間の演算を行うノード間演算処理が行われる。
【0020】
図12はノード(n)に対する照合データ記憶手段4のデータ構造の詳細を説明する図である。図9と図10では照合データ記憶手段4の記憶内容を単語単位で示していたが、図12ではノードの内容について記述してある。ノード(n)はSn(1)、Sn(2)、Sn(3)の3状態から構成されているものとする。
【0021】
ノード(n)の左端の状態Sn(0)はノード間演算のために用いられる疑似状態であり、Sn(1)、Sn(2)、Sn(3)の3つの状態がモデルの実体を表す。an(i,j)は状態iから状態jへの遷移確率に基づくペナルティーを表し、bn(i)は状態iの出力確率に基づくペナルティーを表す。ペナルティーは確率が小さいほど大きな値となる。これらの遷移確率に基づくペナルティー、および出力確率に基づくペナルティーはHMMを用いる認識では標準的に用いられるパラメータであり、ここでは詳細な説明は省略する。
【0022】
これらのパラメータはあらかじめ図14に示すように標準モデル記憶手段2に記憶されている。第一辞書記憶手段6あるいは第二辞書記憶手段7からノード(n)を含む部分辞書が読み出された場合に、図14に示されたパラメータが標準モデル記憶手段2から読み出され、照合データ記憶手段4の中に図12に示すような照合データに対する領域が与えられる。
【0023】
図11のステップST451でのノード内演算処理においては、フレーム単位で特徴ベクトルに対する出力確率と状態間の遷移確率を用いて式(1)に示すモデル照合演算が行われ、Sn(i)の更新が行われる。式(1)のInはノード(n)の状態数を表す。出力確率は入力された特徴ベクトルに対してそれぞれの状態の音響特徴を表す分布に対する確率演算を行い求められる。
Sn (i)=max((Sn (i)+an (i,i)),(Sn (i−1)+an (i−1,i))+bn (i)
i=1,In (1)
【0024】
図11のステップST452の評価値決定処理では、式(2)より、ビームサーチのための評価値Enode(n)と、ノード間遷移を行うための評価値Earc(n)と、ビームサーチの基準値Ebestnodeを求める。Ebestnodeはノードの中で最も良いビームサーチの評価値で代表するものとする。
Enode(n)=max(Sn (i))1<i<In
Earc(n)=Sn (In )
Ebestnode=max(Enode(n))1<n<N (2)
【0025】
図11のステップST453のビームサーチ演算処理では、式(2)により求められたビームサーチのための評価値Enode(n)が以下の式(3)の条件を満たさない場合、そのノードの照合演算を非活性化して、演算量を下げるものである。非活性化されたノードに対するノード内演算処理は行われない。式(3)のTnodeはビームサーチのための閾値であり、予め定められた規定値を用いる。
Enode(n)>Ebestnode−Tnode (3)
【0026】
続いて図11のステップST454のノード間演算処理では、式(2)で求められたノード間遷移を行うための評価値Earc(n)が式(4)の条件を満たすノードが照合データ記憶手段4に設けられた作業領域内になかった場合には、第一辞書記憶手段6または第二辞書記憶手段7より新たなノードを含む部分辞書が読み出されて、照合データ記憶手段4に新たなノードの作業領域を確保して、新たに読み込んだノードを活性化してノード間照合演算を行う。
Earc(n)>Ebestnode−Tarc (4)
【0027】
続くノードを(n+1)とした場合にノード(n+1)の作業領域が確保された様子を図13に示す。読み込まれた直後、ノード(n+1)の各状態のスコアは最も低い値に初期化される。
【0028】
続いてノード(n)とノード(n+1)の間で式(5)に示すノード間の照合処理を行う。ノード間の照合処理は以下の式で示される。
Sn+1 (0)=Sn (In ) (5)
【0029】
続くノード(n+1)が照合データ記憶手段4に作業領域が取られており、非活性化されていた場合には再度活性化させて、式(5)に示すノード間の照合演算を行う。
【0030】
モデル照合手段5では特徴ベクトルが入力されるたび繰り返し上記のように照合処理を進め、音声信号のすべての特徴ベクトルに対する処理が終了したら、最終的に最もスコアの高かった単語列を認識結果として出力する。
【0031】
上記のように構成することにより、例えば「神奈川県藤沢市」という発声であれば藤沢市の最終ノードが式(4)の条件を満たし、続く部分辞書net5を読み込もうとする。また、「香川県大川郡」の発声であれば部分辞書net8を読み込もうとする。
【0032】
ここで図17の記録媒体記憶手段3の記憶内容を参照すると部分辞書net5や部分辞書net8はDVD−ROM(第二辞書記憶手段7)上にあることがわかる。DVD−ROM上の部分辞書はグループ化されているため、同じく記録媒体記憶手段3を調べ含まれるグループ名を調べる。
【0033】
部分辞書net8を参照する場合、部分辞書net8はグループgrp2に属しているため、音声認識装置はグループgrp2の中にある部分辞書net7、部分辞書net8、部分辞書net10、部分辞書net11をまとめて照合データ記憶手段4に取り込む。これにより、今後発声が予測される部分辞書net8の後続部分辞書である部分辞書net10、および部分辞書net11も同時に読み込むことが可能であり、DVD−ROMの参照回数の減少が可能である。この場合、最終的に認識に用いない部分辞書も同時に取り込んでしまうという問題はあるが、参照回数のオーバーヘッドを考えると、参照回数を減少させる方が応答時間の短縮につながる。
【0034】
図18を用いて音声認識装置の処理の流れを時間に沿って説明する。図18は一例として「香川県」「高松市」「朝日町」に対する照合データ記憶手段に記憶されている照合データを示す図である。縦軸は演算範囲を図12に示す状態単位で示す。横軸は時間を表す。演算された状態と時間の範囲を四角形の枠で示す。四角形の枠の上に記載されているF1からF17までは音声信号のフレームを表している。実際の音声信号はもっと多くのフレームからなっているが、ここでは説明のため17フレームとして説明する。
【0035】
まず、音声が入力されると、無音部に続いて「香川県」の先頭のノードから処理が開始される。ただし、この図では無音は表示していない。音声信号が1フレーム分入力されるたびに、そのフレームに対する演算範囲内のノードの演算が行われる。音声信号が入力されるたびに認識対象範囲が進行してゆき、ビームサーチにより古いノードが演算範囲からはずれてゆく。「高松市」の最終ノードが式(4)の条件を満たした場合、DVD−ROM上の部分辞書の参照が必要となる。
【0036】
図18ではF7では式(4)の条件を満たさず、F8で初めて満たすものとする。F8においてDVD−ROMの参照が始まり、終了するまですべてのノードに対する照合演算を停止する。DVD−ROMからの必要な部分辞書のロードが終了した場合、F9から照合処理が再開される。
【0037】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、高速で参照することが不可能な記録媒体への参照が必要となった場合に、必要な部分辞書のデータを取り込む間、音声認識処理が待ち状態となり、結果として音声認識応答時間が遅くなるといった課題があった。
【0038】
また、従来の音声認識装置は、式(4)の条件を満たしたグループよりDVD−ROMからのダウンロードを開始するため、部分辞書の選択精度が不足しており、正解を含む部分辞書以外の参照が多くなり、特に高速で参照することが不可能な記録媒体への参照が多くなり、結果として音声認識反応時間が遅くなるといった課題があった。また、DVD−ROMへの参照回数を一定数に制限した場合に認識率の低下が大きい等の課題があった。
【0039】
この発明は、上記のような課題を解決するためになされたもので、音声認識応答時間を短縮することのできる音声認識装置、音声認識方法および音声認識プログラムを得ることを目的とする。
【0040】
【課題を解決するための手段】
この発明に係る音声認識装置は、入力された音声に対し音響分析を行い特徴ベクトルの時系列に変換する音響分析手段と、読み出し速度の早い記憶媒体からなる第一辞書記憶手段と、読み出し速度の遅い記憶媒体からなる第二辞書記憶手段と、第一辞書記憶手段に記憶された部分辞書を読み出して照合演算を行うための照合データとして記憶する照合データ記憶手段と、第二辞書記憶手段に記憶された部分辞書を読み出して照合演算を行うための照合データとして遅延照合データ記憶手段と、第二辞書記憶手段に記憶された部分辞書を読み出している間、先行して照合データ記憶手段に記憶された照合データを用いて照合処理を進め、第二辞書記憶手段からの読み出しが終了すると遅延照合データ記憶手段に記憶された照合データを用いて照合処理を行い、照合データ記憶手段に記憶された照合データを用いた照合処理と遅延照合データ記憶手段に記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、遅延照合データ記憶手段に記憶された照合データを照合データ記憶手段に記憶された照合データにマージするモデル照合手段とを有するものである。
【0041】
この発明に係る音声認識装置は、モデル照合手段が、第二辞書記憶手段から部分辞書がダウンロードされている間に、照合データ記憶手段に記憶された照合データを用いた照合処理の照合結果により、ダウンロードされている部分辞書に対応する照合データよりも評価値の高い照合データが検出された場合に、第二辞書記憶手段からダウンロードする部分辞書を評価値の高い照合データに対応する部分辞書に切り替えてダウンロードを行うものである。
【0042】
この発明に係る音声認識装置は、モデル照合手段が、一定時間待ってから、照合データ記憶手段により記憶された照合データを用いた照合処理の照合結果により、第二辞書記憶手段に記憶された部分辞書のうちからダウンロードを行う部分辞書を選択してダウンロードを行うものである。
【0043】
この発明に係る音声認識装置は、モデル照合手段が、照合データ記憶手段に記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶手段に記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードするものである。
【0044】
この発明に係る音声認識装置は、モデル照合手段が、照合データ記憶手段に記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶手段に記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択するものである。
【0045】
この発明に係る音声認識方法は、入力された音声に対し音響分析を行い特徴ベクトルの時系列に変換する音響分析過程と、読み出し速度の早い記憶媒体に部分辞書を記憶する第一辞書記憶過程と、読み出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記憶過程と、第一辞書記憶過程で記憶された部分辞書に対する照合演算に用いる照合データを記憶する照合データ記憶過程と、第二辞書記憶過程で記憶された部分辞書に対する照合演算に用いる照合データを記憶する遅延照合データ記憶過程と、上記第二辞書記憶過程で記憶された部分辞書のダウンロードを行っている間、先行して照合データ記憶過程で記憶された照合データを用いて照合処理を進め、第二辞書記憶過程で記憶された部分辞書のダウンロードが終了すると遅延照合データ記憶過程で記憶された照合データを用いて照合処理を行い、照合データ記憶過程で記憶された照合データを用いた照合処理と遅延照合データ記憶過程で記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、遅延照合データ記憶過程で記憶された照合データを照合データ記憶過程で記憶された照合データにマージするモデル照合過程とを有するものである。
【0046】
この発明に係る音声認識方法は、モデル照合過程において、第二辞書記憶過程で記憶された部分辞書のダウンロードが行われている間に、照合データ記憶過程で記憶された照合データを用いた照合処理の照合結果により評価値の高い部分辞書が検出された場合に、ダウンロードを行う部分辞書を切り替えるものである。
【0047】
この発明に係る音声認識方法は、モデル照合過程において、照合データ記憶過程で記憶された照合データを用いた照合処理の照合結果が得られるのを一定時間の間待ってから、ダウンロードを行う部分辞書を選択してダウンロードを行うものである。
【0048】
この発明に係る音声認識方法は、モデル照合過程において、照合データ記憶過程で記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶過程で記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードするものである。
【0049】
この発明に係る音声認識方法は、モデル照合過程において、照合データ記憶過程で記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶過程で記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択するものである。
【0050】
この発明に係る音声認識プログラムは、入力された音声に対し音響分析を行い特徴ベクトルの時系列に変換する音響分析機能と、読み出し速度の早い記憶媒体に部分辞書を記憶する第一辞書記憶機能と、読み出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記憶機能と、第一辞書記憶機能で記憶された部分辞書に対する照合演算に用いる照合データを記憶する照合データ記憶機能と、第二辞書記憶機能で記憶された部分辞書に対する照合演算に用いる照合データを記憶する遅延照合データ記憶機能と、第二辞書記憶機能で記憶された部分辞書のダウンロードを行っている間、先行して照合データ記憶機能で記憶された照合データを用いて照合処理を進め、第二辞書記憶機能で記憶された部分辞書のダウンロードが終了すると遅延照合データ記憶機能で記憶された照合データを用いて照合処理を行い、照合データ記憶機能で記憶された照合データを用いた照合処理と遅延照合データ記憶機能で記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、遅延照合データ記憶機能で記憶された照合データを照合データ記憶機能で記憶された照合データにマージするモデル照合機能とをコンピュータに実現させるための音声認識プログラムである。
【0051】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声認識装置の構成を示す図である。図1において、8は第二辞書記憶手段7の部分辞書に対する照合演算に用いる遅延照合データ記憶手段である。5は第二辞書記憶手段7からのダウンロードを行っている間、先行して照合データ記憶手段4の照合データを用いて照合処理を進め、第二辞書記憶手段7のダウンロードが終了すると遅延照合データ記憶手段8のデータを用いて演算を行い、第一辞書記憶手段6と第二辞書記憶手段7との間で処理の遅れがなくなると遅延照合データ記憶手段8の照合データを照合データ記憶手段4の照合データにマージするモデル照合手段である。その他の部分は図6に示した従来の音声認識装置と同一のため、説明を省略する。
【0052】
次に動作について説明する。
以下、第一辞書記憶手段6をRAM(Random Access Memory)、第二辞書記憶手段7をDVD−ROM(Digital Versatile Disk−Read Only Memory)として説明を行う。
【0053】
この実施の形態1でも説明のために従来例と同じ図7に示す住所を認識対象とし、図8に示す単語辞書の構成を持っているものとする。また、図16に示す記憶媒体記憶手段の内容も同じであるものとする。
【0054】
また、認識処理の流れも従来の音声認識装置と同一であるため、ここでは説明を省略する。ここではこの発明の大きな特徴である遅延照合データ記憶手段8を中心として説明を行う。
【0055】
以下、「香川県高松市朝日町」と発声した場合について照合データ記憶手段4の記憶内容について図2を用いて説明を行う。
【0056】
正解を含む3つの単語「香川県」、「高松市」、「朝日町」のみについて説明を行う。照合データ記憶手段4の中には照合処理中に上記の3つの単語以外の単語の照合データも生成される場合もあるが、わかりやすくするためここでは表示しない。
【0057】
図2は照合データ記憶手段4と遅延照合データ記憶手段8の記憶内容の変化について示す図である。認識が開始されると、RAMからなる第一辞書記憶手段6から部分辞書を読み込み、照合データ記憶手段4に「香川県」の照合データが生成される(ステップ1)。
【0058】
次に「高松市」の部分辞書が必要となると、RAMからなる第一辞書記憶手段6より高松市の部分辞書を読み込み、「高松市」の照合データが生成される(ステップ2)。ここまでは、従来の音声認識装置と同じ動作である。
【0059】
次に「朝日町」の部分辞書が必要となると、DVD−ROMからなる第二辞書記憶手段7からグループgrp2(図8)を読み出し、内部に含まれている部分辞書より遅延照合データ記憶手段8に照合データを生成する(ステップ3)。
【0060】
DVD−ROMからなる第二辞書記憶手段7上の部分辞書を参照するには、時間が必要であるため、「朝日町」を含むグループgrp2のダウンロード中も、照合データ記憶手段4上の照合データの「香川県」と「高松市」の照合処理を、「朝日町」の照合処理とは非同期に継続する。グループgrp2のダウンロードが終了すると、遅延照合データ記憶手段8に「朝日町」に対して、遅延分をまとめて照合処理を行う。
【0061】
次に、「朝日町」の遅延照合処理が終了すると、遅延照合データ記憶手段8から「朝日町」の照合データが照合データ記憶手段4に移され、以後、「香川県」、「高松市」と一緒に時間同期で照合処理が進められる(ステップ4)。
【0062】
さらに、詳しく説明を行う。
図3は同じくノード「香川県」「高松市」「朝日町」に対する照合データ記憶手段4および遅延照合データ記憶手段8に記憶されている照合データのうちモデル照合手段5による演算の演算対象となっている範囲を示す図である。図3において縦軸は単語辞書をノード単位で示し、横軸は時間をフレーム単位で表す。図3で四角形の枠で示しているものが演算範囲である。四角形の枠の上に記載されているF1からF17までは音声信号のフレームを表す。実際の音声信号はもっと多くのフレームからなっているが、ここでは説明のため17フレームとして説明する。
【0063】
すでに述べたように、フレームとは、音声信号が入力されている間、音響分析手段1からモデル照合手段5へ繰り返し特徴ベクトルが送られる時間間隔のことで、通常10ミリ秒程度の値のフレームが用いられる。
【0064】
図3の最上部に示しているステップ1からステップ4までは図2の各ステップとの対応を示すものである。図3の太い実線の四角形の枠で囲まれた部分は、遅延照合データ記憶手段8を用いての遅延照合処理を表し、太い破線の四角形で囲まれた部分は、照合データ記憶手段4を用いての照合処理を表している。
【0065】
まず、音声が入力されると、無音部に続いて「香川県」の先頭のノードから処理が開始される。ただし、この図3では無音は表示していない。音声信号が1フレーム分入力されるたびに、そのフレームに対する演算範囲内のノードの演算が行われる。式(4)の条件を満たすたびに認識対象範囲が進行してゆき、ビームサーチにより式(3)の条件を満たすたびに古い状態は演算範囲からはずれてゆく。
【0066】
「高松市」の最後のノードが式(4)の条件を満たした場合、後続の「朝日町」の部分辞書をダウンロードするため、DVD−ROMからなる第二辞書記憶手段7の参照が生じる。図3ではフレームF7では式(4)の条件を満たさず、フレームF8で初めて満たすものとする。フレームF8のモデル照合終了後にDVD−ROMからなる第二辞書記憶手段7の参照が始まる。
【0067】
この時、従来の音声認識装置ではDVD−ROM(第二辞書記憶手段7)の参照が終了するまですべての状態に対する照合演算は停止する。即ち、従来の音声認識装置では、図17に示すように、「朝日町」の照合データをDVD−ROMから参照する間は、フレームF8に続くフレームF9の照合処理は行われない。
【0068】
これに対し、この実施の形態1による音声認識装置では照合データ記憶手段4に存在する照合データに関しては照合処理を継続する。図3において「高松市」の照合データは既に照合データ記憶手段4中に存在するため、「高松市」の照合データに関しては、DVD−ROM(第二辞書記憶手段7)からの「朝日町」の照合データの転送中も、照合演算を継続する。つまり、DVD−ROM(第二辞書記憶手段7)を参照することにより遅延する照合データ(図3の場合には「朝日町」の照合データ)を切り離し、フレーム同期でモデル照合処理を継続することを意味する。遅延した照合データは別の遅延照合データ記憶手段8を用いて、照合データ記憶手段4とは独立して演算を行う。
【0069】
DVD−ROM(第二辞書記憶手段7)からの必要な部分辞書は遅延照合データ記憶手段8に取り込まれ、必要な部分辞書の遅延照合データ記憶手段8へのロードが終了してから照合処理が再開される。図3の例では処理待ちとなっている演算範囲はフレームF9からフレームF13までの「朝日町」の照合データである。
【0070】
モデル照合手段5では、DVD−ROM(第二辞書記憶手段7)内の必要な部分辞書の遅延照合データ記憶手段8への転送が終了すると、照合データ記憶手段4の照合データに対するモデル照合処理を中断し、遅延照合データ記憶手段8の照合データに対する処理を行う。
【0071】
「朝日町」のフレームF9からフレームF13に対する照合処理が終了すると、遅延照合データ記憶手段8の「朝日町」の照合データは全て照合データ記憶手段4に転送されて、照合データ記憶手段4の照合データと結合され(マージされ)、遅延照合データ記憶手段8の中身はクリアされる。以後、照合データ記憶手段4としてフレーム同期で処理が進められる。
【0072】
このように構成することで、DVD−ROM(第二辞書記憶手段7)に参照を行っている間にも、依存しない照合処理を進めることができ、応答速度の速い音声認識装置を構成できるという効果がある。
【0073】
上記の説明ではRAM(第一辞書記憶手段6)とDVD−ROM(第二辞書記憶手段7)を記憶媒体として用いる場合を一例として説明したが、RAMの代わりにフラッシュROM、EPROM、ROM、RAMなど、また、DVD−ROMの代わりにCD−RW、DVD−RAM、DVD−RW、DVD−R/W、ハードディスクなどであっても良く同様に効果を奏する。遅い記憶媒体としてインターネットなど音声認識装置の外部にある記憶媒体であっても良く、同様な効果を奏する。
【0074】
また、上記の説明で用いた部分辞書のグループへの分類は一例を示したものであり、他の分類の方法でも良い。
【0075】
また、上記の説明では2種類の記憶媒体を用いる方法について説明したが、3種類以上の記憶媒体を用いてもよく同様に効果を奏する。
【0076】
また、上記の説明ではノードを単語として説明したが、ノードは音素片、音素、半音節、音節、形態素などの単位でも良く、同様に効果を奏する。また、音声認識方式もHMMとして説明したが、これはDP(Dynamic Programming)マッチングやニューラルネットを用いる音声認識方式でも良く同様に効果を奏する。
【0077】
以上説明したように、この実施の形態1の音声認識装置は、音声入力を入力し音響分析を行い特徴ベクトルの時系列に変換する音響分析手段1と、読み出し速度の早い記憶媒体からなる第一辞書記憶手段6と、読み出し速度の遅い記憶媒体からなる第二辞書記憶手段7と、第一辞書記憶手段6に記憶された部分辞書を読み出して照合演算を行うための照合データとして記憶する照合データ記憶手段4と、第二辞書記憶手段7に記憶された部分辞書を読み出して照合演算を行うための照合データとして遅延照合データ記憶手段8と、第二辞書記憶手段7に記憶された部分辞書を読み出している間、先行して照合データ記憶手段4に記憶された照合データを用いて照合処理を進め、第二辞書記憶手段7からの読み出しが終了すると遅延照合データ記憶手段8に記憶された照合データを用いて照合処理を行い、照合データ記憶手段4に記憶された照合データを用いた照合処理と遅延照合データ記憶手段8に記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、遅延照合データ記憶手段8に記憶された照合データを照合データ記憶手段4に記憶された照合データにマージするモデル照合手段5とを有する。
【0078】
また、以上の説明では、この実施の形態1を音声認識装置としたが、この音声認識装置の各構成要素が行う処理過程を備えた音声認識方法として、この実施の形態1を実現することもできる。
【0079】
即ち、この実施の形態1の音声認識方法は、音声入力を入力し音響分析を行い特徴ベクトルの時系列に変換する音響分析過程と、読み出し速度の早い記憶媒体に部分辞書を記憶する第一辞書記憶過程と、読み出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記憶過程と、第一辞書記憶過程で記憶された部分辞書に対する照合演算に用いる照合データを記憶する照合データ記憶過程と、第二辞書記憶過程で記憶された部分辞書に対する照合演算に用いる照合データを記憶する遅延照合データ記憶過程と、第二辞書記憶過程で記憶された部分辞書のダウンロードを行っている間、先行して上記照合データ記憶過程で記憶された照合データを用いて照合処理を進め、第二辞書記憶過程で記憶された部分辞書のダウンロードが終了すると遅延照合データ記憶過程で記憶された照合データを用いて照合処理を行い、照合データ記憶過程で記憶された照合データを用いた照合処理と遅延照合データ記憶過程で記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、遅延照合データ記憶過程で記憶された照合データを照合データ記憶過程で記憶された照合データにマージするモデル照合過程とを有する。
【0080】
また、この実施の形態1は、この音声認識装置の各構成要素が行う処理機能をコンピュータで実現させるための音声認識プログラムとして実現することもできる。
【0081】
即ち、この実施の形態1の音声認識プログラムは、音声入力を入力し音響分析を行い特徴ベクトルの時系列に変換する音響分析機能と、読み出し速度の早い記憶媒体に部分辞書を記憶する第一辞書記憶機能と、読み出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記憶機能と、第一辞書記憶機能で記憶された部分辞書に対する照合演算に用いる照合データを記憶する照合データ記憶機能と、第二辞書記憶機能で記憶された部分辞書に対する照合演算に用いる照合データを記憶する遅延照合データ記憶機能と、第二辞書記憶機能で記憶された部分辞書のダウンロードを行っている間、先行して照合データ記憶機能で記憶された照合データを用いて照合処理を進め、第二辞書記憶機能で記憶された部分辞書のダウンロードが終了すると遅延照合データ記憶機能で記憶された照合データを用いて照合処理を行い、照合データ記憶機能で記憶された照合データを用いた照合処理と遅延照合データ記憶機能で記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、遅延照合データ記憶機能で記憶された照合データを照合データ記憶機能で記憶された照合データにマージするモデル照合機能とをコンピュータに実現させるためのものである。
【0082】
以上のように、この実施の形態1によれば、DVD−ROM(第二辞書記憶手段)からのダウンロードを、RAM(第一辞書記憶手段)からのダウンロードを行う照合データ記憶手段とは異なる遅延照合データ記憶手段で行うようにしたので、DVD−ROM(第二辞書記憶手段)に参照を行っている間にも、依存しない照合処理を進めることができ、応答速度の速い音声認識装置を構成できるという効果が得られる。
【0083】
実施の形態2.
以下、第一辞書記憶手段6をRAM、第二辞書記憶手段7をDVD−ROMとしてこの発明の実施の形態2について説明を行う。
【0084】
説明のために従来例と同じ図7に示す住所を認識対象とし、図8に示す単語辞書の構成を持っているものとする。また、図9に示す照合データ記憶手段4の内容、図17に示す記録媒体記憶手段3の内容も同じであるものとする。
【0085】
非常に参照速度が遅い記憶媒体を使用する場合、参照は最低限にする必要がある場合がある。例えば、DVD−ROMへの参照を1回のみに留める場合、従来の音声認識装置においてもDVD−ROMへの参照の回数制限を行い、式(4)を最も早く満たした単語の後続部分辞書を選択するという方法が採用されている。
【0086】
具体的に説明すると、図8の単語辞書においては「高松市」、「鎌倉市」、「藤沢市」、「大川郡」の4単語がDVD−ROM上の部分辞書に接続されている。4単語の最後のノードに対して式(4)の評価が行われ、条件を満たした場合DVD−ROM上から部分辞書が読み込まれる。ここで回数制限をかけることにより、他のノードからDVD−ROMへの参照要求があっても許可しないことにより、DVD−ROMへの参照を1回のみに留めることも可能である。しかし、ここで正解を含むグループを選択できなかったら、認識不能となる。正解を含むグループは早期に参照される傾向にあるが、ここではさらに、別の評価値をもって識別能力を向上する実施の形態2について説明を行う。
【0087】
この実施の形態2における音声認識装置の構成は図1に示した実施の形態1と同じのためここでは説明を省略する。
【0088】
この実施の形態2は、モデル照合手段5の機能が実施の形態1と異なっているため、以下にモデル照合手段5の機能について説明を行う。
【0089】
図4は、この実施の形態2によるグループ選択の動作を説明する図である。図4において、縦軸は、以下の式(6)により求められる表価値E(n,F)の値を表し、横軸は、フレーム単位で表現した時間を表している。
【0090】
DVD−ROMからなる第二辞書記憶手段7の転送要求をわかりやすくするため、式(6)で「高松市」、「鎌倉市」、「藤沢市」、「大川郡」の最終ノードの評価値の時間変化を示してみる。
E(n,F)={Ebestnode−Earc[n]}f=F (6)
【0091】
式(6)の評価値E(n,F)が−Tarcを上回った場合、式(4)の条件に合致することを意味する。
【0092】
このため図4の例では、フレームF7においては「鎌倉市」が条件を満たし、フレームF8においては「高松市」が条件を満たし、各フレームにおいて条件を満たす照合データ(「鎌倉市」及び「高松市」)の後続部分辞書についてのDVD−ROM(第二辞書記憶手段7)へのダウンロード要求が発生することを意味する。「鎌倉市」の後続部分辞書はgrp1に属しており、「高松市」の後続部分辞書はgrp2に属している。このため、フレームF7において「鎌倉市」の後続グループgrp1の読み出しを開始する。
【0093】
実施の形態1では、モデル照合手段5は「鎌倉市」の後続グループgrp1のダウンロードの終了を待って、「高松市」の後続グループgrp2のダウンロードを開始する。この実施の形態2におけるモデル照合手段5はグループ選択機能を有し、このグループ選択機能では、正解が含まれると予測される評価値を用いて、評価値の低いグループの読み込み処理を中断し、より評価値の高いグループを優先して読み込むことを特徴とする。
【0094】
式(6)の評価値は、「鎌倉市」の後続グループgrp1のダウンロード中も照合データ記憶手段5の「鎌倉市」及び「高松市」の照合データのモデル照合処理を継続することにより、更新されているため、grp1のダウンロード中に、より適切なグループを選択することが可能である。
【0095】
この評価値は式(7)に示すように式(6)のE(n,F)の先頭フレームから現在のフレームまでの最小値とする。
【数1】
【0096】
先頭フレームから現在フレームまでのEmin(n,F)の最大値をグループ選択の基準とすることとする。図4においてはフレームF8において式(7)の値より「鎌倉市」の後続グループよりは「高松市」の後続グループ方が確からしいと判断できる。その場合、図4の横軸の下に模式的に表したように、グループ選択機能により、「鎌倉市」の後続グループgrp1の読込みを中断して、「高松市」の後続グループgrp2の読み出しを開始する。
【0097】
この後、「高松市」の後続グループの条件を上回る候補はないため、DVD−ROMからの部分辞書の読込みが終了し、高松市の住所に関する遅延照合演算が行われる。
【0098】
このように、式(4)の条件を満たす順番に加え、式(7)のようなダウンロードの評価値を導入することによりDVD−ROMからのダウンロードを行うグループ選択の精度を向上することができる。
【0099】
音声認識装置をこのように構成することにより、参照速度の遅い記憶媒体からダウンロードしている間に、評価値の更新を行い、ダウンロード元をより確からしいグループへ切り替えることができるため、この結果、応答速度の良好な音声認識装置を得られる効果がある。
【0100】
なお、式(7)の評価値は一例を示したものであり、他の評価値を用いても同様に効果がある。
【0101】
以上説明したように、この実施の形態2の音声認識装置は、実施の形態1の音声認識装置において、モデル照合手段5が、第二辞書記憶手段7から部分辞書がダウンロードされている間に、照合データ記憶手段4に記憶された照合データを用いた照合処理の照合結果により、上記ダウンロードされている部分辞書に対応する照合データよりも評価値の高い照合データが検出された場合に、上記第二辞書記憶手段7からダウンロードする部分辞書を上記表価値の高い照合データに対応する部分辞書に切り替えてダウンロードを行うものである。
【0102】
また、この実施の形態2の音声認識装置は、モデル照合手段5が、照合データ記憶手段4に記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶手段7に記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードするものである。
【0103】
以上の説明では、この実施の形態2を音声認識装置として説明したが、この音声認識装置の各構成要素において行われる処理過程を有する音声認識方法としてこの実施の形態2を実現することもできる。
【0104】
即ち、この実施の形態2の音声認識方法は、実施の形態1の音声認識方法において、モデル照合過程において、第二辞書記憶過程で記憶された部分辞書のダウンロードが行われている間に、照合データ記憶過程で記憶された照合データを用いた照合処理の照合結果により評価値の高い部分辞書が検出された場合に、ダウンロードを行う部分辞書を切り替えるものである。
【0105】
また、この実施の形態2の音声認識方法は、モデル照合過程において、照合データ記憶過程で記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶過程で記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードするものである。
【0106】
また、この実施の形態2は、音声認識装置の各構成要素が行う処理機能をコンピュータで実現させるための音声認識プログラムとして実現することもできる。
【0107】
即ち、この実施の形態2の音声認識プログラムは、実施の形態1の音声認識プログラムにおいて、モデル照合機能において、第二辞書記憶機能で記憶された部分辞書のダウンロードが行われている間に、照合データ記憶機能で記憶された照合データを用いた照合処理の照合結果により評価値の高い部分辞書が検出された場合に、ダウンロードを行う部分辞書を切り替えるものである。
【0108】
また、この実施の形態2の音声認識プログラムは、モデル照合機能において、照合データ記憶機能で記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶機能で記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードするものである。
【0109】
以上のように、この実施の形態2によれば、式(4)の条件を満たす順番に加え、式(7)のようなダウンロードの評価値を導入することにより、DVD−ROMからのダウンロードを行うグループ選択の精度を向上することができる効果が得られる。
【0110】
また、参照速度の遅い記憶媒体からダウンロードしている間に、評価値の更新を行うようにしたので、ダウンロード元をより確からしいグループへ切り替えることができるため、応答速度の良好な音声認識装置を得られる効果が得られる。
【0111】
実施の形態3.
上記の実施の形態2では式(7)の評価値により、グループの読み込みを中断するものであったが、この実施の形態3では、一定時間内の評価値の変化を見て読み込むグループを判定するものである。
【0112】
説明のために従来例と同じ図7に示す住所を認識対象とし、図8に示す単語辞書の構成を持っているものとする。また、図9に示す照合データ記憶手段4の内容、図17に示す記録媒体記憶手段3の内容も同じであるものとする。
【0113】
この実施の形態3の構成は図1に示す実施の形態1と同じのため、ここでは説明を省略する。
【0114】
また、モデル照合手段5以外の動作は実施の形態2と同じのため、ここでは説明を省略する。
【0115】
ここではモデル照合手段5の動作について説明を行う。
図5はこの実施の形態3によるグループ選択機能の動作を説明する図である。図5においても、図4と同様に、縦軸は、式(6)により求められる表価値E(n,F)の値を表し、横軸は、フレーム単位で表現した時間を表している。
【0116】
この実施の形態3においても図4に示す評価値の変化であったものとする。フレームF7において「鎌倉市」の最終ノードの評価値が式(4)の条件を満たすため、図5の横軸の下に模式的に表したように、グループ選択機能により「鎌倉市」の後続グループがダウンロード待ち状態になる。
この実施の形態3ではこれから時間T経過後、式(7)の条件で全ての後続グループを調べる判定が行われ、最も評価値の高い上位Nグループをダウンロードするものである。
【0117】
図5ではN=1の場合を示し、時間T経過後、「高松市」の後続グループが最も評価値が高いためダウンロードされ、遅延照合処理が実行される。「鎌倉市」の後続グループはダウンロードされないため、認識対象とはならない。
【0118】
音声認識装置をこのように構成することにより、参照速度の遅い記憶媒体からダウンロードするグループの選択精度を向上することができるため、ダウンロードする部分辞書の量を減少させることができ、この結果、応答速度の良好な音声認識装置を得られる効果がある。
【0119】
以上説明したように、この実施の形態3の音声認識装置は、実施の形態1の音声認識装置において、モデル照合手段5が、一定時間待ってから、照合データ記憶手段4により記憶された照合データを用いた照合処理の照合結果により、第二辞書記憶手段7に記憶された部分辞書のうちからダウンロードを行う部分辞書を選択してダウンロードを行うものである。
【0120】
また、この実施の形態3の音声認識装置は、モデル照合手段5が、照合データ記憶手段4に記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶手段7に記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択するものである。
【0121】
以上の説明では、この実施の形態3を音声認識装置として説明したが、この音声認識装置の各構成要素において行われる処理過程を有する音声認識方法としてこの実施の形態3を実現することもできる。
即ち、この実施の形態3の音声認識方法は、実施の形態1の音声認識方法において、モデル照合過程において、照合データ記憶過程で記憶された照合データを用いた照合処理の照合結果が得られるのを一定時間の間待ってから、ダウンロードを行う部分辞書を選択してダウンロードを行うものである。
【0122】
また、この実施の形態3の音声認識方法は、モデル照合過程において、照合データ記憶過程で記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶過程で記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択するものである。
【0123】
また、この実施の形態3は、音声認識装置の各構成要素が行う処理機能をコンピュータで実現させるための音声認識プログラムとして実現することもできる。
【0124】
即ち、この実施の形態3の音声認識プログラムは、実施の形態1の音声認識プグラムにおいて、モデル照合機能において、照合データ記憶機能で記憶された照合データを用いた照合処理の照合結果が得られるのを一定時間の間待ってから、ダウンロードを行う部分辞書を選択してダウンロードを行うものである。
【0125】
また、この実施の形態3の音声認識プログラムは、モデル照合機能において、照合データ記憶機能で記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶機能で記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択するものである。
【0126】
以上のように、この実施の形態3によれば、評価値の更新を一定時間の間待ってから行いその評価値に基づいてダウンロードする部分辞書を選択してダウンロードするようにしたので、参照速度の遅い記憶媒体からダウンロードするグループの選択精度を向上することができ、ダウンロードする部分辞書の量を減少させ、応答速度の良好な音声認識装置を得られる効果が得られる。
【0127】
【発明の効果】
以上のように、この発明によれば、参照速度の遅い記憶媒体からのダウンロードを参照速度の速い記憶媒体からのダウンロードを行う記憶手段とは異なる記憶手段で行うようにしたので、参照速度の遅い記憶媒体に参照を行っている間にも、その参照速度の遅い記憶媒体への参照動作に依存しない照合処理を進めることができ、応答速度の速い音声認識装置を得られる効果がある。
【0128】
この発明によれば、ダウンロードの評価値を導入することにより、参照速度の遅い記憶媒体からのダウンロードを行うグループ選択の精度を向上することができる効果がある。また、参照速度の遅い記憶媒体からダウンロードしている間に、評価値の更新を行うようにしたので、ダウンロード元をより確からしいグループへ切り替えることができるため、応答速度の良好な音声認識装置を得られる効果がある。
【0129】
この発明によれば、評価値の更新を一定時間の間待ってから行いその評価値に基づいてダウンロードする部分辞書を選択してダウンロードするようにしたので、参照速度の遅い記憶媒体からダウンロードするグループの選択精度を向上することができ、ダウンロードする部分辞書の量を減少させ、応答速度の良好な音声認識装置を得られる効果がある。
【0130】
この発明によれば、参照速度の遅い記憶媒体からのダウンロードを参照速度の速い記憶媒体からのダウンロードを行う記憶過程とは異なる記憶過程で行うようにしたので、参照速度の遅い記憶媒体に参照を行っている間にも、その参照速度の遅い記憶媒体への参照動作に依存しない照合処理を進めることができ、応答速度の速い音声認識方法を得られる効果がある。
【0131】
この発明によれば、ダウンロードの評価値を導入することにより、参照速度の遅い記憶媒体からのダウンロードを行うグループ選択の精度を向上することができる効果がある。また、参照速度の遅い記憶媒体からダウンロードしている間に、評価値の更新を行うようにしたので、ダウンロード元をより確からしいグループへ切り替えることができるため、応答速度の良好な音声認識方法を得られる効果がある。
【0132】
この発明によれば、評価値の更新を一定時間の間待ってから行いその評価値に基づいてダウンロードする部分辞書を選択してダウンロードするようにしたので、参照速度の遅い記憶媒体からダウンロードするグループの選択精度を向上することができ、ダウンロードする部分辞書の量を減少させ、応答速度の良好な音声認識方法を得られる効果がある。
【0133】
この発明によれば、参照速度の遅い記憶媒体からのダウンロードを参照速度の速い記憶媒体からのダウンロードを行う記憶機能とは異なる記憶機能で行うようにしたので、参照速度の遅い記憶媒体に参照を行っている間にも、その参照速度の遅い記憶媒体への参照動作に依存しない照合処理を進めることができ、応答速度の速い音声認識プログラムを得られる効果がある。
【図面の簡単な説明】
【図1】 この発明の実施の形態1の音声認識装置の構成を説明する図である。
【図2】 この発明の実施の形態1の音声認識装置の照合データ記憶手段の記憶内容の構成を説明する図である。
【図3】 演算範囲を説明する図である。
【図4】 この発明の実施の形態2の音声認識装置グループ選択の動作を説明する図である。
【図5】 この発明の実施の形態3の音声認識装置グループ選択の動作を説明する図である。
【図6】 従来の音声認識装置の構成を説明する図である。
【図7】 認識対象の住所の一例を表す図である。
【図8】 単語辞書の構成を示す図である。
【図9】 照合データ記憶手段の記憶内容を示す図である。
【図10】 照合データ記憶手段の記憶内容を示す図である。
【図11】 モデル照合部の動作を説明する図である。
【図12】 照合データ記憶手段のHMMの内容を示す図である。
【図13】 照合データ記憶手段のHMMの内容を示す図である。
【図14】 標準モデル記憶手段の内容を示す図である。
【図15】 部分辞書の構造を示す図である。
【図16】 単語データの内部情報を表す図である。
【図17】 記録媒体記憶手段の記憶内容を示す図である。
【図18】 従来の音声認識装置の演算範囲を説明する図である。
【符号の説明】
1 音響分析手段、2 標準モデル記憶手段、3 記録媒体記憶手段、4 照合データ記憶手段、5 モデル照合手段、6 第一辞書記憶手段、7 第二辞書記憶手段、8 遅延照合データ記憶手段。
Claims (11)
- 入力された音声に対し音響分析を行い特徴ベクトルの時系列に変換する音響分析手段と、
読み出し速度の早い記憶媒体からなる第一辞書記憶手段と、
読み出し速度の遅い記憶媒体からなる第二辞書記憶手段と、
上記第一辞書記憶手段に記憶された部分辞書を読み出して照合演算を行うための照合データとして記憶する照合データ記憶手段と、
上記第二辞書記憶手段に記憶された部分辞書を読み出して照合演算を行うための照合データとして遅延照合データ記憶手段と、
上記第二辞書記憶手段に記憶された部分辞書を読み出している間、先行して上記照合データ記憶手段に記憶された照合データを用いて照合処理を進め、上記第二辞書記憶手段からの読み出しが終了すると上記遅延照合データ記憶手段に記憶された照合データを用いて照合処理を行い、上記照合データ記憶手段に記憶された照合データを用いた照合処理と上記遅延照合データ記憶手段に記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、上記遅延照合データ記憶手段に記憶された照合データを上記照合データ記憶手段に記憶された照合データにマージするモデル照合手段とを有することを特徴とする音声認識装置。 - モデル照合手段が、
第二辞書記憶手段から部分辞書がダウンロードされている間に、照合データ記憶手段に記憶された照合データを用いた照合処理の照合結果により、上記ダウンロードされている部分辞書に対応する照合データよりも評価値の高い照合データが検出された場合に、上記第二辞書記憶手段からダウンロードする部分辞書を上記評価値の高い照合データに対応する部分辞書に切り替えてダウンロードを行うことを特徴とする請求項1記載の音声認識装置。 - モデル照合手段が、
一定時間待ってから、照合データ記憶手段により記憶された照合データを用いた照合処理の照合結果により、第二辞書記憶手段に記憶された部分辞書のうちからダウンロードを行う部分辞書を選択してダウンロードを行うことを特徴とする請求項1記載の音声認識装置。 - モデル照合手段が、
照合データ記憶手段に記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶手段に記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードすることを特徴とする請求項2記載の音声認識装置。 - モデル照合手段が、
照合データ記憶手段に記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶手段に記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択することを特徴とする請求項3記載の音声認識装置。 - 入力された音声に対し音響分析を行い特徴ベクトルの時系列に変換する音響分析過程と、
読み出し速度の早い記憶媒体に部分辞書を記憶する第一辞書記憶過程と、
読み出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記憶過程と、
上記第一辞書記憶過程で記憶された部分辞書に対する照合演算に用いる照合データを記憶する照合データ記憶過程と、
上記第二辞書記憶過程で記憶された部分辞書に対する照合演算に用いる照合データを記憶する遅延照合データ記憶過程と、
上記第二辞書記憶過程で記憶された部分辞書のダウンロードを行っている間、先行して上記照合データ記憶過程で記憶された照合データを用いて照合処理を進め、上記第二辞書記憶過程で記憶された部分辞書のダウンロードが終了すると上記遅延照合データ記憶過程で記憶された照合データを用いて照合処理を行い、上記照合データ記憶過程で記憶された照合データを用いた照合処理と上記遅延照合データ記憶過程で記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、上記遅延照合データ記憶過程で記憶された照合データを上記照合データ記憶過程で記憶された照合データにマージするモデル照合過程とを有することを特徴とする音声認識方法。 - モデル照合過程において、
第二辞書記憶過程で記憶された部分辞書のダウンロードが行われている間に、照合データ記憶過程で記憶された照合データを用いた照合処理の照合結果により評価値の高い部分辞書が検出された場合に、ダウンロードを行う部分辞書を切り替えることを特徴とする請求項6記載の音声認識方法。 - モデル照合過程において、
照合データ記憶過程で記憶された照合データを用いた照合処理の照合結果が得られるのを一定時間の間待ってから、ダウンロードを行う部分辞書を選択してダウンロードを行うことを特徴とする請求項6記載の音声認識方法。 - モデル照合過程において、
照合データ記憶過程で記憶された照合データの照合処理の結果が所定の値を超えると、第二辞書記憶過程で記憶された部分辞書のうちその照合データに対応する部分辞書をダウンロードすることを特徴とする請求項7記載の音声認識方法。 - モデル照合過程において、
照合データ記憶過程で記憶された照合データの照合処理の結果が所定の値を超えてから一定時間の間待って第二辞書記憶過程で記憶された部分辞書のうちからどの部分辞書をダウンロードするかを選択することを特徴とする請求項8記載の音声認識方法。 - 入力された音声に対し音響分析を行い特徴ベクトルの時系列に変換する音響分析機能と、
読み出し速度の早い記憶媒体に部分辞書を記憶する第一辞書記憶機能と、
読み出し速度の遅い記憶媒体に部分辞書を記憶する第二辞書記憶機能と、
上記第一辞書記憶機能で記憶された部分辞書に対する照合演算に用いる照合データを記憶する照合データ記憶機能と、
上記第二辞書記憶機能で記憶された部分辞書に対する照合演算に用いる照合データを記憶する遅延照合データ記憶機能と、
上記第二辞書記憶機能で記憶された部分辞書のダウンロードを行っている間、先行して上記照合データ記憶機能で記憶された照合データを用いて照合処理を進め、上記第二辞書記憶機能で記憶された部分辞書のダウンロードが終了すると上記遅延照合データ記憶機能で記憶された照合データを用いて照合処理を行い、上記照合データ記憶機能で記憶された照合データを用いた照合処理と上記遅延照合データ記憶機能で記憶された照合データを用いた照合処理との間で処理の遅れがなくなると、上記遅延照合データ記憶機能で記憶された照合データを上記照合データ記憶機能で記憶された照合データにマージするモデル照合機能とをコンピュータに実現させるための音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001070937A JP4104831B2 (ja) | 2001-03-13 | 2001-03-13 | 音声認識装置、音声認識方法、及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001070937A JP4104831B2 (ja) | 2001-03-13 | 2001-03-13 | 音声認識装置、音声認識方法、及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002268673A JP2002268673A (ja) | 2002-09-20 |
JP4104831B2 true JP4104831B2 (ja) | 2008-06-18 |
Family
ID=18928718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001070937A Expired - Fee Related JP4104831B2 (ja) | 2001-03-13 | 2001-03-13 | 音声認識装置、音声認識方法、及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4104831B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4671898B2 (ja) | 2006-03-30 | 2011-04-20 | 富士通株式会社 | 音声認識装置、音声認識方法、音声認識プログラム |
JP2008197338A (ja) * | 2007-02-13 | 2008-08-28 | Denso Corp | 音声認識装置 |
US9190057B2 (en) * | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
JP6508808B2 (ja) * | 2014-10-16 | 2019-05-08 | 日本放送協会 | 音声認識誤り修正装置 |
-
2001
- 2001-03-13 JP JP2001070937A patent/JP4104831B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002268673A (ja) | 2002-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10741170B2 (en) | Speech recognition method and apparatus | |
JP4414088B2 (ja) | 音声認識において無音を使用するシステム | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
KR19980702723A (ko) | 음성 인식 방법 및 장치 | |
JP4289715B2 (ja) | 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法 | |
JPH10105189A (ja) | シーケンス取出し方法及びその装置 | |
JP6276513B2 (ja) | 音声認識装置および音声認識プログラム | |
JP4940057B2 (ja) | 音声認識装置及びその方法 | |
JP4104831B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
US20050075876A1 (en) | Continuous speech recognition apparatus, continuous speech recognition method, continuous speech recognition program, and program recording medium | |
JP2003208195A5 (ja) | ||
JP4729078B2 (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
WO2020100606A1 (ja) | 非言語発話検出装置、非言語発話検出方法、およびプログラム | |
JP3440840B2 (ja) | 音声認識方法及びその装置 | |
JPH06266386A (ja) | ワードスポッティング方法 | |
JP3999913B2 (ja) | 音声認識システム及び方法並びに音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
WO1999028898A1 (fr) | Systeme et procede de reconnaissance vocale | |
JP3969079B2 (ja) | 音声認識装置および方法、記録媒体、並びにプログラム | |
JP2007066237A (ja) | 記号列変換方法、音声認識方法、音声言い換え方法、記号列変換装置とプログラム、記録媒体 | |
JP3873418B2 (ja) | 音声スポッティング装置 | |
JPH08123471A (ja) | 音声認識装置 | |
JP3484077B2 (ja) | 音声認識装置 | |
JP2004012615A (ja) | 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 | |
JP3369121B2 (ja) | 音声認識方法および音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20071109 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071109 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080326 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120404 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |