JP4541781B2

JP4541781B2 - 音声認識装置および方法

Info

Publication number: JP4541781B2
Application number: JP2004191460A
Authority: JP
Inventors: 英生久保山; 俊明深田; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2004-06-29
Filing date: 2004-06-29
Publication date: 2010-09-08
Anticipated expiration: 2024-06-29
Also published as: US7565290B2; US20050288929A1; JP2006011257A

Description

本発明は、音声を認識する音声認識装置および方法に関するものである。

音声認識は、誰でも簡単に音声でコマンドを入力することができるユーザーインタフェースとして注目されている。近年では、隠れマルコフモデル（ＨＭＭ）を音響モデルに用いた音声認識が主流となり、不特定話者の音声を認識できるようになっている。

しかしながら、組み込み機器において音声認識を行う場合は、その処理速度が大きな問題となる。音声認識の処理は、音声の特徴量を求める音響分析と、その特徴量から各認識対象単語の尤度を計算するデコーダに分けられ、特に認識対象単語数が多くなったり、複数単語で構成された文を認識するような連続音声認識になったりすると、このデコーダによる尤度計算に大きな処理時間がかかる。

認識処理速度を速める方法として広く用いられている方法にビームサーチと呼ばれる手法がある。この手法は、時間同期で尤度計算を行う際に各時刻において、尤度の低い候補を除外してその後の計算を省くものである。一般的には同時刻内で最大の尤度から一定値を引いた値に達しない候補を除外していく。

この方法以外にも候補数を減らす方法が検討されている。例えば、非特許文献１では、各時刻における候補数に制限を設定して候補数を減らす方法を提案している。

また、特許文献１では、この候補数制限を単語内の計算では行わずに単語終端のみに行うことで精度を保ちつつ計算量を削減している。

また、特許文献２では、音響モデルを工夫して計算量を削減する方法として、似ている音素をマージしてマージ音声片ツリーを作成し、これにより尤度計算を行い、解が一意に定まらなかった場合に元の音素で再照合して、計算量を削減している。同文献ではさらに、語彙の単語先頭からＮ番目の音素までを簡易に尤度計算を行うラフ音響モデル、残りを精密に尤度計算を行う精密音響モデルで計算し、再照合時にモデルで計算して計算量を削減している。

特開２００２−２１５１８７号公報特開２００１−３１２２９３号公報 V.Steinbiss, B.H.Tran, H. Ney "Improvements in Beam Search", Proceedings ICSLP, Yokohama, 1994, vol.4, pp.2143-2146

図１５に認識対象単語から作るツリーの例を示す。同図において、ＳＩＬ−ｓ＋ａは、前方音素がＳＩＬ（無音）、中心音素がｓ、後方音素がａであるトライフォンを表す。

さて、特許文献２では、単語先頭付近を簡易なモデルで計算することによりツリーの分岐を減らし、後に再照合で解を決定している。

しかしながら、一般に、ツリーの枝は単語先頭付近で数多く分岐しやすい。このとき、前方の分岐の多いところで簡易なモデル、例えば前後の音素に依存しないモノフォンに置き換えてしまうと、ＳＩＬ−ｓ＋ｕとＳＩＬ−ｓ＋ａはいずれもｓとなり、分岐において尤度差がつかない上にモデルの精度も悪くなるという問題を生じる。

また、音響モデルの各音素標準パターンを複数のガウス分布で表してあるときに、単語先頭にその分布数を減らした簡易なモデルを用いると、十分にその音素を表現できないために尤度が悪くなり、尤度計算精度が劣化するという問題が生じる。

したがって、このような問題を回避しつつ、尤度計算の計算量を、その計算の精度を保ちながら、削減する別の技法が必要である。

上記した課題を解決するために、例えば本発明の音声認識装置は以下の構成を有する。すなわち、１または２以上の状態で所定の音声単位の標準パターンを表す音響モデルと、前記音響モデルを用いて、入力音声の特徴量に対して各々の認識対象単語の尤度を計算する尤度計算手段とを有する音声認識装置であって、前記音響モデルは、第１の音響モデルおよび、この第１の音響モデルよりも精密度の低い第２の音響モデルを含み、前記尤度計算手段は、着目する状態について、その状態が前記認識対象単語の単語先頭から何番目の状態であるかに応じて前記第１および第２の音響モデルを切り換え使用して尤度を計算することを特徴とする。

本発明によれば、音響モデルを用いた尤度計算を行う際に、精度を落とさずに計算量を削減することができる。

本発明は、ツリーの分岐を減らすこと及び単語先頭の処理を軽くすることに着目するのではなく、むしろ単語先頭もしくは分岐で精密な尤度計算を行い、他の状態を簡易な尤度計算で済ませても十分に精度を保つようにしたものである。

このように本発明では、単語先頭付近もしくはツリーの分岐が多い状態では精密音響モデルで尤度計算し、その他の状態では簡易音響モデルで尤度計算する。なお、文献W. Chou, C. H. Lee, B. H. Juang, "MINIMUM ERROR RATE TRAINING OF INTER-WORD CONTEXT DEPENDENT ACOUSTIC MODEL UNITS IN SPEECH RECOGNITION", Proceedings ICSLP, Yokohama, 1994, vol. 9, pp. 439-442においては、語頭と語末において音響モデルを詳細にするために、語頭では前単語、語末では後続単語の接続し得る全組み合わせに依存してモデルを詳細に分離する方法が提案されているが、本発明の精密音響モデルでガウス分布の混合数を増やす方法は、前の単語に依存しない別の方法であるし、精密音響モデルでトライフォンを用いる方法は、前単語ごとにモデルを決定するのではなく前単語の音素に依存してモデルを決定するため別の方法である。また、これら精密音響モデルを単語先頭に限らず分岐の数に応じて切り替える記述は同文献にはない。

以下、図面を参照して本発明の好適な実施形態について詳細に説明する。

図１は、本実施形態における音声認識装置の機能を示すブロック図である。同図において、１０１は、音声を分析して音声特徴量を求める音響分析部である。１０２は、音声認識に用いる認識対象単語を保持する認識対象単語辞書である。１０３は、所定の音声単位（モノフォン、トライフォン、単語など）の精密な標準パターンである精密音響モデルである。１０４は、音声単位の簡易な標準パターンである簡易音響モデルである。これら精密音響モデル１０３および簡易音響モデル１０４の具体的な構成例については後述する。１０５は、認識対象単語辞書１０２、精密音響モデル１０３、簡易音響モデル１０４を用い、音響分析部１０１が求めた音声特徴量を入力して尤度計算を行う尤度計算部である。１０６は、尤度計算部１０５が求めた尤度を基に認識結果を決定、出力する認識結果出力部である。

図２は、尤度計算部１０５が行う処理を示したフローチャートである。まず、ステップＳ２０１において、音響分析部１０１により求められた入力音声の一定時間区間（フレーム）ごとの音声特徴量が尤度計算部１０５に入力される。次に、ステップＳ２０２において、認識対象単語辞書１０２の一状態を選択する。

図３は、認識対象単語辞書１０２の構造例を概念的に示す図である。同図において、３０１は、各認識対象単語を分割した音素を表すノードであり、ＳＩＬ−ｓ＋ａは、前方音素がＳＩＬ（無音）、中心音素がｓ、後方音素がａであるトライフォンを表している。３０２は音素を構成する状態であり、同図では１音素を３状態で表している。３０３は、隣り合う状態のノードを結び、一時刻で状態遷移するパスを表すリンクである。

同図に示されるように、認識対象単語辞書１０２は単語先頭から共通の音素を他の単語と共有し、ツリー構造を形成する。ツリーの枝が末端に達すると３０４に示されるような認識対象単語が形成される。

説明を図２のフローチャートに戻す。ステップＳ２０２では、状態３０２をツリーの単語先頭から順番に選択していく。次に、ステップＳ２０３において、選択した状態がツリーの単語先頭からＮ状態（例えば、Ｎ＝１２）までに含まれているかを調べる。Ｎ状態以内の場合にはステップＳ２０４に進み、精密音響モデル１０３を用いて尤度計算を行う。他方、先頭からＮ状態よりも離れた状態の場合にはステップＳ２０５に進み、簡易音響モデル１０４を用いて尤度計算を行う。

そして、ステップＳ２０６において、全状態に対する処理を終えたかどうかを判断して、全状態に対する処理を終えた場合には本処理を終了するが、次の状態がまだある場合にはステップＳ２０２に戻って処理を繰り返す。ただし、ここでいう「全状態」とは、現時刻で状態遷移が到達し得ない状態を除く。例えば、単語“スズキ”の４番目の音素“u-z+u”の第１状態に先頭から状態遷移が到達する最短時間は７時刻である。したがって、７時刻目においては“u-z+u”の第２状態以降の状態については、状態遷移が到達し得ないために尤度計算から除外する。

次に、本実施形態における尤度計算について詳細に述べる。

精密音響モデル１０３、簡易音響モデル１０４は、認識対象単語辞書１０２に含まれるそれぞれの音素に対応して、音素の各状態での状態遷移確率と、出力確率分布を表現する１または２以上のガウス分布の平均、分散、混合重みを保持する。尤度計算部１０５は各状態において、出力確率と状態遷移確率の対数値を音声開始時刻から累積して尤度とする。

尤度の計算量はモデルの混合数（ガウス分布の数）が増えると増加するが、混合数を減らすと音素を精密に表現できない。そのため、本実施形態では精密音響モデル１０３として混合数を多くしたモデルを用い、簡易音響モデル１０４として混合数を少なくしたモデルを用いる。

図４にその例を示す。単語先頭よりＮ状態（同図では、Ｎ状態＝４音素×３状態＝１２状態）までについては、４混合分布の精密音響モデルを用いるため計算量は増えるが精密な尤度計算を行う。単語先頭よりＮ状態を超えた状態については、１分布の簡易音響モデルを用いるため、尤度計算は粗くなるが高速に尤度計算を行うことができる。

上記した例では精密音響モデル１０３と簡易音響モデル１０４とでガウス分布の混合数を変えるものであったが、精密音響モデル１０３および簡易音響モデル１０４の構成および尤度計算手順については、これ以外にさまざまな変形例が考えられる。

（変形例１）
例えば、音素単位を変えることにより精密音響モデル１０３と簡易音響モデル１０４との差をつけることができる。具体的には例えば、精密音響モデル１０３に両隣の音素によって音素を分けるトライフォンモデルを用い、簡易音響モデル１０４に両隣の音素にかかわらず音素ごとに標準パターンを持つモノフォンモデルを用いる。

一例を図５に示す。同図において、単語先頭よりＮ状態（同図では、Ｎ状態＝４音素×３状態＝１２状態）まではトライフォンモデルを用いる。トライフォンは中心音素と両隣の音素の三つ組みごとに標準パターンを持つモデルであり、例えば、ＳＩＬ−ｓ＋ａは、音素ｓの内でも前の音素がＳＩＬ（無音）、後ろの音素がａのものを表す。これに対してモノフォンモデルは両隣に関わらず中心音素ｓ全体を一つの標準パターンで表現する。そのため、トライフォンのほうがより精密に音素を表現することができる。

ここで、尤度計算部１０５はある時刻に対して一度計算した音素については、認識対象単語の他の場所で出てきた音素に対してもその計算結果を用いることができる。例えば、図５において、単語“サバ”に含まれるモノフォンである“ａ”で求めた計算結果を用いれば、単語“サンマ”に含まれるモノフォン“ａ”の計算を行わずに済む。この計算結果の再利用により、計算処理を高速化できるのだが、この場合モノフォンの方が両隣の音素に依存しないために再利用性が高く、より高速化が可能である。そこでこの変形例においては、図５に示すように、単語先頭よりＮ状態以内ではトライフォンモデルを用いてより精密に尤度計算し、単語先頭よりＮ状態を超える状態ではモノフォンモデルを用いて高速に処理する。

（変形例２）
上記した変形例１では各音素での尤度計算結果を再利用しやすいように、単語先頭よりＮ状態を超える音素で用いる簡易音響モデルにモノフォンモデルを用いたが、このとき、既にＮ状態以内で計算したトライフォンと一致する音素があれば、その計算結果を用いることでさらに精密かつ高速に尤度計算を行うことができる。

この様子を図６に示す。同図において、単語“ハタハタ”の７番目の音素はモノフォン“ａ”、８番目の音素はモノフォン“ｔ”であり、この簡易音響モデルを用いて計算する（“ａ”については“ホタル”もしくは“ハマチ”に現れる“ａ”を既に計算していればその計算結果を再利用する）ところであるが、これらの音素は前後の音素を考慮したトライフォンで表すと、“ｈ−ａ＋ｔ”、“ａ−ｔ＋ａ”となる。この“ｈ−ａ＋ｔ”、“ａ−ｔ＋ａ”は、Ｎ状態以内であり精密音響モデルで計算する“ハタハタ”の３番目、４番目のトライフォンに現れ、この精密音響モデルによる計算結果を再利用することができる。これにより、なるべく精密音響モデルによる尤度計算結果を用いながら高速に処理することができる。

また、精密音響モデル１０３と簡易音響モデル１０４で分布の混合数を変えた場合にも、同様な方法を適用できる。

この例を図７に示す。同図においては精密音響モデルに４混合分布の音響モデル、簡易音響モデルに１分布の音響モデルを用いているが、図６の例と同様に、単語“ハタハタ”の７番目、８番目の音素“ｈ−ａ＋ｔ”、“ａ−ｔ＋ａ”内の状態は、１分布の簡易音響モデルを用いて尤度計算するのではなく、Ｎ状態以内で４混合分布の音響モデルを用いて既に計算した結果を再利用することで、精密かつ高速に処理することができる。

（変形例３）
上記実施形態ではステップＳ２０３において、現在の状態が語彙の単語先頭からＮ状態以内であるか否かによって、精密音響モデル１０３を用いるか簡易音響モデル１０４を用いるかを判定するようにしたが、音素位置に関わらず、現在の状態の分岐数を見て、その分岐数に応じて音響モデルを切り替えるようにしてもよい。

本変形例による尤度計算のフローを図８に示す。図２のフローチャートとの相違はステップＳ２０３のかわりに実行されるステップＳ２０３’であり、その他は同様の処理ステップである。このステップＳ２０３’では、近傍に所定の値Ｍ以上の分岐が存在するか否かを判定し、ある場合には精密音響モデル１０３を用い、ない場合には簡易音響モデル１０４を用いる。

図９にその一例を示す。同図においてはＭ＝３とし、３以上の分岐の直後に現れる音素に含まれる状態（ＳＩＬ−ｓ＋ａから３つに分岐する直後の音素“ｓ−ａ＋ｚ”、“ｓ−ａ＋ｂ”、“ｓ−ａ＋ｓ”に含まれる状態、ならびに、“ａ−ｓ＋ａ”から３つに分岐する直後の音素“ｓ−ａ＋ＳＩＬ”、“ｓ−ａ＋ｍ”、“ｓ−ａ＋ｋ”に含まれる状態）に対して、精密音響モデル１０３を用いて計算し、それ以外の状態については（単語先頭付近であるなしに関わらず）簡易音響モデル１０４で計算する。これにより、単語の先頭付近であるなしに関わらず、分岐数の多い状態で効率よく精密に尤度計算できる。

なお、同図においては、分岐の直後の音素に含まれる状態としたが、本発明はこれに限るものでなく、分岐の近傍として決める範囲は他のもの（例えば、分岐の前後１音素、分岐の直後５状態、など）であっても良い。

（変形例４）
上記した変形例２、３では、モノフォンやトライフォンなどの音素を単位とした音響モデルを用いたが、本発明はこれに限るものではなく、認識対象単語ごとに標準パターンを学習した単語モデルを用いても良い。

図１０に、本変形例に係る単語モデルを用いて表現する認識対象単語辞書のを図１０に示す。同図において、１００１は、単語モデルの中の状態であり、一単語を１または２以上の状態で表現する（音素モデルにおける状態３０２に相当する）。単語モデルの場合は、音素ごとに他の認識対象単語と状態を共有することはせず、同図のようにツリーを形成しない場合が多い。この場合においても、単語先頭よりＮ状態以内については混合数を多くした精密音響モデル１０３、Ｎ状態より後については混合数を減らした簡易音響モデル１０４を適用できる。ツリーの分岐数Ｍにより音響モデルを切り替える方法については、ツリーを形成していないため単語内で分岐が起こることはない。しかし、認識するための文法によって分岐数が変わる場合に同様に適用できる。

図１１に認識文法の例を示す。同図では、１１０１が認識対象単語、１１０２が認識対象単語を結ぶリンクであり、ＳｔａｒｔからＥｎｄまでリンクを辿る単語列以外の認識結果は尤度が高くとも結果として受理されない。このとき、文法における分岐数Ｌによって、単語モデルであっても、音響モデルを切り替えることができる。例えば、同図において、文法の分岐数Ｌ＝３としたときに、駅名（目黒、町田、新宿、新横浜、渋谷）では分岐数が５と、Ｌより大きくなるのでこれらの単語モデルについては精密音響モデル１０３を用いて尤度計算する。その一方で、単語“駅”の場合は分岐数１、単語“出発”と“到着”では分岐数２となりＬよりも小さいので簡易音響モデル１０４を用いて尤度計算する。

（変形例５）
上記変形例４では、認識文法の分岐数によって音響モデルを切り替える方法について、単語モデルを用いたときの例として説明したが、音素モデルを用いる場合にも適用可能である。またこの場合に、図４のように単語先頭からＮ状態以内であったり、図９のように認識対象単語のツリーで分岐数がＭ以上である場合でも、図１１のような文法の分岐数がＬ未満の単語（“駅”、“出発”、“到着”）については簡易音響モデル１０４を用いるという制御を行っても良い。また、文法の分岐数Ｌに応じて、単語先頭からの語数Ｎやツリーの分岐数Ｍを変更するような関数を用意し、Ｌに応じてＮやＭを変えても良い。

（変形例６）
上記した例における音素モデルでは音素単位で分岐して単語間で音素を共有しているが、音素内の状態単位で共有しても良い。この場合、ある音素と別の音素の同じ位置の状態に、同じ状態を用いるようにクラスタリングすることで音素内の状態を別の音素と共有する。従ってこの場合、単語先頭からの状態数Ｎあるいは状態の分岐数Ｍによっては、同一音素内でも状態ごとに精密音響モデルと簡易音響モデルを使い分けることがある。

（変形例７）
上述した実施形態はいずれの例も、尤度計算時に単語先頭からの状態数Ｎ、ツリーの分岐数Ｍあるいは文法の分岐数Ｌによって精密音響モデルと簡易音響モデルを使い分けるものであったが、ここでは、まずは全て簡易音響モデル１０４で尤度計算し、単語先頭からの状態数Ｎ未満あるいはツリーの分岐数がＭ以上あるいは文法の分岐数がＬ以上であり、かつ尤度の高い状態のみ精密音響モデル１０３で再計算する例を示す。

図１２は本変形例における尤度計算手順を示すフローチャート、図１３にその尤度計算における処理例を説明する図である。まず、ステップＳ１２０１で尤度計算部１０５に音声が入力されると、ステップＳ１２０２において、図１３に示すとおり、全ての状態（ただし、現時刻では状態遷移が到達し得ない状態を除く。）に対して簡易音響モデル１０４で尤度計算を行う。

その後、ステップＳ１２０３で、単語先頭からＮ状態以内であり、かつ、簡易音響モデル１０４で計算した尤度が高いもののみ、精密音響モデル１０３で再計算する。図１３の例では、Ｎ状態以内に含まれる各状態の尤度を参照し、所定の閾値を超える状態を（同図では、ＳＩＬ−ｓ＋ａの３状態目、ｓ−ａ＋ｂの１状態目、ｓ−ａ＋Ｘの１状態目および２状態目の計４状態）を選択し、これらの状態に対してのみ精密音響モデル１０３を用いて再計算し、その結果を簡易音響モデル１０４により計算した尤度と置き換える。これにより、単語先頭からＮ状態以内のなかでも尤度の高い状態だけが精密に計算されるのでさらに高速化できる。

なお、ステップＳ１２０３において、精密音響モデル１０３を用いた再計算を行うための、「単語先頭からＮ状態以内」という条件を、「ツリーの分岐数Ｍ以上の近傍」、あるいは「文法の分岐数Ｌ以上の単語」、に置き換えても良い。また、尤度が高いものを選ぶ方法は特定の方法に限定されるものではなく、例えば全状態の尤度のなかで上位Ｋ個に入る状態を選択するようにしても良いし、最も高い尤度からの差が所定の閾値以内である状態を選択するようにしても良い。

（変形例８）
これまで説明した実施形態の各態様では精密音響モデル１０３と簡易音響モデル１０４とをガウス分布の混合数や音素単位によって差別化したが、本発明はこれに限るものではなく、尤度計算速度に違いが出る分け方であれば良い。

例えば、音素単位により精密音響モデル１０３と簡易音響モデル１０４を分ける方法として、精密音響モデル１０３にトライフォン、簡易音響モデル１０４にモノフォンを用いたが、これ以外にも、精密音響モデル１０３と簡易音響モデル１０４共にトライフォンであるが、簡易音響モデル１０４では似た性質のトライフォンでクラスタリングして共通のモデルを用いるのに対し、精密音響モデル１０３ではクラスタリングを行わない、あるいはクラスタリングのクラスタ数を簡易音響モデル１０４より大きくするといった方法も考えられる。

（変形例９）
これまで説明した実施形態の各態様では尤度計算時に単語先頭からの状態数Ｎあるいはツリーの分岐数Ｍあるいは文法の分岐数Ｌによって精密音響モデル１０３と簡易音響モデル１０４の二つを切り替える方法を挙げているが、本発明はこれに限るものではなく、精密度の異なる音響モデルを三つ以上用意しても良い。この場合には、それぞれの方法での閾値となる単語先頭からの状態数Ｎあるいはツリーの分岐数Ｍあるいは文法の分岐数Ｌをモデルの数に応じて用意すれば実現が可能である。例えば、４段階のモデルであれば閾値を３段階用意することになる。

（他の実施形態）
以上、さまざまな態様の実施形態を説明したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。

なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。

例えば、本発明の音声認識装置の機能は、汎用のコンピュータ装置（例えば、パーソナルコンピュータ、ワークステーションなど）によっても実現が可能である。

図１４は、本発明の音声認識装置の機能を実現するコンピュータの構成例を示す図である。

図示のコンピュータは、装置全体の制御を司るＣＰＵ１、ブートプログラムや固定的なデータ等を記憶しているＲＯＭ２、主記憶装置として機能するＲＡＭ３をはじめ、以下の構成を備える。

ＨＤＤ４はハードディスク装置であって、ここにＯＳのほか、音声認識プログラム１００、認識対象単語辞書１０２、精密音響モデル１０３、簡易音響モデル１０４が格納される。

また、ＶＲＡＭ５は表示しようとするイメージデータを展開するメモリであり、ここにイメージデータ等を展開することで表示装置の一例としてのＣＲＴ６に表示させることができる。７および８はそれぞれ、各種入力操作を行うためのキーボードおよびマウスで、ＣＰＵ１に割り込み信号を伝えるキーボードコントローラ７ａおよびマウスコントローラ８ｂに接続されている。

本発明の音声認識装置として機能するコンピュータの構成は概ね上記のようなものであるが、上記の音声認識プログラム１００が音響分析部１０１、尤度計算部１０５、認識結果出力部１０６の機能を実現する。

要するに、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。

プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明のクレームに含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。

本発明の実施形態における音声認識装置が実現する機能を示すブロック図である。実施形態における尤度計算例を示すフローチャートである。実施形態における認識対象単語辞書の構造例を概念的を示す図である。実施形態における精密音響モデルおよび簡易音響モデルの構成例を示す図である。変形例１に係る精密音響モデルおよび簡易音響モデルの構成例を示す図である。変形例２における尤度計算例を説明する図である。変形例２における別の尤度計算例を説明する図である。変形例３における尤度計算例を示すフローチャートである。変形例３における尤度計算における音響モデルの切り替えを説明する図である。変形例４における単語モデルで表現した認識対象単語辞書の一例を表す図である。変形例４における認識文法の一例を表す図である。変形例７における尤度計算手順を示すフローチャートである。変形例７の尤度計算における処理例を説明する図である。本発明の音声認識装置として機能するコンピュータの構成例を示す図である。認識対象単語から作られるツリーの例を示す図である。

Claims

１または２以上の状態で所定の音声単位の標準パターンを表す音響モデルと、認識対象単語を保持する辞書と、前記音響モデルを用いて、入力音声の特徴量に対して前記辞書内の各々の認識対象単語の尤度を計算する尤度計算手段とを有する音声認識装置であって、
前記音響モデルは、第１の音響モデルおよび、この第１の音響モデルよりも精密度の低い第２の音響モデルを含み、
前記辞書は、前記認識対象単語の中で前記所定の音声単位を共有する木構造もしくはネットワーク文法による分岐を構成し、
前記尤度計算手段は、着目する状態の近傍に所定数以上の分岐が存在する場合には、当該着目する状態については前記第１の音響モデルを用いて尤度を計算し、前記所定数以上の分岐が存在しない場合には、当該着目する状態については前記第２の音響モデルを用いて尤度を計算する
ことを特徴とする音声認識装置。
１または２以上の状態で所定の音声単位の標準パターンを表す音響モデルと、認識対象単語を保持する辞書と、前記音響モデルを用いて、入力音声の特徴量に対して前記辞書内の各々の認識対象単語の尤度を計算する尤度計算手段とを有する音声認識装置であって、
前記音響モデルは、第１の音響モデルおよび、この第１の音響モデルよりも精密度の低い第２の音響モデルを含み、
前記辞書は、前記認識対象単語の中で前記所定の音声単位を共有する木構造もしくはネットワーク文法による分岐を構成し、
前記尤度計算手段は、着目する状態の近傍に所定数以上の分岐が存在する場合には、当該着目する状態については、いったん前記第２の音響モデルを用いて尤度を計算し、その中で尤度がしきい値より高い状態に限り前記第１の音響モデルを用いて尤度を再計算する
ことを特徴とする音声認識装置。
１または２以上の状態で所定の音声単位の標準パターンを表す音響モデルと、認識対象単語を保持する辞書と、前記音響モデルを用いて、入力音声の特徴量に対して前記辞書内の各々の認識対象単語の尤度を計算する尤度計算手段とを有する音声認識装置であって、
前記音響モデルは、第１の音響モデルおよび、この第１の音響モデルよりも精密度の低い第２の音響モデルを含み、
前記辞書は、前記認識対象単語の中で前記所定の音声単位を共有する木構造もしくはネットワーク文法による分岐を構成し、
前記尤度計算手段は、着目する状態の近傍に所定数以上の分岐が存在する場合には、当該着目する状態については、いったん前記第２の音響モデルを用いて尤度を計算し、その中から尤度の高い順に選択される所定個数の状態に限り前記第１の音響モデルを用いて尤度を再計算する
ことを特徴とする音声認識装置。
前記第２の音響モデルは、この第２の音響モデルを表現する分布の混合数が前記第１の音響モデルの混合数よりも少ないことを特徴とする請求項１乃至３のいずれか１項に記載の音声認識装置。
前記第１の音響モデルはトライフォンモデルであり、前記第２の音響モデルはモノフォンモデルであることを特徴とする請求項１乃至３のいずれか１項に記載の音声認識装置。
前記尤度計算手段は、着目する状態について前記第２の音響モデルを用いて尤度を計算する際に、過去所定の状態数以内に当該着目する状態と同一の音声単位並びの状態について前記第１の音響モデルを用いた尤度計算が行われている場合には、その尤度計算の結果を当該着目する状態についての尤度計算の結果として再利用することを特徴とする請求項１乃至３のいずれか１項に記載の音声認識装置。
１または２以上の状態で所定の音声単位の標準パターンを表す第１の音響モデルと、この第１の音響モデルよりも精密度の低い第２の音響モデルと、認識対象単語の中で前記所定の音声単位を共有する木構造もしくはネットワーク文法による分岐を構成することで複数の認識対象単語を格納した辞書とを使用して、入力音声の特徴量に対して各々の認識対象単語の尤度を計算することで音声認識を行う音声認識装置によって実行される音声認識方法であって、
判定手段が、着目する状態の近傍における分岐数が所定数以上あるか否かを判定する判定ステップと、
前記尤度計算手段が、前記判定ステップで前記分岐数が前記所定数以上あると判定されたときは、当該着目する状態については前記第１の音響モデルを用いて尤度を計算し、前記判定ステップで前記分岐数が前記所定数以上でないと判定されたときは、当該着目する状態については前記第２の音響モデルを用いて尤度を計算する尤度計算ステップと、
を有することを特徴とする音声認識方法。
１または２以上の状態で所定の音声単位の標準パターンを表す第１の音響モデルと、この第１の音響モデルよりも精密度の低い第２の音響モデルと、認識対象単語の中で前記所定の音声単位を共有する木構造もしくはネットワーク文法による分岐を構成することで複数の認識対象単語を格納した辞書とを使用して、入力音声の特徴量に対して各々の認識対象単語の尤度を計算することで音声認識を行う音声認識装置によって実行される音声認識方法であって、
計算手段が、近傍に所定数以上の分岐が存在する状態について、前記第２の音響モデルを用いて尤度を計算する計算ステップと、
再計算手段が、前記計算ステップで計算された尤度がしきい値より高い状態について、前記第１の音響モデルを用いて尤度を再計算する再計算ステップと、
を有することを特徴とする音声認識方法。
１または２以上の状態で所定の音声単位の標準パターンを表す第１の音響モデルと、この第１の音響モデルよりも精密度の低い第２の音響モデルと、認識対象単語の中で前記所定の音声単位を共有する木構造もしくはネットワーク文法による分岐を構成することで複数の認識対象単語を格納した辞書とを使用して、入力音声の特徴量に対して各々の認識対象単語の尤度を計算することで音声認識を行う音声認識装置によって実行される音声認識方法であって、
計算手段が、近傍に所定数以上の分岐が存在する状態について、前記第２の音響モデルを用いて尤度を計算する計算ステップと、
再計算手段が、前記計算ステップで計算された尤度が高い順に選択される所定個数の状態について、前記第１の音響モデルを用いて尤度を再計算する再計算ステップと、
を有することを特徴とする音声認識方法。
コンピュータを、請求項１乃至６のいずれか１項に記載の音声認識装置が有する各手段として機能させるためのプログラム。