JP4541781B2 - 音声認識装置および方法 - Google Patents

音声認識装置および方法 Download PDF

Info

Publication number
JP4541781B2
JP4541781B2 JP2004191460A JP2004191460A JP4541781B2 JP 4541781 B2 JP4541781 B2 JP 4541781B2 JP 2004191460 A JP2004191460 A JP 2004191460A JP 2004191460 A JP2004191460 A JP 2004191460A JP 4541781 B2 JP4541781 B2 JP 4541781B2
Authority
JP
Japan
Prior art keywords
acoustic model
likelihood
state
speech
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004191460A
Other languages
English (en)
Other versions
JP2006011257A (ja
JP2006011257A5 (ja
Inventor
英生 久保山
俊明 深田
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004191460A priority Critical patent/JP4541781B2/ja
Priority to US11/165,167 priority patent/US7565290B2/en
Publication of JP2006011257A publication Critical patent/JP2006011257A/ja
Publication of JP2006011257A5 publication Critical patent/JP2006011257A5/ja
Application granted granted Critical
Publication of JP4541781B2 publication Critical patent/JP4541781B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声を認識する音声認識装置および方法に関するものである。
音声認識は、誰でも簡単に音声でコマンドを入力することができるユーザーインタフェースとして注目されている。近年では、隠れマルコフモデル(HMM)を音響モデルに用いた音声認識が主流となり、不特定話者の音声を認識できるようになっている。
しかしながら、組み込み機器において音声認識を行う場合は、その処理速度が大きな問題となる。音声認識の処理は、音声の特徴量を求める音響分析と、その特徴量から各認識対象単語の尤度を計算するデコーダに分けられ、特に認識対象単語数が多くなったり、複数単語で構成された文を認識するような連続音声認識になったりすると、このデコーダによる尤度計算に大きな処理時間がかかる。
認識処理速度を速める方法として広く用いられている方法にビームサーチと呼ばれる手法がある。この手法は、時間同期で尤度計算を行う際に各時刻において、尤度の低い候補を除外してその後の計算を省くものである。一般的には同時刻内で最大の尤度から一定値を引いた値に達しない候補を除外していく。
この方法以外にも候補数を減らす方法が検討されている。例えば、非特許文献1では、各時刻における候補数に制限を設定して候補数を減らす方法を提案している。
また、特許文献1では、この候補数制限を単語内の計算では行わずに単語終端のみに行うことで精度を保ちつつ計算量を削減している。
また、特許文献2では、音響モデルを工夫して計算量を削減する方法として、似ている音素をマージしてマージ音声片ツリーを作成し、これにより尤度計算を行い、解が一意に定まらなかった場合に元の音素で再照合して、計算量を削減している。同文献ではさらに、語彙の単語先頭からN番目の音素までを簡易に尤度計算を行うラフ音響モデル、残りを精密に尤度計算を行う精密音響モデルで計算し、再照合時にモデルで計算して計算量を削減している。
特開2002−215187号公報 特開2001−312293号公報 V.Steinbiss, B.H.Tran, H. Ney "Improvements in Beam Search", Proceedings ICSLP, Yokohama, 1994, vol.4, pp.2143-2146
図15に認識対象単語から作るツリーの例を示す。同図において、SIL−s+aは、前方音素がSIL(無音)、中心音素がs、後方音素がaであるトライフォンを表す。
さて、特許文献2では、単語先頭付近を簡易なモデルで計算することによりツリーの分岐を減らし、後に再照合で解を決定している。
しかしながら、一般に、ツリーの枝は単語先頭付近で数多く分岐しやすい。このとき、前方の分岐の多いところで簡易なモデル、例えば前後の音素に依存しないモノフォンに置き換えてしまうと、SIL−s+uとSIL−s+aはいずれもsとなり、分岐において尤度差がつかない上にモデルの精度も悪くなるという問題を生じる。
また、音響モデルの各音素標準パターンを複数のガウス分布で表してあるときに、単語先頭にその分布数を減らした簡易なモデルを用いると、十分にその音素を表現できないために尤度が悪くなり、尤度計算精度が劣化するという問題が生じる。
したがって、このような問題を回避しつつ、尤度計算の計算量を、その計算の精度を保ちながら、削減する別の技法が必要である。
上記した課題を解決するために、例えば本発明の音声認識装置は以下の構成を有する。すなわち、1または2以上の状態で所定の音声単位の標準パターンを表す音響モデルと、前記音響モデルを用いて、入力音声の特徴量に対して各々の認識対象単語の尤度を計算する尤度計算手段とを有する音声認識装置であって、前記音響モデルは、第1の音響モデルおよび、この第1の音響モデルよりも精密度の低い第2の音響モデルを含み、前記尤度計算手段は、着目する状態について、その状態が前記認識対象単語の単語先頭から何番目の状態であるかに応じて前記第1および第2の音響モデルを切り換え使用して尤度を計算することを特徴とする。
本発明によれば、音響モデルを用いた尤度計算を行う際に、精度を落とさずに計算量を削減することができる。
本発明は、ツリーの分岐を減らすこと及び単語先頭の処理を軽くすることに着目するのではなく、むしろ単語先頭もしくは分岐で精密な尤度計算を行い、他の状態を簡易な尤度計算で済ませても十分に精度を保つようにしたものである。
このように本発明では、単語先頭付近もしくはツリーの分岐が多い状態では精密音響モデルで尤度計算し、その他の状態では簡易音響モデルで尤度計算する。なお、文献W. Chou, C. H. Lee, B. H. Juang, "MINIMUM ERROR RATE TRAINING OF INTER-WORD CONTEXT DEPENDENT ACOUSTIC MODEL UNITS IN SPEECH RECOGNITION", Proceedings ICSLP, Yokohama, 1994, vol. 9, pp. 439-442においては、語頭と語末において音響モデルを詳細にするために、語頭では前単語、語末では後続単語の接続し得る全組み合わせに依存してモデルを詳細に分離する方法が提案されているが、本発明の精密音響モデルでガウス分布の混合数を増やす方法は、前の単語に依存しない別の方法であるし、精密音響モデルでトライフォンを用いる方法は、前単語ごとにモデルを決定するのではなく前単語の音素に依存してモデルを決定するため別の方法である。また、これら精密音響モデルを単語先頭に限らず分岐の数に応じて切り替える記述は同文献にはない。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。
図1は、本実施形態における音声認識装置の機能を示すブロック図である。同図において、101は、音声を分析して音声特徴量を求める音響分析部である。102は、音声認識に用いる認識対象単語を保持する認識対象単語辞書である。103は、所定の音声単位(モノフォン、トライフォン、単語など)の精密な標準パターンである精密音響モデルである。104は、音声単位の簡易な標準パターンである簡易音響モデルである。これら精密音響モデル103および簡易音響モデル104の具体的な構成例については後述する。105は、認識対象単語辞書102、精密音響モデル103、簡易音響モデル104を用い、音響分析部101が求めた音声特徴量を入力して尤度計算を行う尤度計算部である。106は、尤度計算部105が求めた尤度を基に認識結果を決定、出力する認識結果出力部である。
図2は、尤度計算部105が行う処理を示したフローチャートである。まず、ステップS201において、音響分析部101により求められた入力音声の一定時間区間(フレーム)ごとの音声特徴量が尤度計算部105に入力される。次に、ステップS202において、認識対象単語辞書102の一状態を選択する。
図3は、認識対象単語辞書102の構造例を概念的に示す図である。同図において、301は、各認識対象単語を分割した音素を表すノードであり、SIL−s+aは、前方音素がSIL(無音)、中心音素がs、後方音素がaであるトライフォンを表している。302は音素を構成する状態であり、同図では1音素を3状態で表している。303は、隣り合う状態のノードを結び、一時刻で状態遷移するパスを表すリンクである。
同図に示されるように、認識対象単語辞書102は単語先頭から共通の音素を他の単語と共有し、ツリー構造を形成する。ツリーの枝が末端に達すると304に示されるような認識対象単語が形成される。
説明を図2のフローチャートに戻す。ステップS202では、状態302をツリーの単語先頭から順番に選択していく。次に、ステップS203において、選択した状態がツリーの単語先頭からN状態(例えば、N=12)までに含まれているかを調べる。N状態以内の場合にはステップS204に進み、精密音響モデル103を用いて尤度計算を行う。他方、先頭からN状態よりも離れた状態の場合にはステップS205に進み、簡易音響モデル104を用いて尤度計算を行う。
そして、ステップS206において、全状態に対する処理を終えたかどうかを判断して、全状態に対する処理を終えた場合には本処理を終了するが、次の状態がまだある場合にはステップS202に戻って処理を繰り返す。ただし、ここでいう「全状態」とは、現時刻で状態遷移が到達し得ない状態を除く。例えば、単語“スズキ”の4番目の音素“u-z+u”の第1状態に先頭から状態遷移が到達する最短時間は7時刻である。したがって、7時刻目においては“u-z+u”の第2状態以降の状態については、状態遷移が到達し得ないために尤度計算から除外する。
次に、本実施形態における尤度計算について詳細に述べる。
精密音響モデル103、簡易音響モデル104は、認識対象単語辞書102に含まれるそれぞれの音素に対応して、音素の各状態での状態遷移確率と、出力確率分布を表現する1または2以上のガウス分布の平均、分散、混合重みを保持する。尤度計算部105は各状態において、出力確率と状態遷移確率の対数値を音声開始時刻から累積して尤度とする。
尤度の計算量はモデルの混合数(ガウス分布の数)が増えると増加するが、混合数を減らすと音素を精密に表現できない。そのため、本実施形態では精密音響モデル103として混合数を多くしたモデルを用い、簡易音響モデル104として混合数を少なくしたモデルを用いる。
図4にその例を示す。単語先頭よりN状態(同図では、N状態=4音素×3状態=12状態)までについては、4混合分布の精密音響モデルを用いるため計算量は増えるが精密な尤度計算を行う。単語先頭よりN状態を超えた状態については、1分布の簡易音響モデルを用いるため、尤度計算は粗くなるが高速に尤度計算を行うことができる。
上記した例では精密音響モデル103と簡易音響モデル104とでガウス分布の混合数を変えるものであったが、精密音響モデル103および簡易音響モデル104の構成および尤度計算手順については、これ以外にさまざまな変形例が考えられる。
(変形例1)
例えば、音素単位を変えることにより精密音響モデル103と簡易音響モデル104との差をつけることができる。具体的には例えば、精密音響モデル103に両隣の音素によって音素を分けるトライフォンモデルを用い、簡易音響モデル104に両隣の音素にかかわらず音素ごとに標準パターンを持つモノフォンモデルを用いる。
一例を図5に示す。同図において、単語先頭よりN状態(同図では、N状態=4音素×3状態=12状態)まではトライフォンモデルを用いる。トライフォンは中心音素と両隣の音素の三つ組みごとに標準パターンを持つモデルであり、例えば、SIL−s+aは、音素sの内でも前の音素がSIL(無音)、後ろの音素がaのものを表す。これに対してモノフォンモデルは両隣に関わらず中心音素s全体を一つの標準パターンで表現する。そのため、トライフォンのほうがより精密に音素を表現することができる。
ここで、尤度計算部105はある時刻に対して一度計算した音素については、認識対象単語の他の場所で出てきた音素に対してもその計算結果を用いることができる。例えば、図5において、単語“サバ”に含まれるモノフォンである“a”で求めた計算結果を用いれば、単語“サンマ”に含まれるモノフォン“a”の計算を行わずに済む。この計算結果の再利用により、計算処理を高速化できるのだが、この場合モノフォンの方が両隣の音素に依存しないために再利用性が高く、より高速化が可能である。そこでこの変形例においては、図5に示すように、単語先頭よりN状態以内ではトライフォンモデルを用いてより精密に尤度計算し、単語先頭よりN状態を超える状態ではモノフォンモデルを用いて高速に処理する。
(変形例2)
上記した変形例1では各音素での尤度計算結果を再利用しやすいように、単語先頭よりN状態を超える音素で用いる簡易音響モデルにモノフォンモデルを用いたが、このとき、既にN状態以内で計算したトライフォンと一致する音素があれば、その計算結果を用いることでさらに精密かつ高速に尤度計算を行うことができる。
この様子を図6に示す。同図において、単語“ハタハタ”の7番目の音素はモノフォン“a”、8番目の音素はモノフォン“t”であり、この簡易音響モデルを用いて計算する(“a”については“ホタル”もしくは“ハマチ”に現れる“a”を既に計算していればその計算結果を再利用する)ところであるが、これらの音素は前後の音素を考慮したトライフォンで表すと、“h−a+t”、“a−t+a”となる。この“h−a+t”、“a−t+a”は、N状態以内であり精密音響モデルで計算する“ハタハタ”の3番目、4番目のトライフォンに現れ、この精密音響モデルによる計算結果を再利用することができる。これにより、なるべく精密音響モデルによる尤度計算結果を用いながら高速に処理することができる。
また、精密音響モデル103と簡易音響モデル104で分布の混合数を変えた場合にも、同様な方法を適用できる。
この例を図7に示す。同図においては精密音響モデルに4混合分布の音響モデル、簡易音響モデルに1分布の音響モデルを用いているが、図6の例と同様に、単語“ハタハタ”の7番目、8番目の音素“h−a+t”、“a−t+a”内の状態は、1分布の簡易音響モデルを用いて尤度計算するのではなく、N状態以内で4混合分布の音響モデルを用いて既に計算した結果を再利用することで、精密かつ高速に処理することができる。
(変形例3)
上記実施形態ではステップS203において、現在の状態が語彙の単語先頭からN状態以内であるか否かによって、精密音響モデル103を用いるか簡易音響モデル104を用いるかを判定するようにしたが、音素位置に関わらず、現在の状態の分岐数を見て、その分岐数に応じて音響モデルを切り替えるようにしてもよい。
本変形例による尤度計算のフローを図8に示す。図2のフローチャートとの相違はステップS203のかわりに実行されるステップS203’であり、その他は同様の処理ステップである。このステップS203’では、近傍に所定の値M以上の分岐が存在するか否かを判定し、ある場合には精密音響モデル103を用い、ない場合には簡易音響モデル104を用いる。
図9にその一例を示す。同図においてはM=3とし、3以上の分岐の直後に現れる音素に含まれる状態(SIL−s+aから3つに分岐する直後の音素“s−a+z”、“s−a+b”、“s−a+s”に含まれる状態、ならびに、“a−s+a”から3つに分岐する直後の音素“s−a+SIL”、“s−a+m”、“s−a+k”に含まれる状態)に対して、精密音響モデル103を用いて計算し、それ以外の状態については(単語先頭付近であるなしに関わらず)簡易音響モデル104で計算する。これにより、単語の先頭付近であるなしに関わらず、分岐数の多い状態で効率よく精密に尤度計算できる。
なお、同図においては、分岐の直後の音素に含まれる状態としたが、本発明はこれに限るものでなく、分岐の近傍として決める範囲は他のもの(例えば、分岐の前後1音素、分岐の直後5状態、など)であっても良い。
(変形例4)
上記した変形例2、3では、モノフォンやトライフォンなどの音素を単位とした音響モデルを用いたが、本発明はこれに限るものではなく、認識対象単語ごとに標準パターンを学習した単語モデルを用いても良い。
図10に、本変形例に係る単語モデルを用いて表現する認識対象単語辞書のを図10に示す。同図において、1001は、単語モデルの中の状態であり、一単語を1または2以上の状態で表現する(音素モデルにおける状態302に相当する)。単語モデルの場合は、音素ごとに他の認識対象単語と状態を共有することはせず、同図のようにツリーを形成しない場合が多い。この場合においても、単語先頭よりN状態以内については混合数を多くした精密音響モデル103、N状態より後については混合数を減らした簡易音響モデル104を適用できる。ツリーの分岐数Mにより音響モデルを切り替える方法については、ツリーを形成していないため単語内で分岐が起こることはない。しかし、認識するための文法によって分岐数が変わる場合に同様に適用できる。
図11に認識文法の例を示す。同図では、1101が認識対象単語、1102が認識対象単語を結ぶリンクであり、StartからEndまでリンクを辿る単語列以外の認識結果は尤度が高くとも結果として受理されない。このとき、文法における分岐数Lによって、単語モデルであっても、音響モデルを切り替えることができる。例えば、同図において、文法の分岐数L=3としたときに、駅名(目黒、町田、新宿、新横浜、渋谷)では分岐数が5と、Lより大きくなるのでこれらの単語モデルについては精密音響モデル103を用いて尤度計算する。その一方で、単語“駅”の場合は分岐数1、単語“出発”と“到着”では分岐数2となりLよりも小さいので簡易音響モデル104を用いて尤度計算する。
(変形例5)
上記変形例4では、認識文法の分岐数によって音響モデルを切り替える方法について、単語モデルを用いたときの例として説明したが、音素モデルを用いる場合にも適用可能である。またこの場合に、図4のように単語先頭からN状態以内であったり、図9のように認識対象単語のツリーで分岐数がM以上である場合でも、図11のような文法の分岐数がL未満の単語(“駅”、“出発”、“到着”)については簡易音響モデル104を用いるという制御を行っても良い。また、文法の分岐数Lに応じて、単語先頭からの語数Nやツリーの分岐数Mを変更するような関数を用意し、Lに応じてNやMを変えても良い。
(変形例6)
上記した例における音素モデルでは音素単位で分岐して単語間で音素を共有しているが、音素内の状態単位で共有しても良い。この場合、ある音素と別の音素の同じ位置の状態に、同じ状態を用いるようにクラスタリングすることで音素内の状態を別の音素と共有する。従ってこの場合、単語先頭からの状態数Nあるいは状態の分岐数Mによっては、同一音素内でも状態ごとに精密音響モデルと簡易音響モデルを使い分けることがある。
(変形例7)
上述した実施形態はいずれの例も、尤度計算時に単語先頭からの状態数N、ツリーの分岐数Mあるいは文法の分岐数Lによって精密音響モデルと簡易音響モデルを使い分けるものであったが、ここでは、まずは全て簡易音響モデル104で尤度計算し、単語先頭からの状態数N未満あるいはツリーの分岐数がM以上あるいは文法の分岐数がL以上であり、かつ尤度の高い状態のみ精密音響モデル103で再計算する例を示す。
図12は本変形例における尤度計算手順を示すフローチャート、図13にその尤度計算における処理例を説明する図である。まず、ステップS1201で尤度計算部105に音声が入力されると、ステップS1202において、図13に示すとおり、全ての状態(ただし、現時刻では状態遷移が到達し得ない状態を除く。)に対して簡易音響モデル104で尤度計算を行う。
その後、ステップS1203で、単語先頭からN状態以内であり、かつ、簡易音響モデル104で計算した尤度が高いもののみ、精密音響モデル103で再計算する。図13の例では、N状態以内に含まれる各状態の尤度を参照し、所定の閾値を超える状態を(同図では、SIL−s+aの3状態目、s−a+bの1状態目、s−a+Xの1状態目および2状態目の計4状態)を選択し、これらの状態に対してのみ精密音響モデル103を用いて再計算し、その結果を簡易音響モデル104により計算した尤度と置き換える。これにより、単語先頭からN状態以内のなかでも尤度の高い状態だけが精密に計算されるのでさらに高速化できる。
なお、ステップS1203において、精密音響モデル103を用いた再計算を行うための、「単語先頭からN状態以内」という条件を、「ツリーの分岐数M以上の近傍」、あるいは「文法の分岐数L以上の単語」、に置き換えても良い。また、尤度が高いものを選ぶ方法は特定の方法に限定されるものではなく、例えば全状態の尤度のなかで上位K個に入る状態を選択するようにしても良いし、最も高い尤度からの差が所定の閾値以内である状態を選択するようにしても良い。
(変形例8)
これまで説明した実施形態の各態様では精密音響モデル103と簡易音響モデル104とをガウス分布の混合数や音素単位によって差別化したが、本発明はこれに限るものではなく、尤度計算速度に違いが出る分け方であれば良い。
例えば、音素単位により精密音響モデル103と簡易音響モデル104を分ける方法として、精密音響モデル103にトライフォン、簡易音響モデル104にモノフォンを用いたが、これ以外にも、精密音響モデル103と簡易音響モデル104共にトライフォンであるが、簡易音響モデル104では似た性質のトライフォンでクラスタリングして共通のモデルを用いるのに対し、精密音響モデル103ではクラスタリングを行わない、あるいはクラスタリングのクラスタ数を簡易音響モデル104より大きくするといった方法も考えられる。
(変形例9)
これまで説明した実施形態の各態様では尤度計算時に単語先頭からの状態数Nあるいはツリーの分岐数Mあるいは文法の分岐数Lによって精密音響モデル103と簡易音響モデル104の二つを切り替える方法を挙げているが、本発明はこれに限るものではなく、精密度の異なる音響モデルを三つ以上用意しても良い。この場合には、それぞれの方法での閾値となる単語先頭からの状態数Nあるいはツリーの分岐数Mあるいは文法の分岐数Lをモデルの数に応じて用意すれば実現が可能である。例えば、4段階のモデルであれば閾値を3段階用意することになる。
(他の実施形態)
以上、さまざまな態様の実施形態を説明したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
なお、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラムを、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータがその供給されたプログラムコードを読み出して実行することによっても達成される。その場合、プログラムの機能を有していれば、その形態はプログラムである必要はない。
例えば、本発明の音声認識装置の機能は、汎用のコンピュータ装置(例えば、パーソナルコンピュータ、ワークステーションなど)によっても実現が可能である。
図14は、本発明の音声認識装置の機能を実現するコンピュータの構成例を示す図である。
図示のコンピュータは、装置全体の制御を司るCPU1、ブートプログラムや固定的なデータ等を記憶しているROM2、主記憶装置として機能するRAM3をはじめ、以下の構成を備える。
HDD4はハードディスク装置であって、ここにOSのほか、音声認識プログラム100、認識対象単語辞書102、精密音響モデル103、簡易音響モデル104が格納される。
また、VRAM5は表示しようとするイメージデータを展開するメモリであり、ここにイメージデータ等を展開することで表示装置の一例としてのCRT6に表示させることができる。7および8はそれぞれ、各種入力操作を行うためのキーボードおよびマウスで、CPU1に割り込み信号を伝えるキーボードコントローラ7aおよびマウスコントローラ8bに接続されている。
本発明の音声認識装置として機能するコンピュータの構成は概ね上記のようなものであるが、上記の音声認識プログラム100が音響分析部101、尤度計算部105、認識結果出力部106の機能を実現する。
要するに、本発明の機能処理をコンピュータで実現するために、そのコンピュータにインストールされるプログラムコード自体およびそのプログラムを格納した記憶媒体も本発明を構成することになる。つまり、本発明の特許請求の範囲には、本発明の機能処理を実現するためのコンピュータプログラム自体、およびそのプログラムを格納した記憶媒体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記憶媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM、DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、そのホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記憶媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明のクレームに含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記憶媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
本発明の実施形態における音声認識装置が実現する機能を示すブロック図である。 実施形態における尤度計算例を示すフローチャートである。 実施形態における認識対象単語辞書の構造例を概念的を示す図である。 実施形態における精密音響モデルおよび簡易音響モデルの構成例を示す図である。 変形例1に係る精密音響モデルおよび簡易音響モデルの構成例を示す図である。 変形例2における尤度計算例を説明する図である。 変形例2における別の尤度計算例を説明する図である。 変形例3における尤度計算例を示すフローチャートである。 変形例3における尤度計算における音響モデルの切り替えを説明する図である。 変形例4における単語モデルで表現した認識対象単語辞書の一例を表す図である。 変形例4における認識文法の一例を表す図である。 変形例7における尤度計算手順を示すフローチャートである。 変形例7の尤度計算における処理例を説明する図である。 本発明の音声認識装置として機能するコンピュータの構成例を示す図である。 認識対象単語から作られるツリーの例を示す図である。

Claims (10)

  1. 1または2以上の状態で所定の音声単位の標準パターンを表す音響モデルと、認識対象単語を保持する辞書と、前記音響モデルを用いて、入力音声の特徴量に対して前記辞書内の各々の認識対象単語の尤度を計算する尤度計算手段とを有する音声認識装置であって、
    前記音響モデルは、第1の音響モデルおよび、この第1の音響モデルよりも精密度の低い第2の音響モデルを含み、
    前記辞書は、前記認識対象単語の中で前記所定の音声単位を共有する木構造もしくはネットワーク文法による分岐を構成し、
    前記尤度計算手段は、着目する状態の近傍に所定数以上の分岐が存在する場合には、当該着目する状態については前記第1の音響モデルを用いて尤度を計算し、前記所定数以上の分岐が存在しない場合には、当該着目する状態については前記第2の音響モデルを用いて尤度を計算する
    ことを特徴とする音声認識装置。
  2. 1または2以上の状態で所定の音声単位の標準パターンを表す音響モデルと、認識対象単語を保持する辞書と、前記音響モデルを用いて、入力音声の特徴量に対して前記辞書内の各々の認識対象単語の尤度を計算する尤度計算手段とを有する音声認識装置であって、
    前記音響モデルは、第1の音響モデルおよび、この第1の音響モデルよりも精密度の低い第2の音響モデルを含み、
    前記辞書は、前記認識対象単語の中で前記所定の音声単位を共有する木構造もしくはネットワーク文法による分岐を構成し、
    前記尤度計算手段は、着目する状態の近傍に所定数以上の分岐が存在する場合には、当該着目する状態については、いったん前記第2の音響モデルを用いて尤度を計算し、その中で尤度がしきい値より高い状態に限り前記第1の音響モデルを用いて尤度を再計算する
    ことを特徴とする音声認識装置。
  3. 1または2以上の状態で所定の音声単位の標準パターンを表す音響モデルと、認識対象単語を保持する辞書と、前記音響モデルを用いて、入力音声の特徴量に対して前記辞書内の各々の認識対象単語の尤度を計算する尤度計算手段とを有する音声認識装置であって、
    前記音響モデルは、第1の音響モデルおよび、この第1の音響モデルよりも精密度の低い第2の音響モデルを含み、
    前記辞書は、前記認識対象単語の中で前記所定の音声単位を共有する木構造もしくはネットワーク文法による分岐を構成し、
    前記尤度計算手段は、着目する状態の近傍に所定数以上の分岐が存在する場合には、当該着目する状態については、いったん前記第2の音響モデルを用いて尤度を計算し、その中から尤度の高い順に選択される所定個数の状態に限り前記第1の音響モデルを用いて尤度を再計算する
    ことを特徴とする音声認識装置。
  4. 前記第2の音響モデルは、この第2の音響モデルを表現する分布の混合数が前記第1の音響モデルの混合数よりも少ないことを特徴とする請求項1乃至3のいずれか1項に記載の音声認識装置。
  5. 前記第1の音響モデルはトライフォンモデルであり、前記第2の音響モデルはモノフォンモデルであることを特徴とする請求項1乃至3のいずれか1項に記載の音声認識装置。
  6. 前記尤度計算手段は、着目する状態について前記第2の音響モデルを用いて尤度を計算する際に、過去所定の状態数以内に当該着目する状態と同一の音声単位並びの状態について前記第1の音響モデルを用いた尤度計算が行われている場合には、その尤度計算の結果を当該着目する状態についての尤度計算の結果として再利用することを特徴とする請求項1乃至3のいずれか1項に記載の音声認識装置。
  7. 1または2以上の状態で所定の音声単位の標準パターンを表す第1の音響モデルと、この第1の音響モデルよりも精密度の低い第2の音響モデルと、認識対象単語の中で前記所定の音声単位を共有する木構造もしくはネットワーク文法による分岐を構成することで複数の認識対象単語を格納した辞書とを使用して、入力音声の特徴量に対して各々の認識対象単語の尤度を計算することで音声認識を行う音声認識装置によって実行される音声認識方法であって、
    判定手段が、着目する状態の近傍における分岐数が所定数以上あるか否かを判定する判定ステップと、
    前記尤度計算手段が、前記判定ステップで前記分岐数が前記所定数以上あると判定されたときは、当該着目する状態については前記第1の音響モデルを用いて尤度を計算し、前記判定ステップで前記分岐数が前記所定数以上でないと判定されたときは、当該着目する状態については前記第2の音響モデルを用いて尤度を計算する尤度計算ステップと、
    を有することを特徴とする音声認識方法。
  8. 1または2以上の状態で所定の音声単位の標準パターンを表す第1の音響モデルと、この第1の音響モデルよりも精密度の低い第2の音響モデルと、認識対象単語の中で前記所定の音声単位を共有する木構造もしくはネットワーク文法による分岐を構成することで複数の認識対象単語を格納した辞書とを使用して、入力音声の特徴量に対して各々の認識対象単語の尤度を計算することで音声認識を行う音声認識装置によって実行される音声認識方法であって、
    計算手段が、近傍に所定数以上の分岐が存在する状態について、前記第2の音響モデルを用いて尤度を計算する計算ステップと、
    再計算手段が、前記計算ステップで計算された尤度がしきい値より高い状態について、前記第1の音響モデルを用いて尤度を再計算する再計算ステップと、
    を有することを特徴とする音声認識方法。
  9. 1または2以上の状態で所定の音声単位の標準パターンを表す第1の音響モデルと、この第1の音響モデルよりも精密度の低い第2の音響モデルと、認識対象単語の中で前記所定の音声単位を共有する木構造もしくはネットワーク文法による分岐を構成することで複数の認識対象単語を格納した辞書とを使用して、入力音声の特徴量に対して各々の認識対象単語の尤度を計算することで音声認識を行う音声認識装置によって実行される音声認識方法であって、
    計算手段が、近傍に所定数以上の分岐が存在する状態について、前記第2の音響モデルを用いて尤度を計算する計算ステップと、
    再計算手段が、前記計算ステップで計算された尤度が高い順に選択される所定個数の状態について、前記第1の音響モデルを用いて尤度を再計算する再計算ステップと、
    を有することを特徴とする音声認識方法。
  10. コンピュータを、請求項1乃至のいずれか1項に記載の音声認識装置が有する各手段として機能させるためのプログラム。
JP2004191460A 2004-06-29 2004-06-29 音声認識装置および方法 Expired - Fee Related JP4541781B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004191460A JP4541781B2 (ja) 2004-06-29 2004-06-29 音声認識装置および方法
US11/165,167 US7565290B2 (en) 2004-06-29 2005-06-24 Speech recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004191460A JP4541781B2 (ja) 2004-06-29 2004-06-29 音声認識装置および方法

Publications (3)

Publication Number Publication Date
JP2006011257A JP2006011257A (ja) 2006-01-12
JP2006011257A5 JP2006011257A5 (ja) 2010-02-25
JP4541781B2 true JP4541781B2 (ja) 2010-09-08

Family

ID=35507163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004191460A Expired - Fee Related JP4541781B2 (ja) 2004-06-29 2004-06-29 音声認識装置および方法

Country Status (2)

Country Link
US (1) US7565290B2 (ja)
JP (1) JP4541781B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007142840A (ja) * 2005-11-18 2007-06-07 Canon Inc 情報処理装置及び情報処理方法
JP4188989B2 (ja) * 2006-09-15 2008-12-03 本田技研工業株式会社 音声認識装置、音声認識方法、及び音声認識プログラム
JP4758919B2 (ja) * 2007-01-22 2011-08-31 日本放送協会 音声認識装置及び音声認識プログラム
JP2008225254A (ja) * 2007-03-14 2008-09-25 Canon Inc 音声合成装置及び方法並びにプログラム
US8275615B2 (en) 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
JP5273844B2 (ja) * 2008-03-31 2013-08-28 Kddi株式会社 字幕ずれ推定装置、字幕ずれ補正装置、再生装置および放送装置
WO2009139230A1 (ja) * 2008-05-16 2009-11-19 日本電気株式会社 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
JP5246948B2 (ja) * 2009-03-27 2013-07-24 Kddi株式会社 字幕ずれ補正装置、再生装置および放送装置
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
CN105869624B (zh) * 2016-03-29 2019-05-10 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置
JP6585112B2 (ja) * 2017-03-17 2019-10-02 株式会社東芝 音声キーワード検出装置および音声キーワード検出方法
CN112242144A (zh) * 2019-07-17 2021-01-19 百度在线网络技术(北京)有限公司 基于流式注意力模型的语音识别解码方法、装置、设备以及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04298798A (ja) * 1991-03-08 1992-10-22 Mitsubishi Electric Corp 音声認識装置
JPH08110791A (ja) * 1994-10-07 1996-04-30 Canon Inc 音声認識方法
JP2001312293A (ja) * 2000-04-28 2001-11-09 Matsushita Electric Ind Co Ltd 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2002189494A (ja) * 2000-12-19 2002-07-05 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識システム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3397372B2 (ja) 1993-06-16 2003-04-14 キヤノン株式会社 音声認識方法及び装置
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
JP3450411B2 (ja) 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
JP3453456B2 (ja) 1995-06-19 2003-10-06 キヤノン株式会社 状態共有モデルの設計方法及び装置ならびにその状態共有モデルを用いた音声認識方法および装置
JP3459712B2 (ja) 1995-11-01 2003-10-27 キヤノン株式会社 音声認識方法及び装置及びコンピュータ制御装置
JPH1097276A (ja) 1996-09-20 1998-04-14 Canon Inc 音声認識方法及び装置並びに記憶媒体
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech
US6018628A (en) * 1998-06-16 2000-01-25 Sun Microsystems, Inc. Method of implementing parameterized types to be compatible with existing unparameterized libraries
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
US6980954B1 (en) * 2000-09-30 2005-12-27 Intel Corporation Search method based on single triphone tree for large vocabulary continuous speech recognizer
JP2002149187A (ja) * 2000-11-07 2002-05-24 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
JP2002215187A (ja) 2001-01-23 2002-07-31 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置
JP3885002B2 (ja) * 2002-06-28 2007-02-21 キヤノン株式会社 情報処理装置およびその方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04298798A (ja) * 1991-03-08 1992-10-22 Mitsubishi Electric Corp 音声認識装置
JPH08110791A (ja) * 1994-10-07 1996-04-30 Canon Inc 音声認識方法
JP2001312293A (ja) * 2000-04-28 2001-11-09 Matsushita Electric Ind Co Ltd 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2002189494A (ja) * 2000-12-19 2002-07-05 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識システム

Also Published As

Publication number Publication date
US7565290B2 (en) 2009-07-21
US20050288929A1 (en) 2005-12-29
JP2006011257A (ja) 2006-01-12

Similar Documents

Publication Publication Date Title
US11664020B2 (en) Speech recognition method and apparatus
US7565290B2 (en) Speech recognition method and apparatus
US9697827B1 (en) Error reduction in speech processing
JP4322815B2 (ja) 音声認識システム及び方法
Hwang et al. Predicting unseen triphones with senones
US7496512B2 (en) Refining of segmental boundaries in speech waveforms using contextual-dependent models
CN105336322A (zh) 多音字模型训练方法、语音合成方法及装置
KR20140028174A (ko) 음성 인식 방법 및 이를 적용한 전자 장치
CA2136369A1 (en) Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars
KR20050082253A (ko) 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치
CN101149922A (zh) 语音识别装置和语音识别方法
US20100100379A1 (en) Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
US20020040296A1 (en) Phoneme assigning method
JP2010139745A (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
KR102199445B1 (ko) 클래스 기반 음향 모델의 변별 학습 방법 및 장치, 그리고 이를 이용한 음성 인식 장치
US9355636B1 (en) Selective speech recognition scoring using articulatory features
JP2007078943A (ja) 音響スコア計算プログラム
WO2012076895A1 (en) Pattern recognition
Ko et al. Eigentriphones for context-dependent acoustic modeling
Paul New results with the Lincoln tied-mixture HMM CSR system
JP4705535B2 (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム
JP4379050B2 (ja) 音声認識装置、音声認識高速化方法、および、プログラム
JP3439700B2 (ja) 音響モデル学習装置、音響モデル変換装置及び音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070627

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20070627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100531

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100618

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100624

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130702

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees