JP4858663B2

JP4858663B2 - 音声認識方法及び音声認識装置

Info

Publication number: JP4858663B2
Application number: JP2001174148A
Authority: JP
Inventors: 啓三郎高木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-06-08
Filing date: 2001-06-08
Publication date: 2012-01-18
Anticipated expiration: 2021-06-08
Also published as: US7216075B2; JP2002366192A; US20020198709A1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識方法及び音声認識装置に関し、特に入力音声と標準パタンとのＳＮＲ（信号対雑音比）条件を一致させることにより、雑音下の音声認識性能を向上させる技術に関する。
【０００２】
【従来の技術】
従来、音声認識の耐雑音性能を向上させることを目的として、種々の方法が提案されている。特に本発明と関係する技術として、雑音重畳学習という技術が従来より知られている。これは、認識時の雑音環境の音響特性がある程度既知であり事前に雑音を収集することが可能であるという前提に基づき、その収集した雑音を予め標準話者音声に重畳し、その重畳音声を用いて標準パタンを作成することにより、学習環境と認識環境の雑音条件を一致させることができて、雑音下の音声認識性能を向上させることを可能とするものである。
【０００３】
しかし、実用的な見地からは、この雑音重畳学習には問題点が存在する。たとえ雑音環境が事前に分かったとしても、一般に、話者の声の大きさ、マイクロホンと話者の口との距離、装置のボリュームゲイン、騒音の大きさなどがその都度変化し、音声信号と雑音信号の相対的な大きさの比である音声対雑音比（ＳＮＲ）が一定ではない。従来よりＳＮＲと音声認識率との相関は極めて大であることが知られており、ＳＮＲ条件が大きく異なればこの雑音重畳学習は全く効果がないことも明らかである。
【０００４】
これに対して、事前に雑音が収集できたとしてもＳＮＲ条件は事前に決定できないという前提に基づき、認識時にＳＮＲ決定を行い、そのＳＮＲ条件に適合した標準パタンをその場で合成することにより、この問題点に対処する技術が存在する。たとえば、本発明者による日本国特許第３０３９６２３号明細書「音声認識装置」（以下引用文献［１］と称す）には、その実施の一形態の例として、多重化標準パタンの両端点特徴ベクトルとして、０ｄＢと４０ｄＢのＳＮＲにおける重畳音声を保持する例が記載されている。この例では、マッチング時に、入力音声と標準パタンとで構成される２次元の各格子点上で独立に最適（尤度最大もしくは距離最小）になるように求めたベクトルとの距離を用いることで、入力音声が０〜４０ｄＢの間のどの範囲のＳＮＲであっても、標準パタンベクトルをそれに適合させることができ、結果として高い音声認識性能を得ることができる。
【０００５】
【発明が解決しようとする課題】
しかしながら、引用文献［１］に述べるような方法を用いた場合、音声認識時の各格子点で入力音声と両端点の特徴ベクトルとからなる３点間の距離計算を行わなくてはならず、演算量的に従来の通常の方法の３倍（効率的に行ったとしても２倍）の距離計算量が必要となり、音声認識装置として高価なものが必要である。
【０００６】
また、引用文献［１］の方法では、各格子点上で独立の最適化を行うため、多重化標準パタンの可動範囲が大き過ぎ、誤ったマッチングを引き起こすこと（いわゆる“合わせすぎ”）が起こり得るという問題点がある。例えば、母音に比べ相対的にパワーの小さな子音は雑音に埋もれやすく、ＳＮＲが悪くなればなるほど、ほとんど雑音と同一の特徴を示すようになる。したがってＳＮＲが高い場合には「はかた」と聞き取れるような音声が、高騒音下では先頭母音の“ｈ”が雑音に埋もれてしまい、「あかた」のように変形してしまう場合が存在する。さらに極端な場合には母音部分のみが残り、「あああ」と区別がつかなくなる可能性すらある。認識対象語彙に「はかた」や「あかた」や「はあた」など母音系列が同一の音声が多数含まれている場合には、この方式では合わせすぎが発生し、それらの間での識別が困難となり、ひいて音声認識の性能低下を招くという問題点が存在する。
【０００７】
そこで本発明の第一の目的は、上述した距離計算量の増大という問題点に対処し、ＳＮＲを事前に測定することによって、距離計算時には従来の距離計算と同様に入力音声と標準パタンとの間の距離計算を１回行う程度の少ない演算量で音声認識を実現できる、音声認識方法及び装置を提供することである。
【０００８】
また、本発明の第二の目的は、ＳＮＲを発声全体あるいは発声の一部に対して固定して使用することで、従来起こっていたようないわゆる“合わせすぎ”を回避し、より高性能な音声認識方法及び装置を提供することにある。
【０００９】
【課題を解決するための手段】
本発明では、標準話者音声に対して音声認識のための特徴抽出を行なって得られる抽出結果を用いて複数のカテゴリに対する統計的な特徴量を保持する音声標準パタンであって、標準話者音声に対して異なる複数のＳＮＲで既知の雑音を重畳した複数の音声の特徴抽出結果を用い、特徴量分布がＳＮＲごとに異なる情報を持つように構成したＳＮＲ多重化標準パタンを用いる。
【００１０】
そして本発明の音声認識方法は、音声認識のために入力された入力音声に対して、ＳＮＲ多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算し、ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する分布から、入力音声のＳＮＲとなるような新たな分布を線形補間によって求め、特徴ベクトル列と新たな分布とに基づいて非線型伸縮マッチング処理を行い、認識結果を出力する。
【００１１】
また本発明による第１の音声認識装置は、ＳＮＲ多重化標準パタンを格納するＳＮＲ多重化標準パタン格納部（１１）と、音声認識のために入力された入力音声に対してＳＮＲ多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算する特徴抽出部（１２）と、入力音声のＳＮＲを計算して入力ＳＮＲとして出力する入力ＳＮＲ計算部（１３）と、入力ＳＮＲを用い、ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する分布から、当該入力ＳＮＲとなるような新たな分布を線形補間によって求めるパタン変換部（１４）と、特徴ベクトル列と新たな分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部（１５）と、を有する。
【００１２】
本発明の第２の音声認識装置は、ＳＮＲ多重化標準パタンを格納するＳＮＲ多重化標準パタン格納部（２１）と、音声認識のために入力された入力音声に対してＳＮＲ多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算する特徴抽出部（２２）と、ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する分布と特徴ベクトル列とから、入力音声に対して最も尤度が高くなるという基準でＳＮＲを求める予備マッチング部（２３）と、予備マッチング部（２３）によって求められたＳＮＲを用い、ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する分布から、当該求められたＳＮＲとなるような新たな分布を線形補間によって求めるパタン変換部（２４）と、特徴ベクトル列と新たな分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部（２５）と、を有する。
【００１３】
本発明の第３の音声認識装置は、ＳＮＲ多重化標準パタンを格納するＳＮＲ多重化標準パタン格納部（３１）と、音声認識のために入力された入力音声に対してＳＮＲ多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算する特徴抽出部（３２）と、ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する分布と特徴ベクトル列の一部分とを用いて正解候補のパスを求め、当該パスに沿って尤度最大となるという基準でＳＮＲを求める部分マッチング部（３３）と、部分マッチング部によって求められたＳＮＲを用い、ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する分布から、当該求められたＳＮＲとなるような新たな分布を線形補間によって求めるパタン変換部（３４）と、部分マッチング部（３３）が計算した音声認識のための途中結果と特徴ベクトル列と新たな分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部（３５）と、を有する。
【００１４】
まず、本発明の基本原理を説明する。
【００１５】
一般的な入力信号は、リニアスペクトル領域で純粋な雑音のない音声信号に雑音信号が足された形で表現されるため、音声認識が事前に予測可能なノイズ環境下で利用される場合、その雑音信号を予め収録しておき、標準話者音声に重畳することで、認識環境と学習環境の雑音条件を一致させ、音声認識率を向上させることが可能である。これがいわゆる雑音重畳学習と呼ばれるものである。ただしこの際、予め雑音信号のスペクトル形状が明らかとなっていても、マイクロホンと話者の口との距離、話者の声の大きさ、装置のボリュームゲインなど、一定でないことが予想され、認識時のノイズと音声の相対的な大小関係（ＳＮＲ；音声対雑音比）は不明である。このようなことから、雑音重畳学習においては、ＳＮＲを規定するような未知パラメータを考慮する必要がある。
【００１６】
いま、雑音のない環境で発声した標準話者音声に雑音を重畳して雑音環境下の標準パタンを作成することを考える。雑音環境で観測される音声信号のスペクトルをＹ^lとし、その信号が純粋な音声信号のスペクトル信号Ｓ^lと雑音信号のスペクトルＮ^lと雑音のゲインα^lとで合成されるモデルを考えると、これらの関係は以下のように表現できる。
【００１７】
Ｙ^l＝Ｓ^l＋α^lＮ^l (1)
なおここでは、音声と雑音信号の相対的な大きさであるＳＮＲを考慮する代わりにノイズにのみ付与されたゲインα^lを考慮することにしたが、このように取扱っても一般性は失われない。
【００１８】
現在知られている音声認識装置の大半は対数スペクトルあるいはそれを線型変換した特徴量（例えばケプストラム）を認識のパラメータとして使用するため、上記式(1)の対数変換を考える。なお、ケプストラムと対数スペクトルの関係は単なる線型変換であるため、これらは区別なく扱うことができるが、ここでは簡単のため対数スペクトルに対して論じる。
【００１９】

ここで、Ｓ＝ｌｏｇ(Ｓ^l)，α＝ｌｏｇ(α^l)，Ｎ＝ｌｏｇ(Ｎ^l)である。すなわち、対数スペクトル上のノイズとゲインが分かればその状態での観測信号を計算することができることになるが、実はこれはそう簡単ではない。なぜなら、この変換には対数及び指数変換の２つの超越関数が含まれており、これを全ての標準パタンに対して行うためには多くの計算資源を必要するためである。本発明では、上記式(2)の関係を用いる代わりに、これをテーラー(Taylor)展開の１次までの項で近似したものを考える。すなわち、ある基準となるノイズスペクトルＮ₀が、基準となるゲインα₀で重畳された標準パタンが事前に用意されおり、それとは異なる雑音重畳信号が入力された場合の標準パタンは、以下のように表される。
【００２０】
【数１】

【００２１】
いま、入力の雑音環境がノイズの性質自体には変化がないことを前提としていることを考えると、右辺第３項は無視できるため、結局以下のようになる。
【００２２】
【数２】

【００２３】
ここで、ｆ₀，ｆ₁は、それぞれ、ＳＮＲ₀，ＳＮＲ₁の標準パタンの特徴ベクトル分布であり、ＳＮＲ_uは未知入力に対して測定したＳＮＲである。以上のように、入力音声に対してＳＮＲが求められれば、少なくとも２種類のＳＮＲ既知の標準パタンを用いて任意のＳＮＲの標準パタンが合成可能である。
【００２４】
以下、後述する本発明の第１の実施形態の音声認識装置を示す図１を用いて、本発明の音声認識装置の基本的な原理を説明する。
【００２５】
ＳＮＲ多重化標準パタン格納部１１は、標準話者音声に対してＳＮＲが既知の少なくとも２種類の雑音重畳音声（上式のｆ₀，ｆ₁）を用意して、これらをＳＮＲ別の統計量として保持しておく。すなわち、従来の標準パタンは１つの平均ベクトルないしはその分散を含めて１つの空間の点を表していたものを、ここではＳＮＲ付きで少なくとも２つの点で表現している。
【００２６】
特徴抽出部１２は、入力音声の波形を音声認識のための特徴ベクトル列に変換する。この特徴ベクトルは、一定周期ごとの短時間分析結果（多次元ベクトル）を時間方向に結合したものとして表現されたものであり、入力音声信号を特徴ベクトル列に変換する方法としてこれまでに種々の方法が確立されている。例えば、スペクトル分析、フィルタバンク、ケプストラム、パワーといったものを元に、これらの時間方向の１次あるいは２次微分といったものと組み合わせて特徴ベクトルを構成している。
【００２７】
入力ＳＮＲ計算部１３は、入力音声からその信号対雑音比（ＳＮＲ）を計算する。ＳＮＲは一般に、音声信号のエネルギーの平均値Ｐ_sと雑音信号のエネルギーの平均値Ｐ_nとを用いて以下のように表される。
【００２８】
ＳＮＲ＝１０ｌｏｇ(Ｐ_s)−１０ｌｏｇ(Ｐ_n) (4)
入力ＳＮＲ計算部１３は、内部にＳＮＲを計算するための音声区間検出部を含んでいる。音声区間を検出する方法としては、従来より種々のものが提案されている。本発明は、それらのうちどのようなものを用いても良く、それらを詳細に述べることは本発明と直接関係ないのでここでは触れない。
【００２９】
パタン変換部１４は、ＳＮＲ多重化標準パタン１１と入力ＳＮＲ計算部１３で求めたＳＮＲとを用いて上記式(3)の計算を行い、線型変換により新しい標準パタンを合成する。マッチング部１５は、この新しく合成された標準パタンの各分布を用いて音声認識のための非線型伸縮マッチングを行う。たとえば、標準パタンとして隠れマルコフモデル（ＨＭＭ；Hidden Markov Model）と呼ばれる方法を用いた場合、これに対する効率的な計算方法として、ビタビ(Viterbi)アルゴリズムが良く知られている。
【００３０】
以上から明らかなように本発明によれば、少なくとも２種類のＳＮＲに対する情報を保持したＳＮＲ多重化標準パタンと入力音声のＳＮＲとを用いることで、近似的な線形変換により、任意のＳＮＲの標準パタンを容易に合成することが可能であり、これによって高性能な音声認識を可能にする。
【００３１】
【発明の実施の形態】
次に、本発明の好ましい実施の形態について、図面を参照して説明する。
【００３２】
図１は本発明の第１の実施の形態の音声認識装置の構成を示すブロック図である。
【００３３】
この音声認識装置は、ＳＮＲ多重化標準パタンを格納するＳＮＲ多重化標準パタン格納部１１と、音声認識のために入力された入力音声に対してＳＮＲ多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、その入力音声の特徴ベクトル列を計算する特徴抽出部１２と、入力音声のＳＮＲを計算する入力ＳＮＲ計算部１３と、入力ＳＮＲ計算部１３が計算した入力ＳＮＲを用い、ＳＮＲ多重化標準パタンの少なくとも２種類のＳＮＲに対する分布から、その入力ＳＮＲとなるような新たな分布を線形補間によって求めるパタン変換部１４と、特徴抽出部１３が出力した入力音声の特徴ベクトル列とパタン変換部１４が出力した分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部１５と、を備えている。ここでＳＮＲ多重化標準パタンとは、標準話者音声に対して音声認識のための特徴抽出を行ないその抽出結果を用いて複数のカテゴリに対する統計的な特徴量を保持する音声標準パタンであって、（雑音を含まない）標準話者音声に対して少なくとも２種類の異なるＳＮＲで既知の雑音を重畳し、このようにして雑音が重畳したそれぞれの音声の特徴抽出結果を用いて得られたものである。したがって、ＳＮＲ多重化標準パタンは、少なくとも２種類の適用したＳＮＲごとに異なる特徴量分布の情報を保持している。
【００３４】
マッチング部１５としては、通常の音声認識に使用される、標準パタンと入力音声との間の時間軸に関する非線形伸縮を行い両者の間で最も尤度の高いものを正解候補（認識結果）として出力するものが使用される。
【００３５】
次に、図１に示す音声認識装置の動作を説明する。
【００３６】
ＳＮＲ多重化標準パタン格納部１１に格納されるＳＮＲ多重化標準パタンは、雑音の重畳されていない標準話者音声に対して少なくとも２種類のＳＮＲで雑音重畳音声を作成しておき、その音声に対し特徴ベクトルの計算を行うことによって得られる。この特徴ベクトルは、一定周期ごとの短時間分析結果（多次元ベクトル）を時間方向に結合したものとして表現されている。特徴ベクトルの算出方法としては、これまでに種々の方法が確立されている。例えば、スペクトル分析、フィルタバンク、ケプストラム、パワーといったものを元に、これらの時間方向の１次あるいは２次微分といったものと組み合わせることによって、特徴ベクトルを構成することができる。ここで例示した以外の特徴ベクトルであっても、一般に音声認識に使用可能なものであれば、どのようなものを用いてもよい。この少なくとも２種類のＳＮＲの標準話者音声に対し、音声認識のための多重化標準パタンを構成する。このような構成を実現する手段としては、隠れマルコフモデル（ＨＭＭ）と呼ばれる方法や、あるいはＤＰマッチングによる方法が知られている。
【００３７】
音声認識の対象となる入力音声は、特徴抽出部１２と入力ＳＮＲ計算部１３の両方に与えられる。特徴抽出部１２は、上述したＳＮＲ多重化標準パタンを作成した時と同様の特徴抽出手法を行うことにより、入力音声の特徴ベクトル計算を行い、得られた特徴ベクトルをマッチング部１５に出力する。一方、入力ＳＮＲ計算部１３は、認識対象の音声に対してＳＮＲの計算を行う。ＳＮＲは、例えば入力音声における音声区間と雑音区間が決定されている場合には、以下のような方法で計算できる。すなわち入力音声をｘ(ｔ)、雑音区間の集合をＴ_n、音声区間の集合をＴ_sとすると、
【００３８】
【数３】

【００３９】
で計算される。雑音区間、音声区間の同定方法としては、これまでに種々の方法が開示されており、ここではそれらについての詳細な説明を行わないが、これらの区間が同定できるものであれば、どのような方法も利用可能である。最も簡単には、音声区間と雑音区間の間の短時間パワーのしきい値を予め用意しておき、このしきい値を下回った場合には雑音区間、上回った場合には音声区間であると判定する方法が利用できる。計算されたＳＮＲは、パタン変換部１４に出力される。
【００４０】
次に、パタン変換部１４は、入力ＳＮＲ計算部１３が計算したＳＮＲを用いて、ＳＮＲ多重化標準パタンを目的のＳＮＲに変換する。変換された分布を新たな分布と呼ぶ。この変換は上述の式(3)を用いて行う。すなわち、標準パタン中のある分布に関し、ＳＮＲ別に２つの特徴ベクトルｆ₀，ｆ₁と、それぞれに対応するＳＮＲ₀，ＳＮＲ₁が用意されているとき、目的のＳＮＲ_uにおける特徴ベクトルは、式(3)の計算によって求めることが可能である。得られた新たな分布は、マッチング部１５に与えられる。
【００４１】
マッチング部１５は、入力音声の特徴ベクトル列が特徴抽出部１２から入力し、新しく合成された標準パタンの各分布（新たな分布）がパタン変換部１４から入力すると、新たな分布を用いて特徴ベクトル列の音声認識のための非線型伸縮マッチング処理を行い、尤度の最も高いものを認識結果として出力する。このような尤度の計算方法としては、例えばＨＭＭにおけるビタビアルゴリズムや、特徴ベクトルパタン列におけるＤＰ（動的計画法）マッチングなどが良く知られている。
【００４２】
以上の処理により、入力音声に対する認識結果が出力され、音声認識が行われたことになる。
【００４３】
図１に示す音声認識装置では、入力ＳＮＲ計算を行なう際に用いる音声と最終的にマッチングを行う入力音声とが同一とされているが、実用上はこのような構成の場合、やや処理の遅延が発生して好ましくない場合がある。その理由は、音声認識においてはしばしば、入力が完了した音声の一部分から順次処理を進めて行く、いわゆるフレーム同期と呼ばれる処理方法を行う場合が多いのに対し、音声のＳＮＲはいったん発声が終了しない限り決定ができないためである。入力ＳＮＲ計算を行なう際の音声とマッチングを行なう入力音声とが同一であると、発声が終了してから処理を行うことになるが、その場合には、フレーム同期処理が困難になる。
【００４４】
これに対しては次の２つの回避方法が考えられる。まず、音声の一部分からＳＮＲを推定する方法を用いることである。これは、例えば発声の前に存在する雑音部分と発声の先頭の一部分の音声が入力された時点でＳＮＲを推定する方式である。またもう一つの方法として、前回の認識時のＳＮＲを利用する、いわゆる１発声遅れのＳＮＲ推定方法を行うことも可能である。音声認識の利用場面においては利用者が数回の発声を行う場合があり、このような場合には、初回の発声に対しては予め保存していた初期値を用いたり、または図１に示す音声認識装置のように初回のみは認識結果通知の遅延を許容し、２回目以降の発声に対しては、その直前の発声で計算したＳＮＲを用いるなどの処理を行うことで、実用的な実施方法となる。この場合も、過去の数回の発声との間でＳＮＲの平均値をとったりしてあまり大きな変化が起こらないようにする工夫ももちろん可能である。
【００４５】
次に、本発明の第２の実施形態の音声認識装置について説明する。図２は、第２の実施形態の音声認識装置の構成を示すブロック図である。
【００４６】
図２に示す音声認識装置は、ＳＮＲ多重化標準パタンを格納するＳＮＲ多重化標準パタン格納部２１と、音声認識のために入力された入力音声に対してＳＮＲ多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、その入力音声の特徴ベクトル列を計算する特徴抽出部２２と、ＳＮＲ多重化標準パタン２１の少なくとも２種類のＳＮＲに対する分布と特徴抽出部２２が出力した入力音声の特徴ベクトル列とから、入力発声に対して最も尤度が高くなるという基準でＳＮＲを求める予備マッチング部２３と、予備マッチング部２３によって求められたＳＮＲを用い、ＳＮＲ多重化標準パタンの少なくとも２種類のＳＮＲに対する分布から、求められたＳＮＲとなるような新たな分布を線形補間によって求めるパタン変換部２４と、特徴抽出部２３が出力した入力音声の特徴ベクトル列とパタン変換部２４が出力した分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部２５と、を備えている。
【００４７】
ここでＳＮＲ多重化標準パタンは第１の実施形態の場合と同じものであり、また、ＳＮＲ多重化標準パタン格納部２１、特徴抽出部２２及びマッチング部２５は、それぞれ図１のＳＮＲ多重化標準パタン格納部１１、特徴抽出部１２及びマッチング部１５と同一の構成及び機能のものである。パタン変換部２４は、図１に示すパタン変換部１４が入力ＳＮＲ計算部１３から入力音声のＳＮＲを与えられるのに対し、予備マッチング部２３から入力音声のＳＮＲが与えられる点で、図１のパタン変換部１４と相違している。
【００４８】
この音声認識装置では、予備マッチング部２３は、音声認識のマッチング方式を用い、まずＳＮＲを決定する。マッチングアルゴリズム自体としては、従来のＤＰマッチングやビタビアルゴリズムを用いる。適当なＳＮＲの初期値を事前に決めておき、このＳＮＲにおける正解候補パスを求め、そのパスに対する最適なＳＮＲを計算し直す操作を行う。図３は、例えばＨＭＭで構成された標準パタンに対して正解候補パスが求められた状態を示す。すなわち入力音声の時間軸ｔに対して対応づけられた標準パタンの分布が一意に決定されている状態である。入力音声の特徴ベクトルの時系列をＹ_ij（ｉは次元を表す添字）、それに対応づけられた標準パタンのＳＮＲが異なる２つの分布を
【００４９】
【外１】

【００５０】
分散をδ² _ijとし、ＳＮＲに相当する未知パラメータαを用いると、出力される距離（尤度の逆の意）は以下のように表される。
【００５１】
【数４】

【００５２】
上記はαに関する２次式なので、この距離値を最小にするようなαは簡単に求めることが出来る。微分して０とおけば、
【００５３】
【数５】

【００５４】
である。なお、αは初期値として過去の音声に対するαを平均化したものを用いるような工夫を行うこともできる。パタン変換部２４はこのＳＮＲに相当する値αを用いてＨＭＭにおける分布を決定する。すなわち、変換後の分布
【００５５】
【外２】

【００５６】
は、αとＳＮＲについて多重化された例えば２つの分布
【００５７】
【外３】

【００５８】
を用い、
【００５９】
【数６】

【００６０】
で計算される。
【００６１】
その他の点では、図２に示す音声認識装置の動作は図１に示す音声認識装置の動作と同一である。
【００６２】
次に、本発明の第３の実施形態の音声認識装置について説明する。図４は、第３の実施形態の音声認識装置の構成を示すブロック図である。
【００６３】
図４に示す音声認識装置は、ＳＮＲ多重化標準パタンを格納するＳＮＲ多重化標準パタン格納部３１と、音声認識のために入力された入力音声に対してＳＮＲ多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、その入力音声の特徴ベクトル列を計算する特徴抽出部３２と、ＳＮＲ多重化標準パタンの少なくとも２種類のＳＮＲに対する分布と特徴抽出部３２が出力した入力音声の特徴ベクトル列の一部分とを用いて正解候補のパスを求め、当該パスに添って尤度最大となるという基準でＳＮＲを求める部分マッチング部３３と、部分マッチング部３３によって求められたＳＮＲを用い、ＳＮＲ多重化標準パタンの少なくとも２種類のＳＮＲに対する分布から、求められたＳＮＲとなるような新たな分布を線形補間によって求めるパタン変換部３４と、部分マッチング部３３が計算した音声認識のための途中結果（サーチ情報）と特徴抽出部２３が出力した入力音声の特徴ベクトル列とパタン変換部２４が出力した分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部３５と、を備えている。
【００６４】
ここでＳＮＲ多重化標準パタンは第１及び第２の実施形態の場合と同じものであり、また、ＳＮＲ多重化標準パタン格納部３１及び特徴抽出部３２は、それぞれ図１のＳＮＲ多重化標準パタン１１及び特徴抽出部１２と同一の構成及び機能のものである。パタン変換部３４は、図２に示すパタン変換部２４が予備マッチング部２３からＳＮＲを与えられるのに対し、部分マッチング部３３からＳＮＲが与えられる点で、図２のパタン変換部２４と相違している。
【００６５】
部分マッチング部３３は、図５に示す通り、入力音声の時刻ｔ＝ｔ’における始端からの部分最適パスを求め、このパスに添ったＳＮＲに相当する値αを上述の式(7)を用いて計算する。パタン変換部３４は、第１の及び第２の実施形態のパタン変換部１４，２４と同一の動作を行い、例えば式(8)にしたがって標準パタンの分布を変換する。マッチング部３５は、時刻ｔ＝ｔ’における部分最適パスを新しく変換された標準パタンを用いて再度計算し直し、この時刻におけるマッチングを行う。なお、音声の終端（ｔ＝Ｔ）に至る最適パスが求まった時点でこのマッチング操作は終了し、認識結果を出力する。
【００６６】
【発明の効果】
以上説明したように本発明は、ＳＮＲを事前に決定することで従来の音声認識装置が有していたような多くの演算量を必要とせず、音声認識装置の低コスト化が可能となり、また、発声全体あるいは発声の一部分を用いてＳＮＲを求めることで、従来の装置が有していたいわゆる合わせすぎの問題点が回避され、より高性能な音声認識を実現できる、という効果がある。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態の音声認識装置の構成を示すブロック図である。
【図２】本発明の第２の実施の形態の音声認識装置の構成を示すブロック図である。
【図３】予備マッチング部の動作を示す図である。
【図４】本発明の第３の実施の形態の音声認識装置の構成を示すブロック図である。
【図５】部分マッチング部の動作を示す図である。
【符号の説明】
１１，２１，３１ＳＮＲ多重化標準パタン格納部
１２，２２，３２特徴抽出部
１３入力ＳＮＲ計算部
２３予備マッチング部
３３部分マッチング部
１４，２４，３４パタン変換部
１５，２５，３５マッチング部

Claims

標準話者音声に対して音声認識のための特徴抽出を行なって得られる抽出結果を用いて複数のカテゴリに対する統計的な特徴量を保持する音声標準パタンであって、前記標準話者音声に対して異なる複数のＳＮＲ（音声対雑音比）で既知の雑音を重畳した複数の音声の特徴抽出結果を用い、前記特徴量分布がＳＮＲごとに異なる情報を持つように構成したＳＮＲ多重化標準パタンを用い、
音声認識のために入力された入力音声に対して、前記ＳＮＲ多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算し、
前記ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する分布から、前記入力音声のＳＮＲとなるような新たな分布を線形補間によって求め、
前記特徴ベクトル列と前記新たな分布とに基づいて非線型伸縮マッチング処理を行い、認識結果を出力する、
音声認識方法。
２種類のＳＮＲの既知の雑音を利用して構成された前記ＳＮＲ多重化標準パタンを用いる請求項１に記載の音声認識方法。
標準話者音声に対して音声認識のための特徴抽出を行なって得られる抽出結果を用いて複数のカテゴリに対する統計的な特徴量を保持する音声標準パタンであって、前記標準話者音声に対して異なる複数のＳＮＲ（音声対雑音比）で既知の雑音を重畳した複数の音声の特徴抽出結果を用い、前記特徴量分布がＳＮＲごとに異なる情報を持つように構成したＳＮＲ多重化標準パタンを格納するＳＮＲ多重化標準パタン格納部と、
音声認識のために入力された入力音声に対して前記ＳＮＲ多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算する特徴抽出部と、
前記入力音声のＳＮＲを計算して入力ＳＮＲとして出力する入力ＳＮＲ計算部と、
前記入力ＳＮＲを用い、前記ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する分布から、当該入力ＳＮＲとなるような新たな分布を線形補間によって求めるパタン変換部と、
前記特徴ベクトル列と前記新たな分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部と、
を有する音声認識装置。
標準話者音声に対して音声認識のための特徴抽出を行なって得られる抽出結果を用いて複数のカテゴリに対する統計的な特徴量を保持する音声標準パタンであって、前記標準話者音声に対して異なる複数のＳＮＲ（音声対雑音比）で既知の雑音を重畳した複数の音声の特徴抽出結果を用い、前記特徴量分布がＳＮＲごとに異なる情報を持つように構成したＳＮＲ多重化標準パタンを格納するＳＮＲ多重化標準パタン格納部と、
音声認識のために入力された入力音声に対して前記ＳＮＲ多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算する特徴抽出部と、
前記ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する分布と前記特徴ベクトル列とから、前記入力音声に対して最も尤度が高くなるという基準でＳＮＲを求める予備マッチング部と、
前記予備マッチング部によって求められたＳＮＲを用い、前記ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する分布から、当該求められたＳＮＲとなるような新たな分布を線形補間によって求めるパタン変換部と、
前記特徴ベクトル列と前記新たな分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部と、
を有する音声認識装置。
標準話者音声に対して音声認識のための特徴抽出を行なって得られる抽出結果を用いて複数のカテゴリに対する統計的な特徴量を保持する音声標準パタンであって、前記標準話者音声に対して異なる複数のＳＮＲ（音声対雑音比）で既知の雑音を重畳した複数の音声の特徴抽出結果を用い、前記特徴量分布がＳＮＲごとに異なる情報を持つように構成したＳＮＲ多重化標準パタンを格納するＳＮＲ多重化標準パタン格納部と、
音声認識のために入力された入力音声に対して前記ＳＮＲ多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算する特徴抽出部と、
前記ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する分布と前記特徴ベクトル列の一部分とを用いて正解候補のパスを求め、当該パスに沿って尤度最大となるという基準でＳＮＲを求める部分マッチング部と、
前記部分マッチング部によって求められたＳＮＲを用い、前記ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する分布から、当該求められたＳＮＲとなるような新たな分布を線形補間によって求めるパタン変換部と、
前記部分マッチング部が計算した音声認識のための途中結果と前記特徴ベクトル列と前記新たな分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部と、
を有する音声認識装置。
前記ＳＮＲ多重化標準パタンは２種類のＳＮＲの既知の雑音を利用して構成されたものである請求項３乃至５のいずれか１項に記載の音声認識装置。