JP2002366192A

JP2002366192A - 音声認識方法及び音声認識装置

Info

Publication number: JP2002366192A
Application number: JP2001174148A
Authority: JP
Inventors: Keizaburo Takagi; 啓三郎高木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-06-08
Filing date: 2001-06-08
Publication date: 2002-12-20
Anticipated expiration: 2021-06-08
Also published as: US7216075B2; US20020198709A1; JP4858663B2

Abstract

(57)【要約】【課題】距離計算量を増やすことなく、またいわゆる
“合わせすぎ”を発生させずに、高性能の音声認識を実
施する。【解決手段】複数のカテゴリに対する統計的な特徴量を
保持する音声標準パタンであって、標準話者音声に対し
て異なる複数のＳＮＲ（音声対雑音比）で既知の雑音を
重畳した複数の音声の特徴抽出結果を用い、特徴量分布
がＳＮＲごとに異なる情報を持つように構成したＳＮＲ
多重化標準パタンを用いる。入力音声に対してＳＮＲ多
重化標準パタン作成時と同様の特徴抽出を行なって特徴
ベクトル列を計算する特徴抽出部１２と、ＳＮＲ多重化
標準パタンの異なる複数のＳＮＲに対する分布から、入
力音声のＳＮＲとなるような新たな分布を線形補間によ
って求めるパタン変換部１４と、特徴ベクトル列と新た
な分布とを用いて非線型伸縮マッチング処理を行うマッ
チング部１５と、を設ける。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識方法及び
音声認識装置に関し、特に入力音声と標準パタンとのＳ
ＮＲ（信号対雑音比）条件を一致させることにより、雑
音下の音声認識性能を向上させる技術に関する。

【０００２】

【従来の技術】従来、音声認識の耐雑音性能を向上させ
ることを目的として、種々の方法が提案されている。特
に本発明と関係する技術として、雑音重畳学習という技
術が従来より知られている。これは、認識時の雑音環境
の音響特性がある程度既知であり事前に雑音を収集する
ことが可能であるという前提に基づき、その収集した雑
音を予め標準話者音声に重畳し、その重畳音声を用いて
標準パタンを作成することにより、学習環境と認識環境
の雑音条件を一致させることができて、雑音下の音声認
識性能を向上させることを可能とするものである。

【０００３】しかし、実用的な見地からは、この雑音重
畳学習には問題点が存在する。たとえ雑音環境が事前に
分かったとしても、一般に、話者の声の大きさ、マイク
ロホンと話者の口との距離、装置のボリュームゲイン、
騒音の大きさなどがその都度変化し、音声信号と雑音信
号の相対的な大きさの比である音声対雑音比（ＳＮＲ）
が一定ではない。従来よりＳＮＲと音声認識率との相関
は極めて大であることが知られており、ＳＮＲ条件が大
きく異なればこの雑音重畳学習は全く効果がないことも
明らかである。

【０００４】これに対して、事前に雑音が収集できたと
してもＳＮＲ条件は事前に決定できないという前提に基
づき、認識時にＳＮＲ決定を行い、そのＳＮＲ条件に適
合した標準パタンをその場で合成することにより、この
問題点に対処する技術が存在する。たとえば、本発明者
による日本国特許第３０３９６２３号明細書「音声認識
装置」（以下引用文献［１］と称す）には、その実施の
一形態の例として、多重化標準パタンの両端点特徴ベク
トルとして、０ｄＢと４０ｄＢのＳＮＲにおける重畳音
声を保持する例が記載されている。この例では、マッチ
ング時に、入力音声と標準パタンとで構成される２次元
の各格子点上で独立に最適（尤度最大もしくは距離最
小）になるように求めたベクトルとの距離を用いること
で、入力音声が０〜４０ｄＢの間のどの範囲のＳＮＲで
あっても、標準パタンベクトルをそれに適合させること
ができ、結果として高い音声認識性能を得ることができ
る。

【０００５】

【発明が解決しようとする課題】しかしながら、引用文
献［１］に述べるような方法を用いた場合、音声認識時
の各格子点で入力音声と両端点の特徴ベクトルとからな
る３点間の距離計算を行わなくてはならず、演算量的に
従来の通常の方法の３倍（効率的に行ったとしても２
倍）の距離計算量が必要となり、音声認識装置として高
価なものが必要である。

【０００６】また、引用文献［１］の方法では、各格子
点上で独立の最適化を行うため、多重化標準パタンの可
動範囲が大き過ぎ、誤ったマッチングを引き起こすこと
（いわゆる“合わせすぎ”）が起こり得るという問題点
がある。例えば、母音に比べ相対的にパワーの小さな子
音は雑音に埋もれやすく、ＳＮＲが悪くなればなるほ
ど、ほとんど雑音と同一の特徴を示すようになる。した
がってＳＮＲが高い場合には「はかた」と聞き取れるよ
うな音声が、高騒音下では先頭母音の“ｈ”が雑音に埋
もれてしまい、「あかた」のように変形してしまう場合
が存在する。さらに極端な場合には母音部分のみが残
り、「あああ」と区別がつかなくなる可能性すらある。
認識対象語彙に「はかた」や「あかた」や「はあた」な
ど母音系列が同一の音声が多数含まれている場合には、
この方式では合わせすぎが発生し、それらの間での識別
が困難となり、ひいて音声認識の性能低下を招くという
問題点が存在する。

【０００７】そこで本発明の第一の目的は、上述した距
離計算量の増大という問題点に対処し、ＳＮＲを事前に
測定することによって、距離計算時には従来の距離計算
と同様に入力音声と標準パタンとの間の距離計算を１回
行う程度の少ない演算量で音声認識を実現できる、音声
認識方法及び装置を提供することである。

【０００８】また、本発明の第二の目的は、ＳＮＲを発
声全体あるいは発声の一部に対して固定して使用するこ
とで、従来起こっていたようないわゆる“合わせすぎ”
を回避し、より高性能な音声認識方法及び装置を提供す
ることにある。

【０００９】

【課題を解決するための手段】本発明では、標準話者音
声に対して音声認識のための特徴抽出を行なって得られ
る抽出結果を用いて複数のカテゴリに対する統計的な特
徴量を保持する音声標準パタンであって、標準話者音声
に対して異なる複数のＳＮＲで既知の雑音を重畳した複
数の音声の特徴抽出結果を用い、特徴量分布がＳＮＲご
とに異なる情報を持つように構成したＳＮＲ多重化標準
パタンを用いる。

【００１０】そして本発明の音声認識方法は、音声認識
のために入力された入力音声に対して、ＳＮＲ多重化標
準パタンを作成した時と同様の条件で特徴抽出を行な
い、入力音声の特徴ベクトル列を計算し、ＳＮＲ多重化
標準パタンの異なる複数のＳＮＲに対する分布から、入
力音声のＳＮＲとなるような新たな分布を線形補間によ
って求め、特徴ベクトル列と新たな分布とに基づいて非
線型伸縮マッチング処理を行い、認識結果を出力する。

【００１１】また本発明による第１の音声認識装置は、
ＳＮＲ多重化標準パタンを格納するＳＮＲ多重化標準パ
タン格納部（１１）と、音声認識のために入力された入
力音声に対してＳＮＲ多重化標準パタンを作成した時と
同様の条件で特徴抽出を行ない、入力音声の特徴ベクト
ル列を計算する特徴抽出部（１２）と、入力音声のＳＮ
Ｒを計算して入力ＳＮＲとして出力する入力ＳＮＲ計算
部（１３）と、入力ＳＮＲを用い、ＳＮＲ多重化標準パ
タンの異なる複数のＳＮＲに対する分布から、当該入力
ＳＮＲとなるような新たな分布を線形補間によって求め
るパタン変換部（１４）と、特徴ベクトル列と新たな分
布とを用いて音声認識のための非線型伸縮マッチング処
理を行い、認識結果を出力するマッチング部（１５）
と、を有する。

【００１２】本発明の第２の音声認識装置は、ＳＮＲ多
重化標準パタンを格納するＳＮＲ多重化標準パタン格納
部（２１）と、音声認識のために入力された入力音声に
対してＳＮＲ多重化標準パタンを作成した時と同様の条
件で特徴抽出を行ない、入力音声の特徴ベクトル列を計
算する特徴抽出部（２２）と、ＳＮＲ多重化標準パタン
の異なる複数のＳＮＲに対する分布と特徴ベクトル列と
から、入力音声に対して最も尤度が高くなるという基準
でＳＮＲを求める予備マッチング部（２３）と、予備マ
ッチング部（２３）によって求められたＳＮＲを用い、
ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対する
分布から、当該求められたＳＮＲとなるような新たな分
布を線形補間によって求めるパタン変換部（２４）と、
特徴ベクトル列と新たな分布とを用いて音声認識のため
の非線型伸縮マッチング処理を行い、認識結果を出力す
るマッチング部（２５）と、を有する。

【００１３】本発明の第３の音声認識装置は、ＳＮＲ多
重化標準パタンを格納するＳＮＲ多重化標準パタン格納
部（３１）と、音声認識のために入力された入力音声に
対してＳＮＲ多重化標準パタンを作成した時と同様の条
件で特徴抽出を行ない、入力音声の特徴ベクトル列を計
算する特徴抽出部（３２）と、ＳＮＲ多重化標準パタン
の異なる複数のＳＮＲに対する分布と特徴ベクトル列の
一部分とを用いて正解候補のパスを求め、当該パスに沿
って尤度最大となるという基準でＳＮＲを求める部分マ
ッチング部（３３）と、部分マッチング部によって求め
られたＳＮＲを用い、ＳＮＲ多重化標準パタンの異なる
複数のＳＮＲに対する分布から、当該求められたＳＮＲ
となるような新たな分布を線形補間によって求めるパタ
ン変換部（３４）と、部分マッチング部（３３）が計算
した音声認識のための途中結果と特徴ベクトル列と新た
な分布とを用いて音声認識のための非線型伸縮マッチン
グ処理を行い、認識結果を出力するマッチング部（３
５）と、を有する。

【００１４】まず、本発明の基本原理を説明する。

【００１５】一般的な入力信号は、リニアスペクトル領
域で純粋な雑音のない音声信号に雑音信号が足された形
で表現されるため、音声認識が事前に予測可能なノイズ
環境下で利用される場合、その雑音信号を予め収録して
おき、標準話者音声に重畳することで、認識環境と学習
環境の雑音条件を一致させ、音声認識率を向上させるこ
とが可能である。これがいわゆる雑音重畳学習と呼ばれ
るものである。ただしこの際、予め雑音信号のスペクト
ル形状が明らかとなっていても、マイクロホンと話者の
口との距離、話者の声の大きさ、装置のボリュームゲイ
ンなど、一定でないことが予想され、認識時のノイズと
音声の相対的な大小関係（ＳＮＲ；音声対雑音比）は不
明である。このようなことから、雑音重畳学習において
は、ＳＮＲを規定するような未知パラメータを考慮する
必要がある。

【００１６】いま、雑音のない環境で発声した標準話者
音声に雑音を重畳して雑音環境下の標準パタンを作成す
ることを考える。雑音環境で観測される音声信号のスペ
クトルをＹ^lとし、その信号が純粋な音声信号のスペク
トル信号Ｓ^lと雑音信号のスペクトルＮ^lと雑音のゲイン
α^lとで合成されるモデルを考えると、これらの関係は
以下のように表現できる。

【００１７】Ｙ^l＝Ｓ^l＋α^lＮ^l (1) なおここでは、音声と雑音信号の相対的な大きさである
ＳＮＲを考慮する代わりにノイズにのみ付与されたゲイ
ンα^lを考慮することにしたが、このように取扱っても
一般性は失われない。

【００１８】現在知られている音声認識装置の大半は対
数スペクトルあるいはそれを線型変換した特徴量（例え
ばケプストラム）を認識のパラメータとして使用するた
め、上記式(1)の対数変換を考える。なお、ケプストラ
ムと対数スペクトルの関係は単なる線型変換であるた
め、これらは区別なく扱うことができるが、ここでは簡
単のため対数スペクトルに対して論じる。

【００１９】Ｙ＝ｌｏｇ(Ｙ^l) ＝ｌｏｇ(Ｓ^l＋α^lＮ^l)＝ｌｏｇ｛ｅｘｐ(Ｓ)＋ｅｘｐ(αＮ)｝ ≡ｆ(α,Ｎ) (2) ここで、Ｓ＝ｌｏｇ(Ｓ^l)，α＝ｌｏｇ(α^l)，Ｎ＝ｌｏ
ｇ(Ｎ^l)である。すなわち、対数スペクトル上のノイズ
とゲインが分かればその状態での観測信号を計算するこ
とができることになるが、実はこれはそう簡単ではな
い。なぜなら、この変換には対数及び指数変換の２つの
超越関数が含まれており、これを全ての標準パタンに対
して行うためには多くの計算資源を必要するためであ
る。本発明では、上記式(2)の関係を用いる代わりに、
これをテーラー(Taylor)展開の１次までの項で近似した
ものを考える。すなわち、ある基準となるノイズスペク
トルＮ ₀が、基準となるゲインα₀で重畳された標準パタ
ンが事前に用意されおり、それとは異なる雑音重畳信号
が入力された場合の標準パタンは、以下のように表され
る。

【００２０】

【数１】

【００２１】いま、入力の雑音環境がノイズの性質自体
には変化がないことを前提としていることを考えると、
右辺第３項は無視できるため、結局以下のようになる。

【００２２】

【数２】

【００２３】ここで、ｆ₀，ｆ₁は、それぞれ、ＳＮ
Ｒ₀，ＳＮＲ₁の標準パタンの特徴ベクトル分布であり、
ＳＮＲ_uは未知入力に対して測定したＳＮＲである。以
上のように、入力音声に対してＳＮＲが求められれば、
少なくとも２種類のＳＮＲ既知の標準パタンを用いて任
意のＳＮＲの標準パタンが合成可能である。

【００２４】以下、後述する本発明の第１の実施形態の
音声認識装置を示す図１を用いて、本発明の音声認識装
置の基本的な原理を説明する。

【００２５】ＳＮＲ多重化標準パタン格納部１１は、標
準話者音声に対してＳＮＲが既知の少なくとも２種類の
雑音重畳音声（上式のｆ₀，ｆ₁）を用意して、これらを
ＳＮＲ別の統計量として保持しておく。すなわち、従来
の標準パタンは１つの平均ベクトルないしはその分散を
含めて１つの空間の点を表していたものを、ここではＳ
ＮＲ付きで少なくとも２つの点で表現している。

【００２６】特徴抽出部１２は、入力音声の波形を音声
認識のための特徴ベクトル列に変換する。この特徴ベク
トルは、一定周期ごとの短時間分析結果（多次元ベクト
ル）を時間方向に結合したものとして表現されたもので
あり、入力音声信号を特徴ベクトル列に変換する方法と
してこれまでに種々の方法が確立されている。例えば、
スペクトル分析、フィルタバンク、ケプストラム、パワ
ーといったものを元に、これらの時間方向の１次あるい
は２次微分といったものと組み合わせて特徴ベクトルを
構成している。

【００２７】入力ＳＮＲ計算部１３は、入力音声からそ
の信号対雑音比（ＳＮＲ）を計算する。ＳＮＲは一般
に、音声信号のエネルギーの平均値Ｐ_sと雑音信号のエ
ネルギーの平均値Ｐ_nとを用いて以下のように表され
る。

【００２８】ＳＮＲ＝１０ｌｏｇ(Ｐ_s)−１０ｌｏｇ(Ｐ_n) (4) 入力ＳＮＲ計算部１３は、内部にＳＮＲを計算するため
の音声区間検出部を含んでいる。音声区間を検出する方
法としては、従来より種々のものが提案されている。本
発明は、それらのうちどのようなものを用いても良く、
それらを詳細に述べることは本発明と直接関係ないので
ここでは触れない。

【００２９】パタン変換部１４は、ＳＮＲ多重化標準パ
タン１１と入力ＳＮＲ計算部１３で求めたＳＮＲとを用
いて上記式(3)の計算を行い、線型変換により新しい標
準パタンを合成する。マッチング部１５は、この新しく
合成された標準パタンの各分布を用いて音声認識のため
の非線型伸縮マッチングを行う。たとえば、標準パタン
として隠れマルコフモデル（ＨＭＭ；Hidden Markov Mo
del）と呼ばれる方法を用いた場合、これに対する効率
的な計算方法として、ビタビ(Viterbi)アルゴリズムが
良く知られている。

【００３０】以上から明らかなように本発明によれば、
少なくとも２種類のＳＮＲに対する情報を保持したＳＮ
Ｒ多重化標準パタンと入力音声のＳＮＲとを用いること
で、近似的な線形変換により、任意のＳＮＲの標準パタ
ンを容易に合成することが可能であり、これによって高
性能な音声認識を可能にする。

【００３１】

【発明の実施の形態】次に、本発明の好ましい実施の形
態について、図面を参照して説明する。

【００３２】図１は本発明の第１の実施の形態の音声認
識装置の構成を示すブロック図である。

【００３３】この音声認識装置は、ＳＮＲ多重化標準パ
タンを格納するＳＮＲ多重化標準パタン格納部１１と、
音声認識のために入力された入力音声に対してＳＮＲ多
重化標準パタンを作成した時と同様の条件で特徴抽出を
行ない、その入力音声の特徴ベクトル列を計算する特徴
抽出部１２と、入力音声のＳＮＲを計算する入力ＳＮＲ
計算部１３と、入力ＳＮＲ計算部１３が計算した入力Ｓ
ＮＲを用い、ＳＮＲ多重化標準パタンの少なくとも２種
類のＳＮＲに対する分布から、その入力ＳＮＲとなるよ
うな新たな分布を線形補間によって求めるパタン変換部
１４と、特徴抽出部１３が出力した入力音声の特徴ベク
トル列とパタン変換部１４が出力した分布とを用いて音
声認識のための非線型伸縮マッチング処理を行い、認識
結果を出力するマッチング部１５と、を備えている。こ
こでＳＮＲ多重化標準パタンとは、標準話者音声に対し
て音声認識のための特徴抽出を行ないその抽出結果を用
いて複数のカテゴリに対する統計的な特徴量を保持する
音声標準パタンであって、（雑音を含まない）標準話者
音声に対して少なくとも２種類の異なるＳＮＲで既知の
雑音を重畳し、このようにして雑音が重畳したそれぞれ
の音声の特徴抽出結果を用いて得られたものである。し
たがって、ＳＮＲ多重化標準パタンは、少なくとも２種
類の適用したＳＮＲごとに異なる特徴量分布の情報を保
持している。

【００３４】マッチング部１５としては、通常の音声認
識に使用される、標準パタンと入力音声との間の時間軸
に関する非線形伸縮を行い両者の間で最も尤度の高いも
のを正解候補（認識結果）として出力するものが使用さ
れる。

【００３５】次に、図１に示す音声認識装置の動作を説
明する。

【００３６】ＳＮＲ多重化標準パタン格納部１１に格納
されるＳＮＲ多重化標準パタンは、雑音の重畳されてい
ない標準話者音声に対して少なくとも２種類のＳＮＲで
雑音重畳音声を作成しておき、その音声に対し特徴ベク
トルの計算を行うことによって得られる。この特徴ベク
トルは、一定周期ごとの短時間分析結果（多次元ベクト
ル）を時間方向に結合したものとして表現されている。
特徴ベクトルの算出方法としては、これまでに種々の方
法が確立されている。例えば、スペクトル分析、フィル
タバンク、ケプストラム、パワーといったものを元に、
これらの時間方向の１次あるいは２次微分といったもの
と組み合わせることによって、特徴ベクトルを構成する
ことができる。ここで例示した以外の特徴ベクトルであ
っても、一般に音声認識に使用可能なものであれば、ど
のようなものを用いてもよい。この少なくとも２種類の
ＳＮＲの標準話者音声に対し、音声認識のための多重化
標準パタンを構成する。このような構成を実現する手段
としては、隠れマルコフモデル（ＨＭＭ）と呼ばれる方
法や、あるいはＤＰマッチングによる方法が知られてい
る。

【００３７】音声認識の対象となる入力音声は、特徴抽
出部１２と入力ＳＮＲ計算部１３の両方に与えられる。
特徴抽出部１２は、上述したＳＮＲ多重化標準パタンを
作成した時と同様の特徴抽出手法を行うことにより、入
力音声の特徴ベクトル計算を行い、得られた特徴ベクト
ルをマッチング部１５に出力する。一方、入力ＳＮＲ計
算部１３は、認識対象の音声に対してＳＮＲの計算を行
う。ＳＮＲは、例えば入力音声における音声区間と雑音
区間が決定されている場合には、以下のような方法で計
算できる。すなわち入力音声をｘ(ｔ)、雑音区間の集合
をＴ_n、音声区間の集合をＴ_sとすると、

【００３８】

【数３】

【００３９】で計算される。雑音区間、音声区間の同定
方法としては、これまでに種々の方法が開示されてお
り、ここではそれらについての詳細な説明を行わない
が、これらの区間が同定できるものであれば、どのよう
な方法も利用可能である。最も簡単には、音声区間と雑
音区間の間の短時間パワーのしきい値を予め用意してお
き、このしきい値を下回った場合には雑音区間、上回っ
た場合には音声区間であると判定する方法が利用でき
る。計算されたＳＮＲは、パタン変換部１４に出力され
る。

【００４０】次に、パタン変換部１４は、入力ＳＮＲ計
算部１３が計算したＳＮＲを用いて、ＳＮＲ多重化標準
パタンを目的のＳＮＲに変換する。変換された分布を新
たな分布と呼ぶ。この変換は上述の式(3)を用いて行
う。すなわち、標準パタン中のある分布に関し、ＳＮＲ
別に２つの特徴ベクトルｆ₀，ｆ₁と、それぞれに対応す
るＳＮＲ₀，ＳＮＲ₁が用意されているとき、目的のＳＮ
Ｒ_uにおける特徴ベクトルは、式(3)の計算によって求め
ることが可能である。得られた新たな分布は、マッチン
グ部１５に与えられる。

【００４１】マッチング部１５は、入力音声の特徴ベク
トル列が特徴抽出部１２から入力し、新しく合成された
標準パタンの各分布（新たな分布）がパタン変換部１４
から入力すると、新たな分布を用いて特徴ベクトル列の
音声認識のための非線型伸縮マッチング処理を行い、尤
度の最も高いものを認識結果として出力する。このよう
な尤度の計算方法としては、例えばＨＭＭにおけるビタ
ビアルゴリズムや、特徴ベクトルパタン列におけるＤＰ
（動的計画法）マッチングなどが良く知られている。

【００４２】以上の処理により、入力音声に対する認識
結果が出力され、音声認識が行われたことになる。

【００４３】図１に示す音声認識装置では、入力ＳＮＲ
計算を行なう際に用いる音声と最終的にマッチングを行
う入力音声とが同一とされているが、実用上はこのよう
な構成の場合、やや処理の遅延が発生して好ましくない
場合がある。その理由は、音声認識においてはしばし
ば、入力が完了した音声の一部分から順次処理を進めて
行く、いわゆるフレーム同期と呼ばれる処理方法を行う
場合が多いのに対し、音声のＳＮＲはいったん発声が終
了しない限り決定ができないためである。入力ＳＮＲ計
算を行なう際の音声とマッチングを行なう入力音声とが
同一であると、発声が終了してから処理を行うことにな
るが、その場合には、フレーム同期処理が困難になる。

【００４４】これに対しては次の２つの回避方法が考え
られる。まず、音声の一部分からＳＮＲを推定する方法
を用いることである。これは、例えば発声の前に存在す
る雑音部分と発声の先頭の一部分の音声が入力された時
点でＳＮＲを推定する方式である。またもう一つの方法
として、前回の認識時のＳＮＲを利用する、いわゆる１
発声遅れのＳＮＲ推定方法を行うことも可能である。音
声認識の利用場面においては利用者が数回の発声を行う
場合があり、このような場合には、初回の発声に対して
は予め保存していた初期値を用いたり、または図１に示
す音声認識装置のように初回のみは認識結果通知の遅延
を許容し、２回目以降の発声に対しては、その直前の発
声で計算したＳＮＲを用いるなどの処理を行うことで、
実用的な実施方法となる。この場合も、過去の数回の発
声との間でＳＮＲの平均値をとったりしてあまり大きな
変化が起こらないようにする工夫ももちろん可能であ
る。

【００４５】次に、本発明の第２の実施形態の音声認識
装置について説明する。図２は、第２の実施形態の音声
認識装置の構成を示すブロック図である。

【００４６】図２に示す音声認識装置は、ＳＮＲ多重化
標準パタンを格納するＳＮＲ多重化標準パタン格納部２
１と、音声認識のために入力された入力音声に対してＳ
ＮＲ多重化標準パタンを作成した時と同様の条件で特徴
抽出を行ない、その入力音声の特徴ベクトル列を計算す
る特徴抽出部２２と、ＳＮＲ多重化標準パタン２１の少
なくとも２種類のＳＮＲに対する分布と特徴抽出部２２
が出力した入力音声の特徴ベクトル列とから、入力発声
に対して最も尤度が高くなるという基準でＳＮＲを求め
る予備マッチング部２３と、予備マッチング部２３によ
って求められたＳＮＲを用い、ＳＮＲ多重化標準パタン
の少なくとも２種類のＳＮＲに対する分布から、求めら
れたＳＮＲとなるような新たな分布を線形補間によって
求めるパタン変換部２４と、特徴抽出部２３が出力した
入力音声の特徴ベクトル列とパタン変換部２４が出力し
た分布とを用いて音声認識のための非線型伸縮マッチン
グ処理を行い、認識結果を出力するマッチング部２５
と、を備えている。

【００４７】ここでＳＮＲ多重化標準パタンは第１の実
施形態の場合と同じものであり、また、ＳＮＲ多重化標
準パタン格納部２１、特徴抽出部２２及びマッチング部
２５は、それぞれ図１のＳＮＲ多重化標準パタン格納部
１１、特徴抽出部１２及びマッチング部１５と同一の構
成及び機能のものである。パタン変換部２４は、図１に
示すパタン変換部１４が入力ＳＮＲ計算部１３から入力
音声のＳＮＲを与えられるのに対し、予備マッチング部
２３から入力音声のＳＮＲが与えられる点で、図１のパ
タン変換部１４と相違している。

【００４８】この音声認識装置では、予備マッチング部
２３は、音声認識のマッチング方式を用い、まずＳＮＲ
を決定する。マッチングアルゴリズム自体としては、従
来のＤＰマッチングやビタビアルゴリズムを用いる。適
当なＳＮＲの初期値を事前に決めておき、このＳＮＲに
おける正解候補パスを求め、そのパスに対する最適なＳ
ＮＲを計算し直す操作を行う。図３は、例えばＨＭＭで
構成された標準パタンに対して正解候補パスが求められ
た状態を示す。すなわち入力音声の時間軸ｔに対して対
応づけられた標準パタンの分布が一意に決定されている
状態である。入力音声の特徴ベクトルの時系列をＹ
_ij（ｉは次元を表す添字）、それに対応づけられた標準
パタンのＳＮＲが異なる２つの分布を

【００４９】

【外１】

【００５０】分散をδ² _ijとし、ＳＮＲに相当する未知
パラメータαを用いると、出力される距離（尤度の逆の
意）は以下のように表される。

【００５１】

【数４】

【００５２】上記はαに関する２次式なので、この距離
値を最小にするようなαは簡単に求めることが出来る。
微分して０とおけば、

【００５３】

【数５】

【００５４】である。なお、αは初期値として過去の音
声に対するαを平均化したものを用いるような工夫を行
うこともできる。パタン変換部２４はこのＳＮＲに相当
する値αを用いてＨＭＭにおける分布を決定する。すな
わち、変換後の分布

【００５５】

【外２】

【００５６】は、αとＳＮＲについて多重化された例え
ば２つの分布

【００５７】

【外３】

【００５８】を用い、

【００５９】

【数６】

【００６０】で計算される。

【００６１】その他の点では、図２に示す音声認識装置
の動作は図１に示す音声認識装置の動作と同一である。

【００６２】次に、本発明の第３の実施形態の音声認識
装置について説明する。図４は、第３の実施形態の音声
認識装置の構成を示すブロック図である。

【００６３】図４に示す音声認識装置は、ＳＮＲ多重化
標準パタンを格納するＳＮＲ多重化標準パタン格納部３
１と、音声認識のために入力された入力音声に対してＳ
ＮＲ多重化標準パタンを作成した時と同様の条件で特徴
抽出を行ない、その入力音声の特徴ベクトル列を計算す
る特徴抽出部３２と、ＳＮＲ多重化標準パタンの少なく
とも２種類のＳＮＲに対する分布と特徴抽出部３２が出
力した入力音声の特徴ベクトル列の一部分とを用いて正
解候補のパスを求め、当該パスに添って尤度最大となる
という基準でＳＮＲを求める部分マッチング部３３と、
部分マッチング部３３によって求められたＳＮＲを用
い、ＳＮＲ多重化標準パタンの少なくとも２種類のＳＮ
Ｒに対する分布から、求められたＳＮＲとなるような新
たな分布を線形補間によって求めるパタン変換部３４
と、部分マッチング部３３が計算した音声認識のための
途中結果（サーチ情報）と特徴抽出部２３が出力した入
力音声の特徴ベクトル列とパタン変換部２４が出力した
分布とを用いて音声認識のための非線型伸縮マッチング
処理を行い、認識結果を出力するマッチング部３５と、
を備えている。

【００６４】ここでＳＮＲ多重化標準パタンは第１及び
第２の実施形態の場合と同じものであり、また、ＳＮＲ
多重化標準パタン格納部３１及び特徴抽出部３２は、そ
れぞれ図１のＳＮＲ多重化標準パタン１１及び特徴抽出
部１２と同一の構成及び機能のものである。パタン変換
部３４は、図２に示すパタン変換部２４が予備マッチン
グ部２３からＳＮＲを与えられるのに対し、部分マッチ
ング部３３からＳＮＲが与えられる点で、図２のパタン
変換部２４と相違している。

【００６５】部分マッチング部３３は、図５に示す通
り、入力音声の時刻ｔ＝ｔ’における始端からの部分最
適パスを求め、このパスに添ったＳＮＲに相当する値α
を上述の式(7)を用いて計算する。パタン変換部３４
は、第１の及び第２の実施形態のパタン変換部１４，２
４と同一の動作を行い、例えば式(8)にしたがって標準
パタンの分布を変換する。マッチング部３５は、時刻ｔ
＝ｔ’における部分最適パスを新しく変換された標準パ
タンを用いて再度計算し直し、この時刻におけるマッチ
ングを行う。なお、音声の終端（ｔ＝Ｔ）に至る最適パ
スが求まった時点でこのマッチング操作は終了し、認識
結果を出力する。

【００６６】

【発明の効果】以上説明したように本発明は、ＳＮＲを
事前に決定することで従来の音声認識装置が有していた
ような多くの演算量を必要とせず、音声認識装置の低コ
スト化が可能となり、また、発声全体あるいは発声の一
部分を用いてＳＮＲを求めることで、従来の装置が有し
ていたいわゆる合わせすぎの問題点が回避され、より高
性能な音声認識を実現できる、という効果がある。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態の音声認識装置の構
成を示すブロック図である。

【図２】本発明の第２の実施の形態の音声認識装置の構
成を示すブロック図である。

【図３】予備マッチング部の動作を示す図である。

【図４】本発明の第３の実施の形態の音声認識装置の構
成を示すブロック図である。

【図５】部分マッチング部の動作を示す図である。

【符号の説明】

１１，２１，３１ＳＮＲ多重化標準パタン格納部１２，２２，３２特徴抽出部１３入力ＳＮＲ計算部２３予備マッチング部３３部分マッチング部１４，２４，３４パタン変換部１５，２５，３５マッチング部

Claims

【特許請求の範囲】

【請求項１】標準話者音声に対して音声認識のための
特徴抽出を行なって得られる抽出結果を用いて複数のカ
テゴリに対する統計的な特徴量を保持する音声標準パタ
ンであって、前記標準話者音声に対して異なる複数のＳ
ＮＲ（音声対雑音比）で既知の雑音を重畳した複数の音
声の特徴抽出結果を用い、前記特徴量分布がＳＮＲごと
に異なる情報を持つように構成したＳＮＲ多重化標準パ
タンを用い、音声認識のために入力された入力音声に対して、前記Ｓ
ＮＲ多重化標準パタンを作成した時と同様の条件で特徴
抽出を行ない、入力音声の特徴ベクトル列を計算し、前記ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対
する分布から、前記入力音声のＳＮＲとなるような新た
な分布を線形補間によって求め、前記特徴ベクトル列と前記新たな分布とに基づいて非線
型伸縮マッチング処理を行い、認識結果を出力する、音声認識方法。
【請求項２】２種類のＳＮＲの既知の雑音を利用して
構成された前記ＳＮＲ多重化標準パタンを用いる請求項
１に記載の音声認識方法。
【請求項３】標準話者音声に対して音声認識のための
特徴抽出を行なって得られる抽出結果を用いて複数のカ
テゴリに対する統計的な特徴量を保持する音声標準パタ
ンであって、前記標準話者音声に対して異なる複数のＳ
ＮＲ（音声対雑音比）で既知の雑音を重畳した複数の音
声の特徴抽出結果を用い、前記特徴量分布がＳＮＲごと
に異なる情報を持つように構成したＳＮＲ多重化標準パ
タンを格納するＳＮＲ多重化標準パタン格納部と、音声認識のために入力された入力音声に対して前記ＳＮ
Ｒ多重化標準パタンを作成した時と同様の条件で特徴抽
出を行ない、入力音声の特徴ベクトル列を計算する特徴
抽出部と、前記入力音声のＳＮＲを計算して入力ＳＮＲとして出力
する入力ＳＮＲ計算部と、前記入力ＳＮＲを用い、前記ＳＮＲ多重化標準パタンの
異なる複数のＳＮＲに対する分布から、当該入力ＳＮＲ
となるような新たな分布を線形補間によって求めるパタ
ン変換部と、前記特徴ベクトル列と前記新たな分布とを用いて音声認
識のための非線型伸縮マッチング処理を行い、認識結果
を出力するマッチング部と、を有する音声認識装置。
【請求項４】標準話者音声に対して音声認識のための
特徴抽出を行なって得られる抽出結果を用いて複数のカ
テゴリに対する統計的な特徴量を保持する音声標準パタ
ンであって、前記標準話者音声に対して異なる複数のＳ
ＮＲ（音声対雑音比）で既知の雑音を重畳した複数の音
声の特徴抽出結果を用い、前記特徴量分布がＳＮＲごと
に異なる情報を持つように構成したＳＮＲ多重化標準パ
タンを格納するＳＮＲ多重化標準パタン格納部と、音声認識のために入力された入力音声に対して前記ＳＮ
Ｒ多重化標準パタンを作成した時と同様の条件で特徴抽
出を行ない、入力音声の特徴ベクトル列を計算する特徴
抽出部と、前記ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対
する分布と前記特徴ベクトル列とから、前記入力音声に
対して最も尤度が高くなるという基準でＳＮＲを求める
予備マッチング部と、前記予備マッチング部によって求められたＳＮＲを用
い、前記ＳＮＲ多重化標準パタンの異なる複数のＳＮＲ
に対する分布から、当該求められたＳＮＲとなるような
新たな分布を線形補間によって求めるパタン変換部と、前記特徴ベクトル列と前記新たな分布とを用いて音声認
識のための非線型伸縮マッチング処理を行い、認識結果
を出力するマッチング部と、を有する音声認識装置。
【請求項５】標準話者音声に対して音声認識のための
特徴抽出を行なって得られる抽出結果を用いて複数のカ
テゴリに対する統計的な特徴量を保持する音声標準パタ
ンであって、前記標準話者音声に対して異なる複数のＳ
ＮＲ（音声対雑音比）で既知の雑音を重畳した複数の音
声の特徴抽出結果を用い、前記特徴量分布がＳＮＲごと
に異なる情報を持つように構成したＳＮＲ多重化標準パ
タンを格納するＳＮＲ多重化標準パタン格納部と、音声認識のために入力された入力音声に対して前記ＳＮ
Ｒ多重化標準パタンを作成した時と同様の条件で特徴抽
出を行ない、入力音声の特徴ベクトル列を計算する特徴
抽出部と、前記ＳＮＲ多重化標準パタンの異なる複数のＳＮＲに対
する分布と前記特徴ベクトル列の一部分とを用いて正解
候補のパスを求め、当該パスに沿って尤度最大となると
いう基準でＳＮＲを求める部分マッチング部と、前記部分マッチング部によって求められたＳＮＲを用
い、前記ＳＮＲ多重化標準パタンの異なる複数のＳＮＲ
に対する分布から、当該求められたＳＮＲとなるような
新たな分布を線形補間によって求めるパタン変換部と、前記部分マッチング部が計算した音声認識のための途中
結果と前記特徴ベクトル列と前記新たな分布とを用いて
音声認識のための非線型伸縮マッチング処理を行い、認
識結果を出力するマッチング部と、を有する音声認識装置。
【請求項６】前記ＳＮＲ多重化標準パタンは２種類の
ＳＮＲの既知の雑音を利用して構成されたものである請
求項３乃至５のいずれか１項に記載の音声認識装置。