JP4858663B2 - 音声認識方法及び音声認識装置 - Google Patents
音声認識方法及び音声認識装置 Download PDFInfo
- Publication number
- JP4858663B2 JP4858663B2 JP2001174148A JP2001174148A JP4858663B2 JP 4858663 B2 JP4858663 B2 JP 4858663B2 JP 2001174148 A JP2001174148 A JP 2001174148A JP 2001174148 A JP2001174148 A JP 2001174148A JP 4858663 B2 JP4858663 B2 JP 4858663B2
- Authority
- JP
- Japan
- Prior art keywords
- snr
- speech
- input
- speech recognition
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Description
【発明の属する技術分野】
本発明は、音声認識方法及び音声認識装置に関し、特に入力音声と標準パタンとのSNR(信号対雑音比)条件を一致させることにより、雑音下の音声認識性能を向上させる技術に関する。
【0002】
【従来の技術】
従来、音声認識の耐雑音性能を向上させることを目的として、種々の方法が提案されている。特に本発明と関係する技術として、雑音重畳学習という技術が従来より知られている。これは、認識時の雑音環境の音響特性がある程度既知であり事前に雑音を収集することが可能であるという前提に基づき、その収集した雑音を予め標準話者音声に重畳し、その重畳音声を用いて標準パタンを作成することにより、学習環境と認識環境の雑音条件を一致させることができて、雑音下の音声認識性能を向上させることを可能とするものである。
【0003】
しかし、実用的な見地からは、この雑音重畳学習には問題点が存在する。たとえ雑音環境が事前に分かったとしても、一般に、話者の声の大きさ、マイクロホンと話者の口との距離、装置のボリュームゲイン、騒音の大きさなどがその都度変化し、音声信号と雑音信号の相対的な大きさの比である音声対雑音比(SNR)が一定ではない。従来よりSNRと音声認識率との相関は極めて大であることが知られており、SNR条件が大きく異なればこの雑音重畳学習は全く効果がないことも明らかである。
【0004】
これに対して、事前に雑音が収集できたとしてもSNR条件は事前に決定できないという前提に基づき、認識時にSNR決定を行い、そのSNR条件に適合した標準パタンをその場で合成することにより、この問題点に対処する技術が存在する。たとえば、本発明者による日本国特許第3039623号明細書「音声認識装置」(以下引用文献[1]と称す)には、その実施の一形態の例として、多重化標準パタンの両端点特徴ベクトルとして、0dBと40dBのSNRにおける重畳音声を保持する例が記載されている。この例では、マッチング時に、入力音声と標準パタンとで構成される2次元の各格子点上で独立に最適(尤度最大もしくは距離最小)になるように求めたベクトルとの距離を用いることで、入力音声が0〜40dBの間のどの範囲のSNRであっても、標準パタンベクトルをそれに適合させることができ、結果として高い音声認識性能を得ることができる。
【0005】
【発明が解決しようとする課題】
しかしながら、引用文献[1]に述べるような方法を用いた場合、音声認識時の各格子点で入力音声と両端点の特徴ベクトルとからなる3点間の距離計算を行わなくてはならず、演算量的に従来の通常の方法の3倍(効率的に行ったとしても2倍)の距離計算量が必要となり、音声認識装置として高価なものが必要である。
【0006】
また、引用文献[1]の方法では、各格子点上で独立の最適化を行うため、多重化標準パタンの可動範囲が大き過ぎ、誤ったマッチングを引き起こすこと(いわゆる“合わせすぎ”)が起こり得るという問題点がある。例えば、母音に比べ相対的にパワーの小さな子音は雑音に埋もれやすく、SNRが悪くなればなるほど、ほとんど雑音と同一の特徴を示すようになる。したがってSNRが高い場合には「はかた」と聞き取れるような音声が、高騒音下では先頭母音の“h”が雑音に埋もれてしまい、「あかた」のように変形してしまう場合が存在する。さらに極端な場合には母音部分のみが残り、「あああ」と区別がつかなくなる可能性すらある。認識対象語彙に「はかた」や「あかた」や「はあた」など母音系列が同一の音声が多数含まれている場合には、この方式では合わせすぎが発生し、それらの間での識別が困難となり、ひいて音声認識の性能低下を招くという問題点が存在する。
【0007】
そこで本発明の第一の目的は、上述した距離計算量の増大という問題点に対処し、SNRを事前に測定することによって、距離計算時には従来の距離計算と同様に入力音声と標準パタンとの間の距離計算を1回行う程度の少ない演算量で音声認識を実現できる、音声認識方法及び装置を提供することである。
【0008】
また、本発明の第二の目的は、SNRを発声全体あるいは発声の一部に対して固定して使用することで、従来起こっていたようないわゆる“合わせすぎ”を回避し、より高性能な音声認識方法及び装置を提供することにある。
【0009】
【課題を解決するための手段】
本発明では、標準話者音声に対して音声認識のための特徴抽出を行なって得られる抽出結果を用いて複数のカテゴリに対する統計的な特徴量を保持する音声標準パタンであって、標準話者音声に対して異なる複数のSNRで既知の雑音を重畳した複数の音声の特徴抽出結果を用い、特徴量分布がSNRごとに異なる情報を持つように構成したSNR多重化標準パタンを用いる。
【0010】
そして本発明の音声認識方法は、音声認識のために入力された入力音声に対して、SNR多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算し、SNR多重化標準パタンの異なる複数のSNRに対する分布から、入力音声のSNRとなるような新たな分布を線形補間によって求め、特徴ベクトル列と新たな分布とに基づいて非線型伸縮マッチング処理を行い、認識結果を出力する。
【0011】
また本発明による第1の音声認識装置は、SNR多重化標準パタンを格納するSNR多重化標準パタン格納部(11)と、音声認識のために入力された入力音声に対してSNR多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算する特徴抽出部(12)と、入力音声のSNRを計算して入力SNRとして出力する入力SNR計算部(13)と、入力SNRを用い、SNR多重化標準パタンの異なる複数のSNRに対する分布から、当該入力SNRとなるような新たな分布を線形補間によって求めるパタン変換部(14)と、特徴ベクトル列と新たな分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部(15)と、を有する。
【0012】
本発明の第2の音声認識装置は、SNR多重化標準パタンを格納するSNR多重化標準パタン格納部(21)と、音声認識のために入力された入力音声に対してSNR多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算する特徴抽出部(22)と、SNR多重化標準パタンの異なる複数のSNRに対する分布と特徴ベクトル列とから、入力音声に対して最も尤度が高くなるという基準でSNRを求める予備マッチング部(23)と、予備マッチング部(23)によって求められたSNRを用い、SNR多重化標準パタンの異なる複数のSNRに対する分布から、当該求められたSNRとなるような新たな分布を線形補間によって求めるパタン変換部(24)と、特徴ベクトル列と新たな分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部(25)と、を有する。
【0013】
本発明の第3の音声認識装置は、SNR多重化標準パタンを格納するSNR多重化標準パタン格納部(31)と、音声認識のために入力された入力音声に対してSNR多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算する特徴抽出部(32)と、SNR多重化標準パタンの異なる複数のSNRに対する分布と特徴ベクトル列の一部分とを用いて正解候補のパスを求め、当該パスに沿って尤度最大となるという基準でSNRを求める部分マッチング部(33)と、部分マッチング部によって求められたSNRを用い、SNR多重化標準パタンの異なる複数のSNRに対する分布から、当該求められたSNRとなるような新たな分布を線形補間によって求めるパタン変換部(34)と、部分マッチング部(33)が計算した音声認識のための途中結果と特徴ベクトル列と新たな分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部(35)と、を有する。
【0014】
まず、本発明の基本原理を説明する。
【0015】
一般的な入力信号は、リニアスペクトル領域で純粋な雑音のない音声信号に雑音信号が足された形で表現されるため、音声認識が事前に予測可能なノイズ環境下で利用される場合、その雑音信号を予め収録しておき、標準話者音声に重畳することで、認識環境と学習環境の雑音条件を一致させ、音声認識率を向上させることが可能である。これがいわゆる雑音重畳学習と呼ばれるものである。ただしこの際、予め雑音信号のスペクトル形状が明らかとなっていても、マイクロホンと話者の口との距離、話者の声の大きさ、装置のボリュームゲインなど、一定でないことが予想され、認識時のノイズと音声の相対的な大小関係(SNR;音声対雑音比)は不明である。このようなことから、雑音重畳学習においては、SNRを規定するような未知パラメータを考慮する必要がある。
【0016】
いま、雑音のない環境で発声した標準話者音声に雑音を重畳して雑音環境下の標準パタンを作成することを考える。雑音環境で観測される音声信号のスペクトルをYlとし、その信号が純粋な音声信号のスペクトル信号Slと雑音信号のスペクトルNlと雑音のゲインαlとで合成されるモデルを考えると、これらの関係は以下のように表現できる。
【0017】
Yl=Sl+αlNl (1)
なおここでは、音声と雑音信号の相対的な大きさであるSNRを考慮する代わりにノイズにのみ付与されたゲインαlを考慮することにしたが、このように取扱っても一般性は失われない。
【0018】
現在知られている音声認識装置の大半は対数スペクトルあるいはそれを線型変換した特徴量(例えばケプストラム)を認識のパラメータとして使用するため、上記式(1)の対数変換を考える。なお、ケプストラムと対数スペクトルの関係は単なる線型変換であるため、これらは区別なく扱うことができるが、ここでは簡単のため対数スペクトルに対して論じる。
【0019】
ここで、S=log(Sl),α=log(αl),N=log(Nl)である。すなわち、対数スペクトル上のノイズとゲインが分かればその状態での観測信号を計算することができることになるが、実はこれはそう簡単ではない。なぜなら、この変換には対数及び指数変換の2つの超越関数が含まれており、これを全ての標準パタンに対して行うためには多くの計算資源を必要するためである。本発明では、上記式(2)の関係を用いる代わりに、これをテーラー(Taylor)展開の1次までの項で近似したものを考える。すなわち、ある基準となるノイズスペクトルN0が、基準となるゲインα0で重畳された標準パタンが事前に用意されおり、それとは異なる雑音重畳信号が入力された場合の標準パタンは、以下のように表される。
【0020】
【数1】
【0021】
いま、入力の雑音環境がノイズの性質自体には変化がないことを前提としていることを考えると、右辺第3項は無視できるため、結局以下のようになる。
【0022】
【数2】
【0023】
ここで、f0,f1は、それぞれ、SNR0,SNR1の標準パタンの特徴ベクトル分布であり、SNRuは未知入力に対して測定したSNRである。以上のように、入力音声に対してSNRが求められれば、少なくとも2種類のSNR既知の標準パタンを用いて任意のSNRの標準パタンが合成可能である。
【0024】
以下、後述する本発明の第1の実施形態の音声認識装置を示す図1を用いて、本発明の音声認識装置の基本的な原理を説明する。
【0025】
SNR多重化標準パタン格納部11は、標準話者音声に対してSNRが既知の少なくとも2種類の雑音重畳音声(上式のf0,f1)を用意して、これらをSNR別の統計量として保持しておく。すなわち、従来の標準パタンは1つの平均ベクトルないしはその分散を含めて1つの空間の点を表していたものを、ここではSNR付きで少なくとも2つの点で表現している。
【0026】
特徴抽出部12は、入力音声の波形を音声認識のための特徴ベクトル列に変換する。この特徴ベクトルは、一定周期ごとの短時間分析結果(多次元ベクトル)を時間方向に結合したものとして表現されたものであり、入力音声信号を特徴ベクトル列に変換する方法としてこれまでに種々の方法が確立されている。例えば、スペクトル分析、フィルタバンク、ケプストラム、パワーといったものを元に、これらの時間方向の1次あるいは2次微分といったものと組み合わせて特徴ベクトルを構成している。
【0027】
入力SNR計算部13は、入力音声からその信号対雑音比(SNR)を計算する。SNRは一般に、音声信号のエネルギーの平均値Psと雑音信号のエネルギーの平均値Pnとを用いて以下のように表される。
【0028】
SNR=10 log(Ps)−10 log(Pn) (4)
入力SNR計算部13は、内部にSNRを計算するための音声区間検出部を含んでいる。音声区間を検出する方法としては、従来より種々のものが提案されている。本発明は、それらのうちどのようなものを用いても良く、それらを詳細に述べることは本発明と直接関係ないのでここでは触れない。
【0029】
パタン変換部14は、SNR多重化標準パタン11と入力SNR計算部13で求めたSNRとを用いて上記式(3)の計算を行い、線型変換により新しい標準パタンを合成する。マッチング部15は、この新しく合成された標準パタンの各分布を用いて音声認識のための非線型伸縮マッチングを行う。たとえば、標準パタンとして隠れマルコフモデル(HMM;Hidden Markov Model)と呼ばれる方法を用いた場合、これに対する効率的な計算方法として、ビタビ(Viterbi)アルゴリズムが良く知られている。
【0030】
以上から明らかなように本発明によれば、少なくとも2種類のSNRに対する情報を保持したSNR多重化標準パタンと入力音声のSNRとを用いることで、近似的な線形変換により、任意のSNRの標準パタンを容易に合成することが可能であり、これによって高性能な音声認識を可能にする。
【0031】
【発明の実施の形態】
次に、本発明の好ましい実施の形態について、図面を参照して説明する。
【0032】
図1は本発明の第1の実施の形態の音声認識装置の構成を示すブロック図である。
【0033】
この音声認識装置は、SNR多重化標準パタンを格納するSNR多重化標準パタン格納部11と、音声認識のために入力された入力音声に対してSNR多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、その入力音声の特徴ベクトル列を計算する特徴抽出部12と、入力音声のSNRを計算する入力SNR計算部13と、入力SNR計算部13が計算した入力SNRを用い、SNR多重化標準パタンの少なくとも2種類のSNRに対する分布から、その入力SNRとなるような新たな分布を線形補間によって求めるパタン変換部14と、特徴抽出部13が出力した入力音声の特徴ベクトル列とパタン変換部14が出力した分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部15と、を備えている。ここでSNR多重化標準パタンとは、標準話者音声に対して音声認識のための特徴抽出を行ないその抽出結果を用いて複数のカテゴリに対する統計的な特徴量を保持する音声標準パタンであって、(雑音を含まない)標準話者音声に対して少なくとも2種類の異なるSNRで既知の雑音を重畳し、このようにして雑音が重畳したそれぞれの音声の特徴抽出結果を用いて得られたものである。したがって、SNR多重化標準パタンは、少なくとも2種類の適用したSNRごとに異なる特徴量分布の情報を保持している。
【0034】
マッチング部15としては、通常の音声認識に使用される、標準パタンと入力音声との間の時間軸に関する非線形伸縮を行い両者の間で最も尤度の高いものを正解候補(認識結果)として出力するものが使用される。
【0035】
次に、図1に示す音声認識装置の動作を説明する。
【0036】
SNR多重化標準パタン格納部11に格納されるSNR多重化標準パタンは、雑音の重畳されていない標準話者音声に対して少なくとも2種類のSNRで雑音重畳音声を作成しておき、その音声に対し特徴ベクトルの計算を行うことによって得られる。この特徴ベクトルは、一定周期ごとの短時間分析結果(多次元ベクトル)を時間方向に結合したものとして表現されている。特徴ベクトルの算出方法としては、これまでに種々の方法が確立されている。例えば、スペクトル分析、フィルタバンク、ケプストラム、パワーといったものを元に、これらの時間方向の1次あるいは2次微分といったものと組み合わせることによって、特徴ベクトルを構成することができる。ここで例示した以外の特徴ベクトルであっても、一般に音声認識に使用可能なものであれば、どのようなものを用いてもよい。この少なくとも2種類のSNRの標準話者音声に対し、音声認識のための多重化標準パタンを構成する。このような構成を実現する手段としては、隠れマルコフモデル(HMM)と呼ばれる方法や、あるいはDPマッチングによる方法が知られている。
【0037】
音声認識の対象となる入力音声は、特徴抽出部12と入力SNR計算部13の両方に与えられる。特徴抽出部12は、上述したSNR多重化標準パタンを作成した時と同様の特徴抽出手法を行うことにより、入力音声の特徴ベクトル計算を行い、得られた特徴ベクトルをマッチング部15に出力する。一方、入力SNR計算部13は、認識対象の音声に対してSNRの計算を行う。SNRは、例えば入力音声における音声区間と雑音区間が決定されている場合には、以下のような方法で計算できる。すなわち入力音声をx(t)、雑音区間の集合をTn、音声区間の集合をTsとすると、
【0038】
【数3】
【0039】
で計算される。雑音区間、音声区間の同定方法としては、これまでに種々の方法が開示されており、ここではそれらについての詳細な説明を行わないが、これらの区間が同定できるものであれば、どのような方法も利用可能である。最も簡単には、音声区間と雑音区間の間の短時間パワーのしきい値を予め用意しておき、このしきい値を下回った場合には雑音区間、上回った場合には音声区間であると判定する方法が利用できる。計算されたSNRは、パタン変換部14に出力される。
【0040】
次に、パタン変換部14は、入力SNR計算部13が計算したSNRを用いて、SNR多重化標準パタンを目的のSNRに変換する。変換された分布を新たな分布と呼ぶ。この変換は上述の式(3)を用いて行う。すなわち、標準パタン中のある分布に関し、SNR別に2つの特徴ベクトルf0,f1と、それぞれに対応するSNR0,SNR1が用意されているとき、目的のSNRuにおける特徴ベクトルは、式(3)の計算によって求めることが可能である。得られた新たな分布は、マッチング部15に与えられる。
【0041】
マッチング部15は、入力音声の特徴ベクトル列が特徴抽出部12から入力し、新しく合成された標準パタンの各分布(新たな分布)がパタン変換部14から入力すると、新たな分布を用いて特徴ベクトル列の音声認識のための非線型伸縮マッチング処理を行い、尤度の最も高いものを認識結果として出力する。このような尤度の計算方法としては、例えばHMMにおけるビタビアルゴリズムや、特徴ベクトルパタン列におけるDP(動的計画法)マッチングなどが良く知られている。
【0042】
以上の処理により、入力音声に対する認識結果が出力され、音声認識が行われたことになる。
【0043】
図1に示す音声認識装置では、入力SNR計算を行なう際に用いる音声と最終的にマッチングを行う入力音声とが同一とされているが、実用上はこのような構成の場合、やや処理の遅延が発生して好ましくない場合がある。その理由は、音声認識においてはしばしば、入力が完了した音声の一部分から順次処理を進めて行く、いわゆるフレーム同期と呼ばれる処理方法を行う場合が多いのに対し、音声のSNRはいったん発声が終了しない限り決定ができないためである。入力SNR計算を行なう際の音声とマッチングを行なう入力音声とが同一であると、発声が終了してから処理を行うことになるが、その場合には、フレーム同期処理が困難になる。
【0044】
これに対しては次の2つの回避方法が考えられる。まず、音声の一部分からSNRを推定する方法を用いることである。これは、例えば発声の前に存在する雑音部分と発声の先頭の一部分の音声が入力された時点でSNRを推定する方式である。またもう一つの方法として、前回の認識時のSNRを利用する、いわゆる1発声遅れのSNR推定方法を行うことも可能である。音声認識の利用場面においては利用者が数回の発声を行う場合があり、このような場合には、初回の発声に対しては予め保存していた初期値を用いたり、または図1に示す音声認識装置のように初回のみは認識結果通知の遅延を許容し、2回目以降の発声に対しては、その直前の発声で計算したSNRを用いるなどの処理を行うことで、実用的な実施方法となる。この場合も、過去の数回の発声との間でSNRの平均値をとったりしてあまり大きな変化が起こらないようにする工夫ももちろん可能である。
【0045】
次に、本発明の第2の実施形態の音声認識装置について説明する。図2は、第2の実施形態の音声認識装置の構成を示すブロック図である。
【0046】
図2に示す音声認識装置は、SNR多重化標準パタンを格納するSNR多重化標準パタン格納部21と、音声認識のために入力された入力音声に対してSNR多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、その入力音声の特徴ベクトル列を計算する特徴抽出部22と、SNR多重化標準パタン21の少なくとも2種類のSNRに対する分布と特徴抽出部22が出力した入力音声の特徴ベクトル列とから、入力発声に対して最も尤度が高くなるという基準でSNRを求める予備マッチング部23と、予備マッチング部23によって求められたSNRを用い、SNR多重化標準パタンの少なくとも2種類のSNRに対する分布から、求められたSNRとなるような新たな分布を線形補間によって求めるパタン変換部24と、特徴抽出部23が出力した入力音声の特徴ベクトル列とパタン変換部24が出力した分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部25と、を備えている。
【0047】
ここでSNR多重化標準パタンは第1の実施形態の場合と同じものであり、また、SNR多重化標準パタン格納部21、特徴抽出部22及びマッチング部25は、それぞれ図1のSNR多重化標準パタン格納部11、特徴抽出部12及びマッチング部15と同一の構成及び機能のものである。パタン変換部24は、図1に示すパタン変換部14が入力SNR計算部13から入力音声のSNRを与えられるのに対し、予備マッチング部23から入力音声のSNRが与えられる点で、図1のパタン変換部14と相違している。
【0048】
この音声認識装置では、予備マッチング部23は、音声認識のマッチング方式を用い、まずSNRを決定する。マッチングアルゴリズム自体としては、従来のDPマッチングやビタビアルゴリズムを用いる。適当なSNRの初期値を事前に決めておき、このSNRにおける正解候補パスを求め、そのパスに対する最適なSNRを計算し直す操作を行う。図3は、例えばHMMで構成された標準パタンに対して正解候補パスが求められた状態を示す。すなわち入力音声の時間軸tに対して対応づけられた標準パタンの分布が一意に決定されている状態である。入力音声の特徴ベクトルの時系列をYij(iは次元を表す添字)、それに対応づけられた標準パタンのSNRが異なる2つの分布を
【0049】
【外1】
【0050】
分散をδ2 ijとし、SNRに相当する未知パラメータαを用いると、出力される距離(尤度の逆の意)は以下のように表される。
【0051】
【数4】
【0052】
上記はαに関する2次式なので、この距離値を最小にするようなαは簡単に求めることが出来る。微分して0とおけば、
【0053】
【数5】
【0054】
である。なお、αは初期値として過去の音声に対するαを平均化したものを用いるような工夫を行うこともできる。パタン変換部24はこのSNRに相当する値αを用いてHMMにおける分布を決定する。すなわち、変換後の分布
【0055】
【外2】
【0056】
は、αとSNRについて多重化された例えば2つの分布
【0057】
【外3】
【0058】
を用い、
【0059】
【数6】
【0060】
で計算される。
【0061】
その他の点では、図2に示す音声認識装置の動作は図1に示す音声認識装置の動作と同一である。
【0062】
次に、本発明の第3の実施形態の音声認識装置について説明する。図4は、第3の実施形態の音声認識装置の構成を示すブロック図である。
【0063】
図4に示す音声認識装置は、SNR多重化標準パタンを格納するSNR多重化標準パタン格納部31と、音声認識のために入力された入力音声に対してSNR多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、その入力音声の特徴ベクトル列を計算する特徴抽出部32と、SNR多重化標準パタンの少なくとも2種類のSNRに対する分布と特徴抽出部32が出力した入力音声の特徴ベクトル列の一部分とを用いて正解候補のパスを求め、当該パスに添って尤度最大となるという基準でSNRを求める部分マッチング部33と、部分マッチング部33によって求められたSNRを用い、SNR多重化標準パタンの少なくとも2種類のSNRに対する分布から、求められたSNRとなるような新たな分布を線形補間によって求めるパタン変換部34と、部分マッチング部33が計算した音声認識のための途中結果(サーチ情報)と特徴抽出部23が出力した入力音声の特徴ベクトル列とパタン変換部24が出力した分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部35と、を備えている。
【0064】
ここでSNR多重化標準パタンは第1及び第2の実施形態の場合と同じものであり、また、SNR多重化標準パタン格納部31及び特徴抽出部32は、それぞれ図1のSNR多重化標準パタン11及び特徴抽出部12と同一の構成及び機能のものである。パタン変換部34は、図2に示すパタン変換部24が予備マッチング部23からSNRを与えられるのに対し、部分マッチング部33からSNRが与えられる点で、図2のパタン変換部24と相違している。
【0065】
部分マッチング部33は、図5に示す通り、入力音声の時刻t=t’における始端からの部分最適パスを求め、このパスに添ったSNRに相当する値αを上述の式(7)を用いて計算する。パタン変換部34は、第1の及び第2の実施形態のパタン変換部14,24と同一の動作を行い、例えば式(8)にしたがって標準パタンの分布を変換する。マッチング部35は、時刻t=t’における部分最適パスを新しく変換された標準パタンを用いて再度計算し直し、この時刻におけるマッチングを行う。なお、音声の終端(t=T)に至る最適パスが求まった時点でこのマッチング操作は終了し、認識結果を出力する。
【0066】
【発明の効果】
以上説明したように本発明は、SNRを事前に決定することで従来の音声認識装置が有していたような多くの演算量を必要とせず、音声認識装置の低コスト化が可能となり、また、発声全体あるいは発声の一部分を用いてSNRを求めることで、従来の装置が有していたいわゆる合わせすぎの問題点が回避され、より高性能な音声認識を実現できる、という効果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態の音声認識装置の構成を示すブロック図である。
【図2】本発明の第2の実施の形態の音声認識装置の構成を示すブロック図である。
【図3】予備マッチング部の動作を示す図である。
【図4】本発明の第3の実施の形態の音声認識装置の構成を示すブロック図である。
【図5】部分マッチング部の動作を示す図である。
【符号の説明】
11,21,31 SNR多重化標準パタン格納部
12,22,32 特徴抽出部
13 入力SNR計算部
23 予備マッチング部
33 部分マッチング部
14,24,34 パタン変換部
15,25,35 マッチング部
Claims (6)
- 標準話者音声に対して音声認識のための特徴抽出を行なって得られる抽出結果を用いて複数のカテゴリに対する統計的な特徴量を保持する音声標準パタンであって、前記標準話者音声に対して異なる複数のSNR(音声対雑音比)で既知の雑音を重畳した複数の音声の特徴抽出結果を用い、前記特徴量分布がSNRごとに異なる情報を持つように構成したSNR多重化標準パタンを用い、
音声認識のために入力された入力音声に対して、前記SNR多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算し、
前記SNR多重化標準パタンの異なる複数のSNRに対する分布から、前記入力音声のSNRとなるような新たな分布を線形補間によって求め、
前記特徴ベクトル列と前記新たな分布とに基づいて非線型伸縮マッチング処理を行い、認識結果を出力する、
音声認識方法。 - 2種類のSNRの既知の雑音を利用して構成された前記SNR多重化標準パタンを用いる請求項1に記載の音声認識方法。
- 標準話者音声に対して音声認識のための特徴抽出を行なって得られる抽出結果を用いて複数のカテゴリに対する統計的な特徴量を保持する音声標準パタンであって、前記標準話者音声に対して異なる複数のSNR(音声対雑音比)で既知の雑音を重畳した複数の音声の特徴抽出結果を用い、前記特徴量分布がSNRごとに異なる情報を持つように構成したSNR多重化標準パタンを格納するSNR多重化標準パタン格納部と、
音声認識のために入力された入力音声に対して前記SNR多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算する特徴抽出部と、
前記入力音声のSNRを計算して入力SNRとして出力する入力SNR計算部と、
前記入力SNRを用い、前記SNR多重化標準パタンの異なる複数のSNRに対する分布から、当該入力SNRとなるような新たな分布を線形補間によって求めるパタン変換部と、
前記特徴ベクトル列と前記新たな分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部と、
を有する音声認識装置。 - 標準話者音声に対して音声認識のための特徴抽出を行なって得られる抽出結果を用いて複数のカテゴリに対する統計的な特徴量を保持する音声標準パタンであって、前記標準話者音声に対して異なる複数のSNR(音声対雑音比)で既知の雑音を重畳した複数の音声の特徴抽出結果を用い、前記特徴量分布がSNRごとに異なる情報を持つように構成したSNR多重化標準パタンを格納するSNR多重化標準パタン格納部と、
音声認識のために入力された入力音声に対して前記SNR多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算する特徴抽出部と、
前記SNR多重化標準パタンの異なる複数のSNRに対する分布と前記特徴ベクトル列とから、前記入力音声に対して最も尤度が高くなるという基準でSNRを求める予備マッチング部と、
前記予備マッチング部によって求められたSNRを用い、前記SNR多重化標準パタンの異なる複数のSNRに対する分布から、当該求められたSNRとなるような新たな分布を線形補間によって求めるパタン変換部と、
前記特徴ベクトル列と前記新たな分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部と、
を有する音声認識装置。 - 標準話者音声に対して音声認識のための特徴抽出を行なって得られる抽出結果を用いて複数のカテゴリに対する統計的な特徴量を保持する音声標準パタンであって、前記標準話者音声に対して異なる複数のSNR(音声対雑音比)で既知の雑音を重畳した複数の音声の特徴抽出結果を用い、前記特徴量分布がSNRごとに異なる情報を持つように構成したSNR多重化標準パタンを格納するSNR多重化標準パタン格納部と、
音声認識のために入力された入力音声に対して前記SNR多重化標準パタンを作成した時と同様の条件で特徴抽出を行ない、入力音声の特徴ベクトル列を計算する特徴抽出部と、
前記SNR多重化標準パタンの異なる複数のSNRに対する分布と前記特徴ベクトル列の一部分とを用いて正解候補のパスを求め、当該パスに沿って尤度最大となるという基準でSNRを求める部分マッチング部と、
前記部分マッチング部によって求められたSNRを用い、前記SNR多重化標準パタンの異なる複数のSNRに対する分布から、当該求められたSNRとなるような新たな分布を線形補間によって求めるパタン変換部と、
前記部分マッチング部が計算した音声認識のための途中結果と前記特徴ベクトル列と前記新たな分布とを用いて音声認識のための非線型伸縮マッチング処理を行い、認識結果を出力するマッチング部と、
を有する音声認識装置。 - 前記SNR多重化標準パタンは2種類のSNRの既知の雑音を利用して構成されたものである請求項3乃至5のいずれか1項に記載の音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001174148A JP4858663B2 (ja) | 2001-06-08 | 2001-06-08 | 音声認識方法及び音声認識装置 |
US10/163,710 US7216075B2 (en) | 2001-06-08 | 2002-06-06 | Speech recognition method and apparatus with noise adaptive standard pattern |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001174148A JP4858663B2 (ja) | 2001-06-08 | 2001-06-08 | 音声認識方法及び音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002366192A JP2002366192A (ja) | 2002-12-20 |
JP4858663B2 true JP4858663B2 (ja) | 2012-01-18 |
Family
ID=19015478
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001174148A Expired - Fee Related JP4858663B2 (ja) | 2001-06-08 | 2001-06-08 | 音声認識方法及び音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7216075B2 (ja) |
JP (1) | JP4858663B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100754384B1 (ko) * | 2003-10-13 | 2007-08-31 | 삼성전자주식회사 | 잡음에 강인한 화자위치 추정방법 및 장치와 이를 이용한카메라 제어시스템 |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
JP2006084732A (ja) * | 2004-09-15 | 2006-03-30 | Univ Of Tokyo | 多項式近似に基づく雑音下音声認識のためのモデル適応法 |
EP1794746A2 (en) * | 2004-09-23 | 2007-06-13 | Koninklijke Philips Electronics N.V. | Method of training a robust speaker-independent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system |
US8175877B2 (en) * | 2005-02-02 | 2012-05-08 | At&T Intellectual Property Ii, L.P. | Method and apparatus for predicting word accuracy in automatic speech recognition systems |
US20070033042A1 (en) * | 2005-08-03 | 2007-02-08 | International Business Machines Corporation | Speech detection fusing multi-class acoustic-phonetic, and energy features |
US7962340B2 (en) * | 2005-08-22 | 2011-06-14 | Nuance Communications, Inc. | Methods and apparatus for buffering data for use in accordance with a speech recognition system |
GB2471875B (en) * | 2009-07-15 | 2011-08-10 | Toshiba Res Europ Ltd | A speech recognition system and method |
US8447954B2 (en) * | 2009-09-04 | 2013-05-21 | International Business Machines Corporation | Parallel pipelined vector reduction in a data processing system |
US9489950B2 (en) * | 2012-05-31 | 2016-11-08 | Agency For Science, Technology And Research | Method and system for dual scoring for text-dependent speaker verification |
JP6466762B2 (ja) * | 2015-04-01 | 2019-02-06 | 日本電信電話株式会社 | 音声認識装置、音声認識方法、およびプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5885499A (ja) * | 1981-11-18 | 1983-05-21 | 株式会社デンソー | 連続音声認識装置 |
JPS59137999A (ja) * | 1983-01-27 | 1984-08-08 | 松下電器産業株式会社 | 音声認識装置 |
JP2658426B2 (ja) * | 1989-09-26 | 1997-09-30 | 松下電器産業株式会社 | 音声認識方法 |
JPH04264596A (ja) * | 1991-02-20 | 1992-09-21 | N T T Data Tsushin Kk | 雑音下音声認識方法 |
JP3102195B2 (ja) * | 1993-04-02 | 2000-10-23 | 三菱電機株式会社 | 音声認識装置 |
JP3008799B2 (ja) * | 1995-01-26 | 2000-02-14 | 日本電気株式会社 | 音声適応化装置,単語音声認識装置,連続音声認識装置およびワードスポッティング装置 |
JPH09198079A (ja) | 1996-01-12 | 1997-07-31 | Brother Ind Ltd | 音声認識装置 |
JP3452443B2 (ja) * | 1996-03-25 | 2003-09-29 | 三菱電機株式会社 | 騒音下音声認識装置及び騒音下音声認識方法 |
JP3039623B2 (ja) * | 1996-10-28 | 2000-05-08 | 日本電気株式会社 | 音声認識装置 |
US6216103B1 (en) * | 1997-10-20 | 2001-04-10 | Sony Corporation | Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise |
US6324509B1 (en) * | 1999-02-08 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for accurate endpointing of speech in the presence of noise |
-
2001
- 2001-06-08 JP JP2001174148A patent/JP4858663B2/ja not_active Expired - Fee Related
-
2002
- 2002-06-06 US US10/163,710 patent/US7216075B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7216075B2 (en) | 2007-05-08 |
JP2002366192A (ja) | 2002-12-20 |
US20020198709A1 (en) | 2002-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112447191A (zh) | 信号处理装置以及信号处理方法 | |
JP5949553B2 (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
US20060165202A1 (en) | Signal processor for robust pattern recognition | |
KR101892733B1 (ko) | 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법 | |
US8401844B2 (en) | Gain control system, gain control method, and gain control program | |
JPH075892A (ja) | 音声認識方法 | |
JP4858663B2 (ja) | 音声認識方法及び音声認識装置 | |
JP2011033717A (ja) | 雑音抑圧装置 | |
CN101432799A (zh) | 基于高斯混合模型的变换中的软校准 | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
JP2009003008A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
JP4728791B2 (ja) | 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体 | |
US20030036902A1 (en) | Method and apparatus for recognizing speech in a noisy environment | |
JP2002268698A (ja) | 音声認識装置と標準パターン作成装置及び方法並びにプログラム | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
Pfau et al. | A combination of speaker normalization and speech rate normalization for automatic speech recognition | |
JP5375612B2 (ja) | 周波数軸伸縮係数推定装置とシステム方法並びにプログラム | |
JPH10133688A (ja) | 音声認識装置 | |
CN111226278B (zh) | 低复杂度的浊音语音检测和基音估计 | |
JP6653687B2 (ja) | 音響信号処理装置、方法及びプログラム | |
JP2001356793A (ja) | 音声認識装置、及び音声認識方法 | |
Lipeika | Optimization of formant feature based speech recognition | |
JP2005321539A (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP4242320B2 (ja) | 音声認識方法、その装置およびプログラム、その記録媒体 | |
JP2019028301A (ja) | 音響信号処理装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20041207 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041207 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060125 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080514 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111005 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111018 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141111 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |