JP4818556B2 - 確率論的ロバスト音声処理 - Google Patents
確率論的ロバスト音声処理 Download PDFInfo
- Publication number
- JP4818556B2 JP4818556B2 JP2001508432A JP2001508432A JP4818556B2 JP 4818556 B2 JP4818556 B2 JP 4818556B2 JP 2001508432 A JP2001508432 A JP 2001508432A JP 2001508432 A JP2001508432 A JP 2001508432A JP 4818556 B2 JP4818556 B2 JP 4818556B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- model
- processing
- speech
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、劣化した音声信号の音声認識や音声符号化のような音声処理に関する。
【0002】
【従来の技術】
自動音声認識及び符号化システムの使用頻度が増している。そのようなシステムの性能が継続的に向上しつつあるが、低い信号対雑音比(S/N比)又は低帯域幅信号を有するなどの悪環境では特に、精度をさらに向上させることが望まれる。通常、音声認識システムは、入力音声信号のLPC又はケプストラル(cepstral)成分を有する観測ベクトルのような表示Yと、トレーニング音声信号の基準ベクトルのような表示Xから構成される隠れマルコフモデル(HMM)のような基準信号のモデルΛxとを比較する。
【0003】
実際には、基準信号(ひいてはモデル)が得られる状態と入力信号状態との間に不整合が存在する。このような不整合は、特に、信号のS/N比及び/又は帯域幅に存在する。基準信号は大抵は比較的雑音が少ない(高いS/N比、広帯域幅)のに対して、実際使用中の入力信号には歪がある(低いS/N比、及び/又は狭帯域幅)。
【0004】
米国特許出願に係る文献のUS5,727,124は、入力信号と基準モデルとの不整合を減少させる確率論的なアプローチを記述している。この既知の方法は、発声の認識中に入力信号(観測される発声)と元の音声モデルとの不整合を減少させる最尤法(maximum-likelihood;ML)アプローチを用いることによって行われる。この不整合は、次の2つの方法により減少させることができる。
【0005】
・歪んだ入力信号の表示Yを、元の表示Xの推定値にマッピングし、これにより、元の信号表示Xから得られる元のモデルΛx を認識に用いることを可能にしている。このマッピングは、特徴スペース中で行われ、Fv(Y)と記述することが出来る。ここで、vは、推定すべきパラメータである。
【0006】
・元のモデルΛxを、観測された発声Yに対してより良好に整合する変換後のモデルΛyへマッピングすることができる。このマッピングは、モデルスペース内で行われ、Gη(Λx)と記述することが出来る。ここで、ηは、推定すべきパラメータを表す。
【0007】
パラメータv及び/又はηは、モデルΛx が付与される観測される音声Yの尤度を繰返し向上させるために期待値最大化アルゴリズム(expectation maximization algorithm)を用いて推定される。確率論的な整合アルゴリズムは、与えられたテスト発声及び音声モデルの所定のセットについてのみ実行される。実際のテスト前の不整合の推定に対してはトレーニングは必要とされない。米国特許出願に係る文献のUS5,727,124に記述されたマッピングは、参照によりここに含まれる。
【0008】
【発明が解決しようとする課題】
両方の方法を組み合わせることもでき、この場合、歪んだ入力信号の表示Yは、元の表示Xの推定値にマッピングされ、元のモデルΛxは、推定された表示Xとより良好に整合する変換後のモデルにマッピングされる。これらの方法を繰返し用いることができ、この場合、当該変換された信号及び/又は当該変換されたモデルは、それぞれの元の入力信号の各々及び/又はモデルを置換する。このようにして、当該入力信号及びモデルは、入力信号とモデルとの間の統計的なより高い合致度を得るために繰返し変換される。このプロセスにおいて、比較的雑音の多い入力信号は、比較的雑音の少ない入力信号に変換可能となり、それに対して、比較的雑音の少ないモデルは、より雑音の多いモデルに変換される可能性がある。
【0009】
認識のため、モデルは、大抵、最適な認識を行うために最良の(雑音のない)状態でトレーニングされる。この既知の方法において、モデルは、歪がある入力信号に基づいて変換される。これによって、特に低いS/N比に対して性能が悪化し、元のモデルによって達成できた筈の最適な性能を得ることが難しくなる。さらに、元のモデルと入力信号との不整合が顕著である場合、(これらが統計的に近接するとしても)信号及び/又はモデルの誤った方向への変換のリスクが増大する。このような事態は、例えば、入力信号が低い信号対雑音比を有する場合に生じ、元の信号を確実に推定することが困難となる。
【0010】
本発明の目的は、特に悪条件の下で音声処理を向上させることが出来る音声処理方法及び音声処理システムを提供することである。
【0011】
【課題を解決するための手段】
本発明の目的を達成するために、劣化した音声入力信号を処理する方法は、
・前記劣化した音声入力信号を受信するステップと、
・当該受信した入力信号の信号対雑音比又は帯域幅を含む状態を推定するステップと、
・前記推定された信号状態に対応する処理モデルを選択するステップと、
・前記受信した入力信号に基づいて元々発声した音声信号を推定するステップと、
・当該選択されたモデルに応じて当該推定された元の信号を処理するステップと、
・処理結果を出力するステップと、を有する。
【0012】
本発明による方法では、当該信号の状態(例えば、S/N比又は帯域幅)の最初の推定から始まり、処理モデルを選択する。この場合、新たなモデルを、推定された信号状態の関数とする。好ましくは、信号状態に対して最適にトレーニングされたモデルを選択する。また、推定を、元々発声した音声から行う。適切なモデルの選択と元の音声の推定の双方を行うことによって、処理精度が、「プッシュプル」で向上する。当該既知のシステムにおいては、現在のモデルは新たなモデルに変換され、この場合、当該変換を、入力信号Y(Λy=Gη(Λx))の関数としている。本発明による方法では、モデル変換を行わず、モデルの劣化を回避する。モデル整合に代えて、推定された信号状態を用いる。
【0013】
従属請求項2に記載したように、元々発声した音声の推定は、所定の処理モデルΛxに基づく。好ましくは、当該推定は、最尤推定(Maximum Likelihood Estimation;MLE)に基づくのが良い。例えば、米国特許出願に係る文献のUS5,727,124のMELアプローチを用いることができ、この場合、推定された元の音声
は、
によって与えられる。ここで、パラメータvは、
によって与えられる。
【0014】
従属請求項3に記載したように、元の音声を推定するために用いられる処理モデルは、推定された信号状態ζに整合するために選択されたモデルΛx(ζ)である。このようにして、元の音声を推定する精度が向上する。
【0015】
従属請求項4に記載したように、繰返し手順を用いる。この場合、各繰返しにおいて、信号状態が再推定され、新たなモデルが、新たな信号状態に基づいて選択され、新たな推定が、(そのとき選択したモデルを用いて)元の音声から行われる。最初に選択されたモデルは、更なるブートストラップ動作に対する識別シードとしての役割を果たす。基準に適合した(例えば、そのとき選択したモデルによる認識は十分であり、以前の認識によって得られた尤度と比べてこれ以上向上しない(例えば悪化する))ときに、当該繰返しは停止する。繰返しプロセスは、信号の劣化の控えめな推定(例えば、比較的高いS/N比)とともに開始し、この場合、各繰返しにおいて、信号状態は劣化する(例えば、さらに低いS/N比を選択する)。
【0016】
本発明の目的に適合するために、劣化した音声入力信号を処理する音声処理システムは、
・前記劣化した音声入力信号を受信する入力部と、
・当該受信した入力信号の信号対雑音比又は帯域幅を含む状態を推定する手段と、
・当該推定された信号状態に対応する処理モデルを選択する手段と、
・当該受信した入力信号に基づいて元々発声した音声信号を推定する手段と、
・当該選択されたモデルに応じて当該推定された元の信号を処理する手段と、
・処理結果を出力する出力部と、を有する。
【0017】
以下、本発明のこれらの態様及び他の態様を、図面に示される実施例を参照して明らかとなる。
【0018】
【発明の実施の形態】
音声認識システムの概要
大語彙連続音声認識(large vocabulary continuous speech recognition)システムのような音声認識システムは、大抵は、入力パターンを認識するために認識モデルの集合を使用する。例えば、音響モデル及び語彙を用いて単語を認識し、言語モデルを用いて基本的な認識結果を向上させるようにしている。図1は、大語彙連続音声認識システム100の代表的な構造を示している(L. Rabiner, B-H. Juang,"Fundamentals of speech recognition", Prentice Hall 1993, 434-454頁参照)。システム及び認識方法を説明するに当たり、以下の定義を用いる。
Λx:トレーニングされた音声モデルのセット
X:モデルΛxに整合する元の音声
Y:テスト音声
Λy:テスト環境に対する整合モデル
W:ワードシーケンス
S:ワード、シラブル、サブワードユニット、ステート若しくは混合成分又は他の適切な表示となることのできる復号後のシーケンス
【0019】
システム100は、スペクトル分析サブシステム110及びユニット整合サブシステム120を有する。スペクトル分析サブシステム110において、音声入力信号(SIS)は、スペクトル的及び/又は時間的に分析されて、特徴を表すベクトル(観測ベクトルOV)を計算する。代表的には、音声信号は、例えば、前強調(pre-emphasis)を行うことによって、デジタル化(例えば6.67kHzのレートでサンプリング)され及び前処理される。連続したサンプルは、例えば、32ミリ秒の音声信号に対応するフレームにグループ化(ブロック化)される。連続したフレームは、例えば16ミリ秒、部分的に重なり合う。場合によっては、線形予測符号化(LPC;Linear Predictive Coding)スペクトル分析法を用いて、特徴を表すベクトル(観測ベクトル)をフレーム毎に計算する。この特徴ベクトルは、例えば、24,32又は63個の成分を有しうる。大語彙連続音声認識に対する標準的なアプローチは、音声生成の確率モデルを仮定することであり、これによって、特定のワードシーケンスW=w1w2w3...wqが、音響観測ベクトルY=y1y2y3...yTのシーケンスを発生する。認識誤差は、(時間t=1,...,Tに亘る)観測ベクトルy 1y2y3...yT の観測シーケンスを最も高い確率で生じさせたワードw 1w2w3...wq のシーケンスを判定することによって統計的に最小化することが出来る。この場合、当該観測ベクトルは、スペクトル分析サブシステム110の結果である。この結果、全てのあり得るワードシーケンスWに対して、最大事後確率(maximum a posteriori probability)のmax P(W|Y, Λx)を判定することになる。ベイズ定理を条件付き確率P(W|Y, Λx)に適用することによって、
が得られる。P(Y)がWに依存しないので、最もあり得るワードシーケンスが、
によって与えられる。
【0020】
ユニット整合サブシステム120において、音響モデルは、式(1)の第1項を提供する。この音響モデルを用いて、所定のワードストリングWに対する観測ベクトルYのシーケンスの確率P(Y|W)を推定する。これは大語彙システムに対して、大抵、音声認識ユニットの在庫(inventory)に対して当該観測ベクトルを整合させることによって実行される。音声認識ユニットは、音響基準のシーケンスで表される。種々の形態の音声認識ユニットを用いることが出来る。一例として、ワード全体はおろかワード群も、1つの音声認識ユニットによって表現することが出来る。ワードモデル(WM)は、所定の語彙のワード毎に、音響基準のシーケンスの複写を提供する。殆どの小語彙音声認識システムにおいて、ワード全体は、音声認識ユニットによって表現され、この場合、当該ワードモデルと当該音声認識ユニットとの間には直接的な関係が存在する。例えば、比較的多数(例えば数百)ワードを認識するのに用いられる他の小語彙システム又は大語彙システムにおいて、単音や二重音や音節のような言語学ベースのサブワードユニット及びフェネン(fenenes)やフェノン(fenones)のような派生ユニットを用いることが出来る。このようなシステムに対して、ワードモデルは、語彙のワードに関連するサブワードユニットのシーケンスを記載する辞書134及び当該関連の音声認識ユニットの音響基準のシーケンスを記述するサブワードモデル132によって与えられる。ワードモデルコンポーザ136は、サブワードモデル132及び辞書134に基づいてワードモデルを構成する。
【0021】
図2Aは、全ワード音声認識ユニットに基づくシステムのためのワードモデル200を示しており、ここでは、示されたワードの音声認識ユニットは、10個の音響基準(201ないし210)のシーケンスを用いてモデル化される。図2Bは、サブワードユニットに基づくシステムのためのワードモデル220を示しており、ここでは、示されたワードは、3個のサブワードモデル(250,260及び270)のシーケンスによってモデル化され、サブワードモデルの各々は、4個の音響基準(251,252,253,254;261〜264;271〜274)のシーケンスを有する。図2に示したワードモデルは、確率論的なモデル音声信号に対して広く用いられている隠れマルコフモデル(HMM)に基づく。このモデルを用いて、各認識ユニット(ワードモデル又はサブワードモデル)は、普通はHMMによって特徴付けられ、そのパラメータは、データのトレーニングセットから推定される。大語彙音声認識システムのために、例えば、40個のサブワードユニットの限定セットが使用される。その理由は、さらに大きなユニットに対して十分にHMMをトレーニングするためには多数のトレーニングデータを必要とするからである。HMM状態は音響基準に対応する。基準をモデル化するのに種々の技術が知られており、それは、離散又は連続確率密度を含む。1つの特定の発声に関連する音響基準の各シーケンスは、発声の音響複写とも称される。HMM以外の他の認識技術を用いる場合、音響転写の詳細が相違することが分かる。
【0022】
図1のワードレベル整合システム130は、音声認識ユニットの全てのシーケンスに対して観測ベクトルを整合し、当該ベクトルとシーケンスとの間の整合の尤度を提供する。サブワードユニットが用いられる場合、サブワードユニットのあり得るシーケンスを辞書134中のシーケンスに限定するよう辞書134を用いることによって、当該整合に制約を課すことができる。これによって、当該結果をワードのあり得るシーケンスに減らす。
【0023】
さらに、言語モデル(LM)に基づいて当該整合にさらなる制約を課すセンテンスレベル整合システム140を使用して、調査された経路が、言語モデルによって特定されるような適切なシーケンスであるワードシーケンスに対応するものとなるようにしている。そのようなものとして、当該言語モデルは、式(1)の第2項P(W)を提供する。音声モデルの結果と言語モデルの結果と組み合わせることによって、認識されたセンテンス(RS;recognized sentence)152となるユニット整合サブシステム120の結果となる。パターン認識に用いられる言語モデルは、言語及び認識タスクの構文的及び/又は意味的な制約142を含みうる。構文的な制約に基づく言語モデルは、大抵、文法144と称される。当該言語モデルによって用いられる文法144は、原理的には
P(W) = P(w1)P(w2|w1).P(w3|w1w2)...P(wq| w1w2w3...wq)
によって与えられるワードシーケンスW=w1w2w3...wqの確率を提供する。実際には、所定の言語中の全てのワード及び全てのシーケンス長に対する条件付きワード確率を、確実に推定することは不可能なので、N−gramワードモデルが広く使用されている。N−gramモデルにおいて、項P(wj| w1w2w3...wj-1)はP(wj| wj-N+1...wj-1)によって近似される。実際には、バイグラム(bigram)又はトリグラム(trigram)が用いられる。トリグラムにおいて、項P(wj| w1w2w3...wj-1)はP(wj| wj-2wj-1)によって近似される。
【0024】
本発明による音声処理システムを、慣例的ハードウェアを用いて実現することが出来る。例えば、音声認識システムを、PCのようなコンピュータ上で実現し、この場合、音声入力は、マイクロホンを通じて受信されるとともに、慣例的なオーディオインターフェースカードによってディジタル化される。全ての付加的処理は、CPUによって実行されるソフトウェア処理の形態で行われる。特に、音声は、例えば、コンピュータにおける慣例的モデムを用いて電話接続を通じて受信可能である。音声処理はまた、例えば、DSPの周辺に組み込まれた専用のハードウェアを用いて実行することも出来る。
【0025】
発明の詳細な説明
本発明によれば、整合アルゴリズムを用いて、ロバスト音声認識のための整合された性能を得るようにしている。好ましくは、当該アルゴリズムを繰返し使用し、当該整合を、確率論的な整合(連続確率マッチング(Successive Stochastic Matching;SSM))に基づくものとしている。このアルゴリズムは、原理的には、劣化した信号状態を処理するのに使用される。特に、2つのパラメトリック形式について説明する。第1のものは、雑音のある音声認識のための「S/N比増分確率整合」(SNR-incremental stochastic matching;SISM)と呼ばれており、ここでは、S/N比は信号対雑音比を意味している。第2のものは、狭帯域音声の認識精度を向上させるとともに高品質マイクロホン音声からトレーニングされた音声モデルの性能に近づくための「帯域幅増分確率整合」(bandwidth-incremental stochastic matching;BISM)と呼ばれている。両形式のアルゴリズムを組み合わせることも出来る。アルゴリズムは、特に電話音声認識に適切である。但し、例えば、PCのような処理ユニットにマイクロホンを直接接続した音声認識に対してもアルゴリズムを使用することが出来る一方、この場合、当該信号状態が一般的に良好であるので、改善度が低い可能性がある。本発明によるアルゴリズムにおいては、良好な識別特性を有する、ブートストラップが行われ、好ましくは十分に事前にトレーニングされたモデルを用いて、当該認識、すなわちブートストラップ動作を改善するようにしている。好ましくは、これを各繰返しにおいて反復させられるものとするのが良い。音声認識の外に、(特に電話システムを通じた転送に対して)当該アルゴリズムを音声符号化のために用いることも出来る。この用途に対しては、ブートストラップコードブック/エンコーダを、ブートストラップモデル/認識装置の代わりに用いる。すなわち、Λx(ζ)は、音声認識モデルの代わりの符号化のためのブートストラップコードブックを表す。
【0026】
このアルゴリズムの繰返しバージョンは、以下の通りであり、図3に示す。
【0027】
初期化:
ステップ300:パラメータ初期化:
l=0(lは繰返し数を表す)
V(l)=v0 (v0は逆関数Fvのパラメータ集合である)
(Yは受信した入力音声(テスト音声)であり、
は最初に発生した音声の推定値である)
最初の信号状態ζ(l)の推定(ζは、S/N比又は帯域幅のような信号状態を表す)
【0028】
反復:
ステップ310:例えば、格納されたモデル320の集合から、整合されたブートストラップモデルΛx(ζ(l))を選択する。
ステップ330:当該音声を認識する。
の認識
ステップ340:予め設定された停止基準をチェックする。基準を満たす場合、停止するとともにSを出力する(350)。
ステップ360:vを推定する。
ステップ370:元の音声を推定する。
ステップ380:信号状態の推定値を増加する。
ζ(l+1)=ζ(l)+δ,(δ>0)
反復:l←l+1とし、ステップ310へ移行する。
【0029】
ステップ310において、信号状態ζ(l)に整合するブートストラップモデルを選択する。好ましくは、本システムは、各々が異なる信号状態につき最適化された複数のモデルを有する。そして、選択は、信号状態ζ(l)に関連したモデルのロードを伴う。そのようなモデルの集合を、同一の元の「クリーンな」音声記録から形成することが出来る。例えば、SISMアルゴリズムに対して、ホワイトガウス雑音(white Gaussian-noise)をクリーン音声に付加して、信号に所望のS/N比となるまで品質を落とし、その後、その品質の低下された音声信号から認識モデルをトレーニングするようにしてもよい。そして、モデルは、S/N比(ζ)に関連して格納される。これは、複数のS/N比に対して行うことができ、その結果、再トレーニングされたモデルの集合となる。当然、音声の記録を種々の信号状態に基づいて行うことが出来る。この場合、モデルは、品質の低下させられた記録からではなく元の記録から形成される。
【0030】
ステップ340において、音声認識のため、当該停止基準は、現在のモデルによる認識結果に基づくようにするのが好ましい。認識結果が(例えば、信頼基準に基づいて)十分であり、又は尤度がこれ以上増大しない場合、繰返しを停止させるようにしてもよい。
【0031】
ステップ360及び370において、元の音声の推定は逆関数Fvに基づくものとすることが分かる。原理的には、他の適切な方法を用いて、好ましくは現在選択しているモデルΛ x (ζ)を用いて、現在の音声信号を改善された推定値にマッピングする。
【0032】
当該アルゴリズムの非反復バージョンでは、ステップ370を1回だけ実行すれば十分である。これは、例えば以下のシーケンスを実行することによって達成可能である。すなわち、ステップ300,310,360,370,380,310及び330を実行し、その後、当該認識結果を出力する(ステップ350)ことによって行う。
【0033】
一般的な特性
1.ζ'≧ζに対して、
P{Y(ζ')|Λx(ζ')}≧P{Y(ζ)|Λx(ζ)}
となる。ここで、ζ及びζ'は、信号状態(例えば、S/N比又は帯域幅)を表し、Y(ζ)は、信号状態ζにおけるテスト音声を表す。この特性は、例えば、高いS/N比又は広い帯域幅の整合した性能が低いS/N比又は狭帯域幅の一方よりも良好であることを意味する。
2.ζ'≠ζに対して
P{Y(ζ)|Λx(ζ)}≧P{Y(ζ)|Λx(ζ')}
となる。ここで、ζ及びζ'は、この特性におけるS/N比のみを表す。
【0034】
SSMの特性
1.上記2つの特性によれば、Pの極大は
に位置し、
である。これは、整合した性能を克服出来ることを意味する。
2.復号化されたシーケンスS={Si, 1 <= i <= T}は、整合したブートストラップモデルを自動的に選択することによって、各繰返しステップで最適な方策であると期待することが出来る。
3.互いに相違する信号状態(SISMでは異なるS/N比又はBISMでは異なる帯域幅)で十分トレーニングされたモデルΛx(ζ)は、識別を行うためのブートストラップモデルとなる。
【0035】
最初のジョイントブートストラップ動作は、SSMアルゴリズムの中心的な特徴となる。最初のステップにおいて、整合したモデルを、他のブートストラップ動作に対する識別シードとして選択する。これは、最高の識別パワーによる最適な初期化となる。それは、当該シードが最尤推定の意義に基づいてモデルと入力信号との間の最小の不整合を得ることができることを意味する。ブートストラップステップにおいて、このモデルは、S/N比又は帯域幅、すなわち、Λx(ζ)のような信号状態の関数によって変化し、テスト音声も、(例えば、逆関数Fvによって)元の音声の推定値に更新される。それは、SISMではより高いS/N比又はBISMではより広い帯域幅の認識性能に対する「プッシュプル」を示唆するものである。好ましくは、ブートストラップ動作を繰返し実行する。これにより、信号状態を、特徴及びモデルの相互の最適化に対して連続的に向上させる(例えば、S/N比又は帯域幅を増大させる)ことが出来る。
【0036】
SSMアルゴリズムでは、ステップ300において、整合したブートスラップモデルを識別シードとして選択するため、初期推定を、信号状態(SISMではS/N比又はBISMでは帯域幅)につき行う。この初期推定は、特定の用途に対する代表的な状態に基づくものとすることが出来る。信号の(簡単な)テストを行ってもよい。最適な状態/混合シーケンスは、各繰返しステップにおいて整合されたブートストラップモデルを通じて得ることが出来る。図4には、SSMアルゴリズムを用いた音声認識システムの模範的ブロック図が示される。ブロック410において、受信した音声信号から特徴を抽出する。これを、図1のスペクトル分析サブシステム110で説明したようにして行うことができる。ブロック420において、信号状態の推定を行う。これは、そのような状態の既知の方法による測定/推定に基づくものとしてもよいし、或いは簡単に控えめな推定(所定の用途に対して普通は最小限に存在するので単に普通の劣化)のものとしてもよい。ブロック430において、音声は、(例えば、図1のユニット整合サブシステム120のために説明したような)通常の方法で処理される。この場合、本発明によれば、推定された信号状態を整合させるブートストラップモデルは、互いに相違する信号状態に対するモデルの集合を備える記憶部440から得られる。図3に対し説明したように、推定を元の音声入力につき行うように当該処理が変更される。さらに、図3の繰返し手順を続けてもよい。
【0037】
BISMを、帯域幅増分アプローチを用いた狭帯域音声認識に適用して、マイクロホン音声からトレーニングされた高品質のモデルの精度を得ることが出来る。雑音のない状態でも電話音声の性能がマイクロホン音声よりも悪いことは良く知られている。BISMは、電話音声認識精度の伝統的な性能を超えることが出来る。有利なのは、SISMアルゴリズムとBISMアルゴリズムとを、雑音のある狭帯域音声認識のために組み合わせることである。図5は、両アルゴリズムを用いた音声認識システムのブロック図を示している。例えば雑音のある電話音声の認識に適した本実施例では、SISMアルゴリズム及びBISMアルゴリズムを順次に行い、電話ブートストラップモデルを用いて雑音の影響を除去するとともに、マイクロホンブートストラップモデルを用いて高品質のマイクロホンモデルの性能に近づけるようにする。ブロック500において、受信した音声信号から特徴を抽出する。これは、図1のスペクトル分析サブシステム110で説明したようにして行うことができる。ブロック510において、2つの信号状態につき推定が行われる。本例では、S/N比及び信号帯域幅につき推定を行う。この推定は、そのような状態の既知の方法による測定/推定に基づくものとしてもよいし、或いは簡単に控えめな推定(所定の用途に対して普通は最小限に存在するので単に普通の劣化)のものとしてもよい。ブロック520において、音声は、(例えば、図1のユニット整合サブシステム120で説明したような)通常の方法で処理され、この場合、本発明によれば、推定された信号状態に整合するブートストラップモデルは、互いに相違する信号状態に対するモデルの集合を備える記憶部530から得られる。図示の例では、ブートストラップモデルは、入力信号の互いに相違するS/N比に対して最適化される。図3で説明したように、推定を元の音声入力につき行うようにも処理が変更される。さらに、図3の繰返し手順を続けてもよい。このようにして、このS/N比を仮定し、このS/N比で処理するのに適したモデルを配置するとともに、入力信号を、推定された元の信号に変換する。これに続いて、同一手順を当該帯域幅に対してブロック540で用い、この場合、種々の帯域幅に対するモデルは記憶部550から検索される。本例では、記憶部530及び550を統合することも出来る。例えば、サポートされたS/N比レベルの各々に対して、各々が異なる帯域幅を有するモデルの集合を格納してもよい。これによって、両方の最適化を実行するための簡単な処理が可能となる。例えば、デフォルト又は推定された帯域幅を仮定すると、先ず、S/N比に対しての最も適切なモデルが、好ましくは繰返しによって判定される。この結果、そのS/N比に対するモデルの集合を識別することになる。この場合、各モデルは帯域幅が互いに相違する。そして、次のプロセスにおいて、帯域幅に最も整合するモデルを、そのモデルの集合から選択する。2つの処理ステップを順次に行う代わりに、統合した手順を行うことも出来ることが分かる。
【0038】
SSMアルゴリズムを、ブートストラップモデル/認識装置の代わりにブートストラップコードブック/エンコーダを用いることによって、ロバスト音声符号化に適用することが出来る。すなわち、Λx(ζ)はブートストラップコードブックを表す。SISMアルゴリズムは、悪環境においてマイクロホン又は電話音声符号化の品質を高いS/N比レベルまで向上させることが出来る。また、BISMアルゴリズムも、電話音声符号化をマイクロホン(又はより広帯域の)品質まで向上させることが出来る。それは、電話音声符号化のためにBISMアルゴリズムを用いることによって電話網を通じてマイクロホン品質の符号化音声を伝送することを意味する。何故なら、電話音声をマイクロホンコードブックを用いることによって復号することが出来るからである。音声符号化のためのSSMの実現は、ブートストラップモデルをブートストラップコードブックにより置換することによる認識について説明したものと同様である。図5のブロック図は、雑音のある電話音声符号化にも当てはまる。その出力はコードブックエントリである。
【0039】
好ましくは、発散に基づくモデル分離法(divergence-based model separation method)を、SSMアルゴリズムにおけるブートストラップモデルの識別トレーニングのために用いるのが良い。SSMアルゴリズムを実現するために、ブートストラップモデルを、雑音のあるデータから再トレーニングするのではなく雑音のないものから適合させる。その理由は、雑音のある音声データを予め十分に収集することは容易でないからである。好適な方法は、発散に基づく非分類関数(divergence-based misclassification function)に基づいており、この場合、相対的な発散は、カルバック−ライブラ(Kullback-Leibler: KL)情報(量)から導かれる。分布q(x)の他の分布p(x)に対するKL情報(すなわちKL発散)は、
として適正に規定される。KL情報は零以上であり、2つの分布が同一であるときには
DKL(p,q)=0
となる。p及びqが単一のガウス分布である場合、上記式は、閉形式
を有する。ここで、μp及びμq は、pの分布及びqの分布の平均であり、σp 2及びσq 2 はそれぞれの変数である。連続的な密度HMM(CDHMM)に対して、混成したガウス密度は、状態観測確率密度関数(pdf;probability density function)のために広く用いられる。したがって、状態間で平均したKL情報は、
と規定される。ここで、Mp及びMqは、状態P及びQの混合数である。次に、2つのCDHMM間の「閉じ方」を測定するために発散に基づく非分類関数が次のように公式化される。
Nは、モデルの状態の数とし、si,Λは、モデルのi番目の状態を表す。KL情報は対称ではない。故に、2つのモデル間の対称的な相対的発散を次のように規定する。
【0040】
相対的分散
は、2つのモデルΛ1及びΛ2 の状態内(intra-state)距離と状態間(inter-state)距離との差を測定することである。相対的分散が小さくなるほど、2つのモデルは互いに近接する。損失関数は、
と規定され、
となる。ブートストラップモデルの識別トレーニングのために2つの用途がある。
Λ1=Λ2=Λ:この用途は、モデルの識別向上のためのものである。この場合、モデルパラメータは、最小の相対的発散に基づいたモデルスペースにおいて調整される。それは、最小の誤りレートを伴うものでもある。モデルパラメータは、
によって適応形態で調整可能である。ここで、nを繰返し数とし、Unを正の有限行列(positive definite matrix)としている。
【0041】
Λ1≠Λ2:このアプローチは、識別適応と称される。モデルΛ2の識別パワーがΛ1のものよりも良好である、例えば、互いに相違するS/N比レベルであると仮定する。
によって、Λ1の識別パワーをΛ2の識別パワーに向かうよう向上するような適応を行うことが出来る。
【0042】
発散に基づくモデル分離法の詳細な式
平均ベクトルの識別調整は以下のようになる。
この場合、
また、標準偏差の調整は以下のようになる。
この場合、
及び
となる。ここで、Mi,Λは、モデルΛのi番目の状態の混合数を表し、μijd,Λ及びσijd,Λは、それぞれ、モデルΛのd次の、j番目の混合密度の、そしてi番目の状態に係る標準偏差を表す。
【0043】
結果
追加した雑音状態の下で適応され再トレーニングされたモデルの主要な性能限界を推定するために実験を行った。適応されたモデルは、隠れマルコフモデル(HMM)のパラメータを、雑音のないものから十分に変化させて、雑音のあるテスト環境に整合させる。再トレーニングされたモデルは、整合した信号対雑音比(S/N比)環境においてホワイトガウス雑音で品質の落とされた音声から十分にトレーニングされる。上述したように、このような再トレーニングされたモデルは、SIMDアルゴリズムで用いることが出来る。適応させられたモデル及び再トレーニングされたモデルの可能性及び限界を研究した。その結果は、本発明による再トレーニングされたモデルを使用するという概念が適用されたモデルを用いた場合よりも優れた性能を奏することを示している。これは、任意の状態に当てはまるが、低いS/N比に対して特に当てはまる。その結果は、再トレーニングされたモデルに対する電話誤りレートが適用されたモデルに対する場合よりも約6%良好となることを示している。再トレーニングされたモデルは、15dBのS/N比に対して6%だけワード誤りレートを向上させ、0dBのS/N比に対して18%もワード誤りレートを向上させることも確認された。詳細を以下に示す。
【0044】
モデル再トレーニング技術を、既知のモデル適応/変換の技術と比較した。この既知の技術において、モデルをテスト環境に適応させる。結果的に得られる性能は、状態−フレーム整合に依存し、場合によっては整合された状態における性能によって制約される。最尤線形回帰(Maximun likelihood linear regression; MLLR)を用いて、当該モデルを新たな環境に適応させる。確率論的整合(SM;stochastic matching)は、環境的な変化に整合するために特徴又はモデルを変更させる。
【0045】
モデル適応/変換のためのアルゴリズムの主な制約を、米国特許出願に係る文献のUS5,727,124に対して上述したように十分に適応させられたモデルと本発明によるトレーニングされたモデルとを用いることによって研究した。十分に適応させられたモデルを用いて、当該付加的ノイズをモデル再推定のために正確に推定出来ることをシミュレートするようにしている。十分に適応させられたモデルの実験的なセットアップは次の通りである。
【0046】
ステップ1:トレーニングの集成(training corpus)の雑音のない音声を、雑音のないモデルによってセグメント化し、パスを、雑音のあるモデルトレーニングに対して保持する。
【0047】
ステップ2:追加した雑音の異なるレベルをテスト発声に追加する。全てのHMMパラメータを、さらなる繰返しなしで再推定する。
【0048】
再トレーニングしたモデルは、雑音のないモデルのトレーニングのような整合したS/N比環境において、雑音のある音声から十分にトレーニングされる。ホワイトガウス雑音を、互いに相違する全S/N比レベルでテスト発声に付加した。全S/N比を以下のように規定する。
ここで、σx 2を、テスト音声の発声の変数とし、σn 2を、付加した雑音の変数としている。
【0049】
実験は、主に個別のフレーズ集成である「日本電子産業開発協会の共通音声データ集成」(JSDC)において行われた。JSDC集成は、ダイナミックマイクロホンを用いて記録され、16kHzでサンプルされた。音声に富んだJSDC都市名副集成(subcorpus)を用いて、電話に基づくHMMをトレーニングした。実験において、35個の単音HMMを、モデル毎に3状態で、状態毎に公称32個のラプラシアン混成密度(Laplaian mixture density)で配置した。63ワードの語彙を有するJSDC制御ワード集成を、テストマテリアルとして用いた。
【0050】
自由な発声の復号化(free-phone decoding)及びワード認識のための実験を行った。結果的に得られる発声及びワード誤りレートを図6及び図7にそれぞれ示す。水平方向に、S/N比をdBで示す。垂直方向に各誤りレートを(%で)示す。以下の曲線が示される。
【0051】
1.低下した性能:各モデルを雑音のないものとし、テストマテリアルを、付加したホワイトガウス雑音によって悪化させる。この場合、雑音がない(clean)とは、雑音が付加されないことを意味する。
【0052】
2.十分に適応させられた性能:各モデルは、既知の雑音レベルに基づいて雑音のないものから適応させられ、テストマテリアルは、同一S/N比レベルで悪化させられる。
【0053】
3.再トレーニングされた性能:各モデルは、既知のS/N比環境で十分に再トレーニングされ、テストマテリアルは、同一S/N比レベルで悪化させられる。
【0054】
再トレーニングしたモデルは、常に、任意の状態、特に低いS/N比レベルの下で適応モデルよりも良好に機能することが判明した。図6は、再トレーニングされたモデルの発声誤りレートが適応モデルに対するよりも約6%良好であることを示している。図7から、再トレーニングしたモデルは、15dBのS/N比についてはワード誤りレートが6%向上し、0dBのS/N比についてはワード誤りレートが18%も向上することも確認することができる。
【0055】
ASJ(Acoustic Society of Japan)によって提供されるJNAS(Japanese Newspaper Article Sentence)において更なる実験を行った。JNASは、毎日新聞(100文)及びATR 503 PB センテンス(50個の音声的にバランスがとれた文)からの抜粋を読む306人の話者(153人の男性及び153人の女性)を含む。上記実験におけるが如く、ホワイトガウス雑音は、互いに相違するS/N比レベルでテスト発声に付加された。この実験において、35個の文脈に依存しない単音HMMは、我々の実験では、モデルごとに3状態、状態毎に公称16個のガウス混成密度で配置された。日本語の音声認識は、音節トポロジーの制約を伴って実行された。図8に示すような、さらなる実験は、SISMアルゴリズムが再トレーニングされた性能を克服出来ることを示し、その状態は大抵、全てのS/N比レベルの上限として観察される。水平方向にS/N比をdBで示し、垂直方向にそれぞれの誤りレートを(%で)示している。
【図面の簡単な説明】
【図1】本発明を用いることが出来る慣例的な音声処理システムのブロック図。
【図2a】音声処理に用いられる慣例的なワードモデルを示す図。
【図2b】音声処理に用いられる慣例的なワードモデルを示す図。
【図3】本発明による方法の繰返しの実施例を示す図。
【図4】本発明による音声処理システムのブロック図。
【図5】S/N比及び帯域幅劣化を克服するために本発明による方法を2回実行する音声処理システムのブロック図。
【図6】本発明による方法及びシステムによって得られた結果を示す図。
【図7】本発明による方法及びシステムによって得られた結果を示す図。
【図8】本発明による方法及びシステムによって得られた結果を示す図。
【符号の説明】
100:システム、
110:スペクトル分析サブシステム、
120:ユニット整合サブシステム、
130:ワードレベル整合システム、
132:サブワードモデル、
134:辞書、
136:ワードモデルコンポーザ、
140:センテンスレベル整合システム、
142:制約、
144:文法、
152:センテンス
Claims (13)
- 劣化した音声入力信号を処理する方法であって、
・前記劣化した音声入力信号を受信するステップと、
・当該受信した入力信号の信号対雑音比及び帯域幅の少なくとも一方を有する信号状態を推定するステップと、
・当該推定された信号状態に対応する処理モデルを選択するステップであって、当該推定が前記信号対雑音比に係る場合はS/N比増分確率整合(SISM)が選択され、当該推定が帯域幅に係る場合は帯域幅増分確率整合(BISM)が選択されるようにしたステップと、
・前記受信した入力信号に基づいて元々発声した音声信号を推定するステップと、
・当該選択した処理モデルに従って当該推定した元々発声した音声信号を処理するステップと、
を含み、当該処理は、当該推定された信号状態の関数により前記処理モデルを変えることを含む、
方法。 - 請求項1に記載の方法であって、前記元々発声した音声信号を推定するステップは、所定の処理モデルが付与される、最も高い可能性で発声された音声信号を判定するステップを含む、方法。
- 請求項2に記載の方法であって、前記所定の処理モデルは、当該推定された信号状態に対応するものとして選択した処理モデルである、方法。
- 請求項3に記載の方法であって、
・当該受信した入力信号の信号状態の新たな推定を実行するステップと、
・当該新たに推定した信号状態に対応する処理モデルを選択するステップと、
・当該選択した処理モデルが付与される、直前の繰返しに係る当該推定された元の信号に基づいて、元々発声した音声信号を推定するステップと、
・当該選択したモデルに応じて当該推定された元の信号を処理するステップと、を繰返して実行し、
所定の状態を満たしたときには当該繰返しを終了する、方法。 - 請求項4に記載の方法であって、処理結果がこれ以上向上しない場合には前記繰返しを終了する、方法。
- 請求項4に記載の方法であって、前記信号状態の新たな推定を実行するステップは、より劣化した信号状態を推定するステップを含む、方法。
- 請求項1に記載の方法であって、当該音声処理は、音声認識を伴い、前記処理モデルは、音声認識モデルである、方法。
- 請求項1に記載の方法であって、前記音声処理は、音声符号化を伴い、前記処理モデルは、音声コードブック/エンコーダである、方法。
- 劣化した音声入力信号を処理する音声処理システムであって、
・前記劣化した音声入力信号を受信する入力部と、
・前記受信した入力信号の信号状態を推定する手段であって、前記信号状態が、前記受信した入力信号の信号対雑音比及び帯域幅の双方を含む、手段と、
・当該推定された信号状態に対応する処理モデルを選択する手段であって、前記信号対雑音比に関してS/N比増分確率整合(SISM)が選択され、前記帯域幅に関して帯域幅増分確率整合(BISM)が選択される、手段と、
・前記受信した入力信号に基づいて元々発声した音声信号を推定する手段と、
・当該選択した処理モデルに従って当該推定した元の信号を処理する処理手段であって、当該推定された信号状態の関数により前記処理モデルを変えるための手段を含む処理手段と、
を含む、
音声処理システム。 - 請求項1に記載の方法であって、所与のモデルの識別トレーニングに対する発散に基づくモデルの区別によって前記処理モデルを発生させるステップを含み、当該区別は、
・発散に基づく識別関数を推定するステップと、
・誤りレートの関数の最小化に基づいて、モデルパラメータに対する適応学習ステップを実行するステップと、
を含む、方法。 - 請求項10に記載の方法であって、前記識別関数は、入力音声データによって動作する代わりに相対的発散から直接的に得られる、方法。
- 請求項1に記載の方法であって、当該推定された信号状態が、前記信号対雑音比及び前記帯域幅の双方を含み、前記処理モデルの前記選択が、前記信号対雑音比に関する前記S/N比増分確率整合及び前記帯域幅に関する前記帯域幅増分確率整合の双方を選択することを含む、方法。
- 劣化した音声入力信号を処理するための音声処理システムであって、
・前記劣化した音声入力信号を受信し、当該受信入力信号の信号対雑音比及び帯域幅の少なくとも一方を含む当該受信入力信号の信号状態を推定し、当該推定された信号状態に対応する処理モデルを選択し、当該受信入力信号に基づいて元々発声した音声信号を推定し、当該選択された処理モデルに応じて当該推定された元の信号を処理するように、当該処理には、当該推定された信号状態の関数により当該処理モデルを変化させるための手段が含まれるようにして、構成されたプロセッサであって、前記処理モデルの前記選択は、前記信号状態の推定が前記信号対雑音比に係る場合はS/N比増分確率整合(SISM)を選択し、前記信号状態の推定が前記帯域幅に係る場合は帯域幅増分確率整合(BISM)を選択することを含む、プロセッサ
を含むシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP99202136.0 | 1999-07-01 | ||
EP99202136 | 1999-07-01 | ||
PCT/EP2000/005963 WO2001003113A1 (en) | 1999-07-01 | 2000-06-27 | Robust speech processing from noisy speech models |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003504653A JP2003504653A (ja) | 2003-02-04 |
JP2003504653A5 JP2003504653A5 (ja) | 2011-01-27 |
JP4818556B2 true JP4818556B2 (ja) | 2011-11-16 |
Family
ID=8240395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001508432A Expired - Lifetime JP4818556B2 (ja) | 1999-07-01 | 2000-06-27 | 確率論的ロバスト音声処理 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6865531B1 (ja) |
EP (1) | EP1116219B1 (ja) |
JP (1) | JP4818556B2 (ja) |
DE (1) | DE60018696T2 (ja) |
WO (1) | WO2001003113A1 (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7587321B2 (en) * | 2001-05-08 | 2009-09-08 | Intel Corporation | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system |
US7174292B2 (en) | 2002-05-20 | 2007-02-06 | Microsoft Corporation | Method of determining uncertainty associated with acoustic distortion-based noise reduction |
US7107210B2 (en) * | 2002-05-20 | 2006-09-12 | Microsoft Corporation | Method of noise reduction based on dynamic aspects of speech |
US7103540B2 (en) * | 2002-05-20 | 2006-09-05 | Microsoft Corporation | Method of pattern recognition using noise reduction uncertainty |
US20040267530A1 (en) * | 2002-11-21 | 2004-12-30 | Chuang He | Discriminative training of hidden Markov models for continuous speech recognition |
US20040181409A1 (en) * | 2003-03-11 | 2004-09-16 | Yifan Gong | Speech recognition using model parameters dependent on acoustic environment |
JPWO2007080886A1 (ja) * | 2006-01-11 | 2009-06-11 | 日本電気株式会社 | 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム |
JP5088701B2 (ja) * | 2006-05-31 | 2012-12-05 | 日本電気株式会社 | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム |
US7885812B2 (en) * | 2006-11-15 | 2011-02-08 | Microsoft Corporation | Joint training of feature extraction and acoustic model parameters for speech recognition |
US20080243503A1 (en) * | 2007-03-30 | 2008-10-02 | Microsoft Corporation | Minimum divergence based discriminative training for pattern recognition |
US8275615B2 (en) * | 2007-07-13 | 2012-09-25 | International Business Machines Corporation | Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation |
US8160878B2 (en) * | 2008-09-16 | 2012-04-17 | Microsoft Corporation | Piecewise-based variable-parameter Hidden Markov Models and the training thereof |
GB2464093B (en) * | 2008-09-29 | 2011-03-09 | Toshiba Res Europ Ltd | A speech recognition method |
EP2696964A2 (en) | 2011-04-13 | 2014-02-19 | MAN OIL Group AG | Liquid products and method for emulsifying oil, and use thereof in the treatment of oil contaminations |
TWI475557B (zh) * | 2012-10-31 | 2015-03-01 | Acer Inc | 音訊處理裝置 |
CN109346097B (zh) * | 2018-03-30 | 2023-07-14 | 上海大学 | 一种基于Kullback-Leibler差异的语音增强方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04275600A (ja) * | 1991-03-01 | 1992-10-01 | Ricoh Co Ltd | 音声認識装置 |
JPH0566790A (ja) * | 1991-09-10 | 1993-03-19 | Oki Electric Ind Co Ltd | 音声認識方法 |
JPH05165492A (ja) * | 1991-12-12 | 1993-07-02 | Hitachi Ltd | 音声認識装置 |
JPH06236196A (ja) * | 1993-02-08 | 1994-08-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法および装置 |
JPH06282297A (ja) * | 1993-03-26 | 1994-10-07 | Idou Tsushin Syst Kaihatsu Kk | 音声符号化方式 |
JPH06289891A (ja) * | 1993-04-02 | 1994-10-18 | Mitsubishi Electric Corp | 音声認識装置 |
JPH08110800A (ja) * | 1994-10-12 | 1996-04-30 | Fujitsu Ltd | A−b−S法による高能率音声符号化方式 |
JPH08320698A (ja) * | 1995-05-23 | 1996-12-03 | Clarion Co Ltd | 音声認識装置 |
JPH09258768A (ja) * | 1996-03-25 | 1997-10-03 | Mitsubishi Electric Corp | 騒音下音声認識装置及び騒音下音声認識方法 |
JPH1063293A (ja) * | 1996-08-23 | 1998-03-06 | Kokusai Denshin Denwa Co Ltd <Kdd> | 電話音声認識装置 |
JPH1097278A (ja) * | 1996-09-20 | 1998-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法および装置 |
JPH10149191A (ja) * | 1996-09-20 | 1998-06-02 | Nippon Telegr & Teleph Corp <Ntt> | モデル適応方法、装置およびその記憶媒体 |
WO1999034354A1 (en) * | 1997-12-24 | 1999-07-08 | Mitsubishi Denki Kabushiki Kaisha | Sound encoding method and sound decoding method, and sound encoding device and sound decoding device |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4325404C2 (de) * | 1993-07-29 | 2002-04-11 | Tenovis Gmbh & Co Kg | Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen |
US5727124A (en) | 1994-06-21 | 1998-03-10 | Lucent Technologies, Inc. | Method of and apparatus for signal recognition that compensates for mismatching |
US6067517A (en) * | 1996-02-02 | 2000-05-23 | International Business Machines Corporation | Transcription of speech data with segments from acoustically dissimilar environments |
US5960397A (en) * | 1997-05-27 | 1999-09-28 | At&T Corp | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6389393B1 (en) * | 1998-04-28 | 2002-05-14 | Texas Instruments Incorporated | Method of adapting speech recognition models for speaker, microphone, and noisy environment |
US6327565B1 (en) * | 1998-04-30 | 2001-12-04 | Matsushita Electric Industrial Co., Ltd. | Speaker and environment adaptation based on eigenvoices |
US6324510B1 (en) * | 1998-11-06 | 2001-11-27 | Lernout & Hauspie Speech Products N.V. | Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains |
US6275800B1 (en) * | 1999-02-23 | 2001-08-14 | Motorola, Inc. | Voice recognition system and method |
-
2000
- 2000-06-27 EP EP00951309A patent/EP1116219B1/en not_active Expired - Lifetime
- 2000-06-27 DE DE60018696T patent/DE60018696T2/de not_active Expired - Lifetime
- 2000-06-27 WO PCT/EP2000/005963 patent/WO2001003113A1/en active IP Right Grant
- 2000-06-27 JP JP2001508432A patent/JP4818556B2/ja not_active Expired - Lifetime
- 2000-06-27 US US09/786,290 patent/US6865531B1/en not_active Expired - Lifetime
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04275600A (ja) * | 1991-03-01 | 1992-10-01 | Ricoh Co Ltd | 音声認識装置 |
JPH0566790A (ja) * | 1991-09-10 | 1993-03-19 | Oki Electric Ind Co Ltd | 音声認識方法 |
JPH05165492A (ja) * | 1991-12-12 | 1993-07-02 | Hitachi Ltd | 音声認識装置 |
JPH06236196A (ja) * | 1993-02-08 | 1994-08-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法および装置 |
JPH06282297A (ja) * | 1993-03-26 | 1994-10-07 | Idou Tsushin Syst Kaihatsu Kk | 音声符号化方式 |
JPH06289891A (ja) * | 1993-04-02 | 1994-10-18 | Mitsubishi Electric Corp | 音声認識装置 |
JPH08110800A (ja) * | 1994-10-12 | 1996-04-30 | Fujitsu Ltd | A−b−S法による高能率音声符号化方式 |
JPH08320698A (ja) * | 1995-05-23 | 1996-12-03 | Clarion Co Ltd | 音声認識装置 |
JPH09258768A (ja) * | 1996-03-25 | 1997-10-03 | Mitsubishi Electric Corp | 騒音下音声認識装置及び騒音下音声認識方法 |
JPH1063293A (ja) * | 1996-08-23 | 1998-03-06 | Kokusai Denshin Denwa Co Ltd <Kdd> | 電話音声認識装置 |
JPH1097278A (ja) * | 1996-09-20 | 1998-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法および装置 |
JPH10149191A (ja) * | 1996-09-20 | 1998-06-02 | Nippon Telegr & Teleph Corp <Ntt> | モデル適応方法、装置およびその記憶媒体 |
WO1999034354A1 (en) * | 1997-12-24 | 1999-07-08 | Mitsubishi Denki Kabushiki Kaisha | Sound encoding method and sound decoding method, and sound encoding device and sound decoding device |
Also Published As
Publication number | Publication date |
---|---|
EP1116219A1 (en) | 2001-07-18 |
DE60018696D1 (de) | 2005-04-21 |
WO2001003113A1 (en) | 2001-01-11 |
JP2003504653A (ja) | 2003-02-04 |
EP1116219B1 (en) | 2005-03-16 |
DE60018696T2 (de) | 2006-04-06 |
US6865531B1 (en) | 2005-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Juvela et al. | Speech waveform synthesis from MFCC sequences with generative adversarial networks | |
US6292775B1 (en) | Speech processing system using format analysis | |
JP4818556B2 (ja) | 確率論的ロバスト音声処理 | |
Zen et al. | Continuous stochastic feature mapping based on trajectory HMMs | |
US5794192A (en) | Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech | |
JPH11242495A (ja) | 音声認識のための隠れマルコフ・モデルの適合技術 | |
JP2004504641A (ja) | 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置 | |
Morris | Enhancement and recognition of whispered speech | |
Surendran et al. | Nonlinear compensation for stochastic matching | |
Chien et al. | Telephone speech recognition based on Bayesian adaptation of hidden Markov models | |
JP5574344B2 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
Rabiner et al. | Hidden Markov models for speech recognition—strengths and limitations | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
Darch et al. | MAP prediction of formant frequencies and voicing class from MFCC vectors in noise | |
Huang et al. | An SNR-incremental stochastic matching algorithm for noisy speech recognition | |
Gibson et al. | Speech signal processing | |
Spanias et al. | Speech coding and speech recognition technologies: a review | |
Sarikaya | Robust and efficient techniques for speech recognition in noise | |
Addou et al. | A noise-robust front-end for distributed speech recognition in mobile communications | |
JP3589508B2 (ja) | 話者適応音声認識方法および話者適応音声認識装置 | |
Alatwi | Perceptually-Motivated Speech Parameters for Efficient Coding and Noise-Robust Cepstral-Based ASR | |
JPH0934485A (ja) | 自己学習話者適応音声認識方法 | |
JP3406672B2 (ja) | 話者適応化装置 | |
JP2003513320A (ja) | 音声信号からの雑音の消去 | |
Anastasakos et al. | Robust continuous speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070626 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100601 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100831 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100907 |
|
A524 | Written submission of copy of amendment under section 19 (pct) |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20101201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110404 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110426 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110509 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110802 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110831 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140909 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4818556 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |