JP4818556B2 - 確率論的ロバスト音声処理 - Google Patents

確率論的ロバスト音声処理 Download PDF

Info

Publication number
JP4818556B2
JP4818556B2 JP2001508432A JP2001508432A JP4818556B2 JP 4818556 B2 JP4818556 B2 JP 4818556B2 JP 2001508432 A JP2001508432 A JP 2001508432A JP 2001508432 A JP2001508432 A JP 2001508432A JP 4818556 B2 JP4818556 B2 JP 4818556B2
Authority
JP
Japan
Prior art keywords
signal
model
processing
speech
estimated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001508432A
Other languages
English (en)
Other versions
JP2003504653A5 (ja
JP2003504653A (ja
Inventor
チャオ−シー ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2003504653A publication Critical patent/JP2003504653A/ja
Publication of JP2003504653A5 publication Critical patent/JP2003504653A5/ja
Application granted granted Critical
Publication of JP4818556B2 publication Critical patent/JP4818556B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、劣化した音声信号の音声認識や音声符号化のような音声処理に関する
【0002】
【従来の技術】
自動音声認識及び符号化システムの使用頻度が増している。そのようなシステムの性能が継続的に向上しつつあるが、低い信号対雑音比(S/N比)又は低帯域幅信号を有するなどの悪環境では特に、精度をさらに向上させることが望まれる。通常、音声認識システムは、入力音声信号のLPC又はプストラル(cepstral)成分を有する観測ベクトルのような表示Yと、トレーニング音声信号の基準ベクトルのような表示Xから構成される隠れマルコフモデル(HMM)のような基準信号のモデルΛとを比較する。
【0003】
実際には、基準信号(ひいてはモデル)が得られる状態と入力信号状態との間に不整合が存在する。このような不整合は、特に、信号のS/N比及び/又は帯域幅に存在する。基準信号は大抵は比較的雑音が少な(高いS/N比、広帯域幅)のに対して、実際使用中の入力信号には歪がる(低いS/N比、及び/又は狭帯域幅)。
【0004】
米国特許出願に係る文献のUS5,727,124は、入力信号と基準モデルとの不整合を減少させる確率的なアプローチを記述している。この既知の方法は、発声の認識中に入力信号(観測される発声)と元の音声モデルとの不整合を減少させる最尤法(maximum-likelihood;ML)アプローチを用いることによって行われる。この不整合は、次の2つの方法により減少させることができる。
【0005】
・歪んだ入力信号の表示Yを、元の表示Xの推定値マッピングし、これにより、元の信号表示Xから得られる元のモデルΛ 認識に用いることを可能にしている。このマッピングは、特徴スペース中で行われ、F(Y)と記述することが出来る。ここで、v推定すべきパラメータである。
【0006】
・元のモデルΛを、観測された発声Yに対してより良好に整合する変換後のモデルΛマッピングすることができる。このマッピングは、モデルスペースで行われ、Gη)と記述することが出来る。ここで、ηは、推定すべきパラメータを表す。
【0007】
パラメータv及び/又はηは、モデルΛ 付与される観測され音声Yの尤度を繰返し向上させるために期待値最大化アルゴリズム(expectation maximization algorithm)を用いて推定される。確率的な整合アルゴリズムは、与えられたテスト発声及び音声モデルの所定のセットについてのみ実行される。実際のテスト前の不整合の推定に対してはトレーニングは必要とされない。米国特許出願に係る文献のUS5,727,124に記述されたマッピングは、参照によりここに含まれる。
【0008】
【発明が解決しようとする課題】
両方の方法を組み合わせることもでき、この場合、歪んだ入力信号の表示Yは、元の表示Xの推定値マッピングされ、元のモデルΛは、推定された表示Xとより良好に整合する変換後のモデルにマッピングされる。これらの方法を繰返し用いることができ、この場合、当該変換された信号及び/又は当該変換されたモデルは、それぞれの元の入力信号の各々及び/又はモデルを置換する。このようにして、当該入力信号及びモデルは、入力信号とモデルとの間の統計的なより高い合致度を得るために繰返し変換される。このプロセスにおいて、比較的雑音の多い入力信号は、比較的雑音の少ない入力信号に変換可能となり、それに対して、比較的雑音の少ないモデルは、より雑音の多いモデルに変換される可能性がある
【0009】
認識のため、モデルは、大抵、最適な認識を行うために最良の(雑音のない)状態でトレーニングされる。この既知の方法において、モデルは、歪がある入力信号に基づいて変換される。これによって、特に低いS/N比に対して性能が悪化し、元のモデルによって達成できた筈の最適な性能得ることが難しくなる。さらに、元のモデルと入力信号との不整合が顕著である場合、(これらが統計的に近接するとしても)信号及び/又はモデルの誤った方向への変換のリスクが増大する。このような事態は、例えば、入力信号が低い信号対雑音比を有する場合に生じ、元の信号を確実に推定することが困難となる。
【0010】
本発明の目的は、特に悪条件の下で音声処理を向上させることが出来る音声処理方法及び音声処理システムを提供することである。
【0011】
【課題を解決するための手段】
本発明の目的を達成するために、劣化した音声入力信号を処理する方法は、
前記劣化した音声入力信号を受信するステップと、
・当該受信した入力信号の信号対雑音比又は帯域幅を含む状態を推定するステップと、
前記推定された信号状態に対応する処理モデルを選択するステップと、
前記受信した入力信号に基づいて元々発声した音声信号を推定するステップと、
・当該選択されたモデルに応じて当該推定された元の信号を処理するステップと、
処理結果を出力するステップとを有する。
【0012】
本発明による方法では、当該信号の状態(例えば、S/N比又は帯域幅)の最初の推定から始まり、処理モデルを選択する。この場合、新たなモデルを、推定された信号状態の関数とする。好ましくは、信号状態に対して最適にトレーニングされたモデルを選択する。また、推定を、元々発声した音声から行う。適切なモデル択と元の音声の推定の双方を行うことによって、処理精度が、「プッシュプル」で向上する。当該既知のシステムにおいて、現在のモデルは新たなモデルに変換され、この場合、当該変換を、入力信号Y(Λ=Gη))の関数としている。本発明による方法では、モデル変換わず、モデルの劣化を回避する。モデル整合に代えて、推定された信号状態を用いる。
【0013】
従属請求項2に記載したように、元々発声した音声の推定は、所定の処理モデルΛxに基づく。好ましくは当該推定は、最尤推定(Maximum Likelihood Estimation;MLE)に基づくのが良い。例えば、米国特許出願に係る文献のUS5,727,124のMELアプローチを用いることができ、この場合、推定された元の音声
Figure 0004818556
は、
Figure 0004818556
によって与えられる。ここで、パラメータv
Figure 0004818556
によって与えられる。
【0014】
従属請求項3に記載したように、元の音声を推定するために用いられる処理モデルは、推定された信号状態ζに整合するために選択されたモデルΛ(ζ)である。このようにして、元の音声を推定する精度が向上する。
【0015】
従属請求項4に記載したように、繰返し手順を用いる。この場合、各繰返しにおいて、信号状態が再推定され、新たなモデルが、新たな信号状態に基づいて選択され、新たな推定が、(そのとき選択したモデルを用いて)元の音声から行われる。最初に選択されたモデルは、更なるブートストラップ動作に対する識別シードとしての役割を果たす。基準に適合した(例えば、そのとき選択したモデルによる認識は十分であり、以前の認識によって得られ尤度と比べてこれ以上向上しない(例えば悪化する))ときに、当該繰返しは停止る。繰返しプロセスは、信号の劣化の控えめな推定(例えば、比較的高いS/N比)とともに開始し、この場合、各繰返しにおいて、信号状態は劣化する(例えば、さらに低いS/N比を選択する)。
【0016】
本発明の目的に適合するために、劣化した音声入力信号を処理する音声処理システムは、
前記劣化した音声入力信号を受信する入力部と、
・当該受信した入力信号の信号対雑音比又は帯域幅を含む状態を推定する手段と、
・当該推定された信号状態に対応する処理モデルを選択する手段と、
・当該受信した入力信号に基づいて元々発声した音声信号を推定する手段と、
・当該選択されたモデルに応じ当該推定された元の信号を処理する手段と、
処理結果を出力する出力部とを有する。
【0017】
以下、本発明のこれらの態様及び他の態様を図面に示される実施例を参照して明らかとなる
【0018】
【発明の実施の形態】
音声認識システムの概要
語彙連続音声認識(large vocabulary continuous speech recognition)システムのような音声認識システムは、大抵は、入力パターンを認識するために認識モデルの集合を使用する。例えば、音モデル及び語彙を用いて単語を認識し、言語モデルを用いて基本的な認識結果向上させるようにしている。図1は、語彙連続音声認識システム100の代表的な構造を示している(L. Rabiner, B-H. Juang,"Fundamentals of speech recognition", Prentice Hall 1993, 434-454頁参照)。システム及び認識方法を説明するに当たり、以下の定義を用いる。
Λ:トレーニングされた音声モデルのセット
X:モデルΛに整合する元の音声
Y:テスト音声
Λ:テスト環境に対する合モデル
W:ワードシーケンス
S:ワード、シラブル、サブワードユニット、ステート若しくは混合成分又は他の適切な表示となることのできる復号後のシーケンス
【0019】
システム100は、スペクトル分析サブシステム110及びユニット整合サブシステム120を有する。スペクトル分析サブシステム110において、音声入力信号(SIS)は、スペクトル的及び/又は時間的に分析されて、特徴を表すベクトル(観測ベクトルOV)を計算する。代表的には、音声信号は、例えば、前強調(pre-emphasis)を行うことによって、デジタル化(例えば6.67kHzのレートでサンプリング)され及び前処理される。連続したサンプル、例えば、32ミリ秒の音声信号に対応するフレームにグループ化(ブロック化)される。連続したフレームは、例えば16ミリ秒部分的に重なり合う。場合によっては、線形予測符号化(LPC;Linear Predictive Coding)スペクトル分析法を用いて、特徴を表すベクトル(観測ベクトル)をフレーム毎に計算する。この特徴ベクトルは、例えば、24,32又は63個の成分を有しうる。語彙連続音声認識に対する標準的なアプローチは、音声生成の確率モデルを仮定することであり、これによって、特定のワードシーケンスW=w...wが、音響観測ベクトルY=y...yのシーケンスを発生する。認識誤差は、(時間t=1,...,Tに亘る)観測ベクトルy ...y の観測シーケンスを最も高い確率で生じさせたワードw ...w のシーケンスを判定することによって統計的に最小化することが出来る。この場合、当該観測ベクトルは、スペクトル分析サブシステム110の結果である。この結果、全てのあり得るワードシーケンスWに対して、最大事後確率(maximum a posteriori probability)max P(W|Y, Λ)を判定することになるベイズ定理を条件付き確率P(W|Y, Λ)に適用することによって、
Figure 0004818556
が得られる。P(Y)がWに依存しないので、最もあり得るワードシーケンスが、
Figure 0004818556
によって与えられる。
【0020】
ユニット整合サブシステム120において、音響モデルは、式(1)の第1項を提供する。この音響モデルを用いて、所定のワードストリングWに対する観測ベクトルYのシーケンスの確率P(Y|W)を推定する。これは語彙システムに対して、大抵、音声認識ユニットの在庫(inventory)に対して当該観測ベクトルを整合させることによって実行される。音声認識ユニットは、音響基準のシーケンスで表される。種々の形態の音声認識ユニットを用いることが出来る。一例として、ワード全体はおろかワード群つの音声認識ユニットによって表現することが出来る。ワードモデル(WM)は、所定の語彙のワード毎に音響基準のシーケンスの複写を提供する。殆ど語彙音声認識システムにおいて、ワード全体は、音声認識ユニットによって表現され、この場合、当該ワードモデルと当該音声認識ユニットとの間には直接的な関係が存在する。例えば、比較的多数(例えば数百)ワードを認識するのに用いられる他の語彙システム又は語彙システムにおいて、単音や二重音や音節のような言語学ベースのサブワードユニット及びフェネン(fenenes)やフェノン(fenones)のような派生ユニットを用いることが出来る。このようなシステムに対して、ワードモデルは、語彙のワードに関連するサブワードユニットのシーケンスを記載する辞書134及び当該関連の音声認識ユニットの音響基準のシーケンスを記述するサブワードモデル132によって与えられる。ワードモデルコンポーザ136は、サブワードモデル132及び辞書134に基づいてワードモデルを構成する。
【0021】
図2Aは、全ワード音声認識ユニットに基づくシステムのためのワードモデル200を示しており、ここでは、示されたワードの音声認識ユニットは、10個の音響基準(201ないし210)のシーケンスを用いてモデル化される。図2Bは、サブワードユニットに基づくシステムのためのワードモデル220を示しており、ここでは、示されたワードは、3個のサブワードモデル(250,260及び270)のシーケンスによってモデル化され、サブワードモデルの各々は、4個の音響基準(251,252,253,254;261264;271274)のシーケンスを有する。図2に示したワードモデルは、確率的なモデル音声信号に対して広く用いられている隠れマルコフモデル(HMM)に基づく。このモデルを用い、各認識ユニット(ワードモデル又はサブワードモデル)普通はHMMによって特徴付けられ、そのパラメータは、データのトレーニングセットから推定される。語彙音声認識システムのために、例えば、40個のサブワードユニットの限定セットが使用される。その理由は、さらに大きなユニットに対して十分にHMMをトレーニングするためには多数のトレーニングデータを必要とするからである。HMM状態は音響基準に対応する。基準をモデル化するのに種々の技術が知られており、それは、離散又は連続確率密度を含む。つの特定の発声に関連する音響基準の各シーケンス、発声の音響複写とも称される。HMM以外の他の認識技術を用いる場合、音響転写の詳細相違することが分かる
【0022】
図1のワードレベル整合システム130は、音声認識ユニットの全てのシーケンスに対して観測ベクトルを整合し、当該ベクトルとシーケンスとの間の整合の尤度を提供する。サブワードユニットが用いられる場合、サブワードユニットのあり得るシーケンスを辞書134中のシーケンスに限定するよう辞書134を用いることによって、当該整合に制約すことができる。これによって、当該結果をワードのあり得るシーケンスに減らす
【0023】
さらに、言語モデル(LM)に基づいて当該整合にさらなる制約を課すセンテンスレベル整合システム140を使用して、調査された経路、言語モデルによって特定されるような適切なシーケンスであるワードシーケンスに対応するものとなるようにしているそのようなものとして当該言語モデルは、式(1)の第2項P(W)を提供する。音声モデルの結果と言語モデルの結果組み合わせることによって、認識されたセンテンス(RS;recognized sentence)152となるユニット整合サブシステム120の結果となる。パターン認識用いられる言語モデルは、言語及び認識タスクの構文的及び/又は意味的な制約142を含みうる。構文的な制約に基づく言語モデルは、大抵、文法144と称される。当該言語モデルによって用いられる文法144は、原理的には
P(W) = P(w1)P(w2|w1).P(w3|w1w2)...P(wq| w1w2w3...wq)
によって与えられるワードシーケンスW=w...wの確率を提供する。実際には、所定の言語中の全てのワード及び全てのシーケンス長に対する条件付きワード確率を、確実に推定することは不可能なので、N−gramワードモデルが広く使用されている。N−gramモデルにおいて、項P(wj| w1w2w3...wj-1)はP(wj| wj-N+1...wj-1)によって近似される。実際には、バイグラム(bigram)又はトリグラム(trigram)が用いられる。トリグラムにおいて、項P(wj| w1w2w3...wj-1)はP(wj| wj-2wj-1)によって近似される。
【0024】
本発明による音声処理システムを、慣例的ハードウェアを用いて実現することが出来る。例えば、音声認識システムを、PCのようなコンピュータ上で実現し、この場合、音声入力は、マイクロホンを通じて受信されるとともに、慣例的なオーディオインターフェースカードによってディジタル化される。全ての付加的処理は、CPUによって実行されるソフトウェア処理の形態で行われる。特に、音声は、例えば、コンピュータにおける慣例的モデを用いて電話接続を通じて受信可能である。音声処理はまた、例えば、DSPの周辺に組み込まれた専用のハードウェアを用いて実行することも出来る。
【0025】
発明の詳細な説明
本発明によれば、整合アルゴリズムを用いて、ロバスト音声認識のための整合された性能を得るようにしている。好ましくは当該アルゴリズムを繰返し使用し、当該整合を、確率的な整合(連続確率マッチング(Successive Stochastic Matching;SSM))に基づくものとしている。このアルゴリズムは、原理的には劣化した信号状態を処理するのに使用される。特に、つのパラメトリック形式について説明する。第1のものは、雑音のある音声認識のための「S/N比増分確率整合」(SNR-incremental stochastic matchingSISM)と呼ばれており、ここで、S/N比は信号対雑音比を意味している。第2のものは、狭帯域音声の認識精度を向上させるとともに高品質マイクロホン音声からトレーニングされた音声モデルの性能に近づくための「帯域幅増分確率整合」(bandwidth-incremental stochastic matching;BISM)と呼ばれている。両形のアルゴリズムを組み合わせることも出来る。アルゴリズムは、特に電話音声認識に適切である。但し、例えば、PCのような処理ユニットにマイクロホンを直接接続した音声認識に対してもアルゴリズムを使用することが出来る一方、この場合、当該信号状態が一般的に良好であるので改善度が低い可能性がある。本発明によるアルゴリズムにおいては、良好な識別特性を有するブートストラップが行われ、好ましくは十分に事前にトレーニングされたモデルを用い当該認識、すなわちブートストラップ動作を改善するようにしている。好ましくは、これを各繰返しにおいて反復させられるものとするのが良い。音声認識のに、(特に電話システムを通じた転送に対して)当該アルゴリズムを音声符号化のために用いることも出来る。この用途に対して、ブートストラップコードブック/エンコーダを、ブートストラップモデル/認識装置の代わりに用いる。すなわち、Λ(ζ)は、音声認識モデルの代わりの符号化のためのブートストラップコードブックを表す。
【0026】
このアルゴリズムの繰返しバージョンは、以下の通りであり、図3に示す。
【0027】
初期化
ステップ300:パラメータ初期化:
l=0lは繰返し数を表す)
(l)=v は逆関数Fのパラメータ集合である
Figure 0004818556
受信した入力音声(テスト音声)であり
Figure 0004818556
最初に発生した音声の推定値である)
最初の信号状態ζ(l)推定(ζは、S/N比又は帯域幅のような信号状態を表す
【0028】
反復
ステップ310:例えば、格納されたモデル320の集合から整合されたブートストラップモデルΛ(l))選択する
ステップ330:当該音声を認識する。
Figure 0004818556
の認識
ステップ340:予め設定された停止基準をチェックする。基準を満たす場合、停止するとともにSを出力する(350)。
ステップ360:vを推定する
Figure 0004818556
ステップ370:元の音声を推定する。
Figure 0004818556
ステップ380:信号状態の推定値を増加する。
ζ(l+1)=ζ(l)+δ,(δ>0)
反復:l←l+1とし、ステップ310へ移行する
【0029】
ステップ310において、信号状態ζ(l)に整合するブートストラップモデルを選択する。好ましくは、システムは、各々が異なる信号状態につき最適化された複数のモデルを有するそして、選択は、信号状態ζ(l)に関連したモデルのロードを伴う。そのようなモデルの集合を、同一の元の「クリーンな」音声記録から形成することが出来る。例えば、SISMアルゴリズムに対して、ホワイトガウス雑音(white Gaussian-noise)をクリーン音声に付加して、信号に所望のS/N比となるまで品質を落とし、その後、その品質の低下された音声信号から認識モデルをトレーニングするようにしてもよい。そして、モデルは、S/N比(ζ)に関連して格納される。これは、複数のS/N比に対して行うことができ、その結果、再トレーニングされたモデルの集合となる。当然、音声の記録を種々の信号状態に基づいて行うことが出来る。この場合、モデルは、品質の低下させられた記録からではなく元の記録から形成される。
【0030】
ステップ340において、音声認識のため当該停止基準、現在のモデルによる認識結果に基づくようにするのが好ましい。認識結果が(例えば、信頼基準に基づいて)十分であり、又は尤度がこれ以上増大しない場合、繰返しを停止させるようにしてもよい
【0031】
ステップ360及び370において、元の音声の推定は逆関数Fに基づくものとすることが分かる。原理的には、他の適切な方法を用いて、好ましくは現在選択しているモデルΛ (ζ)を用いて、現在の音声信号を改善された推定値にマッピングする。
【0032】
当該アルゴリズムの非反復バージョンでは、ステップ370を1回だけ実行すれば十分である。これ、例えば以下のシーケンスを実行することによって達成可能である。すなわち、ステップ300,310,360,370,380,310及び330を実行し、その後、当該認識結果を出力する(ステップ350)ことによって行う。
【0033】
一般的な特性
1.ζ'≧ζに対して
P{Y(ζ')|Λx(ζ')}≧P{Y(ζ)|Λ(ζ)}
となる。ここで、ζ及びζ'は、信号状態(例えば、S/N比又は帯域幅)を表し、Y(ζ)は、信号状態ζにおけるテスト音声を表す。この特性は、例えば、高いS/N比又は広い帯域幅の整合した性能が低いS/N比又は狭帯域幅の一方よりも良好であることを意味する。
2.ζ'≠ζに対して
P{Y(ζ)|Λ(ζ)}≧P{Y(ζ)|Λ(ζ')}
となる。ここで、ζ及びζ'は、この特性におけるS/N比のみを表す。
【0034】
SSMの特性
1.上記つの特性によれば、Pの極大は
Figure 0004818556
に位置し、
Figure 0004818556
である。これは、整合した性能を克服出来ることを意味する。
2.復号化されたシーケンスS={Si, 1 <= i <= T}は、整合したブートストラップモデルを自動的に選択することによって、各繰返しステップで最適な方策であると期待することが出来る。
3.互いに相違する信号状態(SISMでは異なるS/N比又はBISMでは異なる帯域幅)で十分トレーニングされたモデルΛ(ζ)は、識別を行うためのブートストラップモデルとなる。
【0035】
最初のジョイントブートストラップ動作は、SSMアルゴリズムの中心的な特徴となる。最初のステップにおいて、整合したモデルを、他のブートストラップ動作に対する識別シードとして選択する。これは、最高の識別パワーによる最適な初期化となる。それは、当該シードが尤推定の意義に基づいてモデルと入力信号との間最小の不整合を得ることができることを意味する。ブートストラップステップにおいて、このモデルは、S/N比又は帯域幅、すなわち、Λ(ζ)のような信号状態の関数によって変化し、テスト音声、(例えば、逆関数Fvによって)元の音声の推定値に更新される。それは、SISMではより高いS/N比又はBISMではより広い帯域幅の認識性能に対する「プッシュプル」を示唆するものである。好ましくは、ブートストラップ動作を繰返し実行する。これにより、信号状態を、特徴及びモデルの相互の最適化に対して連続的に向上させる(例えば、S/N比又は帯域幅を増大させる)ことが出来る。
【0036】
SSMアルゴリズムでは、ステップ300において、整合したブートスラップモデルを識別シードとして選択するため、初期推定信号状態(SISMではS/N比又はBISMでは帯域幅)につきう。この初期推定は、特定の用途に対する代表的な状態に基づくものとすることが出来る。信号の(簡単な)テストを行ってもよい。最適な状態/混合シーケンス、各繰返しステップにおいて整合されたブートストラップモデルを通じて得ることが出来る。図4には、SSMアルゴリズムを用いた音声認識システムの模範的ブロック図される。ブロック410において、受信した音声信号から特徴を抽出する。これを、図1のスペクトル分析サブシステム110で説明したようにして行うことができる。ブロック420において、信号状態の推定を行う。これは、そのような状態の既知の方法による測定/推定に基づくものとしてもよいし或いは簡単に控えめな推定(所定の用途に対して普通最小限に存在するので単に普通の劣化)のものとしてもよい。ブロック430において、音声は、(例えば、図1のユニット整合サブシステム120のために説明したような)通常の方法で処理される。この場合、本発明によれば、推定された信号状態整合させるブートストラップモデルは、互いに相違する信号状態に対するモデルの集合を備える記憶部440から得られる。図3に対し説明したように、推定を元の音声入力につき行うように当該処理変更される。さらに、図3の繰返し手順を続けてもい。
【0037】
BISMを、帯域幅増分アプローチを用いた狭帯域音声認識に適用して、マイクロホン音声からトレーニングされた高品質のモデルの精度を得ることが出来る。雑音のない状態でも電話音声の性能がマイクロホン音声よりも悪ことは良く知られている。BISMは、電話音声認識精度の伝統的な性能を超えることが出来る。有利なのは、SISMアルゴリズムBISMアルゴリズムを、雑音のある狭帯域音声認識のために組み合わせることである。図5は、両アルゴリズムを用いた音声認識システムのブロック図を示している。例えば雑音のある電話音声の認識に適した本実施では、SISMアルゴリズム及びBISMアルゴリズムを順次に行い、電話ブートストラップモデルを用いて雑音の影響を除去するとともに、マイクロホンブートストラップモデルを用いて高品質のマイクロホンモデルの性能に近づけるようにする。ブロック500において、受信した音声信号から特徴を抽出する。これ、図1のスペクトル分析サブシステム110で説明したようにして行うことができる。ブロック510において、つの信号状態につき推定がわれる。本例では、S/N比及び信号帯域幅につき推定を行う。この推定は、そのような状態の既知の方法による測定/推定に基づくものとしてもよいし或いは簡単に控えめな推定(所定の用途に対して普通最小限に存在するので単に普通の劣化)のものとしてもよい。ブロック520において、音声は、(例えば、図1のユニット整合サブシステム120で説明したような)通常の方法で処理され、この場合、本発明によれば、推定された信号状態に整合するブートストラップモデルは、互いに相違する信号状態に対するモデルの集合を備える記憶部530から得られる。図示例では、ブートストラップモデルは、入力信号の互いに相違するS/N比に対して最適化される。図3で説明したように、推定を元の音声入力につき行うように処理変更される。さらに、図3の繰返し手順を続けてもい。このようにして、このS/N比を仮定し、このS/N比で処理するのに適したモデルを配置するとともに、入力信号を、推定された元の信号に変換する。これに続いて、同一手順を当該帯域幅に対してブロック540で用い、この場合、種々の帯域幅に対するモデルは記憶部550から検索される。本例では、記憶部530及び550を統合することも出来る。例えば、サポートされたS/N比レベルの各々に対して、各々が異なる帯域幅を有するモデルの集合を格納してもよい。これによって、両方の最適化を実行するための簡単な処理が可能となる。例えば、デフォルト又は推定された帯域幅を仮定すると、先ず、S/N比に対して最も適切なモデルが、好ましくは繰返しによって判定される。この結果、そのS/N比に対するモデルの集合を識別することになる。この場合、モデルは帯域幅が互いに相違する。そして、次のプロセスにおいて、帯域幅に最も整合するモデルを、そのモデルの集合から選択する。つの処理ステップを順次に行う代わりに、統合した手順を行うことも出来ることが分かる
【0038】
SSMアルゴリズムを、ブートストラップモデル/認識装置の代わりにブートストラップコードブック/エンコーダを用いることによって、ロバスト音声符号化に適用することが出来る。すなわち、Λ(ζ)はブートストラップコードブックを表す。SISMアルゴリズムは、環境においてマイクロホン又は電話音声符号化の品質を高いS/N比レベルまで向上させることが出来る。また、BISMアルゴリズムも、電話音声符号化をマイクロホン(又はより広帯域の)品質まで向上させることが出来る。それは、電話音声符号化のためにBISMアルゴリズムを用いることによって電話を通じてマイクロホン品質の符号化音声を伝送することを意味する。何故なら、電話音声マイクロホンコードブックを用いることによって復号することが出来るからである。音声符号化のためのSSMの実現は、ブートストラップモデルブートストラップコードブックにより置換することによる認識について説明したものと同様である。図5のブロック図は、雑音のある電話音声符号化にも当てはまるその出力はコードブックエントリである。
【0039】
ましくは、発散に基づくモデル分離法(divergence-based model separation method)を、SSMアルゴリズムにおけるブートストラップモデルの識別トレーニングのために用いるのが良い。SSMアルゴリズムを実現するために、ブートストラップモデルを、雑音のあるデータから再トレーニングするのではなく雑音のないものから適合させる。その理由は、雑音のある音声データを予め十分に収集することは容易でないからである。好適な方法は、発散に基づく非分類関数(divergence-based misclassification function)に基づいており、この場合、相対的な発散は、ルバック−イブラ(Kullback-Leibler: KL)情報(量)から導かれる。分q(x)の他の分p(x)に対するKL情報(すなわちKL発散)は、
Figure 0004818556
として適正に規定される。KL情報は零以上であり、つの分布が同一であるときには
KL(p,q)=0
となる。p及びqが単一のガウス分布である場合、上記は、閉形式
Figure 0004818556
を有する。ここで、μ及びμ 、pの分布及びqの分布の平均であり、σ 及びσ それぞれ変数である。連続的な密度HMM(CDHMM)に対して、混成したガウス密度は、状態観測確率密度関数(pdf;probability density functionのために広く用いられる。したがって、状態間で平均したKL情報は、
Figure 0004818556
と規定される。ここで、M及びMは、状態P及びQの混合数である。次に、つのCDHMM間の「閉じ方」を測定するために発散に基づく非分類関数次のように公式化される。
Figure 0004818556
、モデルの状態の数とし、si,Λは、モデルのi番目の状態を表す。KL情報は対称ではない。故につのモデル間の対称的な相対的発散を次のように規定する。
Figure 0004818556
【0040】
相対的分散
Figure 0004818556
は、つのモデルΛ及びΛ 状態内(intra-state)距離と状態間(inter-state)距離とのを測定することである。相対的分散が小さくなるほどつのモデルは互いに近接する。損失関数は、
Figure 0004818556
と規定され、
Figure 0004818556
となる。ブートストラップモデルの識別トレーニングのために2つの用途がある。
Λ=Λ=Λ:この用途は、モデルの識別向上のためのものである。この場合、モデルパラメータ、最小の相対的発散に基づいたモデルスペースにおいて調整される。それは、最小の誤りレートを伴うものでもある。モデルパラメータ
Figure 0004818556
によって適応形態で調整可能である。ここで、nを繰返し数とし、Uを正の有限行列(positive definite matrix)としている。
【0041】
Λ≠Λ:このアプローチは、識別適応と称される。モデルΛの識別パワーがΛのものよりも良好である、例えば、互いに相違するS/N比レベルであると仮定する。
Figure 0004818556
によって、Λの識別パワーをΛの識別パワーに向かうよう向上するような適応を行うことが出来る。
【0042】
発散に基づくモデル分離法の詳細な式
平均ベクトルの識別調整は以下のようになる。
Figure 0004818556
この場合、
Figure 0004818556
Figure 0004818556
Figure 0004818556
また、標準偏差の調整は以下のようになる。
Figure 0004818556
この場合、
Figure 0004818556
Figure 0004818556
及び
Figure 0004818556
となる。ここで、Mi,Λは、モデルΛのi番目の状態の混合数を表し、μijd,Λ及びσijd,Λそれぞれ、モデルΛのd次の、j番目の混合密度の、そしてi番目の状態に係る標準偏差を表す。
【0043】
結果
追加した雑音状態の下で適応れ再トレーニングされたモデルの主要な性能限界を推定するために実験を行った。適応されたモデルは、隠れマルコフモデル(HMM)のパラメータを、雑音のないものから十分に変化させて、雑音のあるテスト環境に整合させる。再トレーニングされたモデルは、整合した信号対雑音比(S/N比)環境においてホワイトガウス雑音で品質の落とされた音声から十分にトレーニングされる。上述したように、このような再トレーニングされたモデル、SIMDアルゴリズムで用いることが出来る。適応させられたモデル及び再トレーニングされたモデルの可能性及び限界を研究した。その結果は、本発明による再トレーニングされたモデル使用するという概念が適用されたモデルを用いた場合よりも優れた性能を奏することを示している。これは、任意の状態に当てはまるが、低いS/N比に対して特に当てはまる。その結果は、再トレーニングされたモデルに対する電話誤りレートが適用されたモデルに対する場合よりも約6%良好となることを示している。再トレーニングされたモデルは、15dBのS/N比に対して6%だけワード誤りレートを向上させ、0dBのS/N比に対して18%もワード誤りレートを向上させることも確認された。詳細を以下に示す
【0044】
モデル再トレーニング技術を、既知のモデル適応/変換の技術と比較した。この既知の技術において、モデルをテスト環境に適応させる。結果的に得られる性能は、状態−フレーム整合に依存し、場合によっては整合された状態における性能によって制約される。最線形回帰(Maximun likelihood linear regression MLLR)を用いて、当該モデルを新た環境に適応させる。確率論的整合(SM;stochastic matching)は、環境的な変化に整合するために特徴又はモデルを変更させる。
【0045】
モデル適応/変換のためのアルゴリズムの主な制約を、米国特許出願に係る文献のUS5,727,124に対して上述したように十分に適応させられたモデルと本発明によるトレーニングされたモデルとを用いることによって研究した。十分に適応させられたモデルを用いて、当該付加的ノイズをモデル再推定のために正確に推定出来ることをシミュレートするようにしている。十分に適応させられたモデルの実験的なセットアップは次の通りである。
【0046】
ステップ1:トレーニングの集成(training corpus)の雑音のない音声を、雑音のないモデルによってセグメント化し、パスを、雑音のあるモデルトレーニングに対して保持する。
【0047】
ステップ2:追加した雑音の異なるレベルをテスト発声に追加する。全てのHMMパラメータを、さらなる繰返しなしで再推定する。
【0048】
再トレーニングしたモデルは、雑音のないモデルのトレーニングのような整合したS/N比環境において、雑音のある音声から十分にトレーニングされる。ホワイトガウス雑音を、互いに相違する全S/N比レベルでテスト発声に付加した。全S/N比を以下のように規定する。
Figure 0004818556
ここで、σ を、テスト音声の発声の変数とし、σ を、付加した雑音の変数としている。
【0049】
実験、主に個別のフレーズ集成である「日本電子産業開発協会の共通音声データ集成」(JSDC)において行われた。JSDC集成は、ダイナミックマイクロホンを用いて記録され、16kHzでサンプルされた。音声に富んだJSDC都市名副集成(subcorpus)を用いて、電話に基づくHMMをトレーニングした。実験において、35個の単音HMMを、モデルに3状態で、状態毎に称32個のラプラシアン混成密度(Laplaian mixture density)配置した。63ワードの語彙を有するJSDC制御ワード集成を、テストマテリアルとして用いた。
【0050】
自由な発声の復号化(free-phone decoding)及びワード認識のための実験を行った。結果的に得られる発声及びワード誤りレートを図6及び図7にそれぞれ示す。水平方向に、S/N比をdBで示す。垂直方向に各誤りレートを(%で)示す。以下の曲線される
【0051】
1.低下した性能モデルを雑音のないものとし、テストマテリアルを、付加したホワイトガウス雑音によって悪化させる。この場合、雑音がない(clean)とは、雑音が付加されないことを意味する。
【0052】
2.十分に適応させられ性能モデルは、既知の雑音レベルに基づいて雑音のないものから適応させられ、テストマテリアルは、同一S/N比レベルで悪化させられる。
【0053】
3.再トレーニングされ性能モデルは、既知のS/N比環境で十分に再トレーニングされ、テストマテリアルは、同一S/N比レベルで悪化させられる。
【0054】
再トレーニングしたモデルは、常に、任意の状態、特に低いS/N比レベルの下で適応モデルよりも良好に機能することが判明した。図6は、再トレーニングされたモデルの発声誤りレートが適応モデルに対するよりも約6%良好であることを示している。図7から、再トレーニングしたモデルは、15dBS/N比についてはワード誤りレートが6%向上し、0dBS/N比についてはワード誤りレートが18%も向上することも確認することができる
【0055】
ASJ(Acoustic Society of Japan)によって提供されるJNAS(Japanese Newspaper Article Sentence)において更なる実験を行った。JNASは、毎日新聞(100文)及びATR 503 PB センテンス(50個の音声的にバランスがとれた文)からの抜粋を読む306人の話者(153人の男性及び153人の女性)を含む。上記実験におけるが如く、ホワイトガウス雑音は、互いに相違するS/N比レベルでテスト発声に付加され。この実験において、35個の文脈に依存しない単音HMMは、我々の実験では、モデルごとに3状態、状態毎に称16個のガウス混成密度配置された。日本語の音声認識は、音節トポロジーの制約を伴って実行された。図8に示すような、さらなる実験は、SISMアルゴリズムが再トレーニングされ性能を克服出来ることを示し、その状態大抵、全てのS/N比レベルの上限として観察される。水平方向にS/N比をdBで示し、垂直方向にそれぞれの誤りレートを(%で)示している
【図面の簡単な説明】
【図1】本発明を用いることが出来る慣例的な音声処理システムのブロック図。
【図2a】音声処理に用いられる慣例的なワードモデルを示す
【図2b】音声処理に用いられる慣例的なワードモデルを示す
【図3】本発明による方法の繰返しの実施例を示す
【図4】本発明による音声処理システムのブロック図。
【図5】S/N比及び帯域幅劣化を克服するために本発明による方法を2回実行する音声処理システムのブロック図。
【図6】本発明による方法及びシステムによって得られた結果を示す
【図7】本発明による方法及びシステムによって得られた結果を示す
【図8】本発明による方法及びシステムによって得られた結果を示す
【符号の説明】
100:システム、
110:スペクトル分析サブシステム、
120:ユニット整合サブシステム、
130:ワードレベル整合システム、
132:サブワードモデル、
134:辞書、
136:ワードモデルコンポーザ、
140:センテンスレベル整合システム、
142:制約、
144:文法、
152:センテンス

Claims (13)

  1. 劣化した音声入力信号を処理する方法であって、
    ・前記劣化した音声入力信号を受信するステップと、
    ・当該受信した入力信号の信号対雑音比及び帯域幅の少なくとも一方を有する信号状態を推定するステップと、
    ・当該推定された信号状態に対応する処理モデルを選択するステップであって、当該推定が前記信号対雑音比に係る場合はS/N比増分確率整合(SISM)が選択され、当該推定が帯域幅に係る場合は帯域幅増分確率整合(BISM)が選択されるようにしたステップと、
    ・前記受信した入力信号に基づいて元々発声した音声信号を推定するステップと、
    ・当該選択した処理モデルに従って当該推定した元々発声した音声信号を処理するステップと、
    を含み、当該処理は、当該推定された信号状態の関数により前記処理モデルを変えることを含む、
    方法。
  2. 請求項1に記載の方法であって、前記元々発声した音声信号を推定するステップは、所定の処理モデルが付与される、最も高い可能性で発声された音声信号を判定するステップを含む、方法。
  3. 請求項2に記載の方法であって、前記所定の処理モデルは、当該推定された信号状態に対応するものとして選択した処理モデルである、方法。
  4. 請求項3に記載の方法であって、
    ・当該受信した入力信号の信号状態の新たな推定を実行するステップと、
    ・当該新たに推定した信号状態に対応する処理モデルを選択するステップと、
    ・当該選択した処理モデルが付与される、直前の繰返しに係る当該推定された元の信号に基づいて、元々発声した音声信号を推定するステップと、
    ・当該選択したモデルに応じて当該推定された元の信号を処理するステップと、を繰返して実行し、
    所定の状態を満たしたときには当該繰返しを終了する、方法。
  5. 請求項4に記載の方法であって、処理結果がこれ以上向上しない場合には前記繰返しを終了する、方法。
  6. 請求項4に記載の方法であって、前記信号状態の新たな推定を実行するステップは、より劣化した信号状態を推定するステップを含む、方法。
  7. 請求項1に記載の方法であって、当該音声処理は、音声認識を伴い、前記処理モデルは、音声認識モデルである、方法。
  8. 請求項1に記載の方法であって、前記音声処理は、音声符号化を伴い、前記処理モデルは、音声コードブック/エンコーダである、方法。
  9. 劣化した音声入力信号を処理する音声処理システムであって、
    ・前記劣化した音声入力信号を受信する入力部と、
    ・前記受信した入力信号の信号状態を推定する手段であって、前記信号状態が、前記受信した入力信号の信号対雑音比及び帯域幅の双方を含む、手段と、
    ・当該推定された信号状態に対応する処理モデルを選択する手段であって、前記信号対雑音比に関してS/N比増分確率整合(SISM)が選択され、前記帯域幅に関して帯域幅増分確率整合(BISM)が選択される、手段と、
    ・前記受信した入力信号に基づいて元々発声した音声信号を推定する手段と、
    ・当該選択した処理モデルに従って当該推定した元の信号を処理する処理手段であって、当該推定された信号状態の関数により前記処理モデルを変えるための手段を含む処理手段と、
    を含む、
    音声処理システム。
  10. 請求項1に記載の方法であって、所与のモデルの識別トレーニングに対する発散に基づくモデルの区別によって前記処理モデルを発生させるステップを含み、当該区別は、
    ・発散に基づく識別関数を推定するステップと、
    ・誤りレートの関数の最小化に基づいて、モデルパラメータに対する適応学習ステップを実行するステップと、
    を含む、方法。
  11. 請求項10に記載の方法であって、前記識別関数は、入力音声データによって動作する代わりに相対的発散から直接的に得られる、方法。
  12. 請求項1に記載の方法であって、当該推定された信号状態が、前記信号対雑音比及び前記帯域幅の双方を含み、前記処理モデルの前記選択が、前記信号対雑音比に関する前記S/N比増分確率整合及び前記帯域幅に関する前記帯域幅増分確率整合の双方を選択することを含む、方法。
  13. 劣化した音声入力信号を処理するための音声処理システムであって、
    ・前記劣化した音声入力信号を受信し、当該受信入力信号の信号対雑音比及び帯域幅の少なくとも一方を含む当該受信入力信号の信号状態を推定し、当該推定された信号状態に対応する処理モデルを選択し、当該受信入力信号に基づいて元々発声した音声信号を推定し、当該選択された処理モデルに応じて当該推定された元の信号を処理するように、当該処理には、当該推定された信号状態の関数により当該処理モデルを変化させるための手段が含まれるようにして、構成されたプロセッサであって、前記処理モデルの前記選択は、前記信号状態の推定が前記信号対雑音比に係る場合はS/N比増分確率整合(SISM)を選択し、前記信号状態の推定が前記帯域幅に係る場合は帯域幅増分確率整合(BISM)を選択することを含む、プロセッサ
    を含むシステム。
JP2001508432A 1999-07-01 2000-06-27 確率論的ロバスト音声処理 Expired - Lifetime JP4818556B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP99202136.0 1999-07-01
EP99202136 1999-07-01
PCT/EP2000/005963 WO2001003113A1 (en) 1999-07-01 2000-06-27 Robust speech processing from noisy speech models

Publications (3)

Publication Number Publication Date
JP2003504653A JP2003504653A (ja) 2003-02-04
JP2003504653A5 JP2003504653A5 (ja) 2011-01-27
JP4818556B2 true JP4818556B2 (ja) 2011-11-16

Family

ID=8240395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001508432A Expired - Lifetime JP4818556B2 (ja) 1999-07-01 2000-06-27 確率論的ロバスト音声処理

Country Status (5)

Country Link
US (1) US6865531B1 (ja)
EP (1) EP1116219B1 (ja)
JP (1) JP4818556B2 (ja)
DE (1) DE60018696T2 (ja)
WO (1) WO2001003113A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7587321B2 (en) * 2001-05-08 2009-09-08 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
US7174292B2 (en) 2002-05-20 2007-02-06 Microsoft Corporation Method of determining uncertainty associated with acoustic distortion-based noise reduction
US7107210B2 (en) * 2002-05-20 2006-09-12 Microsoft Corporation Method of noise reduction based on dynamic aspects of speech
US7103540B2 (en) * 2002-05-20 2006-09-05 Microsoft Corporation Method of pattern recognition using noise reduction uncertainty
US20040267530A1 (en) * 2002-11-21 2004-12-30 Chuang He Discriminative training of hidden Markov models for continuous speech recognition
US20040181409A1 (en) * 2003-03-11 2004-09-16 Yifan Gong Speech recognition using model parameters dependent on acoustic environment
JPWO2007080886A1 (ja) * 2006-01-11 2009-06-11 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム、ならびに妨害軽減装置、妨害軽減方法、および妨害軽減プログラム
JP5088701B2 (ja) * 2006-05-31 2012-12-05 日本電気株式会社 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
US7885812B2 (en) * 2006-11-15 2011-02-08 Microsoft Corporation Joint training of feature extraction and acoustic model parameters for speech recognition
US20080243503A1 (en) * 2007-03-30 2008-10-02 Microsoft Corporation Minimum divergence based discriminative training for pattern recognition
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
US8160878B2 (en) * 2008-09-16 2012-04-17 Microsoft Corporation Piecewise-based variable-parameter Hidden Markov Models and the training thereof
GB2464093B (en) * 2008-09-29 2011-03-09 Toshiba Res Europ Ltd A speech recognition method
EP2696964A2 (en) 2011-04-13 2014-02-19 MAN OIL Group AG Liquid products and method for emulsifying oil, and use thereof in the treatment of oil contaminations
TWI475557B (zh) * 2012-10-31 2015-03-01 Acer Inc 音訊處理裝置
CN109346097B (zh) * 2018-03-30 2023-07-14 上海大学 一种基于Kullback-Leibler差异的语音增强方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04275600A (ja) * 1991-03-01 1992-10-01 Ricoh Co Ltd 音声認識装置
JPH0566790A (ja) * 1991-09-10 1993-03-19 Oki Electric Ind Co Ltd 音声認識方法
JPH05165492A (ja) * 1991-12-12 1993-07-02 Hitachi Ltd 音声認識装置
JPH06236196A (ja) * 1993-02-08 1994-08-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法および装置
JPH06282297A (ja) * 1993-03-26 1994-10-07 Idou Tsushin Syst Kaihatsu Kk 音声符号化方式
JPH06289891A (ja) * 1993-04-02 1994-10-18 Mitsubishi Electric Corp 音声認識装置
JPH08110800A (ja) * 1994-10-12 1996-04-30 Fujitsu Ltd A−b−S法による高能率音声符号化方式
JPH08320698A (ja) * 1995-05-23 1996-12-03 Clarion Co Ltd 音声認識装置
JPH09258768A (ja) * 1996-03-25 1997-10-03 Mitsubishi Electric Corp 騒音下音声認識装置及び騒音下音声認識方法
JPH1063293A (ja) * 1996-08-23 1998-03-06 Kokusai Denshin Denwa Co Ltd <Kdd> 電話音声認識装置
JPH1097278A (ja) * 1996-09-20 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法および装置
JPH10149191A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> モデル適応方法、装置およびその記憶媒体
WO1999034354A1 (en) * 1997-12-24 1999-07-08 Mitsubishi Denki Kabushiki Kaisha Sound encoding method and sound decoding method, and sound encoding device and sound decoding device

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4325404C2 (de) * 1993-07-29 2002-04-11 Tenovis Gmbh & Co Kg Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
US5727124A (en) 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
US6067517A (en) * 1996-02-02 2000-05-23 International Business Machines Corporation Transcription of speech data with segments from acoustically dissimilar environments
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
US5970446A (en) * 1997-11-25 1999-10-19 At&T Corp Selective noise/channel/coding models and recognizers for automatic speech recognition
US6389393B1 (en) * 1998-04-28 2002-05-14 Texas Instruments Incorporated Method of adapting speech recognition models for speaker, microphone, and noisy environment
US6327565B1 (en) * 1998-04-30 2001-12-04 Matsushita Electric Industrial Co., Ltd. Speaker and environment adaptation based on eigenvoices
US6324510B1 (en) * 1998-11-06 2001-11-27 Lernout & Hauspie Speech Products N.V. Method and apparatus of hierarchically organizing an acoustic model for speech recognition and adaptation of the model to unseen domains
US6275800B1 (en) * 1999-02-23 2001-08-14 Motorola, Inc. Voice recognition system and method

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04275600A (ja) * 1991-03-01 1992-10-01 Ricoh Co Ltd 音声認識装置
JPH0566790A (ja) * 1991-09-10 1993-03-19 Oki Electric Ind Co Ltd 音声認識方法
JPH05165492A (ja) * 1991-12-12 1993-07-02 Hitachi Ltd 音声認識装置
JPH06236196A (ja) * 1993-02-08 1994-08-23 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法および装置
JPH06282297A (ja) * 1993-03-26 1994-10-07 Idou Tsushin Syst Kaihatsu Kk 音声符号化方式
JPH06289891A (ja) * 1993-04-02 1994-10-18 Mitsubishi Electric Corp 音声認識装置
JPH08110800A (ja) * 1994-10-12 1996-04-30 Fujitsu Ltd A−b−S法による高能率音声符号化方式
JPH08320698A (ja) * 1995-05-23 1996-12-03 Clarion Co Ltd 音声認識装置
JPH09258768A (ja) * 1996-03-25 1997-10-03 Mitsubishi Electric Corp 騒音下音声認識装置及び騒音下音声認識方法
JPH1063293A (ja) * 1996-08-23 1998-03-06 Kokusai Denshin Denwa Co Ltd <Kdd> 電話音声認識装置
JPH1097278A (ja) * 1996-09-20 1998-04-14 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法および装置
JPH10149191A (ja) * 1996-09-20 1998-06-02 Nippon Telegr & Teleph Corp <Ntt> モデル適応方法、装置およびその記憶媒体
WO1999034354A1 (en) * 1997-12-24 1999-07-08 Mitsubishi Denki Kabushiki Kaisha Sound encoding method and sound decoding method, and sound encoding device and sound decoding device

Also Published As

Publication number Publication date
EP1116219A1 (en) 2001-07-18
DE60018696D1 (de) 2005-04-21
WO2001003113A1 (en) 2001-01-11
JP2003504653A (ja) 2003-02-04
EP1116219B1 (en) 2005-03-16
DE60018696T2 (de) 2006-04-06
US6865531B1 (en) 2005-03-08

Similar Documents

Publication Publication Date Title
Juvela et al. Speech waveform synthesis from MFCC sequences with generative adversarial networks
US6292775B1 (en) Speech processing system using format analysis
JP4818556B2 (ja) 確率論的ロバスト音声処理
Zen et al. Continuous stochastic feature mapping based on trajectory HMMs
US5794192A (en) Self-learning speaker adaptation based on spectral bias source decomposition, using very short calibration speech
JPH11242495A (ja) 音声認識のための隠れマルコフ・モデルの適合技術
JP2004504641A (ja) 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置
Morris Enhancement and recognition of whispered speech
Surendran et al. Nonlinear compensation for stochastic matching
Chien et al. Telephone speech recognition based on Bayesian adaptation of hidden Markov models
JP5574344B2 (ja) 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム
Rabiner et al. Hidden Markov models for speech recognition—strengths and limitations
JP4461557B2 (ja) 音声認識方法および音声認識装置
Darch et al. MAP prediction of formant frequencies and voicing class from MFCC vectors in noise
Huang et al. An SNR-incremental stochastic matching algorithm for noisy speech recognition
Gibson et al. Speech signal processing
Spanias et al. Speech coding and speech recognition technologies: a review
Sarikaya Robust and efficient techniques for speech recognition in noise
Addou et al. A noise-robust front-end for distributed speech recognition in mobile communications
JP3589508B2 (ja) 話者適応音声認識方法および話者適応音声認識装置
Alatwi Perceptually-Motivated Speech Parameters for Efficient Coding and Noise-Robust Cepstral-Based ASR
JPH0934485A (ja) 自己学習話者適応音声認識方法
JP3406672B2 (ja) 話者適応化装置
JP2003513320A (ja) 音声信号からの雑音の消去
Anastasakos et al. Robust continuous speech recognition

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070626

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100601

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100831

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100907

A524 Written submission of copy of amendment under section 19 (pct)

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20101201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110802

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110831

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140909

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4818556

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term