JP4818556B2

JP4818556B2 - 確率論的ロバスト音声処理

Info

Publication number: JP4818556B2
Application number: JP2001508432A
Authority: JP
Inventors: チャオ−シーファン
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-07-01
Filing date: 2000-06-27
Publication date: 2011-11-16
Anticipated expiration: 2020-06-27
Also published as: EP1116219A1; DE60018696D1; WO2001003113A1; JP2003504653A; EP1116219B1; DE60018696T2; US6865531B1

Description

【０００１】
【発明の属する技術分野】
本発明は、劣化した音声信号の音声認識や音声符号化のような音声処理に関する。
【０００２】
【従来の技術】
自動音声認識及び符号化システムの使用頻度が増している。そのようなシステムの性能が継続的に向上しつつあるが、低い信号対雑音比（Ｓ／Ｎ比）又は低帯域幅信号を有するなどの悪環境では特に、精度をさらに向上させることが望まれる。通常、音声認識システムは、入力音声信号のＬＰＣ又はケプストラル（cepstral）成分を有する観測ベクトルのような表示Ｙと、トレーニング音声信号の基準ベクトルのような表示Ｘから構成される隠れマルコフモデル（ＨＭＭ）のような基準信号のモデルΛ_ｘとを比較する。
【０００３】
実際には、基準信号（ひいてはモデル）が得られる状態と入力信号状態との間に不整合が存在する。このような不整合は、特に、信号のＳ／Ｎ比及び／又は帯域幅に存在する。基準信号は大抵は比較的雑音が少ない（高いＳ／Ｎ比、広帯域幅）のに対して、実際使用中の入力信号には歪がある（低いＳ／Ｎ比、及び／又は狭帯域幅）。
【０００４】
米国特許出願に係る文献のＵＳ５，７２７，１２４は、入力信号と基準モデルとの不整合を減少させる確率論的なアプローチを記述している。この既知の方法は、発声の認識中に入力信号（観測される発声）と元の音声モデルとの不整合を減少させる最尤法(maximum-likelihood；ＭＬ)アプローチを用いることによって行われる。この不整合は、次の２つの方法により減少させることができる。
【０００５】
・歪んだ入力信号の表示Ｙを、元の表示Ｘの推定値にマッピングし、これにより、元の信号表示Ｘから得られる元のモデルΛ_ｘを認識に用いることを可能にしている。このマッピングは、特徴スペース中で行われ、Ｆ_ｖ(Ｙ)と記述することが出来る。ここで、ｖは、推定すべきパラメータである。
【０００６】
・元のモデルΛ_ｘを、観測された発声Ｙに対してより良好に整合する変換後のモデルΛ_ｙへマッピングすることができる。このマッピングは、モデルスペース内で行われ、Ｇ_η(Λ_ｘ)と記述することが出来る。ここで、ηは、推定すべきパラメータを表す。
【０００７】
パラメータｖ及び／又はηは、モデルΛ_ｘが付与される観測される音声Ｙの尤度を繰返し向上させるために期待値最大化アルゴリズム（expectation maximization algorithm）を用いて推定される。確率論的な整合アルゴリズムは、与えられたテスト発声及び音声モデルの所定のセットについてのみ実行される。実際のテスト前の不整合の推定に対してはトレーニングは必要とされない。米国特許出願に係る文献のＵＳ５，７２７，１２４に記述されたマッピングは、参照によりここに含まれる。
【０００８】
【発明が解決しようとする課題】
両方の方法を組み合わせることもでき、この場合、歪んだ入力信号の表示Ｙは、元の表示Ｘの推定値にマッピングされ、元のモデルΛ_ｘは、推定された表示Ｘとより良好に整合する変換後のモデルにマッピングされる。これらの方法を繰返し用いることができ、この場合、当該変換された信号及び／又は当該変換されたモデルは、それぞれの元の入力信号の各々及び／又はモデルを置換する。このようにして、当該入力信号及びモデルは、入力信号とモデルとの間の統計的なより高い合致度を得るために繰返し変換される。このプロセスにおいて、比較的雑音の多い入力信号は、比較的雑音の少ない入力信号に変換可能となり、それに対して、比較的雑音の少ないモデルは、より雑音の多いモデルに変換される可能性がある。
【０００９】
認識のため、モデルは、大抵、最適な認識を行うために最良の（雑音のない）状態でトレーニングされる。この既知の方法において、モデルは、歪がある入力信号に基づいて変換される。これによって、特に低いＳ／Ｎ比に対して性能が悪化し、元のモデルによって達成できた筈の最適な性能を得ることが難しくなる。さらに、元のモデルと入力信号との不整合が顕著である場合、（これらが統計的に近接するとしても）信号及び／又はモデルの誤った方向への変換のリスクが増大する。このような事態は、例えば、入力信号が低い信号対雑音比を有する場合に生じ、元の信号を確実に推定することが困難となる。
【００１０】
本発明の目的は、特に悪条件の下で音声処理を向上させることが出来る音声処理方法及び音声処理システムを提供することである。
【００１１】
【課題を解決するための手段】
本発明の目的を達成するために、劣化した音声入力信号を処理する方法は、
・前記劣化した音声入力信号を受信するステップと、
・当該受信した入力信号の信号対雑音比又は帯域幅を含む状態を推定するステップと、
・前記推定された信号状態に対応する処理モデルを選択するステップと、
・前記受信した入力信号に基づいて元々発声した音声信号を推定するステップと、
・当該選択されたモデルに応じて当該推定された元の信号を処理するステップと、
・処理結果を出力するステップと、を有する。
【００１２】
本発明による方法では、当該信号の状態（例えば、Ｓ／Ｎ比又は帯域幅）の最初の推定から始まり、処理モデルを選択する。この場合、新たなモデルを、推定された信号状態の関数とする。好ましくは、信号状態に対して最適にトレーニングされたモデルを選択する。また、推定を、元々発声した音声から行う。適切なモデルの選択と元の音声の推定の双方を行うことによって、処理精度が、「プッシュプル」で向上する。当該既知のシステムにおいては、現在のモデルは新たなモデルに変換され、この場合、当該変換を、入力信号Ｙ(Λ_ｙ=Ｇ_η(Λ_ｘ))の関数としている。本発明による方法では、モデル変換を行わず、モデルの劣化を回避する。モデル整合に代えて、推定された信号状態を用いる。
【００１３】
従属請求項２に記載したように、元々発声した音声の推定は、所定の処理モデルΛ_xに基づく。好ましくは、当該推定は、最尤推定(Maximum Likelihood Estimation；ＭＬＥ)に基づくのが良い。例えば、米国特許出願に係る文献のＵＳ５，７２７，１２４のＭＥＬアプローチを用いることができ、この場合、推定された元の音声

は、

によって与えられる。ここで、パラメータｖは、

によって与えられる。
【００１４】
従属請求項３に記載したように、元の音声を推定するために用いられる処理モデルは、推定された信号状態ζに整合するために選択されたモデルΛ_ｘ(ζ)である。このようにして、元の音声を推定する精度が向上する。
【００１５】
従属請求項４に記載したように、繰返し手順を用いる。この場合、各繰返しにおいて、信号状態が再推定され、新たなモデルが、新たな信号状態に基づいて選択され、新たな推定が、（そのとき選択したモデルを用いて）元の音声から行われる。最初に選択されたモデルは、更なるブートストラップ動作に対する識別シードとしての役割を果たす。基準に適合した（例えば、そのとき選択したモデルによる認識は十分であり、以前の認識によって得られた尤度と比べてこれ以上向上しない（例えば悪化する））ときに、当該繰返しは停止する。繰返しプロセスは、信号の劣化の控えめな推定（例えば、比較的高いＳ／Ｎ比）とともに開始し、この場合、各繰返しにおいて、信号状態は劣化する（例えば、さらに低いＳ／Ｎ比を選択する）。
【００１６】
本発明の目的に適合するために、劣化した音声入力信号を処理する音声処理システムは、
・前記劣化した音声入力信号を受信する入力部と、
・当該受信した入力信号の信号対雑音比又は帯域幅を含む状態を推定する手段と、
・当該推定された信号状態に対応する処理モデルを選択する手段と、
・当該受信した入力信号に基づいて元々発声した音声信号を推定する手段と、
・当該選択されたモデルに応じて当該推定された元の信号を処理する手段と、
・処理結果を出力する出力部と、を有する。
【００１７】
以下、本発明のこれらの態様及び他の態様を、図面に示される実施例を参照して明らかとなる。
【００１８】
【発明の実施の形態】
音声認識システムの概要
大語彙連続音声認識（large vocabulary continuous speech recognition）システムのような音声認識システムは、大抵は、入力パターンを認識するために認識モデルの集合を使用する。例えば、音響モデル及び語彙を用いて単語を認識し、言語モデルを用いて基本的な認識結果を向上させるようにしている。図１は、大語彙連続音声認識システム１００の代表的な構造を示している（L. Rabiner, B-H. Juang,"Fundamentals of speech recognition", Prentice Hall 1993, 434-454頁参照）。システム及び認識方法を説明するに当たり、以下の定義を用いる。
Λ_ｘ：トレーニングされた音声モデルのセット
Ｘ：モデルΛ_ｘに整合する元の音声
Ｙ：テスト音声
Λ_ｙ：テスト環境に対する整合モデル
Ｗ：ワードシーケンス
Ｓ：ワード、シラブル、サブワードユニット、ステート若しくは混合成分又は他の適切な表示となることのできる復号後のシーケンス
【００１９】
システム１００は、スペクトル分析サブシステム１１０及びユニット整合サブシステム１２０を有する。スペクトル分析サブシステム１１０において、音声入力信号（ＳＩＳ）は、スペクトル的及び／又は時間的に分析されて、特徴を表すベクトル（観測ベクトルＯＶ）を計算する。代表的には、音声信号は、例えば、前強調(pre-emphasis)を行うことによって、デジタル化（例えば６．６７ｋＨｚのレートでサンプリング）され及び前処理される。連続したサンプルは、例えば、３２ミリ秒の音声信号に対応するフレームにグループ化（ブロック化）される。連続したフレームは、例えば１６ミリ秒、部分的に重なり合う。場合によっては、線形予測符号化（ＬＰＣ；Linear Predictive Coding）スペクトル分析法を用いて、特徴を表すベクトル（観測ベクトル）をフレーム毎に計算する。この特徴ベクトルは、例えば、２４，３２又は６３個の成分を有しうる。大語彙連続音声認識に対する標準的なアプローチは、音声生成の確率モデルを仮定することであり、これによって、特定のワードシーケンスＷ＝ｗ_１ｗ_２ｗ_３...ｗ_ｑが、音響観測ベクトルＹ＝ｙ_１ｙ_２ｙ_３...ｙ_Ｔのシーケンスを発生する。認識誤差は、（時間ｔ＝１，...，Ｔに亘る）観測ベクトルｙ _１ｙ_２ｙ_３...ｙ_Ｔの観測シーケンスを最も高い確率で生じさせたワードｗ _１ｗ_２ｗ_３...ｗ_ｑのシーケンスを判定することによって統計的に最小化することが出来る。この場合、当該観測ベクトルは、スペクトル分析サブシステム１１０の結果である。この結果、全てのあり得るワードシーケンスＷに対して、最大事後確率(maximum a posteriori probability)のmax Ｐ(Ｗ｜Ｙ, Λ_ｘ)を判定することになる。ベイズ定理を条件付き確率Ｐ(Ｗ｜Ｙ, Λ_ｘ)に適用することによって、

が得られる。Ｐ（Ｙ）がＷに依存しないので、最もあり得るワードシーケンスが、

によって与えられる。
【００２０】
ユニット整合サブシステム１２０において、音響モデルは、式（１）の第１項を提供する。この音響モデルを用いて、所定のワードストリングＷに対する観測ベクトルＹのシーケンスの確率Ｐ（Ｙ｜Ｗ）を推定する。これは大語彙システムに対して、大抵、音声認識ユニットの在庫(inventory)に対して当該観測ベクトルを整合させることによって実行される。音声認識ユニットは、音響基準のシーケンスで表される。種々の形態の音声認識ユニットを用いることが出来る。一例として、ワード全体はおろかワード群も、１つの音声認識ユニットによって表現することが出来る。ワードモデル（ＷＭ）は、所定の語彙のワード毎に、音響基準のシーケンスの複写を提供する。殆どの小語彙音声認識システムにおいて、ワード全体は、音声認識ユニットによって表現され、この場合、当該ワードモデルと当該音声認識ユニットとの間には直接的な関係が存在する。例えば、比較的多数（例えば数百）ワードを認識するのに用いられる他の小語彙システム又は大語彙システムにおいて、単音や二重音や音節のような言語学ベースのサブワードユニット及びフェネン(fenenes)やフェノン(fenones)のような派生ユニットを用いることが出来る。このようなシステムに対して、ワードモデルは、語彙のワードに関連するサブワードユニットのシーケンスを記載する辞書１３４及び当該関連の音声認識ユニットの音響基準のシーケンスを記述するサブワードモデル１３２によって与えられる。ワードモデルコンポーザ１３６は、サブワードモデル１３２及び辞書１３４に基づいてワードモデルを構成する。
【００２１】
図２Ａは、全ワード音声認識ユニットに基づくシステムのためのワードモデル２００を示しており、ここでは、示されたワードの音声認識ユニットは、１０個の音響基準（２０１ないし２１０）のシーケンスを用いてモデル化される。図２Ｂは、サブワードユニットに基づくシステムのためのワードモデル２２０を示しており、ここでは、示されたワードは、３個のサブワードモデル（２５０，２６０及び２７０）のシーケンスによってモデル化され、サブワードモデルの各々は、４個の音響基準（２５１，２５２，２５３，２５４；２６１〜２６４；２７１〜２７４）のシーケンスを有する。図２に示したワードモデルは、確率論的なモデル音声信号に対して広く用いられている隠れマルコフモデル（ＨＭＭ）に基づく。このモデルを用いて、各認識ユニット（ワードモデル又はサブワードモデル）は、普通はＨＭＭによって特徴付けられ、そのパラメータは、データのトレーニングセットから推定される。大語彙音声認識システムのために、例えば、４０個のサブワードユニットの限定セットが使用される。その理由は、さらに大きなユニットに対して十分にＨＭＭをトレーニングするためには多数のトレーニングデータを必要とするからである。ＨＭＭ状態は音響基準に対応する。基準をモデル化するのに種々の技術が知られており、それは、離散又は連続確率密度を含む。１つの特定の発声に関連する音響基準の各シーケンスは、発声の音響複写とも称される。ＨＭＭ以外の他の認識技術を用いる場合、音響転写の詳細が相違することが分かる。
【００２２】
図１のワードレベル整合システム１３０は、音声認識ユニットの全てのシーケンスに対して観測ベクトルを整合し、当該ベクトルとシーケンスとの間の整合の尤度を提供する。サブワードユニットが用いられる場合、サブワードユニットのあり得るシーケンスを辞書１３４中のシーケンスに限定するよう辞書１３４を用いることによって、当該整合に制約を課すことができる。これによって、当該結果をワードのあり得るシーケンスに減らす。
【００２３】
さらに、言語モデル（ＬＭ）に基づいて当該整合にさらなる制約を課すセンテンスレベル整合システム１４０を使用して、調査された経路が、言語モデルによって特定されるような適切なシーケンスであるワードシーケンスに対応するものとなるようにしている。そのようなものとして、当該言語モデルは、式（１）の第２項Ｐ（Ｗ）を提供する。音声モデルの結果と言語モデルの結果と組み合わせることによって、認識されたセンテンス（ＲＳ；recognized sentence）１５２となるユニット整合サブシステム１２０の結果となる。パターン認識に用いられる言語モデルは、言語及び認識タスクの構文的及び／又は意味的な制約１４２を含みうる。構文的な制約に基づく言語モデルは、大抵、文法１４４と称される。当該言語モデルによって用いられる文法１４４は、原理的には
P(W) = P(w₁)P(w₂|w₁).P(w₃|w₁w₂)...P(w_q| w₁w₂w₃...w_q)
によって与えられるワードシーケンスＷ＝ｗ_１ｗ_２ｗ_３...ｗ_ｑの確率を提供する。実際には、所定の言語中の全てのワード及び全てのシーケンス長に対する条件付きワード確率を、確実に推定することは不可能なので、Ｎ−ｇｒａｍワードモデルが広く使用されている。Ｎ−ｇｒａｍモデルにおいて、項P(wj| w1w2w3...wj-1)はP(wj| wj-N+1...wj-1)によって近似される。実際には、バイグラム(bigram)又はトリグラム(trigram)が用いられる。トリグラムにおいて、項P(wj| w1w2w3...wj-1)はP(wj| wj-2wj-1)によって近似される。
【００２４】
本発明による音声処理システムを、慣例的ハードウェアを用いて実現することが出来る。例えば、音声認識システムを、ＰＣのようなコンピュータ上で実現し、この場合、音声入力は、マイクロホンを通じて受信されるとともに、慣例的なオーディオインターフェースカードによってディジタル化される。全ての付加的処理は、ＣＰＵによって実行されるソフトウェア処理の形態で行われる。特に、音声は、例えば、コンピュータにおける慣例的モデムを用いて電話接続を通じて受信可能である。音声処理はまた、例えば、ＤＳＰの周辺に組み込まれた専用のハードウェアを用いて実行することも出来る。
【００２５】
発明の詳細な説明
本発明によれば、整合アルゴリズムを用いて、ロバスト音声認識のための整合された性能を得るようにしている。好ましくは、当該アルゴリズムを繰返し使用し、当該整合を、確率論的な整合（連続確率マッチング（Successive Stochastic Matching;ＳＳＭ））に基づくものとしている。このアルゴリズムは、原理的には、劣化した信号状態を処理するのに使用される。特に、２つのパラメトリック形式について説明する。第１のものは、雑音のある音声認識のための「Ｓ／Ｎ比増分確率整合」(SNR-incremental stochastic matching；ＳＩＳＭ)と呼ばれており、ここでは、Ｓ／Ｎ比は信号対雑音比を意味している。第２のものは、狭帯域音声の認識精度を向上させるとともに高品質マイクロホン音声からトレーニングされた音声モデルの性能に近づくための「帯域幅増分確率整合」(bandwidth-incremental stochastic matching；ＢＩＳＭ)と呼ばれている。両形式のアルゴリズムを組み合わせることも出来る。アルゴリズムは、特に電話音声認識に適切である。但し、例えば、ＰＣのような処理ユニットにマイクロホンを直接接続した音声認識に対してもアルゴリズムを使用することが出来る一方、この場合、当該信号状態が一般的に良好であるので、改善度が低い可能性がある。本発明によるアルゴリズムにおいては、良好な識別特性を有する、ブートストラップが行われ、好ましくは十分に事前にトレーニングされたモデルを用いて、当該認識、すなわちブートストラップ動作を改善するようにしている。好ましくは、これを各繰返しにおいて反復させられるものとするのが良い。音声認識の外に、（特に電話システムを通じた転送に対して）当該アルゴリズムを音声符号化のために用いることも出来る。この用途に対しては、ブートストラップコードブック／エンコーダを、ブートストラップモデル／認識装置の代わりに用いる。すなわち、Λ_ｘ(ζ)は、音声認識モデルの代わりの符号化のためのブートストラップコードブックを表す。
【００２６】
このアルゴリズムの繰返しバージョンは、以下の通りであり、図３に示す。
【００２７】
初期化：
ステップ３００：パラメータ初期化：
ｌ＝０（ｌは繰返し数を表す）
Ｖ^(ｌ)＝ｖ_０（ｖ_０は逆関数Ｆ_ｖのパラメータ集合である）

（Ｙは受信した入力音声（テスト音声）であり、

は最初に発生した音声の推定値である）
最初の信号状態ζ^(l)の推定（ζは、Ｓ／Ｎ比又は帯域幅のような信号状態を表す）
【００２８】
反復：
ステップ３１０：例えば、格納されたモデル３２０の集合から、整合されたブートストラップモデルΛ_ｘ(ζ^(l))を選択する。
ステップ３３０：当該音声を認識する。

の認識
ステップ３４０：予め設定された停止基準をチェックする。基準を満たす場合、停止するとともにＳを出力する（３５０）。
ステップ３６０：vを推定する。

ステップ３７０：元の音声を推定する。

ステップ３８０：信号状態の推定値を増加する。
ζ^(ｌ＋１)＝ζ^(ｌ)＋δ，（δ＞０）
反復：ｌ←ｌ＋１とし、ステップ３１０へ移行する。
【００２９】
ステップ３１０において、信号状態ζ^(ｌ)に整合するブートストラップモデルを選択する。好ましくは、本システムは、各々が異なる信号状態につき最適化された複数のモデルを有する。そして、選択は、信号状態ζ^(ｌ)に関連したモデルのロードを伴う。そのようなモデルの集合を、同一の元の「クリーンな」音声記録から形成することが出来る。例えば、ＳＩＳＭアルゴリズムに対して、ホワイトガウス雑音(white Gaussian-noise)をクリーン音声に付加して、信号に所望のＳ／Ｎ比となるまで品質を落とし、その後、その品質の低下された音声信号から認識モデルをトレーニングするようにしてもよい。そして、モデルは、Ｓ／Ｎ比(ζ)に関連して格納される。これは、複数のＳ／Ｎ比に対して行うことができ、その結果、再トレーニングされたモデルの集合となる。当然、音声の記録を種々の信号状態に基づいて行うことが出来る。この場合、モデルは、品質の低下させられた記録からではなく元の記録から形成される。
【００３０】
ステップ３４０において、音声認識のため、当該停止基準は、現在のモデルによる認識結果に基づくようにするのが好ましい。認識結果が（例えば、信頼基準に基づいて）十分であり、又は尤度がこれ以上増大しない場合、繰返しを停止させるようにしてもよい。
【００３１】
ステップ３６０及び３７０において、元の音声の推定は逆関数Ｆ_ｖに基づくものとすることが分かる。原理的には、他の適切な方法を用いて、好ましくは現在選択しているモデルΛ _ｘ (ζ)を用いて、現在の音声信号を改善された推定値にマッピングする。
【００３２】
当該アルゴリズムの非反復バージョンでは、ステップ３７０を１回だけ実行すれば十分である。これは、例えば以下のシーケンスを実行することによって達成可能である。すなわち、ステップ３００，３１０，３６０，３７０，３８０，３１０及び３３０を実行し、その後、当該認識結果を出力する（ステップ３５０）ことによって行う。
【００３３】
一般的な特性
１．ζ'≧ζに対して、
Ｐ｛Ｙ(ζ')｜Λｘ(ζ')｝≧Ｐ｛Ｙ(ζ)｜Λ_ｘ(ζ)｝
となる。ここで、ζ及びζ'は、信号状態（例えば、Ｓ／Ｎ比又は帯域幅）を表し、Ｙ(ζ)は、信号状態ζにおけるテスト音声を表す。この特性は、例えば、高いＳ／Ｎ比又は広い帯域幅の整合した性能が低いＳ／Ｎ比又は狭帯域幅の一方よりも良好であることを意味する。
２．ζ'≠ζに対して
Ｐ｛Ｙ(ζ)｜Λ_ｘ(ζ)｝≧Ｐ｛Ｙ(ζ)｜Λ_ｘ(ζ')｝
となる。ここで、ζ及びζ'は、この特性におけるＳ／Ｎ比のみを表す。
【００３４】
ＳＳＭの特性
１．上記２つの特性によれば、Ｐの極大は

に位置し、

である。これは、整合した性能を克服出来ることを意味する。
２．復号化されたシーケンスS={S_i, 1 <= i <= T}は、整合したブートストラップモデルを自動的に選択することによって、各繰返しステップで最適な方策であると期待することが出来る。
３．互いに相違する信号状態（ＳＩＳＭでは異なるＳ／Ｎ比又はＢＩＳＭでは異なる帯域幅）で十分トレーニングされたモデルΛ_ｘ(ζ)は、識別を行うためのブートストラップモデルとなる。
【００３５】
最初のジョイントブートストラップ動作は、ＳＳＭアルゴリズムの中心的な特徴となる。最初のステップにおいて、整合したモデルを、他のブートストラップ動作に対する識別シードとして選択する。これは、最高の識別パワーによる最適な初期化となる。それは、当該シードが最尤推定の意義に基づいてモデルと入力信号との間の最小の不整合を得ることができることを意味する。ブートストラップステップにおいて、このモデルは、Ｓ／Ｎ比又は帯域幅、すなわち、Λ_ｘ(ζ)のような信号状態の関数によって変化し、テスト音声も、（例えば、逆関数F_vによって）元の音声の推定値に更新される。それは、ＳＩＳＭではより高いＳ／Ｎ比又はＢＩＳＭではより広い帯域幅の認識性能に対する「プッシュプル」を示唆するものである。好ましくは、ブートストラップ動作を繰返し実行する。これにより、信号状態を、特徴及びモデルの相互の最適化に対して連続的に向上させる（例えば、Ｓ／Ｎ比又は帯域幅を増大させる）ことが出来る。
【００３６】
ＳＳＭアルゴリズムでは、ステップ３００において、整合したブートスラップモデルを識別シードとして選択するため、初期推定を、信号状態（ＳＩＳＭではＳ／Ｎ比又はＢＩＳＭでは帯域幅）につき行う。この初期推定は、特定の用途に対する代表的な状態に基づくものとすることが出来る。信号の（簡単な）テストを行ってもよい。最適な状態／混合シーケンスは、各繰返しステップにおいて整合されたブートストラップモデルを通じて得ることが出来る。図４には、ＳＳＭアルゴリズムを用いた音声認識システムの模範的ブロック図が示される。ブロック４１０において、受信した音声信号から特徴を抽出する。これを、図１のスペクトル分析サブシステム１１０で説明したようにして行うことができる。ブロック４２０において、信号状態の推定を行う。これは、そのような状態の既知の方法による測定／推定に基づくものとしてもよいし、或いは簡単に控えめな推定（所定の用途に対して普通は最小限に存在するので単に普通の劣化）のものとしてもよい。ブロック４３０において、音声は、（例えば、図１のユニット整合サブシステム１２０のために説明したような）通常の方法で処理される。この場合、本発明によれば、推定された信号状態を整合させるブートストラップモデルは、互いに相違する信号状態に対するモデルの集合を備える記憶部４４０から得られる。図３に対し説明したように、推定を元の音声入力につき行うように当該処理が変更される。さらに、図３の繰返し手順を続けてもよい。
【００３７】
ＢＩＳＭを、帯域幅増分アプローチを用いた狭帯域音声認識に適用して、マイクロホン音声からトレーニングされた高品質のモデルの精度を得ることが出来る。雑音のない状態でも電話音声の性能がマイクロホン音声よりも悪いことは良く知られている。ＢＩＳＭは、電話音声認識精度の伝統的な性能を超えることが出来る。有利なのは、ＳＩＳＭアルゴリズムとＢＩＳＭアルゴリズムとを、雑音のある狭帯域音声認識のために組み合わせることである。図５は、両アルゴリズムを用いた音声認識システムのブロック図を示している。例えば雑音のある電話音声の認識に適した本実施例では、ＳＩＳＭアルゴリズム及びＢＩＳＭアルゴリズムを順次に行い、電話ブートストラップモデルを用いて雑音の影響を除去するとともに、マイクロホンブートストラップモデルを用いて高品質のマイクロホンモデルの性能に近づけるようにする。ブロック５００において、受信した音声信号から特徴を抽出する。これは、図１のスペクトル分析サブシステム１１０で説明したようにして行うことができる。ブロック５１０において、２つの信号状態につき推定が行われる。本例では、Ｓ／Ｎ比及び信号帯域幅につき推定を行う。この推定は、そのような状態の既知の方法による測定／推定に基づくものとしてもよいし、或いは簡単に控えめな推定（所定の用途に対して普通は最小限に存在するので単に普通の劣化）のものとしてもよい。ブロック５２０において、音声は、（例えば、図１のユニット整合サブシステム１２０で説明したような）通常の方法で処理され、この場合、本発明によれば、推定された信号状態に整合するブートストラップモデルは、互いに相違する信号状態に対するモデルの集合を備える記憶部５３０から得られる。図示の例では、ブートストラップモデルは、入力信号の互いに相違するＳ／Ｎ比に対して最適化される。図３で説明したように、推定を元の音声入力につき行うようにも処理が変更される。さらに、図３の繰返し手順を続けてもよい。このようにして、このＳ／Ｎ比を仮定し、このＳ／Ｎ比で処理するのに適したモデルを配置するとともに、入力信号を、推定された元の信号に変換する。これに続いて、同一手順を当該帯域幅に対してブロック５４０で用い、この場合、種々の帯域幅に対するモデルは記憶部５５０から検索される。本例では、記憶部５３０及び５５０を統合することも出来る。例えば、サポートされたＳ／Ｎ比レベルの各々に対して、各々が異なる帯域幅を有するモデルの集合を格納してもよい。これによって、両方の最適化を実行するための簡単な処理が可能となる。例えば、デフォルト又は推定された帯域幅を仮定すると、先ず、Ｓ／Ｎ比に対しての最も適切なモデルが、好ましくは繰返しによって判定される。この結果、そのＳ／Ｎ比に対するモデルの集合を識別することになる。この場合、各モデルは帯域幅が互いに相違する。そして、次のプロセスにおいて、帯域幅に最も整合するモデルを、そのモデルの集合から選択する。２つの処理ステップを順次に行う代わりに、統合した手順を行うことも出来ることが分かる。
【００３８】
ＳＳＭアルゴリズムを、ブートストラップモデル／認識装置の代わりにブートストラップコードブック／エンコーダを用いることによって、ロバスト音声符号化に適用することが出来る。すなわち、Λ_ｘ(ζ)はブートストラップコードブックを表す。ＳＩＳＭアルゴリズムは、悪環境においてマイクロホン又は電話音声符号化の品質を高いＳ／Ｎ比レベルまで向上させることが出来る。また、ＢＩＳＭアルゴリズムも、電話音声符号化をマイクロホン（又はより広帯域の）品質まで向上させることが出来る。それは、電話音声符号化のためにＢＩＳＭアルゴリズムを用いることによって電話網を通じてマイクロホン品質の符号化音声を伝送することを意味する。何故なら、電話音声をマイクロホンコードブックを用いることによって復号することが出来るからである。音声符号化のためのＳＳＭの実現は、ブートストラップモデルをブートストラップコードブックにより置換することによる認識について説明したものと同様である。図５のブロック図は、雑音のある電話音声符号化にも当てはまる。その出力はコードブックエントリである。
【００３９】
好ましくは、発散に基づくモデル分離法(divergence-based model separation method)を、ＳＳＭアルゴリズムにおけるブートストラップモデルの識別トレーニングのために用いるのが良い。ＳＳＭアルゴリズムを実現するために、ブートストラップモデルを、雑音のあるデータから再トレーニングするのではなく雑音のないものから適合させる。その理由は、雑音のある音声データを予め十分に収集することは容易でないからである。好適な方法は、発散に基づく非分類関数（divergence-based misclassification function）に基づいており、この場合、相対的な発散は、カルバック−ライブラ（Kullback-Leibler: ＫＬ）情報（量）から導かれる。分布ｑ（ｘ）の他の分布ｐ（ｘ）に対するＫＬ情報（すなわちＫＬ発散）は、

として適正に規定される。ＫＬ情報は零以上であり、２つの分布が同一であるときには
Ｄ_ＫＬ（ｐ，ｑ）＝０
となる。ｐ及びｑが単一のガウス分布である場合、上記式は、閉形式

を有する。ここで、μ_ｐ及びμ_ｑは、ｐの分布及びｑの分布の平均であり、σ_ｐ ^２及びσ_ｑ ^２はそれぞれの変数である。連続的な密度ＨＭＭ（ＣＤＨＭＭ）に対して、混成したガウス密度は、状態観測確率密度関数（ｐｄｆ；probability density function）のために広く用いられる。したがって、状態間で平均したＫＬ情報は、

と規定される。ここで、Ｍ_ｐ及びＭ_ｑは、状態Ｐ及びＱの混合数である。次に、２つのＣＤＨＭＭ間の「閉じ方」を測定するために発散に基づく非分類関数が次のように公式化される。

Ｎは、モデルの状態の数とし、ｓ_ｉ,Λは、モデルのｉ番目の状態を表す。ＫＬ情報は対称ではない。故に、２つのモデル間の対称的な相対的発散を次のように規定する。

【００４０】
相対的分散

は、２つのモデルΛ_１及びΛ_２の状態内(intra-state)距離と状態間(inter-state)距離との差を測定することである。相対的分散が小さくなるほど、２つのモデルは互いに近接する。損失関数は、

と規定され、

となる。ブートストラップモデルの識別トレーニングのために２つの用途がある。
Λ_１＝Λ_２＝Λ：この用途は、モデルの識別向上のためのものである。この場合、モデルパラメータは、最小の相対的発散に基づいたモデルスペースにおいて調整される。それは、最小の誤りレートを伴うものでもある。モデルパラメータは、

によって適応形態で調整可能である。ここで、ｎを繰返し数とし、Ｕ_ｎを正の有限行列(positive definite matrix)としている。
【００４１】
Λ_１≠Λ_２：このアプローチは、識別適応と称される。モデルΛ_２の識別パワーがΛ_１のものよりも良好である、例えば、互いに相違するＳ／Ｎ比レベルであると仮定する。

によって、Λ_１の識別パワーをΛ_２の識別パワーに向かうよう向上するような適応を行うことが出来る。
【００４２】
発散に基づくモデル分離法の詳細な式
平均ベクトルの識別調整は以下のようになる。

この場合、

また、標準偏差の調整は以下のようになる。

この場合、

及び

となる。ここで、Ｍ_ｉ,Λは、モデルΛのｉ番目の状態の混合数を表し、μ_ｉｊｄ,Λ及びσ_ｉｊｄ,Λは、それぞれ、モデルΛのｄ次の、ｊ番目の混合密度の、そしてｉ番目の状態に係る標準偏差を表す。
【００４３】
結果
追加した雑音状態の下で適応され再トレーニングされたモデルの主要な性能限界を推定するために実験を行った。適応されたモデルは、隠れマルコフモデル（ＨＭＭ）のパラメータを、雑音のないものから十分に変化させて、雑音のあるテスト環境に整合させる。再トレーニングされたモデルは、整合した信号対雑音比（Ｓ／Ｎ比）環境においてホワイトガウス雑音で品質の落とされた音声から十分にトレーニングされる。上述したように、このような再トレーニングされたモデルは、ＳＩＭＤアルゴリズムで用いることが出来る。適応させられたモデル及び再トレーニングされたモデルの可能性及び限界を研究した。その結果は、本発明による再トレーニングされたモデルを使用するという概念が適用されたモデルを用いた場合よりも優れた性能を奏することを示している。これは、任意の状態に当てはまるが、低いＳ／Ｎ比に対して特に当てはまる。その結果は、再トレーニングされたモデルに対する電話誤りレートが適用されたモデルに対する場合よりも約６％良好となることを示している。再トレーニングされたモデルは、１５ｄＢのＳ／Ｎ比に対して６％だけワード誤りレートを向上させ、０ｄＢのＳ／Ｎ比に対して１８％もワード誤りレートを向上させることも確認された。詳細を以下に示す。
【００４４】
モデル再トレーニング技術を、既知のモデル適応／変換の技術と比較した。この既知の技術において、モデルをテスト環境に適応させる。結果的に得られる性能は、状態−フレーム整合に依存し、場合によっては整合された状態における性能によって制約される。最尤線形回帰(Maximun likelihood linear regression；ＭＬＬＲ)を用いて、当該モデルを新たな環境に適応させる。確率論的整合（ＳＭ；stochastic matching）は、環境的な変化に整合するために特徴又はモデルを変更させる。
【００４５】
モデル適応／変換のためのアルゴリズムの主な制約を、米国特許出願に係る文献のＵＳ５，７２７，１２４に対して上述したように十分に適応させられたモデルと本発明によるトレーニングされたモデルとを用いることによって研究した。十分に適応させられたモデルを用いて、当該付加的ノイズをモデル再推定のために正確に推定出来ることをシミュレートするようにしている。十分に適応させられたモデルの実験的なセットアップは次の通りである。
【００４６】
ステップ１：トレーニングの集成(training corpus)の雑音のない音声を、雑音のないモデルによってセグメント化し、パスを、雑音のあるモデルトレーニングに対して保持する。
【００４７】
ステップ２：追加した雑音の異なるレベルをテスト発声に追加する。全てのＨＭＭパラメータを、さらなる繰返しなしで再推定する。
【００４８】
再トレーニングしたモデルは、雑音のないモデルのトレーニングのような整合したＳ／Ｎ比環境において、雑音のある音声から十分にトレーニングされる。ホワイトガウス雑音を、互いに相違する全Ｓ／Ｎ比レベルでテスト発声に付加した。全Ｓ／Ｎ比を以下のように規定する。

ここで、σ_ｘ ^２を、テスト音声の発声の変数とし、σ_ｎ ^２を、付加した雑音の変数としている。
【００４９】
実験は、主に個別のフレーズ集成である「日本電子産業開発協会の共通音声データ集成」（ＪＳＤＣ）において行われた。ＪＳＤＣ集成は、ダイナミックマイクロホンを用いて記録され、１６ｋＨｚでサンプルされた。音声に富んだＪＳＤＣ都市名副集成(subcorpus)を用いて、電話に基づくＨＭＭをトレーニングした。実験において、３５個の単音ＨＭＭを、モデル毎に３状態で、状態毎に公称３２個のラプラシアン混成密度(Laplaian mixture density)で配置した。６３ワードの語彙を有するＪＳＤＣ制御ワード集成を、テストマテリアルとして用いた。
【００５０】
自由な発声の復号化(free-phone decoding)及びワード認識のための実験を行った。結果的に得られる発声及びワード誤りレートを図６及び図７にそれぞれ示す。水平方向に、Ｓ／Ｎ比をｄＢで示す。垂直方向に各誤りレートを（％で）示す。以下の曲線が示される。
【００５１】
１．低下した性能：各モデルを雑音のないものとし、テストマテリアルを、付加したホワイトガウス雑音によって悪化させる。この場合、雑音がない(clean)とは、雑音が付加されないことを意味する。
【００５２】
２．十分に適応させられた性能：各モデルは、既知の雑音レベルに基づいて雑音のないものから適応させられ、テストマテリアルは、同一Ｓ／Ｎ比レベルで悪化させられる。
【００５３】
３．再トレーニングされた性能：各モデルは、既知のＳ／Ｎ比環境で十分に再トレーニングされ、テストマテリアルは、同一Ｓ／Ｎ比レベルで悪化させられる。
【００５４】
再トレーニングしたモデルは、常に、任意の状態、特に低いＳ／Ｎ比レベルの下で適応モデルよりも良好に機能することが判明した。図６は、再トレーニングされたモデルの発声誤りレートが適応モデルに対するよりも約６％良好であることを示している。図７から、再トレーニングしたモデルは、１５ｄＢのＳ／Ｎ比についてはワード誤りレートが６％向上し、０ｄＢのＳ／Ｎ比についてはワード誤りレートが１８％も向上することも確認することができる。
【００５５】
ＡＳＪ(Acoustic Society of Japan)によって提供されるＪＮＡＳ(Japanese Newspaper Article Sentence)において更なる実験を行った。ＪＮＡＳは、毎日新聞（１００文）及びＡＴＲ５０３ＰＢセンテンス（５０個の音声的にバランスがとれた文）からの抜粋を読む３０６人の話者（１５３人の男性及び１５３人の女性）を含む。上記実験におけるが如く、ホワイトガウス雑音は、互いに相違するＳ／Ｎ比レベルでテスト発声に付加された。この実験において、３５個の文脈に依存しない単音ＨＭＭは、我々の実験では、モデルごとに３状態、状態毎に公称１６個のガウス混成密度で配置された。日本語の音声認識は、音節トポロジーの制約を伴って実行された。図８に示すような、さらなる実験は、ＳＩＳＭアルゴリズムが再トレーニングされた性能を克服出来ることを示し、その状態は大抵、全てのＳ／Ｎ比レベルの上限として観察される。水平方向にＳ／Ｎ比をｄＢで示し、垂直方向にそれぞれの誤りレートを（％で）示している。
【図面の簡単な説明】
【図１】本発明を用いることが出来る慣例的な音声処理システムのブロック図。
【図２ａ】音声処理に用いられる慣例的なワードモデルを示す図。
【図２ｂ】音声処理に用いられる慣例的なワードモデルを示す図。
【図３】本発明による方法の繰返しの実施例を示す図。
【図４】本発明による音声処理システムのブロック図。
【図５】Ｓ／Ｎ比及び帯域幅劣化を克服するために本発明による方法を２回実行する音声処理システムのブロック図。
【図６】本発明による方法及びシステムによって得られた結果を示す図。
【図７】本発明による方法及びシステムによって得られた結果を示す図。
【図８】本発明による方法及びシステムによって得られた結果を示す図。
【符号の説明】
１００：システム、
１１０：スペクトル分析サブシステム、
１２０：ユニット整合サブシステム、
１３０：ワードレベル整合システム、
１３２：サブワードモデル、
１３４：辞書、
１３６：ワードモデルコンポーザ、
１４０：センテンスレベル整合システム、
１４２：制約、
１４４：文法、
１５２：センテンス

Claims

劣化した音声入力信号を処理する方法であって、
・前記劣化した音声入力信号を受信するステップと、
・当該受信した入力信号の信号対雑音比及び帯域幅の少なくとも一方を有する信号状態を推定するステップと、
・当該推定された信号状態に対応する処理モデルを選択するステップであって、当該推定が前記信号対雑音比に係る場合はＳ／Ｎ比増分確率整合（ＳＩＳＭ）が選択され、当該推定が帯域幅に係る場合は帯域幅増分確率整合（ＢＩＳＭ）が選択されるようにしたステップと、
・前記受信した入力信号に基づいて元々発声した音声信号を推定するステップと、
・当該選択した処理モデルに従って当該推定した元々発声した音声信号を処理するステップと、
を含み、当該処理は、当該推定された信号状態の関数により前記処理モデルを変えることを含む、
方法。
請求項１に記載の方法であって、前記元々発声した音声信号を推定するステップは、所定の処理モデルが付与される、最も高い可能性で発声された音声信号を判定するステップを含む、方法。
請求項２に記載の方法であって、前記所定の処理モデルは、当該推定された信号状態に対応するものとして選択した処理モデルである、方法。
請求項３に記載の方法であって、
・当該受信した入力信号の信号状態の新たな推定を実行するステップと、
・当該新たに推定した信号状態に対応する処理モデルを選択するステップと、
・当該選択した処理モデルが付与される、直前の繰返しに係る当該推定された元の信号に基づいて、元々発声した音声信号を推定するステップと、
・当該選択したモデルに応じて当該推定された元の信号を処理するステップと、を繰返して実行し、
所定の状態を満たしたときには当該繰返しを終了する、方法。
請求項４に記載の方法であって、処理結果がこれ以上向上しない場合には前記繰返しを終了する、方法。
請求項４に記載の方法であって、前記信号状態の新たな推定を実行するステップは、より劣化した信号状態を推定するステップを含む、方法。
請求項１に記載の方法であって、当該音声処理は、音声認識を伴い、前記処理モデルは、音声認識モデルである、方法。
請求項１に記載の方法であって、前記音声処理は、音声符号化を伴い、前記処理モデルは、音声コードブック／エンコーダである、方法。
劣化した音声入力信号を処理する音声処理システムであって、
・前記劣化した音声入力信号を受信する入力部と、
・前記受信した入力信号の信号状態を推定する手段であって、前記信号状態が、前記受信した入力信号の信号対雑音比及び帯域幅の双方を含む、手段と、
・当該推定された信号状態に対応する処理モデルを選択する手段であって、前記信号対雑音比に関してＳ／Ｎ比増分確率整合（ＳＩＳＭ）が選択され、前記帯域幅に関して帯域幅増分確率整合（ＢＩＳＭ）が選択される、手段と、
・前記受信した入力信号に基づいて元々発声した音声信号を推定する手段と、
・当該選択した処理モデルに従って当該推定した元の信号を処理する処理手段であって、当該推定された信号状態の関数により前記処理モデルを変えるための手段を含む処理手段と、
を含む、
音声処理システム。
請求項１に記載の方法であって、所与のモデルの識別トレーニングに対する発散に基づくモデルの区別によって前記処理モデルを発生させるステップを含み、当該区別は、
・発散に基づく識別関数を推定するステップと、
・誤りレートの関数の最小化に基づいて、モデルパラメータに対する適応学習ステップを実行するステップと、
を含む、方法。
請求項１０に記載の方法であって、前記識別関数は、入力音声データによって動作する代わりに相対的発散から直接的に得られる、方法。
請求項１に記載の方法であって、当該推定された信号状態が、前記信号対雑音比及び前記帯域幅の双方を含み、前記処理モデルの前記選択が、前記信号対雑音比に関する前記Ｓ／Ｎ比増分確率整合及び前記帯域幅に関する前記帯域幅増分確率整合の双方を選択することを含む、方法。
劣化した音声入力信号を処理するための音声処理システムであって、
・前記劣化した音声入力信号を受信し、当該受信入力信号の信号対雑音比及び帯域幅の少なくとも一方を含む当該受信入力信号の信号状態を推定し、当該推定された信号状態に対応する処理モデルを選択し、当該受信入力信号に基づいて元々発声した音声信号を推定し、当該選択された処理モデルに応じて当該推定された元の信号を処理するように、当該処理には、当該推定された信号状態の関数により当該処理モデルを変化させるための手段が含まれるようにして、構成されたプロセッサであって、前記処理モデルの前記選択は、前記信号状態の推定が前記信号対雑音比に係る場合はＳ／Ｎ比増分確率整合（ＳＩＳＭ）を選択し、前記信号状態の推定が前記帯域幅に係る場合は帯域幅増分確率整合（ＢＩＳＭ）を選択することを含む、プロセッサ
を含むシステム。