JP4195428B2

JP4195428B2 - 多数の音声特徴を利用する音声認識

Info

Publication number: JP4195428B2
Application number: JP2004270823A
Authority: JP
Inventors: スコット・イー・アクセルロッド; スリーラム・ヴィスワナス・バラクリシュナン; スタンリー・エフ・チェン; ユジン・ガオ; ラメシュ・エー・ゴピナス; ホン−コワン・クオ; ベノア・メゾン; デーヴィッド・ナハムー; マイケル・アラン・ピチェニー; ジョージ・エー・サオン; ジェフリー・ジー・ツヴァイク
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2003-11-28
Filing date: 2004-09-17
Publication date: 2008-12-10
Anticipated expiration: 2024-09-17
Also published as: US7464031B2; JP2005165272A; US20080312921A1; CN1296886C; CN1622196A; US20050119885A1

Description

本発明は、一般に音声認識システムに関し、より詳細には、対数線形モデルと共に多数の音声特徴を使用する音声認識システムに関する。

音声認識システムは、未知の発話からワード・シーケンスを識別するのに使用される。例示的音声認識システムでは、ケプストラム特徴やデルタケプストラム特徴などの音声特徴が、未知の発話から特徴抽出器によって抽出され、その未知の発話が特徴付けられる。次いで探索を行い、抽出したその未知の発話の特徴を、音声単位（句、単語、シラブル、音素、サブフォンなど）のモデルと比較し、様々なワード・シーケンス仮説（hypothesis,-es）のスコアまたは確率を計算する。通常は、可能性の低い仮説を除くことにより、探索スペースが制限される。最高のスコアまたは尤度または確率に関連するワード・シーケンスが、その未知の発話として認識される。音響モデルに加えて、様々なワード・シーケンスの相対尤度を求める言語モデルもワード・シーケンス仮説の全スコアの計算で使用される。

トレーニング・オペレーションにより、音声認識モデルに関するパラメータが求められる。音声認識モデルは、音声を一続きの音響特徴として、またはサブフォン、音素、シラブル、単語、句などの観測不能な「真の」状態シーケンスによって生成される観測値としてモデル化するのに使用することができる。トレーニング・オペレーションからのモデル・パラメータ出力はしばしば、トレーニング観測値の尤度を最大にするように推定される。音声認識に関する最適なパラメータの組は、トレーニング・データに対する尤度を最大にすることによって求められる。音声認識システムは、観測した音声信号が与えられた場合に、最大の事後確率を有するワード・シーケンスを求め、未知の発話を認識する。最良のワード・シーケンス仮定は、探索スペース内のすべての可能な仮説のスコアを考慮する探索プロセスによって求められる。

本発明の主たる目的は、音声認識システムにおいて、未知の発話を認識するのに対数線形モデルと多数の音声特徴の組合せを提供することにある。

本発明の例示的態様によれば、音声認識システムが提供される。

本発明の様々な例示的態様によれば、未知の発話を認識するのに、対数線形モデルと多数の音声特徴の組合せが提供される。もちろん、本発明における用語「多数」は本発明の特徴が現れるに必要十分な程度の「多数」であれば足り、一般的な意味として把握される「多数」を必ずしも意味せず、限定的に解釈されない。なお、多数の音声特徴は複数のレベルに分類し得る。

本発明の様々な例示的態様によれば、音声認識システムは、観測した音声信号と、場合によってはその他の情報とが与えられた場合に、対数線形モデルを使用して、仮説の事後確率、すなわち一続きの言語単位の条件付き確率をモデル化する。

こうした例示的態様によれば、事後モデルは、観測した音声特徴および事後モデルのパラメータが与えられた場合に、その一続きの言語単位の確率を取り込む。

本発明のこうした例示的態様によれば、多数の音声特徴が与えられた場合に、ワード・シーケンス仮説の確率を使用して事後モデルを求めることができる。すなわち、こうした例示的態様によれば、多数の音声特徴が与えられた場合に、タイミング情報およびラベルを有するワード・シーケンスの確率が使用されて事後モデルが求められる。

本発明の様々な例示的態様によれば、使用される音声特徴は、非同期音声特徴、重複する音声特徴、および統計的に非独立な音声特徴を含むことができる。

本発明の様々な例示的態様によれば、貧弱な、または不完全なトレーニング・データでパラメータをトレーニングすることができる対数線形モデルが使用される。

本発明の様々な例示的態様によれば、トレーニングで使用されるすべて特徴がテスト／認識で出現する必要はない。

以下の説明では、本発明の例示的態様がどのように使用されるかを詳述する。本発明の説明全体を通して、図１〜６を参照する。各図を参照するとき、各図にわたって示す同様の構造および要素は、同様の参照数字で示す。

図１には、本発明の例示的態様を実施する例示的音声処理システム１０００が示されている。図１の音声処理システム１０００は単に例示のために提示したに過ぎず、本発明の例示的態様を実装することができる無数の構成の代表例であることにまず留意されたい。したがって、図示するシステム構成に本発明が限定されるとみなすべきではない。

図１に示すように、音声処理システム１０００は、電話システム２１０、音声移送システム２２０、音声入力装置２３０、およびサーバ３００を含む。端末１１０〜１２０が、電話ネットワーク２１５を介して電話システム２１０に接続され、端末１４０〜１５０が、データ・ネットワーク２２５を介して音声移送システム２２０に接続される。図１に示すように、電話システム２１０、音声移送システム２２０、および音声入力装置２３０は音声認識システム３００に接続される。音声認識システム３００は、音声データベース３１０にも接続される。

動作の際には、音声が、リモート・ユーザから、端末１１０〜１５０のうち１つを通じてネットワーク２１５または２２５を介して送られ、または音声入力装置２３０から直接送られる。入力音声に応答して、端末１１０〜１５０は、様々な音声認識／端末アプリケーションを実行する。

音声認識システム３００は、入力音声を受け取り、音声認識結果を入力端末／装置に提供する。

音声認識システム３００は、音声データベース３１０を含むことができ、または音声データベース３１０に接続することができ、音声データベース３１０は、トレーニング・データ、音声モデル、メタデータ、音声データおよびその真のトランスクリプション、言語／発音モデル、アプリケーション特有のデータ、話者情報、様々なタイプのモデルおよびパラメータなどを含む。次いで音声認識システム３００は、最適なワード・シーケンスを認識出力として提供し、またはワード・シーケンス仮説のラティスを、対応する信頼スコアと共に提供することができる。本発明の様々な例示的態様によれば、ラティスは、複雑なトポロジを有することができるグラフによる１組の仮説のサマリを含む複数の実施形態を有することができる。グラフがループを含む場合、その１組の仮説は無限となる可能性があることを理解されたい。

上記で論じたように、上記の例示的実施形態は、特定の実施形態での音声処理システム１０００を記述するが、音声処理システム１０００は、音声処理の技術分野で周知のどんなシステムでもよい。したがって、当業者に周知の様々なトポロジおよびプロトコルとして音声処理システム１０００を構成することができ、音声処理システム１０００がそうしたトポロジおよびプロトコルを含むことができることが企図される。

例えば、図１では４つの端末（部分的には２つの端末）と１つの音声入力装置しか示していないが、本発明の様々な例示的態様は、何らかの特定の数の端末や入力装置に限定されない。したがって、本発明では、任意の数の端末および入力装置を適用できることが企図される。

図２に、本発明の例示的態様を実施する例示的音声認識システム３００を示す。図２に示すように、音声認識システム３００は、スピーチ・プロセッサ（音声プロセッサ）３２０、記憶装置３４０、入力装置３６０、および出力装置３８０を含み、それらすべてがバス３９５で接続される。

動作の際には、音声認識システム３００のプロセッサ３２０は、端末１１０〜１５０または音声入力装置２３０のユーザから、入力装置３６０を通じて、未知の発話、呼出し元ＩＤなどのメタデータ、話者の性別、チャネル状態などを含む着信音声データを受け取る。次いでスピーチ・プロセッサ３２０は、記憶装置３４０に格納された、またはデータベース３１０から入力装置３６０を通じて受け取った適切なモデルに基づいて音声認識を実施する。次いでスピーチ・プロセッサ３２０は、出力装置３８０を通じて、要求側端末１１０〜１５０または音声入力装置２３０のユーザあるいは（ユーザが話したことに対して適切な行動を実施することができる）コンピュータ・エージェントに向けて認識結果を送る。

図２には特定の形態の音声認識システムを示すが、他のレイアウトも可能であり、本発明の様々な態様がそのようなレイアウトに限定されないことを理解されたい。

上記の例示的実施形態では、スピーチ・プロセッサ３２０は、メモリ３４０またはデータベース３１０に格納されたデータに基づいて認識結果を提供することができる。しかし、本発明の様々な例示的態様がそのようなレイアウトに限定されないことを理解されたい。

図３に、本発明の例示的態様を実施する例示的スピーチ・プロセッサ３２０を示す。図３に示すように、スピーチ・プロセッサ３２０はデコーダ３２２を含む。デコーダ３２２は、対数線形モデルを使用する音声認識に関連する言語単位の事後確率（posterior probability）を使用して、未知の発話（utterance）の認識を実現する。すなわち、デコーダ３２２は、求めた確率から、最高の確率を有する最適なワード・シーケンスを求め、そのワード・シーケンスを認識出力として出力する。デコーダは、可能な仮説のラティス（lattice）を取り除いて、探索スペースを制限し、計算時間を削減することができる。

デコーダ３２２はさらに、トレーニング用の音声データとその真のトランスクリプションを格納するトレーニング・ストレージ３２５と、トレーニング・オペレーションから得られるモデル・パラメータを格納するモデル・ストレージ３２７とに接続される。

図４に、図３のデコーダをより詳細に示す。図４に示すように、デコーダ３２２は、特徴抽出器３２２２、対数線形機能３２２４、および探索装置３２２６を含む。

動作の際には、トレーニング・オペレーションの間、トレーニング・データが、真のワード・トランスクリプションと共に、トレーニング・ストレージ３２５からデコーダ３２２に入力され、デコーダ３２２では、音声認識オペレーションの間に使用されるモデル・パラメータが生成され、モデル・ストレージ３２７に出力される。音声認識オペレーションの間、未知の音声データが、トレーニング・オペレーションの間にモデル・ストレージ３２７に格納されたモデル・パラメータと共にデコーダ３２２に入力され、最適なワード・シーケンスが出力される。

図３〜４に示すように、トレーニング・オペレーションの間、トレーニング・データが、メタデータ（meta-data）と、真のトランスクリプションから構成することができ、通常は単語であるが、句、シラブル、音素、音響音声特徴、サブフォンなどのその他の言語単位とすることもできる真理要素３２５からの真理（truth）と、必須ではないが、場合によっては、真のトランスクリプション中の言語単位を音声の対応する分節（segments）と整合させるタイム・アライメントと共に、特徴抽出器３２２２に入力される。すなわち、真理の最大尤度を求めるためにトレーニング・オペレーションが実施される。特徴抽出器３２２２は、多数の抽出要素を使用して、入力データから多数の特徴を抽出する。本発明の様々な例示的態様によれば、有利には、特徴は、非同期の特徴、重複する特徴、統計的に非独立な特徴などとすることができることを理解されたい。抽出要素は、限定はしないが、直接合致要素（directmatching element）、同期音声要素（synchronous phonetic element）、音響音声要素、言語意味語用論特徴要素（linguisticsemantic pragmatic features element）などを含む。

例えば、例示的な直接合致要素は、データベース中の様々な基準音声分節に対して、動的タイム・ワーピング・スコアを計算することができる。同期音声特徴は、メル・ケプストラム特徴などの伝統的な特徴から導出することができる。音響音声特徴は、ボイシング、節点などの言語示差的特徴（linguistic distinctive feature）を含む非同期特徴でよい。

本発明の様々な例示的実施形態によれば、こうした特徴抽出器のいずれも、完全に正確である必要がないことを理解されたい。特徴は、特定のワード・シーケンス仮説、例えば意味的または構文的パース・ツリー、語用論的（pragmatic）または意味的（semantic）コヒーレンスから抽出された、より高レベルの情報も含むことができる。特徴は、話者情報、発話速度、チャネル状態などのメタデータでもよい。

次いで、抽出された多数の特徴が対数線形機能３２２４に提供され、対数線形機能３２２４は、抽出された特徴と、場合によっては音声データに対する言語単位の特定のタイム・アライメントとが与えられた場合に、対数線形モデルのパラメータを使用して、仮定される言語単位またはシーケンスの事後確率を計算することができる。トレーニング・プロセスの間は、正しいワード・シーケンスは既知である。例えば、正しいシーケンスは、音声を文字化する人間によって作成される。しかし、発音の別形などのために、ワード・シーケンスを構成する複数の有効な言語単位の選択肢、例えば音素（phoneme）が存在する。すべての有効なシーケンスは、ラティスとしてコンパクトに表すことができる。加えて、音声に対する任意の特定の単位シーケンスの真のタイム・アライメントは、既知であることもそうでないこともある。トレーナ（図示せず）は、抽出された特徴、正しいワード・シーケンス、または言語単位シーケンスを、場合によっては音声に対するタイム・アライメントと共に使用し、対数線形モデルのパラメータを最適化する。

したがって、トレーニングの間、対数線形出力を探索装置３２２５に提供することができ、探索装置３２２５は、より良好な言語単位シーケンスの選択肢、および音声に対する言語単位シーケンスのより正確なタイム・アライメントを改善し、提供することができる。次いでこの新しいアライメントをＦＥＥＤＢＡＣＫとして特徴抽出器３２２２にループバックし、２回目としてプロセスを反復し、モデル・パラメータを最適化することができる。人間の注釈または隠れマルコフ・モデル技術によって初期タイム・アライメントをブートストラップすることができることを理解されたい。したがって、最大尤度に対応するモデル・パラメータがトレーニング・モデル・パラメータとして求められ、モデル・データ要素３２７に送られ、モデル・データ要素３２７では、後続の音声認識オペレーションのために格納される。

本発明の様々な例示的実施形態では、対数線形モデルが、改良反復スケーリング、反復スケーリング、前処理付き共役勾配（preconditioned conjugate gradient）などを含むいくつかのアルゴリズムのうちいずれか１つを使用してトレーニングされる。トレーニングの結果として、何らかの制約を受ける最大尤度や最大エントロピーなどの何らかの基準の点から、モデルのパラメータが最適化される。トレーニングは、特徴抽出器によって提供される特徴、正しい言語単位シーケンス、および音声に対する対応するタイム・アライメントを使用するトレーナ（図示せず）によって実施される。

例示的実施形態では、現況技術の隠れマルコフ・モデル認識システム（図示せず）で前処理して、特徴を抽出し、ターゲットの単位シーケンスを整合する。例えば、隠れマルコフ・モデルを使用して、音声フレームを最適のサブフォン状態シーケンスに整合し、最高位のガウシアンを求める。すなわち、隠れマルコフ・モデル内では、所定の音声フレームに対する最良のマッチであるメル・ケプストラム特徴などの伝統的特徴のガウス確率モデルが使用される。例示的実施形態では、サブフォン状態シーケンスおよびランク付けガウス・データが、対数線形モデルをトレーニングするのに使用される特徴である。

この例示的実施形態はある特定の実装に過ぎず、対数線形モデルを使用する多数のその他のトレーニングの実施形態を本発明の様々な態様で使用できることを理解されたい。

音声認識オペレーションの間、認識すべき音声データが、メタデータと、場合によっては探索装置３２２６の現探索スペースを含むラティスと共に、特徴抽出器３２２２に入力される。このラティスは、隠れマルコフ・モデルに基づく周知の技術によって事前生成することができ、または前の認識のラウンドで生成することができる。ラティスは、探索スペース内で考慮される様々な可能な仮説のスコア／確率の現在の組のコンパクトな表現である。次いで特徴抽出器３２２２は、多数の抽出要素を使用して入力データから多数の特徴を抽出する。本発明の様々な例示的態様によれば、特徴は、非同期の特徴、重複する特徴、統計的に非独立な特徴などでよいことを理解されたい。抽出要素は、限定はしないが、直接合致要素、同期音声要素、音響音声要素、言語意味語用論特徴要素などを含む。次いで、抽出した多数の特徴が、対数線形機能３２２４に提供される。

すべての可能なワード・シーケンスのうち最適なワード・シーケンスを求めるために探索装置３２２６が設けられる。例示的実施形態では、探索装置３２２６は、可能性の低いワード・シーケンスを除くことにより、最も見込みのある候補に探索を限定する。探索装置３２２６は、その他の単位シーケンスの全ワードまたは一部のワードの尤度について対数線形機能３２２４に照会する。探索装置３２２６によって考慮される探索スペースは、スコア／確率と共に、考慮中の仮説のコンパクトな表現であるラティスとして表すことができる。このようなラティスは、探索スペースを抑制する探索装置への入力とすることができ、または作業が探索装置３２２６によって行われて、ラティス中の確率が更新され、または可能性の低い経路が除かれた後の出力とすることができる。有利には、探索装置３２２６は、ダイナミック・レンジ補償後の線形補間など非対数線形式に、対数線形機能（log-linear function）３２２４からの確率／スコアを、言語モデル、隠れマルコフ・モデルなどのその他のモデルからの確率／スコアと組み合わせることができる。しかし、言語モデルおよび隠れマルコフ・モデル情報は、対数線形機能３２２４で組み合わされる特徴とみなすこともできる。

探索装置３２２６の出力は、探索スペース中のすべての仮説の中で最高の事後確率を有する最適なワード・シーケンスである。出力は、コンピュータ・エージェントが使用してさらなるアクションを起こすことができる非常に可能性の高い仮説の非常に切り詰められたラティス（highly pruned lattice）も出力することができる。Ｎベスト・リストが、非常に切り詰められたラティスの一例である。探索装置３２２６は、更新後のスコアおよび場合によってはアライメントを有するラティスを出力することもできる。そのラティスを特徴抽出器３２２２および対数線形機能３２２４にフィードバックして、スコア／確率を改善することができる。本発明の様々な例示的実施形態によれば、この最後のステップは任意選択でよいことを理解されたい。

上記の例示的実施形態で論じたように、本発明の例示的態様の音声認識システムでは、理論的には語彙中の単語の任意のシーケンスからなる探索スペース内に多数の可能なワード・シーケンスが存在し、その結果、効率的な探索オペレーションがデコーダ３２２によって実施され、最適なワード・シーケンスが得られる。図４のフィードバック・ループに示すように、最初のパスで粗いモデルを使用してラティス、または最高の仮説のリストを生成することができ、かつ後続のパスでより改善されたモデルを使用してループバックおよび再スコアすることができる場合、シングル・パス復号化またはマルチプル・パス復号化を適用することができることを理解されたい。

マルチプル・パス復号化では、ラティス中の各ワード・シーケンスの確率が評価される。特定の各ワード・シーケンスの確率は、その構成要素サブフォン状態シーケンスの最良のアライメントの確率に関係付けることができる。本発明の様々な実施形態による任意の様々なアライメント・プロセスで、最適に整合した状態シーケンスを見つけることができ、本発明は何らかの特定のアライメントに限定されないことを理解されたい。

最高の確率を有するワード・シーケンスの選択が、単語認識を実施するための新しいモデルを使用して行われる。

本発明の様々な例示的実施形態によれば、様々なモデルからの確率を、本発明の様々な例示的実施形態の対数線形モデルからの確率とヒューリスティックに組み合わせることができることを理解されたい。具体的には、ダイナミック・レンジ補償後の線形補間により、伝統的な隠れマルコフ・モデル尤度スコアおよび言語モデル・スコアを含む複数のスコアを、本発明の様々な例示的実施形態の対数線形モデルからの確率スコアと組み合わせることができる。

本発明の様々な例示的実施形態によれば、探索装置３２２６は、様々なシーケンスのスコア／確率を求める際に、反復的に対数線形機能３２２４に照会（consult）する。ラティスは、探索装置３２２６によって照会され、何の仮説を考慮するかが決定される。ラティス中の各経路は、ワード・シーケンスに対応し、ラティス中に格納された関連する確率を有する。

本発明の上述の例示的実施形態では、対数線形モデルが、多数の音声特徴が与えられた場合に、仮説の事後確率に基づいて求められる。対数線形モデルにより、統一された仕方での、複数の特徴の潜在的な組合せが可能となる。例えば、非同期の特徴および重複する特徴を公式に組み込むことができる。

単純な例として、一続きの音が与えられた場合に、事後確率を、仮説に関連するシーケンスの確率として表すことができる。

上式で、
Ｈ_ｊは、一続きのワード・シーケンス（またはその他の言語単位）

を含むｊ番目の仮説であり、
ｉは、ｉ番目の単語（または単位）を指すインデックスであり、
ｋは、仮説中の単語（単位）数であり、
Ｔは、音声信号の長さ（例えばフレーム数）であり、

は、仮説Ｈ_ｊに関連する単語のシーケンスであり、

は、音響観測値のシーケンスである。

上記の式（１）では、条件付き確率を最大エントロピー対数線形モデルによって表すことができる。

上式で、
λ_ｊは対数線形モデルのパラメータであり、
ｆ_ｊは、抽出した多数の特徴であり、
Ｚは、式２が真の確率であることを保証する規格化因子（normalizationfactor）である（合計すると１になる）。規格化因子は条件付き変数の関数である。

上記の例示的実施形態に示すように、本発明の様々な例示的態様によれば、図１〜４に示す音声認識システムは、対数線形モデルを使用して、音声認識に関連する言語単位の事後確率をモデル化する。上記で示したように、事後モデルは、観測された音声特徴と事後モデルのパラメータが与えられた場合、言語単位の確率を取り込む。したがって、多数の音声特徴が与えられた場合、事後モデルを使用して、ワード・シーケンス仮説の確率を求めることができる。

上記の表現は単なる一例であること、および本発明の様々な態様によれば、無数の変形形態を適用できることを理解されたい。例えば、シーケンス

はワード・シーケンスである必要はなく、発話分に関連する句、シラブル、音素、サブフォン単位などのシーケンスでもよい。さらに、本発明の様々な態様のモデルを様々なレベルの言語的階層に適用することができること、および特徴ｆ_ｊが、同期と非同期、独立と重複、相関と非相関、分節的と超分節的（suprasegmental）、音響的音声的、階層型言語的、メタデータ、より高レベルの知識などを含む多数の可能性を含むことができることを理解されたい。

本発明の様々な例示的態様に従ってモデル化することにより、使用される音声特徴は、非同期音声特徴、重複する音声特徴、および統計的に非独立な音声特徴を含むことができる。

本発明の様々な態様では、以下の特性を有する関数ｆの関数として特徴を定義することができる。

上式で、

は、確率が左右されるすべてのものを表し、状況および観測値を含むことができ、
ｂは、条件付き事象のある特性を表す二値関数であり、ｗは、単語などのターゲット（または予測される）状態／単位であり、
αは関数の重みである。

すなわち、特徴は、文脈および観測値に左右される計算可能な関数であり、特定の文脈／観測値および特定の予測、例えばｗ_ｉに対してファイアし、またはアクティブとなると考えることができる。

関数の重みは１または０に等しくすることができ、または実数値とすることができることを理解されたい。例えば、例示的実施形態では、重みは、特性が音声信号内で検出された否かについての信頼度、または特性の重要度に関係付けることができる。

本発明の様々な例示的態様によれば、デコーダ３２２からのラティス出力は、複数のスコアからなる可能性がある。例えば、上位の所定の数のマッチのスコアを得ることができる。加えて、隠れマルコフ・モデル・デコーダから得られた隠れマルコフ・モデル・スコアや、単語とシラブルと異音などの動的タイム・ワーピングの様々なマッチ・レベルに関するスコアなどの情報を含む他のデータを探索装置３２２６で使用することができる。

様々なスコアを組み合わせる例示的方法は、対数線形モデルを使用し、次いで対数線形モデルのパラメータをトレーニングすることである。

例えば、経路Ｈ_ｉの事後確率に関する対数線形モデルは、様々なスコアの一次結合の和の指数関数によって与えることができる。

上式で、
Ｆ_ｗｊは、単語ｗによって埋められる分節に対するｊ番目のスコア特徴である。例えば、様々な周知の動的タイム・ワーピングおよび隠れマルコフ・モデル技術（図には明示的に示さず）によって得られる上位１０個の動的タイム・ワーピング・スコアおよび隠れマルコフスコアが返される場合、ラティス中の各単語について１１個のスコア特徴が存在することになる。

Ｚは、指数関数項のすべての経路（Ｈ_１．．３）にわたる和によって与えられる規格化定数Ｚであり、

式（４）が真の確率、すなわち合計して１となるよう保証するのに必要である。

トレーニング・データに対して生成されるラティスについて、正しい経路の尤度を最大にすることにより、すなわちすべてのトレーニング・データにわたって仮説の確率を最大にすることにより、パラメータα_ｊを推定することができる。

上記の実施形態は単に例示的な実施形態に過ぎないこと、および階層的分節化（hierarchicalsegmentation）が使用可能であるので、シラブル特徴および異音（allophone）特徴を加えることによって上記の式（４）を修正することができることを理解されたい。重みパラメータα_ｊは、それ自体依存関係を有することができる。例えば、重みパラメータα_ｊは、単語長の関数とすることができ、またはその単語／シラブル／音などについてのトレーニング・サンプル数の関数とすることができる。

さらに、それぞれ経路Ｈ_ｉおよび音響観測値シーケンス

の関数である一般的特徴の重み付き和である指数を有するように式（４）をさらに一般化できることを理解されたい。

さらに、「非言語的（non-verbal）情報」（テストおよびトレーニング・シーケンスは同一の性、同一の話者、同一の雑音状態、同一の音声文脈などによるものかどうかなど）を表す他の特徴もこのフレームワークに含めることができること、および本発明の様々な例示的態様が上述の実施形態に限定されないことを理解されたい。

他の例示的実施形態では、個々のワード・スコアＦ_ｗｊ自体を、対数線形モデルからの事後ワード確率となるように取ることができる。対数線形モデルは、多数の特徴を使用した場合であっても極めて容易に計算することができる。特徴の例は、動的タイム・ワーピング、隠れマルコフ・モデルなどである。

本発明の例示的態様によれば、任意の所与の検出された特徴の組を最大限利用するために、存在しない特徴についての仮定を利用せずに、対数線形モデルが使用される。すなわち、トレーニング・オペレーションと検査オペレーションで同一の特徴の組を必要とする隠れマルコフ・モデルなどの他のモデルとは対照的に、対数線形モデルは、未観測の特徴についての仮定を作成せず、その結果、ある特徴が、例えばノイズマスキングのために観測不能である場合、対数線形モデルは他の利用可能な特徴を最大限利用する。

本発明の例示的態様によれば、音声認識システムは、既知のモデルを対数線形モデルと共にトレーニングすることにより、既知のモデルを最大限利用することができ、既知のモデルを使用して第１ラティス、アライメント、または復号化を得、本発明の対数線形モデルと組み合わせることができる。

本発明の様々な例示的実施形態によれば、隠れマルコフ・モデルで広く使用されるメル・ケプストラム特徴などのスペクトル特徴のガウス分布の重みつき組合せを含み、音声分節をトレーニング・データの大規模コーパスに整合させる伝統的ガウス混合モデルにおいて、多数の可能な特徴の中で、伝統的な短時間スペクトル特徴に対する最良のマッチであるガウシアンの識別を利用する対数線形モデルが提供される。

本発明の様々な例示的態様によれば、トレーニングで使用されるすべての特徴が検査／認識オペレーションで現れる必要がないなどの利点が得られる。すなわち、対数線形モデル以外のモデルでは、トレーニングのために使用される特徴が検査で現れない場合、「不整合条件」が得られ、性能が貧弱となる。したがって、対数線形モデル以外のモデルを使用する結果として、トレーニングで使用される一部の特徴が雑音によって不明瞭となり、それがテスト・データ中に存在しない場合、しばしば障害が起こる。

図５に、本発明の様々な例示的態様によるデータ・トレーニングの方法の流れ図を示す。ステップ５０００で開始して、制御はステップ５１００に進み、ステップ５１００でトレーニング・データおよびメタデータがデコーダに入力される。このデータは、格納された真理を含めて、通常はトレーニング・ストレージであらかじめ収集され格納された音声データを含む。メタデータは、話者の性別または識別、記録チャネル、話者のプロフィールなどの情報を含むことができることを理解されたい。真理は、一般に、文字化する人間によって作成された真のワード・シーケンス・トランスクリプションから構成することができる。次にステップ５２００では、モデルがデコーダに入力される。このモデルは、モデル・ストレージにあらかじめ格納された一般的モデルである。次いでステップ５３００では、あらかじめ格納されたラティスが入力される。次いで制御はステップ５４００に進む。

ステップ５４００では、多数の特徴が抽出され、探索が実施される。これらの特徴は、メル・ケプストラムや時間導関数などの伝統的スペクトル特徴から導出された特徴、ボイシング、節点などの音響音声または発語特徴、音声分節に対する動的タイム・ワーピング・マッチからのスコア、特定のワード・シーケンス仮説、例えば意味的または構文的パース・ツリーから抽出されたより高いレベルの情報、語用論的または意味的コヒーレンスなど、発話速度およびチャネル条件などを含む。このステップで抽出される特徴の一部は、このプロセスで更新される対数線形またはその他のモデルを含むことができることも理解されたい。

このステップでは、スコア、目標関数、補助統計を有するラティスが、本発明の様々な例示的実施形態による対数線形機能を使用して求められる。複数のモデル、すなわち全スコアを与える対数線形モデルならびに特徴抽出のために使用される任意のその他のモデルがこのプロセスでトレーニングされるために、複数の目標関数がこのステップで計算されることを理解されたい。トップ・レベル目標関数は、最大化すべき合計事後尤度である。特徴抽出器に対して複数のタイプの目標関数が存在することができることを理解されたい。様々な例示的実施形態では、こうしたタイプの目標関数は、事後尤度、直接尤度、距離などを含む。

このステップでは、真のワード・シーケンス・トランスクリプションと一致する様々な単位シーケンス仮説が、その対応するタイム・アライメントと共に調査され、部分的シーケンスおよび全シーケンスの確率が求められる。切り詰められた組合せ結果により、スコアを有する更新後ラティスが求められる。

本発明の様々な例示的態様によれば、このステップで計算される補助統計は、勾配関数と、補助関数技法を使用する最適化に必要な他の統計を含むことを理解されたい。

次にステップ５５００では、目標関数が最適に十分近いか否かが判定される。目標関数または勾配の増加に関するしきい値を含む、最適性のための複数のテストが存在することを理解されたい。最適性に達していない場合、制御はステップ５６００に進み、ステップ５６００では、モデルが更新され、次いで制御はステップ５２００に戻る。ステップ５６００では、補助統計を使用してモデルが更新される。限定はしないが、準ニュートン（quasi-Newton）・グラジエント・サーチ、一般化反復スケーリング、および拡張バウム・ウェルチ（extendedBaum-Welch）、および期待最大化を含む、モデルを更新するための複数の方法が存在することを理解されたい。

効率的な実装は、反復でパラメータのサブセットだけを更新することができ、したがってステップ５４００では、実施する必要があるのは限定された計算だけである。この制限は、単一の特徴抽出器を更新することだけを含むことができる。

最適性に達した場合、制御はステップ５７００に進み、ステップ５７００では、モデル・パラメータが出力される。ステップ５８００では、プロセスが終了する。

図６に、本発明の様々な例示的態様による音声認識のための方法の流れ図を示す。ステップ６０００で開始して、制御はステップ６１００に進み、ステップ６１００では、テスト・データがデコーダに入力される。本発明の様々な例示的実施形態によれば、このテスト・データは、リモート端末のユーザから電話またはデータ・ネットワークを介して受信され、または音声入力装置のユーザから受信される。このデータは、話者の性別または識別、記録チャネル、話者のプロフィールなどのメタデータも含むことができる。次にステップ６２００では、モデルが入力される。このモデルは、トレーニング・オペレーション中にモデル・ストレージ３２７に格納される。次いでステップ６３００では、あらかじめ格納された仮説ラティスが入力される。次いで制御はステップ６４００に進む。

ステップ６４００では、多数の特徴が抽出され、こうした特徴の対数線形モデルを使用して探索が実施される。こうした特徴は、伝統的なスペクトル特徴から導出された特徴を含む。このステップで抽出される特徴の一部は、対数線形またはその他のモデルを使用して求めることができることも理解されたい。

このステップでは、様々な単位シーケンス仮説とその対応するタイム・アライメントが調査され、部分的シーケンスおよび全シーケンスの確率が求められる。このステップでのこの探索は、前の入力ラティスによって抑制されることを理解されたい。切り詰められた組合せ結果により、スコアを有する更新後ラティスが求められる。この更新後ラティスの特定の実施形態は、単一の最も可能性の高い仮説とすることができることを理解されたい。

次に、ステップ６５００では、別のパスが必要であるか否かが判定される。別のパスが必要である場合、制御はステップ６２００に戻る。後続のパスで使用される特徴およびモデルは変化する可能性があることを理解されたい。ステップ６４００でのラティス出力は、ステップ６３００での入力ラティスとして使用することができる。そうではなく、追加のパスが不要である場合、制御はステップ６６００に進み、ステップ６６００では、最適なワード・シーケンスが出力される。すなわち、最高のスコアを有するラティス中の仮説に対応するワード・シーケンスが出力される。代替実施形態では、ラティスが出力されることを理解されたい。

次いで制御はステップ６７００に進み、そこでプロセスは終了する。

本発明の上記の説明は、例示および説明のために提示したものである。この説明は網羅的なものではなく、開示の厳密な形態に本発明を限定するものでもなく、上記の教示に照らして、その他の修正形態および変形形態が可能である。したがって、開示の実施形態は、本発明の原理およびその実際的応用例を最も良く説明し、それによって他の当業者が、企図される特定の使用法に適するように、様々な実施形態および様々な修正形態として本発明を最良に利用することが可能となるために選び、説明した。従来技術によって限定される範囲を除いて、添付の特許請求の範囲が本発明のその他の代替実施形態を含むと解釈すべきものとする。

本発明の例示的態様を実施する例示的音声処理システムを示す図である。本発明の例示的態様を実施する例示的音声認識システムを示す図である。本発明の例示的態様を実施する例示的スピーチ・プロセッサを示す図である。本発明の例示的態様を実施する例示的デコーダを示す図である。本発明の例示的態様によるデータ・トレーニングに関する流れ図を示す図である。本発明の例示的態様による音声認識に関する流れ図を示す図である。

符号の説明

１１０端末
１２０端末
１４０端末
１５０端末
２１０電話システム
２１５ネットワーク
２２５ネットワーク
２２０音声移送システム
２３０音声入力装置
３００音声認識システム
３１０音声データベース
３２０スピーチ・プロセッサ
３４０記憶装置
３６０入力装置
３８０出力装置
３９５バス
１０００音声処理システム

Claims

多数の音声特徴を入力データから抽出可能な特徴抽出器と、
前記特徴抽出器が抽出できた複数の音声特徴を使って、仮定される言語単位の事後確率を求める対数線形機能と、
前記対数線形機能に照会し、未知の発話の認識後出力を求める探索装置とを備え、前記音声特徴が、データベース中の基準音節文節に対して計算した動的タイム・ワーピングのスコアである、
音声認識システム。
多数の音声特徴の抽出を試みるステップと、
抽出した複数の音声特徴を使って、仮定される言語単位の事後確率を求めるステップと、
対数線形機能を使用して、未知の発話の認識後出力を求めるステップとを含み、
前記音声特徴が、データベース中の基準音節文節に対して計算した動的タイム・ワーピングのスコアである、
音声認識方法。