JP5242724B2

JP5242724B2 - 音声プロセッサ、音声処理方法および音声プロセッサの学習方法

Info

Publication number: JP5242724B2
Application number: JP2011045161A
Authority: JP
Inventors: ゼン・ヘイガ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-03-02
Filing date: 2011-03-02
Publication date: 2013-07-24
Anticipated expiration: 2031-03-02
Also published as: GB2478314B; GB201003496D0; US20110218804A1; US9043213B2; JP2011180596A; GB2478314A

Description

本発明は、音声認識およびテキスト音声合成の両方を処理する音声分野に関する。本発明は特に、音声認識および音声合成の両方の音響モデルに文脈依存性を組み込むことに関する。

多くの言語における音声認識または音声合成に伴う固有の問題は、所与の音素が文脈に応じて様々に発音されうるということである。例えば、破裂音の音素「ｇ」は用語「ｇｕａｇｅ」においては異なる発音をされる。この問題に対処するために、文脈依存音響モデルが広く使用されてきた。

文脈数が増大すると、文脈の結合数もまた大幅に増大する。限定的な量の学習データまたは適応データのうちにすべての可能な文脈の組合せを有することはほとんど不可能である。この問題に対処するために、決定木ベースの文脈クラスタリング技術が使用されてきた。ここでは、類似の状態のＨＭＭが、決定木を使用して少数のクラスタにクラスタリングされる。決定木は通常最尤（ＭＬ）基準で構築される。構築された決定木をトラバースすることによって、学習データに見られない文脈の組合せが決定木のリーフノードに割り当て可能になる。モデルパラメータもまた、ＭＬ基準に基づいた決定木クラスタリングプロセスで推定される。

このモデルが話者に適応される場合、モデルパラメータは一定の基準に基づいて変換または更新される。最大尤度線形回帰または最大事後基準がしばしば使用される。隠れマルコフモデルベースの統計的パラメトリック音声合成システムの一般的な音響モデルを、目標音声特徴、話し方および／または感情に適応させるために、モデルパラメータの線形変換（例えば、最大尤度線形回帰の種々の変形例）が使用される。これらの技術は、最尤基準などの何らかの基準に基づいて、隠れマルコフモデルの状態に関連した平均ベクトルおよび共分散メトリクスを線形変換する。

この適応段階において、構築された決定木は固定であり、適応データごとに異なるオリジナル学習データから構築される。学習データおよび適応データが極めて異なる文脈依存性を有する場合、適応データの文脈依存性のモデリングは可能ではない。例えば、一般的なモデルが中性音声によって学習され、かつ適応データが表出型音声である場合、表出性をコントロールするために、表出性は文脈としてモデリングされることがある。しかしながら、一般的な音響モデルが表出型文脈を有していない場合、このモデルは表出型音声に適切に適応されない。

本発明は、上記問題への少なくとも部分的な対処を試みるものである。第１の態様は音声認識方法を提供するものであり、該方法は、
一連の観測値を含む既知の話者から音声入力を受け取り、
該一連の観測値から生じる一連の語の尤度を音響モデルを使用して判断し、該音響モデルは、１つの語またはその一部を１つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第１の学習データを使用して学習され、かつ第２の学習データを使用して前記話者に適応されており、
所与の言語に生じる一連の観測値の尤度を言語モデルを使用して判断し、
前記音響モデルおよび前記言語モデルによって判断された尤度を組み合わせて前記音声入力信号から識別された一連の語を出力し、該音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は、複数の決定木を使用して前記音響モデルに含まれており、該決定木の構造は第２の学習データに基づいていることを特徴とする。

本発明はまたテキスト音声システムに適用されてもよい。第２の態様では、本発明はテキスト音声処理方法を提供し、該方法は、
一連の語を含むテキスト入力を受け取り、
該一連の語から生じる一連の音声ベクトルの尤度を音響モデルを使用して判断し、該音響モデルが、１つの語またはその一部を１つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第１の学習データを使用して学習され、かつ第２の学習データを使用して前記話者に適応されており、
前記音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は、複数の決定木を使用して前記音響モデルに含まれており、該決定木の構造は第２の学習データに基づいていることを特徴とする。

上記両方の態様について、決定木自体は適応データに基づいて適応されるため、これらの構成は該適応データに影響され、オリジナルの学習データには存在しない文脈をモデリングすることが可能である。誤解を避けるために、該決定木の構造は、ノードの次数と、該ノードにおける分割のサイズの両方を備えている。決定木は、最大の分割を与えるノードの分岐が該決定木のルートで提供されように構築され、かつブランチは、リーフノードに対してより小さな分割を与えるように構成されている。

好ましい実施形態では、該決定木の構造は該第１および第２の学習データの両方に基づいている。

さらなる実施形態では、該決定木の構造は該決定木のノードの分割から判断され、最大事後基準を用いて算出される。ここで、決定木およびモデルパラメータの両方が、該最大事後基準に基づいて、該適応データに共に適応される。これによって、該適応データの決定木を再構築することができる。さらに、一般的データおよび適応データの両方の統計が使用されるため、モデルパラメータのより良好な推定が取得可能である。このことは、所与の適応データに関するモデルパラメータおよび決定木の統計的に確実な推定を与える。本技術を使用することにより、種々の音声特徴、話し方および感情に音声を合成するための良好なモデルを限定的な量の適応データによって得ることができる。

本方法は、限定的な量の適応データを使用して、種々の音声特徴、話し方および／または感情との高品質な統計的パラメトリックテキスト音声合成を実現する。本方法は、該最大事後基準に基づいて、隠れマルコフモデルベースの統計的パラメトリック音声合成システムの基本的部分であるモデルパラメータおよび決定木を共に推定する。本方法は、一般的データおよび適応データの両方の統計を使用して該所与の適応データに適切な決定木を発見する。本方法はまた、一般的データおよび適応データの両方の該統計からモデルパラメータを再度推定する。該方法は、該限定的な適応データから統計的に確実な決定木およびモデルパラメータを推定可能である。

分割は、次のように実現される最大事後基準を使用して算出可能である：

ここで、Ｏ’は第１の学習データであり、Ｏは第２の学習データであり、ｍはパラメータ結合構造を示しており、λは１セットのＨＭＭパラメータであり、

は最大事後基準のパラメータ結合構造を示しており、

は最大事後基準のＨＭＭパラメータであり、αは設定されるパラメータである。

好ましい基準はＭＡＰに基づくものであるが、他の技術、例えば最小音素誤差基準や最大相互情報基準などの識別適応方法を使用することも可能である。実際、決定木を構成する場合に任意の適応技術が使用可能である。

該文脈依存性はトライフォンとして実現されてもよいが、より高次または低次の音素も可能である。

該音響モデルは、平均および分散によって表される確率分布を含んでおり、好ましい実施形態では、決定木は平均および分散の両方に提供される。しかしながら、具現化によっては、平均の決定木のみが該適応データから構築されることもある。

該文脈ベース情報は、音声的、言語的および韻律的な文脈から選択可能である。

該決定木は、表出型文脈や、例えば性別、年齢および音声特徴などの他の文脈をモデリングするために使用可能である。

第３の態様において、本発明は、音声処理システム用の音響モデル学習方法を提供する。該方法は、
音声と、該音声に対応するテキストとを含む第１の学習データを受け取り、
該第１の学習データを使用して第１の音響モデルを学習し、
既知の話者からの第２の学習データを受け取り、
該第２の学習データを使用して第２の音響モデルを形成するように該第１の音響モデルを適応させ、
該第２のモデルを形成するように該第１のモデルを適応させることは、文脈依存性をモデリングするために決定木を構築することを含み、該決定木の構造は該第２の学習データに基づいていることを特徴とする。

該第１および第２の音響モデルの学習は、好ましくは、第１および第２の学習データの両方を使用して学習された製品をエンドユーザが受信するように行われる。しかしながら、第１の学習データのみを使用して学習された製品がエンドユーザに提供されることも可能であり、この場合、該エンドユーザや他の仲介人が第２の学習データを使用して該製品を学習する。したがって、該方法はさらに、該第２の音響モデルへの適応が異なる位置で実行可能になるように該第１の音響モデルを記憶することを含む。

一実施形態において、該第１の音響モデルを学習することは、複数の隠れマルコフモデルを初期化し、前記第１の学習データに基づいて該ＨＭＭを再度推定し、該第１の学習データの文脈をモデリングするために決定木を構築することを含む。

該第１のモデルの学習はさらに、該決定木によってクラスタリングされた該ＨＭＭを再度推定することを含んでもよい。しかしながら、このステップは、特に該モデルがテキスト音声システムに対して学習される場合には省略されてもよい。

該第２のモデルの学習は、該第２の学習データおよび該第１の学習データにフォワード−バックワードアルゴリズムを実行することによって該第２のモデルのＨＭＭパラメータを導出し、パラメータを使用して該第１の学習データから取得された統計値をスケーリングし、該第１および第２の学習データを使用して決定木をそれぞれ構築することを含んでもよい。

該第２のモデルの学習は、該決定木によってクラスタリングされた該ＨＭＭを再度推定することを更に含んでもよい。しかしながら、このステップは、特に該モデルがテキスト音声システムに対して学習される場合には省略されてもよい。

該パラメータを試行錯誤によって判断してもよい。

第４の態様において、本発明は音声認識装置を提供する。該装置は、
一連の観測値を含む既知の話者からの音声入力を受信する受信機と、プロセッサとを備えており、該プロセッサは、
音響モデルを使用して該一連の観測値から生じる一連の語の尤度を判断し、該音響モデルは、１つの語またはその一部を１つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは第１の学習データを使用して学習され、かつ第２の学習データを使用して前記話者に適応され、
所与の言語で生じる一連の観測値の尤度を言語モデルを使用して判断し、
該音響モデルおよび該言語モデルによって判断された該確率を組み合わせて前記音声入力信号から識別された一連の語を出力するように構成されており、
該音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は、複数の決定木を使用して該モデルに含まれており、該決定木の構造は第２の学習データに基づいていることを特徴とする。

第５の態様において、本発明はテキスト音声システムを提供する。該システムは、
一連の語を含むテキスト入力を受信する受信機と、プロセッサとを備えており、該プロセッサは、
音響モデルを使用して該一連の語から生じる一連の音声ベクトルの尤度を判断し、該音響モデルが、１つの語またはその一部を１つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルが第１の学習データを使用して学習され、かつ第２の学習データを使用して前記話者に適応されるように構成されており、
該音響モデルは前記話者に対して文脈ベースであり、該文脈ベース情報は複数の決定木を使用して該モデルに含まれており、該決定木の構造は第２の学習データに基づいていることを特徴とする。

一実施形態において、本発明は音声翻訳システムに適用される。該システムは、第１の言語の音声を認識するように構成された上記第４の態様に従った音声認識システムと、第１の言語で受信されたテキストを第２の言語のテキストに翻訳するように構成された翻訳モジュールと、該第２の言語の音声を出力するように構成された上記第５の態様に従ったテキスト音声システムとを備えている。

該翻訳モジュールは既知の自動翻訳システムまたは機械翻訳システムのいずれかであってもよい。

本発明は、汎用コンピュータにおいてハードウェアまたはソフトウェアのいずれかで実現可能である。さらに、本発明はハードウェアおよびソフトウェアの組合せで実現可能である。本発明はまた、単一の処理装置、または複数の処理装置の分散ネットワークによって実現可能である。

本発明はソフトウェアで実現可能であるため、本発明は、任意の適切な搬送媒体上の汎用コンピュータに提供されるコンピュータコードを包含している。搬送媒体は、フロッピー（登録商標）ディスク、ＣＤ―ＲＯＭ、磁気デバイスまたはプログラマブルメモリデバイス、あるいは、例えば電気、光学またはマイクロ波信号などの任意の信号の一時媒体(transient medium)などの記憶媒体を備えることができる。

上記音響モデルは好ましくはＨＭＭベースモデルであるが、他のモデルも使用可能である。

次に、本発明について、以下の好ましい非制限的実施形態を参照して説明する。
図１は、極めて基本的な音声認識システムの概略図である。図２は、図１のモデルを実現するための音声認識プロセッサのアーキテクチャの概略図である。図３は、テキスト音声合成向けに構成されたプロセッサのアーキテクチャの概略図である。図４は、図１に示されているタイプの音声認識プロセッサの標準コンポーネントのブロック図である。図５は、特定の語またはその一部を観測値に関連付けるガウス分布のプロットである。図６は、音響空間の概略プロットである。図７は、既知の方法にしたがって決定木が構築される様子を示すフロー図である。図８は、本発明の理解に有用な実施形態に従って決定木が構築される様子を示すフロー図である。図９は、音響モデルを学習するための基本ステップを示すフロー図である。図１０は、オリジナルデータＯ’および新データＯの両方を使用して特定の話者のモデルを学習するための、本発明の実施形態で必要な追加学習ステップの概略図である。図１１は、本発明の実施形態にしたがった音声認識方法を示す概略フロー図である。図１２は、音声合成向けの本発明の実施形態にしたがったフロー図である。

図１は、極めて基本的な音声処理システムの概略図であり、図１のシステムは音声認識向けに構成されている。ユーザ（図示せず）がマイク１、または他のオーディオ信号用収集デバイスに話す。デバイス１は、事前に記録されているオーディオデータを含むメモリと置き換えられてもよく、あるいはデバイス１はリモートからオーディオデータを受信するネットワーク接続であってもよい。

音声信号は次いで、図２を参照してより詳細に後述される音声プロセッサ３に送られる。

音声プロセッサ３は音声信号を受け取り、該音声信号に対応するテキストに変換する。多数の異なる出力形態が使用可能である。例えば、出力は、スクリーンに出力するディスプレイ５の形態であってもよい。あるいはまた、プリンタなどに出力してもよい。また、出力は、別のシステム９に提供される電子信号の形態であってもよい。例えば、別のシステム９は、プロセッサ３から出力されたテキストを受け取り、異なる言語に変換する音声翻訳システムの一部であってもよい。変換されたテキストは、別のテキストまたは音声システムを介して出力される。

あるいは、プロセッサ３によって出力されたテキストは、様々なタイプの機器を操作するために使用されてもよく、例えば、ユーザが音声を介して種々の機能をコントロールするモバイルフォンや自動車の一部であってもよい。

図２は、音声認識システム向けを想定した基本アーキテクチャを示している。音声認識は、プログラム２５を実行するプロセッサ２３を備えている。音声認識システム２１は記憶装置２７を備えている。記憶装置２７は、テキストを音声に変換するためのプログラム２５によって使用されるデータを記憶している。テキスト音声システム２１は、入力モジュール１１および出力モジュール３３を備えている。入力モジュール３１は音声入力３５に接続されている。音声入力３５は音声を受信する。音声入力３５は例えばマイクであってもよい。あるいはまた、音声入力３５は、外部記憶媒体やネットワークから音声データを受信する手段であってもよい。

テキスト出力３７は出力モジュール３３に接続される。テキスト出力３７は、音声入力３３から変換されたテキストを出力するために使用される。テキスト出力３７は例えばテキストを直接出力するモニタ、プリンタであってもよく、記憶媒体やネットワークデバイスに送られるデータファイルを出力するものであってもよい。

使用時において、音声認識システム２１は音声入力３３を介して音声を受信する。プロセッサ２３で実行されるプログラム２５は、記憶装置２７に記憶されているデータを使用して音声をテキストデータに変換する。テキストは出力モジュール３３を介してテキスト出力３７に出力される。

本発明はまた、音声合成ならびに音声認識に適用されてもよい。図３は、テキスト音声システム５１の基本アーキテクチャを示している。テキスト音声システム５１は、プログラム５５を実行するプロセッサ５３を備えている。テキスト音声システム５１はさらに記憶装置５７を備えている。記憶装置５７は、テキストを音声に変換するためにプログラム５５によって使用されるデータを記憶している。テキスト音声システム５１はさらに入力モジュール６１および出力モジュール６３を備えている。入力モジュール６１はテキスト入力６５に接続される。テキスト入力６５はテキストを受信する。テキスト入力６５は例えばキーボードであってもよい。あるいはまた、テキスト入力６５は、外部記憶媒体やネットワークからテキストデータを受信する手段であってもよい。

オーディオ出力６７が出力モジュール６３に接続される。オーディオ出力６７は、テキスト入力から変換された音声信号をテキスト入力６３に出力するために使用される。オーディオ出力６７は例えばダイレクトオーディオ出力であってもよく、例えば、話者や、記憶媒体に送信されたりネットワーク化などがされたりしてもよいオーディオデータファイルの出力であってもよい。

使用中、テキスト音声システム５１はテキスト入力６３を介してテキストを受信する。プロセッサ５３で実行されるプログラム５５は、記憶装置５７に記憶されているデータを使用してテキストを音声データに変換する。音声は出力モジュール６５を介してオーディオ出力６７に出力される。

図４は、図１に示されているタイプの音声認識プロセッサ３の標準コンポーネントのブロック図である。ネットワークや記録媒体１を介してマイクから受信された音声信号はフロントエンドユニット１１に向けられる。

フロントエンドユニット１１は受信された音声信号をディジタル化して、長さの等しいフレームに分ける(split)。音声信号は次いでスペクトル分析を施され、「音響空間」にプロットされる種々のパラメータが判断される。導出されるパラメータの詳細については後述する。

フロントエンドユニット１１はまた、音声信号でない信号、および他の無関係な情報を除去する。一般的なフロントエンドユニットは、フィルタバンク（ＦＢＡＮＫ）パラメータ、メル周波数ケプストラム係数および知覚線形予測（ＰＬＰ）パラメータを使用する装置を備える。フロントエンドユニットの出力は、ｎ次元音響空間である入力ベクトルの形態であってもよい。

入力ベクトルは次いで、音響モデル部１５および言語モデル部１７の両方と協働するデコーダ１３に供給される。音響モデル部１５は通常、隠れマルコフモデルを用いて動作する。しかしながら、コネクショニストモデルおよびハイブリッドモデルに基づいた音響モデルを使用することも可能である。

音響モデルユニット１５は、音響入力のみに基づいて、１つの語またはその一部に対応する一連の観測値の尤度を導出する。

言語モデル部１７は、所与の言語の特定の一連の語や、相互にフォローしあう語の一部の確率に関する情報を含む。一般的に静的モデルが使用される。最も一般的な方法はＮグラムモデルである。

デコーダ１３は従来、音響モデル１５および言語モデル１７からの結果を使用して所与の音声発話の最良のトランスクリプションを発見するために、動的プログラミング（ＤＰ）アプローチを使用する。

このトランスクリプションは、テキストを表示し、呈示し、例えば音声起動デバイスを制御したり音声翻訳でさらに使用するための変換を行う出力デバイス１９を介して出力される。

本明細書では、主に、隠れマルコフモデル（ＨＭＭ）である音響モデルを用いる場合について説明するが、他のモデルが使用されてもよい。

本実施形態で使用される実際のモデルは標準的なモデルであり、その詳細は本特許出願の範囲外である。しかしながら、このモデルは、１つの語またはその一部と関連付けられている音響ベクトルによって表されている観測値の確率に関する確率密度関数（ｐｄｆ）の用意を必要とする。一般的に、この確率分布はｎ次元空間のガウス分布である。

一般的なガウス分布の概略的な例が図５に示されている。ここでは、横軸は１次元の入力ベクトルのパラメータに相当し、確率分布は、観測値に関する特定の語またはその一部のものである。例えば、図５において、音響ベクトルｘに対応する観測値は、確率分布が図５に示されている語に対応する確率ｐ１を有する。ガウスの形状および位置は平均および共分散によって定義される。これらのパラメータは音響モデルの語彙の学習中に判断され、「モデルパラメータ」と称される。

ＨＭＭにおいて、モデルパラメータが判断されると、このモデルは、一連の語または語の一部に対応する一連の観測値の確率を判断するために使用可能である。

図６は、観測が観測ベクトルまたは特徴ベクトルｘ_１によって表される音響空間の概略プロットである。開放円ｇは、音響空間にプロットされたガウス分布関数または他の確率分布関数の平均値に対応する。

復号時に音響モデルは、特徴ベクトルｘ_１がガウス分布によって表される単語または単語の一部に対応する多数の異なる尤度を計算するであろう。それからこれらの尤度は口述されたテキストを決定するために音響モデルで使用されて、言語モデルからの確率に組み合わされる。

最新技術の音声認識システムの大部分は、入力音声から抽出される特徴ベクトルとして表される一連の音声パラメータｏに関する最尤単語列ωを見出す統計的フレームワークに基づいている。これは下記のように書き表され得る：

ここでｐ（ω|ｏ）は所定のｏに関するωの事後確率分布である。ｐ（ω|ｏ）を直接モデル化することは困難であるので、ベイズのルール（rule）に基づく下記の再公式化がしばしば使用される：

ここでｐ（ｏ）はｏの周辺分布（しばしば「痕跡（evidence）」と呼ばれる）である。ｐ（ｏ）は最大化とは無関係であるので、式（４）は下記のように書き換えられ得る：

音声認識システムの大部分は、式（５）における最大を実現するための３つのモジュール、すなわちｐ（ω|ｏ）に関する音響モデル、ｐ（ω）に関する言語モデル、および最善の単語列を探索するための復号子である３つのモジュール（図４を参照のこと）からなる。

統計的音声合成は下記のように書かれ得る：

音声認識とは異なり、ベイズのルールによる変換は、図３を参照しながら説明されたユニットのタイプに関する統計的音声合成では必要とされない。基本的にこれは、音響モデルだけからなる。ここで説明される音響モデルは、音声認識および音声合成の両者に関連している。

統計的音声認識および音声合成の両者において、文脈依存性隠れマルコフモデル（ＨＭＭ）は、これの効率および性能のゆえに音響モデルとして広く使用されている。最尤（ＭＬ）基準は、ＨＭＭパラメータを推定し、推定されるパラメータの数を減らすためにＨＭＭ状態レベルパラメータ結合構造を定義する決定木を構築するために最もポピュラーな基準の１つである。ＨＭＭパラメータのＭＬ推定は下記のように書かれ得る：

ここでλは１セットのＨＭＭパラメータであり、Ｏは１セットの学習データである。ＭＬ基準に基づいて推定されたＨＭＭは、しばしば学習データにオーバーフィットすることが知られている。オーバーフィット問題の１つの可能な解決策は、最大事後確率（ＭＡＰ）推定を使用することである。ＨＭＭパラメータのＭＡＰ推定は下記のように書かれ得る：

ここでｐ（λ|Ｏ）は所定のＯに関するλの事後確率である。式（８）はベイズのルールによって下記のように再公式化され得る：

ここでｐ（λ）はλの事前分布である。式（１１）の分子は最大化とは無関係であるので、これは下記のように書き換えられ得る：

ＭＬ基準におけるＭＡＰ推定の主要な利点は、従来技術の分布の使用可能性である。データに関する事前知識を事前分布に組み込むことによって学習データに対するオーバーフィットを防止することができる。ＭＡＰ推定は、音声認識および音声合成の両者においてＭＬ推定された話者独立性ＨＭＭを目標話者に適応させるために使用されてきた。

従来からＭＡＰ推定は、パラメータ推定だけのために使用されてきた。文脈依存性ＨＭＭを学習するための本質的部分の１つである決定木ベースの文脈クラスタリングのために、ＭＬ基準が使用されてきた。本発明の方法による一実施形態では、ＨＭＭパラメータとＭＡＰ基準に基づく決定木との合同推定技法が使用される。ＭＡＰ基準の使用は、モデルパラメータと決定木とを推定しながら、合同事前分布としてのＨＭＭパラメータおよび決定木の両者に関する事前知識の組み込みを可能にする。

一例として破裂音「ｇ」は、これが単語「ゲージ」を使用している２つの事例において異なって発音される。これらの音素は、破裂音ｂ、ｄ、ｇ、ｋ、ｐ、ｔ、摩擦音ｄｈ、ｔｈ、ｆ、ｖ、ｓ、ｓｈ、ｚ、ｚｈ、鼻音ｍ、ｅｍ、ｎ、ｅｎ、ｎｇ、および識別されてきた他のグループといった異なるグループに分割されるものと考えることができる。決定木は、例えば先行および後続の音素が属するグループに関して質問することによって設定され得る。したがってこれらの決定木を構築することによって、言語のすべての事例に関してモデル化し、そして異なる文脈における音素の異なる発音に対応することが可能となる。

ＨＭＭベースの音声認識および音声合成システムの両者において、文脈依存性音素ＨＭＭ（例えばトライフォオンＨＭＭ）が広く使用されている。文脈独立性音素ＨＭＭ（単一音）よりむしろ文脈依存性音素ＨＭＭの使用は、より高い認識性能を与えることが知られている。多数の文脈依存性ＨＭＭは音声データにおける変動を捕捉する助けとなり得るが、これはシステムにおいて推定されるべきパラメータがあまりにも多くなるという結果を招き、学習データに対するオーバーフィットの原因となる。したがってモデルの複雑さとモデルの堅牢さとの間の良好なバランスを維持することは、音響モデル化において重要である。トップダウンの決定木ベースの文脈クラスタリングの使用は、この問題に対する良好で既知の解決策である。これは、ボトムアップ式のアプローチに対して２つの利点を有する。第１に、１セットの質問に音声知識を組み込むことによって決定木の葉ノードに目に見えない文脈依存性音素を割り当てることができる。第２に、決定木の分割手順は、モデルの複雑さと堅牢さとのバランスを維持する方法を与える。

決定木ベースの文脈クラスタリング技法は、学習データに対するモデルの尤度を最大化するパラメータ結合構造（決定木）およびモデルパラメータを見出すことを目的にしている。これは下記のように書かれ得る：

ここでｍはパラメータ結合構造を表す。決定木ベースのクラスタリングの手順は、これから図７を参照しながら説明されるであろう。

ステップＳ１０１で、すべての文脈独立性音素ＨＭＭが決定木のルートノードにプールされる。

ステップＳ１０３で、学習データに対するモデルの対数尤度が下記を使用して計算される：

（上記の式は１９９５年のケンブリッジ大学のＪｕｌｉａｎＯｄｅｌｌの博士論文から取られている。）ここで尤度はＥ個の例からなる学習データＯを生成する１セットの分布Ｓを備える１セットのモデルについて計算され、またγ_ｓ ^ｃ（ｔ）は時刻ｔにおける状態占有であり、そしてＴｅはＥ個の例の音声の時間の全長である。

ステップＳ１０５では、決定木におけるノードと文脈に関する予め決められた二値質問（binary question）とのすべての組合せに関して学習データに対するモデルの対数尤度が、質問によってノードを分割した後に計算される。

ステップＳ１０７で、対数尤度における最も大きな利得を与えるノードと質問との最善の組合せが選択される。

ステップＳ１０９で、見出された質問による見出されたノードが分割され、もし対数尤度における利得が予め決められた閾値を超えればプロセスはステップＳ１０３に戻る。

もし利得が予め決められた閾値より低ければ、クラスタリングはステップＳ１１１で終了する。

推定されたパラメータ結合構造ｍとＨＭＭパラメータλは、音声認識および音声合成のための音響モデルとして使用される。

図８は、本発明の好適な実施形態による方法を示す。

対照的に本発明の一実施形態による方法において。ここではＭＬ基準の代わりにＭＡＰ基準が決定木ベースの文脈クラスタリングに使用される。これは下記のように書かれ得る：

ここでｐ（ｍ，λ）はパラメータ結合構造と１セットのＨＭＭパラメータとの合同事前分布を表す。次に合同事前分布を定義する方法が説明される。

ＨＭＭベースの統計的音声認識および音声合成に関するＭＡＰ推定による適応において、事前分布の特性を指定する事前分布のハイパーパラメータが通常、大量の学習データによって推定されるＨＭＭ（例えば話者独立性ＨＭＭ）のパラメータにしたがって設定される。これは下記のように書かれ得る：

ここでＯ’はＨＭＭのパラメータを推定するための大量の学習データを示し、ｐ（ｍ，λ|Ｏ’）はモデル構造ｍとモデルパラメータλとの合同事後確率分布である。ベイズのルールを使用して式（１９）は下記のように書き換えられ得る：

ここでｐ’（ｍ，λ）はｍとλとの合同事前分布であり、またｐ’（Ｏ’|ｍ，λ）は推定される。もしｐ’（ｍ，λ）が非説明的（non-informative）（均等）分布であれば、式（１８）の最大化問題は下記のように書き換えられ得る：

なぜならばｐ（Ｏ’）およびｐ’（ｍ，λ）の両者は最大化とは無関係であるからである。実際には下記のようにＯとＯ’との間の寄与のバランスを制御するためにパラメータαが導入される：

興味深いことにこのαは、ＨＭＭパラメータのＭＡＰ推定における重み付けの項（weight term）と同じ働きをする。

式（２５）は、ＭＬ基準に基づく決定木ベースの文脈クラスタリング（式（１４））とほぼ同じである。本質的な違いは、Ｏ’に対するモデルの対数尤度が加えられていることである。木構築プロセスは、前述のセクションで説明したＭＬ基準のプロセスと同じになる。木クラスタリングプロセスを図８に示す。相違点は、Ｏ’に対するモデルの対数尤度も考えられていることである。したがってこれは、決定木ベースの文脈クラスタリングの既存の実現形態に容易に組み込まれ得る。

図８のステップＳ１５１においてＨＭＭは、図７を参照して説明した方法と同じようにしてプールされる。

学習データの対数尤度は、ステップＳ１５３でＯおよびＯ’データを使用して実行される。これには式２５を使用し、尤度は式１４（ａ）を使用して計算される。

図７と同じ方法ですべてのノード組合せに関して、ステップＳ１５５で分割が計算され、ステップＳ１５７で最大の分割を与えるノードと質問との組合せが選択される。それからステップＳ１５９でノードが分割される。もし分割による利得がある閾値を超えるならば、システムはステップＳ１５３にループバック（loop back）する。もし利得が閾値を超えなければ、これは決定木が十分な程度に分割されていることを意味し、クラスタリングはステップＳ１６１で終了する。

この閾値は、必要とされる精度と計算上の考慮事項とに依存して選択される。もし閾値が適度に低ければ、決定木はより大きくなるであろうし、また図８の方法を使用して構築された決定木を使用するモデルを動作させるためにより大きなコンピュータパワーが必要とされるであろう。しかしながらもしより高い閾値が使用されるならば、決定木にはより少ない質問が現れて精度の損失という結果を招くであろう。

ＯおよびＯ’データを使用して学習データに対するモデルの対数尤度を計算するときにＯ’分布に重み付けするためにパラメータαが使用されることは前に説明されている。αは手作業で選択される。実際に多数の異なるαがテストされて、最善のαが選択されるであろう。１つの可能性は、ＯおよびＯ’のデータ量にしたがってαを設定することである。例えばもしＯが１時間分の音声データを備え、Ｏ’が１０時間分を備えるならば、αは０．１に等しい１／１０に設定されるであろう。こうしてこの状況ではＯおよびＯ’は想像上の同じデータ量（the same amount of data imaginary）を有する。

良好なαは、オフラインで決定されるであろう。音声合成のために、テスト文を使用して推定されたＨＭＭセット（種々のα）から音声サンプルが合成されて、聴き取られるであろう。最善の主観的聴き取りテスト得点を与えるアルファが選択されるであろう。認識のために、推定されたＨＭＭセット（種々のαを有する）によって音声認識子が動作させられるであろう。それは、発声をテストし、これの認識精度を検査するためである。最善の認識精度を与えるアルファが選択されるであろう。

次に、本発明の一実施形態による方法を使用して音声認識子を学習する方法が図９および１０を参照しながら説明されるであろう。図９の流れ図はＯ’データに関して実行される基本的学習に対応し、図１０の流れ図はＯおよびＯ’データを使用するデータの学習に対応する。

Ｏ’データは、モデルを最初に学習するために使用されるデータである。これは多数の話者から得られるであろう。

ステップＳ２０１で、単一音ＨＭＭが初期化される。これは、初期ＨＭＭパラメータを、例えば単一音素に関するガウス分散を、確立することである。ＨＭＭを初期化することはよく知られており、すべての平均値と分散とをゼロに設定すること、各ＨＭＭに関するすべての平均値と分散とをグローバル（global）平均と分散とに設定すること、または前のデータをＨＭＭの平均値と分散とに関する推定値として使用すること、といった多数の技法が使用され得る。

ステップＳ２０３で、単一音ＨＭＭに対して埋込み再推定（embedded re-estimation）が実行される。これは、各セグメントに基づいて音素レベルＨＭＭを再推定するために使用される。これは、音声認識時に各セグメントに関してパラメータが正しく推定された場合に、より高い精度が取得されるという理由で、必要とされる。好適な実施形態では埋込み再推定は、１フレームに割り当てられる状態の確率が存在する状態ごとに１フレームのソフト割り当てが存在することが仮定される場合に使用される。ＢａｕｍＷｅｌｃｈアルゴリズムまたはフォワード−バックワードアルゴリズムもこのステージで使用され得るが、これらのアルゴリズムの両者とも状態へのフレームのソフト割り当てを想定している。状態へのフレームのハード割り当てを想定するビタビアルゴリズムも使用され得る。

ステップＳ２０５で、単一音ＨＭＭが文脈依存性ＨＭＭにコピーされる。文脈依存性ＨＭＭ（例えばトライフォン（triphone））は前に説明されている。トライフォンは、先行および後続の音素を有する中間または「現在」音素を備える。このステージですべての現在音素すなわち中間音素は同じ統計値を有する。

それからステップＳ２０７で、文脈依存性ＨＭＭに埋込み再推定が実行される。これは、ＨＭＭが文全体に基づいて推定されることを可能にする。

次にステップＳ２０９で、決定木文脈ベースのクラスタリングが実行される。これは、図７を参照しながら説明されたものと同じである。これはデータセットＯ’に対して実行される初期学習であるので、これは純粋にＯ’データに対して実行されるであろう。

決定木はＨＭＭ混合体をサポートしないので、ステップＳ２１１で決定木文脈ベースのクラスタリングが実行された後に埋め込み再推定が実行される必要がある。

前に示されたように、音声認識および音声合成の両者に関して音響モデルを学習するための図９のステップはよく知られている。

音声合成のための音響モデルを学習するために上記が使用されているならば、一般にガウス分布の混合物がこれの大きな計算費用のゆえに音声合成の音響モデルのために使用されないので埋込み再推定ステップは省略され得る。

図１０は、ＯおよびＯ’モデルが推定される場合の本発明の一実施形態による方法である。ＯおよびＯ’モデルを推定するために、上記のＯ’モデルがＯの状態レベル割り当て（これは状態／フレーム割り当てである）を取得するために使用される。これは、周知のフォワード−バックワードアルゴリズムを使用して実行される。フォワード−バックワードアルゴリズムはフォワード確率およびバックワード確率を計算する。フォワード／バックワード確率を使用して、観測ベクトルを与えるためのＨＭＭ状態の状態占有確率を計算することが可能である。この状態占有確率は上記の「Ｏの状態レベル割り当て」に対応する。状態占有を取得することに加えて１次および２次統計値も取得される。

ＨＭＭ状態の状態占有は、下記の全学習データにおけるこのＨＭＭ状態の状態占有確率の総計値である：

ＨＭＭ状態に関する１次統計値は、全学習データにおけるこのＨＭＭ状態に関連する観測ベクトルに乗算された状態占有確率の総計値である。

ＨＭＭ状態に関する２次統計値は、全学習データにおけるこのＨＭＭ状態に関連する２乗された観測ベクトルに乗算された状態占有確率の総計値である。

１次および２次統計値は下記のように平均値および分散に関連付けられる：

上記を使用することによって、ＨＭＭの平均値と分散とを計算することが可能である。

いったん統計値が取得されると、これらの統計値はパラメータαによってスケール（scale）される。パラメータαは、決定木の構築を参照しながら説明されたものと同じである。これらのパラメータは下記のように基準化される：
占有は

であり、１次統計値から導出された平均値は

であり、そして２次統計値から導出された分散は下記の通りである：

次に、ステップＳ２３５でＯおよびＯ’を使用して決定木ベースの文脈クラスタリングが実行される。これは図８を参照しながら説明された仕方と同じ仕方で実行される。

フォワード−バックワードアルゴリズムがＯ’モデルによって、またステップＳ２０９で実行された状態結合構造によって動作させられることは留意されるべきである。しかしながらステップＳ２３５の決定木ベースの文脈クラスタリングは「結合されていない」統計値を必要とする、すなわち各個別の文脈依存性モデルはそれ自身の占有数、それ自身にだけ累積された１次および２次統計値を有する。

ステップＳ２３５が実行されたとき、クラスタリングされた文脈依存性ＨＭＭに対して埋込み再推定が実行されるステップ２３７が実行される。再び、混合ガウス分布は通常使用されないので音声合成のために音響モデルが使用されることになっている場合、このステップは省略され得る。

第１および第２のモデルの学習は、製造業者側で行われ得る。しかしながら初期学習データによって学習されたばかりの音声処理製品が製造されることも可能である。それからこの製品は後で第２の学習データで学習され得るであろう。

図１１で本発明は、音声認識システムにおいて使用され得る。音声認識システムでは図１１で説明されている基本ステップが実行されるであろう。

ステップＳ３０１で話者からの入力音声が受信される。このシステムは好適には、話者データＯを使用してこの話者に関して学習されているであろう。

ステップＳ３０３で、音声入力から生じる一連の語の尤度は、図９および１０を参照しながら説明されたように、学習された音響モデルを使用して決定される。次にステップＳ３０５で、所定の言語において発生する一連の観測値の尤度が言語モデルを使用して評価される。ステップＳ３０７で、一連の語を生成するために言語モデルと音響モデルとの結果が組み合わされる。ステップＳ３０９で、この一連の語が出力される。一連の語はモニタに出力され得るか、あるいは探索エンジン内に向けられ得るか、またはＳａｔＮａｖシステムなどに向けられ得る。一実施形態では、出力された一連の語は、それからこれが第２の言語に翻訳される翻訳システムに向けられる。

図１２は、音声合成のための極めて単純なシステムを示す。ステップＳ３２１でテキスト入力を受け取る。このテキスト入力はデータファイルから取得され、あるいはコンピュータに直接入力され得る。

それからステップＳ３２３で、入力テキストに対応する一連の音声ベクトルを決定するために音響モデルを実行する。それからステップＳ３２５で、テキスト入力に対応するオーディオが出力される。

音声対音声翻訳システムに関して図１１および図１２の動作は、異なる言語に翻訳されて図１２のテキスト入力３２１として入力された図１１のステップＳ３０９からの出力によって順次に実行され得るであろう。

Claims

一連の観測値を含む既知の話者から音声入力信号を受け取り、
該一連の観測値から生じる一連の語の尤度を音響モデルを使用して判断し、該音響モデルは、１つの語またはその一部を１つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第１の学習データを使用して学習され、かつ第２の学習データを使用して前記話者に適応されており、
所与の言語に生じる一連の観測値の尤度を言語モデルを使用して判断し、
前記音響モデルおよび前記言語モデルによって判断された尤度を組み合わせて前記音声入力信号から識別された一連の語を出力し、
前記音響モデルを文脈に依存してクラスタリングするための決定木が前記第２の学習データに適応され、
前記決定木の構造は、前記第１および第２の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造および前記モデルパラメータを条件として前記第２の学習データに対する前記音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声認識方法。
前記分割は、次式によって表される最大事後基準：

ただし、Ｏ’は前記第１の学習データ、Ｏは前記第２の学習データ、ｍは前記パラメータ結合構造、λは１セットの前記モデルパラメータ、

は最大事後基準のパラメータ結合構造、

は最大事後基準のモデルパラメータ、αは設定されるスケーリングパラメータ、
を用いて算出されることを特徴とする、請求項１記載の音声認識方法。
前記文脈への依存性がトライフォンとして実現されることを特徴とする、請求項１又は２に記載の音声認識方法。
前記音響モデルは、平均および分散によって表される確率分布を含んでおり、前記決定木は平均および共分散の両方について提供されることを特徴とする、請求項１乃至３のいずれかに記載の音声認識方法。
前記文脈は、音声的、言語的および韻律的に選択されることを特徴とする、請求項１乃至４のいずれかに記載の音声認識方法。
前記決定木を、少なくとも表出型文脈、性別、年齢または音声特徴のいずれかをモデリングするために用いることを特徴とする、請求項１乃至５のいずれかに記載の音声認識方法。
一連の語を含むテキスト入力を受け取り、
該一連の語から生じる一連の音声ベクトルの尤度を音響モデルを使用して判断し、
前記一連の音声ベクトルの尤度に基づく音声信号を出力し、
前記音響モデルは、１つの語またはその一部を１つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは、第１の学習データを使用して学習され、かつ第２の学習データを使用して前記第２の学習データの話者に適応されており、
前記音響モデルを文脈に依存してクラスタリングするための決定木が前記第２の学習データに適応され、
前記決定木の構造は、前記第１および第２の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造および前記モデルパラメータを条件として前記第２の学習データに対する前記音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声合成方法。
音声と、該音声に対応するテキストとを含む第１の学習データを受け取り、
該第１の学習データを使用して第１の音響モデルを学習し、
既知の話者からの第２の学習データを受け取り、
該第２の学習データを使用して第２の音響モデルを形成するように該第１の音響モデルを適応させ、
該第２の音響モデルを形成するように該第１の音響モデルを適応させることは、文脈依存性をモデリングするために複数の決定木を構築することを含み、
前記決定木が前記第２の学習データに適応され、
前記決定木の構造は、前記第１および第２の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造、および前記第１の音響モデルのモデルパラメータを条件として前記第２の学習データに対する前記第１の音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声処理システム用の音響モデル学習方法。
前記第２の音響モデルへの適応が異なる位置で実行可能になるように前記第１の音響モデルを記憶することをさらに含む、請求項８記載の音響モデル学習方法。
前記第１の音響モデルを学習することは、複数の隠れマルコフモデル（ＨＭＭ）を初期化し、前記第１の学習データに基づいて該ＨＭＭを再度推定し、該第１の学習データの文脈をモデリングするために決定木を構築することを含む、請求項８または９に記載の音響モデル学習方法。
前記第１の音響モデルの学習は、前記決定木によってクラスタリングされた前記ＨＭＭを再度推定することを含む請求項１０記載の音響モデル学習方法。
前記第２の音響モデルの学習は、前記第２の学習データおよび前記第１の学習データについてフォワード−バックワードアルゴリズムを実行することにより該第２の音響モデルのモデルパラメータを導出し、
スケーリングパラメータを使用して該第１の学習データから取得された統計値をスケーリングし、該第１および第２の学習データを使用して決定木をそれぞれ構築することを含む、請求項８乃至１１のいずれかに記載の音響モデル学習方法。
前記スケーリングパラメータを試行錯誤によって判断する、請求項１２記載の音響モデル学習方法。
前記第２の音響モデルの学習は、前記決定木によってクラスタリングされた前記第２の音響モデルを再度推定することを更に含む、請求項１２又は１３記載の音響モデル学習方法。
請求項１−１４のいずれかに記載された方法を実行するようにコンピュータを制御するためのプログラム。
一連の観測値を含む既知の話者からの音声入力信号を受信する受信機と、プロセッサとを備えており、該プロセッサは、
音響モデルを使用して該一連の観測値から生じる一連の語の尤度を判断し、該音響モデルは、１つの語またはその一部を１つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは第１の学習データを使用して学習され、かつ第２の学習データを使用して前記話者に適応され、
所与の言語で生じる一連の観測値の尤度を言語モデルを使用して判断し、
該音響モデルおよび該言語モデルによって判断された該尤度を組み合わせて前記音声入力信号から識別された一連の語を出力するように構成されており、
前記音響モデルを文脈に依存してクラスタリングするための決定木が前記第２の学習データに適応され、
前記決定木の構造は、前記第１および第２の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造および前記モデルパラメータを条件として前記第２の学習データに対する前記音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声認識装置。
一連の語を含むテキスト入力を受信する受信機と、プロセッサとを備えており、該プロセッサは、
音響モデルを使用して該一連の語から生じる一連の音声ベクトルの尤度を判断し、
前記一連の音声ベクトルの尤度に基づく音声信号を出力し、
前記音響モデルは、１つの語またはその一部を１つの観測値に関連付ける確率分布を記述する複数のモデルパラメータを有しており、該音響モデルは第１の学習データを使用して学習され、かつ第２の学習データを使用して前記第２の学習データの話者に適応されるように構成されており、
前記音響モデルを文脈に依存してクラスタリングするための決定木が前記第２の学習データに適応され、
前記決定木の構造は、前記第１および第２の学習データの両方に基づいており、かつ該決定木のノードの分割から判断され、該分割は、該決定木の構造を表すパラメータ結合構造および前記モデルパラメータを条件として前記第２の学習データに対する前記音響モデルの尤度を事後的に最大化させる最大事後基準を用いて算出されることを特徴とする、音声合成装置。
第１の言語の音声を認識するように構成された請求項１６に記載の音声認識装置と、
第１の言語で受信されたテキストを第２の言語のテキストに翻訳するように構成された翻訳モジュールと、
前記第２の言語の音声を出力するように構成された請求項１７に記載の音声合成装置とを備える、音声翻訳システム。