JP6437581B2

JP6437581B2 - 話者適応型の音声認識

Info

Publication number: JP6437581B2
Application number: JP2017007052A
Authority: JP
Inventors: ドディパトララマ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2016-01-18
Filing date: 2017-01-18
Publication date: 2018-12-12
Anticipated expiration: 2037-01-18
Also published as: US20170206892A1; US10013973B2; JP2017134396A

Description

関連出願の相互参照
本出願は、２０１６年１月１８日に出願された英国特許出願第１６００８４２．７号、及び２０１７年１月１１日に出願された英国特許出願第１７００４８９．６号に基づくものであり、これらの出願からの優先権の利益を主張する。これらの全ての出願の全内容は、参照により本明細書に組み込まれる。

本開示は、個人によって話された音声中のサウンドを認識するための方法及びシステムに関する。本システムは、認識されたサウンドに基づいてアクションを起こすための装置のコンポーネントであってよい。

近年、自動音声認識（ＡＳＲ）システムを考案することにおいて進歩があったが、これらのＡＳＲシステムは、話者（ここでは「テスト話者」と呼ばれる）によって話された音声を符号化した入力データ（マイクロフォンによって生成された）を受け、この入力データから、テスト話者によって話された音素（phoneme）を認識する。音素は、１つ又は複数の「音（phone）」のセットであり、音は、サウンドの個別単位である。通常、入力データは最初に処理されて、入力データが特定の入力特徴を有するかどうかを示す特徴データが生成され、特徴データは、特徴データを使用して音を認識するシステムに渡される。音は、個別の音（モノフォン（mono-phone））、又は隣接する音のペア（ダイフォン（diphone））、又は３つの音の連続（トライフォン（triphone））として認識される場合がある。

複数の個人はそれぞれの異なる話し方で話すので、音を認識するシステムがテスト話者の音声に適応されること、及び、テスト話者によって話された音声である訓練データを使用して適応が自動的に実施されることが望ましい。

望ましくは、テスト話者が話す必要のある訓練データの量は、最小限に抑えられるべきである。この理由で、従来のＡＳＲシステムは、利用可能な訓練データがある他の多くの話者（訓練話者）からのデータを使用して訓練される。

システムを訓練するのに使用されるデータには莫大な量の話者ばらつきがあるので、未知のテスト話者に対しては、性能は非常に悪い可能性がある。話者適応は、訓練されたモデルによりよく整合するようにテスト話者の特徴を変形するか、又はテスト話者によりよく整合するようにモデルパラメータを変形するかのいずれかを行うが、この話者適応は、ＡＳＲ性能を改善することがわかっている。

多くの適応システムが知られている。最近、所謂ディープニューラルネットワーク（ＤＮＮ）への関心がますます高まっている。ディープニューラルネットワークは、入力層と出力層との間に２つ以上の隠れ層がある人工ニューラルネットワークである。各層は１つ又は複数のニューロンからなり、各ニューロンは、数値的重みなどのネットワークパラメータのセットによって定義される、その入力の機能を実施する。ＤＮＮは通常、フィードフォワードネットワークとして設計されるが、回帰的な形のＤＮＮも存在する。フィードフォワードネットワークでは、ニューロンの第１の層中の各ニューロンが、複数の入力信号を受ける。連続的な各層中で、各ニューロンが、前の層中の複数のニューロンの出力を受ける。

話者適応型訓練（ＳＡＴ：speaker adaptive training）は、ＡＳＲにおいて話者適応を実施するためのアプローチであり、話者ばらつきが訓練と認識の両方において正規化される。ＳＡＴは、音響モデル化を改善し、ＤＮＮベースの自動音声認識（ＡＳＲ）と音声合成の両方において役立つ可能性がある。ＤＮＮにおける話者適応は、ＤＮＮを訓練する前に入力特徴を変形することによって実施されるか、又は、テスト話者特有のデータを使用してＤＮＮのパラメータを調整することによって実施されるかのいずれかである。両方のアプローチを使用して、幅広いシステムが提案されてきた。ＤＮＮを訓練する前に入力特徴を変形することに焦点を合わせるアプローチの場合、主要な欠点は、新しい特徴変形が適用されるとＤＮＮが再訓練されなければならないことである。一方、ネットワークパラメータを調整することに焦点を合わせるアプローチの場合、ＤＮＮは通常、より適応的なパラメータを必要とし、従って、主要な困難は、テスト話者からの限られた利用可能データを用いてネットワークパラメータを調整することである。

発明が特許請求の範囲において示される。

次に、後続の図面に関して本発明の例が記述される。

テスト話者特有適応システムを生み出すための第１の方法のステップの流れ図。図１の方法を実施するためのコンピュータシステムを概略的に例証する図。図１の方法のステップにおいて訓練される適応モデルを例証する図。図１の方法のステップにおいて訓練される更に他の適応モデルを例証する図。図１の方法のステップにおいて訓練される更に他の適応モデルを例証する図。図１の方法のステップにおいて訓練される更に他の適応モデルを例証する図。図１の方法のステップにおいて訓練される更に他の適応モデルを例証する図。図１の方法のステップにおいて訓練される更に他の適応モデルを例証する図。テスト話者特有適応システムを生み出すための第２の方法の流れ図。テスト話者特有適応システムを生み出すための第３の方法の流れ図。図６の適応モデルに取って代るための、図１又は図９の方法の異形で使用される適応モデルの図。図８の適応モデルに取って代るための、図１又は図９の方法の異形で使用される適応モデルの図。

一例によれば、本開示は、複数の訓練話者の各々に対して適応モデルコンポーネントが提供されることを提案する。各適応モデルコンポーネントは、対応する訓練話者についての訓練データを使用して、入力ネットワークコンポーネント（通常はニューロンの複数の層）と適応モデルコンポーネントとを有する適応ネットワークの一部として訓練される。従って、訓練話者ごとに、対応する訓練話者特有適応モデルコンポーネントが形成される。

入力ネットワークコンポーネントは、入力ネットワークコンポーネントと適応モデルコンポーネントとを備える適応モデルの一部として、事前に訓練されてよい。入力ネットワークコンポーネント及び適応モデルコンポーネントは、訓練話者からの音声を使用して、教師あり学習によって訓練される。更に、このプロセスの間、適応モデルコンポーネントは、汎用（即ち話者独立の）適応モデルコンポーネントになるように訓練される。

入力ネットワークコンポーネントの少なくとも一部（例えば、入力ネットワークコンポーネントの最後の層）が、この後で、及び入力ネットワークコンポーネントが使用される前に、選択された雑音特性を有する複数の訓練話者についての雑音特有訓練データを使用して修正されてよい。この複数の訓練話者は、入力ネットワークを生成するのに自身の訓練データが使用された複数の訓練話者と、同じであるか、又は重なってよい。雑音特性は、テスト話者の測定された雑音環境に基づいて選択されてよい。任意選択で、汎用適応モデルコンポーネントが、やはり雑音特有訓練データに基づいて更新されてもよい。

適応ネットワークはまた、適応モデルコンポーネントの出力を受け取る適応出力ネットワークコンポーネント（少なくとも１つの、更に他のニューロン層）も備えることが好ましい。しかし、これは必須ではない。というのは、音、例えばモノフォン、を直接に示す出力を生み出すために適応モデルコンポーネントが使用されるような、本発明の例が形成されることが可能だからである。例えば、出力は、モノフォンを示す信号として、非適応出力層によってフォーマットされてよい。

次いで、訓練話者特有適応モデルコンポーネントの各々と、対応する訓練話者についての訓練データとを連続的に使用して、話者適応ＤＮＮモデル（ここでは話者適応出力ネットワークとも呼ばれる）が訓練される。訓練中、入力ネットワークコンポーネントの出力は、訓練話者特有適応モデルコンポーネントに送信され、また、訓練された汎用適応モデルコンポーネントにも送信されてよい。話者適応ＤＮＮモデル（話者適応出力ネットワーク）は、訓練話者特有適応モデルコンポーネントの出力を受け、また任意選択で、訓練された汎用適応モデルコンポーネントの出力も受ける。

訓練データがテスト話者について利用可能であるとき、入力ネットワークコンポーネントと、適応モデルコンポーネントと、出力ネットワークコンポーネント（もしあれば）とを備える更に他の適応モデルが形成される。この、更に他の適応モデル内で、適応モデルコンポーネントは、テスト対象についての訓練データを使用して訓練される。従って、適応モデルコンポーネントは、テスト対象に特有になる。

入力ネットワークコンポーネントと、訓練されたテスト話者特有ボトルネック層と、話者適応ＤＮＮモデルとから、テスト話者特有適応システムが形成される。入力ネットワークコンポーネント及び話者適応ＤＮＮモデルは、テスト話者についての訓練データを使用して変更される必要はないことに留意されたい。即ち、これらは両方とも、前述のように、訓練話者についての訓練データのみを使用して形成される。テスト話者特有適応システムは、テスト話者の音声を認識するようによく適応されている。テスト話者特有適応システムは更に、訓練された汎用適応モデルコンポーネントも備えることができ、この訓練された汎用適応モデルコンポーネントは、入力ネットワークコンポーネントの出力を受け、話者適応ＤＮＮモデルに出力を送信するように構成される。

適応モデルコンポーネントは、訓練話者の各々及びテスト話者について、同じサイズを有する。適応モデルコンポーネントは、話者適応ＤＮＮモデル、入力ネットワークコンポーネント又は出力ネットワークコンポーネント（もしあれば）の変数の数よりもずっと少ないネットワーク変数を有してよい。

この理由で、テスト話者特有適応モデルコンポーネントを訓練するのに必要な、テスト話者についての訓練データの量は、少ない、即ち、話者適応ＤＮＮモデルを得るのに使用される、訓練話者からの訓練データの量よりもずっと少ない。言い換えれば、本発明の例は、テスト話者から利用可能なデータがほとんどないときに使用されることが可能である。

例えば、各適応モデルコンポーネントは、入力ネットワークコンポーネント中のニューロンの数の１０％未満、更には５％未満によって定義される場合がある。同様に、各適応モデルコンポーネントは、話者適応ＤＮＮモデルのニューロンの数の１０％未満、更には５％未満を含む場合がある。

各適応モデルコンポーネントは、各ニューロンが入力ネットワークコンポーネントの出力を受ける、単一の層であってよい。この理由で、適応モデルコンポーネントは、「ボトルネック層」と呼ばれてよい。というのは、適応モデルコンポーネントは、入力ネットワークコンポーネントの層又は話者適応ＤＮＮモデルの層のいずれかよりも少数のニューロンを有する、完全なテスト話者特有適応層の層を形成することができるからである。

入力ネットワークコンポーネント及び話者特有適応モデルコンポーネント（合わせて「第１の段階」と呼ばれる）は、主に、話者適応ＤＮＮ（第２の段階）への入力を提供するための特徴抽出器としての働きをする。第１の段階の隠れ層中のニューロンの数及び特に、適応モデルコンポーネント中のニューロンの数は、話者適応ＤＮＮ（第２段階ＤＮＮ）中の隠れ層の次元よりもずっと少なくてよい。このことは、推定のためのパラメータがより少ないことを意味し、オンライン認識に非常に役立つ可能性がある（例えば、テスト話者の認識中に、テスト話者からのわずか１分の音声データを使用して、システムがよりよく動作するように調整されることが可能である）。

訓練話者特有適応モデルコンポーネントを訓練するのに使用される適応モデルの入力ネットワークコンポーネント及び出力ネットワークコンポーネント（もしあれば）は、最初の訓練プロシージャ中に生み出されることが好ましい。この最初の訓練プロシージャでは、入力ネットワークコンポーネントと、汎用適応モデルコンポーネントと、出力ネットワークコンポーネント（もしあれば）とを備える適応モデルが、訓練話者についての訓練データを使用して訓練される。

この訓練プロシージャ及び／又は訓練話者特有適応モデルコンポーネントが生み出される後続の訓練プロシージャ及び／又はテスト話者特有適応モデルコンポーネントが生み出される後続のプロシージャでは、適応モデルは、モノフォンを示す信号を生み出すように訓練されることが好ましい。しかし、これはオプションにすぎない。例えば、別法として、本発明の例が各ステップでトライフォンを使用することも可能である。

対照的に、話者適応ＤＮＮを生み出す訓練プロシージャ中は、話者適応ＤＮＮは、トライフォンを示す信号を生成するように訓練されてよい。

テスト話者についての訓練データは、テスト話者からの一連の録音された発話と、関連する音（好ましくはトライフォン）（即ち、訓練方法は、サウンドがすでに音として復号された、話者についての訓練データを使用する）と、を含むデータの形をとることができる。この場合、テスト話者特有適応モデルコンポーネントの訓練は、教師あり学習であってよい。

別法として、テスト話者についての訓練データは、関連する音を含まないことがある（即ち、訓練方法は、サウンドがすでに音として復号された、テスト話者についての訓練データを利用しない）。この場合、アルゴリズムは、関連する音の対応する第１の推定値（第１のパス）を生み出すためにテスト話者についての訓練データの各要素を使用する、準備ステップを含むことができる。

第１の推定値は、トライフォンの形であってよい。これは、テスト対象についての訓練データを、入力ネットワークコンポーネントと、訓練された汎用適応モデルコンポーネントと、訓練話者からの訓練データを連続的に使用して訓練された「話者独立の」ＤＮＮと備える適応ネットワークに供給して、訓練された汎用適応モデルコンポーネントの出力を使用してトライフォンを生成することによって、行われることが好都合である。適応ネットワークの出力は、関連するトライフォンの第１の推定値である。次いで、テスト話者についてのテストデータと、関連するトライフォンの関連する第１の推定値とを使用して、教師あり学習プロセスにおいてテスト話者特有適応モデルコンポーネントが訓練される。言い換えれば、全体としての訓練プロシージャは監視なし（サウンドがすでに音素として復号された、テスト話者についての訓練データを使用しないので）だが、テスト話者特有適応モデルを生成するステップは、教師あり学習アルゴリズムを使用して実施されてよい。

上で論じられた適応ネットワークの全てにおいて、入力ネットワークコンポーネントに入力される信号は通常、マイクロフォンによって取り込まれたユーザの音声中の特徴を識別するフィルタバンクの出力である。テスト話者の音声は、マイクロフォンを使用して取り込まれ、フィルタバンクの中を通された後で、テスト話者特有適応モデルの入力ネットワークコンポーネントに送信される。

提案されるアプローチは、話者適応を実施するために、特徴変形アプローチを、ＤＮＮのモデルパラメータを調整するアプローチと統合することを容易にする。

任意選択で、訓練話者についての訓練データは、データベースに記憶された事前生成済みデータであってよい。この訓練データが、フィルタバンクによって出力されたデータの形で記憶された場合は、フィルタバンクは、訓練話者特有適応ネットワークコンポーネントと話者適応ＤＮＮとを生み出す訓練プロセス中に再び使用される必要はない。

提案されるアプローチは、テスト話者特有ボトルネックが監視あり適応と監視なし適応の両方によって生成されるときに、性能を改善することが示された。

任意選択で、テスト話者特有適応モデルコンポーネントを生成するステップは、時々繰り返されてよく、テスト話者特有適応ネットワークは、一番最近のテスト話者特有適応モデルコンポーネントで更新される。このようにして、テスト話者特有適応ネットワークは、テスト話者の音響環境の変化に合わせて更新されてよい。更新プロセスは、事前定義済みのタイムテーブルで（例えば定期的な間隔で）実施されてもよく、又は、更新が有益となることを自動的に検出するステップの後に続いて実施されてもよい。

本発明は、テスト話者特有適応システムを生成するコンピュータ実装方法によって、又は、この方法を実施するためのコンピュータシステムによって、若しくは、この方法をコンピュータシステムに実施させるためのプログラム命令（例えば非一時的な形の）を含むコンピュータプログラム製品（有形のデータストレージデバイスなど）によって、表現されることが可能である。

任意選択で、本発明は、テスト話者からの訓練データを使用して遂行されるステップによってのみ表現されることも可能である。これは、訓練話者からの訓練データを使用するステップが、事前に、また任意選択で異なるコンピュータシステムによって、遂行される場合があるからである。

本発明は更に、テスト話者からの音声を認識するためにテスト話者特有適応システムを使用するための方法又はシステムとして表現されることも可能である。認識された音声は、単語に変換されてよい。この方法又はシステムは、アクションを選択するためにこれらの単語を使用することができ、任意選択でこれらのアクションを実施することができる。

図１を参照すると、本発明の例である第１の方法１００の流れ図が示されている。図９は、本発明の例である第２の方法の流れ図である。

方法１００、２００は、図２に示されるコンピュータシステム１０によって実施されてよい。コンピュータシステムは、プロセッサ１１と、データストレージシステム１２と、マイクロフォン１３とを備える。プロセッサ１１は、第１のメモリデバイス１１１中のプログラム命令によって制御され、データを生成し、このデータを第２のメモリデバイス１１２に記憶する。コンピュータシステム１０は、例えば、ワークステーションＰＣ（パーソナルコンピュータ）やタブレットコンピュータなど、一般的なコンピュータシステムであってよい。別法として、プロセッサ１１は、サーバシステムのプロセッサであってもよい。別の可能性では、プロセッサ１１は、自動車又はホーム機器若しくはオフィス機器のアイテムなど、ＡＳＲ能力を設けることが望まれるより大きい装置の一部であってもよい。

データストレージシステム１２は、訓練データを記憶するためのものである。データストレージシステム１２は、テスト話者についての訓練データを記憶するのに使用される第１のデータベース１４を備える。この訓練データがとり得る形については後述される。データストレージシステム１２は更に、ｉ＝１，．．．Ｎとしてラベル付けされたＮ人のテスト話者についての訓練データを記憶するためのデータベース１５を備える。データベース１５は、Ｎ個のそれぞれのセクション１５１，１５２，．．．１５Ｎに分割され、これらのセクションはそれぞれ、Ｎ人の訓練話者の各々についての訓練データを記憶する。

データベースセクション１５１，１５１，．．．１５Ｎのうちの対応するセクションに記憶された、各訓練話者についての訓練データは、マイクロフォンによって録音された生サウンドデータである第１の部分を含む。サウンドデータは連続的な部分に分割され、これらの部分は、ここではフレームと呼ばれる。訓練データは更に第２の部分を含み、第２の部分は、各フレームにつき、対応する時点で訓練話者が話した音を示す。フレームは等しい長さであり、各フレームは、１つのモノフォン又はトライフォンに関連する。データの第１の部分は、マイクロフォン１３によって録音されたものであってよい。別法として、データの第１及び第２の部分は、サードパーティによって生成されたデータベースなど、既存のデータベースから得られたものであってもよい。
Ａ．方法１００
１．ボトルネックＤＮＮの訓練（図１のステップ１）
図１の方法の第１のステップ（ステップ１）は、図３に例証されるような適応システム２０を使用して実施される。適応システム２０は、コンピュータシステム１中に仮想的にのみ存在する。適応システム２０は、生サウンドデータ１７を受け取って処理するために、フィルタバンク（ＦＢＡＮＫ）１６の出力を受ける。後で言及されるように、ステップ１が遂行されるのに伴って、生サウンドデータ１７は、データベースセクション１５１，１５２，．．．，１５Ｎの第１の部分中の生サウンドデータから連続的に引き出される。任意の瞬間で、ＦＢＡＮＫ１６に入力される生サウンドデータは、フレームの１つである。

フィルタバンクＦＢＡＮＫ１６は、メルＦＢＡＮＫであってよい。しかし、後述される本発明の例の異形では、ＦＢＡＮＫ１６は、後続の記述の全体を通して、以下のうちの１つで置き換えられてもよい。即ち、（ｉ）メルＦＢＡＮＫと、それに加えてＤベクトル（Ｄ−ｖｅｃｔｏｒ）ユニット（Ｄベクトルは、ＦＢＡＮＫ特徴に付加される追加コンポーネントである）。これは、ＥｈｓａｎＶａｒｉａｎｉ、ＸｉｎＬｅｉ、ＥｒｉｋＭｃＤｅｒｍｏｔｔ、ＩｇｎａｃｉｏＬｏｐｅｚＭｏｒｅｎｏ及びＪｏｒｇｅＧｏｎｚａｌｅｚ−Ｄｏｍｉｎｇｕｅｚ、「Ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｓｍａｌｌｆｏｏｔｐｒｉｎｔｔｅｘｔ−ｄｅｐｅｎｄｅｎｔｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎ」、ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ），２０１４、２０１４年に記載されている。又は、（ｉｉ）メルＦＢＡＮＫと、それに加えて制約付き最尤線形回帰（ＣＭＬＬＲ：constrained maximum likelihood linear regression）ユニット（これは、Ｓ．Ｐ．Ｒａｔｈ、Ｄ．Ｐｏｖｅｙ、Ｋ．Ｖｅｓｅｌｙ及びＪ．Ｃｅｒｎｏｃｋｙ、「Ｉｍｐｒｏｖｅｄｆｅａｔｕｒｅｐｒｏｃｅｓｓｉｎｇｆｏｒｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ」、ＩＮＴＥＲＳＰＥＥＣＨ会報、２０１３年に記載されている。ＣＭＬＬＲは、Ｄベクトルのような付加特徴ではないことに留意されたい）。又は、（ｉｉｉ）メルＦＢＡＮＫと、それに加えてＣＭＬＬＲユニット及びＤベクトルユニット。

ＦＢＡＮＫ１６は、任意の時点で受け取る生サウンドデータ（サウンドアイテム）中に複数の特徴があるかどうか識別する。ＦＢＡＮＫ１６は、これらの特徴がサウンドアイテム中にあるかどうかを示す複数の出力信号を生成する。

ＦＢＡＮＫ１６の複数の出力信号は、適応入力ネットワークコンポーネント１８の入力に供給され、適応入力ネットワークコンポーネント１８は、通常はＤＮＮである。図３に描かれる入力ネットワークコンポーネント１８は、３つの層１８ａ、１８ｂ、１８ｃを有するが、本発明の例の異形では、任意の整数個の層があってよい。これらの各層は、複数のニューロン、例えば１層当たり５１２個のニューロンを有する。各ニューロンは、複数の入力を受け、１つの出力を生成する。第１の層１８ａの各ニューロンは、ＦＢＡＮＫ１６の全ての出力を受ける。第２の層１８ｂ中の各ニューロンは、第１の層１８ａ中の全てのニューロンの出力を受ける。第３の層１８ｃ中の各ニューロンは、第３の層１８ｂ中の全てのニューロンの出力を受ける。

入力ネットワークコンポーネント１８の出力（即ち第３の層１８ｃ中のニューロンのそれぞれの出力）は、「ボトルネック層」１９と呼ばれる適応モデルコンポーネント１９に供給される。ボトルネック層１９は、入力ネットワークコンポーネント１８の全ての出力（即ち層１８ｃ中のニューロンの出力）を各々が受けるニューロンの単一層である。ボトルネック層１９中のニューロンの数は、入力ネットワークコンポーネント１８の各層中のニューロンの数よりもずっと少ない。例えば、ボトルネック層１９中には、７５個のニューロンしかないことがある。

ボトルネック層１９中のニューロンの出力は、適応出力ネットワークコンポーネント２１に入力として供給される。適応出力ネットワークコンポーネント２１は、この例では、５１２個のニューロンを含み得る単一の層２１ａからなる。

出力ネットワークコンポーネント２１の出力は、非適応出力層２７に供給され、非適応出力層２７は、単一のモノフォンを示す信号を生み出すために、出力ネットワークコンポーネント２１の出力をフォーマットする。

入力ネットワークコンポーネント１８、ボトルネック層１９及び出力ネットワークコンポーネント２１は、ここではボトルネックＤＮＮ（ＢＮ−ＤＮＮ）と総称される。

層１８ａ、１８ｂ、１８ｃ、１９及び２１ａ中の各ニューロンは、それぞれの出力を形成するが、この出力は、その入力の加重合計など、その入力と相関関係にあるものである。重みは、可変パラメータである。ボトルネック層１９中のニューロンの数は、層１８ａ、１８ｂ、１８ｃ又は２１ａのどの層中のニューロンの数よりもずっと少なく（例えば、これらの層のいずれか１つの層中のニューロンのわずか２０％にすぎない）、従って、総ネットワークパラメータのうちの非常に小さい部分のみが、ボトルネック層１９に関連する。

ステップ１で、適応システム２０は、データベースセクション１５１，１５２，．．．．１５Ｎの第１の部分中の生音声データを、データベースセクション１５１，１５２，．．．．１５Ｎの第２の部分中のモノフォンに関連付けるように訓練される。即ち、層１８ａ、１８ｂ、１９及び２１ａの重みは、既知のアルゴリズムによって徐々に修正され、従って、音声アイテムがメルＦＢＡＮＫ１６に連続的に入力された場合、層２０の出力は、単一のモノフォンを示す信号を生み出すために非適応出力層２７によって使用され得る形で、対応するモノフォンを符号化する。

このプロセスは、データベース１５中の全ての訓練話者についての訓練データを連続的に使用して遂行されることに留意されたい。従って、入力ネットワークコンポーネント１８、ボトルネック層１９及び出力ネットワークコンポーネント２１は、いずれかの訓練話者に特有の方式で訓練されるのではない。特に、ボトルネック層１９は、汎用ボトルネック層（即ちどの訓練話者にも適用可能な）になるように訓練される。前に使用された用語で言えば、訓練された汎用ボトルネック層は、訓練された汎用適応モデルコンポーネントである。

最も適した学習アルゴリズムでは、音声アイテムがＦＢＡＮＫ１６に１つずつ提示され、対応するモノフォンを出力ネットワークコンポーネント２１が出力するようにネットワークパラメータが修正される。

訓練話者からのフレームが学習される順序は、重要ではない。１つの可能性では、第１の訓練話者についてのフレームのうちのランダムに選ばれた１つがＦＢＡＮＫ１６に入力されてよく、対応するモノフォンを出力ネットワークコンポーネント２１の出力が示すように、ネットワークパラメータが調節される。次いで、第２の訓練話者についてのフレームのうちのランダムに選ばれた１つで、同じことが行われる。Ｎ番目の訓練話者についてのフレームのうちのランダムに選ばれた１つで同じことが行われるまで、以下同様である。次いで、望まれる回数にわたりプロセス全体が繰り返される（例えば、収束基準に達するまで）。

ＢＮ−ＤＮＮを訓練するのにモノフォンターゲットを使用する理由は、認識中のトランスクリプションエラーに対してボトルネック層訓練を頑強にし、データ希薄の問題を軽減するためである。トライフォンターゲットをモノフォンにマッピングすることは、状態共有として解釈されることが可能であり、データ希薄の問題を軽減する助けになる。

我々は次に、ステップ２並びにステップ３及び４について述べる。ステップ２は、ステップ３及び４から独立していることに留意されたい。ステップ２は、ステップ３及び４の後で実施されてもよく、又はステップ３及び４と同時に実施されてもよい。
２．テスト話者を認識するための、話者独立（ＳＩ）ＤＮＮの訓練（図１のステップ２）
ステップ２で、訓練された入力ネットワークコンポーネント１８及び訓練された汎用ボトルネック層１９は、図４に示される２段階適応ネットワーク２５の第１の段階として使用される。図３におけるのと同じ意味を有するコンポーネントには、同じ参照番号が付されている。適応ネットワークは、ＦＢＡＮＫ１６の出力を受け取る訓練された入力ネットワークコンポーネント１８と、訓練された汎用ボトルネック層１９とを備える。適応ネットワークは更に、３つの層２２ａ、２２ｂ、２２ｃを備えた「段階２」ＤＮＮ２２も備える。各層は２０４８個のニューロンを含むことができ、各ニューロンは、その入力の加重合計に応じてそれぞれの出力を形成する。第２の層２２ｂの各ニューロンは、第１の層２２ａ中のニューロンの出力を受け、第３の層２２ｃの各ニューロンは、第２の層２２ｃ中のニューロンの出力を受ける。本発明の例の異形では、段階２ＤＮＮ２２中の層の数及び１層当たりのニューロンの数は、異なってもよいことに留意されたい。

ステップ１と同様、全ての訓練話者についての音声アイテムが、ＦＢＡＮＫ１６に連続的に入力され、ＦＢＡＮＫ１６は、適応ネットワークの第１の段階（即ち、訓練された入力層１８及び訓練されたボトルネック層１９）に供給する。ボトルネック層１９の、対応する結果的な出力は、同じ訓練話者についての５つの後続フレームがＦＢＡＮＫに連続的に入力されたときのボトルネック層１９のそれぞれの５つの出力及び同じ訓練話者についての５つの先行フレームがＦＢＡＮＫに連続的に入力されたときのボトルネック層１９のそれぞれの５つの出力と結合されて、特徴ベクトル２６が形成される。本発明の例の異形では、先行及び／又は後続フレームの数は５つとは異なってもよいが、後で説明される我々の実験的実装形態では、５つのこのようなフレームが使用されたことに留意されたい。特徴ベクトル２６は、段階２ＤＮＮ２２の第１の層２２ａの各ニューロンに入力される。

所与の特徴ベクトル２６が段階２ＤＮＮに入力されると、段階２ＤＮＮ２２のニューロンは、ＦＢＡＮＫ１６に入力された音声アイテムを中心とするトライフォンを示す信号を第３の層２２ｃが生成するように、修正される。第３の層２２ｃの出力は非適応出力層２８に供給され、非適応出力層２８は、トライフォンを示す信号を生み出すために第３段階層２２ｃの出力をフォーマットする。

このプロセスは、全ての訓練話者についての音声アイテムに対して、連続的に繰り返される。

ステップ１と同様、訓練話者についての音声アイテムが使用される順序は、重要ではない。１つの可能性では、第１の訓練話者についてのフレームのうちのランダムに選ばれた１つがＦＢＡＮＫ１６に出力されてよく、対応するトライフォンを出力ネットワーク２２ｃの出力が示すように、段階２ＤＮＮ２２中のニューロンのパラメータが調節される。次いで、第２の訓練話者についてのフレームのうちのランダムに選ばれた１つで、同じことが行われる。Ｎ番目の訓練話者についてのフレームのうちのランダムに選ばれた１つで同じことが行われるまで、以下同様である。次いで、望まれる回数にわたりプロセス全体が繰り返される（例えば、収束基準に達するまで）。

このように、段階２ＤＮＮ２２は、話者独立（ＳＩ）ＤＮＮになるように徐々に訓練される。図４の訓練された適応システム２５は、どの訓練話者の音声中のトライフォンも認識するようによく適応され、後述されるように、音トランスクリプションが利用可能でないときにテスト話者の第１パストランスクリプションを得るのに使用されることが可能である。話者ばらつきはまだ正規化されていない。
３．話者適応ＤＮＮモデルの形成（図１のステップ３及び４）
ステップ３で、Ｎ人の訓練話者の各々につき、それぞれの適応システムが形成される。図５に、ｉ番目の訓練話者についての適応ネットワーク３０ｉが示されている。適応ネットワーク３０ｉは、ＦＢＡＮＫ１６の出力を受け、ステップ１で生成された訓練された入力ネットワークコンポーネント１８及び訓練された出力ネットワークコンポーネント２１を備えるが、更に、適応ネットワーク３０ｉごとに異なるボトルネック層１９ｉも備える。任意選択で、ボトルネック層１９ｉは、最初は、ステップ１で生成された訓練された汎用ボトルネック層１９と等しくてもよい。

適応システム３０ｉごとのそれぞれのボトルネック層１９ｉは、データベースセクション１５中の、それぞれのｉ番目の訓練話者についての訓練データのみを使用して訓練される。訓練された入力ネットワークコンポーネント１８及び訓練された出力ネットワークコンポーネント２１は、修正されない。この結果、訓練話者特有の訓練されたボトルネック層１９ｉが得られる。訓練話者特有の訓練されたボトルネック層は、ＳＤＢＮ−１，ＳＤＢＮ−２，．．．，ＳＤＢＮ−Ｎとしてラベル付けされてよい。訓練された入力ネットワークコンポーネント１８と、訓練話者特有の訓練されたボトルネック層１９ｉとの組合せは、訓練話者特有ＢＮＤＮＮである。この場合もやはり、単一のモノフォンを示す信号として出力ネットワークコンポーネント２１の出力をフォーマットするために、非適応出力層２７が設けられる。

このプロセスは、各訓練話者に対して順に実施される。

ステップ４で、Ｎ個の訓練話者特有の訓練されたボトルネック層は、図４の段階２ＤＮＮ２２と同じ形を有する段階２ＤＮＮ３２を訓練するのに使用される。この訓練は、図６に示される適応システム３５内に段階２ＤＮＮがある間に行われる。

段階２ＤＮＮ３２は、３つの層３２ａ、３２ｂ、３２ｃを備える。各層は２０４８個のニューロンを含むことができ、各ニューロンは、その入力の加重合計に応じてそれぞれの出力を形成する。第１の層３２ａの各ニューロンは、特徴ベクトルを受け、第２の層３２ｂの各ニューロンは、第１の層３２ａ中のニューロンの出力を受け、第３の層３２ｃの各ニューロンは、第２の層２２ｃ中のニューロンの出力を受ける。この場合もやはり、単一のトライフォンを示す信号として層３２ｃの出力をフォーマットするために、非適応出力層２８が設けられる。

図６に示される適応システム３５は、ＦＢＡＮＫ１６の出力を受ける。適応システムは、ステップ１で形成された訓練された入力ネットワークコンポーネント１８を備える。

ステップ１及び２と同様、全ての訓練話者についての音声アイテムが、ＦＢＡＮＫ１６に連続的に入力される。ｉ番目の訓練話者についての音声アイテムがＦＢＡＮＫ１６に入力されたとき、入力層１８の出力は、ｉ番目の訓練話者特有ボトルネック層１９ｉに供給される。

ボトルネック層１９ｉの結果的な出力は、特徴ベクトル２６を形成するために、同じ訓練話者についての５つの後続フレーム及び５つの先行フレームと結合される。特徴ベクトル２６は、段階２ＤＮＮ３２の第１の層３２ａの各ニューロンに入力される。

所与の特徴ベクトル２６が段階２ＤＮＮ３２に入力されると、段階２ＤＮＮ３２のニューロンは、ＦＢＡＮＫ１６に入力された音声アイテムを中心とするトライフォンを示す信号を第３の層３２ｃが生成するように、修正される。

訓練話者についての音声アイテムが使用される順序は、重要ではない。１つの可能性では、第１の訓練話者についてのフレームのうちのランダムに選ばれた１つがＦＢＡＮＫ１６に出力されてよく、対応するトライフォンを出力ネットワーク３２ｃの出力が示すように、段階２ＤＮＮ３２中のニューロンのパラメータが調節される。次いで、第２の訓練話者についてのフレームのうちのランダムに選ばれた１つで、同じことが行われる。Ｎ番目の訓練話者についてのフレームのうちのランダムに選ばれた１つで同じことが行われるまで、以下同様である。次いで、望まれる回数にわたりプロセス全体が（例えば、収束基準に達するまで）繰り返される。

このように、段階２ＤＮＮ３２は、訓練話者特有ＢＮＤＮＮのいずれかによって出力されたデータからトライフォニームを認識するようになるように、徐々に訓練される。これは、ステップ２で生成された段階２ＤＮＮ２２とは対照的であり、段階２ＤＮＮ２２は、ステップ１で生成された訓練された汎用ＢＮＤＮＮの出力からトライフォニームを認識するように訓練される。段階２ＤＮＮ３２は、以下ではＳＡＴ−ＤＮＮと呼ばれる。
４．テスト話者に対する自動音声認識（図１のステップ５〜９）
次に、テスト話者からの音声がどのように認識されるかに目を向ける。このステップは通常、ステップ１〜４の後、テスト話者からの訓練データが利用可能になったときに実施される。このステップは、ステップ１で生成された訓練された入力ネットワークコンポーネント１８及び訓練された出力ネットワークコンポーネント２１と、ステップ２で生成された適応ネットワーク（ＳＩ−ＤＮＮ）２５と、ステップ４で生成された段階２ＤＮＮとを利用する。テスト話者２からの音声が、マイクロフォン１３によって取り込まれ、データベース１４に記憶される。ステップ５〜９は通常、ステップ１〜４の後、テスト話者からの音声が利用可能になったときに遂行される。これは、図１で破線によって示される。しかし、本発明の幾つかの例では、ステップ５〜７は、ステップ３及び４の前に、又は同時に遂行されてもよい。

ステップ５で、取り込まれたテスト話者の音声中のトライフォンの「第１パス」認識を生成するために、適応ネットワーク２５（ステップ２で生み出された）が使用される。結果は、適度に正確である。

ステップ６で、ステップ５で導出されたトライフォンが、モノフォンに変換される。これは、本方法の任意選択のステップであることに留意されたい。即ち、本方法は、別法として、全体的にトライフォンを使用して実施されてもよい。このプロセスはまた、取り込まれたテスト話者の音声に対するモノフォンの整合（即ち、各モノフォンが開始する時点）も示す。従って、データベース１４中のテスト話者についての訓練データは、フレームに分割される。

ステップ７で、図７に示される適応システム４０が形成される。適応システム４０は、ＦＢＡＮＫ１６の出力を受け、訓練された入力ネットワークコンポーネント１８と、新しいボトルネック層４５（これは任意選択で、最初は、ステップ１で生成された訓練された汎用ボトルネック層１９と等しくてもよい）と、訓練された出力ネットワークコンポーネント２１とを備える。この場合もやはり、単一のモノフォンを示す信号として出力ネットワークコンポーネント２１の出力をフォーマットするために、非適応出力層２７が設けられる。

次いで、ステップ３と同様の方式で、学習プロシージャが実施される。これは、データベース１４からの音声アイテムを適応システム４０のＦＢＡＮＫ１６に連続的に入力し、ボトルネック層４５を修正して、それにより、出力ネットワークコンポーネント２１の出力が、ステップ６で得られた対応するモノフォンであるようにすることによって、実施される。

このように、ボトルネック層４５は、テスト話者特有ボトルネック層になるように訓練される。留意されたいが、ボトルネック層に関連する可変パラメータの数は、入力ネットワークコンポーネント１８又は出力ネットワークコンポーネント２１に関連する可変パラメータの数よりもずっと少なく、従って、ボトルネック層４５のパラメータを直すのに必要とされる訓練データの量は、ステップ１で必要とされたよりもずっと少ない。よって、必要とされる、取り込まれるテスト話者の音声は少ない。特に、ボトルネック層４５の訓練は、トライフォンではなくモノフォンを用いて実施され、このことは、テスト話者特有ボトルネック層４５を訓練するのに必要とされる取り込まれるテスト話者の音声の量を削減する。

ステップ８で、図８に示されるテスト話者特有適応システム５０が形成される。これは、マイクロフォン１３によって収集されたテスト話者からの音声を認識するのに使用される。マイクロフォンの出力は、ＦＢＡＮＫ１６に送信され、ＦＢＡＮＫ１６の出力は、テスト話者特有適応システム５０の第１の部分である入力ネットワークコンポーネント１８に送信される。具体的には、テスト話者特有適応システム５０は、訓練された入力ネットワークコンポーネント１８と、訓練されたテスト話者特有ボトルネック層４５と、ステップ４で生成された段階２ＤＮＮ３２（話者適応出力ネットワーク）とを備える。このテスト話者特有適応システム５０は、マイクロフォン１３によって取り込まれた音声中のトライフォンを認識するのに使用されることが可能である。この場合もやはり、単一のトライフォンを示す信号として段階２ＤＮＮ３２の層３２ｃの出力をフォーマットするために、非適応出力層２８が設けられる。

幾つかのフレームがＦＢＡＮＫ１６に入力されたときのテスト話者特有ボトルネック層４５からの出力は、このフレームの前の５つの各フレームがＦＢＡＮＫに連続的に入力されたときのボトルネック層４５の５つのそれぞれの出力及びこのフレームの後の５つの各フレームがＦＢＡＮＫに連続的に入力されたときのボトルネック層４５の５つのそれぞれの出力と結合されて、段階２ＤＮＮ３２への入力が生成されることに留意されたい。

図１の方法は、テスト話者によって話される音素に関するアプリオリ情報を必要としない。即ち、これらの音素は、ステップ５で近似方式で認識され、従って、ステップ７で、教師あり学習が実施されることが可能である。言い換えれば、ステップ５〜８で実施される全体としての方法は、監視なし（テスト話者によって話される音に関する利用可能なアプリオリ情報がないという意味で）だが、ステップ７は、監視ありステップと見なされることが可能である。

任意選択で、システムは、いくらかの量の時間が経過したと決定することができる（ステップ９で）。この後、訓練話者についての新しい訓練データが収集され、次いで、この訓練データは、既存のテスト話者特有適応システムを使用してトライフォンに変換される。次いで、ステップ６〜８が繰り返される。これは、交換用テスト話者特有ボトルネック層を組み込んだ、交換用テスト話者特有適応システムを生み出すことになる。交換用テスト話者特有適応システムは、例えば、ステップ５〜８が最初に実施されてからテスト話者の音響環境が変化した可能性に対処することになる。

留意されたいが、ステップ９で既存のテスト話者特有適応システムを使用してテスト話者についての新しい訓練データをトライフォンに変換することに対する代替は、テスト話者についての新しい訓練データをトライフォンに変換するために図４のＳＩ−ＤＮＮを使用することであろう。次いで、前の段落で記述されたように、ステップ６〜８が繰り返されることになる。

交換用テスト話者特有適応システムを生成するプロセスは、不確定的に時々実施されること、及び／又は、既存のテスト話者特有適応システムの精度が不十分なのでこのプロセスを繰り返すのが有益となることを示す制御信号（例えばテスト話者からの）の受領時に実施されること、が可能である。

この概念の異形では、ステップ５〜８は、他の何らかの基準が満たされたときに繰り返されてもよい。例えば、ＡＳＲシステムは、マイクロフォン１３によって受けたサウンド中の雑音の特性を決定するためのコンポーネントを備えることがあり、マイクロフォン１３によって受けたサウンドの雑音特性が所定量よりも多く変化したと決定されたとき、ステップ５〜８が繰り返されてよい。

方法１００の異形では、テスト話者の取り込まれた音声のアイテムに対して、テスト話者によって話された対応するモノフォニームが識別されるような、テスト話者からの訓練データが利用可能である場合は、ステップ２、５及び６は省略されてよいことに留意されたい。テスト話者に関係する訓練データは、ステップ７でテスト話者特有ボトルネック層４５を生成するために利用されてよく、これは、テスト話者に関係する訓練データを使用して適応ネットワーク４０内でボトルネック層４５の教師あり学習を実施することによって、行われてよい。

明確であろうが、適応ネットワーク２０、２５、３０ｉ、３５、４０及び５０は、コンピュータシステム１０のメモリ空間で仮想的に実装される。

ステップ１〜８は、同じコンピュータシステムによって実施される必要もなく、実質的に同時に実施される必要もない。そうではなく、ステップ１〜４は、任意選択で、第１のコンピュータシステムによって、例えば訓練話者に関係する非常に多量の訓練データを使用して実施されてよく、次いで、ステップ５〜９は、テスト話者についてのデータが利用可能なときに第２のコンピュータシステム（例えば、異なる人間オペレータを伴う）によって実施されてよい。

図３、５及び７の適応モデルの異形では、出力層ネットワーク２１は、本発明の幾つかの実施形態から省略されてよく、従って、ボトルネック層１９、１９ｉ、４５は、ＦＢＡＮＫに入力された音声アイテムに対応するモノフォンを直接に示す出力を生み出すように訓練される。非適応出力層２７は、単一のモノフォンを示す信号を生成するために、ボトルネック層１９、１９ｉ、４５の出力をフォーマットすることになる。

方法１００では、データベースセクション１５１，１５２，．．．１５Ｎに記憶された訓練話者についての訓練データに雑音がないことは、必須ではないことに留意されたい。別法として、この訓練データは、テスト話者の可能性ある雑音環境に似た雑音など、雑音を受けるように選ばれてもよい。
Ｂ方法２００
図９に、本発明の更に他の例である方法２００が例証されている。図９は、３つの追加ステップ１ａ、１ｂ及び１ｃが実施されるという点で、図１と異なる。図１に例証されるように、これらはステップ１の後で実施されるが、ステップ１ａ及び１ｂは、別法としてステップ１の前に実施されてもよく、実際、後で論じられるように、ステップ１ａは省略されてもよい。

ステップ１ａで、測定された雑音特性を生み出すために、テスト話者の雑音環境が測定される。これは、例えば、テスト話者が話す前（又は後）にマイクロフォン１３からサウンドデータを収集することによって行われてよい。

ステップ１ｂで、測定された雑音特性と同様の雑音特性を有する、各訓練話者についての訓練データのセット（雑音あり訓練データ）を得るために、測定された雑音環境が使用される。例えば、それぞれのデータベースセクション１５１，１５２，．．．．，１５Ｎに記憶された各訓練話者についての訓練データが、異なるそれぞれの雑音特性を有する部分を含む場合、測定された雑音特性と同様の雑音特性を有する部分が選択される。雑音あり訓練データは、データストレージシステム１２内の追加データベース（図２には示されていない）に記憶される。

ステップ１ｃで、ステップ１ｂで得られた雑音あり訓練データを使用してステップ１が繰り返されるが、入力ネットワークコンポーネントの最後の層のみが修正される。即ち、図３に示されるようなネットワークがこの場合もやはり使用されるが、ステップ１ｃでは、訓練された入力ネットワークコンポーネント１８の層１８ｃのみが修正される。任意選択で、やはりステップ１ｃの一部として、訓練された汎用ボトルネック層１９が修正（更新）されてもよい。以下で報告される実験では、汎用ボトルネック層は更新される。

任意選択で、ステップ１ｂで生成された雑音あり訓練データはまた、ステップ２〜４でも使用されてよい。これが適切かどうかは、利用可能な雑音ありデータの量に依存する。

ステップ９が完了すると、方法２００はステップ１ａにループバックする。異形では、ユーザの雑音環境の測定は、テストユーザから新しい音声データが収集される前又は後に、ステップ９の一部として実施されてよい。この場合、本方法は、別法として、ステップ９の後、ステップ１ａの代りにステップ１ｂにループバックすることができる。

方法１００では、ステップ１〜４は、テスト話者又はその雑音環境に関するどんな情報にも先立って実施されてよいが、方法２００のステップ１ａでは、テスト話者の雑音環境が測定されることに留意されたい。言い換えれば、方法２００は、テスト話者の場所でサウンドが収集されるのに続いて、より多くの計算処理が遂行されることを必要とするであろう。

方法２００の変形では、ステップ１ａは省略されてよく、その代り、ステップ１ｂでは、テスト話者の雑音環境の推定値に基づいて、雑音あり訓練データが得られる。

方法２００の別の変形では、ステップ２（ＳＩ−ＤＮＮの形成）並びにステップ３及び４（訓練話者適応ＤＮＮ（ＳＡＴ−ＤＮＮ）の形成）は、修正された入力ネットワーク（１ｃ）を用いるのではなく、ステップ１で生成された入力ネットワークを使用して、実施されてよい。言い換えれば、ステップ１、２、３及び４は、方法１００と全く同様に実施される。この場合、ステップ２、３及び４は、任意選択で、ステップ１ａ〜１ｃの前に実施されてもよい。従って、ステップ２、３及び４は、図９の方法の認識段階が開始する前に（例えば、テスト話者に関する、あるいは更にはテスト話者の雑音環境に関する利用可能な情報がないときに）実施されてよい。

訓練話者について、無限量の雑音あり訓練データが利用可能な場合、方法２００のプロセスは、例えば図１０に示されるように、簡略化されてよいことに留意されたい。図１０は方法３００を例証し、方法３００では、ステップ１ａ及び１ｂに続いて、汎用ボトルネックと入力ネットワークとを訓練するステップ１が実施され、別個のステップ１ｃは必要ない。この場合、ステップ１ｂは、ステップ１が入力ネットワークと汎用ボトルネック層の両方を訓練するために、十分な雑音あり訓練データを生み出さなければならないことになる。
Ｃ訓練話者適応ＤＮＮ中での汎用ボトルネック層の使用
第１の異形との組合せで使用され得る、方法１００の第２の可能な異形は、ステップ３で生成された訓練話者特有ボトルネック層１９ｉだけでなく、ステップ１で生成された汎用ボトルネック層１９も使用して、段階２ＤＮＮ３２を生成するステップ４を実施するものである。図６の適応ネットワーク３５は、この場合、図１１に例証される適応ネットワーク３５’で置き換えられ、図１１では、結果的な段階２ＤＮＮは、３２’としてラベル付けされている。段階２ＤＮＮ３２’は、例えば、３つの層３２ａ’、３２ｂ’及び３２ｃ’で構成されてよい。

ステップ４の訓練プロシージャ中、所与のｉ番目の訓練話者についての所与の訓練例がＦＢＡＮＫ１６に入力されたときは常に、訓練された入力ネットワークコンポーネント１８の出力が、対応するボトルネック層１９ｉだけでなく汎用ボトルネック層１９にも渡される。ボトルネック層１９ｉ及び汎用ボトルネック層１９のそれぞれの出力は、段階２ＤＮＮ３２’に入力されるデータベクトルを形成するように連結される。

同様に、ステップ８で使用される（また図８に示される）テスト話者特有適応システム５０は、図１１に例証されるテスト話者適応システム５０’で置き換えられる。具体的には、テスト話者特有適応システム５０’は、訓練された入力ネットワークコンポーネント１８と、訓練されたテスト話者特有ボトルネック層４５と、改訂された形のステップ４で生成された段階２ＤＮＮ３２’とを備える。このテスト話者特有適応システム５０’は、ステップ８で、マイクロフォン１３によって取り込まれたテスト話者の音声中のトライフォンを認識するために使用される。この場合もやはり、単一のトライフォンを示す信号として段階２ＤＮＮ３２’の層３２ｃ’の出力をフォーマットするために、非適応出力層２８が設けられる。
Ｄ結果
１．方法１００
以下の表１は、幾つかの従来のニューラルネットワークアルゴリズムと比較した、図１に例証される監視なし適応モードを使用したときの前述の方法１００の性能を示す。上で言及されたように、ステップ７でボトルネック層４５の重みを更新するための訓練データを生成するために、第１パスＡＳＲ（エラーを含む）トランスクリプション（ステップ５で実施される）が使用される。ステップ８で、トライフォンを認識するためにテスト話者特有ネットワークが形成され、既知のアルゴリズムを使用してトライフォンが単語に変換される。

訓練データは、８３人の話者からの７１３７個の発話からなる、クリーンな訓練データ及びマルチコンディション訓練データであった。これは、ここではＡｕｒｏｒａ４データベースと呼ばれる。クリーンなデータは、主要ゼンハイザー（Seenheiser）マイクロフォンを使用して録音されたが、一方、マルチコンディション訓練データは、重畳歪みを含む、主要マイクロフォンと副次マイクロフォンとを用いて録音されたデータを有していた。マルチコンディションデータは更に、６つの雑音条件、即ち空港、ざわめき（babble）、自動車、レストラン、街路及び鉄道駅からの、加法性雑音を有するデータを含んでいた。

テストデータは１４個のテストセットからなり、２つの異なるマイクロフォンによって録音された８人のテスト話者からの３３０個の発話を含む。

ＦＢＡＮＫは、４０次元メルＦＢＡＮＫであった。従って、ボトルネックが７５次元出力を生み出したので、段階２ＤＮＮ２２、３２の各々への入力は、８２５次元特徴ベクトル２６であった。段階２ＤＮＮ２２、３２は、２２８１個のトライフォンのうちの１つを示す信号を生み出すように訓練された。ＲＢＭ（制限ボルツマンマシン）事前訓練が実施され、交差エントロピー基準を使用して最適化された。

表１は、第２の行に、ＦＢＡＮＫ１６がメルＦＢＡＮＫである場合の本発明の例の性能（即ちパーセンテージ単語エラー率、％ＷＥＲ）を示す。行３〜５はそれぞれ、メルＦＢＡＮＫがＤベクトルユニット、ＣＭＬＬＲユニット、及びＣＭＬＬＲユニットとＤベクトルユニットの両方、で補足されたときの、本発明の例の性能を示す。表４の最後の列は、本発明のこれらの各例の性能を、話者特有ボトルネック層を有さない図４に示されるＳＩシステムの性能であるベースラインと比較する。

ＣＭＬＬＲ変形は、ＳＡＴ（話者適応訓練）ＧＭＭ−ＨＭＭモデル（ガウス混合モデル−隠れマルコフモデル）を訓練する間に推定された。Ｄベクトルは、話者ラベルを出力層中のターゲットとしてボトルネックＤＮＮを訓練することによって得られた。実験では、Ｄベクトルは、ボトルネック層の出力を発話にわたって平均し、次いで発話中のフィルタバンク特徴に定数ベクトルを付加することによって、得られた。このことは、話者表現が、同じ話者からの発話にわたって変化することが許されることを意味する。

提案されるアプローチは、メルフィルタバンク（ＦＢＡＮＫ）特徴で訓練されたＤＮＮに加えて適用されたとき、単語エラー率（ＷＥＲ）で表して８．９％の相対利得（％ＷＥＲ低減又は「％ＷＥＲＲ」）をもたらすことを、観察することができる。Ｄベクトルが付加されたＦＢＡＮＫ特徴で訓練されたＤＮＮに適用されたときは、８．６％の相対利得が観察される。ＣＭＬＬＲ特徴変形で変形されたＦＢＡＮＫ特徴で訓練されたＤＮＮに加えて話者適応ＤＮＮが適用されたとき、最もよい性能が達成される。ＣＭＬＬＲ−ＦＢＡＮＫにＤベクトルが付加されたときは、性能は飽和しているように見える。

ＤベクトルをＦＢＡＮＫ特徴に付加する代りに、我々は別の実験で、第２段階ＤＮＮを訓練する前にこれらをボトルネック特徴に付加することを試みた。これは、性能において概して同様の利得をもたらした。ＤベクトルがＦＢＡＮＫ特徴とボトルネック特徴の両方に付加されたときは、性能における利得は観察されなかった。

我々はまた、入力ネットワークコンポーネント中のニューロンの数を削減することの影響も検討した。これに対する動機は、ボトルネック層が訓練されるときに適応される必要のある、ボトルネック層のパラメータの数を削減することが可能となるかどうかを見ることであった。我々は入力ネットワークコンポーネントの各層が２５６個のニューロンに削減された場合の実験を実施した。これは、性能のわずかな低下をもたらした。従って、入力ネットワークコンポーネントの層としてより大きいサイズを使用することは、性能の改善をもたらす可能性がある。

表２に、監視あり適応実験が示されるが、この場合、ステップ７でＢＮ層の重みを更新するのに、テスト話者訓練データの真のトランスクリプトが使用される。言い換えれば、以下の結果は、ステップ２、５、及び６が必要とされない、上で言及された異形の結果である。この場合もやはり、ベースラインは、表１に示されるベースラインである、図４に示されるシステムである。

列は、重みを更新するために１話者当たりに使用される発話の数を示す。両方の表を比較すると、ボトルネック層の重みを更新するためにわずか１０個の発話（これは１分のオーディオに対応する）を使用することが、ベースラインに対して性能を改善すると思われることに気付くことができる。ＦＢＡＮＫ特徴のみを使用することと比較して、データがＣＭＬＬＲ又はＤベクトルで正規化された場合、同様の、又はよりよい性能を達成するのに必要とされる適応データはより少ないことに留意することは興味深い。これは、ＳＡＴフレームワーク中でよりよい音響モデルが訓練されたからであろう。我々はまた、ＣＭＬＬＲ−ＦＢＡＮＫ特徴とともにＤベクトルを使用することは、ＣＭＬＬＲ−ＦＢＡＮＫ特徴のみを使用することに対してほとんど改善をもたらさないように思われることにも留意する。
２．さらなる他の実験結果
２．１コーパス記述
方法２００（上記のセクションＢ）及び訓練話者適応ＤＮＮ中での訓練された汎用ボトルネック層の使用（上記のセクションＣ）に関係する更に他の実験結果が、以下に提供される。これらの実験結果は、Ａｕｒｏｒａ４及びＣＨＩＭＥ３データベースを使用する（ＣＨＩＭＥ３データベースは、Ｊ．Ｂａｒｋｅｒ、Ｒ．Ｍａｒｘｅｒ、Ｅ．Ｖｉｎｃｅｎｔ、及びＳ．Ｗａｔａｎａｂｅ、「Ｔｈｅｔｈｉｒｄ ‘ｃｈｉｍｅ’ｓｐｅｅｃｈｓｅｐａｒａｔｉｏｎａｎｄｒｅｃｏｇｎｉｔｉｏｎｃｈａｌｌｅｎｇｅ：Ｄａｔａｓｅｔ，ｔａｓｋａｎｄｂａｓｅｌｉｎｅｓ」、ＩＥＥＥＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎａｎｄＵｎｄｅｒｓｔａｎｄｉｎｇＷｏｒｋｓｈｏｐ（ＡＳＲＵ２０１５）、２０１５年１２月でも使用された）。Ａｕｒｏｒａ４コーパスとＣＨＩＭＥ３コーパスは両方とも、ＷＳＪ０コーパス（Ｊ．Ｇａｒｏｆａｌｏ、Ｄ．Ｇｒａｆｆ、Ｄ．Ｐａｕｌ、及びＤ．Ｐａｌｌｅｔｔ、「ＣＳＲ−Ｉ（ＷＳＪ０）Ｃｏｍｐｌｅｔｅ、ＬＤＣ９３Ｓ６Ａ．ＤＶＤ．Ｐｈｉｌａｄｅｌｐｈｉａ：ＬｉｎｇｕｉｓｔｉｃＤａｔａＣｏｎｓｏｒｔｉｕｍ，１９９３」）から導出される。

ＣＨＩＭＥ３コーパスは、現実と模擬の両方の雑音あり環境で、マルチマイクロフォンタブレットデバイスを使用して録音される。録音が行われた環境は、カフェ、街路、バス、及びレストランを含む。データは、現実の録音と、クリーンな音声信号に模擬雑音を人工的に加えたものとの両方を含む。

訓練データは、ＷＳＪ０コーパスからのクリーンなデータを含み、８３人の話者による７１３８個の発話を有する。訓練データはまた、１６００個の現実の雑音あり発話も含み、４人の話者がそれぞれ、４つの各環境で１００個の発話を読む。データはまた、ＷＳＪ０クリーン音声データを使用する７１３８個の模擬発話で補足される。合計で、４３１人の話者による１５８７６個の訓練発話がある。話者は、話者ラベルによってだけでなく環境ラベルによっても分割される。テストセットは、開発セットと評価セットの両方を提供し、それぞれ４人の話者を伴う。以下の結果は、現実と模擬の両方の雑音環境についての各話者からの３３０個の発話を含む１３２０個の発話を有する評価セットのみを使用して得られた。テストセットはまた、ＷＳＪ０コーパスからのクリーンな音声も含むことになる。実験のために、Ｃｈａｎｎｅｌ５から録音された音声データが、訓練及び評価に使用される。マルチチャネルデータは、実験に使用されない。
２．２．音響モデル化
前に言及されたように、本方法のステップ１は、図３の適応モデル（ＢＮ−ＤＮＮ）２０を使用して実施される。入力ネットワークコンポーネント１８は、３つの隠れ層を有する。出力層２１は、モノフォンをターゲットとする１つの隠れ層を有する。各隠れ層は、５１２個のノードからなり、シグモイド活性化を使用する。ボトルネック層１９は、ステップ３でボトルネック層１９ｉが有するように、７５個のノードを有する。ＢＮ−ＤＮＮは、４０次元を有するメルフィルタバンク（ＦＢＡＮＫ）特徴を使用して訓練され、これらは、１１個のフレームにわたってスプライスされて、サイズ４４０の入力ベクトルを形成する。ＢＮ−ＤＮＮを訓練するのに、交差エントロピー訓練基準が使用される。

ステップ２及び４で、段階２ＤＮＮ２２、３２は３つの隠れ層からなり、Ａｕｒｏｒａ４タスクの場合は各層に２０４８個のノードがあり、ＣＨＩＭＥ３タスクの場合は各層に１０２４個のノードがある。全ての層は、シグモイド活性化を使用する。段階２ＤＮＮ２２、３２は、７５次元を有するＢＮ特徴を使用して訓練され、これらもまた、１１個のフレームでスプライスされて、サイズ８２５のベクトルを形成する。第２段階音響モデルは、Ａｕｒｏｒａ４の場合は交差エントロピー（ＣＥ）を使用して最適化され、一方、我々は、ＣＨＩＭＥ３タスクに対してはシーケンス（ｓＭＢＲ）訓練を実施する。全ての実験は、ＦＢＡＮＫ特徴をＤＮＮへの入力として使用し、これらの特徴に対しては、ばらつきを補償するためのどんな変形もない。
２．３実験及びベースライン結果
実験は、Ａｕｒｏｒａ４及びＣＨＩＭＥ３コーパスに対して訓練されたモデルを使用して、Ａｕｒｏｒａ４タスクに対する（即ちＡｕｒｏｒａ４データをテストデータとする）認識を実施すること（即ち実験のテスト局面）を含む。これらの実験は、整合した雑音条件及び不整合した雑音条件で訓練されたモデルを使用したときにＡＳＲ性能がどのように変化するかを我々が理解する助けになる。両方の場合に、マルチコンディション訓練が利用される。我々は話者適応と雑音適応の両方を実施しようとするので、不整合したシナリオを有することは、提案される適応方法の有効性をよりよく評価する助けになると我々は考える。実験の他方のセットは、ＣＨＩＭＥ３テストセットを評価することを含み、これは、模擬（ＳＮ）及び現実の（ＲＮ）雑音テストセットを含む。我々はまた、ＷＳＪ０コーパスを用いて提供されたクリーンなセットに関する結果も報告する。Ａｕｒｏｒａ４について報告される結果は、１４個のテストセット全ての平均％ＷＥＲ（単語エラー率）である。同様に、模擬雑音（ＳＮ）条件及び現実の雑音（ＲＮ）条件の場合のＣＨＩＭＥテストセットに関して報告される結果は、４つの雑音条件の平均である。

表３は、話者又は環境へのどんな適応もない、ステップ２の結果として得られる話者独立（ＳＩ）モデル２５の性能についての結果を提示する。これはＳＩＢＮと呼ばれる。表から、整合した雑音条件及び不整合した雑音条件で訓練されたモデルを使用してＡｕｒｏｒａ４のＳＩモデル性能がどのように変化するかを観察することができる。不整合した雑音条件でモデルが訓練されたとき、性能の莫大な劣化があることに気付くことができる。ＣＨＩＭＥ３タスクに関するベースライン性能は、［２４］において提示される結果と整合しない。というのは、我々は、ＷＳＪ０コーパスからのクリーンな訓練データを含めており、ＤＮＮモデルを訓練するのにＦＢＡＮＫ特徴のみ（ＦＭＬＬＲなし）を使用するからである。

表３はまた、「ＳＤＢＮ」とラベル付けされた、テスト話者特有適応モデル５０を使用した話者適応についての結果も提示する。第２の列は、Ａｕｒｏｒａ４コーパスが訓練とテスト局面の両方で使用されたときの結果を示す。第３〜第６の列は、訓練にＣＨＩＭＥ３データベースが使用され、テスト局面が、Ａｕｒｏｒａ４コーパスと、ＣＨＩＭＥ３データベースからのクリーンなデータと、ＣＨＩＭＥ３コーパスからの模擬雑音（ＳＮ）と、ＣＨＩＭＥ３コーパスからの現実の雑音（ＲＮ）とをそれぞれ使用して遂行されたときの結果をそれぞれ示す。

適応は、２パスアプローチを使用して監視なし方式で実施される。テスト話者からの全ての発話が、ＢＮ層の重みを調整するのに使用される。全ての場合に、ＳＩＢＮ特徴を使用して訓練されたＳＩＡＳＲモデルと比較したとき、ＳＤＢＮがＡＳＲ性能を改善したことを観察することができる。本文書の残りの部分における考察では、ＳＤＢＮ結果がベースラインとして使用される。

図４に、方法１００（ＳＤＢＮとしてマークされた行）と比較した、方法２００及びその異形の結果が提示される。方法２００及びその異形の場合に生み出される適応モデル５０の性能は、ＮＤＳＤＢＮと呼ばれる。全ての場合に、テスト話者の雑音環境は、事前にわかっていないが、テスト話者の発話（テストデータ）から推定されることに留意されたい。

全ての場合に、ＳＤＢＮ特徴（即ち方法１００によって生み出される適応モデル５０）と比較して、ＮＤＳＤＢＮがＡＳＲ性能を改善したことを観察することができる。我々は、ＣＨＩＭＥ３コーパスを訓練データとして使用して評価されたときの、Ａｕｒｏｒａ４テストセットに対する性能におけるかなりの利得を観察する。

Ａｕｒｏｒａ４コーパスは、訓練コーパス中の雑音ラベル情報を提供しない。従って、Ａｕｒｏｒａ訓練セットを使用して方法の訓練局面（ステップ１、２、３、及び４）が実施されるとき（表４の第１の列）、方法２００は、ステップ１ｃで修正された入力ネットワークではなくステップ１で生み出された入力ネットワークを使用してステップ２、３及び４が実施される（方法１００におけるように）前述の異形に従って実施される。特に、ＳＡＴ−ＤＮＮは、雑音特有の方式で訓練されない。従って、提案される、重みの逐次的な調整（即ち、テスト話者特有データを使用してボトルネック層を形成するとともに、雑音特有データに基づいて隠れ層１８ｃを更新する）は、認識中にのみ実施され、ＳＤＢＮ特徴を使用して訓練された適応モデル５０が、認識を実施するのに使用される。

一方、ＣＨＩＭＥ３コーパスは雑音ラベル情報を提供し、従って、訓練局面でＣＨＩＭＥ３コーパスを使用する場合、ＳＡＴ−ＤＮＮモデルもまた、前述の逐次的な重み更新を使用して訓練される（即ち、方法２００は、ちょうど図９に示されるように実施される）。テスト局面がＡｕｒｏｒａ４コーパスを使用して実施される場合（即ち表４の列３）、訓練話者とテスト話者との間に雑音の不整合があるので、ステップ１ａ〜１ｃを実施するための唯一の方法は、テスト話者の雑音環境を推定するためにステップ１ａでテストデータを使用することである。これが行われた後は、ステップ１ｂで、実質的に同じ雑音特性を有するテスト（Ａｕｒｏｒａ４）コーパスからのデータが抽出され（ＣＨＩＭＥ３訓練コーパスは、Ａｕｒｏｒａ４コーパスのテスト話者の雑音環境と同じ特性を有する雑音を含むどんな音声サンプルも有さないことに留意されたい）、このデータは、ステップ１ｃで層を修正するのに使用される。従って、層１８ｃは、テスト話者と同じ雑音環境を有する多くの訓練話者からのプールされたデータを使用して修正される。同様に、テスト局面がＣＨＩＭＥ３データを使用して実施されるときは（即ち表４の列４〜６）、話者の雑音環境を推定するためにステップ１ａでテストデータが使用される。即ち、この雑音環境は、ステップ１ｂで、実質的に同じ雑音環境を有する訓練データをＣＨＩＭＥ３データベースから抽出するのに使用され（これは、ＣＨＩＭＥ３データベースが、テスト話者の雑音環境と同じ雑音環境を有する訓練データを含むので、可能である）、抽出された訓練データは、ステップ１ｃで、層１８ｃを更新するのに使用される。

雑音と話者の両方への適応は、２パスアプローチを使用して監視なし方式で実施される。雑音依存層の重みを調整する（即ちステップ１ａ〜１ｃ）ために、我々は、訓練中と認識中の両方で、ＣＨＩＭＥ３データをテストに使用する実験では、各雑音条件につき、全ての話者からランダムに選ばれた４００個の発話を使用した。Ａｕｒｏｒａ４コーパスを使用してテストする場合では、我々は、各雑音条件につき、８人のテスト話者の各々から利用可能な３３０個の発話を使用する。

ＣＨＩＭＥ３コーパス中では、我々は訓練と認識（テスト）の両方で同じ雑音条件を有し、コーパスには雑音ラベル情報も提供されることに留意されたい。このようなシナリオで、我々は、訓練セットに対してすでに推定された雑音依存層が認識中に使用され得るかどうかを見るために、実験を実施することができる。発想は、事前推定された雑音依存層（即ち図４の層１８ｃ）を使用して方法２００を実施し、ＢＮ層４５の重みだけをテスト話者特有データで調整するというものである。

表５は、訓練と認識の両方にＣＨＩＭＥ３データを使用した結果を提示し、監視ありと監視なし学習を比較する。表５の第２の行は、表４の最後の行の一部と同じであり、第３の行は、教師あり学習を使用した対応する結果を示す。クリーンの場合と模擬雑音（ＳＮ）の場合の性能は、雑音依存層１８ｃの監視あり（訓練セット）推定又は監視なし（テストセット）推定のいずれを使用しても、非常に近いことを観察することができる。現実の雑音（ＲＮ）条件のみが、監視あり適応からの利益を得る。これは、ＲＮシナリオの場合の高い％ＷＥＲのせいであろう。

表６に、図１２のネットワーク５０’を使用した結果が提示される。方法１００を使用して適応モデル５０’が訓練されるケースは、ＳＩＢＮ＋ＳＤＢＮとしてラベル付けされている。表から、適応モデル５０’が適応モデル５０よりもよく動作すると思われることに気付くことができる。テスト話者依存ボトルネック４５によって出力された特徴と汎用ボトルネック１９によって出力された特徴との両方を提示することで、適応モデル５０’は、テスト話者依存ボトルネック４５によって出力された特徴のみからは明白でない場合のある、話者の特性を学習できると思われる。我々は、ネットワークが、話者特性を学習するために、ボトルネック層１９、４５によって出力された特徴を対比させることができると推定する。

表６はまた、図１２の適応モデル５０’が、方法２００を使用して訓練されたときの結果も示す。これは、ＳＩＢＮ＋ＮＤＳＤＢＮと呼ばれる。方法２００におけるように入力ネットワークコンポーネント１８の最後の層１８ｃが雑音を使用して訓練された場合に、ＳＩＢＮ特徴（ボトルネック層４５によって出力された）と、汎用ネットワークによって出力されたＮＤＳＩＢＮ特徴とを使用することが、最良の性能を提供し、この場合に話者と背景雑音の両方が補償されること、を観察することができる。我々が、ネットワークにどんな新しい情報も導入しておらず、第２段階モデルが訓練される方式を変更しただけであることに留意することは、重要である。ＳＤＢＮ特徴が、フレームごとに変化し、話者ごとに固定でないことに留意されたい。

また、重みを調整するのに使用される適応発話の数に伴う、上に提示された異なる複数の適応アプローチの性能の変化を決定するための実験も実施された。実験は、Ａｕｒｏｒａ４テストセットに対して実施され、ＣＨＩＭＥ３コーパスに対して訓練されたモデルを使用して評価される。表７は、ＢＮ層の重みを更新するのに使用される発話の数と、雑音依存層の重みを調整するのに使用される発話の数と、を変更することによる結果を提示する。全ての実験は、２パスアプローチに従う監視なし適応を使用して実施される。

我々は以下のことを観察する。

− 雑音依存層の重みを調整する場合と話者依存層の重みを調整する場合との両方で、適応発話の数が増加するのに伴って、性能は徐々に改善する。比較のために、表６に提示された結果は、各話者からの４０個の適応発話を使用している。

− 僅か１０個の発話を使用する適応モデル５０’（ＳＩＢＮ＋ＳＤＢＮ）の性能は、適応モデル５０（ＳＤＢＮ）で３０個の発話を使用するよりも、すでによい。我々は、特徴を連結することが、ＳＡＴ−ＤＮＮモデルに頑強性をもたらすと考える。

雑音依存層１８ｃを訓練するための２５個の発話と、話者依存層４５の重みを更新するための１０個の発話とを使用して、モデル５０’を方法２００に従って雑音ありで訓練する（即ち、両方のＳＩＢＮ＋ＮＤＳＤＢＮ特徴を段階２ＤＮＮ３２に入力する）ことは、３０個の発話を使用して方法１００によって雑音なしで訓練されたモデル５０’よりもよく動作すると思われる。

幾つかの構成が記述されたが、これらの構成は、例として提示されたにすぎず、本発明の範囲を限定する意図はない。実際、本明細書に記載の方法及びシステムは、他の様々な形で具体化されることも可能である。更に、本明細書に記載の方法及びシステムの形において、様々な省略、代用、及び変更が行われることも可能である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
〔１〕
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
複数の訓練話者の各々についての、（ｉ）前記それぞれの訓練話者によって話された音声アイテムを特徴付けるデータと（ｉｉ）前記音声アイテムに対する音を特徴付けるデータとを備える第１の訓練データのそれぞれのセットと、
前記テスト話者によって話された音声アイテムを特徴付けるデータを備える第２の訓練データとを利用し、
（ａ）（ｉ）入力ネットワークコンポーネントと（ｉｉ）適応モデルコンポーネントとを備える第１の適応モデル（ＢＮ−ＤＮＮ）の教師あり学習を実施して、それにより前記入力コンポーネントと前記適応モデルコンポーネントとを訓練するために、第１の訓練データの前記セットを使用することと、
（ｂ）前記訓練話者の各々につき、
（ｉ）（ｉ）前記訓練された入力ネットワークコンポーネントと（ｉｉ）それぞれの訓練話者特有適応モデルコンポーネントとを備えるそれぞれの第２の適応モデルを提供することと、
（ｉｉ）第１の訓練データの前記それぞれのセットを使用して前記それぞれの第２の適応モデルの教師あり学習を実施して、それによりそれぞれの訓練話者特有適応モデルコンポーネント（ＳＤＢＮ−１，ＳＤＢＮ−２，．．．．，ＳＤＢＮ−Ｎ）を生み出すために、前記訓練話者特有適応モデルコンポーネントを修正することと、
（ｃ）第１の訓練データの前記それぞれのセットを使用して、前記訓練された入力ネットワークコンポーネントと、前記それぞれの訓練された訓練話者特有適応モデルコンポーネントと、話者適応出力ネットワークとを備えるそれぞれの第３の適応モデルを訓練するために、各訓練話者につき連続的に前記話者適応出力ネットワークを修正することによって、前記話者適応出力ネットワークを訓練することと、
（ｄ）前記訓練された入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える第４の適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記第２の訓練データを使用することと、
（ｅ）前記訓練された入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
〔２〕
前記第１の適応ネットワークが更に、ステップ（ａ）で訓練される出力適応コンポーネントを備え、前記第２の適応モデル及び前記第４の適応モデルが更に、前記訓練された出力適応コンポーネントを備える、〔１〕に記載の方法。
〔３〕
各適応モデルコンポーネントがニューロンの単一層である、〔１〕又は〔２〕に記載の方法。
〔４〕
前記入力ネットワークコンポーネントが、複数のニューロンを各々が備える複数の層を備え、各適応モデルコンポーネントが、前記入力ネットワークコンポーネントのどの層よりも少数のニューロンを備える、〔１〕又は〔２〕又は〔３〕に記載の方法。
〔５〕
前記話者適応出力ネットワークが、複数のニューロンを各々が備える複数の層を備え、各適応モデルコンポーネントが、前記話者適応出力ネットワークのどの層よりも少数のニューロンを備える、前記〔１〕−〔４〕のいずれかに記載の方法。
〔６〕
ステップ（ａ）、（ｂ）及び（ｄ）で、前記第１及び第２の適応ネットワークが、モノフォンを示す信号を生み出すように訓練される、前記〔１〕−〔５〕のいずれかに記載の方法。
〔７〕
ステップ（ｃ）で、前記話者適応ＤＮＮが、トライフォンを示す信号を生み出すように訓練される、前記〔１〕−〔６〕のいずれかに記載の方法。
〔８〕
ステップ（ｄ）の前に、前記第２の訓練データの要素から、関連する音の対応する第１の推定値を生成するステップを更に備え、前記関連する音の前記第１の推定値がステップ（ｄ）で使用される、前記〔１〕−〔７〕のいずれかに記載の方法。
〔９〕
前記関連する音の前記第１の推定値がトライフォンの形であり、前記関連する音の前記第１の推定値の各々をモノフォンに変換することと、前記第２の訓練データがモノフォン間の遷移を呈する時点を特徴付ける整合情報を得ることとを更に備える、〔６〕に従属するときの〔８〕に記載の方法。
〔１０〕
前記第２の訓練データの各要素から、前記関連する音の対応する第１の推定値を生成する前記ステップが、
前記訓練話者からの訓練データからトライフォンを生成するために、前記訓練された入力ネットワークコンポーネントと、前記訓練された適応モデルコンポーネントと、話者独立ネットワーク（ＳＩ−ＤＮＮ）とを備える第５の適応モデルを訓練することによって、前記訓練話者からの前記訓練データを連続的に使用して前記話者独立ネットワーク（ＳＩ−ＤＮＮ）を訓練することと、
前記テスト対象についての前記第２の訓練データを前記訓練された第５の適応モデルに入力することと、前記訓練された第５の適応ネットワークの出力が、前記関連するトライフォンの前記第１の推定値である、を備える、〔７〕に従属するときの〔８〕又は〔９〕に記載の方法。
〔１１〕
前記第１、第２、第３及び第４の適応モデルの前記入力ネットワークコンポーネントがフィルタバンクの出力を受け取る、前記〔１〕−〔１０〕のいずれかに記載の方法。
〔１２〕
更新されたテスト話者特有適応モデルコンポーネントを生成するために交換用第２の訓練データを使用してステップ（ｄ）を少なくとも１回繰り返すことと、
前記訓練された入力ネットワークコンポーネントと、前記更新されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える更新されたテスト話者特有適応システムを提供することとを更に備える、前記〔１〕−〔１１〕のいずれかに記載の方法。
〔１３〕
ステップ（ａ）に続いて、選択された雑音特性を有する複数の前記訓練話者についての雑音特有訓練データを使用して前記入力ネットワークコンポーネントの少なくとも一部を修正するステップがあり、前記修正された入力ネットワークが、ステップ（ｂ）〜（ｅ）で使用される前記入力ネットワークである、前記〔１〕−〔１２〕のいずれかに記載の方法。
〔１４〕
前記テスト話者の雑音環境を測定することと、前記テスト話者の前記測定された雑音環境に基づいて選択された雑音特性を有する前記雑音特有訓練データを得ることとを更に備える、〔１３〕に記載の方法。
〔１５〕
前記入力ネットワークの前記修正される部分が、前記入力ネットワークの最後のニューラル層を備える、〔１３〕又は〔１４〕に記載の方法。
〔１６〕
前記第３の適応モデル及び前記テスト話者特有適応システムが更に、前記訓練された適応モデルコンポーネントを備え、前記訓練された適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、前記〔１〕−〔１５〕のいずれかに記載の方法。
〔１７〕
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
（ｉ）複数の訓練話者の各々についての、（１）対応する訓練話者によって話された音声アイテムを特徴付けるデータと（２）前記音声アイテム中のサウンドを特徴付けるデータとを備える第１の訓練データのそれぞれのセットと、
（ｉｉ）前記テスト話者によって話された音声アイテムを特徴付けるデータを備える第２の訓練データと、
（ｉｉｉ）入力ネットワークコンポーネントとを利用し、
（ａ）前記訓練話者の各々につき、
（ｉ）前記入力ネットワークコンポーネントとそれぞれの訓練話者特有適応モデルコンポーネントとを備えるそれぞれの第１の適応モデルを形成することと、
（ｉｉ）前記それぞれの適応ネットワークコンポーネントを修正して、それにより、訓練された訓練話者特有適応モデルコンポーネントを形成することによって、第１の訓練データの前記それぞれのセットを使用して前記第１のそれぞれの適応モデルの教師あり学習を実施することと、
（ｂ）前記入力ネットワークコンポーネントと、前記それぞれの訓練された訓練話者特有適応モデルコンポーネントと、話者適応出力ネットワークとを備えるそれぞれの第２の適応モデルを、第１の訓練データの前記それぞれのセットを使用して訓練するために、前記訓練話者のうちの連続的な訓練話者につき前記話者適応出力ネットワークを修正することによって、前記話者適応出力ネットワークを訓練することと、
（ｃ）前記入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える第３の適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記第２の訓練データを使用することと、
（ｄ）前記入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
〔１８〕
出力ネットワークコンポーネントを更に利用し、前記第１の適応モデル及び前記第３の適応モデルが更に前記出力ネットワークコンポーネントを備える、〔１７〕に記載の方法。
〔１９〕
前記第２の適応モデル及び前記テスト話者特有適応システムが更に、第１の訓練データの前記セットを使用して訓練された汎用適応モデルコンポーネントを備え、前記汎用適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、〔１７〕又は〔１８〕に記載の方法。
〔２０〕
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
（ｉ）前記テスト話者によって話された音声アイテムを備える訓練データと、
（ｉｉ）入力ネットワークコンポーネント及び話者適応出力ネットワークと、前記入力ネットワークコンポーネント及び前記話者適応出力ネットワークが訓練話者からの訓練データを使用して訓練された、を利用し、
（ａ）前記入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記訓練データを使用することと、
（ｂ）前記入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
〔２１〕
前記テスト話者特有適応システムが更に、第１の訓練データの前記セットを使用して訓練された汎用適応モデルコンポーネントを備え、前記適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、〔２０〕に記載の方法。
〔２２〕
前記訓練話者からの前記訓練データを使用して訓練された出力ネットワークコンポーネントを更に利用し、前記適応モデルが更に前記出力ネットワークコンポーネントを備える、〔２０〕又は〔２１〕に記載の方法。
〔２３〕
ステップ（ａ）の前に、前記訓練データの各要素から、関連する音の対応する第１の推定値を生成するステップを更に含み、前記関連する音の前記第１の推定値がステップ（ａ）で使用される、〔２０〕、〔２１〕又は〔２２〕に記載の方法。
〔２４〕
テスト話者によって話された音声中のサウンドを認識する方法であって、
前記〔１〕−〔２４〕のいずれかに記載の方法によってテスト話者特有適応システムを生成することと、
前記テスト話者によって話された音声を符号化した音声データを受け取ることと、
前記音声データをフィルタバンクに渡すことと、
前記フィルタバンクの出力を備えるデータを前記テスト話者特有適応システムに渡すこととを備える方法。
〔２５〕
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するためのコンピュータシステムであって、
プロセッサと、
前記プロセッサによって実装されたときに前記〔１〕−〔２４〕のいずれかに記載の方法を前記プロセッサに実施させるように動作するプログラム命令を記憶したデータストレージデバイスとを備えるコンピュータシステム。
〔２６〕
プロセッサによって実装されたときに〔１〕から〔２４〕のいずれかに記載の方法を前記プロセッサに実施させるように動作するプログラム命令を記憶した、コンピュータプログラム可読ストレージ媒体。

Claims

テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
複数の訓練話者の各々についての、（ｉ）前記それぞれの訓練話者によって話された音声アイテムを特徴付けるデータと（ｉｉ）前記音声アイテムに対する音を特徴付けるデータとを備える第１の訓練データのそれぞれのセットと、
前記テスト話者によって話された音声アイテムを特徴付けるデータを備える第２の訓練データとを利用し、
（ａ）（ｉ）入力ネットワークコンポーネントと（ｉｉ）適応モデルコンポーネントとを備える第１の適応モデル（ＢＮ−ＤＮＮ）の教師あり学習を実施して、それにより前記入力ネットワークコンポーネントと前記適応モデルコンポーネントとを訓練するために、第１の訓練データの前記セットを使用することと、
（ｂ）前記訓練話者の各々につき、
（ｉ）（ｉ）前記訓練された入力ネットワークコンポーネントと（ｉｉ）それぞれの訓練話者特有適応モデルコンポーネントとを備えるそれぞれの第２の適応モデルを提供することと、
（ｉｉ）第１の訓練データの前記それぞれのセットを使用して前記それぞれの第２の適応モデルの教師あり学習を実施して、それによりそれぞれの訓練話者特有適応モデルコンポーネント（ＳＤＢＮ−１，ＳＤＢＮ−２，．．．．，ＳＤＢＮ−Ｎ）を生み出すために、前記訓練話者特有適応モデルコンポーネントを修正することと、
（ｃ）第１の訓練データの前記それぞれのセットを使用して、前記訓練された入力ネットワークコンポーネントと、前記それぞれの訓練された訓練話者特有適応モデルコンポーネントと、話者適応出力ネットワークとを備えるそれぞれの第３の適応モデルを訓練するために、各訓練話者につき連続的に前記話者適応出力ネットワークを修正することによって、前記話者適応出力ネットワークを訓練することと、
（ｄ）前記訓練された入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える第４の適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記第２の訓練データを使用することと、
（ｅ）前記訓練された入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
前記第１の適応モデルが更に、ステップ（ａ）で訓練される出力適応コンポーネントを備え、前記第２の適応モデル及び前記第４の適応モデルが更に、前記訓練された出力適応コンポーネントを備える、請求項１に記載の方法。
各適応モデルコンポーネントがニューロンの単一層である、請求項１又は請求項２に記載の方法。
前記入力ネットワークコンポーネントが、複数のニューロンを各々が備える複数の層を備え、各適応モデルコンポーネントが、前記入力ネットワークコンポーネントのどの層よりも少数のニューロンを備える、請求項１又は請求項２又は請求項３に記載の方法。
前記話者適応出力ネットワークが、複数のニューロンを各々が備える複数の層を備え、各適応モデルコンポーネントが、前記話者適応出力ネットワークのどの層よりも少数のニューロンを備える、請求項１乃至請求項４のいずれか一項に記載の方法。
ステップ（ａ）、（ｂ）及び（ｄ）で、前記第１の適応モデル及び第２の適応モデルが、モノフォンを示す信号を生み出すように訓練される、請求項１乃至請求項５のいずれか一項に記載の方法。
ステップ（ｃ）で、前記話者適応出力ネットワークが、トライフォンを示す信号を生み出すように訓練される、請求項１乃至請求項６のいずれか一項に記載の方法。
ステップ（ｄ）の前に、前記第２の訓練データの要素から、関連する音の対応する第１の推定値を生成するステップを更に備え、前記関連する音の前記第１の推定値がステップ（ｄ）で使用される、請求項１乃至請求項７のいずれか一項に記載の方法。
前記関連する音の前記第１の推定値がトライフォンの形であり、前記関連する音の前記第１の推定値の各々をモノフォンに変換することと、前記第２の訓練データがモノフォン間の遷移を呈する時点を特徴付ける整合情報を得ることとを更に備える、請求項６に従属するときの請求項８に記載の方法。
前記第２の訓練データの各要素から、前記関連する音の対応する第１の推定値を生成する前記ステップが、
前記訓練話者からの訓練データからトライフォンを生成するために、前記訓練された入力ネットワークコンポーネントと、前記訓練された適応モデルコンポーネントと、話者独立ネットワーク（ＳＩ−ＤＮＮ）とを備える第５の適応モデルを訓練することによって、前記訓練話者からの前記訓練データを連続的に使用して前記話者独立ネットワーク（ＳＩ−ＤＮＮ）を訓練することと、
テスト対象についての前記第２の訓練データを前記訓練された第５の適応モデルに入力することと、前記訓練された第５の適応ネットワークの出力が、前記関連するトライフォンの前記第１の推定値である、を備える、請求項７に従属するときの請求項８又は９に記載の方法。
前記第１、第２、第３及び第４の適応モデルの前記入力ネットワークコンポーネントがフィルタバンクの出力を受け取る、請求項１乃至請求項１０のいずれか一項に記載の方法。
更新されたテスト話者特有適応モデルコンポーネントを生成するために交換用第２の訓練データを使用してステップ（ｄ）を少なくとも１回繰り返すことと、
前記訓練された入力ネットワークコンポーネントと、前記更新されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える更新されたテスト話者特有適応システムを提供することとを更に備える、請求項１乃至請求項１１のいずれか一項に記載の方法。
ステップ（ａ）に続いて、選択された雑音特性を有する複数の前記訓練話者についての雑音特有訓練データを使用して前記入力ネットワークコンポーネントの少なくとも一部を修正するステップがあり、前記修正された入力ネットワークが、ステップ（ｂ）〜（ｅ）で使用される前記入力ネットワークである、請求項１乃至請求項１２のいずれか一項に記載の方法。
前記テスト話者の雑音環境を測定することと、前記テスト話者の前記測定された雑音環境に基づいて選択された雑音特性を有する前記雑音特有訓練データを得ることとを更に備える、請求項１３に記載の方法。
前記入力ネットワークの前記修正される部分が、前記入力ネットワークの最後のニューラル層を備える、請求項１３又は請求項１４に記載の方法。
前記第３の適応モデル及び前記テスト話者特有適応システムが更に、前記訓練された適応モデルコンポーネントを備え、前記訓練された適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、請求項１乃至請求項１５のいずれか一項に記載の方法。
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
（ｉ）複数の訓練話者の各々についての、（１）対応する訓練話者によって話された音声アイテムを特徴付けるデータと（２）前記音声アイテム中のサウンドを特徴付けるデータとを備える第１の訓練データのそれぞれのセットと、
（ｉｉ）前記テスト話者によって話された音声アイテムを特徴付けるデータを備える第２の訓練データと、
（ｉｉｉ）入力ネットワークコンポーネントとを利用し、
（ａ）前記訓練話者の各々につき、
（ｉ）前記入力ネットワークコンポーネントとそれぞれの訓練話者特有適応モデルコンポーネントとを備えるそれぞれの第１の適応モデルを形成することと、
（ｉｉ）前記それぞれの適応ネットワークコンポーネントを修正して、それにより、訓練された訓練話者特有適応モデルコンポーネントを形成することによって、第１の訓練データの前記それぞれのセットを使用して前記それぞれの第１の適応モデルの教師あり学習を実施することと、
（ｂ）前記入力ネットワークコンポーネントと、前記それぞれの訓練された訓練話者特有適応モデルコンポーネントと、話者適応出力ネットワークとを備えるそれぞれの第２の適応モデルを、第１の訓練データの前記それぞれのセットを使用して訓練するために、前記訓練話者のうちの連続的な訓練話者につき前記話者適応出力ネットワークを修正することによって、前記話者適応出力ネットワークを訓練することと、
（ｃ）前記入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える第３の適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記第２の訓練データを使用することと、
（ｄ）前記入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
出力ネットワークコンポーネントを更に利用し、前記第１の適応モデル及び前記第３の適応モデルが更に前記出力ネットワークコンポーネントを備える、請求項１７に記載の方法。
前記第２の適応モデル及び前記テスト話者特有適応システムが更に、第１の訓練データの前記セットを使用して訓練された汎用適応モデルコンポーネントを備え、前記汎用適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、請求項１７又は請求項１８に記載の方法。