JP6437581B2 - 話者適応型の音声認識 - Google Patents

話者適応型の音声認識 Download PDF

Info

Publication number
JP6437581B2
JP6437581B2 JP2017007052A JP2017007052A JP6437581B2 JP 6437581 B2 JP6437581 B2 JP 6437581B2 JP 2017007052 A JP2017007052 A JP 2017007052A JP 2017007052 A JP2017007052 A JP 2017007052A JP 6437581 B2 JP6437581 B2 JP 6437581B2
Authority
JP
Japan
Prior art keywords
speaker
training
adaptation
component
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017007052A
Other languages
English (en)
Other versions
JP2017134396A (ja
Inventor
ドディパトラ ラマ
ドディパトラ ラマ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB1600842.7A external-priority patent/GB2546325B/en
Priority claimed from GB1700489.6A external-priority patent/GB2558629B/en
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2017134396A publication Critical patent/JP2017134396A/ja
Application granted granted Critical
Publication of JP6437581B2 publication Critical patent/JP6437581B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Description

関連出願の相互参照
本出願は、2016年1月18日に出願された英国特許出願第1600842.7号、及び2017年1月11日に出願された英国特許出願第1700489.6号に基づくものであり、これらの出願からの優先権の利益を主張する。これらの全ての出願の全内容は、参照により本明細書に組み込まれる。
本開示は、個人によって話された音声中のサウンドを認識するための方法及びシステムに関する。本システムは、認識されたサウンドに基づいてアクションを起こすための装置のコンポーネントであってよい。
近年、自動音声認識(ASR)システムを考案することにおいて進歩があったが、これらのASRシステムは、話者(ここでは「テスト話者」と呼ばれる)によって話された音声を符号化した入力データ(マイクロフォンによって生成された)を受け、この入力データから、テスト話者によって話された音素(phoneme)を認識する。音素は、1つ又は複数の「音(phone)」のセットであり、音は、サウンドの個別単位である。通常、入力データは最初に処理されて、入力データが特定の入力特徴を有するかどうかを示す特徴データが生成され、特徴データは、特徴データを使用して音を認識するシステムに渡される。音は、個別の音(モノフォン(mono-phone))、又は隣接する音のペア(ダイフォン(diphone))、又は3つの音の連続(トライフォン(triphone))として認識される場合がある。
複数の個人はそれぞれの異なる話し方で話すので、音を認識するシステムがテスト話者の音声に適応されること、及び、テスト話者によって話された音声である訓練データを使用して適応が自動的に実施されることが望ましい。
望ましくは、テスト話者が話す必要のある訓練データの量は、最小限に抑えられるべきである。この理由で、従来のASRシステムは、利用可能な訓練データがある他の多くの話者(訓練話者)からのデータを使用して訓練される。
システムを訓練するのに使用されるデータには莫大な量の話者ばらつきがあるので、未知のテスト話者に対しては、性能は非常に悪い可能性がある。話者適応は、訓練されたモデルによりよく整合するようにテスト話者の特徴を変形するか、又はテスト話者によりよく整合するようにモデルパラメータを変形するかのいずれかを行うが、この話者適応は、ASR性能を改善することがわかっている。
多くの適応システムが知られている。最近、所謂ディープニューラルネットワーク(DNN)への関心がますます高まっている。ディープニューラルネットワークは、入力層と出力層との間に2つ以上の隠れ層がある人工ニューラルネットワークである。各層は1つ又は複数のニューロンからなり、各ニューロンは、数値的重みなどのネットワークパラメータのセットによって定義される、その入力の機能を実施する。DNNは通常、フィードフォワードネットワークとして設計されるが、回帰的な形のDNNも存在する。フィードフォワードネットワークでは、ニューロンの第1の層中の各ニューロンが、複数の入力信号を受ける。連続的な各層中で、各ニューロンが、前の層中の複数のニューロンの出力を受ける。
話者適応型訓練(SAT:speaker adaptive training)は、ASRにおいて話者適応を実施するためのアプローチであり、話者ばらつきが訓練と認識の両方において正規化される。SATは、音響モデル化を改善し、DNNベースの自動音声認識(ASR)と音声合成の両方において役立つ可能性がある。DNNにおける話者適応は、DNNを訓練する前に入力特徴を変形することによって実施されるか、又は、テスト話者特有のデータを使用してDNNのパラメータを調整することによって実施されるかのいずれかである。両方のアプローチを使用して、幅広いシステムが提案されてきた。DNNを訓練する前に入力特徴を変形することに焦点を合わせるアプローチの場合、主要な欠点は、新しい特徴変形が適用されるとDNNが再訓練されなければならないことである。一方、ネットワークパラメータを調整することに焦点を合わせるアプローチの場合、DNNは通常、より適応的なパラメータを必要とし、従って、主要な困難は、テスト話者からの限られた利用可能データを用いてネットワークパラメータを調整することである。
発明が特許請求の範囲において示される。
次に、後続の図面に関して本発明の例が記述される。
テスト話者特有適応システムを生み出すための第1の方法のステップの流れ図。 図1の方法を実施するためのコンピュータシステムを概略的に例証する図。 図1の方法のステップにおいて訓練される適応モデルを例証する図。 図1の方法のステップにおいて訓練される更に他の適応モデルを例証する図。 図1の方法のステップにおいて訓練される更に他の適応モデルを例証する図。 図1の方法のステップにおいて訓練される更に他の適応モデルを例証する図。 図1の方法のステップにおいて訓練される更に他の適応モデルを例証する図。 図1の方法のステップにおいて訓練される更に他の適応モデルを例証する図。 テスト話者特有適応システムを生み出すための第2の方法の流れ図。 テスト話者特有適応システムを生み出すための第3の方法の流れ図。 図6の適応モデルに取って代るための、図1又は図9の方法の異形で使用される適応モデルの図。 図8の適応モデルに取って代るための、図1又は図9の方法の異形で使用される適応モデルの図。
一例によれば、本開示は、複数の訓練話者の各々に対して適応モデルコンポーネントが提供されることを提案する。各適応モデルコンポーネントは、対応する訓練話者についての訓練データを使用して、入力ネットワークコンポーネント(通常はニューロンの複数の層)と適応モデルコンポーネントとを有する適応ネットワークの一部として訓練される。従って、訓練話者ごとに、対応する訓練話者特有適応モデルコンポーネントが形成される。
入力ネットワークコンポーネントは、入力ネットワークコンポーネントと適応モデルコンポーネントとを備える適応モデルの一部として、事前に訓練されてよい。入力ネットワークコンポーネント及び適応モデルコンポーネントは、訓練話者からの音声を使用して、教師あり学習によって訓練される。更に、このプロセスの間、適応モデルコンポーネントは、汎用(即ち話者独立の)適応モデルコンポーネントになるように訓練される。
入力ネットワークコンポーネントの少なくとも一部(例えば、入力ネットワークコンポーネントの最後の層)が、この後で、及び入力ネットワークコンポーネントが使用される前に、選択された雑音特性を有する複数の訓練話者についての雑音特有訓練データを使用して修正されてよい。この複数の訓練話者は、入力ネットワークを生成するのに自身の訓練データが使用された複数の訓練話者と、同じであるか、又は重なってよい。雑音特性は、テスト話者の測定された雑音環境に基づいて選択されてよい。任意選択で、汎用適応モデルコンポーネントが、やはり雑音特有訓練データに基づいて更新されてもよい。
適応ネットワークはまた、適応モデルコンポーネントの出力を受け取る適応出力ネットワークコンポーネント(少なくとも1つの、更に他のニューロン層)も備えることが好ましい。しかし、これは必須ではない。というのは、音、例えばモノフォン、を直接に示す出力を生み出すために適応モデルコンポーネントが使用されるような、本発明の例が形成されることが可能だからである。例えば、出力は、モノフォンを示す信号として、非適応出力層によってフォーマットされてよい。
次いで、訓練話者特有適応モデルコンポーネントの各々と、対応する訓練話者についての訓練データとを連続的に使用して、話者適応DNNモデル(ここでは話者適応出力ネットワークとも呼ばれる)が訓練される。訓練中、入力ネットワークコンポーネントの出力は、訓練話者特有適応モデルコンポーネントに送信され、また、訓練された汎用適応モデルコンポーネントにも送信されてよい。話者適応DNNモデル(話者適応出力ネットワーク)は、訓練話者特有適応モデルコンポーネントの出力を受け、また任意選択で、訓練された汎用適応モデルコンポーネントの出力も受ける。
訓練データがテスト話者について利用可能であるとき、入力ネットワークコンポーネントと、適応モデルコンポーネントと、出力ネットワークコンポーネント(もしあれば)とを備える更に他の適応モデルが形成される。この、更に他の適応モデル内で、適応モデルコンポーネントは、テスト対象についての訓練データを使用して訓練される。従って、適応モデルコンポーネントは、テスト対象に特有になる。
入力ネットワークコンポーネントと、訓練されたテスト話者特有ボトルネック層と、話者適応DNNモデルとから、テスト話者特有適応システムが形成される。入力ネットワークコンポーネント及び話者適応DNNモデルは、テスト話者についての訓練データを使用して変更される必要はないことに留意されたい。即ち、これらは両方とも、前述のように、訓練話者についての訓練データのみを使用して形成される。テスト話者特有適応システムは、テスト話者の音声を認識するようによく適応されている。テスト話者特有適応システムは更に、訓練された汎用適応モデルコンポーネントも備えることができ、この訓練された汎用適応モデルコンポーネントは、入力ネットワークコンポーネントの出力を受け、話者適応DNNモデルに出力を送信するように構成される。
適応モデルコンポーネントは、訓練話者の各々及びテスト話者について、同じサイズを有する。適応モデルコンポーネントは、話者適応DNNモデル、入力ネットワークコンポーネント又は出力ネットワークコンポーネント(もしあれば)の変数の数よりもずっと少ないネットワーク変数を有してよい。
この理由で、テスト話者特有適応モデルコンポーネントを訓練するのに必要な、テスト話者についての訓練データの量は、少ない、即ち、話者適応DNNモデルを得るのに使用される、訓練話者からの訓練データの量よりもずっと少ない。言い換えれば、本発明の例は、テスト話者から利用可能なデータがほとんどないときに使用されることが可能である。
例えば、各適応モデルコンポーネントは、入力ネットワークコンポーネント中のニューロンの数の10%未満、更には5%未満によって定義される場合がある。同様に、各適応モデルコンポーネントは、話者適応DNNモデルのニューロンの数の10%未満、更には5%未満を含む場合がある。
各適応モデルコンポーネントは、各ニューロンが入力ネットワークコンポーネントの出力を受ける、単一の層であってよい。この理由で、適応モデルコンポーネントは、「ボトルネック層」と呼ばれてよい。というのは、適応モデルコンポーネントは、入力ネットワークコンポーネントの層又は話者適応DNNモデルの層のいずれかよりも少数のニューロンを有する、完全なテスト話者特有適応層の層を形成することができるからである。
入力ネットワークコンポーネント及び話者特有適応モデルコンポーネント(合わせて「第1の段階」と呼ばれる)は、主に、話者適応DNN(第2の段階)への入力を提供するための特徴抽出器としての働きをする。第1の段階の隠れ層中のニューロンの数及び特に、適応モデルコンポーネント中のニューロンの数は、話者適応DNN(第2段階DNN)中の隠れ層の次元よりもずっと少なくてよい。このことは、推定のためのパラメータがより少ないことを意味し、オンライン認識に非常に役立つ可能性がある(例えば、テスト話者の認識中に、テスト話者からのわずか1分の音声データを使用して、システムがよりよく動作するように調整されることが可能である)。
訓練話者特有適応モデルコンポーネントを訓練するのに使用される適応モデルの入力ネットワークコンポーネント及び出力ネットワークコンポーネント(もしあれば)は、最初の訓練プロシージャ中に生み出されることが好ましい。この最初の訓練プロシージャでは、入力ネットワークコンポーネントと、汎用適応モデルコンポーネントと、出力ネットワークコンポーネント(もしあれば)とを備える適応モデルが、訓練話者についての訓練データを使用して訓練される。
この訓練プロシージャ及び/又は訓練話者特有適応モデルコンポーネントが生み出される後続の訓練プロシージャ及び/又はテスト話者特有適応モデルコンポーネントが生み出される後続のプロシージャでは、適応モデルは、モノフォンを示す信号を生み出すように訓練されることが好ましい。しかし、これはオプションにすぎない。例えば、別法として、本発明の例が各ステップでトライフォンを使用することも可能である。
対照的に、話者適応DNNを生み出す訓練プロシージャ中は、話者適応DNNは、トライフォンを示す信号を生成するように訓練されてよい。
テスト話者についての訓練データは、テスト話者からの一連の録音された発話と、関連する音(好ましくはトライフォン)(即ち、訓練方法は、サウンドがすでに音として復号された、話者についての訓練データを使用する)と、を含むデータの形をとることができる。この場合、テスト話者特有適応モデルコンポーネントの訓練は、教師あり学習であってよい。
別法として、テスト話者についての訓練データは、関連する音を含まないことがある(即ち、訓練方法は、サウンドがすでに音として復号された、テスト話者についての訓練データを利用しない)。この場合、アルゴリズムは、関連する音の対応する第1の推定値(第1のパス)を生み出すためにテスト話者についての訓練データの各要素を使用する、準備ステップを含むことができる。
第1の推定値は、トライフォンの形であってよい。これは、テスト対象についての訓練データを、入力ネットワークコンポーネントと、訓練された汎用適応モデルコンポーネントと、訓練話者からの訓練データを連続的に使用して訓練された「話者独立の」DNNと備える適応ネットワークに供給して、訓練された汎用適応モデルコンポーネントの出力を使用してトライフォンを生成することによって、行われることが好都合である。適応ネットワークの出力は、関連するトライフォンの第1の推定値である。次いで、テスト話者についてのテストデータと、関連するトライフォンの関連する第1の推定値とを使用して、教師あり学習プロセスにおいてテスト話者特有適応モデルコンポーネントが訓練される。言い換えれば、全体としての訓練プロシージャは監視なし(サウンドがすでに音素として復号された、テスト話者についての訓練データを使用しないので)だが、テスト話者特有適応モデルを生成するステップは、教師あり学習アルゴリズムを使用して実施されてよい。
上で論じられた適応ネットワークの全てにおいて、入力ネットワークコンポーネントに入力される信号は通常、マイクロフォンによって取り込まれたユーザの音声中の特徴を識別するフィルタバンクの出力である。テスト話者の音声は、マイクロフォンを使用して取り込まれ、フィルタバンクの中を通された後で、テスト話者特有適応モデルの入力ネットワークコンポーネントに送信される。
提案されるアプローチは、話者適応を実施するために、特徴変形アプローチを、DNNのモデルパラメータを調整するアプローチと統合することを容易にする。
任意選択で、訓練話者についての訓練データは、データベースに記憶された事前生成済みデータであってよい。この訓練データが、フィルタバンクによって出力されたデータの形で記憶された場合は、フィルタバンクは、訓練話者特有適応ネットワークコンポーネントと話者適応DNNとを生み出す訓練プロセス中に再び使用される必要はない。
提案されるアプローチは、テスト話者特有ボトルネックが監視あり適応と監視なし適応の両方によって生成されるときに、性能を改善することが示された。
任意選択で、テスト話者特有適応モデルコンポーネントを生成するステップは、時々繰り返されてよく、テスト話者特有適応ネットワークは、一番最近のテスト話者特有適応モデルコンポーネントで更新される。このようにして、テスト話者特有適応ネットワークは、テスト話者の音響環境の変化に合わせて更新されてよい。更新プロセスは、事前定義済みのタイムテーブルで(例えば定期的な間隔で)実施されてもよく、又は、更新が有益となることを自動的に検出するステップの後に続いて実施されてもよい。
本発明は、テスト話者特有適応システムを生成するコンピュータ実装方法によって、又は、この方法を実施するためのコンピュータシステムによって、若しくは、この方法をコンピュータシステムに実施させるためのプログラム命令(例えば非一時的な形の)を含むコンピュータプログラム製品(有形のデータストレージデバイスなど)によって、表現されることが可能である。
任意選択で、本発明は、テスト話者からの訓練データを使用して遂行されるステップによってのみ表現されることも可能である。これは、訓練話者からの訓練データを使用するステップが、事前に、また任意選択で異なるコンピュータシステムによって、遂行される場合があるからである。
本発明は更に、テスト話者からの音声を認識するためにテスト話者特有適応システムを使用するための方法又はシステムとして表現されることも可能である。認識された音声は、単語に変換されてよい。この方法又はシステムは、アクションを選択するためにこれらの単語を使用することができ、任意選択でこれらのアクションを実施することができる。
図1を参照すると、本発明の例である第1の方法100の流れ図が示されている。図9は、本発明の例である第2の方法の流れ図である。
方法100、200は、図2に示されるコンピュータシステム10によって実施されてよい。コンピュータシステムは、プロセッサ11と、データストレージシステム12と、マイクロフォン13とを備える。プロセッサ11は、第1のメモリデバイス111中のプログラム命令によって制御され、データを生成し、このデータを第2のメモリデバイス112に記憶する。コンピュータシステム10は、例えば、ワークステーションPC(パーソナルコンピュータ)やタブレットコンピュータなど、一般的なコンピュータシステムであってよい。別法として、プロセッサ11は、サーバシステムのプロセッサであってもよい。別の可能性では、プロセッサ11は、自動車又はホーム機器若しくはオフィス機器のアイテムなど、ASR能力を設けることが望まれるより大きい装置の一部であってもよい。
データストレージシステム12は、訓練データを記憶するためのものである。データストレージシステム12は、テスト話者についての訓練データを記憶するのに使用される第1のデータベース14を備える。この訓練データがとり得る形については後述される。データストレージシステム12は更に、i=1,...Nとしてラベル付けされたN人のテスト話者についての訓練データを記憶するためのデータベース15を備える。データベース15は、N個のそれぞれのセクション151,152,...15Nに分割され、これらのセクションはそれぞれ、N人の訓練話者の各々についての訓練データを記憶する。
データベースセクション151,151,...15Nのうちの対応するセクションに記憶された、各訓練話者についての訓練データは、マイクロフォンによって録音された生サウンドデータである第1の部分を含む。サウンドデータは連続的な部分に分割され、これらの部分は、ここではフレームと呼ばれる。訓練データは更に第2の部分を含み、第2の部分は、各フレームにつき、対応する時点で訓練話者が話した音を示す。フレームは等しい長さであり、各フレームは、1つのモノフォン又はトライフォンに関連する。データの第1の部分は、マイクロフォン13によって録音されたものであってよい。別法として、データの第1及び第2の部分は、サードパーティによって生成されたデータベースなど、既存のデータベースから得られたものであってもよい。
A.方法100
1.ボトルネックDNNの訓練(図1のステップ1)
図1の方法の第1のステップ(ステップ1)は、図3に例証されるような適応システム20を使用して実施される。適応システム20は、コンピュータシステム1中に仮想的にのみ存在する。適応システム20は、生サウンドデータ17を受け取って処理するために、フィルタバンク(FBANK)16の出力を受ける。後で言及されるように、ステップ1が遂行されるのに伴って、生サウンドデータ17は、データベースセクション151,152,...,15Nの第1の部分中の生サウンドデータから連続的に引き出される。任意の瞬間で、FBANK16に入力される生サウンドデータは、フレームの1つである。
フィルタバンクFBANK16は、メルFBANKであってよい。しかし、後述される本発明の例の異形では、FBANK16は、後続の記述の全体を通して、以下のうちの1つで置き換えられてもよい。即ち、(i)メルFBANKと、それに加えてDベクトル(D−vector)ユニット(Dベクトルは、FBANK特徴に付加される追加コンポーネントである)。これは、Ehsan Variani、Xin Lei、Erik McDermott、Ignacio Lopez Moreno及びJorge Gonzalez−Dominguez、「Deep neural networks for small footprint text−dependent speaker verification」、IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),2014、2014年に記載されている。又は、(ii)メルFBANKと、それに加えて制約付き最尤線形回帰(CMLLR:constrained maximum likelihood linear regression)ユニット(これは、S.P.Rath、D.Povey、K.Vesely及びJ.Cernocky、「Improved feature processing for deep neural networks」、INTERSPEECH会報、2013年に記載されている。CMLLRは、Dベクトルのような付加特徴ではないことに留意されたい)。又は、(iii)メルFBANKと、それに加えてCMLLRユニット及びDベクトルユニット。
FBANK16は、任意の時点で受け取る生サウンドデータ(サウンドアイテム)中に複数の特徴があるかどうか識別する。FBANK16は、これらの特徴がサウンドアイテム中にあるかどうかを示す複数の出力信号を生成する。
FBANK16の複数の出力信号は、適応入力ネットワークコンポーネント18の入力に供給され、適応入力ネットワークコンポーネント18は、通常はDNNである。図3に描かれる入力ネットワークコンポーネント18は、3つの層18a、18b、18cを有するが、本発明の例の異形では、任意の整数個の層があってよい。これらの各層は、複数のニューロン、例えば1層当たり512個のニューロンを有する。各ニューロンは、複数の入力を受け、1つの出力を生成する。第1の層18aの各ニューロンは、FBANK16の全ての出力を受ける。第2の層18b中の各ニューロンは、第1の層18a中の全てのニューロンの出力を受ける。第3の層18c中の各ニューロンは、第3の層18b中の全てのニューロンの出力を受ける。
入力ネットワークコンポーネント18の出力(即ち第3の層18c中のニューロンのそれぞれの出力)は、「ボトルネック層」19と呼ばれる適応モデルコンポーネント19に供給される。ボトルネック層19は、入力ネットワークコンポーネント18の全ての出力(即ち層18c中のニューロンの出力)を各々が受けるニューロンの単一層である。ボトルネック層19中のニューロンの数は、入力ネットワークコンポーネント18の各層中のニューロンの数よりもずっと少ない。例えば、ボトルネック層19中には、75個のニューロンしかないことがある。
ボトルネック層19中のニューロンの出力は、適応出力ネットワークコンポーネント21に入力として供給される。適応出力ネットワークコンポーネント21は、この例では、512個のニューロンを含み得る単一の層21aからなる。
出力ネットワークコンポーネント21の出力は、非適応出力層27に供給され、非適応出力層27は、単一のモノフォンを示す信号を生み出すために、出力ネットワークコンポーネント21の出力をフォーマットする。
入力ネットワークコンポーネント18、ボトルネック層19及び出力ネットワークコンポーネント21は、ここではボトルネックDNN(BN−DNN)と総称される。
層18a、18b、18c、19及び21a中の各ニューロンは、それぞれの出力を形成するが、この出力は、その入力の加重合計など、その入力と相関関係にあるものである。重みは、可変パラメータである。ボトルネック層19中のニューロンの数は、層18a、18b、18c又は21aのどの層中のニューロンの数よりもずっと少なく(例えば、これらの層のいずれか1つの層中のニューロンのわずか20%にすぎない)、従って、総ネットワークパラメータのうちの非常に小さい部分のみが、ボトルネック層19に関連する。
ステップ1で、適応システム20は、データベースセクション151,152,....15Nの第1の部分中の生音声データを、データベースセクション151,152,....15Nの第2の部分中のモノフォンに関連付けるように訓練される。即ち、層18a、18b、19及び21aの重みは、既知のアルゴリズムによって徐々に修正され、従って、音声アイテムがメルFBANK16に連続的に入力された場合、層20の出力は、単一のモノフォンを示す信号を生み出すために非適応出力層27によって使用され得る形で、対応するモノフォンを符号化する。
このプロセスは、データベース15中の全ての訓練話者についての訓練データを連続的に使用して遂行されることに留意されたい。従って、入力ネットワークコンポーネント18、ボトルネック層19及び出力ネットワークコンポーネント21は、いずれかの訓練話者に特有の方式で訓練されるのではない。特に、ボトルネック層19は、汎用ボトルネック層(即ちどの訓練話者にも適用可能な)になるように訓練される。前に使用された用語で言えば、訓練された汎用ボトルネック層は、訓練された汎用適応モデルコンポーネントである。
最も適した学習アルゴリズムでは、音声アイテムがFBANK16に1つずつ提示され、対応するモノフォンを出力ネットワークコンポーネント21が出力するようにネットワークパラメータが修正される。
訓練話者からのフレームが学習される順序は、重要ではない。1つの可能性では、第1の訓練話者についてのフレームのうちのランダムに選ばれた1つがFBANK16に入力されてよく、対応するモノフォンを出力ネットワークコンポーネント21の出力が示すように、ネットワークパラメータが調節される。次いで、第2の訓練話者についてのフレームのうちのランダムに選ばれた1つで、同じことが行われる。N番目の訓練話者についてのフレームのうちのランダムに選ばれた1つで同じことが行われるまで、以下同様である。次いで、望まれる回数にわたりプロセス全体が繰り返される(例えば、収束基準に達するまで)。
BN−DNNを訓練するのにモノフォンターゲットを使用する理由は、認識中のトランスクリプションエラーに対してボトルネック層訓練を頑強にし、データ希薄の問題を軽減するためである。トライフォンターゲットをモノフォンにマッピングすることは、状態共有として解釈されることが可能であり、データ希薄の問題を軽減する助けになる。
我々は次に、ステップ2並びにステップ3及び4について述べる。ステップ2は、ステップ3及び4から独立していることに留意されたい。ステップ2は、ステップ3及び4の後で実施されてもよく、又はステップ3及び4と同時に実施されてもよい。
2.テスト話者を認識するための、話者独立(SI)DNNの訓練(図1のステップ2)
ステップ2で、訓練された入力ネットワークコンポーネント18及び訓練された汎用ボトルネック層19は、図4に示される2段階適応ネットワーク25の第1の段階として使用される。図3におけるのと同じ意味を有するコンポーネントには、同じ参照番号が付されている。適応ネットワークは、FBANK16の出力を受け取る訓練された入力ネットワークコンポーネント18と、訓練された汎用ボトルネック層19とを備える。適応ネットワークは更に、3つの層22a、22b、22cを備えた「段階2」DNN22も備える。各層は2048個のニューロンを含むことができ、各ニューロンは、その入力の加重合計に応じてそれぞれの出力を形成する。第2の層22bの各ニューロンは、第1の層22a中のニューロンの出力を受け、第3の層22cの各ニューロンは、第2の層22c中のニューロンの出力を受ける。本発明の例の異形では、段階2DNN22中の層の数及び1層当たりのニューロンの数は、異なってもよいことに留意されたい。
ステップ1と同様、全ての訓練話者についての音声アイテムが、FBANK16に連続的に入力され、FBANK16は、適応ネットワークの第1の段階(即ち、訓練された入力層18及び訓練されたボトルネック層19)に供給する。ボトルネック層19の、対応する結果的な出力は、同じ訓練話者についての5つの後続フレームがFBANKに連続的に入力されたときのボトルネック層19のそれぞれの5つの出力及び同じ訓練話者についての5つの先行フレームがFBANKに連続的に入力されたときのボトルネック層19のそれぞれの5つの出力と結合されて、特徴ベクトル26が形成される。本発明の例の異形では、先行及び/又は後続フレームの数は5つとは異なってもよいが、後で説明される我々の実験的実装形態では、5つのこのようなフレームが使用されたことに留意されたい。特徴ベクトル26は、段階2DNN22の第1の層22aの各ニューロンに入力される。
所与の特徴ベクトル26が段階2DNNに入力されると、段階2DNN22のニューロンは、FBANK16に入力された音声アイテムを中心とするトライフォンを示す信号を第3の層22cが生成するように、修正される。第3の層22cの出力は非適応出力層28に供給され、非適応出力層28は、トライフォンを示す信号を生み出すために第3段階層22cの出力をフォーマットする。
このプロセスは、全ての訓練話者についての音声アイテムに対して、連続的に繰り返される。
ステップ1と同様、訓練話者についての音声アイテムが使用される順序は、重要ではない。1つの可能性では、第1の訓練話者についてのフレームのうちのランダムに選ばれた1つがFBANK16に出力されてよく、対応するトライフォンを出力ネットワーク22cの出力が示すように、段階2DNN22中のニューロンのパラメータが調節される。次いで、第2の訓練話者についてのフレームのうちのランダムに選ばれた1つで、同じことが行われる。N番目の訓練話者についてのフレームのうちのランダムに選ばれた1つで同じことが行われるまで、以下同様である。次いで、望まれる回数にわたりプロセス全体が繰り返される(例えば、収束基準に達するまで)。
このように、段階2DNN22は、話者独立(SI)DNNになるように徐々に訓練される。図4の訓練された適応システム25は、どの訓練話者の音声中のトライフォンも認識するようによく適応され、後述されるように、音トランスクリプションが利用可能でないときにテスト話者の第1パストランスクリプションを得るのに使用されることが可能である。話者ばらつきはまだ正規化されていない。
3.話者適応DNNモデルの形成(図1のステップ3及び4)
ステップ3で、N人の訓練話者の各々につき、それぞれの適応システムが形成される。図5に、i番目の訓練話者についての適応ネットワーク30iが示されている。適応ネットワーク30iは、FBANK16の出力を受け、ステップ1で生成された訓練された入力ネットワークコンポーネント18及び訓練された出力ネットワークコンポーネント21を備えるが、更に、適応ネットワーク30iごとに異なるボトルネック層19iも備える。任意選択で、ボトルネック層19iは、最初は、ステップ1で生成された訓練された汎用ボトルネック層19と等しくてもよい。
適応システム30iごとのそれぞれのボトルネック層19iは、データベースセクション15中の、それぞれのi番目の訓練話者についての訓練データのみを使用して訓練される。訓練された入力ネットワークコンポーネント18及び訓練された出力ネットワークコンポーネント21は、修正されない。この結果、訓練話者特有の訓練されたボトルネック層19iが得られる。訓練話者特有の訓練されたボトルネック層は、SDBN−1,SDBN−2,...,SDBN−Nとしてラベル付けされてよい。訓練された入力ネットワークコンポーネント18と、訓練話者特有の訓練されたボトルネック層19iとの組合せは、訓練話者特有BN DNNである。この場合もやはり、単一のモノフォンを示す信号として出力ネットワークコンポーネント21の出力をフォーマットするために、非適応出力層27が設けられる。
このプロセスは、各訓練話者に対して順に実施される。
ステップ4で、N個の訓練話者特有の訓練されたボトルネック層は、図4の段階2DNN22と同じ形を有する段階2DNN32を訓練するのに使用される。この訓練は、図6に示される適応システム35内に段階2DNNがある間に行われる。
段階2DNN32は、3つの層32a、32b、32cを備える。各層は2048個のニューロンを含むことができ、各ニューロンは、その入力の加重合計に応じてそれぞれの出力を形成する。第1の層32aの各ニューロンは、特徴ベクトルを受け、第2の層32bの各ニューロンは、第1の層32a中のニューロンの出力を受け、第3の層32cの各ニューロンは、第2の層22c中のニューロンの出力を受ける。この場合もやはり、単一のトライフォンを示す信号として層32cの出力をフォーマットするために、非適応出力層28が設けられる。
図6に示される適応システム35は、FBANK16の出力を受ける。適応システムは、ステップ1で形成された訓練された入力ネットワークコンポーネント18を備える。
ステップ1及び2と同様、全ての訓練話者についての音声アイテムが、FBANK16に連続的に入力される。i番目の訓練話者についての音声アイテムがFBANK16に入力されたとき、入力層18の出力は、i番目の訓練話者特有ボトルネック層19iに供給される。
ボトルネック層19iの結果的な出力は、特徴ベクトル26を形成するために、同じ訓練話者についての5つの後続フレーム及び5つの先行フレームと結合される。特徴ベクトル26は、段階2DNN32の第1の層32aの各ニューロンに入力される。
所与の特徴ベクトル26が段階2DNN32に入力されると、段階2DNN32のニューロンは、FBANK16に入力された音声アイテムを中心とするトライフォンを示す信号を第3の層32cが生成するように、修正される。
このプロセスは、全ての訓練話者についての音声アイテムに対して、連続的に繰り返される。
訓練話者についての音声アイテムが使用される順序は、重要ではない。1つの可能性では、第1の訓練話者についてのフレームのうちのランダムに選ばれた1つがFBANK16に出力されてよく、対応するトライフォンを出力ネットワーク32cの出力が示すように、段階2DNN32中のニューロンのパラメータが調節される。次いで、第2の訓練話者についてのフレームのうちのランダムに選ばれた1つで、同じことが行われる。N番目の訓練話者についてのフレームのうちのランダムに選ばれた1つで同じことが行われるまで、以下同様である。次いで、望まれる回数にわたりプロセス全体が(例えば、収束基準に達するまで)繰り返される。
このように、段階2DNN32は、訓練話者特有BN DNNのいずれかによって出力されたデータからトライフォニームを認識するようになるように、徐々に訓練される。これは、ステップ2で生成された段階2DNN22とは対照的であり、段階2DNN22は、ステップ1で生成された訓練された汎用BN DNNの出力からトライフォニームを認識するように訓練される。段階2DNN32は、以下ではSAT−DNNと呼ばれる。
4.テスト話者に対する自動音声認識(図1のステップ5〜9)
次に、テスト話者からの音声がどのように認識されるかに目を向ける。このステップは通常、ステップ1〜4の後、テスト話者からの訓練データが利用可能になったときに実施される。このステップは、ステップ1で生成された訓練された入力ネットワークコンポーネント18及び訓練された出力ネットワークコンポーネント21と、ステップ2で生成された適応ネットワーク(SI−DNN)25と、ステップ4で生成された段階2DNNとを利用する。テスト話者2からの音声が、マイクロフォン13によって取り込まれ、データベース14に記憶される。ステップ5〜9は通常、ステップ1〜4の後、テスト話者からの音声が利用可能になったときに遂行される。これは、図1で破線によって示される。しかし、本発明の幾つかの例では、ステップ5〜7は、ステップ3及び4の前に、又は同時に遂行されてもよい。
ステップ5で、取り込まれたテスト話者の音声中のトライフォンの「第1パス」認識を生成するために、適応ネットワーク25(ステップ2で生み出された)が使用される。結果は、適度に正確である。
ステップ6で、ステップ5で導出されたトライフォンが、モノフォンに変換される。これは、本方法の任意選択のステップであることに留意されたい。即ち、本方法は、別法として、全体的にトライフォンを使用して実施されてもよい。このプロセスはまた、取り込まれたテスト話者の音声に対するモノフォンの整合(即ち、各モノフォンが開始する時点)も示す。従って、データベース14中のテスト話者についての訓練データは、フレームに分割される。
ステップ7で、図7に示される適応システム40が形成される。適応システム40は、FBANK16の出力を受け、訓練された入力ネットワークコンポーネント18と、新しいボトルネック層45(これは任意選択で、最初は、ステップ1で生成された訓練された汎用ボトルネック層19と等しくてもよい)と、訓練された出力ネットワークコンポーネント21とを備える。この場合もやはり、単一のモノフォンを示す信号として出力ネットワークコンポーネント21の出力をフォーマットするために、非適応出力層27が設けられる。
次いで、ステップ3と同様の方式で、学習プロシージャが実施される。これは、データベース14からの音声アイテムを適応システム40のFBANK16に連続的に入力し、ボトルネック層45を修正して、それにより、出力ネットワークコンポーネント21の出力が、ステップ6で得られた対応するモノフォンであるようにすることによって、実施される。
このように、ボトルネック層45は、テスト話者特有ボトルネック層になるように訓練される。留意されたいが、ボトルネック層に関連する可変パラメータの数は、入力ネットワークコンポーネント18又は出力ネットワークコンポーネント21に関連する可変パラメータの数よりもずっと少なく、従って、ボトルネック層45のパラメータを直すのに必要とされる訓練データの量は、ステップ1で必要とされたよりもずっと少ない。よって、必要とされる、取り込まれるテスト話者の音声は少ない。特に、ボトルネック層45の訓練は、トライフォンではなくモノフォンを用いて実施され、このことは、テスト話者特有ボトルネック層45を訓練するのに必要とされる取り込まれるテスト話者の音声の量を削減する。
ステップ8で、図8に示されるテスト話者特有適応システム50が形成される。これは、マイクロフォン13によって収集されたテスト話者からの音声を認識するのに使用される。マイクロフォンの出力は、FBANK16に送信され、FBANK16の出力は、テスト話者特有適応システム50の第1の部分である入力ネットワークコンポーネント18に送信される。具体的には、テスト話者特有適応システム50は、訓練された入力ネットワークコンポーネント18と、訓練されたテスト話者特有ボトルネック層45と、ステップ4で生成された段階2DNN32(話者適応出力ネットワーク)とを備える。このテスト話者特有適応システム50は、マイクロフォン13によって取り込まれた音声中のトライフォンを認識するのに使用されることが可能である。この場合もやはり、単一のトライフォンを示す信号として段階2DNN32の層32cの出力をフォーマットするために、非適応出力層28が設けられる。
幾つかのフレームがFBANK16に入力されたときのテスト話者特有ボトルネック層45からの出力は、このフレームの前の5つの各フレームがFBANKに連続的に入力されたときのボトルネック層45の5つのそれぞれの出力及びこのフレームの後の5つの各フレームがFBANKに連続的に入力されたときのボトルネック層45の5つのそれぞれの出力と結合されて、段階2DNN32への入力が生成されることに留意されたい。
図1の方法は、テスト話者によって話される音素に関するアプリオリ情報を必要としない。即ち、これらの音素は、ステップ5で近似方式で認識され、従って、ステップ7で、教師あり学習が実施されることが可能である。言い換えれば、ステップ5〜8で実施される全体としての方法は、監視なし(テスト話者によって話される音に関する利用可能なアプリオリ情報がないという意味で)だが、ステップ7は、監視ありステップと見なされることが可能である。
任意選択で、システムは、いくらかの量の時間が経過したと決定することができる(ステップ9で)。この後、訓練話者についての新しい訓練データが収集され、次いで、この訓練データは、既存のテスト話者特有適応システムを使用してトライフォンに変換される。次いで、ステップ6〜8が繰り返される。これは、交換用テスト話者特有ボトルネック層を組み込んだ、交換用テスト話者特有適応システムを生み出すことになる。交換用テスト話者特有適応システムは、例えば、ステップ5〜8が最初に実施されてからテスト話者の音響環境が変化した可能性に対処することになる。
留意されたいが、ステップ9で既存のテスト話者特有適応システムを使用してテスト話者についての新しい訓練データをトライフォンに変換することに対する代替は、テスト話者についての新しい訓練データをトライフォンに変換するために図4のSI−DNNを使用することであろう。次いで、前の段落で記述されたように、ステップ6〜8が繰り返されることになる。
交換用テスト話者特有適応システムを生成するプロセスは、不確定的に時々実施されること、及び/又は、既存のテスト話者特有適応システムの精度が不十分なのでこのプロセスを繰り返すのが有益となることを示す制御信号(例えばテスト話者からの)の受領時に実施されること、が可能である。
この概念の異形では、ステップ5〜8は、他の何らかの基準が満たされたときに繰り返されてもよい。例えば、ASRシステムは、マイクロフォン13によって受けたサウンド中の雑音の特性を決定するためのコンポーネントを備えることがあり、マイクロフォン13によって受けたサウンドの雑音特性が所定量よりも多く変化したと決定されたとき、ステップ5〜8が繰り返されてよい。
方法100の異形では、テスト話者の取り込まれた音声のアイテムに対して、テスト話者によって話された対応するモノフォニームが識別されるような、テスト話者からの訓練データが利用可能である場合は、ステップ2、5及び6は省略されてよいことに留意されたい。テスト話者に関係する訓練データは、ステップ7でテスト話者特有ボトルネック層45を生成するために利用されてよく、これは、テスト話者に関係する訓練データを使用して適応ネットワーク40内でボトルネック層45の教師あり学習を実施することによって、行われてよい。
明確であろうが、適応ネットワーク20、25、30i、35、40及び50は、コンピュータシステム10のメモリ空間で仮想的に実装される。
ステップ1〜8は、同じコンピュータシステムによって実施される必要もなく、実質的に同時に実施される必要もない。そうではなく、ステップ1〜4は、任意選択で、第1のコンピュータシステムによって、例えば訓練話者に関係する非常に多量の訓練データを使用して実施されてよく、次いで、ステップ5〜9は、テスト話者についてのデータが利用可能なときに第2のコンピュータシステム(例えば、異なる人間オペレータを伴う)によって実施されてよい。
図3、5及び7の適応モデルの異形では、出力層ネットワーク21は、本発明の幾つかの実施形態から省略されてよく、従って、ボトルネック層19、19i、45は、FBANKに入力された音声アイテムに対応するモノフォンを直接に示す出力を生み出すように訓練される。非適応出力層27は、単一のモノフォンを示す信号を生成するために、ボトルネック層19、19i、45の出力をフォーマットすることになる。
方法100では、データベースセクション151,152,...15Nに記憶された訓練話者についての訓練データに雑音がないことは、必須ではないことに留意されたい。別法として、この訓練データは、テスト話者の可能性ある雑音環境に似た雑音など、雑音を受けるように選ばれてもよい。
B 方法200
図9に、本発明の更に他の例である方法200が例証されている。図9は、3つの追加ステップ1a、1b及び1cが実施されるという点で、図1と異なる。図1に例証されるように、これらはステップ1の後で実施されるが、ステップ1a及び1bは、別法としてステップ1の前に実施されてもよく、実際、後で論じられるように、ステップ1aは省略されてもよい。
ステップ1aで、測定された雑音特性を生み出すために、テスト話者の雑音環境が測定される。これは、例えば、テスト話者が話す前(又は後)にマイクロフォン13からサウンドデータを収集することによって行われてよい。
ステップ1bで、測定された雑音特性と同様の雑音特性を有する、各訓練話者についての訓練データのセット(雑音あり訓練データ)を得るために、測定された雑音環境が使用される。例えば、それぞれのデータベースセクション151,152,....,15Nに記憶された各訓練話者についての訓練データが、異なるそれぞれの雑音特性を有する部分を含む場合、測定された雑音特性と同様の雑音特性を有する部分が選択される。雑音あり訓練データは、データストレージシステム12内の追加データベース(図2には示されていない)に記憶される。
ステップ1cで、ステップ1bで得られた雑音あり訓練データを使用してステップ1が繰り返されるが、入力ネットワークコンポーネントの最後の層のみが修正される。即ち、図3に示されるようなネットワークがこの場合もやはり使用されるが、ステップ1cでは、訓練された入力ネットワークコンポーネント18の層18cのみが修正される。任意選択で、やはりステップ1cの一部として、訓練された汎用ボトルネック層19が修正(更新)されてもよい。以下で報告される実験では、汎用ボトルネック層は更新される。
任意選択で、ステップ1bで生成された雑音あり訓練データはまた、ステップ2〜4でも使用されてよい。これが適切かどうかは、利用可能な雑音ありデータの量に依存する。
ステップ9が完了すると、方法200はステップ1aにループバックする。異形では、ユーザの雑音環境の測定は、テストユーザから新しい音声データが収集される前又は後に、ステップ9の一部として実施されてよい。この場合、本方法は、別法として、ステップ9の後、ステップ1aの代りにステップ1bにループバックすることができる。
方法100では、ステップ1〜4は、テスト話者又はその雑音環境に関するどんな情報にも先立って実施されてよいが、方法200のステップ1aでは、テスト話者の雑音環境が測定されることに留意されたい。言い換えれば、方法200は、テスト話者の場所でサウンドが収集されるのに続いて、より多くの計算処理が遂行されることを必要とするであろう。
方法200の変形では、ステップ1aは省略されてよく、その代り、ステップ1bでは、テスト話者の雑音環境の推定値に基づいて、雑音あり訓練データが得られる。
方法200の別の変形では、ステップ2(SI−DNNの形成)並びにステップ3及び4(訓練話者適応DNN(SAT−DNN)の形成)は、修正された入力ネットワーク(1c)を用いるのではなく、ステップ1で生成された入力ネットワークを使用して、実施されてよい。言い換えれば、ステップ1、2、3及び4は、方法100と全く同様に実施される。この場合、ステップ2、3及び4は、任意選択で、ステップ1a〜1cの前に実施されてもよい。従って、ステップ2、3及び4は、図9の方法の認識段階が開始する前に(例えば、テスト話者に関する、あるいは更にはテスト話者の雑音環境に関する利用可能な情報がないときに)実施されてよい。
訓練話者について、無限量の雑音あり訓練データが利用可能な場合、方法200のプロセスは、例えば図10に示されるように、簡略化されてよいことに留意されたい。図10は方法300を例証し、方法300では、ステップ1a及び1bに続いて、汎用ボトルネックと入力ネットワークとを訓練するステップ1が実施され、別個のステップ1cは必要ない。この場合、ステップ1bは、ステップ1が入力ネットワークと汎用ボトルネック層の両方を訓練するために、十分な雑音あり訓練データを生み出さなければならないことになる。
C 訓練話者適応DNN中での汎用ボトルネック層の使用
第1の異形との組合せで使用され得る、方法100の第2の可能な異形は、ステップ3で生成された訓練話者特有ボトルネック層19iだけでなく、ステップ1で生成された汎用ボトルネック層19も使用して、段階2DNN32を生成するステップ4を実施するものである。図6の適応ネットワーク35は、この場合、図11に例証される適応ネットワーク35’で置き換えられ、図11では、結果的な段階2DNNは、32’としてラベル付けされている。段階2DNN32’は、例えば、3つの層32a’、32b’及び32c’で構成されてよい。
ステップ4の訓練プロシージャ中、所与のi番目の訓練話者についての所与の訓練例がFBANK16に入力されたときは常に、訓練された入力ネットワークコンポーネント18の出力が、対応するボトルネック層19iだけでなく汎用ボトルネック層19にも渡される。ボトルネック層19i及び汎用ボトルネック層19のそれぞれの出力は、段階2DNN32’に入力されるデータベクトルを形成するように連結される。
同様に、ステップ8で使用される(また図8に示される)テスト話者特有適応システム50は、図11に例証されるテスト話者適応システム50’で置き換えられる。具体的には、テスト話者特有適応システム50’は、訓練された入力ネットワークコンポーネント18と、訓練されたテスト話者特有ボトルネック層45と、改訂された形のステップ4で生成された段階2DNN32’とを備える。このテスト話者特有適応システム50’は、ステップ8で、マイクロフォン13によって取り込まれたテスト話者の音声中のトライフォンを認識するために使用される。この場合もやはり、単一のトライフォンを示す信号として段階2DNN32’の層32c’の出力をフォーマットするために、非適応出力層28が設けられる。
D 結果
1.方法100
以下の表1は、幾つかの従来のニューラルネットワークアルゴリズムと比較した、図1に例証される監視なし適応モードを使用したときの前述の方法100の性能を示す。上で言及されたように、ステップ7でボトルネック層45の重みを更新するための訓練データを生成するために、第1パスASR(エラーを含む)トランスクリプション(ステップ5で実施される)が使用される。ステップ8で、トライフォンを認識するためにテスト話者特有ネットワークが形成され、既知のアルゴリズムを使用してトライフォンが単語に変換される。
訓練データは、83人の話者からの7137個の発話からなる、クリーンな訓練データ及びマルチコンディション訓練データであった。これは、ここではAurora4データベースと呼ばれる。クリーンなデータは、主要ゼンハイザー(Seenheiser)マイクロフォンを使用して録音されたが、一方、マルチコンディション訓練データは、重畳歪みを含む、主要マイクロフォンと副次マイクロフォンとを用いて録音されたデータを有していた。マルチコンディションデータは更に、6つの雑音条件、即ち空港、ざわめき(babble)、自動車、レストラン、街路及び鉄道駅からの、加法性雑音を有するデータを含んでいた。
テストデータは14個のテストセットからなり、2つの異なるマイクロフォンによって録音された8人のテスト話者からの330個の発話を含む。
FBANKは、40次元メルFBANKであった。従って、ボトルネックが75次元出力を生み出したので、段階2DNN22、32の各々への入力は、825次元特徴ベクトル26であった。段階2DNN22、32は、2281個のトライフォンのうちの1つを示す信号を生み出すように訓練された。RBM(制限ボルツマンマシン)事前訓練が実施され、交差エントロピー基準を使用して最適化された。
表1は、第2の行に、FBANK16がメルFBANKである場合の本発明の例の性能(即ちパーセンテージ単語エラー率、%WER)を示す。行3〜5はそれぞれ、メルFBANKがDベクトルユニット、CMLLRユニット、及びCMLLRユニットとDベクトルユニットの両方、で補足されたときの、本発明の例の性能を示す。表4の最後の列は、本発明のこれらの各例の性能を、話者特有ボトルネック層を有さない図4に示されるSIシステムの性能であるベースラインと比較する。
CMLLR変形は、SAT(話者適応訓練)GMM−HMMモデル(ガウス混合モデル−隠れマルコフモデル)を訓練する間に推定された。Dベクトルは、話者ラベルを出力層中のターゲットとしてボトルネックDNNを訓練することによって得られた。実験では、Dベクトルは、ボトルネック層の出力を発話にわたって平均し、次いで発話中のフィルタバンク特徴に定数ベクトルを付加することによって、得られた。このことは、話者表現が、同じ話者からの発話にわたって変化することが許されることを意味する。
提案されるアプローチは、メルフィルタバンク(FBANK)特徴で訓練されたDNNに加えて適用されたとき、単語エラー率(WER)で表して8.9%の相対利得(%WER低減又は「%WERR」)をもたらすことを、観察することができる。Dベクトルが付加されたFBANK特徴で訓練されたDNNに適用されたときは、8.6%の相対利得が観察される。CMLLR特徴変形で変形されたFBANK特徴で訓練されたDNNに加えて話者適応DNNが適用されたとき、最もよい性能が達成される。CMLLR−FBANKにDベクトルが付加されたときは、性能は飽和しているように見える。
DベクトルをFBANK特徴に付加する代りに、我々は別の実験で、第2段階DNNを訓練する前にこれらをボトルネック特徴に付加することを試みた。これは、性能において概して同様の利得をもたらした。DベクトルがFBANK特徴とボトルネック特徴の両方に付加されたときは、性能における利得は観察されなかった。
我々はまた、入力ネットワークコンポーネント中のニューロンの数を削減することの影響も検討した。これに対する動機は、ボトルネック層が訓練されるときに適応される必要のある、ボトルネック層のパラメータの数を削減することが可能となるかどうかを見ることであった。我々は入力ネットワークコンポーネントの各層が256個のニューロンに削減された場合の実験を実施した。これは、性能のわずかな低下をもたらした。従って、入力ネットワークコンポーネントの層としてより大きいサイズを使用することは、性能の改善をもたらす可能性がある。
表2に、監視あり適応実験が示されるが、この場合、ステップ7でBN層の重みを更新するのに、テスト話者訓練データの真のトランスクリプトが使用される。言い換えれば、以下の結果は、ステップ2、5、及び6が必要とされない、上で言及された異形の結果である。この場合もやはり、ベースラインは、表1に示されるベースラインである、図4に示されるシステムである。
列は、重みを更新するために1話者当たりに使用される発話の数を示す。両方の表を比較すると、ボトルネック層の重みを更新するためにわずか10個の発話(これは1分のオーディオに対応する)を使用することが、ベースラインに対して性能を改善すると思われることに気付くことができる。FBANK特徴のみを使用することと比較して、データがCMLLR又はDベクトルで正規化された場合、同様の、又はよりよい性能を達成するのに必要とされる適応データはより少ないことに留意することは興味深い。これは、SATフレームワーク中でよりよい音響モデルが訓練されたからであろう。我々はまた、CMLLR−FBANK特徴とともにDベクトルを使用することは、CMLLR−FBANK特徴のみを使用することに対してほとんど改善をもたらさないように思われることにも留意する。
2.さらなる他の実験結果
2.1 コーパス記述
方法200(上記のセクションB)及び訓練話者適応DNN中での訓練された汎用ボトルネック層の使用(上記のセクションC)に関係する更に他の実験結果が、以下に提供される。これらの実験結果は、Aurora4及びCHIME3データベースを使用する(CHIME3データベースは、J.Barker、R.Marxer、E.Vincent、及びS.Watanabe、「The third ‘chime’speech separation and recognition challenge:Dataset,task and baselines」、IEEE Automatic Speech Recognition and Understanding Workshop(ASRU 2015)、2015年12月でも使用された)。Aurora4コーパスとCHIME3コーパスは両方とも、WSJ0コーパス(J.Garofalo、D.Graff、D.Paul、及びD.Pallett、「CSR−I(WSJ0)Complete、LDC93S6A.DVD.Philadelphia:Linguistic Data Consortium,1993」)から導出される。
CHIME3コーパスは、現実と模擬の両方の雑音あり環境で、マルチマイクロフォンタブレットデバイスを使用して録音される。録音が行われた環境は、カフェ、街路、バス、及びレストランを含む。データは、現実の録音と、クリーンな音声信号に模擬雑音を人工的に加えたものとの両方を含む。
訓練データは、WSJ0コーパスからのクリーンなデータを含み、83人の話者による7138個の発話を有する。訓練データはまた、1600個の現実の雑音あり発話も含み、4人の話者がそれぞれ、4つの各環境で100個の発話を読む。データはまた、WSJ0クリーン音声データを使用する7138個の模擬発話で補足される。合計で、431人の話者による15876個の訓練発話がある。話者は、話者ラベルによってだけでなく環境ラベルによっても分割される。テストセットは、開発セットと評価セットの両方を提供し、それぞれ4人の話者を伴う。以下の結果は、現実と模擬の両方の雑音環境についての各話者からの330個の発話を含む1320個の発話を有する評価セットのみを使用して得られた。テストセットはまた、WSJ0コーパスからのクリーンな音声も含むことになる。実験のために、Channel5から録音された音声データが、訓練及び評価に使用される。マルチチャネルデータは、実験に使用されない。
2.2.音響モデル化
前に言及されたように、本方法のステップ1は、図3の適応モデル(BN−DNN)20を使用して実施される。入力ネットワークコンポーネント18は、3つの隠れ層を有する。出力層21は、モノフォンをターゲットとする1つの隠れ層を有する。各隠れ層は、512個のノードからなり、シグモイド活性化を使用する。ボトルネック層19は、ステップ3でボトルネック層19iが有するように、75個のノードを有する。BN−DNNは、40次元を有するメルフィルタバンク(FBANK)特徴を使用して訓練され、これらは、11個のフレームにわたってスプライスされて、サイズ440の入力ベクトルを形成する。BN−DNNを訓練するのに、交差エントロピー訓練基準が使用される。
ステップ2及び4で、段階2DNN22、32は3つの隠れ層からなり、Aurora4タスクの場合は各層に2048個のノードがあり、CHIME3タスクの場合は各層に1024個のノードがある。全ての層は、シグモイド活性化を使用する。段階2DNN22、32は、75次元を有するBN特徴を使用して訓練され、これらもまた、11個のフレームでスプライスされて、サイズ825のベクトルを形成する。第2段階音響モデルは、Aurora4の場合は交差エントロピー(CE)を使用して最適化され、一方、我々は、CHIME3タスクに対してはシーケンス(sMBR)訓練を実施する。全ての実験は、FBANK特徴をDNNへの入力として使用し、これらの特徴に対しては、ばらつきを補償するためのどんな変形もない。
2.3 実験及びベースライン結果
実験は、Aurora4及びCHIME3コーパスに対して訓練されたモデルを使用して、Aurora4タスクに対する(即ちAurora4データをテストデータとする)認識を実施すること(即ち実験のテスト局面)を含む。これらの実験は、整合した雑音条件及び不整合した雑音条件で訓練されたモデルを使用したときにASR性能がどのように変化するかを我々が理解する助けになる。両方の場合に、マルチコンディション訓練が利用される。我々は話者適応と雑音適応の両方を実施しようとするので、不整合したシナリオを有することは、提案される適応方法の有効性をよりよく評価する助けになると我々は考える。実験の他方のセットは、CHIME3テストセットを評価することを含み、これは、模擬(SN)及び現実の(RN)雑音テストセットを含む。我々はまた、WSJ0コーパスを用いて提供されたクリーンなセットに関する結果も報告する。Aurora4について報告される結果は、14個のテストセット全ての平均%WER(単語エラー率)である。同様に、模擬雑音(SN)条件及び現実の雑音(RN)条件の場合のCHIMEテストセットに関して報告される結果は、4つの雑音条件の平均である。
表3は、話者又は環境へのどんな適応もない、ステップ2の結果として得られる話者独立(SI)モデル25の性能についての結果を提示する。これはSIBNと呼ばれる。表から、整合した雑音条件及び不整合した雑音条件で訓練されたモデルを使用してAurora4のSIモデル性能がどのように変化するかを観察することができる。不整合した雑音条件でモデルが訓練されたとき、性能の莫大な劣化があることに気付くことができる。CHIME3タスクに関するベースライン性能は、[24]において提示される結果と整合しない。というのは、我々は、WSJ0コーパスからのクリーンな訓練データを含めており、DNNモデルを訓練するのにFBANK特徴のみ(FMLLRなし)を使用するからである。
表3はまた、「SDBN」とラベル付けされた、テスト話者特有適応モデル50を使用した話者適応についての結果も提示する。第2の列は、Aurora4コーパスが訓練とテスト局面の両方で使用されたときの結果を示す。第3〜第6の列は、訓練にCHIME3データベースが使用され、テスト局面が、Aurora4コーパスと、CHIME3データベースからのクリーンなデータと、CHIME3コーパスからの模擬雑音(SN)と、CHIME3コーパスからの現実の雑音(RN)とをそれぞれ使用して遂行されたときの結果をそれぞれ示す。
適応は、2パスアプローチを使用して監視なし方式で実施される。テスト話者からの全ての発話が、BN層の重みを調整するのに使用される。全ての場合に、SIBN特徴を使用して訓練されたSI ASRモデルと比較したとき、SDBNがASR性能を改善したことを観察することができる。本文書の残りの部分における考察では、SDBN結果がベースラインとして使用される。
図4に、方法100(SDBNとしてマークされた行)と比較した、方法200及びその異形の結果が提示される。方法200及びその異形の場合に生み出される適応モデル50の性能は、NDSDBNと呼ばれる。全ての場合に、テスト話者の雑音環境は、事前にわかっていないが、テスト話者の発話(テストデータ)から推定されることに留意されたい。
全ての場合に、SDBN特徴(即ち方法100によって生み出される適応モデル50)と比較して、NDSDBNがASR性能を改善したことを観察することができる。我々は、CHIME3コーパスを訓練データとして使用して評価されたときの、Aurora4テストセットに対する性能におけるかなりの利得を観察する。
Aurora4コーパスは、訓練コーパス中の雑音ラベル情報を提供しない。従って、Aurora訓練セットを使用して方法の訓練局面(ステップ1、2、3、及び4)が実施されるとき(表4の第1の列)、方法200は、ステップ1cで修正された入力ネットワークではなくステップ1で生み出された入力ネットワークを使用してステップ2、3及び4が実施される(方法100におけるように)前述の異形に従って実施される。特に、SAT−DNNは、雑音特有の方式で訓練されない。従って、提案される、重みの逐次的な調整(即ち、テスト話者特有データを使用してボトルネック層を形成するとともに、雑音特有データに基づいて隠れ層18cを更新する)は、認識中にのみ実施され、SDBN特徴を使用して訓練された適応モデル50が、認識を実施するのに使用される。
一方、CHIME3コーパスは雑音ラベル情報を提供し、従って、訓練局面でCHIME3コーパスを使用する場合、SAT−DNNモデルもまた、前述の逐次的な重み更新を使用して訓練される(即ち、方法200は、ちょうど図9に示されるように実施される)。テスト局面がAurora4コーパスを使用して実施される場合(即ち表4の列3)、訓練話者とテスト話者との間に雑音の不整合があるので、ステップ1a〜1cを実施するための唯一の方法は、テスト話者の雑音環境を推定するためにステップ1aでテストデータを使用することである。これが行われた後は、ステップ1bで、実質的に同じ雑音特性を有するテスト(Aurora4)コーパスからのデータが抽出され(CHIME3訓練コーパスは、Aurora4コーパスのテスト話者の雑音環境と同じ特性を有する雑音を含むどんな音声サンプルも有さないことに留意されたい)、このデータは、ステップ1cで層を修正するのに使用される。従って、層18cは、テスト話者と同じ雑音環境を有する多くの訓練話者からのプールされたデータを使用して修正される。同様に、テスト局面がCHIME3データを使用して実施されるときは(即ち表4の列4〜6)、話者の雑音環境を推定するためにステップ1aでテストデータが使用される。即ち、この雑音環境は、ステップ1bで、実質的に同じ雑音環境を有する訓練データをCHIME3データベースから抽出するのに使用され(これは、CHIME3データベースが、テスト話者の雑音環境と同じ雑音環境を有する訓練データを含むので、可能である)、抽出された訓練データは、ステップ1cで、層18cを更新するのに使用される。
雑音と話者の両方への適応は、2パスアプローチを使用して監視なし方式で実施される。雑音依存層の重みを調整する(即ちステップ1a〜1c)ために、我々は、訓練中と認識中の両方で、CHIME3データをテストに使用する実験では、各雑音条件につき、全ての話者からランダムに選ばれた400個の発話を使用した。Aurora4コーパスを使用してテストする場合では、我々は、各雑音条件につき、8人のテスト話者の各々から利用可能な330個の発話を使用する。
CHIME3コーパス中では、我々は訓練と認識(テスト)の両方で同じ雑音条件を有し、コーパスには雑音ラベル情報も提供されることに留意されたい。このようなシナリオで、我々は、訓練セットに対してすでに推定された雑音依存層が認識中に使用され得るかどうかを見るために、実験を実施することができる。発想は、事前推定された雑音依存層(即ち図4の層18c)を使用して方法200を実施し、BN層45の重みだけをテスト話者特有データで調整するというものである。
表5は、訓練と認識の両方にCHIME3データを使用した結果を提示し、監視ありと監視なし学習を比較する。表5の第2の行は、表4の最後の行の一部と同じであり、第3の行は、教師あり学習を使用した対応する結果を示す。クリーンの場合と模擬雑音(SN)の場合の性能は、雑音依存層18cの監視あり(訓練セット)推定又は監視なし(テストセット)推定のいずれを使用しても、非常に近いことを観察することができる。現実の雑音(RN)条件のみが、監視あり適応からの利益を得る。これは、RNシナリオの場合の高い%WERのせいであろう。
表6に、図12のネットワーク50’を使用した結果が提示される。方法100を使用して適応モデル50’が訓練されるケースは、SIBN+SDBNとしてラベル付けされている。表から、適応モデル50’が適応モデル50よりもよく動作すると思われることに気付くことができる。テスト話者依存ボトルネック45によって出力された特徴と汎用ボトルネック19によって出力された特徴との両方を提示することで、適応モデル50’は、テスト話者依存ボトルネック45によって出力された特徴のみからは明白でない場合のある、話者の特性を学習できると思われる。我々は、ネットワークが、話者特性を学習するために、ボトルネック層19、45によって出力された特徴を対比させることができると推定する。
表6はまた、図12の適応モデル50’が、方法200を使用して訓練されたときの結果も示す。これは、SIBN+NDSDBNと呼ばれる。方法200におけるように入力ネットワークコンポーネント18の最後の層18cが雑音を使用して訓練された場合に、SIBN特徴(ボトルネック層45によって出力された)と、汎用ネットワークによって出力されたNDSIBN特徴とを使用することが、最良の性能を提供し、この場合に話者と背景雑音の両方が補償されること、を観察することができる。我々が、ネットワークにどんな新しい情報も導入しておらず、第2段階モデルが訓練される方式を変更しただけであることに留意することは、重要である。SDBN特徴が、フレームごとに変化し、話者ごとに固定でないことに留意されたい。
また、重みを調整するのに使用される適応発話の数に伴う、上に提示された異なる複数の適応アプローチの性能の変化を決定するための実験も実施された。実験は、Aurora4テストセットに対して実施され、CHIME3コーパスに対して訓練されたモデルを使用して評価される。表7は、BN層の重みを更新するのに使用される発話の数と、雑音依存層の重みを調整するのに使用される発話の数と、を変更することによる結果を提示する。全ての実験は、2パスアプローチに従う監視なし適応を使用して実施される。
我々は以下のことを観察する。
− 雑音依存層の重みを調整する場合と話者依存層の重みを調整する場合との両方で、適応発話の数が増加するのに伴って、性能は徐々に改善する。比較のために、表6に提示された結果は、各話者からの40個の適応発話を使用している。
− 僅か10個の発話を使用する適応モデル50’(SIBN+SDBN)の性能は、適応モデル50(SDBN)で30個の発話を使用するよりも、すでによい。我々は、特徴を連結することが、SAT−DNNモデルに頑強性をもたらすと考える。
雑音依存層18cを訓練するための25個の発話と、話者依存層45の重みを更新するための10個の発話とを使用して、モデル50’を方法200に従って雑音ありで訓練する(即ち、両方のSIBN+NDSDBN特徴を段階2DNN32に入力する)ことは、30個の発話を使用して方法100によって雑音なしで訓練されたモデル50’よりもよく動作すると思われる。
幾つかの構成が記述されたが、これらの構成は、例として提示されたにすぎず、本発明の範囲を限定する意図はない。実際、本明細書に記載の方法及びシステムは、他の様々な形で具体化されることも可能である。更に、本明細書に記載の方法及びシステムの形において、様々な省略、代用、及び変更が行われることも可能である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
〔1〕
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
複数の訓練話者の各々についての、(i)前記それぞれの訓練話者によって話された音声アイテムを特徴付けるデータと(ii)前記音声アイテムに対する音を特徴付けるデータとを備える第1の訓練データのそれぞれのセットと、
前記テスト話者によって話された音声アイテムを特徴付けるデータを備える第2の訓練データとを利用し、
(a)(i)入力ネットワークコンポーネントと(ii)適応モデルコンポーネントとを備える第1の適応モデル(BN−DNN)の教師あり学習を実施して、それにより前記入力コンポーネントと前記適応モデルコンポーネントとを訓練するために、第1の訓練データの前記セットを使用することと、
(b)前記訓練話者の各々につき、
(i)(i)前記訓練された入力ネットワークコンポーネントと(ii)それぞれの訓練話者特有適応モデルコンポーネントとを備えるそれぞれの第2の適応モデルを提供することと、
(ii)第1の訓練データの前記それぞれのセットを使用して前記それぞれの第2の適応モデルの教師あり学習を実施して、それによりそれぞれの訓練話者特有適応モデルコンポーネント(SDBN−1,SDBN−2,....,SDBN−N)を生み出すために、前記訓練話者特有適応モデルコンポーネントを修正することと、
(c)第1の訓練データの前記それぞれのセットを使用して、前記訓練された入力ネットワークコンポーネントと、前記それぞれの訓練された訓練話者特有適応モデルコンポーネントと、話者適応出力ネットワークとを備えるそれぞれの第3の適応モデルを訓練するために、各訓練話者につき連続的に前記話者適応出力ネットワークを修正することによって、前記話者適応出力ネットワークを訓練することと、
(d)前記訓練された入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える第4の適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記第2の訓練データを使用することと、
(e)前記訓練された入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
〔2〕
前記第1の適応ネットワークが更に、ステップ(a)で訓練される出力適応コンポーネントを備え、前記第2の適応モデル及び前記第4の適応モデルが更に、前記訓練された出力適応コンポーネントを備える、〔1〕に記載の方法。
〔3〕
各適応モデルコンポーネントがニューロンの単一層である、〔1〕又は〔2〕に記載の方法。
〔4〕
前記入力ネットワークコンポーネントが、複数のニューロンを各々が備える複数の層を備え、各適応モデルコンポーネントが、前記入力ネットワークコンポーネントのどの層よりも少数のニューロンを備える、〔1〕又は〔2〕又は〔3〕に記載の方法。
〔5〕
前記話者適応出力ネットワークが、複数のニューロンを各々が備える複数の層を備え、各適応モデルコンポーネントが、前記話者適応出力ネットワークのどの層よりも少数のニューロンを備える、前記〔1〕−〔4〕のいずれかに記載の方法。
〔6〕
ステップ(a)、(b)及び(d)で、前記第1及び第2の適応ネットワークが、モノフォンを示す信号を生み出すように訓練される、前記〔1〕−〔5〕のいずれかに記載の方法。
〔7〕
ステップ(c)で、前記話者適応DNNが、トライフォンを示す信号を生み出すように訓練される、前記〔1〕−〔6〕のいずれかに記載の方法。
〔8〕
ステップ(d)の前に、前記第2の訓練データの要素から、関連する音の対応する第1の推定値を生成するステップを更に備え、前記関連する音の前記第1の推定値がステップ(d)で使用される、前記〔1〕−〔7〕のいずれかに記載の方法。
〔9〕
前記関連する音の前記第1の推定値がトライフォンの形であり、前記関連する音の前記第1の推定値の各々をモノフォンに変換することと、前記第2の訓練データがモノフォン間の遷移を呈する時点を特徴付ける整合情報を得ることとを更に備える、〔6〕に従属するときの〔8〕に記載の方法。
〔10〕
前記第2の訓練データの各要素から、前記関連する音の対応する第1の推定値を生成する前記ステップが、
前記訓練話者からの訓練データからトライフォンを生成するために、前記訓練された入力ネットワークコンポーネントと、前記訓練された適応モデルコンポーネントと、話者独立ネットワーク(SI−DNN)とを備える第5の適応モデルを訓練することによって、前記訓練話者からの前記訓練データを連続的に使用して前記話者独立ネットワーク(SI−DNN)を訓練することと、
前記テスト対象についての前記第2の訓練データを前記訓練された第5の適応モデルに入力することと、前記訓練された第5の適応ネットワークの出力が、前記関連するトライフォンの前記第1の推定値である、を備える、〔7〕に従属するときの〔8〕又は〔9〕に記載の方法。
〔11〕
前記第1、第2、第3及び第4の適応モデルの前記入力ネットワークコンポーネントがフィルタバンクの出力を受け取る、前記〔1〕−〔10〕のいずれかに記載の方法。
〔12〕
更新されたテスト話者特有適応モデルコンポーネントを生成するために交換用第2の訓練データを使用してステップ(d)を少なくとも1回繰り返すことと、
前記訓練された入力ネットワークコンポーネントと、前記更新されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える更新されたテスト話者特有適応システムを提供することとを更に備える、前記〔1〕−〔11〕のいずれかに記載の方法。
〔13〕
ステップ(a)に続いて、選択された雑音特性を有する複数の前記訓練話者についての雑音特有訓練データを使用して前記入力ネットワークコンポーネントの少なくとも一部を修正するステップがあり、前記修正された入力ネットワークが、ステップ(b)〜(e)で使用される前記入力ネットワークである、前記〔1〕−〔12〕のいずれかに記載の方法。
〔14〕
前記テスト話者の雑音環境を測定することと、前記テスト話者の前記測定された雑音環境に基づいて選択された雑音特性を有する前記雑音特有訓練データを得ることとを更に備える、〔13〕に記載の方法。
〔15〕
前記入力ネットワークの前記修正される部分が、前記入力ネットワークの最後のニューラル層を備える、〔13〕又は〔14〕に記載の方法。
〔16〕
前記第3の適応モデル及び前記テスト話者特有適応システムが更に、前記訓練された適応モデルコンポーネントを備え、前記訓練された適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、前記〔1〕−〔15〕のいずれかに記載の方法。
〔17〕
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
(i)複数の訓練話者の各々についての、(1)対応する訓練話者によって話された音声アイテムを特徴付けるデータと(2)前記音声アイテム中のサウンドを特徴付けるデータとを備える第1の訓練データのそれぞれのセットと、
(ii)前記テスト話者によって話された音声アイテムを特徴付けるデータを備える第2の訓練データと、
(iii)入力ネットワークコンポーネントとを利用し、
(a)前記訓練話者の各々につき、
(i)前記入力ネットワークコンポーネントとそれぞれの訓練話者特有適応モデルコンポーネントとを備えるそれぞれの第1の適応モデルを形成することと、
(ii)前記それぞれの適応ネットワークコンポーネントを修正して、それにより、訓練された訓練話者特有適応モデルコンポーネントを形成することによって、第1の訓練データの前記それぞれのセットを使用して前記第1のそれぞれの適応モデルの教師あり学習を実施することと、
(b)前記入力ネットワークコンポーネントと、前記それぞれの訓練された訓練話者特有適応モデルコンポーネントと、話者適応出力ネットワークとを備えるそれぞれの第2の適応モデルを、第1の訓練データの前記それぞれのセットを使用して訓練するために、前記訓練話者のうちの連続的な訓練話者につき前記話者適応出力ネットワークを修正することによって、前記話者適応出力ネットワークを訓練することと、
(c)前記入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える第3の適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記第2の訓練データを使用することと、
(d)前記入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
〔18〕
出力ネットワークコンポーネントを更に利用し、前記第1の適応モデル及び前記第3の適応モデルが更に前記出力ネットワークコンポーネントを備える、〔17〕に記載の方法。
〔19〕
前記第2の適応モデル及び前記テスト話者特有適応システムが更に、第1の訓練データの前記セットを使用して訓練された汎用適応モデルコンポーネントを備え、前記汎用適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、〔17〕又は〔18〕に記載の方法。
〔20〕
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
(i)前記テスト話者によって話された音声アイテムを備える訓練データと、
(ii)入力ネットワークコンポーネント及び話者適応出力ネットワークと、前記入力ネットワークコンポーネント及び前記話者適応出力ネットワークが訓練話者からの訓練データを使用して訓練された、を利用し、
(a)前記入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記訓練データを使用することと、
(b)前記入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
〔21〕
前記テスト話者特有適応システムが更に、第1の訓練データの前記セットを使用して訓練された汎用適応モデルコンポーネントを備え、前記適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、〔20〕に記載の方法。
〔22〕
前記訓練話者からの前記訓練データを使用して訓練された出力ネットワークコンポーネントを更に利用し、前記適応モデルが更に前記出力ネットワークコンポーネントを備える、〔20〕又は〔21〕に記載の方法。
〔23〕
ステップ(a)の前に、前記訓練データの各要素から、関連する音の対応する第1の推定値を生成するステップを更に含み、前記関連する音の前記第1の推定値がステップ(a)で使用される、〔20〕、〔21〕又は〔22〕に記載の方法。
〔24〕
テスト話者によって話された音声中のサウンドを認識する方法であって、
前記〔1〕−〔24〕のいずれかに記載の方法によってテスト話者特有適応システムを生成することと、
前記テスト話者によって話された音声を符号化した音声データを受け取ることと、
前記音声データをフィルタバンクに渡すことと、
前記フィルタバンクの出力を備えるデータを前記テスト話者特有適応システムに渡すこととを備える方法。
〔25〕
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するためのコンピュータシステムであって、
プロセッサと、
前記プロセッサによって実装されたときに前記〔1〕−〔24〕のいずれかに記載の方法を前記プロセッサに実施させるように動作するプログラム命令を記憶したデータストレージデバイスとを備えるコンピュータシステム。
〔26〕
プロセッサによって実装されたときに〔1〕から〔24〕のいずれかに記載の方法を前記プロセッサに実施させるように動作するプログラム命令を記憶した、コンピュータプログラム可読ストレージ媒体。

Claims (19)

  1. テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
    複数の訓練話者の各々についての、(i)前記それぞれの訓練話者によって話された音声アイテムを特徴付けるデータと(ii)前記音声アイテムに対する音を特徴付けるデータとを備える第1の訓練データのそれぞれのセットと、
    前記テスト話者によって話された音声アイテムを特徴付けるデータを備える第2の訓練データとを利用し、
    (a)(i)入力ネットワークコンポーネントと(ii)適応モデルコンポーネントとを備える第1の適応モデル(BN−DNN)の教師あり学習を実施して、それにより前記入力ネットワークコンポーネントと前記適応モデルコンポーネントとを訓練するために、第1の訓練データの前記セットを使用することと、
    (b)前記訓練話者の各々につき、
    (i)(i)前記訓練された入力ネットワークコンポーネントと(ii)それぞれの訓練話者特有適応モデルコンポーネントとを備えるそれぞれの第2の適応モデルを提供することと、
    (ii)第1の訓練データの前記それぞれのセットを使用して前記それぞれの第2の適応モデルの教師あり学習を実施して、それによりそれぞれの訓練話者特有適応モデルコンポーネント(SDBN−1,SDBN−2,....,SDBN−N)を生み出すために、前記訓練話者特有適応モデルコンポーネントを修正することと、
    (c)第1の訓練データの前記それぞれのセットを使用して、前記訓練された入力ネットワークコンポーネントと、前記それぞれの訓練された訓練話者特有適応モデルコンポーネントと、話者適応出力ネットワークとを備えるそれぞれの第3の適応モデルを訓練するために、各訓練話者につき連続的に前記話者適応出力ネットワークを修正することによって、前記話者適応出力ネットワークを訓練することと、
    (d)前記訓練された入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える第4の適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記第2の訓練データを使用することと、
    (e)前記訓練された入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
  2. 前記第1の適応モデルが更に、ステップ(a)で訓練される出力適応コンポーネントを備え、前記第2の適応モデル及び前記第4の適応モデルが更に、前記訓練された出力適応コンポーネントを備える、請求項1に記載の方法。
  3. 各適応モデルコンポーネントがニューロンの単一層である、請求項1又は請求項2に記載の方法。
  4. 前記入力ネットワークコンポーネントが、複数のニューロンを各々が備える複数の層を備え、各適応モデルコンポーネントが、前記入力ネットワークコンポーネントのどの層よりも少数のニューロンを備える、請求項1又は請求項2又は請求項3に記載の方法。
  5. 前記話者適応出力ネットワークが、複数のニューロンを各々が備える複数の層を備え、各適応モデルコンポーネントが、前記話者適応出力ネットワークのどの層よりも少数のニューロンを備える、請求項1乃至請求項4のいずれか一項に記載の方法。
  6. ステップ(a)、(b)及び(d)で、前記第1の適応モデル及び第2の適応モデルが、モノフォンを示す信号を生み出すように訓練される、請求項1乃至請求項5のいずれか一項に記載の方法。
  7. ステップ(c)で、前記話者適応出力ネットワークが、トライフォンを示す信号を生み出すように訓練される、請求項1乃至請求項6のいずれか一項に記載の方法。
  8. ステップ(d)の前に、前記第2の訓練データの要素から、関連する音の対応する第1の推定値を生成するステップを更に備え、前記関連する音の前記第1の推定値がステップ(d)で使用される、請求項1乃至請求項7のいずれか一項に記載の方法。
  9. 前記関連する音の前記第1の推定値がトライフォンの形であり、前記関連する音の前記第1の推定値の各々をモノフォンに変換することと、前記第2の訓練データがモノフォン間の遷移を呈する時点を特徴付ける整合情報を得ることとを更に備える、請求項6に従属するときの請求項8に記載の方法。
  10. 前記第2の訓練データの各要素から、前記関連する音の対応する第1の推定値を生成する前記ステップが、
    前記訓練話者からの訓練データからトライフォンを生成するために、前記訓練された入力ネットワークコンポーネントと、前記訓練された適応モデルコンポーネントと、話者独立ネットワーク(SI−DNN)とを備える第5の適応モデルを訓練することによって、前記訓練話者からの前記訓練データを連続的に使用して前記話者独立ネットワーク(SI−DNN)を訓練することと、
    テスト対象についての前記第2の訓練データを前記訓練された第5の適応モデルに入力することと、前記訓練された第5の適応ネットワークの出力が、前記関連するトライフォンの前記第1の推定値である、を備える、請求項7に従属するときの請求項8又は9に記載の方法。
  11. 前記第1、第2、第3及び第4の適応モデルの前記入力ネットワークコンポーネントがフィルタバンクの出力を受け取る、請求項1乃至請求項10のいずれか一項に記載の方法。
  12. 更新されたテスト話者特有適応モデルコンポーネントを生成するために交換用第2の訓練データを使用してステップ(d)を少なくとも1回繰り返すことと、
    前記訓練された入力ネットワークコンポーネントと、前記更新されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える更新されたテスト話者特有適応システムを提供することとを更に備える、請求項1乃至請求項11のいずれか一項に記載の方法。
  13. ステップ(a)に続いて、選択された雑音特性を有する複数の前記訓練話者についての雑音特有訓練データを使用して前記入力ネットワークコンポーネントの少なくとも一部を修正するステップがあり、前記修正された入力ネットワークが、ステップ(b)〜(e)で使用される前記入力ネットワークである、請求項1乃至請求項12のいずれか一項に記載の方法。
  14. 前記テスト話者の雑音環境を測定することと、前記テスト話者の前記測定された雑音環境に基づいて選択された雑音特性を有する前記雑音特有訓練データを得ることとを更に備える、請求項13に記載の方法。
  15. 前記入力ネットワークの前記修正される部分が、前記入力ネットワークの最後のニューラル層を備える、請求項13又は請求項14に記載の方法。
  16. 前記第3の適応モデル及び前記テスト話者特有適応システムが更に、前記訓練された適応モデルコンポーネントを備え、前記訓練された適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、請求項1乃至請求項15のいずれか一項に記載の方法。
  17. テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
    (i)複数の訓練話者の各々についての、(1)対応する訓練話者によって話された音声アイテムを特徴付けるデータと(2)前記音声アイテム中のサウンドを特徴付けるデータとを備える第1の訓練データのそれぞれのセットと、
    (ii)前記テスト話者によって話された音声アイテムを特徴付けるデータを備える第2の訓練データと、
    (iii)入力ネットワークコンポーネントとを利用し、
    (a)前記訓練話者の各々につき、
    (i)前記入力ネットワークコンポーネントとそれぞれの訓練話者特有適応モデルコンポーネントとを備えるそれぞれの第1の適応モデルを形成することと、
    (ii)前記それぞれの適応ネットワークコンポーネントを修正して、それにより、訓練された訓練話者特有適応モデルコンポーネントを形成することによって、第1の訓練データの前記それぞれのセットを使用して前記それぞれの第1の適応モデルの教師あり学習を実施することと、
    (b)前記入力ネットワークコンポーネントと、前記それぞれの訓練された訓練話者特有適応モデルコンポーネントと、話者適応出力ネットワークとを備えるそれぞれの第2の適応モデルを、第1の訓練データの前記それぞれのセットを使用して訓練するために、前記訓練話者のうちの連続的な訓練話者につき前記話者適応出力ネットワークを修正することによって、前記話者適応出力ネットワークを訓練することと、
    (c)前記入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える第3の適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記第2の訓練データを使用することと、
    (d)前記入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
  18. 出力ネットワークコンポーネントを更に利用し、前記第1の適応モデル及び前記第3の適応モデルが更に前記出力ネットワークコンポーネントを備える、請求項17に記載の方法。
  19. 前記第2の適応モデル及び前記テスト話者特有適応システムが更に、第1の訓練データの前記セットを使用して訓練された汎用適応モデルコンポーネントを備え、前記汎用適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、請求項17又は請求項18に記載の方法。
JP2017007052A 2016-01-18 2017-01-18 話者適応型の音声認識 Active JP6437581B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
GB1600842.7 2016-01-18
GB1600842.7A GB2546325B (en) 2016-01-18 2016-01-18 Speaker-adaptive speech recognition
GB1700489.6 2017-01-11
GB1700489.6A GB2558629B (en) 2017-01-11 2017-01-11 Speaker-adaptive speech recognition

Publications (2)

Publication Number Publication Date
JP2017134396A JP2017134396A (ja) 2017-08-03
JP6437581B2 true JP6437581B2 (ja) 2018-12-12

Family

ID=59313370

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017007052A Active JP6437581B2 (ja) 2016-01-18 2017-01-18 話者適応型の音声認識

Country Status (2)

Country Link
US (1) US10013973B2 (ja)
JP (1) JP6437581B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107492382B (zh) * 2016-06-13 2020-12-18 阿里巴巴集团控股有限公司 基于神经网络的声纹信息提取方法及装置
US10249314B1 (en) * 2016-07-21 2019-04-02 Oben, Inc. Voice conversion system and method with variance and spectrum compensation
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
CN109256122A (zh) * 2018-09-05 2019-01-22 深圳追科技有限公司 机器学习方法、装置、设备及存储介质
KR20200080681A (ko) 2018-12-27 2020-07-07 삼성전자주식회사 음성 합성 방법 및 장치
US10997967B2 (en) 2019-04-18 2021-05-04 Honeywell International Inc. Methods and systems for cockpit speech recognition acoustic model training with multi-level corpus data augmentation
US11854562B2 (en) * 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
CN110197658B (zh) * 2019-05-30 2021-01-26 百度在线网络技术(北京)有限公司 语音处理方法、装置以及电子设备
CN114303186A (zh) 2019-08-21 2022-04-08 杜比实验室特许公司 用于在语音合成中适配人类说话者嵌入的系统和方法
KR20210030160A (ko) * 2019-09-09 2021-03-17 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN110929610B (zh) * 2019-11-12 2023-05-23 上海五零盛同信息科技有限公司 基于cnn模型和迁移学习的植物病害识别方法及系统
US11039043B1 (en) 2020-01-16 2021-06-15 International Business Machines Corporation Generating synchronized sound from videos

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2733955B2 (ja) 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
US6519561B1 (en) * 1997-11-03 2003-02-11 T-Netix, Inc. Model adaptation of neural tree networks and other fused models for speaker verification
JP5777178B2 (ja) 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US9721561B2 (en) 2013-12-05 2017-08-01 Nuance Communications, Inc. Method and apparatus for speech recognition using neural networks with speaker adaptation
US20160034811A1 (en) 2014-07-31 2016-02-04 Apple Inc. Efficient generation of complementary acoustic models for performing automatic speech recognition system combination
US9324320B1 (en) 2014-10-02 2016-04-26 Microsoft Technology Licensing, Llc Neural network-based speech processing

Also Published As

Publication number Publication date
US20170206892A1 (en) 2017-07-20
US10013973B2 (en) 2018-07-03
JP2017134396A (ja) 2017-08-03

Similar Documents

Publication Publication Date Title
JP6437581B2 (ja) 話者適応型の音声認識
Feng et al. Speech feature denoising and dereverberation via deep autoencoders for noisy reverberant speech recognition
Nakashika et al. Voice conversion in high-order eigen space using deep belief nets.
JP2019514046A (ja) 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法
JP6506074B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム
Fazel et al. Synthasr: Unlocking synthetic data for speech recognition
CN113470662A (zh) 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配
US11823655B2 (en) Synthetic speech processing
Kundu et al. Joint acoustic factor learning for robust deep neural network based automatic speech recognition
WO2013030134A1 (en) Method and apparatus for acoustic source separation
Park et al. Multi-speaker end-to-end speech synthesis
Fan et al. Sequence generation error (SGE) minimization based deep neural networks training for text-to-speech synthesis
Devi et al. A novel approach for speech feature extraction by cubic-log compression in MFCC
US20230260501A1 (en) Synthetic speech processing
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
CN109155128B (zh) 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
GB2546325B (en) Speaker-adaptive speech recognition
Sustika et al. On comparison of deep learning architectures for distant speech recognition
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
GB2558629B (en) Speaker-adaptive speech recognition
Dong et al. Mapping frames with DNN-HMM recognizer for non-parallel voice conversion
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
Hosaka et al. Voice Conversion Based on Trajectory Model Training of Neural Networks Considering Global Variance.
WO2022034630A1 (ja) 音声処理装置、音声処理方法、記録媒体、および音声認証システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180206

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181114

R151 Written notification of patent or utility model registration

Ref document number: 6437581

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151