JP6437581B2 - 話者適応型の音声認識 - Google Patents
話者適応型の音声認識 Download PDFInfo
- Publication number
- JP6437581B2 JP6437581B2 JP2017007052A JP2017007052A JP6437581B2 JP 6437581 B2 JP6437581 B2 JP 6437581B2 JP 2017007052 A JP2017007052 A JP 2017007052A JP 2017007052 A JP2017007052 A JP 2017007052A JP 6437581 B2 JP6437581 B2 JP 6437581B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- training
- adaptation
- component
- trained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/022—Demisyllables, biphones or triphones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Description
本出願は、2016年1月18日に出願された英国特許出願第1600842.7号、及び2017年1月11日に出願された英国特許出願第1700489.6号に基づくものであり、これらの出願からの優先権の利益を主張する。これらの全ての出願の全内容は、参照により本明細書に組み込まれる。
A.方法100
1.ボトルネックDNNの訓練(図1のステップ1)
図1の方法の第1のステップ(ステップ1)は、図3に例証されるような適応システム20を使用して実施される。適応システム20は、コンピュータシステム1中に仮想的にのみ存在する。適応システム20は、生サウンドデータ17を受け取って処理するために、フィルタバンク(FBANK)16の出力を受ける。後で言及されるように、ステップ1が遂行されるのに伴って、生サウンドデータ17は、データベースセクション151,152,...,15Nの第1の部分中の生サウンドデータから連続的に引き出される。任意の瞬間で、FBANK16に入力される生サウンドデータは、フレームの1つである。
2.テスト話者を認識するための、話者独立(SI)DNNの訓練(図1のステップ2)
ステップ2で、訓練された入力ネットワークコンポーネント18及び訓練された汎用ボトルネック層19は、図4に示される2段階適応ネットワーク25の第1の段階として使用される。図3におけるのと同じ意味を有するコンポーネントには、同じ参照番号が付されている。適応ネットワークは、FBANK16の出力を受け取る訓練された入力ネットワークコンポーネント18と、訓練された汎用ボトルネック層19とを備える。適応ネットワークは更に、3つの層22a、22b、22cを備えた「段階2」DNN22も備える。各層は2048個のニューロンを含むことができ、各ニューロンは、その入力の加重合計に応じてそれぞれの出力を形成する。第2の層22bの各ニューロンは、第1の層22a中のニューロンの出力を受け、第3の層22cの各ニューロンは、第2の層22c中のニューロンの出力を受ける。本発明の例の異形では、段階2DNN22中の層の数及び1層当たりのニューロンの数は、異なってもよいことに留意されたい。
3.話者適応DNNモデルの形成(図1のステップ3及び4)
ステップ3で、N人の訓練話者の各々につき、それぞれの適応システムが形成される。図5に、i番目の訓練話者についての適応ネットワーク30iが示されている。適応ネットワーク30iは、FBANK16の出力を受け、ステップ1で生成された訓練された入力ネットワークコンポーネント18及び訓練された出力ネットワークコンポーネント21を備えるが、更に、適応ネットワーク30iごとに異なるボトルネック層19iも備える。任意選択で、ボトルネック層19iは、最初は、ステップ1で生成された訓練された汎用ボトルネック層19と等しくてもよい。
4.テスト話者に対する自動音声認識(図1のステップ5〜9)
次に、テスト話者からの音声がどのように認識されるかに目を向ける。このステップは通常、ステップ1〜4の後、テスト話者からの訓練データが利用可能になったときに実施される。このステップは、ステップ1で生成された訓練された入力ネットワークコンポーネント18及び訓練された出力ネットワークコンポーネント21と、ステップ2で生成された適応ネットワーク(SI−DNN)25と、ステップ4で生成された段階2DNNとを利用する。テスト話者2からの音声が、マイクロフォン13によって取り込まれ、データベース14に記憶される。ステップ5〜9は通常、ステップ1〜4の後、テスト話者からの音声が利用可能になったときに遂行される。これは、図1で破線によって示される。しかし、本発明の幾つかの例では、ステップ5〜7は、ステップ3及び4の前に、又は同時に遂行されてもよい。
B 方法200
図9に、本発明の更に他の例である方法200が例証されている。図9は、3つの追加ステップ1a、1b及び1cが実施されるという点で、図1と異なる。図1に例証されるように、これらはステップ1の後で実施されるが、ステップ1a及び1bは、別法としてステップ1の前に実施されてもよく、実際、後で論じられるように、ステップ1aは省略されてもよい。
C 訓練話者適応DNN中での汎用ボトルネック層の使用
第1の異形との組合せで使用され得る、方法100の第2の可能な異形は、ステップ3で生成された訓練話者特有ボトルネック層19iだけでなく、ステップ1で生成された汎用ボトルネック層19も使用して、段階2DNN32を生成するステップ4を実施するものである。図6の適応ネットワーク35は、この場合、図11に例証される適応ネットワーク35’で置き換えられ、図11では、結果的な段階2DNNは、32’としてラベル付けされている。段階2DNN32’は、例えば、3つの層32a’、32b’及び32c’で構成されてよい。
D 結果
1.方法100
以下の表1は、幾つかの従来のニューラルネットワークアルゴリズムと比較した、図1に例証される監視なし適応モードを使用したときの前述の方法100の性能を示す。上で言及されたように、ステップ7でボトルネック層45の重みを更新するための訓練データを生成するために、第1パスASR(エラーを含む)トランスクリプション(ステップ5で実施される)が使用される。ステップ8で、トライフォンを認識するためにテスト話者特有ネットワークが形成され、既知のアルゴリズムを使用してトライフォンが単語に変換される。
2.さらなる他の実験結果
2.1 コーパス記述
方法200(上記のセクションB)及び訓練話者適応DNN中での訓練された汎用ボトルネック層の使用(上記のセクションC)に関係する更に他の実験結果が、以下に提供される。これらの実験結果は、Aurora4及びCHIME3データベースを使用する(CHIME3データベースは、J.Barker、R.Marxer、E.Vincent、及びS.Watanabe、「The third ‘chime’speech separation and recognition challenge:Dataset,task and baselines」、IEEE Automatic Speech Recognition and Understanding Workshop(ASRU 2015)、2015年12月でも使用された)。Aurora4コーパスとCHIME3コーパスは両方とも、WSJ0コーパス(J.Garofalo、D.Graff、D.Paul、及びD.Pallett、「CSR−I(WSJ0)Complete、LDC93S6A.DVD.Philadelphia:Linguistic Data Consortium,1993」)から導出される。
2.2.音響モデル化
前に言及されたように、本方法のステップ1は、図3の適応モデル(BN−DNN)20を使用して実施される。入力ネットワークコンポーネント18は、3つの隠れ層を有する。出力層21は、モノフォンをターゲットとする1つの隠れ層を有する。各隠れ層は、512個のノードからなり、シグモイド活性化を使用する。ボトルネック層19は、ステップ3でボトルネック層19iが有するように、75個のノードを有する。BN−DNNは、40次元を有するメルフィルタバンク(FBANK)特徴を使用して訓練され、これらは、11個のフレームにわたってスプライスされて、サイズ440の入力ベクトルを形成する。BN−DNNを訓練するのに、交差エントロピー訓練基準が使用される。
2.3 実験及びベースライン結果
実験は、Aurora4及びCHIME3コーパスに対して訓練されたモデルを使用して、Aurora4タスクに対する(即ちAurora4データをテストデータとする)認識を実施すること(即ち実験のテスト局面)を含む。これらの実験は、整合した雑音条件及び不整合した雑音条件で訓練されたモデルを使用したときにASR性能がどのように変化するかを我々が理解する助けになる。両方の場合に、マルチコンディション訓練が利用される。我々は話者適応と雑音適応の両方を実施しようとするので、不整合したシナリオを有することは、提案される適応方法の有効性をよりよく評価する助けになると我々は考える。実験の他方のセットは、CHIME3テストセットを評価することを含み、これは、模擬(SN)及び現実の(RN)雑音テストセットを含む。我々はまた、WSJ0コーパスを用いて提供されたクリーンなセットに関する結果も報告する。Aurora4について報告される結果は、14個のテストセット全ての平均%WER(単語エラー率)である。同様に、模擬雑音(SN)条件及び現実の雑音(RN)条件の場合のCHIMEテストセットに関して報告される結果は、4つの雑音条件の平均である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
〔1〕
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
複数の訓練話者の各々についての、(i)前記それぞれの訓練話者によって話された音声アイテムを特徴付けるデータと(ii)前記音声アイテムに対する音を特徴付けるデータとを備える第1の訓練データのそれぞれのセットと、
前記テスト話者によって話された音声アイテムを特徴付けるデータを備える第2の訓練データとを利用し、
(a)(i)入力ネットワークコンポーネントと(ii)適応モデルコンポーネントとを備える第1の適応モデル(BN−DNN)の教師あり学習を実施して、それにより前記入力コンポーネントと前記適応モデルコンポーネントとを訓練するために、第1の訓練データの前記セットを使用することと、
(b)前記訓練話者の各々につき、
(i)(i)前記訓練された入力ネットワークコンポーネントと(ii)それぞれの訓練話者特有適応モデルコンポーネントとを備えるそれぞれの第2の適応モデルを提供することと、
(ii)第1の訓練データの前記それぞれのセットを使用して前記それぞれの第2の適応モデルの教師あり学習を実施して、それによりそれぞれの訓練話者特有適応モデルコンポーネント(SDBN−1,SDBN−2,....,SDBN−N)を生み出すために、前記訓練話者特有適応モデルコンポーネントを修正することと、
(c)第1の訓練データの前記それぞれのセットを使用して、前記訓練された入力ネットワークコンポーネントと、前記それぞれの訓練された訓練話者特有適応モデルコンポーネントと、話者適応出力ネットワークとを備えるそれぞれの第3の適応モデルを訓練するために、各訓練話者につき連続的に前記話者適応出力ネットワークを修正することによって、前記話者適応出力ネットワークを訓練することと、
(d)前記訓練された入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える第4の適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記第2の訓練データを使用することと、
(e)前記訓練された入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
〔2〕
前記第1の適応ネットワークが更に、ステップ(a)で訓練される出力適応コンポーネントを備え、前記第2の適応モデル及び前記第4の適応モデルが更に、前記訓練された出力適応コンポーネントを備える、〔1〕に記載の方法。
〔3〕
各適応モデルコンポーネントがニューロンの単一層である、〔1〕又は〔2〕に記載の方法。
〔4〕
前記入力ネットワークコンポーネントが、複数のニューロンを各々が備える複数の層を備え、各適応モデルコンポーネントが、前記入力ネットワークコンポーネントのどの層よりも少数のニューロンを備える、〔1〕又は〔2〕又は〔3〕に記載の方法。
〔5〕
前記話者適応出力ネットワークが、複数のニューロンを各々が備える複数の層を備え、各適応モデルコンポーネントが、前記話者適応出力ネットワークのどの層よりも少数のニューロンを備える、前記〔1〕−〔4〕のいずれかに記載の方法。
〔6〕
ステップ(a)、(b)及び(d)で、前記第1及び第2の適応ネットワークが、モノフォンを示す信号を生み出すように訓練される、前記〔1〕−〔5〕のいずれかに記載の方法。
〔7〕
ステップ(c)で、前記話者適応DNNが、トライフォンを示す信号を生み出すように訓練される、前記〔1〕−〔6〕のいずれかに記載の方法。
〔8〕
ステップ(d)の前に、前記第2の訓練データの要素から、関連する音の対応する第1の推定値を生成するステップを更に備え、前記関連する音の前記第1の推定値がステップ(d)で使用される、前記〔1〕−〔7〕のいずれかに記載の方法。
〔9〕
前記関連する音の前記第1の推定値がトライフォンの形であり、前記関連する音の前記第1の推定値の各々をモノフォンに変換することと、前記第2の訓練データがモノフォン間の遷移を呈する時点を特徴付ける整合情報を得ることとを更に備える、〔6〕に従属するときの〔8〕に記載の方法。
〔10〕
前記第2の訓練データの各要素から、前記関連する音の対応する第1の推定値を生成する前記ステップが、
前記訓練話者からの訓練データからトライフォンを生成するために、前記訓練された入力ネットワークコンポーネントと、前記訓練された適応モデルコンポーネントと、話者独立ネットワーク(SI−DNN)とを備える第5の適応モデルを訓練することによって、前記訓練話者からの前記訓練データを連続的に使用して前記話者独立ネットワーク(SI−DNN)を訓練することと、
前記テスト対象についての前記第2の訓練データを前記訓練された第5の適応モデルに入力することと、前記訓練された第5の適応ネットワークの出力が、前記関連するトライフォンの前記第1の推定値である、を備える、〔7〕に従属するときの〔8〕又は〔9〕に記載の方法。
〔11〕
前記第1、第2、第3及び第4の適応モデルの前記入力ネットワークコンポーネントがフィルタバンクの出力を受け取る、前記〔1〕−〔10〕のいずれかに記載の方法。
〔12〕
更新されたテスト話者特有適応モデルコンポーネントを生成するために交換用第2の訓練データを使用してステップ(d)を少なくとも1回繰り返すことと、
前記訓練された入力ネットワークコンポーネントと、前記更新されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える更新されたテスト話者特有適応システムを提供することとを更に備える、前記〔1〕−〔11〕のいずれかに記載の方法。
〔13〕
ステップ(a)に続いて、選択された雑音特性を有する複数の前記訓練話者についての雑音特有訓練データを使用して前記入力ネットワークコンポーネントの少なくとも一部を修正するステップがあり、前記修正された入力ネットワークが、ステップ(b)〜(e)で使用される前記入力ネットワークである、前記〔1〕−〔12〕のいずれかに記載の方法。
〔14〕
前記テスト話者の雑音環境を測定することと、前記テスト話者の前記測定された雑音環境に基づいて選択された雑音特性を有する前記雑音特有訓練データを得ることとを更に備える、〔13〕に記載の方法。
〔15〕
前記入力ネットワークの前記修正される部分が、前記入力ネットワークの最後のニューラル層を備える、〔13〕又は〔14〕に記載の方法。
〔16〕
前記第3の適応モデル及び前記テスト話者特有適応システムが更に、前記訓練された適応モデルコンポーネントを備え、前記訓練された適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、前記〔1〕−〔15〕のいずれかに記載の方法。
〔17〕
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
(i)複数の訓練話者の各々についての、(1)対応する訓練話者によって話された音声アイテムを特徴付けるデータと(2)前記音声アイテム中のサウンドを特徴付けるデータとを備える第1の訓練データのそれぞれのセットと、
(ii)前記テスト話者によって話された音声アイテムを特徴付けるデータを備える第2の訓練データと、
(iii)入力ネットワークコンポーネントとを利用し、
(a)前記訓練話者の各々につき、
(i)前記入力ネットワークコンポーネントとそれぞれの訓練話者特有適応モデルコンポーネントとを備えるそれぞれの第1の適応モデルを形成することと、
(ii)前記それぞれの適応ネットワークコンポーネントを修正して、それにより、訓練された訓練話者特有適応モデルコンポーネントを形成することによって、第1の訓練データの前記それぞれのセットを使用して前記第1のそれぞれの適応モデルの教師あり学習を実施することと、
(b)前記入力ネットワークコンポーネントと、前記それぞれの訓練された訓練話者特有適応モデルコンポーネントと、話者適応出力ネットワークとを備えるそれぞれの第2の適応モデルを、第1の訓練データの前記それぞれのセットを使用して訓練するために、前記訓練話者のうちの連続的な訓練話者につき前記話者適応出力ネットワークを修正することによって、前記話者適応出力ネットワークを訓練することと、
(c)前記入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える第3の適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記第2の訓練データを使用することと、
(d)前記入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
〔18〕
出力ネットワークコンポーネントを更に利用し、前記第1の適応モデル及び前記第3の適応モデルが更に前記出力ネットワークコンポーネントを備える、〔17〕に記載の方法。
〔19〕
前記第2の適応モデル及び前記テスト話者特有適応システムが更に、第1の訓練データの前記セットを使用して訓練された汎用適応モデルコンポーネントを備え、前記汎用適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、〔17〕又は〔18〕に記載の方法。
〔20〕
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
(i)前記テスト話者によって話された音声アイテムを備える訓練データと、
(ii)入力ネットワークコンポーネント及び話者適応出力ネットワークと、前記入力ネットワークコンポーネント及び前記話者適応出力ネットワークが訓練話者からの訓練データを使用して訓練された、を利用し、
(a)前記入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記訓練データを使用することと、
(b)前記入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。
〔21〕
前記テスト話者特有適応システムが更に、第1の訓練データの前記セットを使用して訓練された汎用適応モデルコンポーネントを備え、前記適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、〔20〕に記載の方法。
〔22〕
前記訓練話者からの前記訓練データを使用して訓練された出力ネットワークコンポーネントを更に利用し、前記適応モデルが更に前記出力ネットワークコンポーネントを備える、〔20〕又は〔21〕に記載の方法。
〔23〕
ステップ(a)の前に、前記訓練データの各要素から、関連する音の対応する第1の推定値を生成するステップを更に含み、前記関連する音の前記第1の推定値がステップ(a)で使用される、〔20〕、〔21〕又は〔22〕に記載の方法。
〔24〕
テスト話者によって話された音声中のサウンドを認識する方法であって、
前記〔1〕−〔24〕のいずれかに記載の方法によってテスト話者特有適応システムを生成することと、
前記テスト話者によって話された音声を符号化した音声データを受け取ることと、
前記音声データをフィルタバンクに渡すことと、
前記フィルタバンクの出力を備えるデータを前記テスト話者特有適応システムに渡すこととを備える方法。
〔25〕
テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するためのコンピュータシステムであって、
プロセッサと、
前記プロセッサによって実装されたときに前記〔1〕−〔24〕のいずれかに記載の方法を前記プロセッサに実施させるように動作するプログラム命令を記憶したデータストレージデバイスとを備えるコンピュータシステム。
〔26〕
プロセッサによって実装されたときに〔1〕から〔24〕のいずれかに記載の方法を前記プロセッサに実施させるように動作するプログラム命令を記憶した、コンピュータプログラム可読ストレージ媒体。
Claims (19)
- テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
複数の訓練話者の各々についての、(i)前記それぞれの訓練話者によって話された音声アイテムを特徴付けるデータと(ii)前記音声アイテムに対する音を特徴付けるデータとを備える第1の訓練データのそれぞれのセットと、
前記テスト話者によって話された音声アイテムを特徴付けるデータを備える第2の訓練データとを利用し、
(a)(i)入力ネットワークコンポーネントと(ii)適応モデルコンポーネントとを備える第1の適応モデル(BN−DNN)の教師あり学習を実施して、それにより前記入力ネットワークコンポーネントと前記適応モデルコンポーネントとを訓練するために、第1の訓練データの前記セットを使用することと、
(b)前記訓練話者の各々につき、
(i)(i)前記訓練された入力ネットワークコンポーネントと(ii)それぞれの訓練話者特有適応モデルコンポーネントとを備えるそれぞれの第2の適応モデルを提供することと、
(ii)第1の訓練データの前記それぞれのセットを使用して前記それぞれの第2の適応モデルの教師あり学習を実施して、それによりそれぞれの訓練話者特有適応モデルコンポーネント(SDBN−1,SDBN−2,....,SDBN−N)を生み出すために、前記訓練話者特有適応モデルコンポーネントを修正することと、
(c)第1の訓練データの前記それぞれのセットを使用して、前記訓練された入力ネットワークコンポーネントと、前記それぞれの訓練された訓練話者特有適応モデルコンポーネントと、話者適応出力ネットワークとを備えるそれぞれの第3の適応モデルを訓練するために、各訓練話者につき連続的に前記話者適応出力ネットワークを修正することによって、前記話者適応出力ネットワークを訓練することと、
(d)前記訓練された入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える第4の適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記第2の訓練データを使用することと、
(e)前記訓練された入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。 - 前記第1の適応モデルが更に、ステップ(a)で訓練される出力適応コンポーネントを備え、前記第2の適応モデル及び前記第4の適応モデルが更に、前記訓練された出力適応コンポーネントを備える、請求項1に記載の方法。
- 各適応モデルコンポーネントがニューロンの単一層である、請求項1又は請求項2に記載の方法。
- 前記入力ネットワークコンポーネントが、複数のニューロンを各々が備える複数の層を備え、各適応モデルコンポーネントが、前記入力ネットワークコンポーネントのどの層よりも少数のニューロンを備える、請求項1又は請求項2又は請求項3に記載の方法。
- 前記話者適応出力ネットワークが、複数のニューロンを各々が備える複数の層を備え、各適応モデルコンポーネントが、前記話者適応出力ネットワークのどの層よりも少数のニューロンを備える、請求項1乃至請求項4のいずれか一項に記載の方法。
- ステップ(a)、(b)及び(d)で、前記第1の適応モデル及び第2の適応モデルが、モノフォンを示す信号を生み出すように訓練される、請求項1乃至請求項5のいずれか一項に記載の方法。
- ステップ(c)で、前記話者適応出力ネットワークが、トライフォンを示す信号を生み出すように訓練される、請求項1乃至請求項6のいずれか一項に記載の方法。
- ステップ(d)の前に、前記第2の訓練データの要素から、関連する音の対応する第1の推定値を生成するステップを更に備え、前記関連する音の前記第1の推定値がステップ(d)で使用される、請求項1乃至請求項7のいずれか一項に記載の方法。
- 前記関連する音の前記第1の推定値がトライフォンの形であり、前記関連する音の前記第1の推定値の各々をモノフォンに変換することと、前記第2の訓練データがモノフォン間の遷移を呈する時点を特徴付ける整合情報を得ることとを更に備える、請求項6に従属するときの請求項8に記載の方法。
- 前記第2の訓練データの各要素から、前記関連する音の対応する第1の推定値を生成する前記ステップが、
前記訓練話者からの訓練データからトライフォンを生成するために、前記訓練された入力ネットワークコンポーネントと、前記訓練された適応モデルコンポーネントと、話者独立ネットワーク(SI−DNN)とを備える第5の適応モデルを訓練することによって、前記訓練話者からの前記訓練データを連続的に使用して前記話者独立ネットワーク(SI−DNN)を訓練することと、
テスト対象についての前記第2の訓練データを前記訓練された第5の適応モデルに入力することと、前記訓練された第5の適応ネットワークの出力が、前記関連するトライフォンの前記第1の推定値である、を備える、請求項7に従属するときの請求項8又は9に記載の方法。 - 前記第1、第2、第3及び第4の適応モデルの前記入力ネットワークコンポーネントがフィルタバンクの出力を受け取る、請求項1乃至請求項10のいずれか一項に記載の方法。
- 更新されたテスト話者特有適応モデルコンポーネントを生成するために交換用第2の訓練データを使用してステップ(d)を少なくとも1回繰り返すことと、
前記訓練された入力ネットワークコンポーネントと、前記更新されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える更新されたテスト話者特有適応システムを提供することとを更に備える、請求項1乃至請求項11のいずれか一項に記載の方法。 - ステップ(a)に続いて、選択された雑音特性を有する複数の前記訓練話者についての雑音特有訓練データを使用して前記入力ネットワークコンポーネントの少なくとも一部を修正するステップがあり、前記修正された入力ネットワークが、ステップ(b)〜(e)で使用される前記入力ネットワークである、請求項1乃至請求項12のいずれか一項に記載の方法。
- 前記テスト話者の雑音環境を測定することと、前記テスト話者の前記測定された雑音環境に基づいて選択された雑音特性を有する前記雑音特有訓練データを得ることとを更に備える、請求項13に記載の方法。
- 前記入力ネットワークの前記修正される部分が、前記入力ネットワークの最後のニューラル層を備える、請求項13又は請求項14に記載の方法。
- 前記第3の適応モデル及び前記テスト話者特有適応システムが更に、前記訓練された適応モデルコンポーネントを備え、前記訓練された適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、請求項1乃至請求項15のいずれか一項に記載の方法。
- テスト話者によって話された音声中のサウンドを認識するためのテスト話者特有適応システムを生成するための方法であって、
(i)複数の訓練話者の各々についての、(1)対応する訓練話者によって話された音声アイテムを特徴付けるデータと(2)前記音声アイテム中のサウンドを特徴付けるデータとを備える第1の訓練データのそれぞれのセットと、
(ii)前記テスト話者によって話された音声アイテムを特徴付けるデータを備える第2の訓練データと、
(iii)入力ネットワークコンポーネントとを利用し、
(a)前記訓練話者の各々につき、
(i)前記入力ネットワークコンポーネントとそれぞれの訓練話者特有適応モデルコンポーネントとを備えるそれぞれの第1の適応モデルを形成することと、
(ii)前記それぞれの適応ネットワークコンポーネントを修正して、それにより、訓練された訓練話者特有適応モデルコンポーネントを形成することによって、第1の訓練データの前記それぞれのセットを使用して前記それぞれの第1の適応モデルの教師あり学習を実施することと、
(b)前記入力ネットワークコンポーネントと、前記それぞれの訓練された訓練話者特有適応モデルコンポーネントと、話者適応出力ネットワークとを備えるそれぞれの第2の適応モデルを、第1の訓練データの前記それぞれのセットを使用して訓練するために、前記訓練話者のうちの連続的な訓練話者につき前記話者適応出力ネットワークを修正することによって、前記話者適応出力ネットワークを訓練することと、
(c)前記入力ネットワークコンポーネントとテスト話者特有適応モデルコンポーネントとを備える第3の適応モデルの、前記テスト話者特有適応モデルコンポーネントを訓練するために、前記第2の訓練データを使用することと、
(d)前記入力ネットワークコンポーネントと、前記訓練されたテスト話者特有適応モデルコンポーネントと、前記訓練された話者適応出力ネットワークとを備える前記テスト話者特有適応システムを提供することとを備える方法。 - 出力ネットワークコンポーネントを更に利用し、前記第1の適応モデル及び前記第3の適応モデルが更に前記出力ネットワークコンポーネントを備える、請求項17に記載の方法。
- 前記第2の適応モデル及び前記テスト話者特有適応システムが更に、第1の訓練データの前記セットを使用して訓練された汎用適応モデルコンポーネントを備え、前記汎用適応モデルコンポーネントが、前記入力ネットワークコンポーネントの出力を受け、前記話者適応出力ネットワークに出力を送信するように構成された、請求項17又は請求項18に記載の方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1600842.7 | 2016-01-18 | ||
GB1600842.7A GB2546325B (en) | 2016-01-18 | 2016-01-18 | Speaker-adaptive speech recognition |
GB1700489.6 | 2017-01-11 | ||
GB1700489.6A GB2558629B (en) | 2017-01-11 | 2017-01-11 | Speaker-adaptive speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017134396A JP2017134396A (ja) | 2017-08-03 |
JP6437581B2 true JP6437581B2 (ja) | 2018-12-12 |
Family
ID=59313370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017007052A Active JP6437581B2 (ja) | 2016-01-18 | 2017-01-18 | 話者適応型の音声認識 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10013973B2 (ja) |
JP (1) | JP6437581B2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107492382B (zh) * | 2016-06-13 | 2020-12-18 | 阿里巴巴集团控股有限公司 | 基于神经网络的声纹信息提取方法及装置 |
US10249314B1 (en) * | 2016-07-21 | 2019-04-02 | Oben, Inc. | Voice conversion system and method with variance and spectrum compensation |
KR102637339B1 (ko) * | 2018-08-31 | 2024-02-16 | 삼성전자주식회사 | 음성 인식 모델을 개인화하는 방법 및 장치 |
CN109256122A (zh) * | 2018-09-05 | 2019-01-22 | 深圳追科技有限公司 | 机器学习方法、装置、设备及存储介质 |
KR20200080681A (ko) | 2018-12-27 | 2020-07-07 | 삼성전자주식회사 | 음성 합성 방법 및 장치 |
US10997967B2 (en) | 2019-04-18 | 2021-05-04 | Honeywell International Inc. | Methods and systems for cockpit speech recognition acoustic model training with multi-level corpus data augmentation |
US11854562B2 (en) * | 2019-05-14 | 2023-12-26 | International Business Machines Corporation | High-quality non-parallel many-to-many voice conversion |
CN110197658B (zh) * | 2019-05-30 | 2021-01-26 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置以及电子设备 |
CN114303186A (zh) | 2019-08-21 | 2022-04-08 | 杜比实验室特许公司 | 用于在语音合成中适配人类说话者嵌入的系统和方法 |
KR20210030160A (ko) * | 2019-09-09 | 2021-03-17 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
CN110929610B (zh) * | 2019-11-12 | 2023-05-23 | 上海五零盛同信息科技有限公司 | 基于cnn模型和迁移学习的植物病害识别方法及系统 |
US11039043B1 (en) | 2020-01-16 | 2021-06-15 | International Business Machines Corporation | Generating synchronized sound from videos |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2733955B2 (ja) | 1988-05-18 | 1998-03-30 | 日本電気株式会社 | 適応型音声認識装置 |
US6519561B1 (en) * | 1997-11-03 | 2003-02-11 | T-Netix, Inc. | Model adaptation of neural tree networks and other fused models for speaker verification |
JP5777178B2 (ja) | 2013-11-27 | 2015-09-09 | 国立研究開発法人情報通信研究機構 | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム |
US9721561B2 (en) | 2013-12-05 | 2017-08-01 | Nuance Communications, Inc. | Method and apparatus for speech recognition using neural networks with speaker adaptation |
US20160034811A1 (en) | 2014-07-31 | 2016-02-04 | Apple Inc. | Efficient generation of complementary acoustic models for performing automatic speech recognition system combination |
US9324320B1 (en) | 2014-10-02 | 2016-04-26 | Microsoft Technology Licensing, Llc | Neural network-based speech processing |
-
2017
- 2017-01-17 US US15/407,663 patent/US10013973B2/en active Active
- 2017-01-18 JP JP2017007052A patent/JP6437581B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20170206892A1 (en) | 2017-07-20 |
US10013973B2 (en) | 2018-07-03 |
JP2017134396A (ja) | 2017-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6437581B2 (ja) | 話者適応型の音声認識 | |
Feng et al. | Speech feature denoising and dereverberation via deep autoencoders for noisy reverberant speech recognition | |
Nakashika et al. | Voice conversion in high-order eigen space using deep belief nets. | |
JP2019514046A (ja) | 雑音の多い未知のチャネル条件における音声認識のためのシステムおよび方法 | |
JP6506074B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム | |
Fazel et al. | Synthasr: Unlocking synthetic data for speech recognition | |
CN113470662A (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
US11823655B2 (en) | Synthetic speech processing | |
Kundu et al. | Joint acoustic factor learning for robust deep neural network based automatic speech recognition | |
WO2013030134A1 (en) | Method and apparatus for acoustic source separation | |
Park et al. | Multi-speaker end-to-end speech synthesis | |
Fan et al. | Sequence generation error (SGE) minimization based deep neural networks training for text-to-speech synthesis | |
Devi et al. | A novel approach for speech feature extraction by cubic-log compression in MFCC | |
US20230260501A1 (en) | Synthetic speech processing | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
GB2546325B (en) | Speaker-adaptive speech recognition | |
Sustika et al. | On comparison of deep learning architectures for distant speech recognition | |
Fauziya et al. | A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling | |
JP4964194B2 (ja) | 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体 | |
GB2558629B (en) | Speaker-adaptive speech recognition | |
Dong et al. | Mapping frames with DNN-HMM recognizer for non-parallel voice conversion | |
JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
Hosaka et al. | Voice Conversion Based on Trajectory Model Training of Neural Networks Considering Global Variance. | |
WO2022034630A1 (ja) | 音声処理装置、音声処理方法、記録媒体、および音声認証システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180206 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180403 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181114 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6437581 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |