JP2020170200A - エンドツーエンドのテキスト音声変換 - Google Patents

エンドツーエンドのテキスト音声変換 Download PDF

Info

Publication number
JP2020170200A
JP2020170200A JP2020120478A JP2020120478A JP2020170200A JP 2020170200 A JP2020170200 A JP 2020170200A JP 2020120478 A JP2020120478 A JP 2020120478A JP 2020120478 A JP2020120478 A JP 2020120478A JP 2020170200 A JP2020170200 A JP 2020170200A
Authority
JP
Japan
Prior art keywords
sequence
neural network
input
spectrogram
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020120478A
Other languages
English (en)
Other versions
JP7009564B2 (ja
Inventor
サミュエル・ベンジオ
bengio Samuel
ユシュアン・ワン
Yuxuan Wang
ゾンヘン・ヤン
Zongheng Yang
ジフェン・チェン
Zhifeng Chen
ヨンフイ・ウ
Yonghui Wu
イオアニス・アギオミルギアナキス
Agiomyrgiannakis Ioannis
ロン・ジェイ・ウェイス
J Weiss Ron
ナヴディープ・ジェイトリー
Jaitly Navdeep
ライアン・エム・リフキン
M Rifkin Ryan
ロバート・アンドリュー・ジェームズ・クラーク
Andrew James Clark Robert
クォク・ヴィー・レ
V Le Quoc
ラッセル・ジェイ・ライアン
J Ryan Russell
イン・シャオ
Ying Xiao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2020170200A publication Critical patent/JP2020170200A/ja
Priority to JP2022002290A priority Critical patent/JP2022058554A/ja
Application granted granted Critical
Publication of JP7009564B2 publication Critical patent/JP7009564B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】テキストから音声を生成するための、コンピュータ記憶媒体上に符号化されたコンピュータプログラムを含む、方法、システム、および装置を提供する。【解決手段】システムの1つが、1つまたは複数のコンピュータと、命令を記憶する1つまたは複数のストレージデバイスとを含み、この命令は、1つまたは複数のコンピュータによって実行されると、1つまたは複数のコンピュータに、特定の自然言語の文字のシーケンスを受け取ることと、特定の自然言語の文字のシーケンスの口頭発話のスペクトログラムを生成するために文字のシーケンスを処理することとを行うように構成されたシーケンスツーシーケンスリカレントニューラルネットワークと、特定の自然言語の文字のシーケンスを受け取ることと、特定の自然言語の文字のシーケンスの口頭発話のスペクトログラムを出力として取得するためにシーケンスツーシーケンスリカレントニューラルネットワークに入力として文字のシーケンスを提供することとを行うように構成されたサブシステムとを実装させる。【選択図】図1

Description

関連出願の相互参照
本出願は、2017年3月29日に出願されたギリシャ特許出願第20170100126号の非仮出願であり、これに基づく優先権を主張し、その内容全体が参照により本明細書に組み込まれる。
本明細書は、ニューラルネットワークを使用して、テキストを音声に変換することに関する。
ニューラルネットワークは、受け取った入力に対する出力を予測するために非線形ユニットの1つまたは複数の層を用いる機械学習モデルである。いくつかのニューラルネットワークは、出力層に加えて1つまたは複数の隠れ層を含む。各隠れ層の出力は、ネットワークの次の層、すなわち次の隠れ層または出力層への入力として使用される。ネットワークの各層が、パラメータのそれぞれのセットの現在の値に従って、受け取った入力から出力を生成する。
いくつかのニューラルネットワークは、リカレントニューラルネットワークである。リカレントニューラルネットワークは、入力シーケンスを受け取り、入力シーケンスから出力シーケンスを生成するニューラルネットワークである。詳細には、リカレントニューラルネットワークは、現在の時間ステップで出力を計算する際に、前の時間ステップからネットワークの内部状態の一部または全部を使用することができる。リカレントニューラルネットワークの一例は、長短期記憶(LSTM)ニューラルネットワークであり、LSTMニューラルネットワークは1つまたは複数のLSTMメモリブロックを含む。各LSTMメモリブロックは、1つまたは複数のセルを含むことができ、セルは各々が、入力ゲートと、忘却ゲートと、出力ゲートとを含み、これらはたとえば現在の活性化を生成する際に使用するために、またはLSTMニューラルネットワークの他の構成要素に提供されるように、セルについての前の状態をセルが記憶することを可能にする。
S. IoffeおよびC. Szegedy、「Batch normalization: Accelerating deep network training by reducing internal covariate shift」、arXiv preprint arXiv:1502.03167、2015
本明細書は、1つまたは複数の位置の1つまたは複数のコンピュータ上にコンピュータプログラムとして実装される、テキストを音声に変換するシステムについて説明する。
一般に、1つの発明的態様が、1つまたは複数のコンピュータと、命令を記憶する1つまたは複数のストレージデバイスとを含むシステムにおいて具現化されてよく、この命令は、1つまたは複数のコンピュータによって実行されると、1つまたは複数のコンピュータに、特定の自然言語の文字のシーケンスを受け取ることと、特定の自然言語の文字のシーケンスの口頭発話(verbal utterance)のスペクトログラムを生成するために文字のシーケンスを処理することとを行うように構成されたシーケンスツーシーケンス(sequence-to-sequence)リカレントニューラルネットワークと、特定の自然言語の文字のシーケンスを受け取ることと、特定の自然言語の文字のシーケンスの口頭発話のスペクトログラムを出力として取得するためにシーケンスツーシーケンスリカレントニューラルネットワークに入力として文字のシーケンスを提供することとを行うように構成されたサブシステムとを実装させる。サブシステムは、特定の自然言語の文字の入力シーケンスの口頭発話のスペクトログラムを使用して音声を生成し、生成された音声を再生のために提供するようにさらに構成することができる。
本明細書で説明する主題は、以下の利点のうちの1つまたは複数を実現するために、特定の実施形態で実装することができる。フレームレベルで音声を生成することによって、本明細書に記載するシステムは、他のシステムよりも速くテキストから音声を生成すると同時に、同等の、さらにはより優れた品質の音声を生成することができる。加えて、以下でより詳細に説明するように、本明細書に記載するシステムは、モデルサイズ、訓練時間、および推論時間を短縮することができ、また実質的に収束速度を上げることができる。本明細書に記載するシステムは、手動設計の言語機能または複雑な構成要素を必要とすることなく、たとえば、隠れマルコフモデル(HMM)アライナーを必要とすることなく、高品質の音声を生成することができ、その結果、複雑さが軽減され、使用する計算リソースが少なくなりながら、依然として高品質音声を生成する。
本明細書の主題の1つまたは複数の実施形態の詳細について、添付の図面および以下の説明に示す。説明、図面、および特許請求の範囲から、主題の他の特徴、態様、および利点が明らかとなるであろう。
例示的なテキスト音声変換システムを示す図である。 例示的なCBHGニューラルネットワークを示す図である。 文字のシーケンスを音声に変換するための例示的なプロセスの流れ図である。 文字のシーケンスの口頭発話の圧縮されたスペクトログラムから音声を生成するための例示的なプロセスの流れ図である。
様々な図面における同じ参照番号および名称は、同じ要素を示す。
図1は、例示的なテキスト音声変換システム100を示す。テキスト音声変換システム100は、以下で説明するシステム、構成要素、および技法を実装することができる、1つまたは複数の場所の1つまたは複数のコンピュータ上にコンピュータプログラムとして実装されるシステムの一例である。
システム100は、入力として入力テキスト104を受け取り、出力として音声120を生成するために入力テキスト104を処理するように構成されたサブシステム102を含む。入力テキスト104は、特定の自然言語の文字のシーケンスを含む。文字のシーケンスは、アルファベット文字、数字、句読点、および/または他の特殊文字を含んでよい。入力テキスト104は、可変長の文字のシーケンスとすることができる。
入力テキスト104を処理するために、サブシステム102は、シーケンスツーシーケンスリカレントニューラルネットワーク106(以下では「seq2seqネットワーク106」)と、後処理ニューラルネットワーク108と、波形合成器110とを含むエンドツーエンドのテキスト音声モデル150と対話するように構成される。
サブシステム102が、特定の自然言語の文字のシーケンスを含む入力テキスト104を受け取った後、サブシステム102は、文字のシーケンスを入力としてseq2seqネットワーク106に提供する。seq2seqネットワーク106は、サブシステム102から文字のシーケンスを受け取ることと、特定の自然言語の文字のシーケンスの口頭発話のスペクトログラムを生成するために文字のシーケンスを処理することとを行うように構成される。
詳細には、seq2seqネットワーク106は、(i)エンコーダプレネット(pre-net)ニューラルネットワーク114、およびエンコーダCBHGニューラルネットワーク116を含むエンコーダニューラルネットワーク112と、(ii)アテンションベースのデコーダリカレントニューラルネットワーク118とを使用して、文字のシーケンスを処理する。文字のシーケンスの各文字は、ワンホット(one-hot)ベクトルとして表し、連続ベクトルに埋め込むことができる。すなわち、サブシステム102は、シーケンスの各文字をワンホットベクトルとして表し、次いで、シーケンスを入力としてseq2seqネットワーク106に提供する前に、文字の埋込み、すなわち、ベクトルまたは数値の他の順序付き集まりを生成することができる。
エンコーダプレネットニューラルネットワーク114は、シーケンスの各文字のそれぞれの埋込みを受け取ることと、文字の変換された埋込みを生成するために、各文字のそれぞれの埋込みを処理することとを行うように構成される。たとえば、エンコーダプレネットニューラルネットワーク114は、変換された埋込みを生成するために、各埋込みに非線形変換のセットを適用することができる。いくつかの場合には、エンコーダプレネットニューラルネットワーク114は、収束速度を上げ、訓練中のシステムの汎化能力を向上させるために、ドロップアウトを有するボトルネックニューラルネットワーク層を含む。
エンコーダCBHGニューラルネットワーク116は、エンコーダプレネットニューラルネットワーク114から変換された埋込みを受け取り、文字のシーケンスの符号化表現を生成するために、変換された埋込みを処理するように構成される。エンコーダCBHGニューラルネットワーク112は、図2に関して以下でより詳細に説明するCBHGニューラルネットワークを含む。本明細書で説明するエンコーダCBHGニューラルネットワーク112の使用は、過適合(overfitting)を減らす可能性がある。加えてこれは、たとえばマルチレイヤRNNエンコーダと比較すると、誤った発音がより少なくなる可能性がある。
アテンションベースのデコーダリカレントニューラルネットワーク118(本明細書では「デコーダニューラルネットワーク118」と呼ぶ)は、デコーダ入力のシーケンスを受け取るように構成される。シーケンスの各デコーダ入力に対して、デコーダニューラルネットワーク118は、文字のシーケンスのスペクトログラムの複数のフレームを生成するために、デコーダ入力およびエンコーダCBHGニューラルネットワーク116によって生成された符号化表現を処理するように構成される。すなわち、各デコーダステップで1つのフレームを生成する(予測する)のではなく、デコーダニューラルネットワーク118は、rが1よりも大きい整数であるとすると、スペクトログラムのr個のフレームを生成する。多くの場合、r個のフレームのセット間に重複はない。
詳細には、デコーダステップtにおいて、デコーダステップt-1に生成されたr個のフレームのうちの少なくとも最後のフレームが、デコーダステップt+1でのデコーダニューラルネットワーク118への入力として供給される。いくつかの実装形態では、デコーダステップt-1に生成されたr個のフレームの全部が、デコーダステップt+1でのデコーダニューラルネットワーク118への入力として供給され得る。第1のデコーダステップに対するデコーダ入力は、オール0のフレーム(すなわち、<GO>フレーム)とすることができる。符号化表現についてのアテンションが、たとえば、従来のアテンションメカニズムを使用して、すべての符号化ステップに適用される。デコーダニューラルネットワーク118は、所与のデコーダステップでr個のフレームを同時に予測するために、線形活性化を用いる全結合ニューラルネットワーク層を使用してよい。たとえば、各フレームが80-D(80次元)ベクトルである5個のフレームを予測するには、デコーダニューラルネットワーク118は、線形活性化を用いる全結合ニューラルネットワーク層を使用して、400-Dベクトルを予測し、および400-Dベクトルを形状変更(reshape)して、5個のフレームを取得する。
各時間ステップでr個のフレームを生成することによって、デコーダニューラルネットワーク118は、デコーダステップの総数をrで割り、したがって、モデルサイズ、訓練時間、および推論時間を削減する。加えて、この技法は、実質的に収束速度を上げる、すなわち、アテンションメカニズムによって学習されるフレームと符号化表現との間にはるかに速い(かつより安定した)整合がもたらされるからである。これは、隣接する音声フレームが相互に関連し、各文字が通常複数のフレームに対応するからである。ある時間ステップで複数のフレームを発すると、デコーダニューラルネットワーク118はこの品質を活用して、訓練中に符号化表現に効率的に対応する方法を直ちに学習する、すなわちそのように訓練されることが可能になる。
デコーダニューラルネットワーク118は、1つまたは複数のゲート付きリカレントユニット(gated recurrent unit)ニューラルネットワーク層を含んでもよい。収束の速度を上げるために、デコーダニューラルネットワーク118は、1つまたは複数の垂直残差結合(vertical residual connection)を含んでもよい。いくつかの実装形態では、スペクトログラムは、メル尺度のスペクトログラムなどの圧縮されたスペクトログラムである。たとえば、未加工のスペクトログラムではなく、圧縮されたスペクトログラムを使用すると、冗長性が減少し、それによって、訓練および推論中に必要とされる計算が減少する。
後処理ニューラルネットワーク108は、圧縮されたスペクトログラムを受け取り、波形合成器入力を生成するために、圧縮されたスペクトログラムを処理するように構成される。
圧縮されたスペクトログラムを処理するために、後処理ニューラルネットワーク108は、CBHGニューラルネットワークを含む。詳細には、CBHGニューラルネットワークは、1-D畳み込みサブネットワーク、続いてハイウェイネットワーク(highway network)、および続いて双方向リカレントニューラルネットワークを含む。CBHGニューラルネットワークは、1つまたは複数の残差結合を含んでもよい。1-D畳み込みサブネットワークは、1-D畳み込みフィルタのバンク、続いてストライド1での時間層に沿ったmaxプーリングを含んでよい。いくつかの場合には、双方向リカレントニューラルネットワークは、ゲート付きリカレントユニットニューラルネットワークである。CBHGニューラルネットワークについて、図2を参照しながら以下でより詳細に説明する。
いくつかの実装形態では、後処理ニューラルネットワーク108は、シーケンスツーシーケンスリカレントニューラルネットワーク106と一緒に訓練されている。すなわち、訓練中に、システム100(または外部システム)は、後処理ニューラルネットワーク108およびseq2seqネットワーク106を、同じニューラルネットワーク訓練技法、たとえば、勾配降下法ベースの訓練技法を使用して、同じ訓練データセット上で訓練する。より詳細には、システム100(または外部システム)は、後処理ニューラルネットワーク108およびseq2seqネットワーク106のすべてのネットワークパラメータの現在の値を一緒に調整するために、損失関数の勾配の推定を逆伝播することができる。別々に訓練されるまたは事前訓練される必要がある構成要素を有し、したがって各構成要素のエラーが混合することがある、従来のシステムとは異なり、一緒に訓練される後処理NN108およびseq2seqネットワーク106を有するシステムは、よりロバストである(たとえば、エラーがより小さくなり、スクラッチから訓練することができる)。これらの利点は、現実の世界で見られる極めて大量の豊かで表現に富み、さらには多くの場合ノイズのあるデータ上でのエンドツーエンドのテキスト音声モデル150の訓練を可能にする。
波形合成器110は、波形合成器入力を受け取ることと、特定の自然言語の文字の入力シーケンスの口頭発話の波形を生成するために波形合成器入力を処理することとを行うように構成される。いくつかの実装形態では、波形合成器は、Griffin-Lim合成器である。いくつかの他の実装形態では、波形合成器は、ボコーダである。いくつかの他の実装形態では、波形合成器は、訓練可能スペクトログラム波形変換器(trainable spectrogram to waveform inverter)である。
波形合成器110が波形を生成した後、サブシステム102は、波形を使用して音声120を生成し、生成された音声120を、たとえばユーザデバイス上で再生するために提供する、または別のシステムが音声を生成し、再生できるように、生成された波形を別のシステムに提供することができる。
図2は、例示的なCBHGニューラルネットワーク200を示す。CBHGニューラルネットワーク200は、エンコーダCBHGニューラルネットワーク116に含まれるCBHGニューラルネットワーク、または図1の後処理ニューラルネットワーク108に含まれるCBHGニューラルネットワークとすることができる。
CBHGニューラルネットワーク200は、1-D畳み込みサブネットワーク208、続いてハイウェイネットワーク212、および続いて双方向リカレントニューラルネットワーク214を含む。CBHGニューラルネットワーク200は、1つまたは複数の残差結合、たとえば残差結合210を含んでよい。
1-D畳み込みサブネットワーク208は、1-D畳み込みフィルタのバンク204、続いてストライド1での時間層に沿ったmaxプーリング206を含んでよい。1-D畳み込みフィルタのバンク204は、1-D畳み込みフィルタのK個のセットを含んでよく、その中のk番目のセットが、畳み込み幅kを各々有するCk個のフィルタを含む。
1-D畳み込みサブネットワーク208は、入力シーケンス202、たとえば、エンコーダプレネットニューラルネットワークによって生成される文字のシーケンスの変換された埋込みを受け取るように構成される。サブネットワーク208は、入力シーケンス202の畳み込み出力を生成するために、1-D畳み込みフィルタのバンク204を使用して入力シーケンスを処理する。サブネットワーク208は次いで、畳み込み出力を一緒にスタックし、ストライド1での時間層に沿ったmaxプーリング206を使用して、スタックされた畳み込み出力を処理して、maxプーリングされた出力を生成する。サブネットワーク208は次いで、1つまたは複数の固定幅の1-D畳み込みフィルタを使用して、maxプーリングされた出力を処理して、サブネットワーク208のサブネットワーク出力を生成する。
サブネットワーク出力が生成された後、残差結合210は、畳み込み出力を生成するために、サブネットワーク出力を元の入力シーケンス202と結び付けるように構成される。
ハイウェイネットワーク212および双方向リカレントニューラルネットワーク214は、次いで、文字のシーケンスの符号化表現を生成するために、畳み込み出力を処理するように構成される。
詳細には、ハイウェイネットワーク212は、文字のシーケンスの高レベル特徴表現を生成するために畳み込み出力を処理するように構成される。いくつかの実装形態では、ハイウェイネットワークは、1つまたは複数の全結合ニューラルネットワーク層を含む。
双方向リカレントニューラルネットワーク214は、文字のシーケンスのシーケンシャルな特徴表現を生成するために高レベル特徴表現を処理するように構成される。シーケンシャルな特徴表現は、特定の文字の周りの文字のシーケンスの局所構造を表す。シーケンシャルな特徴表現は、特徴ベクトルのシーケンスを含んでよい。いくつかの実装形態では、双方向リカレントニューラルネットワークは、ゲート付きリカレントユニットニューラルネットワークである。
訓練中、1-D畳み込みサブネットワーク208の畳み込みフィルタの1つまたは複数は、S. IoffeおよびC. Szegedy、「Batch normalization: Accelerating deep network training by reducing internal covariate shift」、arXiv preprint arXiv:1502.03167、2015において詳細に説明される、バッチ正規化法を使用して訓練することができる。
いくつかの実装形態では、CBHGニューラルネットワーク200内の1つまたは複数の畳み込みフィルタは、非因果的畳み込みフィルタ、すなわち、所与の時間ステップTにおいて、周囲の入力と双方向(たとえば、...、T-1、T-2、およびT+1、T+2、...など)に畳み込むことができる畳み込みフィルタである。対照的に、因果的畳み込みフィルタは、前の入力(...T-1、T-2、など)と畳み込むことしかできない。
いくつかの他の実装形態では、CBHGニューラルネットワーク200内のすべての畳み込みフィルタが、非因果的畳み込みフィルタである。
非因果的畳み込みフィルタ、バッチ正規化、残差結合、およびストライド1での時間層に沿ったmaxプーリングを使用すると、入力シーケンス上でCBHGニューラルネットワーク200の汎化能力が向上し、したがって、テキスト音声変換システムが高品質の音声を生成できるようになる。
図3は、文字のシーケンスを音声に変換するための例示的なプロセス300の流れ図である。便宜上、プロセス300は、1つまたは複数の場所にある1つまたは複数のコンピュータのシステムによって行われるものとして説明する。たとえば、適切にプログラムされたテキスト音声変換システム(たとえば、図1のテキスト音声変換システム100)またはテキスト音声変換システムのサブシステム(たとえば、図1のサブシステム102)が、プロセス300を行うことができる。
システムは、特定の自然言語の文字のシーケンスを受け取る(ステップ302)。
次いでシステムは、特定の自然言語の文字のシーケンスの口頭発話のスペクトログラムを出力として取得するために、文字のシーケンスを入力としてシーケンスツーシーケンス(seq2seq)リカレントニューラルネットワークに提供する(ステップ304)。いくつかの実装形態では、スペクトログラムは、圧縮されたスペクトログラム、たとえば、メル尺度のスペクトログラムである。
詳細には、システムから文字のシーケンスを受け取った後、seq2seqリカレントニューラルネットワークは、エンコーダプレネットニューラルネットワークと、エンコーダCBHGニューラルネットワークとを含むエンコーダニューラルネットワークを使用して、シーケンス中の文字の各々のそれぞれの符号化表現を生成するために、文字のシーケンスを処理する。
より詳細には、文字のシーケンス中の各文字は、ワンホットベクトルとして表し、連続ベクトルに埋め込むことができる。エンコーダプレネットニューラルネットワークは、シーケンスの各文字のそれぞれの埋込みを受け取り、エンコーダプレネットニューラルネットワークを使用して文字の変換された埋込みを生成するために、シーケンス中の各文字のそれぞれの埋込みを処理する。たとえば、エンコーダプレネットニューラルネットワークは、変換された埋込みを生成するために、各埋込みに非線形変換のセットを適用することができる。次いでエンコーダCBHGニューラルネットワークは、エンコーダプレネットニューラルネットワークから変換された埋込みを受け取り、文字のシーケンスの符号化表現を生成するために、変換された埋込みを処理する。
文字のシーケンスの口頭発話のスペクトログラムを生成するために、seq2seqリカレントニューラルネットワークは、アテンションベースのデコーダリカレントニューラルネットワークを使用して符号化表現を処理する。詳細には、アテンションベースのデコーダリカレントニューラルネットワークは、デコーダ入力のシーケンスを受け取る。シーケンスの第1のデコーダ入力は、あらかじめ決定された初期フレームである。シーケンスの各デコーダ入力に対して、アテンションベースのデコーダリカレントニューラルネットワークは、スペクトログラムのr個のフレームを生成するために、デコーダ入力および符号化表現を処理する。ここで、rは1よりも大きい整数である。生成されたr個のフレームのうちの1つまたは複数は、シーケンスの次のデコーダ入力として使用することができる。言い換えれば、シーケンスの各他のデコーダ入力は、シーケンスのデコーダ入力に先行するデコーダ入力によって生成されたr個のフレームのうちの1つまたは複数である。
アテンションベースのデコーダリカレントニューラルネットワークの出力は、したがって、スペクトログラムを形成するフレームの複数のセットを含み、その中の各セットがr個のフレームを含む。多くの場合、r個のフレームのセット間に重複はない。一度にr個のフレームを生成することによって、アテンションベースのデコーダリカレントニューラルネットワークによって行われるデコーダステップの総数は、r分の1に減少し、したがって訓練および推論時間が減少する。またこの技法は、アテンションベースのデコーダリカレントニューラルネットワークおよびシステム全般の収束速度および学習率を上げるのに役立つ。
システムは、特定の自然言語の文字のシーケンスの口頭発話のスペクトログラムを使用して、音声を生成する(ステップ306)。
いくつかの実装形態では、スペクトログラムが圧縮されたスペクトログラムであるとき、システムは、圧縮されたスペクトログラムから波形を生成し、波形を使用して音声を生成することができる。圧縮されたスペクトログラムから音声を生成することについて、図4を参照しながら以下でより詳細に説明する。
システムは次いで、生成された音声を再生のために提供する(ステップ308)。たとえば、システムは、生成された音声を再生のためにデータ通信ネットワークを介してユーザデバイスに送信する。
図4は、文字のシーケンスの口頭発話の圧縮されたスペクトログラムから音声を生成するための例示的なプロセス400の流れ図である。便宜上、プロセス400は、1つまたは複数の場所にある1つまたは複数のコンピュータのシステムによって行われるものとして説明する。たとえば、適切にプログラムされたテキスト音声変換システム(たとえば、図1のテキスト音声変換システム100)またはテキスト音声変換システムのサブシステム(たとえば、図1のサブシステム102)が、プロセス400を行うことができる。
システムは、特定の自然言語の文字のシーケンスの口頭発話の圧縮されたスペクトログラムを受け取る(ステップ402)。
次いでシステムは、波形合成器入力を取得するために、圧縮されたスペクトログラムを入力として後処理ニューラルネットワークに提供する(ステップ404)。いくつかの場合には、波形合成器入力は、特定の自然言語の文字の入力シーケンスの口頭発話の線形スケールのスペクトログラムである。
波形合成器入力を取得した後、システムは、波形合成器入力を入力として波形合成器に提供する(ステップ406)。波形合成器は、波形を生成するために、波形合成器入力を処理する。いくつかの実装形態では、波形合成器は、線形スケールのスペクトログラムなどの波形合成器入力からの波形を合成するためにGriffin-Limアルゴリズムを使用するGriffin-Lim合成器である。いくつかの他の実装形態では、波形合成器は、ボコーダである。いくつかの他の実装形態では、波形合成器は、訓練可能スペクトログラム波形変換器である。
次いでシステムは、波形を使用して音声を生成する、すなわち、波形によって表される音を生成する(ステップ408)。システムは次いで、たとえばユーザデバイス上での再生のために、生成された音声を提供してもよい。いくつかの実装形態では、システムは、別のシステムが音声を生成し、再生できるように、別のシステムに波形を提供してもよい。
1つまたは複数のコンピュータのシステムが特定の動作またはアクションを行うように構成されるとは、動作時にシステムに動作またはアクションを行わせるソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せをシステムがインストールしていることを意味する。1つまたは複数のコンピュータが特定の動作またはアクションを行うように構成されるとは、1つまたは複数のプログラムが、データ処理装置によって実行されると、装置に動作またはアクションを行わせる命令を含むことを意味する。
本明細書で説明する主題および機能的動作の実施形態は、デジタル電子回路において、有形に具現化されたコンピュータソフトウェアもしくはファームウェアにおいて、本明細書で開示する構造およびそれらの構造的に同等のものを含む、コンピュータハードウェアにおいて、またはそれらの1つもしくは複数の組合せにおいて、実装されることがある。本明細書で説明する主題の実装形態は、1つまたは複数のコンピュータプログラムとして実装されることがあり、すなわち、データ処理装置によって実行されるように、またはデータ処理装置の動作を制御するために、有形の非一時的プログラムキャリア上に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実装されることがある。代替的にまたは追加として、プログラム命令は、人為的に生成された伝搬信号、たとえば、データ処理装置による実行のために好適な受信装置に送信するための情報を符号化するために生成される機械生成の電気、光、または電磁信号上で符号化されることがある。コンピュータ記憶媒体は、機械可読ストレージデバイス、機械可読記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらのうちの1つもしくは複数の組合せであることがある。しかしながら、コンピュータ記憶媒体は伝搬信号ではない。
「データ処理装置」という用語は、例としてプログラマブルプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含む、データを処理するためのすべての種類の装置、デバイス、および機械を包含する。装置は、専用の論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)を含むことができる。装置はまた、ハードウェアに加えて、当該のコンピュータプログラムのための実行環境を作成するコード、たとえば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの1つもしくは複数の組合せを構成するコードを含むことができる。
(プログラム、ソフトウェア、ソフトウェアアプリケーション、モジュール、ソフトウェアモジュール、スクリプト、またはコードと呼ばれる、または説明される場合もある)コンピュータプログラムは、コンパイラ型もしくはインタープリタ型言語、または宣言型もしくは手続き型言語を含む、プログラム言語の任意の形態で書くことができ、またコンピュータプログラムは、スタンドアロンプログラムとして、またはモジュール、コンポーネント、サブルーチン、もしくはコンピューティング環境で使用するのに適した他のユニットとしてなど、任意の形態で配置されることがある。コンピュータプログラムは、ファイルシステムのファイルに対応する場合があるが、対応する必要はない。プログラムは、他のプログラムまたはデータ、たとえば、マークアップ言語ドキュメントに記憶された1つまたは複数のスクリプトを入れたファイルの一部分に、当該プログラムに専用の単一ファイルに、または複数の協調ファイル、たとえば、1つもしくは複数のモジュール、サブプログラム、もしくはコードの一部を記憶するファイルに、記憶することができる。コンピュータプログラムは、1つのコンピュータ上で、または1つのサイトに位置するもしくは複数のサイトにわたって分散し、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように配置することができる。
本明細書において使用される、「エンジン」または「ソフトウェアエンジン」は、入力とは異なる出力を提供するソフトウェア実装入出力システムを指す。エンジンは、ライブラリ、プラットフォーム、ソフトウェア開発キット(「SDK」)、またはオブジェクトなど、機能の符号化されたブロックであることがある。各エンジンは、1つまたは複数のプロセッサと、コンピュータ可読媒体とを含む任意の適切なタイプのコンピューティングデバイス、たとえば、サーバ、携帯電話、タブレットコンピュータ、ノートブックコンピュータ、音楽プレーヤ、電子ブックリーダー、ラップトップもしくはデスクトップコンピュータ、PDA、スマートフォン、または他の据置型もしくは携帯型デバイス上に実装することができる。加えて、エンジンの2つ以上が、同じコンピューティングデバイス上に、または異なるコンピューティングデバイス上に実装される場合がある。
本明細書で説明するプロセスおよび論理フローは、入力データで動作し、出力を生成することによって機能を行うために1つまたは複数のコンピュータプログラムを1つまたは複数のプログラマブルコンピュータが実行することによって実行可能である。プロセスおよび論理フローはまた、専用の論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行可能であり、装置もまたこれらとして実装可能である。たとえば、プロセスおよび論理フローは、グラフィックス処理ユニット(GPU)によって実行されることがあり、また装置は、GPUとして実装されることがある。
コンピュータプログラムの実行に好適なコンピュータは、一例として、汎用または専用マイクロプロセッサ、または両方、または他の種類の中央処理ユニットを含み、これらに基づくことがある。一般的に中央処理ユニットは、読取り専用メモリ、またはランダムアクセスメモリ、または両方から命令およびデータを受け取ることになる。コンピュータの必須要素は、命令を行うまたは実行するための中央処理ユニット、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般的にコンピュータはまた、データを記憶するための1つもしくは複数の大容量ストレージデバイス、たとえば、磁気ディスク、光磁気ディスク、もしくは光ディスクを含むことになり、またはこれらからデータを受け取ること、もしくはこれらにデータを転送すること、もしくはその両方を行うために動作可能に結合されることになる。しかしながら、コンピュータがそのようなデバイスを有する必要はない。さらに、コンピュータが別のデバイス、たとえば、ほんのいくつかの例を挙げれば、携帯電話、携帯情報端末(PDA)、モバイルオーディオもしくはビデオプレーヤ、ゲーム機、全地球測位システム(GPS)レシーバ、またはポータブルストレージデバイス、たとえば、ユニバーサルシリアルバス(USB)フラッシュドライブに埋め込まれることがある。
コンピュータプログラム命令およびデータを記憶するのに好適なコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含み、例として、半導体メモリデバイス、たとえばEPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む。プロセッサおよびメモリは、専用論理回路によって補われる、または専用論理回路に組み込まれることがある。
ユーザとの対話を可能にするために、本明細書で説明する主題の実施形態は、ユーザに情報を表示するためのディスプレイデバイス、たとえばCRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ、ならびにユーザがそれによってコンピュータへの入力を行うことができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有するコンピュータに実装されることがある。ユーザとの対話を可能にするために他の種類のデバイスが使用されることもあり、たとえばユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバック、もしくは触覚フィードバックであることが可能であり、ユーザからの入力は、音響入力、音声入力、もしくは触覚入力など、任意の形態で受け取ることができる。加えて、コンピュータが、ユーザによって使用されるデバイスに文書を送り、そのデバイスから文書を受け取ることによって、たとえば、ウェブブラウザから受け取られる要求に応じてユーザのクライアントデバイス上のウェブブラウザにウェブページを送ることによって、ユーザと対話することができる。
本明細書で説明する主題の実施形態は、たとえばデータサーバとして、バックエンド構成要素を含むコンピューティングシステム、またはミドルウェア構成要素、たとえばアプリケーションサーバを含むコンピューティングシステム、またはフロントエンド構成要素、たとえば、それによりユーザが本明細書で説明する主題の実装形態と対話することができるグラフィカルユーザインタフェース、もしくはウェブブラウザを有するクライアントコンピュータを含む、コンピューティングシステム、または1つもしくは複数のそのようなバックエンド構成要素、ミドルウェア構成要素、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムにおいて実装可能である。システムの構成要素は、デジタルデータ通信の任意の形態または媒体、たとえば通信ネットワークによって、相互接続可能である。通信ネットワークの例には、ローカルエリアネットワーク(「LAN」)、およびワイドエリアネットワーク(「WAN」)、たとえばインターネットが含まれる。
コンピューティングシステムは、クライアントと、サーバとを含むことができる。クライアントおよびサーバは、一般的に互いから遠くにあり、典型的には通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータで実行している、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生じる。
本明細書は、多くの特定の実装形態の詳細を含むが、これらは任意の発明の範囲への、または特許請求される可能性のあるものの範囲への制限として解釈されるべきではなく、むしろ特定の発明の特定の実施形態に固有である場合がある特徴の説明として解釈されるべきである。本明細書で別個の実施形態の文脈で説明されるいくつかの特徴は、単一の実施形態において組み合わせて実装されることもある。逆に、単一の実施形態の文脈で説明される様々な特徴は、複数の実施形態において別々に、または任意の適切な部分的組合せで実装されることもある。さらに、特徴は、ある組合せで機能するものとして上記で説明され、さらに当初はそのように特許請求される場合があるが、特許請求される組合せからの1つまたは複数の特徴は、場合によってはその組合せから削除されることがあり、特許請求される組合せは、部分的組合せ、または部分的組合せの変形を対象とすることがある。
同様に、動作は、特定の順序で図面に示されるが、これは、望ましい結果を達成するために、このような動作が図示された特定の順序でもしくは順次に行われること、または例示したすべての動作が行われることを必要とするものと理解されるべきではない。いくつかの環境では、マルチタスクおよび並列処理が有利である場合がある。さらに、上記で説明した実施形態における様々なシステムモジュールおよび構成要素の分離は、すべての実施形態においてそのような分離を必要とすると理解されるべきではなく、記載するプログラム構成要素およびシステムは、一般的に単一のソフトウェア製品に統合される、または複数のソフトウェア製品にパッケージ化されることがあると理解されるべきである。
主題の特定の実施形態について説明した。他の実施形態も、特許請求の範囲内である。たとえば、特許請求の範囲に記載するアクションは、異なる順序で行われ、やはり望ましい結果を実現することがある。一例として、添付図に示すプロセスは、望ましい結果を達成するために、図示した特定の順序、または一連の順序を必ずしも必要としない。いくつかの実装形態では、マルチタスクおよび並列処理が有利である場合がある。
100 テキスト音声変換システム
102 サブシステム
104 入力テキスト
106 シーケンスツーシーケンス(seq2seq)リカレントニューラルネットワーク
108 後処理ニューラルネットワーク
110 波形合成器
112 エンコーダニューラルネットワーク
114 エンコーダプレネットニューラルネットワーク
116 エンコーダCBHGニューラルネットワーク
118 アテンションベースのデコーダリカレントニューラルネットワーク
120 音声
150 エンドツーエンドのテキスト音声モデル
200 CBHGニューラルネットワーク
202 入力シーケンス
204 1-D畳み込みフィルタのバンク
206 maxプーリング
208 1-D畳み込みサブネットワーク
210 残差結合
212 ハイウェイネットワーク
214 双方向リカレントニューラルネットワーク

Claims (22)

1つまたは複数のコンピュータと、命令を記憶した1つまたは複数のストレージデバイスとを備えるシステムであって、前記命令が、1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに、
シーケンスツーシーケンスリカレントニューラルネットワークであって、
特定の自然言語の文字のシーケンスを受け取ることと、
前記特定の自然言語の文字の前記シーケンスの口頭発話のスペクトログラムを生成するために、文字の前記シーケンスを処理することと
を行うように構成された、シーケンスツーシーケンスリカレントニューラルネットワークと、
サブシステムであって、
前記特定の自然言語の文字の前記シーケンスを受け取ることと、
前記特定の自然言語の文字の前記シーケンスの前記口頭発話の前記スペクトログラムを出力として取得するために、文字の前記シーケンスを入力として前記シーケンスツーシーケンスリカレントニューラルネットワークに提供することと
を行うように構成された、サブシステムと
を実装させる、システム。
前記シーケンスツーシーケンスリカレントニューラルネットワークが、
エンコーダニューラルネットワークであって、
文字の前記シーケンスを受け取ることと、
前記シーケンスの前記文字の各々のそれぞれの符号化表現を生成するために、文字の前記シーケンスを処理することと
を行うように構成された、エンコーダニューラルネットワークと、
アテンションベースのデコーダリカレントニューラルネットワークであって、
デコーダ入力のシーケンスを受け取ることと、
前記シーケンスの各デコーダ入力に対して、
前記スペクトログラムのr個のフレームを生成するために、前記デコーダ入力および前記符号化表現を処理することであって、rは1よりも大きい整数である、処理することと
を行うように構成された、アテンションベースのデコーダリカレントニューラルネットワークと
を備える、請求項1に記載のシステム。
前記エンコーダニューラルネットワークが、
エンコーダプレネットニューラルネットワークであって、
前記シーケンスの各文字のそれぞれの埋込みを受け取ることと、
前記文字の変換された埋込みを生成するために、前記シーケンスの各文字の前記それぞれの埋込みを処理することと
を行うように構成された、エンコーダプレネットニューラルネットワークと、
エンコーダCBHGニューラルネットワークであって、
前記変換された埋込みを受け取ることと、
前記符号化表現を生成するために前記変換された埋込みを処理することと
を行うように構成された、エンコーダCBHGニューラルネットワークと
を備える、請求項2に記載のシステム。
前記エンコーダCBHGニューラルネットワークが、1-D畳み込みフィルタのバンク、続いてハイウェイネットワーク、および続いて双方向リカレントニューラルネットワークを含む、請求項3に記載のシステム。
前記双方向リカレントニューラルネットワークが、ゲート付きリカレントユニットニューラルネットワークである、請求項4に記載のシステム。
前記エンコーダCBHGニューラルネットワークが、前記変換された埋込みと、1-D畳み込みフィルタの前記バンクの出力との間に残差結合を含む、請求項4または5のいずれか一項に記載のシステム。
1-D畳み込みフィルタの前記バンクが、ストライド1での時間層に沿ったmaxプーリングを含む、請求項4から6のいずれか一項に記載のシステム。
前記シーケンスの第1のデコーダ入力が、あらかじめ決定された初期フレームであり、前記シーケンスの各他のデコーダ入力が、前記シーケンスの前記デコーダ入力に先行するデコーダ入力を処理することによって生成された前記r個のフレームのうちの1つまたは複数である、請求項2から7のいずれか一項に記載のシステム。
前記スペクトログラムが、圧縮されたスペクトログラムである、請求項1から8のいずれか一項に記載のシステム。
前記圧縮されたスペクトログラムが、メル尺度のスペクトログラムである、請求項9に記載のシステム。
前記システムが、
後処理ニューラルネットワークであって、
前記圧縮されたスペクトログラムを受け取ることと、
波形合成器入力を生成するために、前記圧縮されたスペクトログラムを処理することと
を行うように構成された、後処理ニューラルネットワークと、
波形合成器であって、
前記波形合成器入力を受け取ることと、
前記特定の自然言語の文字の前記入力シーケンスの前記口頭発話の波形を生成するために、前記波形合成器入力を処理することと
を行うように構成された、波形合成器と
をさらに備え、
前記サブシステムが、
前記波形合成器入力を取得するために、前記圧縮されたスペクトログラムを入力として前記後処理ニューラルネットワークに提供することと、
前記波形を生成するために、前記波形合成器入力を入力として前記波形合成器に提供することと
を行うようにさらに構成される、請求項9または10のいずれか一項に記載のシステム。
前記サブシステムが、
前記波形を使用して音声を生成することと、
前記生成された音声を再生のために提供することと
を行うようにさらに構成される、請求項11に記載のシステム。
前記波形合成器入力が、前記特定の自然言語の文字の前記入力シーケンスの前記口頭発話の線形スケールのスペクトログラムである、請求項11または12のいずれか一項に記載のシステム。
前記波形合成器が、訓練可能スペクトログラム波形変換器である、請求項11から13のいずれか一項に記載のシステム。
前記後処理ニューラルネットワークが、前記シーケンスツーシーケンスリカレントニューラルネットワークと一緒に訓練された、請求項11から14のいずれか一項に記載のシステム。
前記後処理ニューラルネットワークが、1-D畳み込みサブネットワーク、続いてハイウェイネットワーク、および続いて双方向リカレントニューラルネットワークを含むCBHGニューラルネットワークである、請求項11から15のいずれか一項に記載のシステム。
前記双方向リカレントニューラルネットワークが、ゲート付きリカレントユニットニューラルネットワークである、請求項16に記載のシステム。
前記CBHGニューラルネットワークが、1つまたは複数の残差結合である、請求項16または17のいずれか一項に記載のシステム。
前記1-D畳み込みサブネットワークが、1-D畳み込みフィルタのバンク、続いてストライド1での時間層に沿ったmaxプーリングを含む、請求項16から18のいずれか一項に記載のシステム。
前記サブシステムが、
前記特定の自然言語の文字の前記入力シーケンスの前記口頭発話の前記スペクトログラムを使用して音声を生成することと、
前記生成された音声を再生のために提供することと
を行うようにさらに構成される、請求項1から10のいずれか一項に記載のシステム。
1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに請求項1から20のいずれか一項に記載のシステムを実装させる命令を記憶した1つまたは複数のコンピュータ記憶媒体。
請求項1から20のいずれか一項に記載のサブシステムによって行われる動作を含む方法。
JP2020120478A 2017-03-29 2020-07-14 エンドツーエンドのテキスト音声変換 Active JP7009564B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022002290A JP2022058554A (ja) 2017-03-29 2022-01-11 エンドツーエンドのテキスト音声変換

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GR20170100126 2017-03-29
GR20170100126 2017-03-29

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019553345A Division JP6736786B2 (ja) 2017-03-29 2018-03-29 エンドツーエンドのテキスト音声変換

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022002290A Division JP2022058554A (ja) 2017-03-29 2022-01-11 エンドツーエンドのテキスト音声変換

Publications (2)

Publication Number Publication Date
JP2020170200A true JP2020170200A (ja) 2020-10-15
JP7009564B2 JP7009564B2 (ja) 2022-01-25

Family

ID=62002731

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2019553345A Active JP6736786B2 (ja) 2017-03-29 2018-03-29 エンドツーエンドのテキスト音声変換
JP2020120478A Active JP7009564B2 (ja) 2017-03-29 2020-07-14 エンドツーエンドのテキスト音声変換
JP2022002290A Pending JP2022058554A (ja) 2017-03-29 2022-01-11 エンドツーエンドのテキスト音声変換

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2019553345A Active JP6736786B2 (ja) 2017-03-29 2018-03-29 エンドツーエンドのテキスト音声変換

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022002290A Pending JP2022058554A (ja) 2017-03-29 2022-01-11 エンドツーエンドのテキスト音声変換

Country Status (8)

Country Link
US (4) US10573293B2 (ja)
EP (2) EP3745394B1 (ja)
JP (3) JP6736786B2 (ja)
KR (2) KR102135865B1 (ja)
CN (2) CN112767915A (ja)
AU (2) AU2018244917B2 (ja)
CA (3) CA3206223A1 (ja)
WO (1) WO2018183650A2 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US11557311B2 (en) * 2017-07-21 2023-01-17 Nippon Telegraph And Telephone Corporation Satisfaction estimation model learning apparatus, satisfaction estimating apparatus, satisfaction estimation model learning method, satisfaction estimation method, and program
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10692484B1 (en) * 2018-06-13 2020-06-23 Amazon Technologies, Inc. Text-to-speech (TTS) processing
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN111368835A (zh) * 2018-12-25 2020-07-03 顺丰科技有限公司 验证码自动识别方法及装置
US11011154B2 (en) * 2019-02-08 2021-05-18 Tencent America LLC Enhancing hybrid self-attention structure with relative-position-aware bias for speech synthesis
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
CN113874934A (zh) * 2019-05-23 2021-12-31 谷歌有限责任公司 有表达力的端到端语音合成中的变分嵌入容量
KR102581346B1 (ko) 2019-05-31 2023-09-22 구글 엘엘씨 다국어 음성 합성 및 언어간 음성 복제
US11289073B2 (en) * 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110223705B (zh) * 2019-06-12 2023-09-15 腾讯科技(深圳)有限公司 语音转换方法、装置、设备及可读存储介质
CN110335587B (zh) * 2019-06-14 2023-11-10 平安科技(深圳)有限公司 语音合成方法、系统、终端设备和可读存储介质
WO2021006117A1 (ja) * 2019-07-05 2021-01-14 国立研究開発法人情報通信研究機構 音声合成処理装置、音声合成処理方法、および、プログラム
JP7432199B2 (ja) 2019-07-05 2024-02-16 国立研究開発法人情報通信研究機構 音声合成処理装置、音声合成処理方法、および、プログラム
WO2021040490A1 (en) 2019-08-30 2021-03-04 Samsung Electronics Co., Ltd. Speech synthesis method and apparatus
US11556782B2 (en) * 2019-09-19 2023-01-17 International Business Machines Corporation Structure-preserving attention mechanism in sequence-to-sequence neural models
KR20210053020A (ko) 2019-11-01 2021-05-11 삼성전자주식회사 전자 장치 및 그 동작 방법
KR20210158382A (ko) * 2019-11-28 2021-12-30 주식회사 엘솔루 음성인식을 위한 전자장치와 그 데이터 처리 방법
KR102288051B1 (ko) * 2019-11-29 2021-08-09 한동대학교 산학협력단 딥러닝 기반 엔드투엔드 음성 합성 시스템의 음성 합성 경량화 방법
US10699715B1 (en) * 2019-12-27 2020-06-30 Alphonso Inc. Text independent speaker-verification on a media operating system using deep learning on raw waveforms
CN111292719A (zh) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN111353258A (zh) * 2020-02-10 2020-06-30 厦门快商通科技股份有限公司 基于编码解码神经网络的回声抑制方法及音频装置及设备
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
CN111667835A (zh) * 2020-06-01 2020-09-15 马上消费金融股份有限公司 语音识别方法、活体检测方法、模型训练方法及装置
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN111899716B (zh) * 2020-08-03 2021-03-12 北京帝派智能科技有限公司 一种语音合成方法和系统
US11335321B2 (en) 2020-08-28 2022-05-17 Google Llc Building a text-to-speech system from a small amount of speech data
CN113554737A (zh) * 2020-12-04 2021-10-26 腾讯科技(深圳)有限公司 目标对象的动作驱动方法、装置、设备及存储介质
CN112863480B (zh) * 2020-12-22 2022-08-09 北京捷通华声科技股份有限公司 端到端语音合成模型的优化方法及装置,电子设备
CN112750419B (zh) * 2020-12-31 2024-02-13 科大讯飞股份有限公司 一种语音合成方法、装置、电子设备和存储介质
CN113409759B (zh) * 2021-07-07 2023-04-07 浙江工业大学 一种端到端实时语音合成方法
IT202200003896A1 (it) 2022-03-02 2023-09-02 Audioboost Srl Metodo e sistema per inserire un contenuto multimediale durante la riproduzione di una traccia audio generata a partire da un sito web
CN116385725B (zh) * 2023-06-02 2023-09-08 杭州聚秀科技有限公司 眼底图像视盘视杯分割方法及装置、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004012584A (ja) * 2002-06-04 2004-01-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
WO2018003457A1 (ja) * 2016-06-30 2018-01-04 パナソニックIpマネジメント株式会社 情報処理装置、時系列データの情報処理方法、及びプログラム
JP6577159B1 (ja) * 2016-09-06 2019-09-18 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したオーディオの生成
JP2019537096A (ja) * 2016-09-26 2019-12-19 グーグル エルエルシー ニューラル機械翻訳システム
JP2020501231A (ja) * 2016-11-04 2020-01-16 セールスフォース ドット コム インコーポレイティッド 擬似リカレントニューラルネットワークに基づくエンコーダ‐デコーダモデル

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN85106870A (zh) * 1985-09-17 1986-07-02 中国民用航空学院 三维体视投影图自动作图法
US5621857A (en) * 1991-12-20 1997-04-15 Oregon Graduate Institute Of Science And Technology Method and system for identifying and recognizing speech
JP2001075584A (ja) 1999-09-07 2001-03-23 Canon Inc 自然言語処理方法及び前記方法を用いた音声合成装置
US6725190B1 (en) * 1999-11-02 2004-04-20 International Business Machines Corporation Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
KR20060077988A (ko) 2004-12-30 2006-07-05 삼성전자주식회사 멀티미디어 통신 시스템에서 컨텍스트 추출 및 이를 통한정보 제공 시스템 및 방법
US8036899B2 (en) * 2006-10-20 2011-10-11 Tal Sobol-Shikler Speech affect editing systems
US8321222B2 (en) * 2007-08-14 2012-11-27 Nuance Communications, Inc. Synthesis by generation and concatenation of multi-form segments
WO2012109407A1 (en) * 2011-02-09 2012-08-16 The Trustees Of Columbia University In The City Of New York Encoding and decoding machine with recurrent neural networks
US9542956B1 (en) 2012-01-09 2017-01-10 Interactive Voice, Inc. Systems and methods for responding to human spoken audio
US10181098B2 (en) * 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US11080587B2 (en) * 2015-02-06 2021-08-03 Deepmind Technologies Limited Recurrent neural networks for data item generation
US20160343366A1 (en) * 2015-05-19 2016-11-24 Google Inc. Speech synthesis model selection
US9865251B2 (en) * 2015-07-21 2018-01-09 Asustek Computer Inc. Text-to-speech method and multi-lingual speech synthesizer using the method
US20170178346A1 (en) * 2015-12-16 2017-06-22 High School Cube, Llc Neural network architecture for analyzing video data
US10332508B1 (en) * 2016-03-31 2019-06-25 Amazon Technologies, Inc. Confidence checking for speech processing and query answering
CN106328122A (zh) * 2016-08-19 2017-01-11 深圳市唯特视科技有限公司 一种利用长短期记忆模型递归神经网络的语音识别方法
DE212016000292U1 (de) * 2016-11-03 2019-07-03 Bayerische Motoren Werke Aktiengesellschaft System zur Text-zu-Sprache-Leistungsbewertung
KR20180080446A (ko) * 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10249289B2 (en) * 2017-03-14 2019-04-02 Google Llc Text-to-speech synthesis using an autoencoder
US10740391B2 (en) * 2017-04-03 2020-08-11 Wipro Limited System and method for generation of human like video response for user queries
US10943503B2 (en) * 2017-04-17 2021-03-09 Facebook, Inc. Envelope encoding of speech signals for transmission to cutaneous actuators
JP7129661B2 (ja) 2019-01-22 2022-09-02 パナソニックIpマネジメント株式会社 制御システム、電力変換システム、制御方法、プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004012584A (ja) * 2002-06-04 2004-01-15 Nippon Telegr & Teleph Corp <Ntt> 音声認識用情報作成方法、音響モデル作成方法、音声認識方法、音声合成用情報作成方法、音声合成方法及びそれらの装置、並びにプログラム及びそのプログラムを記録した記録媒体
WO2018003457A1 (ja) * 2016-06-30 2018-01-04 パナソニックIpマネジメント株式会社 情報処理装置、時系列データの情報処理方法、及びプログラム
JP6577159B1 (ja) * 2016-09-06 2019-09-18 ディープマインド テクノロジーズ リミテッド ニューラルネットワークを使用したオーディオの生成
JP2019537096A (ja) * 2016-09-26 2019-12-19 グーグル エルエルシー ニューラル機械翻訳システム
JP2020501231A (ja) * 2016-11-04 2020-01-16 セールスフォース ドット コム インコーポレイティッド 擬似リカレントニューラルネットワークに基づくエンコーダ‐デコーダモデル

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HEIGA ZEN ET AL.: "An Overview of Nitech HMM-based Speech Synthesis System for Blizzard Challenge 2005", INTERSPEECH 2005, JPN6021021160, September 2005 (2005-09-01), pages 93 - 96, ISSN: 0004523386 *
JOSE SOTELO, 外6名: "Char2Wav: End-to-End Speech Synthesis", ICLR 2017 WORKSHOP, JPN6020019906, 18 February 2017 (2017-02-18), pages 1 - 6, ISSN: 0004523383 *
YUXUAN WANG, 外13名: "Tacotron: A Fully End-to-End Text-To-Speech Systhesis Model", [ONLINE], JPN6020019912, 29 March 2017 (2017-03-29), pages 1 - 10, ISSN: 0004523387 *
川上裕司, 外2名: "歌唱音声の声質変換において学習データの違いが品質に与える影響の調査", 日本音響学会講演論文集, JPN6021021157, September 2009 (2009-09-01), pages 425 - 426, ISSN: 0004523384 *
篠田悠斗, 外2名: "ニューラルネットワークによる文への絵文字装飾", 言語処理学会第23回年次大会発表論文集, JPN6021021159, 6 March 2017 (2017-03-06), pages 1006 - 1009, ISSN: 0004523385 *

Also Published As

Publication number Publication date
EP3583594A2 (en) 2019-12-25
CN110476206B (zh) 2021-02-02
KR102324801B1 (ko) 2021-11-10
US20200098350A1 (en) 2020-03-26
EP3583594B1 (en) 2020-09-09
WO2018183650A2 (en) 2018-10-04
CA3058433C (en) 2024-02-20
CA3058433A1 (en) 2018-10-04
CN112767915A (zh) 2021-05-07
KR20190130634A (ko) 2019-11-22
JP2020515899A (ja) 2020-05-28
AU2020201421B2 (en) 2021-10-21
AU2018244917B2 (en) 2019-12-05
KR20200087288A (ko) 2020-07-20
CA3206209A1 (en) 2018-10-04
US20190311708A1 (en) 2019-10-10
US20210366463A1 (en) 2021-11-25
EP3745394B1 (en) 2023-05-10
US10573293B2 (en) 2020-02-25
EP3745394A1 (en) 2020-12-02
JP6736786B2 (ja) 2020-08-05
AU2018244917A1 (en) 2019-10-17
AU2020201421A1 (en) 2020-03-19
JP7009564B2 (ja) 2022-01-25
WO2018183650A3 (en) 2018-11-08
KR102135865B1 (ko) 2020-07-20
US11107457B2 (en) 2021-08-31
US20240127791A1 (en) 2024-04-18
CN110476206A (zh) 2019-11-19
US11862142B2 (en) 2024-01-02
CA3206223A1 (en) 2018-10-04
JP2022058554A (ja) 2022-04-12

Similar Documents

Publication Publication Date Title
JP7009564B2 (ja) エンドツーエンドのテキスト音声変換
US11869530B2 (en) Generating audio using neural networks
US20210295858A1 (en) Synthesizing speech from text using neural networks
US10043512B2 (en) Generating target sequences from input sequences using partial conditioning
CN111699497A (zh) 使用离散潜变量的序列模型的快速解码
EP4035085A1 (en) Training neural networks to generate structured embeddings

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200819

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210607

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220112

R150 Certificate of patent or registration of utility model

Ref document number: 7009564

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150