JP2019532349A - ニューラルネットワークを使用したオーディオの生成 - Google Patents

ニューラルネットワークを使用したオーディオの生成 Download PDF

Info

Publication number
JP2019532349A
JP2019532349A JP2019522236A JP2019522236A JP2019532349A JP 2019532349 A JP2019532349 A JP 2019532349A JP 2019522236 A JP2019522236 A JP 2019522236A JP 2019522236 A JP2019522236 A JP 2019522236A JP 2019532349 A JP2019532349 A JP 2019532349A
Authority
JP
Japan
Prior art keywords
neural network
audio
layer
time step
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019522236A
Other languages
English (en)
Other versions
JP6577159B1 (ja
Inventor
アーロン・ヘラルト・アントニウス・ファン・デン・オールト
サンダー・エティエンヌ・レア・ディールマン
ナル・エメリッヒ・カルヒブレナー
カレン・シモニアン
オリオル・ビニャルズ
Original Assignee
ディープマインド テクノロジーズ リミテッド
ディープマインド テクノロジーズ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディープマインド テクノロジーズ リミテッド, ディープマインド テクノロジーズ リミテッド filed Critical ディープマインド テクノロジーズ リミテッド
Priority to JP2019150456A priority Critical patent/JP6891236B2/ja
Application granted granted Critical
Publication of JP6577159B1 publication Critical patent/JP6577159B1/ja
Publication of JP2019532349A publication Critical patent/JP2019532349A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Complex Calculations (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

複数の時間ステップの各々におけるそれぞれのオーディオサンプルを含むオーディオデータの出力シーケンスを生成するための、コンピュータ記憶媒体上に符号化されたコンピュータプログラムを含む、方法、システム、および装置が開示される。本方法のうちの1つは、時間ステップの各々について、畳み込みサブネットワークへの入力としてオーディオデータの現在シーケンスを提供するステップであって、現在シーケンスが、出力シーケンス内の時間ステップに先行する各時間ステップにおけるそれぞれのオーディオサンプルを含み、畳み込みサブネットワークが、時間ステップについての代替表現を生成するためにオーディオデータの現在シーケンスを処理するように構成される、ステップと、出力層への入力として時間ステップの代替表現を提供するステップであって、出力層が、時間ステップに関する複数の可能なオーディオサンプルにわたるスコア分布を規定する出力を生成するために代替表現を処理するように構成される、ステップとを含む。

Description

本明細書は、ニューラルネットワークを使用してオーディオを処理および生成することに関する。
ニューラルネットワークは、受信した情報に対する出力を予測するために、非線形ユニットの1つまたは複数の層を用いる機械学習モデルである。いくつかのニューラルネットワークは、出力層に加えて1つまたは複数の隠れ層を含む。各隠れ層の出力は、ネットワーク内の次の層、すなわち次の隠れ層または出力層への入力として使用される。ネットワークの各層は、パラメータのそれぞれのセットの現在の値に従って、受信した入力から出力を生成する。
Zen、Heiga. An example of context-dependent label format for HMM-based speech synthesis in English、2006. URL http://hts.sp.nitech.ac.jp/?Download Zen、Heiga、Senior、Andrew、およびSchuster、Mike. Statistical parametric speech synthesis using deep neural networks. In Proc. ICASSP、7962〜7966ページ、2013
本明細書は、1つまたは複数の場所における1つまたは複数のコンピュータ上のコンピュータプログラムとして実装されたシステムが、複数の時間ステップの各々においてそれぞれのオーディオサンプルを含むオーディオデータのシーケンスをどのように生成するかについて説明する。たとえば、オーディオのシーケンスは、特定の自然言語における音声、または楽曲を表すことができる。
1つの革新的な態様では、1つまたは複数のコンピュータによって実装されたニューラルネットワークシステムは、複数の時間ステップの各々においてそれぞれのオーディオサンプルを含むオーディオデータの出力シーケンスを生成するように構成される。ニューラルネットワークシステムは、1つまたは複数のオーディオ処理畳み込みニューラルネットワーク層を備える畳み込みサブネットワークと、出力層とを備えてもよい。畳み込みサブネットワークは、複数の時間ステップの各々について、出力シーケンスにおいて(現在の)時間ステップに先行する各時間ステップにおけるそれぞれのオーディオサンプルを含むオーディオデータの現在シーケンスを受信するように構成されてもよい。畳み込みサブネットワークは、時間(現在)ステップについての代替表現を生成するためにオーディオデータの現在シーケンスを処理するようにさらに構成されてもよい。したがって、この代替表現は、オーディオデータの現在シーケンスが、たとえば現在シーケンスの特徴を符号化して畳み込みサブネットワークによって符号化されている、数値表現、すなわち数値の順序付けられた集合を含んでもよい。出力層は、複数の時間ステップの各々について、時間ステップの代替表現を受信し、時間ステップに関する複数の可能なオーディオサンプルにわたるスコア分布を規定する出力を生成するために時間ステップの代替表現を処理するように構成されてもよい。
そのようなシステムの多くの利点のうちのいくつかについては後に説明する。システムは、分布からサンプリングすることによって、現在の時間ステップに関するサンプルを選択するためにスコア分布を使用することができる。出力は、必ずしも必要ではないが、各可能なオーディオサンプル値について1つのスコアを含んでもよく、たとえば256の可能な値について256スコアを含んでもよい。したがって、モデル出力の数を減らすために、振幅値であってもよいオーディオサンプル値を圧縮または圧伸(compand)することが有用である場合がある。
いくつかの実装形態では、畳み込みニューラルネットワーク層は、以下でより詳細に説明するように、因果的畳み込みニューラルネットワークである。具体的には、オーディオ処理畳み込みニューラルネットワーク層は、1つまたは複数の拡張因果的畳み込みニューラルネットワーク層を含んでもよい。再び、以下でより詳細に説明するように、拡張畳み込みニューラルネットワーク層は、シーケンス内の、すなわち前の層からの出力によって規定されるような非隣接値に畳み込みを適用する。これは、入力(時間)分解能を保ち、計算効率を維持しながら、畳み込みサブネットワークの受容野を桁違いに増加させることができる。
いくつかの実装形態では、畳み込みニューラルネットワーク層は、拡張畳み込みニューラルネットワーク層の複数の積層されたブロックを含む。各ブロックは、拡張が増加する複数の拡張畳み込みニューラルネットワーク層を含んでもよい。たとえば、拡張は、各ブロック内の限界まで各連続層についてn倍増加されてもよい。これは、受容野のサイズをさらに増加させることができる。
いくつかの実装形態では、畳み込みニューラルネットワーク層のうちの1つまたは複数は、ゲーテッド活性化ユニットを有してもよい。たとえば、層によって実施される畳み込みに続く正規化線形ユニットまたは他のユニットが、ゲーテッド活性化ユニットによって置き換えられてもよい。ゲーテッド活性化ユニットでは、出力は、2つの(因果的)畳み込み、主畳み込みおよびゲート畳み込みの組み合わせであってもよい。畳み込みは、各々前の層からの同じ出力のうちのいくつかまたはすべてに適用されてもよい。組み合わせは、ゲート畳み込みに適用される非線形活性化関数、たとえばシグモイドのような(0,1)範囲を有する活性化を含んでもよい。これは、次いで主畳み込みからの値を乗算してもよく、必ずしも必要ではないが、非線形活性化関数が主畳み込みに適用されてもよい。そのような手法は、データ内により複雑な構造を取り込む際に補助してもよい。
各時間ステップにおける畳み込みサブネットワークからの代替表現は、ニューラルネットワーク入力、たとえば条件付け入力の潜在的表現において条件付けられてもよい。条件付け入力は、グローバル(実質的に時間非依存的)および/または局所的(時間依存的)であってもよい。条件付け入力は、たとえばテキスト、画像もしくはビデオデータ、またはオーディオデータ、たとえば特定の話者もしくは言語もしくは音楽の例を含んでもよい。ニューラルネットワーク入力は、条件付け入力の埋め込みを含んでもよい。たとえば、テキスト-音声システムでは、グローバル条件付け入力が話者埋め込みを含んでもよく、局所的条件付け入力が言語的特徴を含んでもよい。システムは、たとえば入力を繰り返すかまたはニューラルネットワークを使用して入力をアップサンプリングすることによって、ニューラルネットワーク入力または条件付け入力をより低いサンプリング周波数からオーディオサンプル生成周波数にマッピングするように構成されてもよい。したがって、ニューラルネットワーク入力は、テキストセグメントの特徴を含んでもよく、出力シーケンスは、テキストセグメントの言語化を表してもよく、ならびに/またはニューラルネットワーク入力は、話者もしくはイントネーションパターン値を含んでもよく、ならびに/またはニューラルネットワーク入力は、話者識別情報、言語識別情報、および発話スタイル情報のうちの1つもしくは複数を含んでもよい。代替的には、出力シーケンスは、楽曲を表す。
畳み込みサブネットワークは、残差接続、たとえば畳み込み層の入力から、これを層の中間出力と合計するための加算器への接続を含んでもよい。これは、ネットワークが層をスキップまたは部分的にスキップするようにトレーニングされることを効果的に可能にし、したがって収束を高速化し、より深いモデルのトレーニングを容易にする。畳み込みサブネットワークは、追加的または代替的に、たとえば畳み込みサブネットワークの1つまたは複数の中間層の各々から出力層に提供される代替表現を直接生成する1つまたは複数の動作へのスキップ接続を含んでもよい。
いくつかの実装形態では、時間ステップについての代替表現を生成するために畳み込みサブネットワークを使用してオーディオデータの現在シーケンスを処理することは、前の時間ステップについて計算された値を再使用する。再使用される値は、オーディオサンプルデータまたはそれから導出されたデータへの畳み込みフィルタの適用から導出された値を含んでもよい。再使用された値は、ある時間ステップにおいて記憶され、同じフィルタが同じ(または同じもののいくつか)オーディオサンプルデータまたはそれから導出されたデータに適用されるとき、より後の時間ステップにおいて検索されてもよい。記憶された値を再計算する必要がないので、これはシステムを計算上より効果的に、したがってより高速にすることができる。
本明細書に記載の主題の特定の実施形態は、以下の利点のうちの1つまたは複数を実現するように実施されることが可能である。ニューラルネットワークシステムは、毎秒数万のオーダでオーディオサンプルを生成することができ、他のニューラルネットワークベースのオーディオ生成システムよりも高いレベルの粒度を提供する。ニューラルネットワークシステムは、たとえば最先端の技法よりも高品質のテキストから音声を生成することによって、オーディオ生成タスクにおいて最先端よりもはるかに性能が優れている結果を達成することができる。話者のアイデンティティを条件とすることによって異なる音声を生成するために、単一のトレーニングされたニューラルネットワークシステムが使用されることが可能である。リカレント型ニューラルネットワーク層の代わりに、たとえば長短期記憶(LSTM)層の代わりに、畳み込みニューラルネットワーク層、たとえば因果的畳み込み層を使用することによって、ニューラルネットワークシステムは、リカレント型ニューラルネットワーク層を含む他のシステムと同じくらい多くの計算リソースを必要とせずに、これらの有利な結果を達成することができ、短縮されたトレーニング時間をもたらす。リカレント層ではなく畳み込み層を用いることによって、ニューラルネットワークシステムの計算は、たとえばネットワークの層が各時間ステップについて展開される必要がないので、より容易にバッチ処理され、より容易に並列化されることが可能であり、システムの計算をより効率的に実行することを可能にする。加えて、拡張因果的畳み込み層を用いることによって、畳み込みサブネットワークの受容野と、したがってシステムによって生成されるオーディオの品質とは、オーディオを生成するための計算コストを大幅に増加させることなく改善されることが可能である。
本明細書に記載の主題の1つまたは複数の実施形態の詳細は、添付図面および以下の説明において記載されている。主題の他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。
例示的なニューラルネットワークシステムを示す図である。 拡張因果的畳み込み層の例示的なブロックの視覚化を示す図である。 畳み込みサブネットワークに関する例示的なアーキテクチャを示す図である。 オーディオシーケンス内の所与の時間ステップにおいてオーディオサンプルを生成するための例示的なプロセスのフロー図である。
様々な図面における同様の参照番号および名称は、同様の要素を示す。
図1は、例示的なニューラルネットワークシステム100を示す。ニューラルネットワークシステム100は、以下で説明するシステム、構成要素、および技法が実装されることが可能な、1つまたは複数の場所における1つまたは複数のコンピュータ上のコンピュータプログラムとして実装されるシステムの一例である。
ニューラルネットワークシステム100は、各々が複数の時間ステップの各々におけるそれぞれのオーディオサンプルを含むオーディオデータのシーケンス、たとえばオーディオデータの出力シーケンス152を生成する。
一般に、所与のオーディオシーケンスにおける各時間ステップは、オーディオ波形内のそれぞれの時間に対応し、時間ステップにおけるオーディオサンプルは、対応する時間における波形を特徴付ける。いくつかの実装形態では、シーケンス内の各時間ステップにおけるオーディオサンプルは、対応する時間におけるオーディオ波形の振幅であり、すなわちニューラルネットワークシステム100によって生成されるシーケンスは、生の音声波形である。いくつかの他の実装形態では、シーケンス内の各時間ステップにおけるオーディオサンプルは、対応する時間における波形の圧縮表現または圧伸表現である。たとえば、オーディオサンプルは、波形のμ-law変換表現とすることができる。
より具体的には、ニューラルネットワークシステム100は、自己回帰的にオーディオシーケンスを生成する。すなわち、出力オーディオシーケンス内の各特定の時間ステップについて、ニューラルネットワークシステム100は、特定のタイムステップの時点ですでに生成されているオーディオサンプルを条件とする、すなわちオーディオシーケンス内の特定のタイムステップよりも早いタイムステップにおけるオーディオサンプルを条件とするタイムステップにおけるオーディオサンプルを生成する。
ニューラルネットワークシステム100は、畳み込みサブネットワーク110と出力層120とを含む。
オーディオシーケンスの生成中の各タイムステップにおいて、畳み込みサブネットワーク110は、現在のオーディオシーケンス、すなわちそのタイムステップの時点ですでに生成されているオーディオシーケンスを受信し、そのタイムステップの代替表現を生成するために現在のオーディオシーケンスを処理するように構成される。たとえば、オーディオシーケンス152内のオーディオサンプル140を生成するとき、畳み込みサブネットワーク110は、オーディオシーケンス152内のオーディオサンプル140に先行するオーディオサンプルを含む現在のオーディオシーケンス142を受信し、代替表現144を生成するために現在のオーディオシーケンス142を処理することができる。
出力層120は、タイムステップの各々において、そのタイムステップにおける代替表現を受信し、その時間ステップに関する可能なオーディオサンプルにわたるスコア分布を生成するように構成される。スコア分布は、複数の可能なオーディオサンプルの各々に関するそれぞれのスコアを含む。いくつかの実装形態では、出力層120は、ソフトマックス出力層である。たとえば、出力層120は、代替表現144を受信し、スコア分布146を生成するために代替表現144を処理することができる。
具体的には、ニューラルネットワークシステム100が生のオーディオデータを生成するように構成されるとき、スコア分布は、複数の可能な振幅値の各々に関するそれぞれのスコアを含む。ニューラルネットワークシステム100が圧縮値または圧伸値を生成するように構成されるとき、スコア分布は、複数の可能な圧縮値または圧伸値の各々に関するそれぞれのスコアを含む。
出力層146が所与の時間ステップに関するスコア分布を生成すると、ニューラルネットワークシステム100は、所与の時間ステップに関するスコア分布に従って複数の可能なオーディオサンプルから所与の時間ステップにおける出力シーケンス内に含まれるべきオーディオサンプルを選択することができる。たとえば、ニューラルネットワークシステム100は、スコア分布からサンプリングすることによって、すなわち各オーディオサンプルがオーディオサンプルに関するスコアに対応する尤度を用いて選択されるようにスコア分布内のスコアに従って可能なオーディオサンプルからサンプリングすることによってオーディオサンプルを選択することができ、またはスコア分布に従って最高スコアを有する可能なオーディオサンプルを選択することができる。
畳み込みサブネットワーク110は、一般に複数のオーディオ処理畳み込みニューラルネットワーク層を含む。より具体的には、オーディオ処理畳み込みニューラルネットワーク層は、複数の因果的畳み込み層を含む。
因果的畳み込み層は、各時間ステップについて、その時間ステップにおける、および入力シーケンス内のその時間ステップよりも前の時間ステップにおける入力のみに依存する、すなわち入力シーケンス内のその時間ステップの後の任意の時間ステップにおけるどの入力にも依存しない出力を生成することによって、複数の時間ステップの各々におけるそれぞれの入力を有する入力シーケンスに作用する畳み込み層である。場合によっては、因果的畳み込み層は、通常の畳み込みを適用し、次いで畳み込み層に関する活性化関数を適用する前に、通常の畳み込みの各出力を少数の時間ステップだけシフトすることによって、すなわち各出力を前方に(フィルタ長-1)時間ステップだけシフトすることによって実装され、ここで「フィルタ長」は、適用されている畳み込みのフィルタの長さである。
過剰な数の層または過剰な長さのフィルタを必要とすることなくオーディオ処理畳み込み層の受容野を増大するために、オーディオ処理畳み込み層のうちのいくつかまたはすべては、拡張因果的畳み込み層とすることができる。拡張畳み込みは、拡張畳み込みに関する拡張値によって規定される特定のステップで入力値をスキップすることによって、フィルタがその長さよりも大きい領域にわたって適用される畳み込みである。拡張因果的畳み込みを組み込むことによって、オーディオ処理ニューラルネットワーク層は、通常の畳み込みよりも粗いスケールでそれらの入力に対して効果的に動作する。
いくつかの実装形態では、オーディオ処理ニューラルネットワーク層は、拡張因果的畳み込み層の複数のブロックのスタックを含む。スタック内の各ブロックは、拡張が増大する複数の拡張畳み込みニューラルネットワーク層を含むことができる。たとえば、ブロック内で、拡張は、最初の拡張から開始して各層について2倍になることができ、次いで次のブロック内の第1の層について最初の拡張に戻ることができる。例示的な例として、ブロック内の拡張畳み込み層の拡張は、順番に、1、2、4、...、512とすることができる。拡張畳み込み層のブロックの単純化した例について、図2を参照して以下に説明する。
いくつかの実装形態では、畳み込みサブネットワークは、残差接続、スキップ接続、またはその両方を含む。残差接続とスキップ接続の両方を含む畳み込みサブネットワークの例示的なアーキテクチャについて、図3を参照して以下に説明する。
いくつかの実装形態では、ニューラルネットワークシステム100は、ニューラルネットワーク入力を条件とするオーディオシーケンスを生成する。たとえば、ニューラルネットワークシステム100は、ニューラルネットワーク入力102を条件とするオーディオシーケンス152を生成することができる。
場合によっては、ニューラルネットワーク入力は、1つまたは複数の局所的特徴、すなわち出力シーケンス内の時間ステップごとに異なる1つまたは複数の特徴を含む。たとえば、ニューラルネットワークシステム100は、テキストセグメントの言語的特徴を入力として取得することができ、テキストセグメントの言語表現を表すオーディオシーケンスを生成することができ、すなわちニューラルネットワークシステム100は、書かれたテキストを話された音声に変換するテキスト−音声システムの一部として機能することができ、ニューラルネットワークシステム100によって生成されたオーディオシーケンスを言語化する構成要素を含むこともできる。
いくつかの他の場合では、ニューラルネットワーク入力は、1つまたは複数のグローバル特徴、すなわち出力シーケンス全体を通して同じである1つまたは複数の特徴を含む。一例として、ニューラルネットワークシステム100は、話者のアイデンティティを条件とする音声、すなわち音声が話者の声のように聞こえるように生成されるように音声を生成することができる。この例では、ニューラルネットワークシステム100は、話者のアイデンティティを符号化するベクトル、たとえば話者を識別するワンホット符号化ベクトルを取得し、生成された音声を、取得されたベクトルを条件にすることができる。
一般に、オーディオシーケンスは、畳み込みサブネットワーク内の畳み込み層のうちのいくつかまたはすべての活性化関数を条件付けることによって、ニューラルネットワーク入力を条件とする。すなわち、活性化関数の出力と、したがって畳み込み層の出力とは、層によって実行される畳み込みの出力だけでなく、ニューラルネットワーク入力にも依存する。
ニューラルネットワーク入力において畳み込み層の活性化関数を条件付けることについて、図3を参照して以下により詳細に説明する。
図2は、拡張因果的畳み込み層の例示的なブロックの視覚化200を示す。具体的には、例示的なブロックは、拡張1を有する拡張因果的畳み込み層204と、拡張2を有する拡張因果的畳み込み層206と、拡張4を有する拡張因果的畳み込み層208と、拡張8を有する拡張因果的畳み込み層210とを含む。
視覚化200では、拡張因果的畳み込み層のブロックは、出力シーケンスを生成するために現在の入力シーケンス202に対して作用している。具体的には、視覚化200は、ブロックがどのようにして現在の入力シーケンス202および出力シーケンスにおける現在最後の時間ステップである時間ステップにおける出力である出力212を生成するかを太い矢印を使用して視覚化する。
視覚化200からわかるように、ブロック内の各層は因果的畳み込み層であるので、出力212は、ブロック内の層によって作用される様々なシーケンス内の最後の現在の時間ステップまたは最後の現在の時間ステップの前の時間ステップにおける出力のみに依存する。
加えて、視覚化200からわかるように、ブロック内の層は、拡張が増加する順に配置され、ブロック内の第1の層、すなわち拡張因果的畳み込み層204は拡張1を有し、ブロック内の最後の層、すなわち拡張因果的畳み込み層204は拡張8を有する。具体的には、視覚化200において太い矢印によって示されるように、拡張因果的畳み込み層204は拡張1を有するので、層204のフィルタは、現在の入力シーケンス202内の隣接する入力に適用される。拡張因果的畳み込み層206は拡張2を有するので、層206のフィルタは、層204によって生成された出力シーケンス内の1つの出力によって分離された出力に適用される。拡張因果的畳み込み層208は拡張4を有するので、層208のフィルタは、層206によって生成された出力シーケンス内の3つの出力によって分離された出力に適用される。拡張因果的畳み込み層210は拡張8を有するので、層210のフィルタは、層208によって生成された出力シーケンス内の7つの出力によって分離された出力に適用される。
図3は、図1の畳み込みサブネットワーク110に関する例示的なアーキテクチャ300を示す。上記で説明したように、例示的なアーキテクチャ300では、畳み込みサブネットワーク内にある拡張因果的畳み込み層は、残差接続とスキップ接続とを有する。
具体的には、アーキテクチャ300では、畳み込みサブネットワーク110は、現在の出力シーケンス142を処理する、すなわち現在の出力シーケンス142に因果的畳み込みを適用することによる因果的畳み込み層を含む。
畳み込みサブネットワーク110は、次いで拡張因果的畳み込み層のスタックを通して因果的畳み込み層302の出力を処理する。
スタック内の各拡張因果的畳み込み層304は、拡張因果的畳み込み層304への入力306に拡張因果的畳み込み層308を適用する。上記で説明したように、いくつかの実装形態では、スタック内の拡張因果的畳み込み層はブロック内に配置され、各層によって適用される拡張因果的畳み込みの拡張は所与のブロック内で増加し、次いで次のブロック内の第1の層について初期値で再開する。
いくつかの実装形態では、スタック内の拡張因果的畳み込み層は、要素ごとに非線形の、すなわち従来の活性化関数の出力が要素ごとにゲートベクトルを乗算されるゲーテッド活性化関数を有する。これらの実装形態のうちのいくつかでは、拡張因果的畳み込み308は、層入力302上に2つの拡張因果的畳み込み、層304に関するメインフィルタと層入力306との間の第1の拡張因果的畳み込みと、層304に関するゲートフィルタと層入力306との間の別の拡張因果的畳み込みとを含む。これらの実装形態のうちの他のものでは、拡張因果的畳み込み308は単一の拡張因果的畳み込みであり、単一の畳み込みの出力の半分は、層304に関するメインフィルタと層入力306との間の拡張因果的畳み込みの出力として提供され、単一の畳み込みの出力の他の半分は、層304に関するゲートフィルタと層入力306との間の拡張因果的畳み込みの出力として提供される。
拡張因果的畳み込み層304は、次いで拡張因果的畳み込みの出力を使用して層304の活性化関数の出力を決定する。
具体的には、活性化関数がゲーテッド活性化関数であり、生成されている出力シーケンスがニューラルネットワーク入力を条件としていないとき、層304は、図3の例ではtanh関数である要素ごとの非線形関数310を、メインフィルタを用いた拡張畳み込みの出力に適用し、図3の例ではシグモイド関数である要素ごとのゲーティング関数を、ゲートフィルタを用いた拡張畳み込みの出力に適用する。層304は、次いで活性化関数出力を生成するために、非線形関数310とゲーティング関数312の出力との間で要素ごとの乗算314を実行する。
より具体的には、要素ごとの非線形性がtanhであり、要素ごとのゲーティング関数がシグモイド関数であるとき、層kに関する活性化関数zの出力は、
Figure 2019532349
を満たし、ここでWf,kは層kに関するメインフィルタであり、xは層入力であり、*は因果的拡張畳み込みを示し、
Figure 2019532349
は要素ごとの乗算を示し、Wg,kは層kに関するゲートフィルタである。
生成されている出力シーケンスがニューラルネットワーク入力を条件としているとき、層304はまた、ニューラルネットワーク入力を活性化関数の出力の条件にする。具体的には、非線形関数およびゲーティング関数は、各々対応する拡張畳み込み出力とニューラルネットワーク入力から生成された入力との組み合わせを入力として受け取る。
より具体的には、ニューラルネットワーク入力がグローバル特徴を含み、したがってシーケンス内のタイムステップのすべてについて同じであり、要素ごとの非線形性はtanhであり、要素ごとのゲーティング関数は、シグモイド関数であるとき、層kに関する活性化関数zの出力は、
Figure 2019532349
を満たし、ここで
Figure 2019532349
は層kに関する(活性化関数の主成分に対するhの)主学習可能線形投影であり、hはニューラルネットワーク入力であり、
Figure 2019532349
は、層kに関する(活性化関数のゲート成分に対するhの)ゲート学習可能線形投影である。
代替的には、ニューラルネットワーク入力が局所的特徴、すなわち時間ステップごとに変化する特徴を含むとき、システム100は、出力シーケンス内の各時間ステップに関する特徴のセットを含むシーケンスyを取得する。このとき、層kに関する活性化関数zの出力は、
Figure 2019532349
を満たし、ここでVf,k*yおよびVg,k*yは、それぞれ1×1の畳み込みである。いくつかの実装形態では、システム100は、ニューラルネットワーク入力としてシーケンスyを直接受信し、すなわち出力シーケンスと同じ分解能を有するシーケンスを直接受信する。他の実装形態では、システム100は、出力シーケンスよりも低い分解能、すなわちより低いサンプリング周波数を有するシーケンスを受信する。これらの場合、システムは、シーケンスyを生成するために転置(学習アップサンプリング)畳み込みネットワークを使用してより低い分解能のシーケンスを処理することによってシーケンスyを生成することができ、またはシーケンスyを生成するために時間を通じてより低い分解能のシーケンスからの値を繰り返すことができる。
一例として、局所的特徴がテキストから音声への生成に使用するための言語的特徴であるとき、言語的特徴は、単音、音節、単語、句、およびテキストの発声レベルの特徴のうちのいくつかまたはすべてを含むことができる。使用することができる言語的特徴の例示的なセットは、Zen、Heiga. An example of context-dependent label format for HMM-based speech synthesis in English、2006. URL http://hts.sp.nitech.ac.jp/?DownloadならびにZen、Heiga、Senior、Andrew、およびSchuster、Mike. Statistical parametric speech synthesis using deep neural networks. In Proc. ICASSP、7962〜7966ページ、2013に記載されている。
アーキテクチャ300は、拡張因果的畳み込み層に関するスキップ接続と残差接続とを含むので、層304は、次いで活性化関数出力に対して1×1畳み込み316を実行する。
層304は、層のスキップ出力318として1×1畳み込みの出力を提供し、層304の最終出力320を生成するために、残差、すなわち層入力306と、1×1畳み込みの出力とを加算する。畳み込みサブネットワーク110は、次いでスタック内の次の拡張畳み込み層への層入力として最終出力320を提供する。
いくつかの実装形態では、層304は、活性化関数出力に対して2つの1×1畳み込みを実行し、一方は残差フィルタを用い、他方はスキップフィルタを用いる。これらの実装形態では、層304は、スキップフィルタを用いる畳み込みの出力を層のスキップ出力318として提供し、層304の最終出力320を生成するために、残差と、残差フィルタを用いる1×1畳み込みの出力とを加算する。
畳み込みサブネットワーク110は、次いでスタック内の次の拡張畳み込み層への層入力として最終出力320を提供する。スタック内の最後の層について、次の層がないので、畳み込みサブネットワーク110は、最後の層によって生成された最終出力320を破棄することができ、または最終出力を計算することを控えることができ、すなわちスタック内の最後の層に対する1×1畳み込みおよび残差の加算を実行することを控えることができる。
拡張畳み込み層のスタック内のすべての層304の処理が完了すると、畳み込みサブネットワーク110は、層304によって生成されたスキップ出力を合計する(322)。畳み込みサブネットワーク110は、次いで代替表現144を生成するために、1つもしくは複数の非線形関数、1つもしくは複数の1×1畳み込み、またはその両方を合計322に適用することができる。具体的には、図3の例では、畳み込みサブネットワーク110は、代替表現144を生成するために、要素ごとの非線形性324、たとえばReLU、それに続く1×1畳み込み326、それに続く別の要素ごとの非線形性328、およびそれに続く最後の1×1畳み込み330を適用する。
上記で説明したように、出力層120は、次いでスコア分布146を生成するために代替表現144を処理する。
図4は、オーディオシーケンス内の所与の時間ステップにおけるオーディオサンプルを生成するための例示的な処理400のフロー図である。便宜上、プロセス400は、1つまたは複数の場所に配置された1つまたは複数のコンピュータのシステムによって実行されるものとして説明される。たとえば、適切にプログラムされたニューラルネットワークシステム、たとえば図1のニューラルネットワークシステム100は、プロセス400を実行することができる。
システムは、畳み込みサブネットワークへの入力として現在のオーディオシーケンスを提供する(ステップ402)。現在のオーディオシーケンスは、所与の時間ステップの時点ですでに生成されている音声シーケンス、すなわち所々の時間ステップの前の時間ステップにおける出力オーディオサンプルを含むシーケンスである。上記で説明したように、畳み込みサブネットワークは、オーディオ処理畳み込みニューラルネットワーク層、たとえば拡張因果的畳み込み層を含み、所与の時間ステップに関する代替表現を生成するためにオーディオデータの現在シーケンスを処理するように構成される。
システムは、出力層、たとえばソフトマックス出力層への入力として代替表現を提供する(ステップ404)。出力層は、時間ステップに関する可能なオーディオサンプルにわたるスコア分布を生成するために代替表現を処理するように構成される。
システムは、スコア分布に従って所与の時間ステップにおいてオーディオシーケンス内に含めるためのオーディオサンプルを選択する(ステップ406)。たとえば、システムは、スコア分布に従って可能なオーディオサンプルをサンプリングすることができる。
システムは、生のまたは圧縮されたおよび/もしくは圧伸されたオーディオデータ、たとえば人間の話者、音楽などの波形についてトレーニングされてもよい。オプションで、テキストの言語化のためのオーディオデータと対になったテキストから導出された言語的特徴として表されてもよい条件付データ、たとえばテキスト-音声データが含まれてもよい。トレーニング時、すなわち畳み込み層のフィルタおよびシステムの任意の他のパラメータのトレーニング値を決定するための畳み込みサブネットワークおよび出力層のトレーニングの間、システムによって生成されるべきグラウンドトゥルース出力のすべての時間ステップが既知であるので、システムは、並列に、すなわち自己回帰的にではなく、すべての時間ステップについて条件予測を生成することができる。一般に、システムは、従来の教師付き学習技法、たとえば逆伝播ベースの技法を用いる確率的勾配降下法を使用して、パラメータのトレーニング値を決定するためにトレーニングを実行することができる。上記で説明したように、この並列化および因果的畳み込み層の使用のために、システムは、他のシステム、再帰ニューラルネットワーク層を含むものと同じくらい多くの計算リソースをトレーニングする必要がなく、短縮されたトレーニング時間をもたらす。
加えて、システムは、出力シーケンスを自己回帰的に生成するので、いくつかの実装形態では、畳み込みサブネットワークは、所与の時間ステップについての代替表現を計算するとき、前の時間ステップについて計算された値を再使用する。具体的には、同じオーディオサンプルがサブネットワークへの入力として2回以上提供されるので、畳み込みサブネットワークによって実行される計算のうちのいくつかは、複数の異なる時間ステップにおいて同じになる。これらの実装形態では、時間ステップごとに計算を再計算するのではなく、畳み込みサブネットワークは、計算が実行された1回目に計算の出力値を記憶し、次いで記憶された出力値を後続の時間ステップにおいて再使用することができる。単純な例として、畳み込みサブネットワーク内の第1の畳み込み層は、オーディオシーケンスの生成の間、同じフィルタを同じオーディオサンプル値に複数回適用することになる。各時間ステップにおいてこれらのフィルタ適用の出力を再計算するのではなく、システムは、前の時間ステップにおいて計算された出力を再使用することができる。
いくつかの実装形態では、受容野を増加させるための別の方法として、より小さい受容野を有する別の(より大きい)スタックを条件付けるために、非常に大きい(長い)受容野を有するが、好ましくは層あたりのユニットがより少ない拡張因果的畳み込み層の1つのスタックが用いられてもよい。より大きいスタックは、たとえば最後に切り取られる、オーディオ信号のより短い部分を処理してもよい。
本明細書は、システムおよびコンピュータプログラム構成要素に関連して「構成される」という用語を使用する。1つまたは複数のコンピュータのシステムについて、特定の動作またはアクションを実行するように構成されることは、動作中にシステムに動作またはアクションを実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせをシステムがインストールしていることを意味する。1つまたは複数のコンピュータプログラムについて、特定の動作またはアクションを実行するように構成されることは、データ処理装置によって実行されると装置に動作またはアクションを実行させる命令を1つまたは複数のプログラムが含むことを意味する。
本明細書に記載の主題および機能動作の実施形態は、デジタル電子回路において、有形に具体化されたコンピュータソフトウェアもしくはファームウェアにおいて、本明細書において開示された構造およびそれらの構造的等価物を含むコンピュータハードウェアにおいて、またはそれらのうちの1つもしくは複数の組み合わせにおいて実装することができる。本明細書に記載の主題の実施形態は、1つまたは複数のコンピュータプログラムとして、すなわちデータ処理装置による実行のため、またはデータ処理装置の動作を制御するための、有形の非一時的記憶媒体上に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実装することができる。コンピュータ記憶媒体は、機械可読記憶デバイス、機械可読記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらのうちの1つもしくは複数の組み合わせとすることができる。代替的にまたは追加的に、プログラム命令は、データ処理装置による命令のために適切なレシーバ装置への送信のための情報を符号化するために生成された、人工的に生成された伝搬信号、たとえば機械生成された電気信号、光信号、または電磁信号上に符号化することができる。
「データ処理装置」という用語は、データ処理ハードウェアを指し、例としてプログラム可能プロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含むすべての種類の装置、デバイス、および機械を包含する。装置は、専用論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)とすることができ、またはそれらをさらに含むことができる。装置は、ハードウェアに加えて、コンピュータプログラムのための実行環境を作成するコード、たとえばプロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらのうちの1つもしくは複数の組み合わせを構成するコードをオプションで含むことができる。
プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ、モジュール、ソフトウェアモジュール、スクリプト、またはコードとも呼ばれるまたは記述される場合もあるコンピュータプログラムは、コンパイル型言語もしくはインタープリタ型言語、または宣言型言語もしくは手続き型言語を含む任意の形態のプログラミング言語で書くことができ、スタンドアロンプログラムとして、またはモジュール、構成要素、サブルーチン、もしくはコンピューティング環境において使用するのに適した他のユニットとしてを含む任意の形態で展開することができる。プログラムは、必要ではないが、ファイルシステム内のファイルに対応してもよい。プログラムは、他のプログラムまたはデータを保持するファイルの一部、たとえばマークアップ言語文書内に記憶された1つまたは複数のスクリプト内に、対象のプログラム専用の単一のファイル内に、または複数の協調ファイル、たとえば1つもしくは複数のモジュール、サブプログラム、もしくはコードの一部を記憶するファイル内に記憶することができる。コンピュータプログラムは、1つのコンピュータ上に、または1つのサイトにおいてもしくは複数のサイトにわたって配置し、データ通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することができる。
本明細書では、「データベース」という用語は、データの任意の集合を指すように広く使用され、データは、任意の特定の方法で構成される必要はなく、またはまったく構成される必要はなく、1つまたは複数の場所における記憶デバイス上に記憶することができる。したがって、たとえばインデックスデータベースは、データの複数の集合を含むことができ、その各々は、異なって編成されアクセスされてもよい。
同様に、本明細書では、「エンジン」という用語は、ソフトウェアベースのシステム、サブシステム、または1つもしくは複数の特定の機能を実行するようにプログラムされたプロセスを指すように広く使用される。一般に、エンジンは、1つまたは複数の場所における1つまたは複数のコンピュータ上にインストールされた1つまたは複数のソフトウェアモジュールまたは構成要素として実装されることになる。場合によっては、1つまたは複数のコンピュータが特定のエンジン専用にされることになり、他の場合では、複数のエンジンが同じコンピュータ上にインストールされ、実行されることが可能である。
本明細書に記載のプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実行するために1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラム可能コンピュータによって実行することができる。プロセスおよび論理フローは、専用論理回路、たとえばFPGAもしくはASICによって、または専用論理回路および1つもしくは複数のプログラムされたコンピュータの組み合わせによって実行することもできる。
コンピュータプログラムの実行に適したコンピュータは、汎用マイクロプロセッサもしくは専用マイクロプロセッサもしくはその両方、または任意の他の種類の中央処理装置に基づくことができる。一般に、中央処理装置は、読み出し専用メモリまたはランダムアクセスメモリまたはその両方から命令およびデータを受信することになる。コンピュータの必須要素は、命令を実行または遂行するための中央処理装置と、命令およびデータを記憶するための1つまたは複数のメモリデバイスとである。中央処理装置およびメモリは、専用論理回路によって補完されるか、またはその中に組み込まれることが可能である。一般に、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば磁気ディスク、光磁気ディスク、または光ディスクも含むか、またはそれらからデータを受信する、もしくはそれらにデータを送信する、もしくはその両方のために動作可能に結合されることになる。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。さらに、コンピュータは、別のデバイス、たとえば少しだけ例を挙げると、モバイル電話、携帯情報端末(PDA)、モバイルオーディオもしくはビデオプレーヤ、ゲームコンソール、全地球測位システム(GPS)レシーバ、または携帯型記憶デバイス、たとえばユニバーサルシリアルバス(USB)フラッシュドライブ内に組み込むことができる。
コンピュータプログラムおよびデータを記憶するのに適したコンピュータ可読媒体は、例として半導体メモリデバイス、たとえばEPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば内部ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。
ユーザとの対話を提供するために、本明細書に記載の主題の実施形態は、情報をユーザに表示するためのディスプレイデバイス、たとえばCRT(陰極線管)またはLCD(液晶ディスプレイ)と、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールとを有するコンピュータ上で実施することができる。ユーザとの対話を提供するために、他の種類のデバイスを同様に使用することができ、たとえばユーザに提供されるフィードバックは、任意の形態の感覚的フィードバック、たとえば視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックとすることができ、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受信することができる。加えて、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、そこから文書を受信することによって、たとえばユーザのデバイス上のウェブブラウザから受信した要求に応答してウェブブラウザにウェブページを送信することによってユーザと対話することができる。また、コンピュータは、パーソナルデバイス、たとえばメッセージングアプリケーションを実行しているスマートフォンにテキストメッセージまたは他の形態のメッセージを送信し、引き換えにユーザから応答メッセージを受信することによってユーザと対話することができる。
機械学習モデルを実施するためのデータ処理装置は、たとえば機械学習のトレーニングまたは製作、すなわち推論、作業負荷の共通部分および計算集約的部分を処理するための専用ハードウェアアクセラレータユニットを含むこともできる。
機械学習モデルは、機械学習フレームワーク、たとえばTensorFlowフレームワーク、Microsoft Cognitive Toolkitフレームワーク、Apache Singaフレームワーク、またはApache MXNetフレームワークを使用して実装し展開することができる。
本明細書に記載の主題の実施形態は、バックエンド構成要素を、たとえばデータサーバとして含む、またはミドルウェア構成要素、たとえばアプリケーションサーバを含む、またはフロントエンド構成要素、たとえばグラフィカルユーザインターフェース、ウェブサーバ、もしくはユーザが、本明細書に記載の主題の実装形態と対話することができるアプリケーションを有するクライアントコンピュータを含む、または1つまたは複数のそのようなバックエンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組み合わせを含むコンピューティングシステムにおいて実装することができる。システムの構成要素は、任意の形態または媒体のデジタルデータ通信、たとえば通信ネットワークによって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)およびワイドエリアネットワーク(WAN)、たとえばインターネットを含む。
コンピューティングシステムは、クライアントとサーバとを含むことができる。クライアントおよびサーバは、一般に互いに離れており、典型的には、通信ネットワークを介して対話する。クライアントおよびサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生じる。いくつかの実施形態では、サーバは、クライアントとして動作するデバイスと対話するユーザにデータを表示し、そこからユーザ入力を受信する目的のために、データ、たとえばHTMLページをユーザデバイスに送信する。ユーザデバイスにおいて生成されたデータ、たとえばユーザ対話の結果は、デバイスからサーバにおいて受信することができる。
本明細書は、多くの具体的な実装形態の詳細を含むが、これらは、任意の発明の範囲に対する限定、または特許請求されてもよい範囲に対する限定として解釈されるべきではなく、特定の発明の特定の実施形態に特有である場合がある特徴の説明として解釈されるべきである。本明細書において別々の実施形態の文脈で説明されている特定の特徴は、単一の実施形態において組み合わせて実施することもできる。逆に、単一の実施形態の文脈で説明されている様々な特徴は、複数の実施形態において別々に、または任意の適切な部分的組み合わせにおいて実施することもできる。さらに、特徴は、特定の組み合わせにおいて作用するものとして上記で説明されている場合があり、そのようなものとして当初は特許請求されている場合さえあるが、特許請求された組み合わせからの1つまたは複数の特徴は、場合によっては組み合わせから削除することができ、特許請求された組み合わせは、部分的組み合わせまたは部分的組み合わせの変形例に向けられてもよい。
同様に、動作は、特定の順序で図面に描かれ、特許請求の範囲に列挙されているが、これは所望の結果を達成するために、そのような動作が示された特定の順序もしくはシーケンシャルな順序で実行されること、または示されたすべての動作が実行されることを必要とするものとして理解されるべきではない。特定の状況では、マルチタスキングおよび並列処理が有利な場合がある。さらに、上記で説明した実施形態における様々なシステムモジュールおよび構成要素の分離は、すべての実施形態においてそのような分離を必要とするものとして理解されるべきではなく、説明されたプログラム構成要素およびシステムは、一般に単一のソフトウェア製品において一緒に統合することができ、または複数のソフトウェア製品にパッケージ化することができることが理解されるべきである。
主題の特定の実施形態について説明した。他の実施形態は、以下の特許請求の範囲の範囲内にある。たとえば、特許請求の範囲内に列挙されたアクションは、異なる順序で実行することができ、依然として所望の結果を達成することができる。一例として、添付の図面において描かれたプロセスは、所望の結果を達成するために、示された特定の順序、またはシーケンシャルな順序を必ずしも必要としない。場合によっては、マルチタスキングおよび並列処理が有利な場合がある。
100 ニューラルネットワークシステム、システム
102 ニューラルネットワーク入力
110 畳み込みサブネットワーク
120 出力層
140 オーディオサンプル
142 現在のオーディオシーケンス、現在の出力シーケンス
144 代替表現
146 スコア分布、出力層
152 オーディオデータの出力シーケンス、オーディオシーケンス
200 視覚化
202 現在の入力シーケンス
204 拡張因果的畳み込み層、層
206 拡張因果的畳み込み層、層
208 拡張因果的畳み込み層、層
210 拡張因果的畳み込み層、層
212 出力
300 アーキテクチャ
302 因果的畳み込み層、層入力
304 拡張因果的畳み込み層、層
306 入力、層入力
308 拡張因果的畳み込み層
310 非線形関数
312 ゲーティング関数
314 乗算
316 1×1畳み込み
318 スキップ出力
320 最終出力
322 合計
324 非線形性
326 1×1畳み込み
328 非線形性
330 1×1畳み込み

Claims (37)

1つまたは複数のコンピュータによって実装されたニューラルネットワークシステムであって、
前記ニューラルネットワークシステムが、複数の時間ステップの各々においてそれぞれのオーディオサンプルを含むオーディオデータの出力シーケンスを生成するように構成され、
前記ニューラルネットワークシステムが、
1つまたは複数のオーディオ処理畳み込みニューラルネットワーク層を備える畳み込みサブネットワークであって、前記畳み込みサブネットワークが、前記複数の時間ステップの各々について、
前記出力シーケンスにおいて前記時間ステップに先行する各時間ステップにおける前記それぞれのオーディオサンプルを含むオーディオデータの現在シーケンスを受信し、
前記時間ステップについての代替表現を生成するために前記オーディオデータの現在シーケンスを処理する
ように構成される、畳み込みサブネットワークと、
出力層であって、前記出力層が、前記複数の時間ステップの各々について、
前記時間ステップの前記代替表現を受信し、
前記時間ステップに関する複数の可能なオーディオサンプルにわたるスコア分布を規定する出力を生成するために前記時間ステップの前記代替表現を処理する
ように構成される、出力層と
を備える、ニューラルネットワークシステム。
前記ニューラルネットワークシステムが、
前記複数の時間ステップの各々について、
前記時間ステップの前記スコア分布に従って前記出力シーケンス内の前記時間ステップにおけるオーディオサンプルを選択する
ように構成されるサブシステムをさらに備える、請求項1に記載のニューラルネットワークシステム。
前記オーディオ値を選択することが、
前記スコア分布からサンプリングすること
を含む、請求項2に記載のニューラルネットワークシステム。
前記オーディオ値を選択することが、
前記スコア分布に従って最高スコアを有するオーディオサンプルを選択すること
を含む、請求項2に記載のニューラルネットワークシステム。
前記複数の時間ステップの各々がオーディオ波形内のそれぞれの時間に対応し、前記複数の時間ステップの各々における前記それぞれのオーディオサンプルが、前記対応する時間における前記オーディオ波形の振幅値である、請求項1から4のいずれか一項に記載のニューラルネットワークシステム。
前記複数の時間ステップの各々がオーディオ波形内のそれぞれの時間に対応し、前記複数の時間ステップの各々における前記それぞれのオーディオサンプルが、前記対応する時間における前記オーディオ波形の圧縮されたまたは圧伸された表現である、請求項1から4のいずれか一項に記載のニューラルネットワークシステム。
前記オーディオ処理畳み込みニューラルネットワーク層が因果的畳み込みニューラルネットワーク層である、請求項1から6のいずれか一項に記載のニューラルネットワークシステム。
前記オーディオ処理畳み込みニューラルネットワーク層が1つまたは複数の拡張畳み込みニューラルネットワーク層を含む、請求項1から7のいずれか一項に記載のニューラルネットワークシステム。
前記オーディオ処理畳み込みニューラルネットワーク層が拡張畳み込みニューラルネットワーク層の複数のブロックを含み、各ブロックが、拡張が増加する複数の拡張畳み込みニューラルネットワーク層を備える、請求項8に記載のニューラルネットワークシステム。
前記オーディオ処理畳み込みニューラルネットワーク層のうちの1つまたは複数がゲーテッド活性化ユニットを有する、請求項1から9のいずれか一項に記載のニューラルネットワークシステム。
前記複数の時間ステップの各々において、前記代替表現がニューラルネットワーク入力を条件とする、請求項1から10のいずれか一項に記載のニューラルネットワークシステム。
前記ニューラルネットワーク入力がテキストセグメントの特徴を含み、前記出力シーケンスが前記テキストセグメントの言語化を表す、請求項11に記載のニューラルネットワークシステム。
前記ニューラルネットワーク入力がイントネーションパターン値をさらに含む、請求項12に記載のニューラルネットワークシステム。
前記ニューラルネットワーク入力が、話者識別情報、言語識別情報、および発話スタイル情報のうちの1つもしくは複数を含む、請求項11から13のいずれか一項に記載のニューラルネットワークシステム。
前記出力シーケンスが楽曲を表す、請求項1から14のいずれか一項に記載のニューラルネットワークシステム。
前記畳み込みサブネットワークが残差接続を含む、請求項1から15のいずれか一項に記載のニューラルネットワークシステム。
前記畳み込みサブネットワークがスキップ接続を含む、請求項1から16のいずれか一項に記載のニューラルネットワークシステム。
前記時間ステップについての代替表現を生成するために前記オーディオデータの現在シーケンスを処理することが、前の時間ステップについて計算された値を再使用することを含む、請求項1から17のいずれか一項に記載のニューラルネットワークシステム。
1つまたは複数のコンピュータによって実行されると、前記1つまたは複数のコンピュータに請求項1から18のいずれか一項に記載のそれぞれのニューラルネットワークシステムを実装させる命令を用いて符号化された、1つまたは複数のコンピュータ記憶媒体。
複数の時間ステップの各々においてそれぞれのオーディオサンプルを含むオーディオデータの出力シーケンスを生成する方法であって、
前記方法が、前記複数の時間ステップの各々について、
1つまたは複数のオーディオ処理畳み込みニューラルネットワーク層を含む畳み込みサブネットワークへの入力としてオーディオデータの現在シーケンスを提供するステップであって、
前記現在シーケンスが、前記出力シーケンス内の前記時間ステップに先行する各時間ステップにおける前記それぞれのオーディオサンプルを含み、
前記畳み込みサブネットワークが、前記複数の時間ステップの各々について、
前記オーディオデータの現在シーケンスを受信し、
前記時間ステップについての代替表現を生成するために前記オーディオデータの現在シーケンスを処理する
ように構成される、ステップと、
出力層への入力として前記時間ステップの前記代替表現を提供するステップであって、前記出力層が、前記複数の時間ステップの各々について、
前記時間ステップの前記代替表現を受信し、
前記時間ステップに関する複数の可能なオーディオサンプルにわたるスコア分布を規定する出力を生成するために前記時間ステップの代替表現を処理する
ように構成される、ステップと
を含む、方法。
前記複数の時間ステップの各々について、
前記時間ステップの前記スコア分布に従って前記出力シーケンス内の前記時間ステップにおけるオーディオサンプルを選択するステップをさらに含む、請求項20に記載の方法。
前記オーディオ値を選択するステップが、
前記スコア分布からサンプリングするステップを含む、請求項21に記載の方法。
前記オーディオ値を選択するステップが、
前記スコア分布に従って最高スコアを有するオーディオサンプルを選択するステップを含む、請求項21に記載の方法。
前記複数の時間ステップの各々がオーディオ波形内のそれぞれの時間に対応し、前記複数の時間ステップの各々における前記それぞれのオーディオサンプルが、前記対応する時間における前記オーディオ波形の振幅値である、請求項20から23のいずれか一項に記載の方法。
前記複数の時間ステップの各々がオーディオ波形内のそれぞれの時間に対応し、前記複数の時間ステップの各々における前記それぞれのオーディオサンプルが、前記対応する時間における前記オーディオ波形の圧縮されたまたは圧伸された表現である、請求項20から23のいずれか一項に記載の方法。
前記オーディオ処理畳み込みニューラルネットワーク層が因果的畳み込みニューラルネットワーク層である、請求項20から25のいずれか一項に記載の方法。
前記オーディオ処理畳み込みニューラルネットワーク層が1つまたは複数の拡張畳み込みニューラルネットワーク層を含む、請求項20から26のいずれか一項に記載の方法。
前記オーディオ処理畳み込みニューラルネットワーク層が拡張畳み込みニューラルネットワーク層の複数のブロックを含み、各ブロックが、拡張が増加する複数の拡張畳み込みニューラルネットワーク層を備える、請求項27に記載の方法。
前記オーディオ処理畳み込みニューラルネットワーク層のうちの1つまたは複数がゲーテッド活性化ユニットを有する、請求項20から28のいずれか一項に記載の方法。
前記複数の時間ステップの各々において、前記代替表現がニューラルネットワーク入力を条件とする、請求項20から29のいずれか一項に記載の方法。
前記ニューラルネットワーク入力がテキストセグメントの特徴を含み、前記出力シーケンスが前記テキストセグメントの言語化を表す、請求項30に記載の方法。
前記ニューラルネットワーク入力がイントネーションパターン値をさらに含む、請求項31に記載の方法。
前記ニューラルネットワーク入力が、話者識別情報、言語識別情報、および発話スタイル情報のうちの1つもしくは複数を含む、請求項30から32のいずれか一項に記載の方法。
前記出力シーケンスが楽曲を表す、請求項20から33のいずれか一項に記載の方法。
前記畳み込みサブネットワークが残差接続を含む、請求項20から34のいずれか一項に記載の方法。
前記畳み込みサブネットワークがスキップ接続を含む、請求項20から35のいずれか一項に記載の方法。
前記時間ステップについての代替表現を生成するために前記オーディオデータの現在シーケンスを処理するステップが、前の時間ステップについて計算された値を再使用するステップを含む、請求項20から36のいずれか一項に記載の方法。
JP2019522236A 2016-09-06 2017-09-06 ニューラルネットワークを使用したオーディオの生成 Active JP6577159B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019150456A JP6891236B2 (ja) 2016-09-06 2019-08-20 ニューラルネットワークを使用したオーディオの生成

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662384115P 2016-09-06 2016-09-06
US62/384,115 2016-09-06
PCT/US2017/050320 WO2018048934A1 (en) 2016-09-06 2017-09-06 Generating audio using neural networks

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2019150456A Division JP6891236B2 (ja) 2016-09-06 2019-08-20 ニューラルネットワークを使用したオーディオの生成

Publications (2)

Publication Number Publication Date
JP6577159B1 JP6577159B1 (ja) 2019-09-18
JP2019532349A true JP2019532349A (ja) 2019-11-07

Family

ID=60022154

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2019522236A Active JP6577159B1 (ja) 2016-09-06 2017-09-06 ニューラルネットワークを使用したオーディオの生成
JP2019150456A Active JP6891236B2 (ja) 2016-09-06 2019-08-20 ニューラルネットワークを使用したオーディオの生成
JP2021087708A Active JP7213913B2 (ja) 2016-09-06 2021-05-25 ニューラルネットワークを使用したオーディオの生成

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2019150456A Active JP6891236B2 (ja) 2016-09-06 2019-08-20 ニューラルネットワークを使用したオーディオの生成
JP2021087708A Active JP7213913B2 (ja) 2016-09-06 2021-05-25 ニューラルネットワークを使用したオーディオの生成

Country Status (9)

Country Link
US (5) US10304477B2 (ja)
EP (2) EP3497629B1 (ja)
JP (3) JP6577159B1 (ja)
KR (1) KR102353284B1 (ja)
CN (2) CN112289342B (ja)
AU (1) AU2017324937B2 (ja)
BR (1) BR112019004524B1 (ja)
CA (2) CA3155320A1 (ja)
WO (1) WO2018048934A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019045856A (ja) * 2017-08-31 2019-03-22 国立研究開発法人情報通信研究機構 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム
JP2022528016A (ja) * 2019-05-23 2022-06-07 グーグル エルエルシー 表現用エンドツーエンド音声合成における変分埋め込み容量

Families Citing this family (83)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
EP3497629B1 (en) 2016-09-06 2020-11-04 Deepmind Technologies Limited Generating audio using neural networks
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
WO2018048945A1 (en) * 2016-09-06 2018-03-15 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
CN110023963B (zh) 2016-10-26 2023-05-30 渊慧科技有限公司 使用神经网络处理文本序列
EP3745394B1 (en) * 2017-03-29 2023-05-10 Google LLC End-to-end text-to-speech conversion
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
JP7082357B2 (ja) * 2018-01-11 2022-06-08 ネオサピエンス株式会社 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
CA3103470A1 (en) 2018-06-12 2019-12-19 Intergraph Corporation Artificial intelligence applications for computer-aided dispatch systems
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10971170B2 (en) * 2018-08-08 2021-04-06 Google Llc Synthesizing speech from text using neural networks
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
CN112789625A (zh) 2018-09-27 2021-05-11 渊慧科技有限公司 承诺信息速率变分自编码器
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11636673B2 (en) 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
EP3654249A1 (en) * 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11024321B2 (en) 2018-11-30 2021-06-01 Google Llc Speech coding using auto-regressive generative neural networks
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
CN109771944B (zh) * 2018-12-19 2022-07-12 武汉西山艺创文化有限公司 一种游戏音效生成方法、装置、设备和存储介质
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
JP7192882B2 (ja) * 2018-12-26 2022-12-20 日本電信電話株式会社 発話リズム変換装置、モデル学習装置、それらの方法、およびプログラム
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11587552B2 (en) 2019-04-30 2023-02-21 Sutherland Global Services Inc. Real time key conversational metrics prediction and notability
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
CN110136731B (zh) * 2019-05-13 2021-12-24 天津大学 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
CN110728991B (zh) * 2019-09-06 2022-03-01 南京工程学院 一种改进的录音设备识别算法
WO2021075994A1 (en) 2019-10-16 2021-04-22 Saudi Arabian Oil Company Determination of elastic properties of a geological formation using machine learning applied to data acquired while drilling
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
KR20210048310A (ko) 2019-10-23 2021-05-03 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102556096B1 (ko) * 2019-11-29 2023-07-18 한국전자통신연구원 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11373095B2 (en) * 2019-12-23 2022-06-28 Jens C. Jenkins Machine learning multiple features of depicted item
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US20210312258A1 (en) * 2020-04-01 2021-10-07 Sony Corporation Computing temporal convolution networks in real time
US20210350788A1 (en) * 2020-05-06 2021-11-11 Samsung Electronics Co., Ltd. Electronic device for generating speech signal corresponding to at least one text and operating method of the electronic device
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
EP3719711A3 (en) 2020-07-30 2021-03-03 Institutul Roman De Stiinta Si Tehnologie Method of detecting anomalous data, machine computing unit, computer program
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11796714B2 (en) 2020-12-10 2023-10-24 Saudi Arabian Oil Company Determination of mechanical properties of a geological formation using deep learning applied to data acquired while drilling
CN113724683B (zh) * 2021-07-23 2024-03-22 阿里巴巴达摩院(杭州)科技有限公司 音频生成方法、计算机设备及计算机可读存储介质
WO2023177145A1 (ko) * 2022-03-16 2023-09-21 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
WO2023219292A1 (ko) * 2022-05-09 2023-11-16 삼성전자 주식회사 장면 분류를 위한 오디오 처리 방법 및 장치
EP4293662A1 (en) * 2022-06-17 2023-12-20 Samsung Electronics Co., Ltd. Method and system for personalising machine learning models

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146576A (ja) * 1995-10-31 1997-06-06 Natl Sci Council 原文対音声の人工的神経回路網にもとづく韻律の合成装置
CA2810457A1 (en) * 2013-03-25 2014-09-25 Gerald Bradley PENN System and method for applying a convolutional neural network to speech recognition

Family Cites Families (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2810457A (en) * 1953-04-10 1957-10-22 Gen Motors Corp Lubricator
JPH0450121Y2 (ja) 1986-04-30 1992-11-26
JP2522400B2 (ja) * 1989-08-10 1996-08-07 ヤマハ株式会社 楽音波形生成方法
US5377302A (en) 1992-09-01 1994-12-27 Monowave Corporation L.P. System for recognizing speech
AU675389B2 (en) * 1994-04-28 1997-01-30 Motorola, Inc. A method and apparatus for converting text into audible signals using a neural network
US6357176B2 (en) * 1997-03-19 2002-03-19 Mississippi State University Soilless sod
JPH10333699A (ja) * 1997-06-05 1998-12-18 Fujitsu Ltd 音声認識および音声合成装置
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
JPH11282484A (ja) * 1998-03-27 1999-10-15 Victor Co Of Japan Ltd 音声合成装置
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
DE10018134A1 (de) * 2000-04-12 2001-10-18 Siemens Ag Verfahren und Vorrichtung zum Bestimmen prosodischer Markierungen
JP2002123280A (ja) * 2000-10-16 2002-04-26 Seiko Epson Corp 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体
US7062437B2 (en) * 2001-02-13 2006-06-13 International Business Machines Corporation Audio renderings for expressing non-audio nuances
US20060064177A1 (en) 2004-09-17 2006-03-23 Nokia Corporation System and method for measuring confusion among words in an adaptive speech recognition system
US7747070B2 (en) * 2005-08-31 2010-06-29 Microsoft Corporation Training convolutional neural networks on graphics processing units
KR100832556B1 (ko) * 2006-09-22 2008-05-26 (주)한국파워보이스 강인한 원거리 음성 인식 시스템을 위한 음성 인식 방법
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
CA2724753A1 (en) * 2008-05-30 2009-12-03 Nokia Corporation Method, apparatus and computer program product for providing improved speech synthesis
FR2950713A1 (fr) 2009-09-29 2011-04-01 Movea Sa Systeme et procede de reconnaissance de gestes
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
CN102651217A (zh) * 2011-02-25 2012-08-29 株式会社东芝 用于合成语音的方法、设备以及用于语音合成的声学模型训练方法
EP2565667A1 (en) 2011-08-31 2013-03-06 Friedrich-Alexander-Universität Erlangen-Nürnberg Direction of arrival estimation using watermarked audio signals and microphone arrays
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US9147154B2 (en) 2013-03-13 2015-09-29 Google Inc. Classifying resources using a deep network
US9141906B2 (en) * 2013-03-13 2015-09-22 Google Inc. Scoring concept terms using a deep network
US9190053B2 (en) 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
US20150032449A1 (en) * 2013-07-26 2015-01-29 Nuance Communications, Inc. Method and Apparatus for Using Convolutional Neural Networks in Speech Recognition
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US10275704B2 (en) 2014-06-06 2019-04-30 Google Llc Generating representations of input sequences using neural networks
US10181098B2 (en) 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
KR102332729B1 (ko) 2014-07-28 2021-11-30 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
US9821340B2 (en) * 2014-07-28 2017-11-21 Kolo Medical Ltd. High displacement ultrasonic transducer
US20160035344A1 (en) * 2014-08-04 2016-02-04 Google Inc. Identifying the language of a spoken utterance
CN110110843B (zh) 2014-08-29 2020-09-25 谷歌有限责任公司 用于处理图像的方法和系统
JP6814146B2 (ja) * 2014-09-25 2021-01-13 サンハウス・テクノロジーズ・インコーポレーテッド オーディオをキャプチャーし、解釈するシステムと方法
US10783900B2 (en) * 2014-10-03 2020-09-22 Google Llc Convolutional, long short-term memory, fully connected deep neural networks
US9824684B2 (en) 2014-11-13 2017-11-21 Microsoft Technology Licensing, Llc Prediction-based sequence recognition
US9542927B2 (en) * 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
US9607217B2 (en) * 2014-12-22 2017-03-28 Yahoo! Inc. Generating preference indices for image content
US11080587B2 (en) * 2015-02-06 2021-08-03 Deepmind Technologies Limited Recurrent neural networks for data item generation
US10403269B2 (en) * 2015-03-27 2019-09-03 Google Llc Processing audio waveforms
US20160343366A1 (en) * 2015-05-19 2016-11-24 Google Inc. Speech synthesis model selection
US9595002B2 (en) 2015-05-29 2017-03-14 Sas Institute Inc. Normalizing electronic communications using a vector having a repeating substring as input for a neural network
CN105096939B (zh) * 2015-07-08 2017-07-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US9786270B2 (en) 2015-07-09 2017-10-10 Google Inc. Generating acoustic models
CN106375231B (zh) * 2015-07-22 2019-11-05 华为技术有限公司 一种流量切换方法、设备及系统
KR102413692B1 (ko) 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
CN105068998B (zh) 2015-07-29 2017-12-15 百度在线网络技术(北京)有限公司 基于神经网络模型的翻译方法及装置
CN105321525B (zh) * 2015-09-30 2019-02-22 北京邮电大学 一种降低voip通信资源开销的系统和方法
US10733979B2 (en) 2015-10-09 2020-08-04 Google Llc Latency constraints for acoustic modeling
US10395118B2 (en) 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
WO2017083695A1 (en) * 2015-11-12 2017-05-18 Google Inc. Generating target sequences from input sequences using partial conditioning
US10319374B2 (en) 2015-11-25 2019-06-11 Baidu USA, LLC Deployed end-to-end speech recognition
CN105513591B (zh) * 2015-12-21 2019-09-03 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
US10402700B2 (en) 2016-01-25 2019-09-03 Deepmind Technologies Limited Generating images using neural networks
CN108780519B (zh) * 2016-03-11 2022-09-02 奇跃公司 卷积神经网络的结构学习
US10460747B2 (en) 2016-05-10 2019-10-29 Google Llc Frequency based audio analysis using neural networks
US9972314B2 (en) 2016-06-01 2018-05-15 Microsoft Technology Licensing, Llc No loss-optimization for weighted transducer
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
US9984683B2 (en) 2016-07-22 2018-05-29 Google Llc Automatic speech recognition using multi-dimensional models
WO2018048945A1 (en) 2016-09-06 2018-03-15 Deepmind Technologies Limited Processing sequences using convolutional neural networks
EP3497629B1 (en) * 2016-09-06 2020-11-04 Deepmind Technologies Limited Generating audio using neural networks
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
CN110023963B (zh) 2016-10-26 2023-05-30 渊慧科技有限公司 使用神经网络处理文本序列
US10049106B2 (en) 2017-01-18 2018-08-14 Xerox Corporation Natural language generation through character-based recurrent neural networks with finite-state prior knowledge
US11934935B2 (en) 2017-05-20 2024-03-19 Deepmind Technologies Limited Feedforward generative neural networks
US10726858B2 (en) 2018-06-22 2020-07-28 Intel Corporation Neural network for speech denoising trained with deep feature losses
US10971170B2 (en) 2018-08-08 2021-04-06 Google Llc Synthesizing speech from text using neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146576A (ja) * 1995-10-31 1997-06-06 Natl Sci Council 原文対音声の人工的神経回路網にもとづく韻律の合成装置
CA2810457A1 (en) * 2013-03-25 2014-09-25 Gerald Bradley PENN System and method for applying a convolutional neural network to speech recognition

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
AARON VAN DEN OORD ET AL.: "WaveNet: A Generative Model for Raw Audio", ARXIV PREPRINT, JPN6019027821, 19 September 2016 (2016-09-19), US, pages 1 - 15, ISSN: 0004080090 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019045856A (ja) * 2017-08-31 2019-03-22 国立研究開発法人情報通信研究機構 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム
JP7209275B2 (ja) 2017-08-31 2023-01-20 国立研究開発法人情報通信研究機構 オーディオデータ学習装置、オーディオデータ推論装置、およびプログラム
JP2022528016A (ja) * 2019-05-23 2022-06-07 グーグル エルエルシー 表現用エンドツーエンド音声合成における変分埋め込み容量
JP7108147B2 (ja) 2019-05-23 2022-07-27 グーグル エルエルシー 表現用エンドツーエンド音声合成における変分埋め込み容量

Also Published As

Publication number Publication date
CN109891434B (zh) 2020-10-30
EP3497629A1 (en) 2019-06-19
CN109891434A (zh) 2019-06-14
US11386914B2 (en) 2022-07-12
JP2021152664A (ja) 2021-09-30
KR20190042730A (ko) 2019-04-24
US20220319533A1 (en) 2022-10-06
US20240135955A1 (en) 2024-04-25
BR112019004524A2 (pt) 2019-05-28
JP6891236B2 (ja) 2021-06-18
JP7213913B2 (ja) 2023-01-27
EP3822863A1 (en) 2021-05-19
AU2017324937A1 (en) 2019-03-28
AU2017324937B2 (en) 2019-12-19
BR112019004524B1 (pt) 2023-11-07
EP3822863B1 (en) 2022-11-02
CA3036067C (en) 2023-08-01
KR102353284B1 (ko) 2022-01-19
CN112289342B (zh) 2024-03-19
US20180322891A1 (en) 2018-11-08
JP2020003809A (ja) 2020-01-09
WO2018048934A1 (en) 2018-03-15
CA3036067A1 (en) 2018-03-15
US20190251987A1 (en) 2019-08-15
US10304477B2 (en) 2019-05-28
JP6577159B1 (ja) 2019-09-18
US11869530B2 (en) 2024-01-09
US20200411032A1 (en) 2020-12-31
US10803884B2 (en) 2020-10-13
CA3155320A1 (en) 2018-03-15
EP3497629B1 (en) 2020-11-04
CN112289342A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
JP6577159B1 (ja) ニューラルネットワークを使用したオーディオの生成
JP6750121B2 (ja) 畳み込みニューラルネットワークを使用したシーケンスの処理
US11948066B2 (en) Processing sequences using convolutional neural networks
CN111699497A (zh) 使用离散潜变量的序列模型的快速解码
EP4150616A1 (en) End-to-end speech waveform generation through data density gradient estimation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190423

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190423

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190423

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190722

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190821

R150 Certificate of patent or registration of utility model

Ref document number: 6577159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250