JP2023546099A

JP2023546099A - オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法

Info

Publication number: JP2023546099A
Application number: JP2023522965A
Authority: JP
Inventors: アフマドムスタファマフムートアフマド; ニコラピア; ギヨームフックス; マルクスムルトゥルス; スリカンスコルセ; キシャングプタ; ヤンビューテ
Original assignee: フラウンホッファー－ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2020-10-15
Filing date: 2021-10-13
Publication date: 2023-11-01
Also published as: EP4229624A1; WO2022078651A1; KR20230109631A; CA3195582A1; MX2023004330A; WO2022079129A1; US20230317056A1; CN116648742A; CN116686042A; KR20230109630A; MX2023004329A; EP4229623A1; CA3195578A1; WO2022079130A1; US20230282202A1; JP2023546098A; WO2022078634A1

Abstract

オーディオ信号を生成し、オーディオ生成器を学習させるための技法が開示されている。オーディオ生成器（１０）はオーディオ信号（１６）、入力信号（１４）および前記オーディオ信号（１６）を表すターゲットデータ（１２）から生成することができる。オーディオ生成器は、入力信号（１４）から導出された第１のデータ（１５，５９ａ）を受信し、第１の出力データを出力する第１の処理ブロック（４０，５０，５０ａ～５０ｈ）と、第１の出力データ（６９）または第１の出力データ（６９）から導出されたデータを第２のデータとして受信する第２の処理ブロック（４５）とを備える。第１の処理ブロック（５０）は、ターゲットデータ（１２）を処理してコンディショニング特性パラメータ（７４，７５）を取得するように構成される、学習可能レイヤのコンディショニングセット（７１，７２，７３）と、コンディショニング特性パラメータ（７４，７５）を第１のデータ（１５，５９ａ）または第１のデータを正規化したもの（５９，７６’）に適用するように構成されたスタイリング要素（７７）とを備える。

Description

はじめに
下記に、異なる発明の実施形態と態様を記載する。また、添付の請求の範囲において別の実施形態が特定されることになる。請求の範囲によって特定される実施形態はすべて、本明細書に記載されるいずれかの細目（特徴および機能）によって補足することができる。

同様に、本明細書に記載の実施形態はすべて独立して使用することができ、且つ本明細書に含まれるいずれかの特徴または請求の範囲に含まれるいずれかの特徴によって補足することができる。

また、本明細書に記載の個々の態様は、独立してまたは組み合わせて使用することが可能なことも指摘される。このように、個々の態様のそれぞれに対し、該態様のうちの別の態様に細目を加えることなく、細目を加えることができる。

また、本開示は、オーディオ生成器および／またはオーディオ生成方法および／またはコンピュータプログラム製品において使用可能な特徴を明示的または暗示的に記述している。よって、本明細書に記載される特徴のいずれも、装置、方法および／またはコンピュータプログラム製品の文脈において使用することができる。

さらに、本明細書に開示される、方法に関連する特徴および機能性は、（かかる機能性を実行するように構成された）装置においても使用することができる。また、装置に関連して本明細書で開示された特徴および機能性はいずれも、対応する方法においても使用することができる。言い換えれば、本明細書に開示された方法は、装置に関連して記載された特徴および機能性のいずれによっても補足することができる。

同様に、本明細書に記載される特徴および機能性のいずれも、下記「実装の選択肢」の項に記載の通り、ハードウェアおよびソフトウェアにおいて、あるいはハードウェアおよびソフトウェアの組み合わせを使用して、実装することができる。

実装の選択肢
一部の態様は装置の文脈で記載されているが、これらの態様は、特徴が方法の工程または方法の工程の特徴に相当する、対応する方法の記述をも表していることは明らかである。同様に、方法の工程の文脈で記載されている態様は、対応する装置の対応する特徴の記述を表している。方法の工程の一部または全部は、例えばマイクロプロセッサ、プログラマブルなコンピュータまたは電子回路等のハードウェア装置によって（あるいは用いて）実行することができる。一部の実施形態においては、最も重要な方法の工程の１つ以上がかかる装置によって行われることがある。

所定の実装要件によっては、本発明の実施形態はハードウェアまたはソフトウェアにおいて実装することができる。実装はそれぞれの方法が実行されるようにプログラマブルなコンピュータシステムと協働する（または協働することができる）電子的に可読な制御信号を記憶した、フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリ等のデジタル記憶媒体を用いて実行することもできる。したがって、デジタル記憶媒体はコンピュータ可読である場合がある。

本発明に係る一部の実施形態は、プログラマブルなコンピュータシステムと協働して本明細書に記載の方法の１つが実施されるようにすることができる、電子的に可読な制御信号を有するデータキャリアを含む。

概して、本発明の実施形態はプログラムコードを備えるコンピュータプログラム製品として実装することができ、プログラムコードはコンピュータプログラムがコンピュータで実行されると、方法のうちの１つを実行するように作用する。プログラムコードは例えば機械可読キャリアに記憶することができる。

他の実施形態には、機械可読キャリアに記憶された、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムが含まれる。

つまり、本願発明の方法の一実施形態は、コンピュータプログラムがコンピュータで実行されると本明細書に記載の方法のうちの１つを実行するためのプログラムを有するコンピュータプログラムということになる。

本願発明の方法の別の実施形態は、よって、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを記憶して備える、データキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）ということになる。データキャリア、デジタル記憶媒体または記録された媒体は、典型的には有形で非一時的なものである。

本願発明の方法の別の実施形態は、よって、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスということになる。データストリームまたは信号のシーケンスは例えば、例えばインターネットを介して等データ通信接続を介して伝送されるように構成されることもある。

さらに別の実施形態は、本明細書に記載の方法のうちの１つを実行するように構成または適合された、コンピュータまたはプログラマブルな論理デバイス装置等の処理手段を含む。

さらに別の実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

本願発明にかかる別の実施形態は、本明細書に記載の方法のうちの１つを実行するためのコンピュータプログラムを受信機に（例えば電子的または光学的に）伝送するように構成された装置またはシステムを含む。受信機は例えば、コンピュータ、モバイル装置、メモリ装置等であってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に伝送するためのファイルサーバを含むことがある。

一部の実施形態においては、本明細書に記載の方法の機能性の一部またはすべてを実行するためにプログラマブルな論理デバイス（フィールドプログラマブルゲートアレイ等）が使用されることがある。一部の実施形態においては、フィールドプログラマブルゲートアレイは本明細書に記載の方法のうちの１つを実行するために、マイクロプロセッサと協働することがある。概して、方法は好ましくは任意のハードウェア装置によって実行されるものとする。

本明細書に記載の装置はハードウェア装置を用いて、またはコンピュータを用いて、あるいはハードウェア装置とコンピュータとの組み合わせを用いて実施されることがある。

本明細書に記載の装置、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび／またはソフトウェアで実装されることがある。

本明細書に記載の方法は、ハードウェア装置を用いて、またはコンピュータを用いて、あるいはハードウェア装置とコンピュータとの組み合わせを用いて実行されることがある。

本明細書に記載の方法、または本明細書に記載の方法の任意の一部は、少なくとも部分的にハードウェアおよび／またはソフトウェアによって実行されることがある。

上記の実施例は本願発明の原則を単に例示するものである。本明細書に記載されている構成および細目の修正および改変は、他の当業者にとって自明であるものと理解される。したがって、本明細書に記載の実施形態の記述および説明によって表される具体的な細目ではなく、係属中の特許請求の範囲によってのみ限定されることを意図するものである。

技術分野
本発明は、オーディオ生成の技術分野に属する。

本発明の実施形態は、入力信号およびターゲットデータからオーディオ信号を生成するように構成されるオーディオ生成器に関連し、ターゲットデータはオーディオ信号を表す。別の実施形態はオーディオ信号を生成するための方法、およびオーディオ生成器に学習させるための方法である。別の実施形態はコンピュータプログラム製品である。

背景
近年、ニューラルボコーダーは、合成された音声信号の自然さおよび知覚品質の点で、従来の音声合成アプローチを上回っている。最良の結果はＷａｖｅＮｅｔやＷａｖｅＧｌｏｗ等の計算負荷の重いニューラルボコーダーによって達成されているが、ＭｅｌＧＡＮやパラレルＷａｖｅＧＡＮ等、敵対的生成ネットワークに基づく軽量アーキテクチャは知覚品質の点でまだ下回っている。

ＷａｖｅＮｅｔやＬＰＣＮｅｔ、ＷａｖｅＧｌｏｗ等オーディオ波形を生成するためにディープラーニングを用いる生成モデルは、自然に聞こえる音声合成において著しい進歩を遂げている。テキスト読み上げ（ＴＴＳ）アプリケーションにおいてニューラルボコーダーと呼ばれるこれらの生成モデルは、パラメトリックな合成方法および連結的な合成方法のいずれよりも性能が優れている。所与の話者および所与の発声を再生するために、ターゲット音声（メルスペクトログラム等）の圧縮表現を使用してコンディショニングすることができる。

過去の研究により、デコーダ側でこのような生成モデルを使用して、クリーンな音声の極低ビットレートでの音声符号化が達成できることが分かっている。これはニューラルボコーダーを従来の低ビットレート音声コーダからのパラメータでコンディショニングすることによって行うことができる。

ニューラルボコーダーはまた、音声の脱ノイズ化または脱反響等、音声強調タスクにも使用されていた。

これらディープ生成モデルが抱える主な問題は、通常、必要なパラメータが多量であること、そしてその結果生じる、学習および合成の双方における複雑さ（干渉）である。例えば、合成音声の品質については最先端と見なされるＷａｖｅＮｅｔはオーディオサンプルを１つずつ順次生成する。このプロセスは非常にゆっくりで計算上要求される事柄も多く、リアルタイムで行うことはできない。

最近、迅速な波形生成のために、ＭｅｌＧＡＮやパラレルＷａｖｅＧＡＮ等、敵対的生成ネットワーク（ＧＡＮ）に基づく軽量敵対的ボコーダーが提案されている。しかしながら、これらのモデルを使用して生成された音声の知覚品質は報告されているところによると、ＷａｖｅＮｅｔやＷａｖｅＧｌｏｗ等のニューラルボコーダーのベースラインを著しく下回っている。この品質のギャップを埋めるためにテキスト読み上げＧＡＮ（ＧＡＮ－ＴＴＳ）が提案されたが、計算コストは未だ高い。

ニューラルボコーダーは多種多様存在するが、これらにはすべて欠点がある。例えばＷａｖｅＮｅｔやＬＰＣＮｅｔ等の自己回帰ボコーダーは非常に品質が高く、ＣＰＵへの干渉の最適化に適していることがあるが、処理が容易には並列化できず、品質に妥協しない限りリアルタイム処理を提供することができないので、ＧＰＵでの使用には適していない。

ＷａｖｅＧｌｏｗ等の正規化流ボコーダーも同じく非常に品質が高く、ＧＰＵへの干渉に適している可能性があるが、学習と最適化に非常に時間のかかる極めて複雑なモデルを含んでおり、同様に埋め込みデバイスには適さない。

ＭｅｌＧＡＮやパラレルＷａｖｅＧＡＮ等のＧＡＮボコーダーは、ＧＰＵへの干渉に適していて且つ軽量である可能性があるが、自己回帰モデルと比べると品質が低い。

要するに、ハイファイ音声を放出する、低複雑度な解決法は未だ存在していない。このような目的を達成するために最も研究されたアプローチがＧＡＮである。本願発明は、この問題に対する有効な解決法である。

本発明の目的は、非常に高品質な音声を生成し、限られた計算資源で学習させることが可能な、軽量ニューラルボコーダーソリューションを提供することである。

図面の簡単な説明
本発明に係る実施例を同封の図面を参照しながら下記に記載していく。

図１は、本願発明の実施形態にかかるオーディオ生成器のアーキテクチャを示す。図２は、本願発明にかかるオーディオ生成器を学習させるために使用することのできる識別器を示す。図３は、本願発明の実施形態にかかるオーディオ生成器の一部分の構造を示す。図４は、本願発明の実施形態にかかるオーディオ生成器の一部分の構造を示す。図５は、異なるモデルのＭＵＳＨＲＡエキスパートリスニングテストの結果を示す。図６は、本願発明の実施形態にかかるオーディオ生成器のアーキテクチャを示す。図７は、本願発明に従って信号に施される演算を示す。

図面においては、同じ符号が同じ要素および特徴を示す。

発明の概要
とりわけ、入力信号（例えば１４）およびターゲットデータ（例えば１２）からオーディオ信号（例えば１６）を生成するように構成されたオーディオ生成器（例えば１２）が提案されている。ターゲットデータ（例えば１２）は、オーディオ信号（例えば１６）を表すものであって、オーディオ生成器は入力信号（例えば１４）から導出される第１のデータ（例えば１５，５９ａ）を受信して第１の出力データ（例えば６９）を出力するように構成された第１の処理ブロック（例えば４０，５０，５０ａ～５０ｈ）であって、ここで第１の出力データ（例えば６９）は複数のチャネル（例えば４７）を含む、第１の処理ブロック（例えば４０，５０，５０ａ～５０ｈ）と、第１の出力データ（例えば６９）または第１の出力データ（例えば６９）から導出されたデータを第２のデータとして受信するように構成された第２の処理ブロック（例えば４５）とのうちの少なくとも１つを備える。

第１の処理ブロック（例えば５０）は、第１の出力データの各チャネルについて、ターゲットデータ（例えば１２）を処理してコンディショニング特性パラメータ（例えば７４，７５）を得るための学習可能レイヤのコンディショニングセット（例えば７１，７２，７３）と、コンディショニング特性パラメータ（例えば７４，７５）を第１のデータ（例えば１５，５９ａ）または第１のデータを正規化したもの（例えば５９，７６’）に適用するように構成されたスタイル付与要素（例えば７７）とを備える。

第２の処理ブロック（例えば４５）は第２のデータ（例えば６９）の複数のチャネル（例えば４７）を結合してオーディオ信号（例えば１６）を取得するように構成されることがある。

また、例えばオーディオ生成器（例えば１０）によって、入力信号（例えば１４）およびターゲットデータ（例えば１２）からオーディオ信号（例えば１６）を生成するための方法が提案されている。ターゲットデータ（例えば１２）はオーディオ信号（例えば１６）を表し、方法には、第１の処理ブロック（例えば５０，５０ａ～５０ｈ）によって、入力信号（例えば１４）から導出された第１のデータ（例えば１６５５９，５９ａ，５９ｂ）を受信するステップと、第１の出力データ（例えば５９ｂ，６９）の各チャネルについて、ターゲットデータ（例えば１２）を、第１の処理ブロック（例えば５０）の学習可能レイヤのコンディショニングセット（例えば７１，７２，７３）によって処理して、コンディショニング特性パラメータ（例えば７４，７５）を取得するステップと、第１の処理ブロック（例えば５０）のスタイル付与要素（７７）によって、コンディショニング特性パラメータ（例えば７４，７５）を第１のデータ（例えば１５，５９）または第１のデータを正規化したもの（例えば７６’）に適用するステップと、複数のチャネル（例えば４７）を含む第１の出力データ（例えば６９）を第１の処理ブロック（例えば５０）によって出力するステップと、第２の処理ブロック（例えば４５）によって、第１の出力データ（例えば６９）または第１の出力データ（例えば６９）から導出されたデータを第２のデータとして受信するステップと、第２の処理ブロック（例えば４５）によって、第２のデータの複数のチャネル（例えば４７）を結合してオーディオ信号（例えば１６）を取得するステップと、を含む。

オーディオ生成のためにニューラルネットワークを学習させる方法も提案されていて、ここでニューラルネットワークは、所与の時間ステップに、生成するオーディオ信号（例えば１６）を表す入力シーケンス（例えば１４）からオーディオサンプルを出力し、出力されたオーディオサンプル（例えば１６）を作り出すために、入力された代表シーケンス（例えば１２）を用いてノイズベクトル（例えば１４）を整形するように構成され、ここで学習は損失関数（例えば１４０）を最適化させるように設計されている。

また、数理モデルを含むオーディオ信号（例えば１６）を生成するための方法も提案されている。ここで数理モデルは所与の時間ステップに、生成するオーディオデータ（例えば１６）を表す入力シーケンス（例えば１２）からオーディオサンプルを出力するように構成される。数理モデルは出力オーディオサンプルを作り出すために、入力された代表シーケンス（例えば１２）を用いてノイズベクトル（例えば１４）を整形することがある。

この文脈において、計算が低複雑性でハイファイ音声の合成が可能な軽量ニューラルボコーダーである、ＳｔｙｌｅＭｅｌＧＡＮ（例えば、オーディオ生成器１０）を提案する。ＳｔｙｌｅＭｅｌＧＡＮは、ターゲット音声の波形の音響特性を介してサイズの小さいノイズベクトル（例えば、１２８×１ベクトル）にスタイル付与（例えば７７において）する際に時間適応的脱正規化（ＴＡＤＥ）（例えば図４の６０ａおよび６０ｂ、並びに図３の６０）を使用する、完全畳み込み式の順伝播型モデルである。このアーキテクチャにより、時には中央演算ユニット（ＣＰＵ）およびグラフィック処理ユニット（ＧＰＵ）の双方においてリアルタイムよりも高速での高度に並列可能な生成が可能になる。効率的かつ迅速な学習のために、マルチスケールスペクトル再構成損失を、音声信号１６を多数の周波数帯域でランダムなウィンドウ化（例えばウィンドウ１５０ａ，１５０ｂ，１０５ｃ，１０５ｄ）によって評価する多数の識別器（例えば１３２ａ～１３２ｄ）で計算した敵対的損失と併せて使用することが可能である。ＭＵＳＨＲＡリスニングテストおよびＰ．８００リスニングテストによれば、ＳｔｙｌｅＭｅｌＧＡＮ（例えばオーディオ生成器１０）はコピー合成およびＴＴＳシナリオの双方において、既知の既存のニューラルボコーダーを凌駕している。

本願はとりわけ、敵対的生成ネットワーク（ＧＡＮ）が基礎であり得る、高品質の音声１６を生成するためのニューラルボコーダーを提案する。ここではＳｔｙｌｅＭｅｌＧＡＮと呼ぶ（そして例えばオーディオ生成器１０に実装される）このソリューションは、低複雑度の計算で高品質の音声１６の合成が可能となる軽量ボコーダーである。ＳｔｙｌｅＭｅｌＧＡＮは例えばターゲット音声の波形のメルスペクトログラム（１２）を使用して潜在ノイズ表現（例えば６９）に（例えばブロック７７で）スタイル付与するために時間適応的脱正規化（ＴＡＤＥ）を使用する、順伝播型の完全畳み込み式モデルである。これにより、時にＣＰＵとＧＰＵの双方でリアルタイムよりも高速での高度に並列可能な生成が可能になる。学習させるためには、マルチスケールスペクトル再構成損失、次いで敵対的損失を使用することができる。これにより、１つのＧＰＵに対し２日未満の学習で、高品質の出力を合成することが可能なモデルが得られる。

本願発明の可能な適用および利点には以下のようなものがある。

本願発明はテキスト読み上げに適用することができ、その結果の品質、すなわち生成された音声のＴＴＳおよびコピー合成についての品質はＷａｖｅＮｅｔおよび自然な音声に近いものとなっている。さらに迅速な学習が提供され、モデルは簡単に再学習させたりパーソナライズさせたりすることができる。比較的小型のニューラルネットワークモデルなので、使用するメモリは少ない。最後に、本願発明は複雑性において利点がある、すなわち品質と複雑性のトレードオフが優れている。

発明は音声強調にも使用することができ、ノイズの多い音声からクリーンな音声を生成する低複雑性の頑強なソリューションを提供することができる。

発明は音声符号化にも適用することができ、ニューラルボコーダーをコンディショニングするために必要なパラメータのみを伝送することにより、ビットレートを著しく低減することができる。またこの用途においては、軽量ニューラルボコーダーベースのソリューションは埋め込みシステムに適し、とりわけＧＰＵまたはニューラル処理ユニット（ＮＰＵ）が備わった将来の（エンド）ユーザ機器（ＵＥ）に適している。

本願の実施形態は、入力信号およびターゲットデータからオーディオ信号を生成するように構成されるオーディオ生成器であって、ターゲットデータは入力信号を表し、入力信号から導出された第１のデータを受信して第１の出力データを出力するように構成された第１の処理ブロックであって、第１の出力データは複数のチャネルを備える第１の処理ブロックと、第１の出力データまたは第１の出力データから導出されたデータを第２のデータとして受信するように構成された第２の処理ブロックとを含み、第１の処理ブロックは第１の出力データの各チャネルについて、ターゲットデータを処理してコンディショニング特性パラメータを取得するように構成された学習可能レイヤのコンディショニングセットと、コンディショニング特性パラメータを第１のデータまたは第１のデータを正規化したものに適用するように構成されたスタイル付与要素とを含み、第２の処理ブロックは第２のデータの複数のチャネルを結合してオーディオ信号を取得するように構成される、オーディオ生成器に関連する。

一実施形態によれば、学習可能レイヤのコンディショニングセットは１つまたは２つの畳み込みレイヤから成る。

一実施形態によれば、第１の畳み込みレイヤはターゲットデータまたはターゲットデータをアップサンプリングしたもの畳み込んで、第１の活性化関数を使用して第１の畳み込み済データを取得する。

一実施形態によれば、学習可能レイヤのコンディショニングセットおよびスタイル付与要素は、１つ以上の残差ブロックを含むニューラルネットワークの残差ブロック内の加重レイヤの一部である。

一実施形態によれば、オーディオ生成器は、第１のデータを正規化するように構成される正規化要素をさらに含む。例えば、正規化要素は平均がゼロで分散が単位の標準正規分布に第１のデータを正規化することがある。

一実施形態によれば、オーディオ信号は音声オーディオ信号である。

一実施形態によれば、ターゲットデータは、望ましくは非線形補間によって、２または２の倍数あるいは２の累乗を係数としてアップサンプリングされる。一部の実施例では、２を超える係数が代わりに使用されることもある。

一実施形態によれば、第１の処理ブロックは、第１のデータから導出されたデータを第２の活性化関数を使用して処理するように構成された、学習可能レイヤの別のセットをさらに含み、ここで第２の活性化関数はゲート付き活性化関数である。

一実施形態によれば、学習可能レイヤの別のセットは１つまたは２つの畳み込みレイヤから成る。

一実施形態によれば、第２の活性化関数はソフトマックスゲート付き双曲線正接（ＴａｎＨ）関数である。

一実施形態によれば、第１の活性化関数はリーキー整流化線形ユニット（リーキーＲｅＬｕ）関数である。

一実施形態によれば、畳み込み動作は最大拡張係数２で実行される。

一実施形態によれば、オーディオ生成器は８つの第１の処理ブロックと１つの第２の処理ブロックを備える。

一実施形態によれば、第１のデータの次元性はオーディオ信号よりも低い。第１のデータは１次元である、または次元がオーディオ信号よりも少なくとも１つ低いことがある。第１のデータは次元がオーディオ信号よりも１次元低いが、チャンネルの数はオーディオ信号よりも多いことがある。第１のデータは、全次元にわたるサンプルの総数がオーディオ信号においてよりも少ないことがある。

一実施形態によれば、ターゲットデータはスペクトログラム、望ましくはメルスペクトログラム、またはビットストリームであることがある。

一実施形態によれば、ターゲットデータはテキストから導出され、ターゲットデータはオーディオデータの圧縮表現であることがある、またはターゲットデータは劣化したオーディオ信号である。

別の実施形態は、入力信号およびターゲットデータからオーディオ生成器によってオーディオ信号を生成する方法であって、ターゲットデータはオーディオ信号を表し、入力信号から導出された第１のデータを第１の処理ブロックによって受信するステップと、第１の出力データの各チャンネルについて、第１の処理ブロックの学習可能レイヤのコンディショニングセットにより、ターゲットデータを処理してコンディショニング特性パラメータを取得するステップと、第１の処理ブロックのスタイル付与要素により、第１のデータまたは第１のデータを正規化したものにコンディショニング特性パラメータを適用するステップと、第１の処理ブロックにより、複数のチャネルを含む第１の出力データを出力するステップと、第２の処理ブロックにより、第１の出力データまたは第１の出力データから導出されたデータを第２のデータとして受信するステップと、第２の処理ブロックにより、第２のデータの複数のチャネルを結合してオーディオ信号を取得するステップとを含む。

正規化には、例えば平均がゼロで分散が単位の標準正規分布への第１のデータの正規化を含むことがある。

方法は、オーディオ生成器からの任意の特性または特性の組み合わせによって補足されることがある。

別の実施形態は、上記に記載のオーディオ生成器を学習させるための方法に関連し、学習させるステップは上記の方法のうちの任意の１つの工程を１回以上繰り返すステップを含む。

一実施形態によれば、学習させるための方法は、好ましくはニューラルネットワークである少なくとも１つの評価器によって、生成されたオーディオ信号を評価するステップと、評価結果に従って評価器の加重を適合させるステップとを含む。

一実施形態によれば、学習させるための方法は、評価結果に従って評価器の加重を適合させるステップを含む。

一実施形態によれば、学習させるステップは損失関数を最適化させるステップを含む。

一実施形態によれば、損失関数を最適化させるステップは、生成されたオーディオ信号と基準オーディオ信号との間の固定のメトリックを算出するステップを含む。

一実施形態によれば、固定のメトリックを算出するステップは、生成されたオーディオ信号と基準オーディオ信号との１つ以上のスペクトル歪みを計算するステップを含む。

一実施形態によれば、１つ以上のスペクトル歪みを計算するステップは、生成されたオーディオ信号および基準信号のスペクトル表現のマグニチュードまたはログマグニチュード、および／または異なる時間または周波数解像度に対して施される。

一実施形態によれば、損失関数を最適化するステップは、生成されたオーディオ信号の表現または基準オーディオ信号の表現を１つ以上の評価器によってランダムに供給および評価することによって、１つ以上の敵対的メトリックを導出するステップを含み、ここで評価には供給されたオーディオ信号を、オーディオ信号の事前学習の自然さの分類レベルを示す既定の数の等級に分類するステップを含む。

一実施形態によれば、損失関数を最適化するステップは、固定のメトリックを算出し、１つ以上の評価器によって敵対的メトリックを導出するステップを含む。

一実施形態によれば、オーディオ生成器はまず、固定のメトリックを使用して学習させられる。

一実施形態によれば、４つの評価器によって４つの敵対的メトリックが導出される。

一実施形態によれば、評価器は生成されたオーディオ信号の表現および基準オーディオ信号の表現をフィルタバンクで分解した後に動作する。

一実施形態によれば、各評価器は入力として、生成されたオーディオ信号の表現または基準オーディオ信号の表現の１つ以上の部分を受信する。

一実施形態によれば、信号の部分は、ランダム窓関数を使用して、入力信号からランダムなウィンドウをサンプリングして生成される。

一実施形態によれば、ランダムなウィンドウのサンプリングは各評価器について複数回繰り返される。

一実施形態によれば、各評価器についてランダムなウィンドウがサンプリングされる回数は、生成されたオーディオ信号の表現または基準オーディオ信号の表現の長さに比例する。

別の実施形態は、プログラムが処理デバイス上で実行されるときに本明細書に記載の方法の工程を実行するためのソフトウェアコード部分を含む、処理デバイス用プログラムを含むコンピュータプログラム製品に関連する。

一実施形態によれば、コンピュータプログラム製品は、ソフトウェアコード部分が記憶されたコンピュータ可読媒体を含み、プログラムは処理デバイスの内蔵メモリに直接搭載することができる。

別の実施形態は、数理モデルを含むオーディオ信号を生成する方法に関連し、数理モデルは、生成するオーディオデータを表す入力シーケンスから所与の時間ステップにオーディオサンプルを出力するように構成され、数理モデルは出力されるオーディオサンプルを入力された代表シーケンスを用いて作り出すために、ノイズベクトルを整形するように構成される。

一実施形態によれば、数理モデルはオーディオデータを用いて学習させる。一実施形態によれば、数理モデルはニューラルネットワークである。一実施形態によれば、ネットワークは順伝播型ネットワークである。一実施形態によれば、ネットワークは畳み込みネットワークである。

一実施形態によれば、ノイズベクトルの次元性は生成するオーディオ信号よりも低いことがある。第１のデータは一次元であるまたはオーディオ信号よりも少なくとも一次元低いことがある。第１のデータは全次元にわたるサンプル数がオーディオ信号よりも低いことがある。第１のデータはオーディオ信号よりも一次元低いが、チャネル数はオーディオ信号よりも多いことがある。

一実施形態によれば、入力された代表シーケンスを用いて数理モデルをコンディショニングし、ひいてはノイズベクトルを整形するために、時間適応的脱正規化（ＴＡＤＥ）法が使用される。

一実施形態によれば、修正ソフトマックスゲート付きＴａｎｈがニューラルネットワークの各レイヤを活性化させる。

一実施形態によれば、畳み込み動作は最大膨張率２で実行される。

一実施形態によれば、ノイズベクトルならびに入力された代表シーケンスはアップサンプリングされて、ターゲットサンプリングレートでの出力オーディオが得られる。

一実施形態によれば、アップサンプリングは数理モデルの異なるレイヤにおいて順次行われる。

一実施形態によれば、各レイヤのアップサンプリング係数は２または２の累乗等２の倍数である。一部の実施例においては、アップサンプリング係数の値は概して２よりも大きい場合がある。

一実施形態によれば、生成されたオーディオ信号はテキスト読み上げアプリケーションにおいて使用することができ、入力された代表シーケンスはテキストから導出される。

一実施形態によれば、生成されたオーディオ信号はオーディオデコーダで使用され、入力された代表シーケンスは伝送または格納する元のオーディオの圧縮表現である。

一実施形態によれば、生成されたオーディオ信号は劣化したオーディオ信号のオーディオ品質を向上させるために使用され、入力された代表シーケンスは劣化した信号から導出される。

別の実施例は、オーディオ生成のためのニューラルネットワークに学習させる方法に関連し、ここでニューラルネットワークは生成するオーディオデータを表す入力シーケンスから所与の時間ステップにオーディオサンプルを出力し、ニューラルネットワークは出力されるオーディオサンプルを入力された代表シーケンスを使用して作り出すためにノイズベクトルを整形するように構成され、ニューラルネットワークは上記の通りに設計され、学習は損失関数を最適化するように設計される。

一実施形態によれば、損失関数は、生成されたオーディオ信号と基準オーディオ信号の間で算出された固定のメトリックを含む。

一実施形態によれば、固定のメトリックは生成されたオーディオ信号と基準信号との間で算出された１つ以上のスペクトル歪みである。

一実施形態によれば、１つ以上のスペクトル歪みは生成されたオーディオ信号および基準信号のスペクトル表現のマグニチュードまたはログマグニチュードに対して算出される。

一実施形態によれば、固定のメトリックを形成する１つ以上のスペクトル歪みは異なる時間または周波数解像度に対して計算される。

一実施形態によれば、損失関数は追加の識別的ニューラルネットワークから導出された敵対的メトリックを含み、識別的ニューラルネットワークは生成されたオーディオ信号または基準オーディオ信号の表現を入力として受信し、識別的ニューラルネットワークは生成されたオーディオサンプルがどの程度実際的であるかを評価するように構成される。

一実施形態によれば、損失関数は固定のメトリックと、追加の識別的ニューラルネットワークから導出される敵対的メトリックとの双方を含む。

一実施形態によれば、オーディオサンプルを生成するニューラルネットワークは、先ずは固定のメトリックのみを使用して学習させられる。

一実施形態によれば、敵対的メトリックは４つの識別的ニューラルネットワークによって導出される。

一実施形態によれば、識別的ニューラルネットワークは、フィルタバンクによる入力オーディオ信号の分解の後に動作する。

一実施形態によれば、各識別的ニューラルネットワークは入力信号をランダムにウィンドウ化したもの１つ以上を入力として受信する。

一実施形態によれば、ランダムなウィンドウのサンプリングは各識別的ニューラルネットワークについて複数回繰り返される。

一実施形態によれば、各識別的ニューラルネットワークについてランダムなウィンドウがサンプリングされる回数は、入力オーディオサンプルの長さに比例する。

実施形態の詳細な説明
図６は、例えばＳｔｙｌｅＭｅｌＧＡＮによって、オーディオ信号（出力信号）１６を生成（合成等）することができるオーディオ生成器１０の実施例を示している。出力オーディオ信号１６は入力信号１４（潜伏信号とも呼ばれ、ホワイトノイズ等のノイズであることもある）およびターゲットデータ１２（「入力シーケンス」とも呼ばれる）に基づいて生成される。ターゲットデータ１２は例えば、スペクトログラム（例えばメルスペクトログラム）を含む（例えば、そのものである）ことがあり、メルスペクトログラムは例えば時間サンプルのシーケンスのメルスケールへのマッピングをもたらす。さらに、またはあるいは、ターゲットデータ１２はビットストリームを含む（例えば、そのものである）こともある。例えば、ターゲットデータは、オーディオ（例えばテキスト読み上げ）で再生されるテキストである、またはテキストを含む（ことがある。ターゲットデータ１２は概して、ヒトである聴取者が自然だと認識することができる言語音を取得するために処理される。入力信号１４はホワイトノイズ等のノイズである（ひいては有用な情報を運搬しない）ことがあるが、生成器１０においては、ノイズから取得されたノイズベクトルに（例えば７７で）スタイル付与され、ターゲットデータ１２によってコンディショニングされた音響特性を備えるノイズベクトルが得られることになる。最終的には、ヒトである聴取者は、出力されたオーディオ信号１６を音声として理解することになる。図１においてと同様、ノイズベクトル１４は１２８×１のベクトル（単一のサンプル、例えば時間領域サンプルまたは周波数領域サンプルと、１２８のチャネル）であることがある。他の実施例では、ノイズベクトル１４の異なる長さが使用されることもある。

第１の処理ブロック５０が図６に示されている。（例えば図１に）図示される通り、第１の処理ブロック５０は複数のブロック（図１では、ブロック５０ａ，５０ｂ，５０ｃ，５０ｄ，５０ｅ，５０ｆ，５０ｇ，５０ｈ）のうちのそれぞれによってインスタンス化されることがある。ブロック５０ａ～５０ｈは１つの単一のブロック４０を形成していると理解することができる。第１の処理ブロック４０，５０において、学習可能レイヤのコンディショニングセット（例えば７１，７２，７３）を使用してターゲットデータ１２および／または入力信号１４を処理することができることが示される。したがって、コンディショニング特性パラメータ７４，７５（図３ではガンマ（γ）およびベータ（β）とも呼ばれる）が、例えば学習中の畳み込みによって得られる。したがって、学習可能レイヤ７１～７３は学習ネットワーク、あるいはより一般的には別の学習構造の加重レイヤの一部となり得る。第１の学習ブロック４０，５０は少なくとも１つのスタイル付与要素７７を含むことがある。少なくとも１つのスタイル付与要素７７は第１の出力データ６９を出力することがある。少なくとも１つのスタイル付与要素７７は入力信号１４（潜在）または入力信号１４から取得した第１のデータ１５にコンディショニング特性パラメータ７４，７５を適用することがある。

各ブロック５０の第１の出力データは複数のチャネル内にある。オーディオ生成器１０は第２の処理ブロック４５（図１ではブロック４２，４４，４６を含むものとして示されている）を含むことがある。第２の処理ブロック４５は、（第２の入力データまたは第２のデータとして入力される）第１の出力データ６９の複数のチャネル４７を結合して出力されたオーディオ信号１６を単一のチャネルで、ただしサンプルのシーケンスで取得するように構成されることがある。

「チャネル」というのは、ステレオサウンドの文脈ではなく、ニューラルネットワーク（例えば畳み込みニューラルネットワーク）の文脈で理解されるべきである。例えば、入力信号（例えば、潜在ノイズ）１４は（時間領域表現において）チャネルのシーケンスが提供されているため、チャネルが１２８個ある可能性がある。例えば、信号に１７６のサンプルと６４のチャネルがあれば、１７６列６４行のマトリクスと理解され、信号に３５２のサンプルと６４のチャネルがあれば、３５２列６４行のマトリクスと理解され得る（他の図式化も可能である）。したがって、生成されたオーディオ信号１６（図１では１×２２５２８行のマトリクスとなる）は、モノラル信号と理解することができる。ステレオ信号を生成する場合には、単に開示された技術を各ステレオチャンネルについて繰り返して多数のオーディオ信号１６を取得して、次いでミックスすることになる。

少なくとも元の入力信号１４および／または生成された音声１６はベクトルであり得る。逆に、ブロック３０および５０ａ～５０ｈ，４２，４４の各々の出力は概して、次元が異なる。第１のデータは一次元であるまたはオーディオ信号の次元よりも少なくとも１次元低い。第１のデータの全次元にわたるサンプル総数はオーディオ信号よりも少ないことがある。第１のデータは次元がオーディオ信号よりも１次元低いが、チャネルの数はオーディオチャネルよりも多いことがある。ブロック３０および５０ａ～５０ｈの各々において、ノイズ１４から進展して音声１６になる信号はアップサンプリングされることがある。例えば、ブロック５０ａ～５０ｈのうちの第１のブロック５０ａの前のアップサンプリングブロック３０において、８８回のアップサンプリングが実行される。アップサンプリングの例としては、１）同じ値を繰り返す、２）ゼロを挿入する、３）再び繰り返しまたはゼロの挿入および線形フィルタ処理、等の手順が含まれることがある。

生成されたオーディオ信号１６は概して、単一チャネルの信号（例えば、１×２２５２８）であることがある。（例えば、ステレオサウンド再生のために）多数のオーディオチャネルが必要な場合には、本願に記載の手順は原則として複数回繰り返されるものとする。

同様に、ターゲットデータ１２も原則として、（例えばテキストである場合）単一のチャネルまたは複数のチャネル（例えばスペクトログラム）であることがある。いずれにせよ、（例えば２、２の累乗、２の倍数、または２よりも大きい値で）アップサンプリングして後続のレイヤ（５０ａ～５０ｈ，４２）に沿って進展する信号（５９ａ，１５，６９）の次元と適合させ、例えば信号の次元と適合した次元でコンディショニング特性パラメータ７４，７５を取得することができる。

第１の処理ブロックが複数のブロック５０ａ～５０ｈでインスタンス化されると、チャネル数は、例えば複数のブロック５０ａ～５０ｈについて同じままであることがある。第１のデータは一次元であるまたはオーディオ信号の次元よりも１次元低いことがある。第１のデータの全次元にわたるサンプル総数はオーディオ信号よりも少ないことがある。第１のデータの次元はオーディオ信号よりも１次元低いが、チャネル数はオーディオ信号より多いことがある。

後続のブロックにおける信号は、互いに次元が異なることがある。例えば、サンプル数のアップサンプリング回数を多くして、例えば８８サンプルから最後のブロック５０ｈでは２２５２８サンプルに達することもある。同様に、ターゲットデータ１２も各処理ブロック５０でアップサンプリングされる。したがって、コンディショニング特性パラメータ７４，７５は処理する信号のサンプル数に適合させることができる。よって、ターゲットデータ１２が提供する意味情報は後続のレイヤ５０ａ～５０ｈにおいても失われない。

実施例は敵対的生成ネットワーク（ＧＡＮ）のパラダイムでも実行され得ると理解される。ＧＡＮはＧＡＮ生成器１１（図１）と、ＧＡＮ識別器１００（図２）とを備える。ＧＡＮ生成器１１は、可能な限り実際の信号に近いオーディオ信号１６を生成しようとする。ＧＡＮ識別器１００は生成されたオーディオ信号が（図２の実際のオーディオ信号１０４のように）実際のものなのか、（生成されたオーディオ信号１６のように）フェイクなのかを識別するものとする。ＧＡＮ生成器１１およびＧＡＮ識別器１００のいずれもニューラルネットワークとして取得することができる。ＧＡＮ生成器１１は（例えば勾配法その他の方法によって）損失を最小化し、ＧＡＮ識別器１００において結果を考慮することで、コンディショニング特性パラメータ７４，７５を更新する。ＧＡＮ識別器１００は（例えば勾配法その他の方法によって）自身の識別損失を削減し、自身の内部パラメータを更新する。したがって、ＧＡＮ生成器１１はより優れたオーディオ信号１６を提供するように学習させられる一方で、ＧＡＮ識別器１００はＧＡＮ生成器１１が生成したフェイクのオーディオ信号から実際の信号１６を識別するように学習させられる。概して、ＧＡＮ生成器１１は生成器１０の機能のうち、少なくともＧＡＮ識別器１００の機能を除いた機能を含み得ると理解することができる。したがって、上記のほとんどにおいて、ＧＡＮ生成器１１およびオーディオ生成器１０は、ＧＡＮ識別器１００の特性を除くと、多かれ少なかれ同じ特性を有していることがある。オーディオ生成器１０は内蔵コンポーネントとして識別器１００を備えることがある。したがって、ＧＡＮ生成器１１とＧＡＮ識別器１００はオーディオ生成器１０を構成するうえで一致し得る。ＧＡＮ識別器１００がない実施例においては、オーディオ生成器１０はＧＡＮ生成器１１のみで構成されることがある。

「学習可能レイヤのコンディショニングセット」という言葉でも説明されている通り、オーディオ生成器１０は条件付きＧＡＮのパラダイムに従って、例えば条件情報に基づいて取得することができる。例えば、条件情報は、レイヤのコンディショニングセット７１～７３（加重レイヤ）が学習させられ、コンディショニング特性パラメータ７４，７５が取得されるターゲットデータ（またはターゲットデータをアップサンプリングしたバージョン）１２で構成されることがある。したがって、スタイル付与要素７７は学習可能レイヤ７１～７３によってコンディショニングされる。

実施例は畳み込みニューラルネットワークに基づいていることもある。例えば、３×３のマトリクス（または４×４のマトリクス等）の小型のマトリクス（フィルタまたはカーネル等）は、例えばフィルタ（カーネル）要素とより大型のマトリクスの要素（活性化マップまたは活性化信号）との結合（乗算および積の和、ドット積等）を伴うより大型のマトリクス（チャンネル×サンプル潜在または入力信号および／またはスペクトログラムおよび／またはスペクトログラムまたはアップサンプリングされたスペクトログラムまたはより一般的にターゲットデータ１２）に沿って畳み込まれる（コンボリューションされる）。学習中、損失を最小化させる、フィルタ（カーネル）要素が取得される（学習される）。干渉中、学習中に取得されたフィルタ（カーネル）要素が使用される。畳み込みの例はブロック７１～７３，６１ａ，６１ｂ，６２ａ，６２ｂにある（下記参照）。ブロックが条件付きの場合（例えば図３のブロック６０）、入力信号１４から中間信号５９ａ（１５），６９を介してオーディオ信号１６に向けて進展する信号等には必ずしも畳み込みが適用されないが、ターゲット信号１４には適用され得る。他の場合（例えばブロック６１ａ，６１ｂ，６２ａ，６２ｂ）では、畳み込みは条件付きでない場合もあり、例えば入力信号１４からオーディオ信号１６に進展していく信号５９ａ（１５），６９等に直接適用されることもある。図３および図４からも見て取れるように、条件付きおよび条件なしの畳み込みのいずれも行われることがある。

一部の実施例では、畳み込みの下流に、意図する効果において異なる活性化関数（ＲｅＬｕ、ＴａｎＨ、ソフトマックス等）があることがある。ＲｅＬｕは０と畳み込みにおいて得られた値との間に最大値をマッピングすることがある（実際には、正の場合には同じ値を維持し、負の値の場合には０を出力する）。リーキーＲｅＬｕはｘ＞０であればｘを出力し、ｘ≦０であれば０．１×ｘを出力する。ここでｘは畳み込みによって得られた値である（一部の実施例では、０．１±０．０５の範囲の既定の値等、別の値が０．１の代わりに使用されることもある）。（例えばブロック６３ａおよび／または６３ｂで実装され得る）ＴａｎＨは、例えば
ＴａｎＨ（ｘ）＝（ｅ^x－ｅ^-x）／（ｅ^x＋ｅ^-x）
によって畳み込みで得られた値の双曲線正接を与えることができ、ここでｘは（例えばブロック６１ａおよび／または６１ｂにおける）畳み込みで得られた値である。（例えばブロック６４ａおよび／または６４ｂで適用される）ソフトマックスは、（例えばブロック６２ａおよび／または６２ｂで提供される）畳み込みの結果の要素のうちの各要素にべき指数を適用して、べき指数の合計によって除算することで正規化する。（例えば６４ａおよび／または６４ｂにおける）ソフトマックスは、（例えば６２ａおよび／６２ｂで提供される）畳み込みから生じるマトリクス内の入力の確率分布を提供することがある。活性化関数の適用後、一部の実施例ではプーリング工程が実行され得る（図面には図示無し）が、別の実施例では避けられることもある。

図４は、（例えば６３ａおよび／または６３ｂで得られた）ＴａｎＨ関数の結果を（例えば６４ａおよび／または６４ｂで得られた）ソフトマックス関数の結果で（例えば６５ａおよび／または６５ｂにおいて）例えば乗算することによって、ソフトマックスゲート付きＴａｎＨ関数を得ることも可能であることを示している。

畳み込みの多数のレイヤ（例えば学習可能レイヤのコンディショニングセット）は、相次いでいる、および／または互いに並列していて、効率性が高まるようになっている。活性化関数の適用および／またはプーリングが行われれば、別のレイヤで繰り返される（あるいは例えば異なる活性化関数が異なるレイヤに適用される）ことがある。

入力信号１４（ノイズ等）は異なる工程で処理され、（例えば学習可能レイヤのコンディショニングセット７１～７３が設定する条件下で、且つ学習可能レイヤのコンディショニングセット７１～７３が学習したパラメータ７４，７５に基づいて、）生成されたオーディオ信号１６になる。したがって、入力信号は処理方向（図６の１４から１６）に進展して生成されたオーディオ信号１６（音声等）になると理解される。条件はターゲット信号１２および（最も好ましいパラメータ７４，７５のセットになるための）学習に基づいて実質的に生成される。

また、入力信号（またはそれが進化したもののいずれか）の多数のチャネルは、学習可能レイヤのセットとスタイル付与要素が関連付けられていると見なすことができることが指摘される。例えば、マトリクス７４および７５の各行は、入力信号（またはそれが進化したもののうちの１つ）の特定のチャネルに関連付けられ、ひいてはその特定のチャネルに関連付けられた特定の学習可能レイヤから取得される。同様に、スタイル付与要素７７も多様なスタイル付与要素（入力信号ｘ，ｃ，１２，７６，７６’，５９，５９ａ，５９ｂ等の各行に対して１つ）によって形成されると見なすことができる。

ノイズベクトル１４は（例えばブロック５０ａ～５０ｈ，４２，４４，４６等において）工程毎に処理され、例えばノイズ１４から例えば音声１６に進展する（進化した信号は、例えば１５，５９ａ，ｘ，ｃ，７６’，７９，７９ａ，５９ｂ，７９ｂ，６９等異なる信号によって示される）。

ブロック３０において、入力信号（ノイズ）１４はアップサンプリングされて、８８（別の数もあり得る）のサンプルと６４（別の数もあり得る）のチャネルを有するようになることがある。

見て取れるように、８つの処理ブロック５０ａ，５０ｂ，５０ｃ，５０ｄ，５０ｅ，５０ｆ，５０ｇ，５０ｈ（全体で図６の第１の処理ブロック５０を体現する）は、アップサンプリング（例えば、最大で２回のアップサンプリング）を実行することによってサンプル数を増大させることができる。ブロック５０ａ，５０ｂ，５０ｃ，５０ｄ，５０ｅ，５０ｆ，５０ｇ，５０ｈに沿って、チャネル数は常に同じ（例えば６４）であり続けることもある。サンプルは例えば、秒（またはその他の時間単位）あたりのサンプルの数であることもある。ブロック５０ｈの出力で、２２ｋＨｚ超でサウンドを得ることができる。

ブロック５０ａ～５０ｈ（５０）はそれぞれ、ＴＡＤＥＲｅｓＢｌｏｃｋ（時間適応的脱正規化（ＴＡＤＥ）の文脈における残差ブロック）でもあり得る。とりわけ、ブロック５０ａ～５０ｈはそれぞれ、ターゲットデータ（例えばメルスペクトログラム）１２によってコンディショニングされることがある。

第２の処理ブロック４５（図１および図６）においては、１つだけのチャネルしか取得することはできず、多数のサンプルが単一の大きさで取得される。見てわかる通り、（ブロック５０ａ～５０ｈに加え、）（単一のチャネルへと限縮する）別のＴＡＤＥ－ＲｅｓＢｌｏｃｋ４２が使用される。そのうえで、畳み込みレイヤおよび（例えばＴａｎＨ４６であり得る）活性化関数が実行され得る。その後に、音声１６が取得（および、場合によっては記憶、レンダリング、符号化等）される。

ブロック５０ａ～５０ｈのうちの少なくとも１つ（または特定の実施例では、それぞれ）は、例えば残差ブロックであり得る。残差ブロックは入力信号１４（ノイズ等）から出力オーディオ信号１６へと進展する信号の残差コンポーネントに対してのみ予測を施す。残差信号は主信号の一部（残差コンポーネント）に過ぎない。例えば、多数の残差信号を互いに加算して、最終出力オーディオ信号１６を取得することができる。

図４はブロック５０ａ～５０ｈ（５０）の１つの実施例を示す。見て取れるように、各ブロック５０には第１のデータ５９ａが入力され、これは入力信号１４（またはアップサンプリングブロック３０が出力した、アップサンプリングしたバージョン）または先行するブロックからの出力のいずれかである。例えば、ブロック５０ｂにはブロック５０ａの出力が入力され、ブロック５０ｃにはブロック５０ｂの出力が入力される等、である。

従って、図４において、ブロック５０（５０ａ～５０ｈ）に供給される第１のデータ５９ａが処理され、その出力が出力信号６９（後続のブロックに対し入力として供給される）であると見ることができる。線５９ａ’で示される通り、第１の処理ブロック５０ａ～５０ｈに入力される第１のデータ５９ａの主コンポーネントは、第１の処理ブロック５０ａ～５０ｈ（５０）の処理のほとんどを実質上バイパスする。例えば、ブロック６０ａ，６１ａ，６２ａ，６３ａ，６５ａ，６０ｂ，６１ｂ，６２ｂ，６３ｂ，６４ｂ，６５ｂはバイパス線５９ａ’によってバイパスされている。次に第１のデータ５９ａは加算器６５ｃ（図４に記載されているが、図示されていない）において残差部分６４ｂ’に加算される。バイパス線５９ａ’と加算器６５ｃにおける加算は、各ブロック５０（５０ａ～５０ｈ）が残差信号への演算を処理し、そのうえで信号の主部分に加算されることをインスタンス化すると理解することができる。したがって、ブロック５０ａ～５０ｈはそれぞれ、残差ブロックだと見なすことができる。

とりわけ加算器６５ｃにおける加算は、必ずしも残差ブロック５０（５０ａ～５０ｈ）内で実行しなければならないというわけではない。複数の残差信号６５ｂ’（それぞれ、残差ブロック５０ａ～５０ｈのそれぞれから出力されている）の加算が１回のみ、（例えば第２の処理ブロック４５の例えば加算ブロックにおいて）実行することができる。したがって、異なる残差ブロック５０ａ～５０ｈは互いに並列して動作することができる。

図４の実施例においては、各ブロック５０は畳み込みレイヤを２回繰り返すことができる（例えば、ブロック６０ａ，６１ａ，６２ａ，６３ａ，６４ａ，６５ａのうちの少なくとも１つを含むレプリカ６００で１回目を行って信号５９ｂを取得し、ブロック６０ｂ，６１ｂ，６２ｂ，６３ｂ，６４ｂ，６５ｂのうちの少なくとも１つを含むレプリカ６０１で２回目を行って、主コンポーネント５９ａ’に加算されることがある信号６５ｂ’を取得する）。

各レプリカ（６００，６０１）について、入力信号１６からオーディオ出力信号１６に進化する信号に対し、学習可能レイヤ７１～７３のコンディショニングセットおよびスタイル付与要素が（例えば各ブロック５０につき２回）適用される。第１のレプリカ６００の第１のデータ５９ａに対し、第１の時間適応的脱正規化（ＴＡＤＥ）がＴＡＤＥブロック６０ａで行われる。ＴＡＤＥブロック６０ａは、ターゲットデータ１２が設定する条件下で第１のデータ５９ａ（入力信号、または例えば処理済みノイズ）の変調を行う。第１のＴＡＤＥブロック６０ａでは、ターゲットデータ１２のアップサンプリングがアップサンプリングブロック７０で行われ、ターゲットデータ１２のアップサンプリングバージョン１２’が取得される。アップサンプリングは、例えば２の係数、２の累乗、２の倍数その他２よりも大きい値を使用した非線形補間を通じて取得することができる。したがって、一部の実施例においては、スペクトログラム１２’が、スペクトログラムによってコンディショニングされる信号（７６，７６’，ｘ，ｃ，５９，５９ａ，５９ｂ等）と同じ大きさである（例えば、一致する）ことがある。ブロック７７（スタイル付与要素）において、処理済みノイズ（第１のデータ）（７６，７６’，ｘ，ｃ，５９，５９ａ，５９ｂ等）に対しスタイル付与情報の適用が行われることもある。後続のレプリカ６０１においては、別のＴＡＤＥブロック６０ｂが第１のレプリカ６００の出力５９ｂに適用されることがある。ＴＡＤＥブロック６０（６０ａ，６０ｂ）の実施例が図３に示されている（下記も参照のこと）。第１のデータ５９ａを変調させた後、畳み込み６１ａおよび６２ａが実行される。次に、活性化関数ＴａｎＨおよびソフトマックス関数（例えばソフトマックスゲート付きＴａｎＨ関数を構成するもの）が同様に実行される（６３ａ，６４ａ）。活性化関数６３ａおよび６４ａの出力は乗算ブロック６５ａで乗算され（例えばゲート付与をインスタンス化し）、結果５９ｂを取得する。２つの異なるレプリカ６００および６０１を使用する場合（または２つ以上のレプリカを使用する場合）は、ブロック６０ａ，６１ａ，６２ａ，６３ａ，６４ａ，６５ａの通過が繰り返される。

実施例において、それぞれＴＡＤＥブロック６０ａおよび６０ｂの下流にある６１ｂおよび６２ｂにおける第１および第２の畳み込みは、カーネル内の同じ数の要素（例えば９、例えば３×３）で行うことができる。ただし、第２の畳み込み６１ｂおよび６２ｂは膨張率２であることがある。実施例においては、畳み込みの最大膨張率は２であることがある。

図３はＴＡＤＥブロック６０（６０ａ，６０ｂ）の実施例を示している。見て取れるように、ターゲットデータ１２はアップサンプリングして、例えば入力信号（または潜在信号または活性化信号とも呼ばれる、５９，５９ａ，７６’等入力信号から進化した信号）に一致させるようにすることができる。ここで、畳み込み７１，７２，７３を実行して（ターゲットデータ１２の中間値は７１’で示されている）、パラメータγ（ガンマ、７４）およびβ（ベータ、７５）を取得することができる。７１，７２，７３のいずれかでの畳み込みには、整流化線形ユニット（ＲｅＬｕ）が必要となる、またはリーキー整流化線形ユニット（リーキーＲｅＬｕ）を整流する必要が生じることもある。パラメータγおよびβは活性化信号の大きさが同じである場合がある（信号は入力信号１４から生成されたオーディオ信号１６に進化するよう処理され、ここではｘ，５９または正規化した形では７６’で表される）。したがって、活性化信号（ｘ，５９，７６’）に２つの大きさがある場合、γおよびβ（７４および７５）も２つの大きさがあり、それぞれは活性化信号に重畳することが可能である（γおよびβの長さおよび幅は活性化信号の長さおよび幅と同じであることがある）。スタイル付与要素７７においては、コンディショニング特性パラメータ７４および７５が（乗算器６５ａが出力する第１のデータ５９ａまたは５９ｂである）活性化信号に適用される。ただし、活性化信号７６’は第１のデータ５９，５９ａ，５９ｂ（１５）の正規化したバージョン（インスタンス正規化ブロック７６では１０）である場合もあることが指摘される。さらに、スタイル付与要素７７に示される式（γｘ＋β）は要素と要素の積であって、畳み込み積またはドット積ではないこともあり得ることが指摘される。

スタイル付与要素７７の後に、信号が出力される。畳み込み７２および７３はかならずしも下流に活性化関数があるわけではない。さらに、パラメータγ（７４）はバリアンス、β（７５）はバイアスと理解することができることも指摘される。また、図１のブロック４２は図３のブロック５０としてインスタンス化することができる。そのうえで、例えば畳み込みレイヤ４４がチャネル数を１に削減して、そのうえで、ＴａｎＨ５６が実行されて音声１６が得られる。

図７はブロック５０ａ～５０ｈのうちの１つのレプリカ６００および６０１のうちの１つにおける、ターゲットデータ１２（メルスペクトログラム等）および５９ａでも示される、または入力信号１２から生成されたオーディオ信号１６へと進化する信号としての、潜在ノイズｃ（１４）の進化の例を示している。

以下の手順（または少なくとも工程のうちの１つ）が行われることがある。
・スペクトログラム１２が以下の工程のうちの少なくとも１つに付される。
ａ）アップサンプリングブロック７０でアップサンプリングされ、アップサンプリング済みスペクトログラム１２’を取得する。
ｂ）畳み込みレイヤ７１～７３（加重レイヤの一部）で畳み込みが実施される（例えばカーネル１２ａがアップサンプリング済スペクトログラム１２’に沿って畳み込まれる）。
ｃ）γ（７４）およびβ（７５）は取得（学習）される。
ｃ）γ（７４）およびβ（７５）が入力信号１４から進化する潜在信号５９ａ（１５）および生成されたオーディオ信号１６に（例えば畳み込みによって）適用される。

ＧＡＮ識別器
学習中、例えば入力信号１２（または入力信号を処理および／または正規化したバージョン）に適用されるパラメータ７４および７５を取得するために、図２のＧＡＮ識別器が使用されることがある。学習は干渉前に行われ、パラメータ７４および７５は、例えば非一時的メモリに格納され、その後に使用することができる（ただし、一部の実施例では、パラメータ７４および７５が作動中に計算されることもあり得る）。

ＧＡＮ識別器１００は、生成されたオーディオ信号（例えば上記の通りに合成されたオーディオ信号１６）を実際の入力信号（例えば実音声）１０４からどのように識別するかを学習する役割を有する。したがって、ＧＡＮ識別器１００の役割は主に学習（例えばパラメータ７２および７３の学習）中に発揮され、（ＧＡＮ識別器１００を備えないオーディオ生成器１０と見なすことができる）ＧＡＮ生成器１１の役割の対極と見なされる。

概して、ＧＡＮ識別器１００は、ＧＡＮ生成器１０によって合成され生成されたオーディオ信号１６と、例えばマイクロフォンを介して取得された実際のオーディオ信号（例えば実音声）１０４の双方によって入力され、信号を処理して最小化されるメトリック（例えば損失）を取得する。実際のオーディオ信号１０４は基準オーディオ信号と見なすこともできる。学習中、音声１６を合成するための上記に説明したような動作が例えば複数回繰り返され、例えばパラメータ７４および７５が取得されることがある。

実施例においては、基準オーディオ信号１０４全体および／または生成されたオーディオ信号１６全体を解析する代わりに、その一部（例えば一部分、スライス、ウィンドウ等）のみを解析することも可能である。生成されたオーディオ信号１６および基準オーディオ信号１０４からサンプリングされたランダムウィンドウ（１０５ａ～１０５ｄ）で生成された信号部分が得られる。例えば、ランダム窓関数を使用して、ウィンドウ１０５ａ，１０５ｂ，１０５ｃ，１０５ｄのどれが使用されるかが先験的に事前設定されていないようにすることができる。また、ウィンドウの数も必ずしも４ではなく、変動することがある。

ウィンドウ（１０５ａ～１０５ｄ）において、ＰＱＭＦ（直交ミラーフィルタバンク）１１０が適用されることがある。こうして、サブバンド１２０が得られる。ひいては、生成されたオーディオ信号（１６）の表現または基準オーディオ信号（１０４）の表現を分解したもの（１１０）が得られる。

評価を実行するために評価ブロック１３０が使用されることがある。複数の評価器１３２ａ，１３２ｂ，１３２ｃ，１３２ｄ（複合的に１３２で示される）が使用されることがある（異なる数が使用されることもある）。概して、ウィンドウ１０５ａ，１０５ｂ，１０５ｃ，１０５ｄはそれぞれ、各評価器１３２ａ，１３２ｂ，１３２ｃ，１３２ｄに入力されうる。ランダムウィンドウ（１０５ａ～１０５ｄ）のサンプリングが各評価器（１３２ａ～１３２ｄ）について複数回繰り返されることがある。実施例では、ランダムウィンドウ（１０５ａ～１０５ｄ）が各評価器（１３２ａ～１３２ｄ）についてサンプリングされる回数は、生成されたオーディオ信号の表現または基準オーディオ信号の表現の長さに比例することがある。したがって、各評価器（１３２ａ～１３２ｄ）は、生成されたオーディオ信号（１６）の表現または基準オーディオ信号（１０４）の表現を入力として受信することがある。

評価器１３２ａ～１３２ｄはそれぞれ、ニューラルネットワークそのものであることがある。各評価器１３２ａ～１３２ｄは、とりわけ、畳み込みニューラルネットワークのパラダイムに従うことがある。各評価器１３２ａ～１３２ｄは残差評価器であることもある。各評価器１３２ａ～１３２ｄには、学習中に（例えば上記に説明したものの１つと同様に）適合されるパラメータ（加重等）があることがある。

図２に示される通り、各評価器１３２ａ～１３２ｄは（例えば４その他のダウンサンプリング率で）ダウンサンプリングを行う。各評価器１３２ａ～１３２ｄについて、チャネル数が（例えば４倍、または一部の実施例ではダウンサンプリング率と同じ数の倍数分）増大することになる。

評価器の上流および下流に、畳み込みレイヤ１３１および／または１３４が設けられることがある。上流畳み込みレイヤ１３１は、例えば大きさが１５（例えば５×３または３×５）のカーネルを備えることがある。下流畳み込みレイヤ１３４は、例えば大きさが３（例えば３×３）のカーネルを備えることがある。

学習中、損失関数（敵対的損失）１４０が最適化されることがある。損失関数１４０は生成されたオーディオ信号（１６）と基準オーディオ信号（１０４）との間に（例えば事前学習工程で取得された）固定のメトリックを含むことがある。固定のメトリックは生成されたオーディオ信号（１６）と基準オーディオ信号（１０４）との間の１つ以上のスペクトル歪みを計算することによって取得し得る。歪みは
－生成されたオーディオ信号（１６）および基準オーディオ信号（１０４）のスペクトル表現のマグニチュードまたはログマグニチュード、および／または
－異なる時間または周波数解像度
を考慮して測定されるものとする。

実施例においては、敵対的損失は生成されたオーディオ信号（１６）の表現または基準オーディオ信号（１０４）の表現を１つ以上の評価器（１３２）でランダムに供給・評価することによって得ることができる。評価は供給されたオーディオ信号（１６，１３２）を、事前学習されたオーディオ信号（１４，１６）の自然さの分類レベルを示す既定の数の等級に分類するステップを含む。既定の数の区分は、例えば、「実」対「フェイク」であり得る。

他のタイプの最小化が行われることもある。

概して、最小敵対的損失１４０はスタイル付与要素７７に適用される最良のパラメータ（７４，７５等）に関連付けられる。

検討
以下、本開示の実施例が添付の図面を用いて詳細に説明される。以下の記載において、開示の実施例のより網羅的な説明のために多くの細目が記載されている。しかしながら、他の実施例はこれらの特定の細目なしでも実施できることは当業者にとって自明である。本明細書に記載の異なる実施例の特徴は、対応する組み合わせの特徴が相互に排他的でない限り、あるいはかかる組み合わせが明示的に排除されていない限り、互いに組み合わせることができる。

同じ機能を持つ同じまたは同様の要素は同じ参照符号で示される、または同じまたは同様の参照符号が与えられている要素の記載により同一のものとして指定される、あるいは典型的には省略されることが指摘される。参照符号が同じまたは同様の要素または同じラベルが付されている要素の記載は、相互に互換である。

テキスト読み上げ、音声符号化および音声強調等多くのアプリケーションにおいて、ニューラルボコーダーは自然な高品質の音声合成における従来のアプローチを上回っていることは証明されている。高品質の音声合成のための最初の草分け的な生成ニューラルネットワークはＷａｖｅＮｅｔであった。そしてその後まもなくから、数多くの他のアプローチが開発されてきた。これらのモデルは最高水準の品質を提供しているが、しばしば計算コストが高く合成は非常に遅かった。近年、低計算コストで音声を生成するモデルが多量紹介されている。これらのうちのいくつかは既存のモデルを最適化したバージョンで、他のものは従来の方法との統合を活用したものである。一方で、しばしばＧＡＮに依拠した、完全に新しいアプローチも数多く導入された。ほとんどのＧＡＮボコーダーはＧＰＵでの高速での生成を提供しているが、引き換えに合成音声の品質が損なわれている。

本稿の主目的の１つは、我々がＳｔｙｌｅＭｅｌＧＡＮと呼ぶ（そして例えばオーディオ生成器１０に実装することのできる）、極めて高品質の音声１６を低計算コスト且つ迅速な学習により合成することのできるＧＡＮアーキテクチャを提案することである。ＳｔｙｌｅＭｅｌＧＡＮの生成器ネットワークは３８６万の学習可能なパラメータを備え、ＣＰＵでのリアルタイムよりも２．６倍速く、ＧＰＵでは５４倍以上速く、２２．０５ｋＨｚで音声を合成することができる。このモデルは例えば、低次元ノイズベクトル（例えば図１の３０）を生音声波形（例えば１６）に漸次変換する８つのアップサンプリングブロックから成る。合成は、時間適応的脱正規化（ＴＡＤＥ）レイヤ（６０，６０ａ，６０ｂ）を介してすべての生成器ブロック（５０ａ～５０ｈ）に挿入されうる、ターゲット音声のメルスペクトログラムに対して（あるいはより一般的に、ターゲットデータ１２によって）コンディショニングされ得る。このコンディショニング特性を挿入するアプローチは極めて効率的であり、また当方の知識の限りにおいては、オーディオ領域においては新しい。分化可能な偽直交ミラーフィルタバンク（ＰＱＭＦ）１１０の後にそれぞれ動作する４つの識別器１３２ａ～１３２ｄ（ただし一部の実施例では識別器の数は異なり得る）の集合体によって、敵対的損失が（例えば図２の構造を介して、ＧＡＮ識別器１００において）計算される。これにより、学習中に音声信号（１０４またｈ１６）の異なる周波数帯域を解析することができる。学習をよりロバストにし、生成を督励するため、識別器（例えば４つの識別器１３２ａ～１３２ｄ）は生成器１０が使用する入力音響特性によりコンディショニングされることはなく、音声信号（１０４または１６）はランダムウィンドウ（例えば１０５ａ～１０５ｄ）を用いてサンプリングされる。

要するに、ＴＡＤＥレイヤ（例えば６０，６０ａ，６０ｂ）を介してメルスペクトルグラム（例えば１２）によりコンディショニングされる高品質の音声合成のための低複雑性のＧＡＮであるＳｔｙｌｅＭｅｌＧＡＮが提案されている。生成器１０は高度に並列可能である。生成器１０は完全に畳み込み式であり得る。上記生成器１０は、マルチスケールスペクトル再構成損失によって正則化されうるＰＱＭＦマルチサンプリングランダムウィンドウ識別器（例えば１３２ａ～１３２ｄ）の集合体によって敵対的に学習させることができる。生成された音声１６の品質は客観的評価（例えばフレシェスコア）および／または主観的評価の双方を用いて評価することができる。コピー合成シナリオについてＭＵＳＨＲＡテスト、ＴＴＳについてはＰ．８００ＡＣＲテストの２つのリスニングテストが行われ、いずれもＳｔｙｌｅＭｅｌＧＡＮが最高水準の音声品質を達成していると確証した。

既存のニューラルボコーダーは通常、最終波形の振幅をモデリングすることによって、音声信号を直接時間領域で合成する。これらのモデルのほとんどは生成ニューラルネットワークであり、つまり自然な音声信号において観測された音声サンプルの確立分布をモデリングする。これらは自己回帰的に分割することができ、これによって分布を条件付きの分布と、そうではなく同時分布を直接モデリングする非自己回帰的または並列分布の積に因数分解する。ＷａｖｅＮｅｔ、ＳａｍｐｌｅＲＮＮおよびＷａｖｅＲｎｎ等の自己回帰モデルは知覚品質の高い音声信号を合成すると報告されている。非自己回帰モデルの一大流派はＷａｖｅＧｌｏｗ等の正規化流である。ハイブリッドなアプローチは、ノイズ潜在表現とターゲット音声分布との間の因数分解変換を使用する逆自己回帰流の使用である。上記の例は主に自己回帰型ニューラルネットワークに関するものである。

オーディオ用ＧＡＮの初期アプリケーションには、条件付けのない音声生成のためのＷａｖｅＧＡＮと、音楽生成のためのＧａｎ－Ｓｙｎｔｈを含む。ＭｅｌＧＡＮは音声セグメントのメルスペクトログラムと対応する時間領域の波形とのマッピングを学習する。リアルタイムよりも速い生成が保証され、スペクトル再構成損失によって正則化されたマルチスケール識別器の敵対的学習を活用する。ＧＡＮ－ＴＴＳは音響特性のコンディショニングがされている音声生成のために専ら敵対的学習を使用する最初のＧＡＮボコーダーである。敵対的損失は、条件付きおよび条件なしのランダムウィンドウ識別器の集合体によって算出される。パラレルＷａｖｅＧＡＮは構造においてＷａｖｅＮｅｔと同様の、マルチスケールスペクトル再構成損失によって正則化された条件なしの識別器を用いて学習させた生成器を使用する。同様のアイディアが、計算能力を節減しながらターゲット音声の各サブバンドを別個に生成し、そのうえで合成ＰＱＭＦを使用して最終波形を取得するマルチバンドＭｅｌＧＡＮで使用されている。そのマルチスケール識別器は全帯域音声波形を評価し、マルチバンドスケールスペクトル再構成損失を用いて正則化される。この分野での研究は非常に活発に行われていて、ＶａｃＧａｎやＨｏｏｌｉＧＡＮ等の最新のＧＡＮボコーダーが挙げられる。

図４はオーディオ生成器１０の一部分の構造を示し、生成器モデルの基本構築ブロックであるＴＡＤＥ－ＲｅｓＢｌｏｃｋ５０（ブロック５０ａ～５０ｈのうちの任意のものであり得る）を図示している。完全なアーキテクチャは図１に示されている。例えばＴＡＤＥＲｅｓＢｌｏｃｋと信号７９ｂを係数２でアップサンプリングするレイヤ６０１、並びに最終活性化モジュール４６（図１では）から成る、８つのアップサンプリングステージ５０ａ～５０ｈが含まれている（他の実施例では、８以外の数であり得る）。最終活性化は１つのＴＡＤＥＲｅｓＢｌｏｃｋ４２とそれに後続する、例えばＴａｎｈ非線形性４６を備えるチャネル変更畳み込みレイヤ４４を含む。この設計により、例えば畳み込み動作のためにチャネル深さ６４を使用することができ、ひいては複雑性を節減することができる。このアップサンプリング手順により、膨張率を２未満に抑えることができる。

図２はフィルタバンクランダムウィンドウ識別器（ＦＢ－ＲＷＤ）のアーキテクチャを示している。ＳｔｙｌｅＭｅｌＧＡＮは敵対的学習に複数（例えば４つ）の識別器１３２ａ～１３２ｄを使用することができ、実施例においては、識別器１３２～１３２ｄのアーキテクチャは平均プーリングのダウンサンプリングがない。さらに、各識別器（１３２ａ～１３２ｄ）は入力音声波形（１０４または１６）からスライスされたランダムウィンドウ（１０５ａ～１０５ｄ）に作用することがある。最後に、各識別器（１３２ａ～１３２ｄ）は、解析ＰＱＭＦ（例えば１１０）から取得した入力音声信号（１０４または１６）のサブバンド１２０を解析することがある。より正確には、実施例では、１秒の波形から抽出されたそれぞれ５１２、１０２４、２０４８、４０９６個のサンプルの選択されたランダムなセグメントからそれぞれ計算された１、２、４、および８個のサブバンドを使用することができる。これにより、音声信号（１０４または１６）のマルチ解像度敵対的評価を時間領域および周波数領域の双方で行うことができる。

以下に、実験で使用されたモデルをリストアップする。
・コピー合成およびテキスト読み上げにおけるターゲット実験にＷａｖｅＮｅｔ
・コピー合成およびテキスト読み上げにおけるターゲット実験にＰＷＧＡＮ
・客観的評価のコピー合成におけるターゲット実験にＭｅｌＧＡＮ
・コピー合成におけるターゲット実験にＷａｖｅＧｌｏｗ
・テキスト読み上げにおけるターゲット実験にＴｒａｎｓｆｏｒｍｅｒ．ｖ３

上記に挙げた事前学習済みのベースラインボコーダーモデルに対するＳｔｙｌｅＭｅｌＧＡＮの客観的および主観的評価が行われた。聴取者が行ったＰ．８００リスニングテストを介したオーディオＴＴＳ出力の主観品質が制御された環境で評価された。テストセットは、同じ話者によって録音され、ＬｉｂｒｉＶｏｘオンラインコーパスからランダムに選択された未見の発声を含む。これらの発声は、わずかに異なる条件下で記録されていて、様々な韻律を呈しているため、モデルの一般化能力をテストするものである。元の発声はＧｒｉｆｆｉｎＬｉｍアルゴリズムを用いて再合成され、通常のアンカー条件の代わりに使用している。これにより、全評価尺度が使用しやすくなる。

ＰＥＳＱやＰＯＬＱＡ等の古典的な客観的測定はニューラルボコーダーが生成した音声波形を評価するうえでは信頼できない。その代わり、条件付きフレシェディープ音声距離（ｃＦＤＳＤ）が使用されている。以下の異なるニューラルボコーダーについてのｃＦＤＳＤのスコアは、ＳｔｙｌｅＭｅｌＧＡＮが他のモデルを著しく上回っていることを示している。
・ＭｅｌＧＡＮ学習ｃＦＤＳＤ０．２３５実験ｃＦＤＳＤ０．２２７
・ＰＷＧＡＮ学習ｃＦＤＳＤ０．１２２実験ｃＦＤＳＤ０．１０１
・ＷａｖｅＧｌｏｗ学習ｃＦＤＳＤ０．０９９実験ｃＦＤＳＤ０．０７８
・ＷａｖｅＮｅｔ学習ｃＦＤＳＤ０．１７６実験ｃＦＤＳＤ０．１４０
・ＳｔｙｌｅＭｅｌＧＡＮ学習ｃＦＤＳＤ０．０４４実験ｃＦＤＳＤ０．０６８

ＳｔｙｌｅＭｅｌＧＡＮは他の敵対的および非敵対的ボコーダーを上回っていることが見て取れる。

１５人の熟練した聴取者のグループによるＭＵＳＨＲＡリスニングテストが行われた。このタイプのテストが選択されたのは、生成された音声品質をより正確に評価できるからである。アンカーはＧｒｉｆｆｉｎ－Ｌｉｍアルゴリズムを３２回繰り返すＰｙ－Ｔｏｒｃｈの実装を用いて生成された。図５はＭＵＳＨＲＡテストの結果を示している。ＳｔｙｌｅＭｅｌＧＡＮはおよそ１５ＭＵＳＨＲＡポイント他のボコーダーを大きく上回っていることが見て取れる。結果からは、ＷａｖｅＧｌｏｗはＷａｖｅＮｅｔと同等品質の出力を作り出しているが、パラレルＷａｖｅＧＡＮとは互角であることが見て取れる。

オーディオＴＴＳの主観品質は制御環境で３１人の聴取者によって行われたＰ．８００ＡＣＲリスニングテストを通じて評価することができる。テストセットの翻音のメルスペクトルグラムを生成するため、ＥＳＰＮＥＴのＴｒａｎｓｆｏｒｍｅｒ．ｖ３モデルを使用することができる。全評価尺度がより使いやすくなるため、同じＧｒｉｆｆｉｎ－Ｌｉｍのアンカーを追加することもできる。

以下の異なるＴＴＳシステムに対するＰ８００平均オピニオン評点（ＭＯＳ）は、ＳｔｙｌｅＭｅｌＧＡＮが明らかに他のモデルを上回っているという同じ知見を示している。
・ＧｒｉｆｆｉｎＬｉｍＰ８００ＭＯＳ：１．３３＋／－０．０４
・Ｔｒａｎｓｆｏｒｍｅｒ＋パラレルＷａｖｅＧＡＮＰ８００ＭＯＳ：３．１９＋／－０．０７
・Ｔｒａｎｓｆｏｒｍｅｒ＋ＷａｖｅＮｅｔＰ８００ＭＯＳ：３．８２＋／－０．０７
・Ｔｒａｎｓｆｏｒｍｅｒ＋ＳｔｙｌｅＭｅｌＧＡＮＰ８００ＭＯＳ：４．００＋／－０．０７
・録音Ｐ８００ＭＯＳ：４．２９＋／－０．０６

以下は、異なるパラレルボコーダーモデルの実時間係数（ＲＴＦ）での生成速度とパラメータ数を示す。ＳｔｙｌｅＭｅｌＧＡＮは生成品質と推論速度との間で明確な妥協を呈している。

以下に、検討している種々のモデルについて、ＣＰＵ（例えばＩｎｔｅｌＣｏｒｅｉ７－６７００３．４０ＧＨｚ）およびＧＰＵ（例えばＮｖｉｄｉａＧｅＦｏｒｃｅＧＴＸ１０６０）における生成のパラメータ数と実時間係数を示す。
・パラレルＷａｖｅＧＡＮパラメータ：１．４４Ｍ、ＣＰＵ：０．８ｘ、ＧＰＵ：１７ｘ
・ＭｅｌＧＡＮパラメータ：４．２６Ｍ、ＣＰＵ：７ｘ、ＧＰＵ：１１０ｘ
・ＳｔｙｌｅＭｅｌＧＡＮパラメータ：３．８６Ｍ、ＣＰＵ：２．６ｘ、ＧＰＵ：５４ｘ
・ＷａｖｅＧｌｏｗパラメータ：８０Ｍ、－、ＧＰＵ：５ｘ

最後に、図５はＭＵＳＨＲＡエキスパートリスニングテストの結果を示している。ＳｔｙｌｅＭｅｌＧＡＮは最新モデルを上回っていることが見て取れる。

結論
本稿はハイファイ音声合成のための軽量且つ効率的な敵対的ボコーダーであるＳｔｙｌｅＭｅｌＧＡＮを紹介するものである。このモデルは単に第１のレイヤにコンディショニングを供給する代わりに、すべての生成レイヤに十分かつ正確なコンディショニングを配布するために時間適応型正規化（ＴＡＤＥ：ｔｅｍｐｏｒａｌａｄａｐｔｉｖｅｎｏｒｍａｌｉｚａｔｉｏｎ）を使用する。敵対的学習のために、生成器は時間領域と周波数領域の双方で音声信号のマルチスケール表現を提供するフィルタバンクランダムウィンドウ識別器と競合する。ＳｔｙｌｅＭｅｌＧＡＮは実時間よりも早いマグニチュードの規模でＣＰＵとＧＰＵの双方で動作する。実験の客観的および主観的結果は、ＳｔｙｌｅＭｅｌＧＡＮは先行する敵対的ボコーダー並びに自己回帰ボコーダー、流ベースボコーダーおよび拡散ベースボコーダーを著しく上回り、ニューラル波形生成の新しい最高水準のベースラインをもたらしていることが示されている。

最後に、本明細書に記載の実施形態は、本明細書に記載の任意の重要ポイントまたは様態によって随意に捕捉することができる。ただし、本明細書に記載の重要ポイントおよび様態は、個別にまたは組み合わせて使用することができ、また本明細書に記載の任意の実施形態に個別にまたは組み合わせて組み入れることができることが指摘される。

一部の様態は装置の文脈で記載されているが、これらの様態は対応する方法の記載をも示すことは明らかであり、装置またはその一部は方法工程または方法工程の特徴に対応する。同様に、方法工程の文脈で記載された様態は対応する装置または装置の一部または対応する装置のアイテムまたは特性も示す。方法工程の一部または全部は、例えばマイクロプロセッサ、プログラマブルなコンピュータまたは電子回路等、ハードウェア装置によって（または使って）実行することができる。一部の実施形態においては、１つ以上の最重要方法工程がこのような装置によって実行されることがある。

一部の実装要件に応じて、本発明の実施形態はハードウェアまたはソフトウェアで実装されることがある。実装は例えば電子的に可読な制御信号が格納され、それぞれの方法が実行されるようにプログラマブルなコンピュータシステムと協働する（または協働することが可能な）フロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリ等のデジタル記憶媒体を使用して実行することができる。したがって、デジタル記憶媒体はコンピュータ可読であり得る。

本発明にかかる一部の実施形態は、プログラマブルなコンピュータシステムと協働して本明細書に記載の方法の１つが実行されるようにすることができる、電子的に可読な制御信号を備えるデータキャリアを含む。

概して、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装されることがあり、プログラムコードはコンピュータプログラム製品がコンピュータ上で実行されると、方法の１つを実行するように動作する。プログラムコードは例えば機械可読キャリアに記憶されていることがある。

他の実施形態は、機械可読なキャリアに記憶された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

言い換えれば、本願発明の方法の実施形態は、従って、コンピュータプログラムがコンピュータで実行されたときに本明細書に記載の方法の１つを実行するためのプログラムコードを備えたコンピュータプログラムである。

本願発明の別の実施形態は、従って、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを記録して含む、データキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録媒体は典型的に有形で、非一時的である。

本願発明の別の実施形態は、したがって、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばデータ通信接続、例えばインターネットを介して伝送されるように構成されていてもよい。

別の実施形態は、本明細書に記載の方法の１つを実行するように構成または適合された、コンピュータまたはプログラマブルな論理デバイス等の処理手段を含む。

別の実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

本発明にかかる別の実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを受信器に（例えば電子的または工学的に）伝送するように構成された装置またはシステムを含む。受信器は例えばコンピュータ、モバイルデバイス、メモリデバイス等であり得る。装置またはシステムは、例えばコンピュータプログラムを受信器に伝送するためのファイルサーバを含むことがある。

一部の実施形態では、本明細書に記載の方法の機能の一部または全部を実行するためにプログラマブルな論理デバイス（例えばフィールドプログラマブルゲートアレイ）が使用されることがある。一部の実施形態では、フィールドプログラマブルゲートアレイは本明細書に記載の方法の１つを実行するためにマイクロプロセッサと協働することがある。該して、方法は好ましくは任意のハードウェア装置によって実行される。

本明細書に記載の装置はハードウェア装置を用いて、またはコンピュータを用いて、またはハードウェア装置とコンピュータの組み合わせを用いて実装されることがある。本明細書に記載の装置または本明細書に記載の装置の任意のコンポーネントは、少なくとも部分的にハードウェアおよび／またはソフトウェアで実装されることがある。本明細書に記載の方法は、ハードウェア装置を用いて、またはコンピュータを用いて、またはハードウェア装置とコンピュータの組み合わせを用いて実行されることがある。本明細書に記載の方法または本明細書に記載の方法の任意の一部は、少なくとも部分的にハードウェアおよび／またはソフトウェアで実行されることがある。

上記の実施形態は本発明の原則を単に例証するものである。本明細書に記載の構成および細目の修正および改変は、当業者には自明と理解されるものとする。したがって、本願特許請求の範囲によって限定され、本明細書に記載の実施例の記載および説明によって示される具体的な細目によって限定されないものとする。

先行技術文献
A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, et al., "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, 2016.
R. Prenger, R. Valle, and B. Catanzaro, "Waveglow: A Flow-based Generative Network for Speech Synthesis," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 3617-3621.
S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, et al., "SampleRNN: An Unconditional End-to-End Neural Audio Generation Model," arXiv:1612.07837, 2016.
N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, et al., "Efficient neural audio synthesis," arXiv:1802.08435, 2018.
A. van den Oord, Y. Li, I. Babuschkin, K. Simonyan, et al., "Parallel WaveNet: Fast High-Fidelity Speech Synthesis," in Proceedings of the 35th ICML, 2018, pp. 3918-3926.
J. Valin and J. Skoglund, "LPCNET: Improving Neural Speech Synthesis through Linear Prediction," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 5891-5895.
K. Kumar, R. Kumar, de T. Boissiere, L. Gestin, et al., "MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis," in Advances in NeurIPS 32, pp. 14910-14921. 2019.
R. Yamamoto, E. Song, and J. Kim, "Parallel Wavegan: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 6199-6203.
M. Bin´kowski, J. Donahue, S. Dieleman, A. Clark, et al., "High Fidelity Speech Synthesis with Adversarial Networks," arXiv:1909.11646, 2019.
T. Park, M. Y. Liu, T. C. Wang, and J. Y. Zhu, "Se-mantic Image Synthesis With Spatially-Adaptive Normalization," in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
P. Govalkar, J. Fischer, F. Zalkow, and C. Dittmar, "A Comparison of Recent Neural Vo-coders for Speech Signal Reconstruction," in Proceedings of the ISCA Speech Synthesis Workshop, 2019, pp. 7-12.
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, et al., "Generative Adversarial Nets," in Advances in NeurIPS 27, pp. 2672-2680. 2014.
C. Donahue, J. McAuley, and M. Puckette, "Adversarial Audio Synthesis," arXiv:1802.04208, 2018.
J. Engel, K. K. Agrawal, S. Chen, I. Gulrajani, et al., "GANSynth: Adversarial Neural Au-dio Synthesis," arXiv:1902.08710, 2019.
G. Yang, S. Yang, K. Liu, P. Fang, et al., "Multiband MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech," arXiv:2005.05106, 2020.
J. Yang, J. Lee, Y. Kim, H. Cho, and I. Kim, "VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Network," arXiv:2007.15256, 2020.
Jungil Kong, Jaehyeon Kim, and Jaekyoung Bae, "Hifi-gan: Generative adversarial net-works for efficient and high fidelity speech synthesis," arXiv preprint arXiv:2010.05646, 2020.
D. Ulyanov, A. Vedaldi, and V. Lempitsky, "Instance normalization: The missing ingredient for fast stylization," arXiv:1607.08022, 2016.
A. Mustafa, A. Biswas, C. Bergler, J. Schottenhamml, and A. Maier, "Analysis by Adversarial Synthesis - A Novel Approach for Speech Vocoding," in Proc. Inter-speech, 2019, pp. 191-195.
T. Q. Nguyen, "Near-perfect-reconstruction pseudo-QMF banks," IEEE Transactions on Signal Processing, vol. 42, no. 1, pp. 65-76, 1994.
T. Salimans and D. P. Kingma, "Weight normalization: A simple reparameterization to accelerate training of deep neural networks," in Advances in NeurIPS, 2016, pp. 901-909.
K. Ito and L. Johnson, "The LJ Speech Dataset," https://keithito.com/LJ-Speech-Dataset/, 2017.
D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," arXiv:1412.6980, 2014.
T. Hayashi, R. Yamamoto, K. Inoue, T. Yoshimura, et al., "Espnet-tts: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 7654-7658.
A. Gritsenko, T. Salimans, R. van den Berg, J. Snoek, and N. Kalchbrenner, "A Spectral Energy Distance for Parallel Speech Synthesis," arXiv:2008.01160, 2020.
“P.800: Methods for subjective determination of transmission quality," Standard, International Telecommunication Union, 1996.

Claims

入力信号（１４）およびターゲットデータ（１２）からオーディオ信号（１６）を生成するように構成されたオーディオ生成器（１０）であって、前記ターゲットデータ（１２）は前記オーディオ信号（１６）を示し、
前記入力信号（１４）から導出された第１のデータ（１５，５９ａ）を受信し、第１の出力データ（６９）を出力するように構成された第１の処理ブロック（４０，５０，５０ａ～５０ｈ）であって。前記第１の出力データ（６９）は複数のチャネル（４７）を備える、第１の処理ブロック（４０，５０，５０ａ～５０ｈ）と、
前記第１の出力データ（６９）または前記第１の出力データ（６９）から導出されたデータを第２のデータとして受信するように構成された第２の処理ブロック（４５）と
を備えるオーディオ生成器（１０）であって、
前記第１の処理ブロック（５０）は前記第１の出力データの各チャネルについて、
前記ターゲットデータ（１２）を処理してコンディショニング特性パラメータ（７４，７５）を取得するように構成された学習可能レイヤのコンディショニングセット（７１，７２，７３）と、
前記コンディショニング特性パラメータ（７４，７５）を前記第１のデータ（１５，５９ａ）または前記第１のデータを正規化したもの（５９，７６’）に適用するように構成されたスタイル付与要素（７７）と
を備え、
前記第２の処理ブロック（４５）は前記第２のデータ（６９）の前記複数のチャネル（４７）を結合して前記オーディオ信号（１６）を取得するように構成される、
オーディオ生成器。
前記学習可能レイヤのコンディショニングセットは１つまたは少なくとも２つの畳み込みレイヤ（７１，７３）から成る、請求項１に記載のオーディオ生成器。
第１の畳み込みレイヤ（７１～７３）は、前記ターゲットデータ（１２）または前記ターゲットデータをアップサンプリングしたものを畳み込んで、第１の活性化関数を使用して第１の畳み込み済みデータ（７１’）を取得するように構成される、請求項２に記載のオーディオ生成器。
前記学習可能レイヤのコンディショニングセット（７１～７３）および前記スタイル付与要素（７７）は、１つ以上の残差ブロック（５０，５０ａ～５０ｈ）を備えるニューラルネットワークの残差ブロック（５０，５０ａ～５０ｈ）内の加重レイヤの一部である、請求項１ないし請求項３のいずれか１項に記載のオーディオ生成器。
前記オーディオ生成器（１０）は、前記第１のデータ（５９ａ，１５）を正規化するように構成された正規化要素（７６）をさらに備える、請求項１ないし請求項４のいずれか１項に記載のオーディオ生成器。
前記オーディオ信号（１６）は音声オーディオ信号である、請求項１ないし請求項５のいずれか１項に記載のオーディオ生成器。
前記ターゲットデータ（１２）は少なくとも係数２でアップサンプリングされる、請求項１ないし請求項６のいずれか１項に記載のオーディオ生成器。
前記ターゲットデータ（１２）は非線形補間でアップサンプリング（７０）される、請求項７に記載のオーディオ生成器。
前記第１の処理ブロック（４０，５０，５０ａ～５０ｋ）は、前記第１のデータ（１５，５９，５９ａ，５９ｂ）から導出されたデータを、第２の活性化関数（６３ａ，６４ａ，６３ｂ，６４ｂ）を使用して処理するように構成された、学習可能レイヤの別のセット（６１ａ，６２ａ，６１ｂ，６２ｂ）をさらに備え、
前記第２の活性化関数（６３ａ，６４ａ，６３ｂ，６４ｂ）はゲート付き活性化関数である、
請求項１ないし請求項８のいずれか１項に記載のオーディオ生成器。
前記学習可能レイヤの別のセット（６１ａ，６２ａ，６１ｂ，６２ｂ）は１つまたは２つまたはそれ以上の畳み込みレイヤから成る、請求項９に記載のオーディオ生成器。
第２の活性化関数（６３ａ，６３ｂ）はソフトマックスゲート付き双曲線正接（ＴａｎＨ）関数である、請求項９または請求項１０に記載のオーディオ生成器。
前記第１の活性化関数はリーキー整流化線形ユニット（リーキーＲｅＬｕ）関数である、請求項３または請求項３に従属する請求項４ないし請求項１１のいずれか１項に記載のオーディオ生成器。
畳み込み動作（６１ａ，６１ｂ，６２ａ，６２ｂ）は最大膨張率２で実行される、請求項１ないし請求項１２のいずれか１項に記載のオーディオ生成器。
８つの第１の処理ブロック（５０ａ～５０ｈ）と１つの第２の処理ブロック（４５）を備える、請求項１ないし請求項１３のいずれか１項に記載のオーディオ生成器。
前記第１のデータ（１５，５９，５９ａ，５９ｂ）の次元が前記オーディオ信号よりも低い、請求項１ないし請求項１４のいずれか１項に記載のオーディオ生成器。
前記ターゲットデータ（１２）はスペクトログラムである、請求項１ないし請求項１５のいずれか１項に記載のオーディオ生成器。
前記ターゲットデータ（１２）はメルスペクトログラムである、請求項１ないし請求項１６のいずれか１項に記載のオーディオ生成器。
前記ターゲットデータ（１２）はビットストリームである、請求項１ないし請求項１５のいずれか１項に記載のオーディオ生成器。
前記ターゲットデータ（１２）は劣化オーディオ信号である、請求項１ないし請求項１８のいずれか１項に記載のオーディオ生成器。
前記ターゲットデータ（１２）はテキストから導出される、請求項１ないし請求項１８のいずれか１項に記載のオーディオ生成器。
前記ターゲットデータ（１２）はオーディオデータの圧縮表現である、請求項１ないし請求項２０のいずれか１項に記載のオーディオ生成器。
入力信号（１４）およびターゲットデータ（１２）からオーディオ生成器（１０）によってオーディオ信号（１６）を生成するための方法であって、前記ターゲットデータ（１２）は前記オーディオ信号（１６）を示す、方法であって、
第１の処理ブロック（５０，５０ａ～５０ｈ）によって、前記入力信号（１４）から導出された第１のデータ（１６５５９，５９ａ，５９ｂ）を受信するステップと、
前記第１の出力データ（５９ｂ，６９）の各チャネルについて、
前記第１の処理ブロック（５０）の学習可能レイヤのコンディショニングセット（７１，７２，７３）によって前記ターゲットデータ（１２）を処理してコンディショニング特性パラメータ（７４，７５）を取得するステップと、
前記第１の処理ブロック（５０）のスタイル付与要素（７７）によって、前記コンディショニング特性パラメータ（７４，７５）を前記第１のデータ（１５，５９ａ）または前記第１のデータを正規化したもの（７６’）に適用するステップと、
前記第１の処理ブロック（５０）によって、複数のチャネル（４７）を含む第１の出力データ（６９）を出力するステップと、
第２の処理ブロック（４５）によって前記第１の出力データ（６９）または前記第１の出力データ（６９）から導出されたデータを第２のデータとして受信するステップと、
前記第２の処理ブロック（４５）によって、前記第２のデータの前記複数のチャネル（４７）を結合して前記オーディオ信号（１６）を取得するステップと、
を含む方法。
前記学習可能レイヤのコンディショニングセット（７１～７３）は、１つまたは２つの畳み込みレイヤから成る、請求項２２に記載のオーディオ信号を生成するための方法。
前記学習可能レイヤのコンディショニングセット（７１～７３）によって処理するステップは、第１の畳み込みレイヤ（７１）によって、前記ターゲットデータ（１２）または前記ターゲットデータをアップサンプリングしたものを畳み込んで、第１の活性化関数を使用して第１の畳み込み済みデータ（７１’）を取得するステップを含む、請求項２３に記載のオーディオ信号を生成するための方法。
前記学習可能レイヤのコンディショニングセット（７１～７３）および前記スタイル付与要素（７７）は、１つ以上の残差ブロック（５０，５０ａ～５０ｈ）を備えるニューラルネットワークの残差ブロック（５０，５０ａ～５０ｈ）内の加重レイヤの一部である、請求項２２ないし請求項２４のいずれか１項に記載のオーディオ信号を生成するための方法。
前記方法は、前記第１のデータ（１５，５９）を正規化要素（７６）によって正規化するステップをさらに含む、請求項２２ないし請求項２５のいずれか１項に記載のオーディオ信号を生成するための方法。
前記オーディオ信号（１６）は音声オーディオ信号である、請求項２２ないし請求項２６のいずれか１項に記載のオーディオ信号を生成するための方法。
前記ターゲットデータ（１２）は係数２でアップサンプリング（７０）される、請求項２２ないし請求項２７のいずれか１項に記載のオーディオ信号を生成するための方法。
前記ターゲットデータ（１２）は非線形補間でアップサンプリング（７０）される、請求項２２ないし請求項２８のいずれか１項に記載のオーディオ信号を生成するための方法。
前記第１の処理ブロック（５０）の学習可能レイヤの別のセット（６１ａ，６２ａ，６１ｂ，６２ｂ）によって、前記第１のデータ（１５，５９ａ）から導出されたデータを、第２の活性化関数（６３ａ，６４ａ，６３ｂ，６４ｂ）を使用して処理するステップをさらに含み、
前記第２の活性化関数（６３ａ，６４ａ，６３ｂ，６４ｂ）はゲート付き活性化関数である、
請求項２２ないし請求項２９のいずれか１項に記載のオーディオ信号を生成するための方法。
前記学習可能レイヤの別のセット（６１ａ，６２ａ，６１ｂ，６２ｂ）は１つまたは２つの畳み込みレイヤから成る、請求項３０に記載のオーディオ信号を生成するための方法。
前記第２の活性化関数（６３ａ，６４ａ，６３ｂ，６４ｂ）はソフトマックスゲート付き双曲線正接（ＴａｎＨ）関数である、請求項３０または請求項３１に記載のオーディオ信号を生成するための方法。
前記第１の活性化関数はリーキー整流化線形ユニット（リーキーＲｅＬｕ）関数である、請求項２２ないし請求項３２のいずれか１項に記載のオーディオ信号を生成するための方法。
畳み込み動作（６１ａ，６１ｂ，６２ａ，６２ｂ）は最大膨張率２で実行される、請求項２２ないし請求項３３のいずれか１項に記載のオーディオ信号を生成するための方法。
前記第１の処理ブロック（５０，５０ａ～５０ｈ）の工程を８回繰り返し、前記第２の処理ブロック（４５）の工程を１回だけ行うステップを含む、請求項２２ないし請求項３４のいずれか１項に記載のオーディオ信号を生成するための方法。
前記第１のデータ（１５，５９）の次元が前記オーディオ信号よりも低い、請求項２２ないし請求項３５のいずれか１項に記載のオーディオ信号を生成するための方法。
前記ターゲットデータ（１２）はスペクトログラムまたはビットストリームである、請求項２２ないし請求項３６のいずれか１項に記載のオーディオ信号を生成するための方法。
前記スペクトログラムはメルスペクトログラムである、請求項３７に記載の方法。
前記ターゲットデータ（１２）はテキストから導出され、前記ターゲットデータはオーディオデータの圧縮表現である、または前記ターゲットデータは劣化オーディオ信号である、請求項２２ないし請求項３８のいずれか１項に記載のオーディオ信号を生成するための方法。
請求項１ないし請求項２１のいずれか１項に記載のオーディオ生成器（１０）を学習（１００）させるための方法であって、前記学習（１００）は請求項２２ないし請求項３９のいずれかに記載の工程を１回以上繰り返すステップを含む、方法。
生成されたオーディオ信号（１４，１６）を少なくとも１つの評価器（１３２）で評価（１３０）するステップと、
前記評価（１３０）の結果に応じて前記オーディオ生成器（１０）の加重（７４，７５）を調節するステップと
をさらに含む、請求項４０に記載の方法。
前記少なくとも１つの評価器（１３２）はニューラルネットワークである、請求項４１に記載の方法。
前記評価器の加重を前記評価の結果に応じて適合させるステップをさらに含む、請求項４１または請求項４２に記載の方法。
学習（１３０）は損失関数（１４０）を最適化するステップを含む、請求項４０ないし請求項４３のいずれか１項に記載の方法。
損失関数を最適化（１３０）するステップは、前記生成されたオーディオ信号（１６）と基準オーディオ信号（１０４）との間の固定メトリックを計算するステップを含む、請求項４４に記載の方法。
前記固定メトリックを計算するステップは、前記生成されたオーディオ信号（１６）と前記基準オーディオ信号（１０４）との間の１つ以上のスペクトル歪みを計算するステップを含む、請求項４５に記載の方法。
前記１つ以上のスペクトル歪みを計算するステップは、前記生成されたオーディオ信号（１６）および前記基準オーディオ信号（１０４）のマグニチュードまたはログマグニチュードに対して行われる、請求項４６に記載の方法。
前記１つ以上のスペクトル歪みを計算するステップは、前記生成されたオーディオ信号（１６）および前記基準オーディオ信号（１０４）の異なる時間または周波数解像度に対して行われる、請求項４６または請求項４７に記載の方法。
前記損失関数（１４０）を最適化するステップは、１つ以上の評価器（１３２）によって前記生成されたオーディオ信号（１６）の表現または前記基準オーディオ信号（１０４）の表現をランダムに供給し評価することによって１つ以上の敵対的メトリックを導出するステップを含み、評価するステップは、前記オーディオ信号（１４，１６）の事前学習済みの自然さの分類レベルを示す既定の数の等級に、供給されたオーディオ信号（１６，１３２）を分類するステップを含む、請求項４４ないし請求項４８のいずれか１項に記載の方法。
前記損失関数を最適化するステップは、１つ以上の評価器（１３２）によって固定メトリックを計算し、敵対的メトリックを導出するステップを含む、請求項４４ないし請求項４９のいずれか１項に記載の方法。
前記オーディオ生成器（１０）はまず、前記固定メトリックを用いて学習させられる、請求項５０に記載の方法。
４つの評価器（１３２ａ～１３２ｄ）が４つの敵対的メトリックを導出する、請求項４９ないし請求項５１のいずれか１項に記載の方法。
前記評価器（１３２）はフィルタバンクによる前記生成されたオーディオ信号（１６）の前記表現または前記基準オーディオ信号（１０４）の前記表現の分解（１１０）後に動作する、請求項４９または請求項５２に記載の方法。
前記評価器（１３２ａ～１３２ｄ）はそれぞれ、前記生成されたオーディオ信号（１６）の前記表現または前記基準オーディオ信号（１０４）の前記表現の１つ以上の部分（１０５ａ～１０５ｄ）を入力として受信する、請求項４９または請求項５３に記載の方法。
前記信号部分は、ランダム窓関数を使用して、前記入力信号（１４）からランダムなウィンドウ（１０５ａ～１０５ｄ）をサンプリングして生成される、請求項５４に記載の方法。
前記ランダムウィンドウ（１０５ａ～１０５ｄ）のサンプリングは、各評価器（１３２ａ～１３２ｄ）について複数回繰り返される、請求項５４または請求項５５に記載の方法。
前記ランダムウィンドウ（１０５ａ～１０５ｄ）が各評価器（１３２ａ～１３２ｄ）についてサンプリングされる回数は、前記生成されたオーディオ信号の前記表現または前記基準オーディオ信号（１０４）の前記表現の長さに比例する、請求項５６に記載の方法。
プログラムが処理デバイスで実行されるときに、請求項２２ないし請求項５７の工程を実行するためのソフトウェアコード部分を含む処理デバイス用プログラムを含む、コンピュータプログラム製品。
前記コンピュータプログラム製品は、前記ソフトウェアコード部分が格納されているコンピュータ可読媒体を含み、前記プログラムは前記処理デバイスの内蔵メモリに直接搭載することができる、請求項５８に記載のコンピュータプログラム製品。
数理モデルを含むオーディオ信号（１６）を生成する方法であって、前記数理モデルは生成する前記オーディオ信号（１６）を表す入力シーケンス（１２）から所与の時間ステップにオーディオサンプルを出力するように構成され、
前記数理モデルは入力された代表シーケンス（１２）を使用して前記出力オーディオサンプルを作り出すためにノイズベクトル（１４）を整形するように構成される、
方法。
前記数理モデルはオーディオデータを用いて学習させられる、請求項６０に記載の方法。
前記数理モデルはニューラルネットワークである、請求項６０または請求項６１に記載の方法。
前記ネットワークは順伝播型ネットワークである、請求項６３に記載の方法。
前記ネットワークは畳み込みネットワークである、請求項６２または６３に記載の方法。
前記ノイズベクトル（１４）の次元は生成するオーディオ信号（１６）よりも低い、請求項６０ないし請求項６４のいずれか１項に記載の方法。
前記入力された代表シーケンス（１２）を用いて前記数理モデルを条件付けするため、ひいては前記ノイズベクトル（１４）を整形するために、時間適合的脱正規化（ＴＡＤＥ）法が使用される、請求項６０ないし請求項６５のいずれか１項に記載の方法。
修正ソフトマックスゲート付きＴａｎｈ（６３ａ，６４ａ，６４ｂ，４６）が前記ニューラルネットワークの各レイヤを活性化させる、請求項６２ないし請求項６６のいずれか１項に記載の方法。
畳み込み動作は最大膨張率２で実行される、請求項６４ないし請求項６７のいずれか１項に記載の方法。
前記ノイズベクトル（１４）ならびに前記入力された代表シーケンス（１２）はアップサンプリング（７０，３０）されて、前記ターゲットサンプリングレートで前記出力オーディオ（１６）を取得する、請求項６０ないし請求項６８のいずれか１項に記載の方法。
前記アップサンプリング（７０）は前記数理モデルの異なるレイヤにおいて順次行われる、請求項６９に記載の方法。
各レイヤについての前記アップサンプリングの係数は２または２の倍数である、請求項７０に記載の方法。
前記生成されたオーディオ信号はテキスト読み上げアプリケーションで使用され、前記入力された代表シーケンスはテキストから導出される、請求項６０ないし請求項７１のいずれか１項に記載の方法。
前記生成されたオーディオ信号（１６）はオーディオデコーダで使用され、前記入力された代表シーケンスは伝送または記憶される元のオーディオの圧縮表現である、請求項６０ないし請求項７２のいずれか１項に記載の方法。
前記生成されたオーディオ信号（１６）は劣化オーディオ信号のオーディオ品質を改善するために用いられ、前記入力された代表シーケンス（１２）は前記劣化信号から導出される、請求項６０ないし請求項７３のいずれか１項に記載の方法。
オーディオ生成のためにニューラルネットワークを学習させる方法であって、
前記ニューラルネットワークは、生成する前記オーディオデータ（１６）を表す入力シーケンス（１４）から所与の時間ステップにオーディオサンプルを出力し、
前記ニューラルネットワークは、入力された代表シーケンス（１２）を用いて出力された前記オーディオサンプル（１６）を作り出すためにノイズベクトル（１４）を整形するように構成され、
前記ニューラルネットワークは請求項５１～６５のいずれか１項に従って設計され、
前記学習は損失関数（１４０）を最適化するように設計される、
方法。
前記損失関数は生成された前記オーディオ信号（１６）と基準オーディオ信号（１０４）との間で算出された固定メトリックを含む、請求項７５に記載の方法。
前記固定メトリックは、前記生成されたオーディオ信号（１６）と前記基準オーディオ信号（１０４との間で算出された１つ以上のスペクトル歪みのうちの１つである、請求項７６に記載の方法。
前記１つ以上のスペクトル歪みは、前記生成されたオーディオ信号（１６）および前記基準オーディオ信号（１０４）のスペクトル表現のマグニチュードまたはログマグニチュードについて計算される、請求項７７に記載の方法。
前記固定メトリックを形成する前記１つ以上のスペクトル歪みは異なる時間解像度または周波数解像度について計算される、請求項７７または請求項７８に記載の方法。
前記損失関数は、追加の識別的ネットワークから導出された敵対的メトリックを含み、
前記識別的ニューラルネットワークは前記生成されたオーディオ信号（１６）の表現または前記基準オーディオ信号（１０４）の表現を入力として受信し、
前記識別的ニューラルネットワークは前記生成されたオーディオ信号（１６）がどのていど現実的であるかを評価するように構成される、
請求項７５ないし請求項７９のいずれか１項に記載の方法。
前記損失関数は固定メトリックと追加の識別的ニューラルネットワークから導出された敵対的メトリックの双方を含む、請求項７５ないし請求項８０のいずれか１項に記載の方法。
前記オーディオサンプルを生成する前記ニューラルネットワークは、まず固定メトリックのみを用いて学習させられる、請求項７６ないし請求項８１のいずれか１項に記載の方法。
前記敵対的メトリックは、４つの識別的ニューラルネットワーク（１３２ａ～１３２ｄ）によって導出される、請求項８０または請求項８１に記載の方法。
前記識別的ニューラルネットワークは、入力された前記オーディオ信号をフィルタバンクが分解したのちに動作する、請求項８０または請求項１８に記載の方法。
各識別的ニューラルネットワーク（１３２）は、前記入力されたオーディオ信号をランダムにウィンドウ化した１つ以上のバージョンを入力として受信する、請求項８０または請求項８１に記載の方法。
前記ランダムウィンドウ（１０５ａ～１０５ｄ）の前記サンプリングは、各識別的ニューラルネットワーク（１３２）について複数回繰り返される、請求項８５に記載の方法。
前記ランダムウィンドウ（１０５ａ～１０５ｄ）が各識別的ニューラルネットワーク（１３２）についてサンプリングされる回数は、前記入力されたオーディオサンプルの長さに比例する請求項８６に記載の方法。