JP2023546099A - オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法 - Google Patents

オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法 Download PDF

Info

Publication number
JP2023546099A
JP2023546099A JP2023522965A JP2023522965A JP2023546099A JP 2023546099 A JP2023546099 A JP 2023546099A JP 2023522965 A JP2023522965 A JP 2023522965A JP 2023522965 A JP2023522965 A JP 2023522965A JP 2023546099 A JP2023546099 A JP 2023546099A
Authority
JP
Japan
Prior art keywords
audio signal
audio
data
signal
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023522965A
Other languages
English (en)
Inventor
アフマド ムスタファ マフムート アフマド
ニコラ ピア
ギヨーム フックス
マルクス ムルトゥルス
スリカンス コルセ
キシャン グプタ
ヤン ビューテ
Original Assignee
フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2023546099A publication Critical patent/JP2023546099A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オーディオ信号を生成し、オーディオ生成器を学習させるための技法が開示されている。オーディオ生成器(10)はオーディオ信号(16)、入力信号(14)および前記オーディオ信号(16)を表すターゲットデータ(12)から生成することができる。オーディオ生成器は、入力信号(14)から導出された第1のデータ(15,59a)を受信し、第1の出力データを出力する第1の処理ブロック(40,50,50a~50h)と、第1の出力データ(69)または第1の出力データ(69)から導出されたデータを第2のデータとして受信する第2の処理ブロック(45)とを備える。第1の処理ブロック(50)は、ターゲットデータ(12)を処理してコンディショニング特性パラメータ(74,75)を取得するように構成される、学習可能レイヤのコンディショニングセット(71,72,73)と、コンディショニング特性パラメータ(74,75)を第1のデータ(15,59a)または第1のデータを正規化したもの(59,76’)に適用するように構成されたスタイリング要素(77)とを備える。

Description

はじめに
下記に、異なる発明の実施形態と態様を記載する。また、添付の請求の範囲において別の実施形態が特定されることになる。請求の範囲によって特定される実施形態はすべて、本明細書に記載されるいずれかの細目(特徴および機能)によって補足することができる。
同様に、本明細書に記載の実施形態はすべて独立して使用することができ、且つ本明細書に含まれるいずれかの特徴または請求の範囲に含まれるいずれかの特徴によって補足することができる。
また、本明細書に記載の個々の態様は、独立してまたは組み合わせて使用することが可能なことも指摘される。このように、個々の態様のそれぞれに対し、該態様のうちの別の態様に細目を加えることなく、細目を加えることができる。
また、本開示は、オーディオ生成器および/またはオーディオ生成方法および/またはコンピュータプログラム製品において使用可能な特徴を明示的または暗示的に記述している。よって、本明細書に記載される特徴のいずれも、装置、方法および/またはコンピュータプログラム製品の文脈において使用することができる。
さらに、本明細書に開示される、方法に関連する特徴および機能性は、(かかる機能性を実行するように構成された)装置においても使用することができる。また、装置に関連して本明細書で開示された特徴および機能性はいずれも、対応する方法においても使用することができる。言い換えれば、本明細書に開示された方法は、装置に関連して記載された特徴および機能性のいずれによっても補足することができる。
同様に、本明細書に記載される特徴および機能性のいずれも、下記「実装の選択肢」の項に記載の通り、ハードウェアおよびソフトウェアにおいて、あるいはハードウェアおよびソフトウェアの組み合わせを使用して、実装することができる。
実装の選択肢
一部の態様は装置の文脈で記載されているが、これらの態様は、特徴が方法の工程または方法の工程の特徴に相当する、対応する方法の記述をも表していることは明らかである。同様に、方法の工程の文脈で記載されている態様は、対応する装置の対応する特徴の記述を表している。方法の工程の一部または全部は、例えばマイクロプロセッサ、プログラマブルなコンピュータまたは電子回路等のハードウェア装置によって(あるいは用いて)実行することができる。一部の実施形態においては、最も重要な方法の工程の1つ以上がかかる装置によって行われることがある。
所定の実装要件によっては、本発明の実施形態はハードウェアまたはソフトウェアにおいて実装することができる。実装はそれぞれの方法が実行されるようにプログラマブルなコンピュータシステムと協働する(または協働することができる)電子的に可読な制御信号を記憶した、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリ等のデジタル記憶媒体を用いて実行することもできる。したがって、デジタル記憶媒体はコンピュータ可読である場合がある。
本発明に係る一部の実施形態は、プログラマブルなコンピュータシステムと協働して本明細書に記載の方法の1つが実施されるようにすることができる、電子的に可読な制御信号を有するデータキャリアを含む。
概して、本発明の実施形態はプログラムコードを備えるコンピュータプログラム製品として実装することができ、プログラムコードはコンピュータプログラムがコンピュータで実行されると、方法のうちの1つを実行するように作用する。プログラムコードは例えば機械可読キャリアに記憶することができる。
他の実施形態には、機械可読キャリアに記憶された、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムが含まれる。
つまり、本願発明の方法の一実施形態は、コンピュータプログラムがコンピュータで実行されると本明細書に記載の方法のうちの1つを実行するためのプログラムを有するコンピュータプログラムということになる。
本願発明の方法の別の実施形態は、よって、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを記憶して備える、データキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)ということになる。データキャリア、デジタル記憶媒体または記録された媒体は、典型的には有形で非一時的なものである。
本願発明の方法の別の実施形態は、よって、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスということになる。データストリームまたは信号のシーケンスは例えば、例えばインターネットを介して等データ通信接続を介して伝送されるように構成されることもある。
さらに別の実施形態は、本明細書に記載の方法のうちの1つを実行するように構成または適合された、コンピュータまたはプログラマブルな論理デバイス装置等の処理手段を含む。
さらに別の実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
本願発明にかかる別の実施形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを受信機に(例えば電子的または光学的に)伝送するように構成された装置またはシステムを含む。受信機は例えば、コンピュータ、モバイル装置、メモリ装置等であってもよい。装置またはシステムは、例えば、コンピュータプログラムを受信機に伝送するためのファイルサーバを含むことがある。
一部の実施形態においては、本明細書に記載の方法の機能性の一部またはすべてを実行するためにプログラマブルな論理デバイス(フィールドプログラマブルゲートアレイ等)が使用されることがある。一部の実施形態においては、フィールドプログラマブルゲートアレイは本明細書に記載の方法のうちの1つを実行するために、マイクロプロセッサと協働することがある。概して、方法は好ましくは任意のハードウェア装置によって実行されるものとする。
本明細書に記載の装置はハードウェア装置を用いて、またはコンピュータを用いて、あるいはハードウェア装置とコンピュータとの組み合わせを用いて実施されることがある。
本明細書に記載の装置、または本明細書に記載の装置の任意の構成要素は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実装されることがある。
本明細書に記載の方法は、ハードウェア装置を用いて、またはコンピュータを用いて、あるいはハードウェア装置とコンピュータとの組み合わせを用いて実行されることがある。
本明細書に記載の方法、または本明細書に記載の方法の任意の一部は、少なくとも部分的にハードウェアおよび/またはソフトウェアによって実行されることがある。
上記の実施例は本願発明の原則を単に例示するものである。本明細書に記載されている構成および細目の修正および改変は、他の当業者にとって自明であるものと理解される。したがって、本明細書に記載の実施形態の記述および説明によって表される具体的な細目ではなく、係属中の特許請求の範囲によってのみ限定されることを意図するものである。
技術分野
本発明は、オーディオ生成の技術分野に属する。
本発明の実施形態は、入力信号およびターゲットデータからオーディオ信号を生成するように構成されるオーディオ生成器に関連し、ターゲットデータはオーディオ信号を表す。別の実施形態はオーディオ信号を生成するための方法、およびオーディオ生成器に学習させるための方法である。別の実施形態はコンピュータプログラム製品である。
背景
近年、ニューラルボコーダーは、合成された音声信号の自然さおよび知覚品質の点で、従来の音声合成アプローチを上回っている。最良の結果はWaveNetやWaveGlow等の計算負荷の重いニューラルボコーダーによって達成されているが、MelGANやパラレルWaveGAN等、敵対的生成ネットワークに基づく軽量アーキテクチャは知覚品質の点でまだ下回っている。
WaveNetやLPCNet、WaveGlow等オーディオ波形を生成するためにディープラーニングを用いる生成モデルは、自然に聞こえる音声合成において著しい進歩を遂げている。テキスト読み上げ(TTS)アプリケーションにおいてニューラルボコーダーと呼ばれるこれらの生成モデルは、パラメトリックな合成方法および連結的な合成方法のいずれよりも性能が優れている。所与の話者および所与の発声を再生するために、ターゲット音声(メルスペクトログラム等)の圧縮表現を使用してコンディショニングすることができる。
過去の研究により、デコーダ側でこのような生成モデルを使用して、クリーンな音声の極低ビットレートでの音声符号化が達成できることが分かっている。これはニューラルボコーダーを従来の低ビットレート音声コーダからのパラメータでコンディショニングすることによって行うことができる。
ニューラルボコーダーはまた、音声の脱ノイズ化または脱反響等、音声強調タスクにも使用されていた。
これらディープ生成モデルが抱える主な問題は、通常、必要なパラメータが多量であること、そしてその結果生じる、学習および合成の双方における複雑さ(干渉)である。例えば、合成音声の品質については最先端と見なされるWaveNetはオーディオサンプルを1つずつ順次生成する。このプロセスは非常にゆっくりで計算上要求される事柄も多く、リアルタイムで行うことはできない。
最近、迅速な波形生成のために、MelGANやパラレルWaveGAN等、敵対的生成ネットワーク(GAN)に基づく軽量敵対的ボコーダーが提案されている。しかしながら、これらのモデルを使用して生成された音声の知覚品質は報告されているところによると、WaveNetやWaveGlow等のニューラルボコーダーのベースラインを著しく下回っている。この品質のギャップを埋めるためにテキスト読み上げGAN(GAN-TTS)が提案されたが、計算コストは未だ高い。
ニューラルボコーダーは多種多様存在するが、これらにはすべて欠点がある。例えばWaveNetやLPCNet等の自己回帰ボコーダーは非常に品質が高く、CPUへの干渉の最適化に適していることがあるが、処理が容易には並列化できず、品質に妥協しない限りリアルタイム処理を提供することができないので、GPUでの使用には適していない。
WaveGlow等の正規化流ボコーダーも同じく非常に品質が高く、GPUへの干渉に適している可能性があるが、学習と最適化に非常に時間のかかる極めて複雑なモデルを含んでおり、同様に埋め込みデバイスには適さない。
MelGANやパラレルWaveGAN等のGANボコーダーは、GPUへの干渉に適していて且つ軽量である可能性があるが、自己回帰モデルと比べると品質が低い。
要するに、ハイファイ音声を放出する、低複雑度な解決法は未だ存在していない。このような目的を達成するために最も研究されたアプローチがGANである。本願発明は、この問題に対する有効な解決法である。
本発明の目的は、非常に高品質な音声を生成し、限られた計算資源で学習させることが可能な、軽量ニューラルボコーダーソリューションを提供することである。
図面の簡単な説明
本発明に係る実施例を同封の図面を参照しながら下記に記載していく。
図1は、本願発明の実施形態にかかるオーディオ生成器のアーキテクチャを示す。 図2は、本願発明にかかるオーディオ生成器を学習させるために使用することのできる識別器を示す。 図3は、本願発明の実施形態にかかるオーディオ生成器の一部分の構造を示す。 図4は、本願発明の実施形態にかかるオーディオ生成器の一部分の構造を示す。 図5は、異なるモデルのMUSHRAエキスパートリスニングテストの結果を示す。 図6は、本願発明の実施形態にかかるオーディオ生成器のアーキテクチャを示す。 図7は、本願発明に従って信号に施される演算を示す。
図面においては、同じ符号が同じ要素および特徴を示す。
発明の概要
とりわけ、入力信号(例えば14)およびターゲットデータ(例えば12)からオーディオ信号(例えば16)を生成するように構成されたオーディオ生成器(例えば12)が提案されている。ターゲットデータ(例えば12)は、オーディオ信号(例えば16)を表すものであって、オーディオ生成器は入力信号(例えば14)から導出される第1のデータ(例えば15,59a)を受信して第1の出力データ(例えば69)を出力するように構成された第1の処理ブロック(例えば40,50,50a~50h)であって、ここで第1の出力データ(例えば69)は複数のチャネル(例えば47)を含む、第1の処理ブロック(例えば40,50,50a~50h)と、第1の出力データ(例えば69)または第1の出力データ(例えば69)から導出されたデータを第2のデータとして受信するように構成された第2の処理ブロック(例えば45)とのうちの少なくとも1つを備える。
第1の処理ブロック(例えば50)は、第1の出力データの各チャネルについて、ターゲットデータ(例えば12)を処理してコンディショニング特性パラメータ(例えば74,75)を得るための学習可能レイヤのコンディショニングセット(例えば71,72,73)と、コンディショニング特性パラメータ(例えば74,75)を第1のデータ(例えば15,59a)または第1のデータを正規化したもの(例えば59,76’)に適用するように構成されたスタイル付与要素(例えば77)とを備える。
第2の処理ブロック(例えば45)は第2のデータ(例えば69)の複数のチャネル(例えば47)を結合してオーディオ信号(例えば16)を取得するように構成されることがある。
また、例えばオーディオ生成器(例えば10)によって、入力信号(例えば14)およびターゲットデータ(例えば12)からオーディオ信号(例えば16)を生成するための方法が提案されている。ターゲットデータ(例えば12)はオーディオ信号(例えば16)を表し、方法には、第1の処理ブロック(例えば50,50a~50h)によって、入力信号(例えば14)から導出された第1のデータ(例えば16559,59a,59b)を受信するステップと、第1の出力データ(例えば59b,69)の各チャネルについて、ターゲットデータ(例えば12)を、第1の処理ブロック(例えば50)の学習可能レイヤのコンディショニングセット(例えば71,72,73)によって処理して、コンディショニング特性パラメータ(例えば74,75)を取得するステップと、第1の処理ブロック(例えば50)のスタイル付与要素(77)によって、コンディショニング特性パラメータ(例えば74,75)を第1のデータ(例えば15,59)または第1のデータを正規化したもの(例えば76’)に適用するステップと、複数のチャネル(例えば47)を含む第1の出力データ(例えば69)を第1の処理ブロック(例えば50)によって出力するステップと、第2の処理ブロック(例えば45)によって、第1の出力データ(例えば69)または第1の出力データ(例えば69)から導出されたデータを第2のデータとして受信するステップと、第2の処理ブロック(例えば45)によって、第2のデータの複数のチャネル(例えば47)を結合してオーディオ信号(例えば16)を取得するステップと、を含む。
オーディオ生成のためにニューラルネットワークを学習させる方法も提案されていて、ここでニューラルネットワークは、所与の時間ステップに、生成するオーディオ信号(例えば16)を表す入力シーケンス(例えば14)からオーディオサンプルを出力し、出力されたオーディオサンプル(例えば16)を作り出すために、入力された代表シーケンス(例えば12)を用いてノイズベクトル(例えば14)を整形するように構成され、ここで学習は損失関数(例えば140)を最適化させるように設計されている。
また、数理モデルを含むオーディオ信号(例えば16)を生成するための方法も提案されている。ここで数理モデルは所与の時間ステップに、生成するオーディオデータ(例えば16)を表す入力シーケンス(例えば12)からオーディオサンプルを出力するように構成される。数理モデルは出力オーディオサンプルを作り出すために、入力された代表シーケンス(例えば12)を用いてノイズベクトル(例えば14)を整形することがある。
この文脈において、計算が低複雑性でハイファイ音声の合成が可能な軽量ニューラルボコーダーである、StyleMelGAN(例えば、オーディオ生成器10)を提案する。StyleMelGANは、ターゲット音声の波形の音響特性を介してサイズの小さいノイズベクトル(例えば、128×1ベクトル)にスタイル付与(例えば77において)する際に時間適応的脱正規化(TADE)(例えば図4の60aおよび60b、並びに図3の60)を使用する、完全畳み込み式の順伝播型モデルである。このアーキテクチャにより、時には中央演算ユニット(CPU)およびグラフィック処理ユニット(GPU)の双方においてリアルタイムよりも高速での高度に並列可能な生成が可能になる。効率的かつ迅速な学習のために、マルチスケールスペクトル再構成損失を、音声信号16を多数の周波数帯域でランダムなウィンドウ化(例えばウィンドウ150a,150b,105c,105d)によって評価する多数の識別器(例えば132a~132d)で計算した敵対的損失と併せて使用することが可能である。MUSHRAリスニングテストおよびP.800リスニングテストによれば、StyleMelGAN(例えばオーディオ生成器10)はコピー合成およびTTSシナリオの双方において、既知の既存のニューラルボコーダーを凌駕している。
本願はとりわけ、敵対的生成ネットワーク(GAN)が基礎であり得る、高品質の音声16を生成するためのニューラルボコーダーを提案する。ここではStyleMelGANと呼ぶ(そして例えばオーディオ生成器10に実装される)このソリューションは、低複雑度の計算で高品質の音声16の合成が可能となる軽量ボコーダーである。StyleMelGANは例えばターゲット音声の波形のメルスペクトログラム(12)を使用して潜在ノイズ表現(例えば69)に(例えばブロック77で)スタイル付与するために時間適応的脱正規化(TADE)を使用する、順伝播型の完全畳み込み式モデルである。これにより、時にCPUとGPUの双方でリアルタイムよりも高速での高度に並列可能な生成が可能になる。学習させるためには、マルチスケールスペクトル再構成損失、次いで敵対的損失を使用することができる。これにより、1つのGPUに対し2日未満の学習で、高品質の出力を合成することが可能なモデルが得られる。
本願発明の可能な適用および利点には以下のようなものがある。
本願発明はテキスト読み上げに適用することができ、その結果の品質、すなわち生成された音声のTTSおよびコピー合成についての品質はWaveNetおよび自然な音声に近いものとなっている。さらに迅速な学習が提供され、モデルは簡単に再学習させたりパーソナライズさせたりすることができる。比較的小型のニューラルネットワークモデルなので、使用するメモリは少ない。最後に、本願発明は複雑性において利点がある、すなわち品質と複雑性のトレードオフが優れている。
発明は音声強調にも使用することができ、ノイズの多い音声からクリーンな音声を生成する低複雑性の頑強なソリューションを提供することができる。
発明は音声符号化にも適用することができ、ニューラルボコーダーをコンディショニングするために必要なパラメータのみを伝送することにより、ビットレートを著しく低減することができる。またこの用途においては、軽量ニューラルボコーダーベースのソリューションは埋め込みシステムに適し、とりわけGPUまたはニューラル処理ユニット(NPU)が備わった将来の(エンド)ユーザ機器(UE)に適している。
本願の実施形態は、入力信号およびターゲットデータからオーディオ信号を生成するように構成されるオーディオ生成器であって、ターゲットデータは入力信号を表し、入力信号から導出された第1のデータを受信して第1の出力データを出力するように構成された第1の処理ブロックであって、第1の出力データは複数のチャネルを備える第1の処理ブロックと、第1の出力データまたは第1の出力データから導出されたデータを第2のデータとして受信するように構成された第2の処理ブロックとを含み、第1の処理ブロックは第1の出力データの各チャネルについて、ターゲットデータを処理してコンディショニング特性パラメータを取得するように構成された学習可能レイヤのコンディショニングセットと、コンディショニング特性パラメータを第1のデータまたは第1のデータを正規化したものに適用するように構成されたスタイル付与要素とを含み、第2の処理ブロックは第2のデータの複数のチャネルを結合してオーディオ信号を取得するように構成される、オーディオ生成器に関連する。
一実施形態によれば、学習可能レイヤのコンディショニングセットは1つまたは2つの畳み込みレイヤから成る。
一実施形態によれば、第1の畳み込みレイヤはターゲットデータまたはターゲットデータをアップサンプリングしたもの畳み込んで、第1の活性化関数を使用して第1の畳み込み済データを取得する。
一実施形態によれば、学習可能レイヤのコンディショニングセットおよびスタイル付与要素は、1つ以上の残差ブロックを含むニューラルネットワークの残差ブロック内の加重レイヤの一部である。
一実施形態によれば、オーディオ生成器は、第1のデータを正規化するように構成される正規化要素をさらに含む。例えば、正規化要素は平均がゼロで分散が単位の標準正規分布に第1のデータを正規化することがある。
一実施形態によれば、オーディオ信号は音声オーディオ信号である。
一実施形態によれば、ターゲットデータは、望ましくは非線形補間によって、2または2の倍数あるいは2の累乗を係数としてアップサンプリングされる。一部の実施例では、2を超える係数が代わりに使用されることもある。
一実施形態によれば、第1の処理ブロックは、第1のデータから導出されたデータを第2の活性化関数を使用して処理するように構成された、学習可能レイヤの別のセットをさらに含み、ここで第2の活性化関数はゲート付き活性化関数である。
一実施形態によれば、学習可能レイヤの別のセットは1つまたは2つの畳み込みレイヤから成る。
一実施形態によれば、第2の活性化関数はソフトマックスゲート付き双曲線正接(TanH)関数である。
一実施形態によれば、第1の活性化関数はリーキー整流化線形ユニット(リーキーReLu)関数である。
一実施形態によれば、畳み込み動作は最大拡張係数2で実行される。
一実施形態によれば、オーディオ生成器は8つの第1の処理ブロックと1つの第2の処理ブロックを備える。
一実施形態によれば、第1のデータの次元性はオーディオ信号よりも低い。第1のデータは1次元である、または次元がオーディオ信号よりも少なくとも1つ低いことがある。第1のデータは次元がオーディオ信号よりも1次元低いが、チャンネルの数はオーディオ信号よりも多いことがある。第1のデータは、全次元にわたるサンプルの総数がオーディオ信号においてよりも少ないことがある。
一実施形態によれば、ターゲットデータはスペクトログラム、望ましくはメルスペクトログラム、またはビットストリームであることがある。
一実施形態によれば、ターゲットデータはテキストから導出され、ターゲットデータはオーディオデータの圧縮表現であることがある、またはターゲットデータは劣化したオーディオ信号である。
別の実施形態は、入力信号およびターゲットデータからオーディオ生成器によってオーディオ信号を生成する方法であって、ターゲットデータはオーディオ信号を表し、入力信号から導出された第1のデータを第1の処理ブロックによって受信するステップと、第1の出力データの各チャンネルについて、第1の処理ブロックの学習可能レイヤのコンディショニングセットにより、ターゲットデータを処理してコンディショニング特性パラメータを取得するステップと、第1の処理ブロックのスタイル付与要素により、第1のデータまたは第1のデータを正規化したものにコンディショニング特性パラメータを適用するステップと、第1の処理ブロックにより、複数のチャネルを含む第1の出力データを出力するステップと、第2の処理ブロックにより、第1の出力データまたは第1の出力データから導出されたデータを第2のデータとして受信するステップと、第2の処理ブロックにより、第2のデータの複数のチャネルを結合してオーディオ信号を取得するステップとを含む。
正規化には、例えば平均がゼロで分散が単位の標準正規分布への第1のデータの正規化を含むことがある。
方法は、オーディオ生成器からの任意の特性または特性の組み合わせによって補足されることがある。
別の実施形態は、上記に記載のオーディオ生成器を学習させるための方法に関連し、学習させるステップは上記の方法のうちの任意の1つの工程を1回以上繰り返すステップを含む。
一実施形態によれば、学習させるための方法は、好ましくはニューラルネットワークである少なくとも1つの評価器によって、生成されたオーディオ信号を評価するステップと、評価結果に従って評価器の加重を適合させるステップとを含む。
一実施形態によれば、学習させるための方法は、評価結果に従って評価器の加重を適合させるステップを含む。
一実施形態によれば、学習させるステップは損失関数を最適化させるステップを含む。
一実施形態によれば、損失関数を最適化させるステップは、生成されたオーディオ信号と基準オーディオ信号との間の固定のメトリックを算出するステップを含む。
一実施形態によれば、固定のメトリックを算出するステップは、生成されたオーディオ信号と基準オーディオ信号との1つ以上のスペクトル歪みを計算するステップを含む。
一実施形態によれば、1つ以上のスペクトル歪みを計算するステップは、生成されたオーディオ信号および基準信号のスペクトル表現のマグニチュードまたはログマグニチュード、および/または異なる時間または周波数解像度に対して施される。
一実施形態によれば、損失関数を最適化するステップは、生成されたオーディオ信号の表現または基準オーディオ信号の表現を1つ以上の評価器によってランダムに供給および評価することによって、1つ以上の敵対的メトリックを導出するステップを含み、ここで評価には供給されたオーディオ信号を、オーディオ信号の事前学習の自然さの分類レベルを示す既定の数の等級に分類するステップを含む。
一実施形態によれば、損失関数を最適化するステップは、固定のメトリックを算出し、1つ以上の評価器によって敵対的メトリックを導出するステップを含む。
一実施形態によれば、オーディオ生成器はまず、固定のメトリックを使用して学習させられる。
一実施形態によれば、4つの評価器によって4つの敵対的メトリックが導出される。
一実施形態によれば、評価器は生成されたオーディオ信号の表現および基準オーディオ信号の表現をフィルタバンクで分解した後に動作する。
一実施形態によれば、各評価器は入力として、生成されたオーディオ信号の表現または基準オーディオ信号の表現の1つ以上の部分を受信する。
一実施形態によれば、信号の部分は、ランダム窓関数を使用して、入力信号からランダムなウィンドウをサンプリングして生成される。
一実施形態によれば、ランダムなウィンドウのサンプリングは各評価器について複数回繰り返される。
一実施形態によれば、各評価器についてランダムなウィンドウがサンプリングされる回数は、生成されたオーディオ信号の表現または基準オーディオ信号の表現の長さに比例する。
別の実施形態は、プログラムが処理デバイス上で実行されるときに本明細書に記載の方法の工程を実行するためのソフトウェアコード部分を含む、処理デバイス用プログラムを含むコンピュータプログラム製品に関連する。
一実施形態によれば、コンピュータプログラム製品は、ソフトウェアコード部分が記憶されたコンピュータ可読媒体を含み、プログラムは処理デバイスの内蔵メモリに直接搭載することができる。
別の実施形態は、数理モデルを含むオーディオ信号を生成する方法に関連し、数理モデルは、生成するオーディオデータを表す入力シーケンスから所与の時間ステップにオーディオサンプルを出力するように構成され、数理モデルは出力されるオーディオサンプルを入力された代表シーケンスを用いて作り出すために、ノイズベクトルを整形するように構成される。
一実施形態によれば、数理モデルはオーディオデータを用いて学習させる。一実施形態によれば、数理モデルはニューラルネットワークである。一実施形態によれば、ネットワークは順伝播型ネットワークである。一実施形態によれば、ネットワークは畳み込みネットワークである。
一実施形態によれば、ノイズベクトルの次元性は生成するオーディオ信号よりも低いことがある。第1のデータは一次元であるまたはオーディオ信号よりも少なくとも一次元低いことがある。第1のデータは全次元にわたるサンプル数がオーディオ信号よりも低いことがある。第1のデータはオーディオ信号よりも一次元低いが、チャネル数はオーディオ信号よりも多いことがある。
一実施形態によれば、入力された代表シーケンスを用いて数理モデルをコンディショニングし、ひいてはノイズベクトルを整形するために、時間適応的脱正規化(TADE)法が使用される。
一実施形態によれば、修正ソフトマックスゲート付きTanhがニューラルネットワークの各レイヤを活性化させる。
一実施形態によれば、畳み込み動作は最大膨張率2で実行される。
一実施形態によれば、ノイズベクトルならびに入力された代表シーケンスはアップサンプリングされて、ターゲットサンプリングレートでの出力オーディオが得られる。
一実施形態によれば、アップサンプリングは数理モデルの異なるレイヤにおいて順次行われる。
一実施形態によれば、各レイヤのアップサンプリング係数は2または2の累乗等2の倍数である。一部の実施例においては、アップサンプリング係数の値は概して2よりも大きい場合がある。
一実施形態によれば、生成されたオーディオ信号はテキスト読み上げアプリケーションにおいて使用することができ、入力された代表シーケンスはテキストから導出される。
一実施形態によれば、生成されたオーディオ信号はオーディオデコーダで使用され、入力された代表シーケンスは伝送または格納する元のオーディオの圧縮表現である。
一実施形態によれば、生成されたオーディオ信号は劣化したオーディオ信号のオーディオ品質を向上させるために使用され、入力された代表シーケンスは劣化した信号から導出される。
別の実施例は、オーディオ生成のためのニューラルネットワークに学習させる方法に関連し、ここでニューラルネットワークは生成するオーディオデータを表す入力シーケンスから所与の時間ステップにオーディオサンプルを出力し、ニューラルネットワークは出力されるオーディオサンプルを入力された代表シーケンスを使用して作り出すためにノイズベクトルを整形するように構成され、ニューラルネットワークは上記の通りに設計され、学習は損失関数を最適化するように設計される。
一実施形態によれば、損失関数は、生成されたオーディオ信号と基準オーディオ信号の間で算出された固定のメトリックを含む。
一実施形態によれば、固定のメトリックは生成されたオーディオ信号と基準信号との間で算出された1つ以上のスペクトル歪みである。
一実施形態によれば、1つ以上のスペクトル歪みは生成されたオーディオ信号および基準信号のスペクトル表現のマグニチュードまたはログマグニチュードに対して算出される。
一実施形態によれば、固定のメトリックを形成する1つ以上のスペクトル歪みは異なる時間または周波数解像度に対して計算される。
一実施形態によれば、損失関数は追加の識別的ニューラルネットワークから導出された敵対的メトリックを含み、識別的ニューラルネットワークは生成されたオーディオ信号または基準オーディオ信号の表現を入力として受信し、識別的ニューラルネットワークは生成されたオーディオサンプルがどの程度実際的であるかを評価するように構成される。
一実施形態によれば、損失関数は固定のメトリックと、追加の識別的ニューラルネットワークから導出される敵対的メトリックとの双方を含む。
一実施形態によれば、オーディオサンプルを生成するニューラルネットワークは、先ずは固定のメトリックのみを使用して学習させられる。
一実施形態によれば、敵対的メトリックは4つの識別的ニューラルネットワークによって導出される。
一実施形態によれば、識別的ニューラルネットワークは、フィルタバンクによる入力オーディオ信号の分解の後に動作する。
一実施形態によれば、各識別的ニューラルネットワークは入力信号をランダムにウィンドウ化したもの1つ以上を入力として受信する。
一実施形態によれば、ランダムなウィンドウのサンプリングは各識別的ニューラルネットワークについて複数回繰り返される。
一実施形態によれば、各識別的ニューラルネットワークについてランダムなウィンドウがサンプリングされる回数は、入力オーディオサンプルの長さに比例する。
実施形態の詳細な説明
図6は、例えばStyleMelGANによって、オーディオ信号(出力信号)16を生成(合成等)することができるオーディオ生成器10の実施例を示している。出力オーディオ信号16は入力信号14(潜伏信号とも呼ばれ、ホワイトノイズ等のノイズであることもある)およびターゲットデータ12(「入力シーケンス」とも呼ばれる)に基づいて生成される。ターゲットデータ12は例えば、スペクトログラム(例えばメルスペクトログラム)を含む(例えば、そのものである)ことがあり、メルスペクトログラムは例えば時間サンプルのシーケンスのメルスケールへのマッピングをもたらす。さらに、またはあるいは、ターゲットデータ12はビットストリームを含む(例えば、そのものである)こともある。例えば、ターゲットデータは、オーディオ(例えばテキスト読み上げ)で再生されるテキストである、またはテキストを含む(ことがある。ターゲットデータ12は概して、ヒトである聴取者が自然だと認識することができる言語音を取得するために処理される。入力信号14はホワイトノイズ等のノイズである(ひいては有用な情報を運搬しない)ことがあるが、生成器10においては、ノイズから取得されたノイズベクトルに(例えば77で)スタイル付与され、ターゲットデータ12によってコンディショニングされた音響特性を備えるノイズベクトルが得られることになる。最終的には、ヒトである聴取者は、出力されたオーディオ信号16を音声として理解することになる。図1においてと同様、ノイズベクトル14は128×1のベクトル(単一のサンプル、例えば時間領域サンプルまたは周波数領域サンプルと、128のチャネル)であることがある。他の実施例では、ノイズベクトル14の異なる長さが使用されることもある。
第1の処理ブロック50が図6に示されている。(例えば図1に)図示される通り、第1の処理ブロック50は複数のブロック(図1では、ブロック50a,50b,50c,50d,50e,50f,50g,50h)のうちのそれぞれによってインスタンス化されることがある。ブロック50a~50hは1つの単一のブロック40を形成していると理解することができる。第1の処理ブロック40,50において、学習可能レイヤのコンディショニングセット(例えば71,72,73)を使用してターゲットデータ12および/または入力信号14を処理することができることが示される。したがって、コンディショニング特性パラメータ74,75(図3ではガンマ(γ)およびベータ(β)とも呼ばれる)が、例えば学習中の畳み込みによって得られる。したがって、学習可能レイヤ71~73は学習ネットワーク、あるいはより一般的には別の学習構造の加重レイヤの一部となり得る。第1の学習ブロック40,50は少なくとも1つのスタイル付与要素77を含むことがある。少なくとも1つのスタイル付与要素77は第1の出力データ69を出力することがある。少なくとも1つのスタイル付与要素77は入力信号14(潜在)または入力信号14から取得した第1のデータ15にコンディショニング特性パラメータ74,75を適用することがある。
各ブロック50の第1の出力データは複数のチャネル内にある。オーディオ生成器10は第2の処理ブロック45(図1ではブロック42,44,46を含むものとして示されている)を含むことがある。第2の処理ブロック45は、(第2の入力データまたは第2のデータとして入力される)第1の出力データ69の複数のチャネル47を結合して出力されたオーディオ信号16を単一のチャネルで、ただしサンプルのシーケンスで取得するように構成されることがある。
「チャネル」というのは、ステレオサウンドの文脈ではなく、ニューラルネットワーク(例えば畳み込みニューラルネットワーク)の文脈で理解されるべきである。例えば、入力信号(例えば、潜在ノイズ)14は(時間領域表現において)チャネルのシーケンスが提供されているため、チャネルが128個ある可能性がある。例えば、信号に176のサンプルと64のチャネルがあれば、176列64行のマトリクスと理解され、信号に352のサンプルと64のチャネルがあれば、352列64行のマトリクスと理解され得る(他の図式化も可能である)。したがって、生成されたオーディオ信号16(図1では1×22528行のマトリクスとなる)は、モノラル信号と理解することができる。ステレオ信号を生成する場合には、単に開示された技術を各ステレオチャンネルについて繰り返して多数のオーディオ信号16を取得して、次いでミックスすることになる。
少なくとも元の入力信号14および/または生成された音声16はベクトルであり得る。逆に、ブロック30および50a~50h,42,44の各々の出力は概して、次元が異なる。第1のデータは一次元であるまたはオーディオ信号の次元よりも少なくとも1次元低い。第1のデータの全次元にわたるサンプル総数はオーディオ信号よりも少ないことがある。第1のデータは次元がオーディオ信号よりも1次元低いが、チャネルの数はオーディオチャネルよりも多いことがある。ブロック30および50a~50hの各々において、ノイズ14から進展して音声16になる信号はアップサンプリングされることがある。例えば、ブロック50a~50hのうちの第1のブロック50aの前のアップサンプリングブロック30において、88回のアップサンプリングが実行される。アップサンプリングの例としては、1)同じ値を繰り返す、2)ゼロを挿入する、3)再び繰り返しまたはゼロの挿入および線形フィルタ処理、等の手順が含まれることがある。
生成されたオーディオ信号16は概して、単一チャネルの信号(例えば、1×22528)であることがある。(例えば、ステレオサウンド再生のために)多数のオーディオチャネルが必要な場合には、本願に記載の手順は原則として複数回繰り返されるものとする。
同様に、ターゲットデータ12も原則として、(例えばテキストである場合)単一のチャネルまたは複数のチャネル(例えばスペクトログラム)であることがある。いずれにせよ、(例えば2、2の累乗、2の倍数、または2よりも大きい値で)アップサンプリングして後続のレイヤ(50a~50h,42)に沿って進展する信号(59a,15,69)の次元と適合させ、例えば信号の次元と適合した次元でコンディショニング特性パラメータ74,75を取得することができる。
第1の処理ブロックが複数のブロック50a~50hでインスタンス化されると、チャネル数は、例えば複数のブロック50a~50hについて同じままであることがある。第1のデータは一次元であるまたはオーディオ信号の次元よりも1次元低いことがある。第1のデータの全次元にわたるサンプル総数はオーディオ信号よりも少ないことがある。第1のデータの次元はオーディオ信号よりも1次元低いが、チャネル数はオーディオ信号より多いことがある。
後続のブロックにおける信号は、互いに次元が異なることがある。例えば、サンプル数のアップサンプリング回数を多くして、例えば88サンプルから最後のブロック50hでは22528サンプルに達することもある。同様に、ターゲットデータ12も各処理ブロック50でアップサンプリングされる。したがって、コンディショニング特性パラメータ74,75は処理する信号のサンプル数に適合させることができる。よって、ターゲットデータ12が提供する意味情報は後続のレイヤ50a~50hにおいても失われない。
実施例は敵対的生成ネットワーク(GAN)のパラダイムでも実行され得ると理解される。GANはGAN生成器11(図1)と、GAN識別器100(図2)とを備える。GAN生成器11は、可能な限り実際の信号に近いオーディオ信号16を生成しようとする。GAN識別器100は生成されたオーディオ信号が(図2の実際のオーディオ信号104のように)実際のものなのか、(生成されたオーディオ信号16のように)フェイクなのかを識別するものとする。GAN生成器11およびGAN識別器100のいずれもニューラルネットワークとして取得することができる。GAN生成器11は(例えば勾配法その他の方法によって)損失を最小化し、GAN識別器100において結果を考慮することで、コンディショニング特性パラメータ74,75を更新する。GAN識別器100は(例えば勾配法その他の方法によって)自身の識別損失を削減し、自身の内部パラメータを更新する。したがって、GAN生成器11はより優れたオーディオ信号16を提供するように学習させられる一方で、GAN識別器100はGAN生成器11が生成したフェイクのオーディオ信号から実際の信号16を識別するように学習させられる。概して、GAN生成器11は生成器10の機能のうち、少なくともGAN識別器100の機能を除いた機能を含み得ると理解することができる。したがって、上記のほとんどにおいて、GAN生成器11およびオーディオ生成器10は、GAN識別器100の特性を除くと、多かれ少なかれ同じ特性を有していることがある。オーディオ生成器10は内蔵コンポーネントとして識別器100を備えることがある。したがって、GAN生成器11とGAN識別器100はオーディオ生成器10を構成するうえで一致し得る。GAN識別器100がない実施例においては、オーディオ生成器10はGAN生成器11のみで構成されることがある。
「学習可能レイヤのコンディショニングセット」という言葉でも説明されている通り、オーディオ生成器10は条件付きGANのパラダイムに従って、例えば条件情報に基づいて取得することができる。例えば、条件情報は、レイヤのコンディショニングセット71~73(加重レイヤ)が学習させられ、コンディショニング特性パラメータ74,75が取得されるターゲットデータ(またはターゲットデータをアップサンプリングしたバージョン)12で構成されることがある。したがって、スタイル付与要素77は学習可能レイヤ71~73によってコンディショニングされる。
実施例は畳み込みニューラルネットワークに基づいていることもある。例えば、3×3のマトリクス(または4×4のマトリクス等)の小型のマトリクス(フィルタまたはカーネル等)は、例えばフィルタ(カーネル)要素とより大型のマトリクスの要素(活性化マップまたは活性化信号)との結合(乗算および積の和、ドット積等)を伴うより大型のマトリクス(チャンネル×サンプル潜在または入力信号および/またはスペクトログラムおよび/またはスペクトログラムまたはアップサンプリングされたスペクトログラムまたはより一般的にターゲットデータ12)に沿って畳み込まれる(コンボリューションされる)。学習中、損失を最小化させる、フィルタ(カーネル)要素が取得される(学習される)。干渉中、学習中に取得されたフィルタ(カーネル)要素が使用される。畳み込みの例はブロック71~73,61a,61b,62a,62bにある(下記参照)。ブロックが条件付きの場合(例えば図3のブロック60)、入力信号14から中間信号59a(15),69を介してオーディオ信号16に向けて進展する信号等には必ずしも畳み込みが適用されないが、ターゲット信号14には適用され得る。他の場合(例えばブロック61a,61b,62a,62b)では、畳み込みは条件付きでない場合もあり、例えば入力信号14からオーディオ信号16に進展していく信号59a(15),69等に直接適用されることもある。図3および図4からも見て取れるように、条件付きおよび条件なしの畳み込みのいずれも行われることがある。
一部の実施例では、畳み込みの下流に、意図する効果において異なる活性化関数(ReLu、TanH、ソフトマックス等)があることがある。ReLuは0と畳み込みにおいて得られた値との間に最大値をマッピングすることがある(実際には、正の場合には同じ値を維持し、負の値の場合には0を出力する)。リーキーReLuはx>0であればxを出力し、x≦0であれば0.1×xを出力する。ここでxは畳み込みによって得られた値である(一部の実施例では、0.1±0.05の範囲の既定の値等、別の値が0.1の代わりに使用されることもある)。(例えばブロック63aおよび/または63bで実装され得る)TanHは、例えば
TanH(x)=(ex-e-x)/(ex+e-x
によって畳み込みで得られた値の双曲線正接を与えることができ、ここでxは(例えばブロック61aおよび/または61bにおける)畳み込みで得られた値である。(例えばブロック64aおよび/または64bで適用される)ソフトマックスは、(例えばブロック62aおよび/または62bで提供される)畳み込みの結果の要素のうちの各要素にべき指数を適用して、べき指数の合計によって除算することで正規化する。(例えば64aおよび/または64bにおける)ソフトマックスは、(例えば62aおよび/62bで提供される)畳み込みから生じるマトリクス内の入力の確率分布を提供することがある。活性化関数の適用後、一部の実施例ではプーリング工程が実行され得る(図面には図示無し)が、別の実施例では避けられることもある。
図4は、(例えば63aおよび/または63bで得られた)TanH関数の結果を(例えば64aおよび/または64bで得られた)ソフトマックス関数の結果で(例えば65aおよび/または65bにおいて)例えば乗算することによって、ソフトマックスゲート付きTanH関数を得ることも可能であることを示している。
畳み込みの多数のレイヤ(例えば学習可能レイヤのコンディショニングセット)は、相次いでいる、および/または互いに並列していて、効率性が高まるようになっている。活性化関数の適用および/またはプーリングが行われれば、別のレイヤで繰り返される(あるいは例えば異なる活性化関数が異なるレイヤに適用される)ことがある。
入力信号14(ノイズ等)は異なる工程で処理され、(例えば学習可能レイヤのコンディショニングセット71~73が設定する条件下で、且つ学習可能レイヤのコンディショニングセット71~73が学習したパラメータ74,75に基づいて、)生成されたオーディオ信号16になる。したがって、入力信号は処理方向(図6の14から16)に進展して生成されたオーディオ信号16(音声等)になると理解される。条件はターゲット信号12および(最も好ましいパラメータ74,75のセットになるための)学習に基づいて実質的に生成される。
また、入力信号(またはそれが進化したもののいずれか)の多数のチャネルは、学習可能レイヤのセットとスタイル付与要素が関連付けられていると見なすことができることが指摘される。例えば、マトリクス74および75の各行は、入力信号(またはそれが進化したもののうちの1つ)の特定のチャネルに関連付けられ、ひいてはその特定のチャネルに関連付けられた特定の学習可能レイヤから取得される。同様に、スタイル付与要素77も多様なスタイル付与要素(入力信号x,c,12,76,76’,59,59a,59b等の各行に対して1つ)によって形成されると見なすことができる。
Figure 2023546099000001
ノイズベクトル14は(例えばブロック50a~50h,42,44,46等において)工程毎に処理され、例えばノイズ14から例えば音声16に進展する(進化した信号は、例えば15,59a,x,c,76’,79,79a,59b,79b,69等異なる信号によって示される)。
ブロック30において、入力信号(ノイズ)14はアップサンプリングされて、88(別の数もあり得る)のサンプルと64(別の数もあり得る)のチャネルを有するようになることがある。
見て取れるように、8つの処理ブロック50a,50b,50c,50d,50e,50f,50g,50h(全体で図6の第1の処理ブロック50を体現する)は、アップサンプリング(例えば、最大で2回のアップサンプリング)を実行することによってサンプル数を増大させることができる。ブロック50a,50b,50c,50d,50e,50f,50g,50hに沿って、チャネル数は常に同じ(例えば64)であり続けることもある。サンプルは例えば、秒(またはその他の時間単位)あたりのサンプルの数であることもある。ブロック50hの出力で、22kHz超でサウンドを得ることができる。
ブロック50a~50h(50)はそれぞれ、TADEResBlock(時間適応的脱正規化(TADE)の文脈における残差ブロック)でもあり得る。とりわけ、ブロック50a~50hはそれぞれ、ターゲットデータ(例えばメルスペクトログラム)12によってコンディショニングされることがある。
第2の処理ブロック45(図1および図6)においては、1つだけのチャネルしか取得することはできず、多数のサンプルが単一の大きさで取得される。見てわかる通り、(ブロック50a~50hに加え、)(単一のチャネルへと限縮する)別のTADE-ResBlock42が使用される。そのうえで、畳み込みレイヤおよび(例えばTanH46であり得る)活性化関数が実行され得る。その後に、音声16が取得(および、場合によっては記憶、レンダリング、符号化等)される。
ブロック50a~50hのうちの少なくとも1つ(または特定の実施例では、それぞれ)は、例えば残差ブロックであり得る。残差ブロックは入力信号14(ノイズ等)から出力オーディオ信号16へと進展する信号の残差コンポーネントに対してのみ予測を施す。残差信号は主信号の一部(残差コンポーネント)に過ぎない。例えば、多数の残差信号を互いに加算して、最終出力オーディオ信号16を取得することができる。
図4はブロック50a~50h(50)の1つの実施例を示す。見て取れるように、各ブロック50には第1のデータ59aが入力され、これは入力信号14(またはアップサンプリングブロック30が出力した、アップサンプリングしたバージョン)または先行するブロックからの出力のいずれかである。例えば、ブロック50bにはブロック50aの出力が入力され、ブロック50cにはブロック50bの出力が入力される等、である。
従って、図4において、ブロック50(50a~50h)に供給される第1のデータ59aが処理され、その出力が出力信号69(後続のブロックに対し入力として供給される)であると見ることができる。線59a’で示される通り、第1の処理ブロック50a~50hに入力される第1のデータ59aの主コンポーネントは、第1の処理ブロック50a~50h(50)の処理のほとんどを実質上バイパスする。例えば、ブロック60a,61a,62a,63a,65a,60b,61b,62b,63b,64b,65bはバイパス線59a’によってバイパスされている。次に第1のデータ59aは加算器65c(図4に記載されているが、図示されていない)において残差部分64b’に加算される。バイパス線59a’と加算器65cにおける加算は、各ブロック50(50a~50h)が残差信号への演算を処理し、そのうえで信号の主部分に加算されることをインスタンス化すると理解することができる。したがって、ブロック50a~50hはそれぞれ、残差ブロックだと見なすことができる。
とりわけ加算器65cにおける加算は、必ずしも残差ブロック50(50a~50h)内で実行しなければならないというわけではない。複数の残差信号65b’(それぞれ、残差ブロック50a~50hのそれぞれから出力されている)の加算が1回のみ、(例えば第2の処理ブロック45の例えば加算ブロックにおいて)実行することができる。したがって、異なる残差ブロック50a~50hは互いに並列して動作することができる。
図4の実施例においては、各ブロック50は畳み込みレイヤを2回繰り返すことができる(例えば、ブロック60a,61a,62a,63a,64a,65aのうちの少なくとも1つを含むレプリカ600で1回目を行って信号59bを取得し、ブロック60b,61b,62b,63b,64b,65bのうちの少なくとも1つを含むレプリカ601で2回目を行って、主コンポーネント59a’に加算されることがある信号65b’を取得する)。
各レプリカ(600,601)について、入力信号16からオーディオ出力信号16に進化する信号に対し、学習可能レイヤ71~73のコンディショニングセットおよびスタイル付与要素が(例えば各ブロック50につき2回)適用される。第1のレプリカ600の第1のデータ59aに対し、第1の時間適応的脱正規化(TADE)がTADEブロック60aで行われる。TADEブロック60aは、ターゲットデータ12が設定する条件下で第1のデータ59a(入力信号、または例えば処理済みノイズ)の変調を行う。第1のTADEブロック60aでは、ターゲットデータ12のアップサンプリングがアップサンプリングブロック70で行われ、ターゲットデータ12のアップサンプリングバージョン12’が取得される。アップサンプリングは、例えば2の係数、2の累乗、2の倍数その他2よりも大きい値を使用した非線形補間を通じて取得することができる。したがって、一部の実施例においては、スペクトログラム12’が、スペクトログラムによってコンディショニングされる信号(76,76’,x,c,59,59a,59b等)と同じ大きさである(例えば、一致する)ことがある。ブロック77(スタイル付与要素)において、処理済みノイズ(第1のデータ)(76,76’,x,c,59,59a,59b等)に対しスタイル付与情報の適用が行われることもある。後続のレプリカ601においては、別のTADEブロック60bが第1のレプリカ600の出力59bに適用されることがある。TADEブロック60(60a,60b)の実施例が図3に示されている(下記も参照のこと)。第1のデータ59aを変調させた後、畳み込み61aおよび62aが実行される。次に、活性化関数TanHおよびソフトマックス関数(例えばソフトマックスゲート付きTanH関数を構成するもの)が同様に実行される(63a,64a)。活性化関数63aおよび64aの出力は乗算ブロック65aで乗算され(例えばゲート付与をインスタンス化し)、結果59bを取得する。2つの異なるレプリカ600および601を使用する場合(または2つ以上のレプリカを使用する場合)は、ブロック60a,61a,62a,63a,64a,65aの通過が繰り返される。
実施例において、それぞれTADEブロック60aおよび60bの下流にある61bおよび62bにおける第1および第2の畳み込みは、カーネル内の同じ数の要素(例えば9、例えば3×3)で行うことができる。ただし、第2の畳み込み61bおよび62bは膨張率2であることがある。実施例においては、畳み込みの最大膨張率は2であることがある。
図3はTADEブロック60(60a,60b)の実施例を示している。見て取れるように、ターゲットデータ12はアップサンプリングして、例えば入力信号(または潜在信号または活性化信号とも呼ばれる、59,59a,76’等入力信号から進化した信号)に一致させるようにすることができる。ここで、畳み込み71,72,73を実行して(ターゲットデータ12の中間値は71’で示されている)、パラメータγ(ガンマ、74)およびβ(ベータ、75)を取得することができる。71,72,73のいずれかでの畳み込みには、整流化線形ユニット(ReLu)が必要となる、またはリーキー整流化線形ユニット(リーキーReLu)を整流する必要が生じることもある。パラメータγおよびβは活性化信号の大きさが同じである場合がある(信号は入力信号14から生成されたオーディオ信号16に進化するよう処理され、ここではx,59または正規化した形では76’で表される)。したがって、活性化信号(x,59,76’)に2つの大きさがある場合、γおよびβ(74および75)も2つの大きさがあり、それぞれは活性化信号に重畳することが可能である(γおよびβの長さおよび幅は活性化信号の長さおよび幅と同じであることがある)。スタイル付与要素77においては、コンディショニング特性パラメータ74および75が(乗算器65aが出力する第1のデータ59aまたは59bである)活性化信号に適用される。ただし、活性化信号76’は第1のデータ59,59a,59b(15)の正規化したバージョン(インスタンス正規化ブロック76では10)である場合もあることが指摘される。さらに、スタイル付与要素77に示される式(γx+β)は要素と要素の積であって、畳み込み積またはドット積ではないこともあり得ることが指摘される。
スタイル付与要素77の後に、信号が出力される。畳み込み72および73はかならずしも下流に活性化関数があるわけではない。さらに、パラメータγ(74)はバリアンス、β(75)はバイアスと理解することができることも指摘される。また、図1のブロック42は図3のブロック50としてインスタンス化することができる。そのうえで、例えば畳み込みレイヤ44がチャネル数を1に削減して、そのうえで、TanH56が実行されて音声16が得られる。
図7はブロック50a~50hのうちの1つのレプリカ600および601のうちの1つにおける、ターゲットデータ12(メルスペクトログラム等)および59aでも示される、または入力信号12から生成されたオーディオ信号16へと進化する信号としての、潜在ノイズc(14)の進化の例を示している。
以下の手順(または少なくとも工程のうちの1つ)が行われることがある。
・ スペクトログラム12が以下の工程のうちの少なくとも1つに付される。
a)アップサンプリングブロック70でアップサンプリングされ、アップサンプリング済みスペクトログラム12’を取得する。
b)畳み込みレイヤ71~73(加重レイヤの一部)で畳み込みが実施される(例えばカーネル12aがアップサンプリング済スペクトログラム12’に沿って畳み込まれる)。
c)γ(74)およびβ(75)は取得(学習)される。
c)γ(74)およびβ(75)が入力信号14から進化する潜在信号59a(15)および生成されたオーディオ信号16に(例えば畳み込みによって)適用される。
GAN識別器
学習中、例えば入力信号12(または入力信号を処理および/または正規化したバージョン)に適用されるパラメータ74および75を取得するために、図2のGAN識別器が使用されることがある。学習は干渉前に行われ、パラメータ74および75は、例えば非一時的メモリに格納され、その後に使用することができる(ただし、一部の実施例では、パラメータ74および75が作動中に計算されることもあり得る)。
GAN識別器100は、生成されたオーディオ信号(例えば上記の通りに合成されたオーディオ信号16)を実際の入力信号(例えば実音声)104からどのように識別するかを学習する役割を有する。したがって、GAN識別器100の役割は主に学習(例えばパラメータ72および73の学習)中に発揮され、(GAN識別器100を備えないオーディオ生成器10と見なすことができる)GAN生成器11の役割の対極と見なされる。
概して、GAN識別器100は、GAN生成器10によって合成され生成されたオーディオ信号16と、例えばマイクロフォンを介して取得された実際のオーディオ信号(例えば実音声)104の双方によって入力され、信号を処理して最小化されるメトリック(例えば損失)を取得する。実際のオーディオ信号104は基準オーディオ信号と見なすこともできる。学習中、音声16を合成するための上記に説明したような動作が例えば複数回繰り返され、例えばパラメータ74および75が取得されることがある。
実施例においては、基準オーディオ信号104全体および/または生成されたオーディオ信号16全体を解析する代わりに、その一部(例えば一部分、スライス、ウィンドウ等)のみを解析することも可能である。生成されたオーディオ信号16および基準オーディオ信号104からサンプリングされたランダムウィンドウ(105a~105d)で生成された信号部分が得られる。例えば、ランダム窓関数を使用して、ウィンドウ105a,105b,105c,105dのどれが使用されるかが先験的に事前設定されていないようにすることができる。また、ウィンドウの数も必ずしも4ではなく、変動することがある。
ウィンドウ(105a~105d)において、PQMF(直交ミラーフィルタバンク)110が適用されることがある。こうして、サブバンド120が得られる。ひいては、生成されたオーディオ信号(16)の表現または基準オーディオ信号(104)の表現を分解したもの(110)が得られる。
評価を実行するために評価ブロック130が使用されることがある。複数の評価器132a,132b,132c,132d(複合的に132で示される)が使用されることがある(異なる数が使用されることもある)。概して、ウィンドウ105a,105b,105c,105dはそれぞれ、各評価器132a,132b,132c,132dに入力されうる。ランダムウィンドウ(105a~105d)のサンプリングが各評価器(132a~132d)について複数回繰り返されることがある。実施例では、ランダムウィンドウ(105a~105d)が各評価器(132a~132d)についてサンプリングされる回数は、生成されたオーディオ信号の表現または基準オーディオ信号の表現の長さに比例することがある。したがって、各評価器(132a~132d)は、生成されたオーディオ信号(16)の表現または基準オーディオ信号(104)の表現を入力として受信することがある。
評価器132a~132dはそれぞれ、ニューラルネットワークそのものであることがある。各評価器132a~132dは、とりわけ、畳み込みニューラルネットワークのパラダイムに従うことがある。各評価器132a~132dは残差評価器であることもある。各評価器132a~132dには、学習中に(例えば上記に説明したものの1つと同様に)適合されるパラメータ(加重等)があることがある。
図2に示される通り、各評価器132a~132dは(例えば4その他のダウンサンプリング率で)ダウンサンプリングを行う。各評価器132a~132dについて、チャネル数が(例えば4倍、または一部の実施例ではダウンサンプリング率と同じ数の倍数分)増大することになる。
評価器の上流および下流に、畳み込みレイヤ131および/または134が設けられることがある。上流畳み込みレイヤ131は、例えば大きさが15(例えば5×3または3×5)のカーネルを備えることがある。下流畳み込みレイヤ134は、例えば大きさが3(例えば3×3)のカーネルを備えることがある。
学習中、損失関数(敵対的損失)140が最適化されることがある。損失関数140は生成されたオーディオ信号(16)と基準オーディオ信号(104)との間に(例えば事前学習工程で取得された)固定のメトリックを含むことがある。固定のメトリックは生成されたオーディオ信号(16)と基準オーディオ信号(104)との間の1つ以上のスペクトル歪みを計算することによって取得し得る。歪みは
- 生成されたオーディオ信号(16)および基準オーディオ信号(104)のスペクトル表現のマグニチュードまたはログマグニチュード、および/または
- 異なる時間または周波数解像度
を考慮して測定されるものとする。
実施例においては、敵対的損失は生成されたオーディオ信号(16)の表現または基準オーディオ信号(104)の表現を1つ以上の評価器(132)でランダムに供給・評価することによって得ることができる。評価は供給されたオーディオ信号(16,132)を、事前学習されたオーディオ信号(14,16)の自然さの分類レベルを示す既定の数の等級に分類するステップを含む。既定の数の区分は、例えば、「実」対「フェイク」であり得る。
Figure 2023546099000002
Figure 2023546099000003
Figure 2023546099000004
他のタイプの最小化が行われることもある。
概して、最小敵対的損失140はスタイル付与要素77に適用される最良のパラメータ(74,75等)に関連付けられる。
検討
以下、本開示の実施例が添付の図面を用いて詳細に説明される。以下の記載において、開示の実施例のより網羅的な説明のために多くの細目が記載されている。しかしながら、他の実施例はこれらの特定の細目なしでも実施できることは当業者にとって自明である。本明細書に記載の異なる実施例の特徴は、対応する組み合わせの特徴が相互に排他的でない限り、あるいはかかる組み合わせが明示的に排除されていない限り、互いに組み合わせることができる。
同じ機能を持つ同じまたは同様の要素は同じ参照符号で示される、または同じまたは同様の参照符号が与えられている要素の記載により同一のものとして指定される、あるいは典型的には省略されることが指摘される。参照符号が同じまたは同様の要素または同じラベルが付されている要素の記載は、相互に互換である。
テキスト読み上げ、音声符号化および音声強調等多くのアプリケーションにおいて、ニューラルボコーダーは自然な高品質の音声合成における従来のアプローチを上回っていることは証明されている。高品質の音声合成のための最初の草分け的な生成ニューラルネットワークはWaveNetであった。そしてその後まもなくから、数多くの他のアプローチが開発されてきた。これらのモデルは最高水準の品質を提供しているが、しばしば計算コストが高く合成は非常に遅かった。近年、低計算コストで音声を生成するモデルが多量紹介されている。これらのうちのいくつかは既存のモデルを最適化したバージョンで、他のものは従来の方法との統合を活用したものである。一方で、しばしばGANに依拠した、完全に新しいアプローチも数多く導入された。ほとんどのGANボコーダーはGPUでの高速での生成を提供しているが、引き換えに合成音声の品質が損なわれている。
本稿の主目的の1つは、我々がStyleMelGANと呼ぶ(そして例えばオーディオ生成器10に実装することのできる)、極めて高品質の音声16を低計算コスト且つ迅速な学習により合成することのできるGANアーキテクチャを提案することである。StyleMelGANの生成器ネットワークは386万の学習可能なパラメータを備え、CPUでのリアルタイムよりも2.6倍速く、GPUでは54倍以上速く、22.05kHzで音声を合成することができる。このモデルは例えば、低次元ノイズベクトル(例えば図1の30)を生音声波形(例えば16)に漸次変換する8つのアップサンプリングブロックから成る。合成は、時間適応的脱正規化(TADE)レイヤ(60,60a,60b)を介してすべての生成器ブロック(50a~50h)に挿入されうる、ターゲット音声のメルスペクトログラムに対して(あるいはより一般的に、ターゲットデータ12によって)コンディショニングされ得る。このコンディショニング特性を挿入するアプローチは極めて効率的であり、また当方の知識の限りにおいては、オーディオ領域においては新しい。分化可能な偽直交ミラーフィルタバンク(PQMF)110の後にそれぞれ動作する4つの識別器132a~132d(ただし一部の実施例では識別器の数は異なり得る)の集合体によって、敵対的損失が(例えば図2の構造を介して、GAN識別器100において)計算される。これにより、学習中に音声信号(104またh16)の異なる周波数帯域を解析することができる。学習をよりロバストにし、生成を督励するため、識別器(例えば4つの識別器132a~132d)は生成器10が使用する入力音響特性によりコンディショニングされることはなく、音声信号(104または16)はランダムウィンドウ(例えば105a~105d)を用いてサンプリングされる。
要するに、TADEレイヤ(例えば60,60a,60b)を介してメルスペクトルグラム(例えば12)によりコンディショニングされる高品質の音声合成のための低複雑性のGANであるStyleMelGANが提案されている。生成器10は高度に並列可能である。生成器10は完全に畳み込み式であり得る。上記生成器10は、マルチスケールスペクトル再構成損失によって正則化されうるPQMFマルチサンプリングランダムウィンドウ識別器(例えば132a~132d)の集合体によって敵対的に学習させることができる。生成された音声16の品質は客観的評価(例えばフレシェスコア)および/または主観的評価の双方を用いて評価することができる。コピー合成シナリオについてMUSHRAテスト、TTSについてはP.800 ACRテストの2つのリスニングテストが行われ、いずれもStyleMelGANが最高水準の音声品質を達成していると確証した。
既存のニューラルボコーダーは通常、最終波形の振幅をモデリングすることによって、音声信号を直接時間領域で合成する。これらのモデルのほとんどは生成ニューラルネットワークであり、つまり自然な音声信号において観測された音声サンプルの確立分布をモデリングする。これらは自己回帰的に分割することができ、これによって分布を条件付きの分布と、そうではなく同時分布を直接モデリングする非自己回帰的または並列分布の積に因数分解する。WaveNet、SampleRNNおよびWaveRnn等の自己回帰モデルは知覚品質の高い音声信号を合成すると報告されている。非自己回帰モデルの一大流派はWaveGlow等の正規化流である。ハイブリッドなアプローチは、ノイズ潜在表現とターゲット音声分布との間の因数分解変換を使用する逆自己回帰流の使用である。上記の例は主に自己回帰型ニューラルネットワークに関するものである。
オーディオ用GANの初期アプリケーションには、条件付けのない音声生成のためのWaveGANと、音楽生成のためのGan-Synthを含む。MelGANは音声セグメントのメルスペクトログラムと対応する時間領域の波形とのマッピングを学習する。リアルタイムよりも速い生成が保証され、スペクトル再構成損失によって正則化されたマルチスケール識別器の敵対的学習を活用する。GAN-TTSは音響特性のコンディショニングがされている音声生成のために専ら敵対的学習を使用する最初のGANボコーダーである。敵対的損失は、条件付きおよび条件なしのランダムウィンドウ識別器の集合体によって算出される。パラレルWaveGANは構造においてWaveNetと同様の、マルチスケールスペクトル再構成損失によって正則化された条件なしの識別器を用いて学習させた生成器を使用する。同様のアイディアが、計算能力を節減しながらターゲット音声の各サブバンドを別個に生成し、そのうえで合成PQMFを使用して最終波形を取得するマルチバンドMelGANで使用されている。そのマルチスケール識別器は全帯域音声波形を評価し、マルチバンドスケールスペクトル再構成損失を用いて正則化される。この分野での研究は非常に活発に行われていて、VacGanやHooliGAN等の最新のGANボコーダーが挙げられる。
Figure 2023546099000005
Figure 2023546099000006
図4はオーディオ生成器10の一部分の構造を示し、生成器モデルの基本構築ブロックであるTADE-ResBlock50(ブロック50a~50hのうちの任意のものであり得る)を図示している。完全なアーキテクチャは図1に示されている。例えばTADEResBlockと信号79bを係数2でアップサンプリングするレイヤ601、並びに最終活性化モジュール46(図1では)から成る、8つのアップサンプリングステージ50a~50hが含まれている(他の実施例では、8以外の数であり得る)。最終活性化は1つのTADEResBlock42とそれに後続する、例えばTanh非線形性46を備えるチャネル変更畳み込みレイヤ44を含む。この設計により、例えば畳み込み動作のためにチャネル深さ64を使用することができ、ひいては複雑性を節減することができる。このアップサンプリング手順により、膨張率を2未満に抑えることができる。
図2はフィルタバンクランダムウィンドウ識別器(FB-RWD)のアーキテクチャを示している。StyleMelGANは敵対的学習に複数(例えば4つ)の識別器132a~132dを使用することができ、実施例においては、識別器132~132dのアーキテクチャは平均プーリングのダウンサンプリングがない。さらに、各識別器(132a~132d)は入力音声波形(104または16)からスライスされたランダムウィンドウ(105a~105d)に作用することがある。最後に、各識別器(132a~132d)は、解析PQMF(例えば110)から取得した入力音声信号(104または16)のサブバンド120を解析することがある。より正確には、実施例では、1秒の波形から抽出されたそれぞれ512、1024、2048、4096個のサンプルの選択されたランダムなセグメントからそれぞれ計算された1、2、4、および8個のサブバンドを使用することができる。これにより、音声信号(104または16)のマルチ解像度敵対的評価を時間領域および周波数領域の双方で行うことができる。
Figure 2023546099000007
以下に、実験で使用されたモデルをリストアップする。
・ コピー合成およびテキスト読み上げにおけるターゲット実験にWaveNet
・ コピー合成およびテキスト読み上げにおけるターゲット実験にPWGAN
・ 客観的評価のコピー合成におけるターゲット実験にMelGAN
・ コピー合成におけるターゲット実験にWaveGlow
・ テキスト読み上げにおけるターゲット実験にTransformer.v3
上記に挙げた事前学習済みのベースラインボコーダーモデルに対するStyleMelGANの客観的および主観的評価が行われた。聴取者が行ったP.800リスニングテストを介したオーディオTTS出力の主観品質が制御された環境で評価された。テストセットは、同じ話者によって録音され、LibriVoxオンラインコーパスからランダムに選択された未見の発声を含む。これらの発声は、わずかに異なる条件下で記録されていて、様々な韻律を呈しているため、モデルの一般化能力をテストするものである。元の発声はGriffinLimアルゴリズムを用いて再合成され、通常のアンカー条件の代わりに使用している。これにより、全評価尺度が使用しやすくなる。
PESQやPOLQA等の古典的な客観的測定はニューラルボコーダーが生成した音声波形を評価するうえでは信頼できない。その代わり、条件付きフレシェディープ音声距離(cFDSD)が使用されている。以下の異なるニューラルボコーダーについてのcFDSDのスコアは、StyleMelGANが他のモデルを著しく上回っていることを示している。
・ MelGAN 学習cFDSD 0.235 実験cFDSD 0.227
・ PWGAN 学習cFDSD 0.122 実験cFDSD 0.101
・ WaveGlow 学習cFDSD 0.099 実験cFDSD 0.078
・ WaveNet 学習cFDSD 0.176 実験cFDSD 0.140
・ StyleMelGAN 学習cFDSD 0.044 実験cFDSD 0.068
StyleMelGANは他の敵対的および非敵対的ボコーダーを上回っていることが見て取れる。
15人の熟練した聴取者のグループによるMUSHRAリスニングテストが行われた。このタイプのテストが選択されたのは、生成された音声品質をより正確に評価できるからである。アンカーはGriffin-Limアルゴリズムを32回繰り返すPy-Torchの実装を用いて生成された。図5はMUSHRAテストの結果を示している。StyleMelGANはおよそ15MUSHRAポイント他のボコーダーを大きく上回っていることが見て取れる。結果からは、WaveGlowはWaveNetと同等品質の出力を作り出しているが、パラレルWaveGANとは互角であることが見て取れる。
オーディオTTSの主観品質は制御環境で31人の聴取者によって行われたP.800 ACRリスニングテストを通じて評価することができる。テストセットの翻音のメルスペクトルグラムを生成するため、ESPNETのTransformer.v3モデルを使用することができる。全評価尺度がより使いやすくなるため、同じGriffin-Limのアンカーを追加することもできる。
以下の異なるTTSシステムに対するP800平均オピニオン評点(MOS)は、StyleMelGANが明らかに他のモデルを上回っているという同じ知見を示している。
・ GriffinLim P800MOS:1.33+/-0.04
・ Transformer+パラレルWaveGAN P800MOS:3.19+/-0.07
・ Transformer+WaveNet P800MOS:3.82+/-0.07
・ Transformer+StyleMelGAN P800MOS:4.00+/-0.07
・ 録音 P800MOS:4.29+/-0.06
以下は、異なるパラレルボコーダーモデルの実時間係数(RTF)での生成速度とパラメータ数を示す。StyleMelGANは生成品質と推論速度との間で明確な妥協を呈している。
以下に、検討している種々のモデルについて、CPU(例えばIntel Core i7-6700 3.40 GHz)およびGPU(例えばNvidia GeForce GTX1060)における生成のパラメータ数と実時間係数を示す。
・ パラレルWaveGAN パラメータ:1.44M、CPU:0.8x、GPU:17x
・ MelGAN パラメータ:4.26M、CPU:7x、GPU:110x
・ StyleMelGAN パラメータ:3.86M、CPU:2.6x、GPU:54x
・ WaveGlow パラメータ:80M、-、GPU:5x
最後に、図5はMUSHRAエキスパートリスニングテストの結果を示している。StyleMelGANは最新モデルを上回っていることが見て取れる。
結論
本稿はハイファイ音声合成のための軽量且つ効率的な敵対的ボコーダーであるStyleMelGANを紹介するものである。このモデルは単に第1のレイヤにコンディショニングを供給する代わりに、すべての生成レイヤに十分かつ正確なコンディショニングを配布するために時間適応型正規化(TADE:temporal adaptive normalization)を使用する。敵対的学習のために、生成器は時間領域と周波数領域の双方で音声信号のマルチスケール表現を提供するフィルタバンクランダムウィンドウ識別器と競合する。StyleMelGANは実時間よりも早いマグニチュードの規模でCPUとGPUの双方で動作する。実験の客観的および主観的結果は、StyleMelGANは先行する敵対的ボコーダー並びに自己回帰ボコーダー、流ベースボコーダーおよび拡散ベースボコーダーを著しく上回り、ニューラル波形生成の新しい最高水準のベースラインをもたらしていることが示されている。
最後に、本明細書に記載の実施形態は、本明細書に記載の任意の重要ポイントまたは様態によって随意に捕捉することができる。ただし、本明細書に記載の重要ポイントおよび様態は、個別にまたは組み合わせて使用することができ、また本明細書に記載の任意の実施形態に個別にまたは組み合わせて組み入れることができることが指摘される。
一部の様態は装置の文脈で記載されているが、これらの様態は対応する方法の記載をも示すことは明らかであり、装置またはその一部は方法工程または方法工程の特徴に対応する。同様に、方法工程の文脈で記載された様態は対応する装置または装置の一部または対応する装置のアイテムまたは特性も示す。方法工程の一部または全部は、例えばマイクロプロセッサ、プログラマブルなコンピュータまたは電子回路等、ハードウェア装置によって(または使って)実行することができる。一部の実施形態においては、1つ以上の最重要方法工程がこのような装置によって実行されることがある。
一部の実装要件に応じて、本発明の実施形態はハードウェアまたはソフトウェアで実装されることがある。実装は例えば電子的に可読な制御信号が格納され、それぞれの方法が実行されるようにプログラマブルなコンピュータシステムと協働する(または協働することが可能な)フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリ等のデジタル記憶媒体を使用して実行することができる。したがって、デジタル記憶媒体はコンピュータ可読であり得る。
本発明にかかる一部の実施形態は、プログラマブルなコンピュータシステムと協働して本明細書に記載の方法の1つが実行されるようにすることができる、電子的に可読な制御信号を備えるデータキャリアを含む。
概して、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装されることがあり、プログラムコードはコンピュータプログラム製品がコンピュータ上で実行されると、方法の1つを実行するように動作する。プログラムコードは例えば機械可読キャリアに記憶されていることがある。
他の実施形態は、機械可読なキャリアに記憶された、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
言い換えれば、本願発明の方法の実施形態は、従って、コンピュータプログラムがコンピュータで実行されたときに本明細書に記載の方法の1つを実行するためのプログラムコードを備えたコンピュータプログラムである。
本願発明の別の実施形態は、従って、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを記録して含む、データキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録媒体は典型的に有形で、非一時的である。
本願発明の別の実施形態は、したがって、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばデータ通信接続、例えばインターネットを介して伝送されるように構成されていてもよい。
別の実施形態は、本明細書に記載の方法の1つを実行するように構成または適合された、コンピュータまたはプログラマブルな論理デバイス等の処理手段を含む。
別の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
本発明にかかる別の実施形態は、本明細書に記載の方法の1つを実行するためのコンピュータプログラムを受信器に(例えば電子的または工学的に)伝送するように構成された装置またはシステムを含む。受信器は例えばコンピュータ、モバイルデバイス、メモリデバイス等であり得る。装置またはシステムは、例えばコンピュータプログラムを受信器に伝送するためのファイルサーバを含むことがある。
一部の実施形態では、本明細書に記載の方法の機能の一部または全部を実行するためにプログラマブルな論理デバイス(例えばフィールドプログラマブルゲートアレイ)が使用されることがある。一部の実施形態では、フィールドプログラマブルゲートアレイは本明細書に記載の方法の1つを実行するためにマイクロプロセッサと協働することがある。該して、方法は好ましくは任意のハードウェア装置によって実行される。
本明細書に記載の装置はハードウェア装置を用いて、またはコンピュータを用いて、またはハードウェア装置とコンピュータの組み合わせを用いて実装されることがある。本明細書に記載の装置または本明細書に記載の装置の任意のコンポーネントは、少なくとも部分的にハードウェアおよび/またはソフトウェアで実装されることがある。本明細書に記載の方法は、ハードウェア装置を用いて、またはコンピュータを用いて、またはハードウェア装置とコンピュータの組み合わせを用いて実行されることがある。本明細書に記載の方法または本明細書に記載の方法の任意の一部は、少なくとも部分的にハードウェアおよび/またはソフトウェアで実行されることがある。
上記の実施形態は本発明の原則を単に例証するものである。本明細書に記載の構成および細目の修正および改変は、当業者には自明と理解されるものとする。したがって、本願特許請求の範囲によって限定され、本明細書に記載の実施例の記載および説明によって示される具体的な細目によって限定されないものとする。
先行技術文献
A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, et al., "WaveNet: A Generative Model for Raw Audio," arXiv:1609.03499, 2016.
R. Prenger, R. Valle, and B. Catanzaro, "Waveglow: A Flow-based Generative Network for Speech Synthesis," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 3617-3621.
S. Mehri, K. Kumar, I. Gulrajani, R. Kumar, et al., "SampleRNN: An Unconditional End-to-End Neural Audio Generation Model," arXiv:1612.07837, 2016.
N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, et al., "Efficient neural audio synthesis," arXiv:1802.08435, 2018.
A. van den Oord, Y. Li, I. Babuschkin, K. Simonyan, et al., "Parallel WaveNet: Fast High-Fidelity Speech Synthesis," in Proceedings of the 35th ICML, 2018, pp. 3918-3926.
J. Valin and J. Skoglund, "LPCNET: Improving Neural Speech Synthesis through Linear Prediction," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2019, pp. 5891-5895.
K. Kumar, R. Kumar, de T. Boissiere, L. Gestin, et al., "MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis," in Advances in NeurIPS 32, pp. 14910-14921. 2019.
R. Yamamoto, E. Song, and J. Kim, "Parallel Wavegan: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 6199-6203.
M. Bin´kowski, J. Donahue, S. Dieleman, A. Clark, et al., "High Fidelity Speech Synthesis with Adversarial Networks," arXiv:1909.11646, 2019.
T. Park, M. Y. Liu, T. C. Wang, and J. Y. Zhu, "Se-mantic Image Synthesis With Spatially-Adaptive Normalization," in Proc. of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
P. Govalkar, J. Fischer, F. Zalkow, and C. Dittmar, "A Comparison of Recent Neural Vo-coders for Speech Signal Reconstruction," in Proceedings of the ISCA Speech Synthesis Workshop, 2019, pp. 7-12.
I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, et al., "Generative Adversarial Nets," in Advances in NeurIPS 27, pp. 2672-2680. 2014.
C. Donahue, J. McAuley, and M. Puckette, "Adversarial Audio Synthesis," arXiv:1802.04208, 2018.
J. Engel, K. K. Agrawal, S. Chen, I. Gulrajani, et al., "GANSynth: Adversarial Neural Au-dio Synthesis," arXiv:1902.08710, 2019.
G. Yang, S. Yang, K. Liu, P. Fang, et al., "Multiband MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech," arXiv:2005.05106, 2020.
J. Yang, J. Lee, Y. Kim, H. Cho, and I. Kim, "VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Network," arXiv:2007.15256, 2020.
Jungil Kong, Jaehyeon Kim, and Jaekyoung Bae, "Hifi-gan: Generative adversarial net-works for efficient and high fidelity speech synthesis," arXiv preprint arXiv:2010.05646, 2020.
D. Ulyanov, A. Vedaldi, and V. Lempitsky, "Instance normalization: The missing ingredient for fast stylization," arXiv:1607.08022, 2016.
A. Mustafa, A. Biswas, C. Bergler, J. Schottenhamml, and A. Maier, "Analysis by Adversarial Synthesis - A Novel Approach for Speech Vocoding," in Proc. Inter-speech, 2019, pp. 191-195.
T. Q. Nguyen, "Near-perfect-reconstruction pseudo-QMF banks," IEEE Transactions on Signal Processing, vol. 42, no. 1, pp. 65-76, 1994.
T. Salimans and D. P. Kingma, "Weight normalization: A simple reparameterization to accelerate training of deep neural networks," in Advances in NeurIPS, 2016, pp. 901-909.
K. Ito and L. Johnson, "The LJ Speech Dataset," https://keithito.com/LJ-Speech-Dataset/, 2017.
D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," arXiv:1412.6980, 2014.
T. Hayashi, R. Yamamoto, K. Inoue, T. Yoshimura, et al., "Espnet-tts: Unified, reproducible, and integratable open source end-to-end text-to-speech toolkit," in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 7654-7658.
A. Gritsenko, T. Salimans, R. van den Berg, J. Snoek, and N. Kalchbrenner, "A Spectral Energy Distance for Parallel Speech Synthesis," arXiv:2008.01160, 2020.
“P.800: Methods for subjective determination of transmission quality," Standard, International Telecommunication Union, 1996.

Claims (87)

  1. 入力信号(14)およびターゲットデータ(12)からオーディオ信号(16)を生成するように構成されたオーディオ生成器(10)であって、前記ターゲットデータ(12)は前記オーディオ信号(16)を示し、
    前記入力信号(14)から導出された第1のデータ(15,59a)を受信し、第1の出力データ(69)を出力するように構成された第1の処理ブロック(40,50,50a~50h)であって。前記第1の出力データ(69)は複数のチャネル(47)を備える、第1の処理ブロック(40,50,50a~50h)と、
    前記第1の出力データ(69)または前記第1の出力データ(69)から導出されたデータを第2のデータとして受信するように構成された第2の処理ブロック(45)と
    を備えるオーディオ生成器(10)であって、
    前記第1の処理ブロック(50)は前記第1の出力データの各チャネルについて、
    前記ターゲットデータ(12)を処理してコンディショニング特性パラメータ(74,75)を取得するように構成された学習可能レイヤのコンディショニングセット(71,72,73)と、
    前記コンディショニング特性パラメータ(74,75)を前記第1のデータ(15,59a)または前記第1のデータを正規化したもの(59,76’)に適用するように構成されたスタイル付与要素(77)と
    を備え、
    前記第2の処理ブロック(45)は前記第2のデータ(69)の前記複数のチャネル(47)を結合して前記オーディオ信号(16)を取得するように構成される、
    オーディオ生成器。
  2. 前記学習可能レイヤのコンディショニングセットは1つまたは少なくとも2つの畳み込みレイヤ(71,73)から成る、請求項1に記載のオーディオ生成器。
  3. 第1の畳み込みレイヤ(71~73)は、前記ターゲットデータ(12)または前記ターゲットデータをアップサンプリングしたものを畳み込んで、第1の活性化関数を使用して第1の畳み込み済みデータ(71’)を取得するように構成される、請求項2に記載のオーディオ生成器。
  4. 前記学習可能レイヤのコンディショニングセット(71~73)および前記スタイル付与要素(77)は、1つ以上の残差ブロック(50,50a~50h)を備えるニューラルネットワークの残差ブロック(50,50a~50h)内の加重レイヤの一部である、請求項1ないし請求項3のいずれか1項に記載のオーディオ生成器。
  5. 前記オーディオ生成器(10)は、前記第1のデータ(59a,15)を正規化するように構成された正規化要素(76)をさらに備える、請求項1ないし請求項4のいずれか1項に記載のオーディオ生成器。
  6. 前記オーディオ信号(16)は音声オーディオ信号である、請求項1ないし請求項5のいずれか1項に記載のオーディオ生成器。
  7. 前記ターゲットデータ(12)は少なくとも係数2でアップサンプリングされる、請求項1ないし請求項6のいずれか1項に記載のオーディオ生成器。
  8. 前記ターゲットデータ(12)は非線形補間でアップサンプリング(70)される、請求項7に記載のオーディオ生成器。
  9. 前記第1の処理ブロック(40,50,50a~50k)は、前記第1のデータ(15,59,59a,59b)から導出されたデータを、第2の活性化関数(63a,64a,63b,64b)を使用して処理するように構成された、学習可能レイヤの別のセット(61a,62a,61b,62b)をさらに備え、
    前記第2の活性化関数(63a,64a,63b,64b)はゲート付き活性化関数である、
    請求項1ないし請求項8のいずれか1項に記載のオーディオ生成器。
  10. 前記学習可能レイヤの別のセット(61a,62a,61b,62b)は1つまたは2つまたはそれ以上の畳み込みレイヤから成る、請求項9に記載のオーディオ生成器。
  11. 第2の活性化関数(63a,63b)はソフトマックスゲート付き双曲線正接(TanH)関数である、請求項9または請求項10に記載のオーディオ生成器。
  12. 前記第1の活性化関数はリーキー整流化線形ユニット(リーキーReLu)関数である、請求項3または請求項3に従属する請求項4ないし請求項11のいずれか1項に記載のオーディオ生成器。
  13. 畳み込み動作(61a,61b,62a,62b)は最大膨張率2で実行される、請求項1ないし請求項12のいずれか1項に記載のオーディオ生成器。
  14. 8つの第1の処理ブロック(50a~50h)と1つの第2の処理ブロック(45)を備える、請求項1ないし請求項13のいずれか1項に記載のオーディオ生成器。
  15. 前記第1のデータ(15,59,59a,59b)の次元が前記オーディオ信号よりも低い、請求項1ないし請求項14のいずれか1項に記載のオーディオ生成器。
  16. 前記ターゲットデータ(12)はスペクトログラムである、請求項1ないし請求項15のいずれか1項に記載のオーディオ生成器。
  17. 前記ターゲットデータ(12)はメルスペクトログラムである、請求項1ないし請求項16のいずれか1項に記載のオーディオ生成器。
  18. 前記ターゲットデータ(12)はビットストリームである、請求項1ないし請求項15のいずれか1項に記載のオーディオ生成器。
  19. 前記ターゲットデータ(12)は劣化オーディオ信号である、請求項1ないし請求項18のいずれか1項に記載のオーディオ生成器。
  20. 前記ターゲットデータ(12)はテキストから導出される、請求項1ないし請求項18のいずれか1項に記載のオーディオ生成器。
  21. 前記ターゲットデータ(12)はオーディオデータの圧縮表現である、請求項1ないし請求項20のいずれか1項に記載のオーディオ生成器。
  22. 入力信号(14)およびターゲットデータ(12)からオーディオ生成器(10)によってオーディオ信号(16)を生成するための方法であって、前記ターゲットデータ(12)は前記オーディオ信号(16)を示す、方法であって、
    第1の処理ブロック(50,50a~50h)によって、前記入力信号(14)から導出された第1のデータ(16559,59a,59b)を受信するステップと、
    前記第1の出力データ(59b,69)の各チャネルについて、
    前記第1の処理ブロック(50)の学習可能レイヤのコンディショニングセット(71,72,73)によって前記ターゲットデータ(12)を処理してコンディショニング特性パラメータ(74,75)を取得するステップと、
    前記第1の処理ブロック(50)のスタイル付与要素(77)によって、前記コンディショニング特性パラメータ(74,75)を前記第1のデータ(15,59a)または前記第1のデータを正規化したもの(76’)に適用するステップと、
    前記第1の処理ブロック(50)によって、複数のチャネル(47)を含む第1の出力データ(69)を出力するステップと、
    第2の処理ブロック(45)によって前記第1の出力データ(69)または前記第1の出力データ(69)から導出されたデータを第2のデータとして受信するステップと、
    前記第2の処理ブロック(45)によって、前記第2のデータの前記複数のチャネル(47)を結合して前記オーディオ信号(16)を取得するステップと、
    を含む方法。
  23. 前記学習可能レイヤのコンディショニングセット(71~73)は、1つまたは2つの畳み込みレイヤから成る、請求項22に記載のオーディオ信号を生成するための方法。
  24. 前記学習可能レイヤのコンディショニングセット(71~73)によって処理するステップは、第1の畳み込みレイヤ(71)によって、前記ターゲットデータ(12)または前記ターゲットデータをアップサンプリングしたものを畳み込んで、第1の活性化関数を使用して第1の畳み込み済みデータ(71’)を取得するステップを含む、請求項23に記載のオーディオ信号を生成するための方法。
  25. 前記学習可能レイヤのコンディショニングセット(71~73)および前記スタイル付与要素(77)は、1つ以上の残差ブロック(50,50a~50h)を備えるニューラルネットワークの残差ブロック(50,50a~50h)内の加重レイヤの一部である、請求項22ないし請求項24のいずれか1項に記載のオーディオ信号を生成するための方法。
  26. 前記方法は、前記第1のデータ(15,59)を正規化要素(76)によって正規化するステップをさらに含む、請求項22ないし請求項25のいずれか1項に記載のオーディオ信号を生成するための方法。
  27. 前記オーディオ信号(16)は音声オーディオ信号である、請求項22ないし請求項26のいずれか1項に記載のオーディオ信号を生成するための方法。
  28. 前記ターゲットデータ(12)は係数2でアップサンプリング(70)される、請求項22ないし請求項27のいずれか1項に記載のオーディオ信号を生成するための方法。
  29. 前記ターゲットデータ(12)は非線形補間でアップサンプリング(70)される、請求項22ないし請求項28のいずれか1項に記載のオーディオ信号を生成するための方法。
  30. 前記第1の処理ブロック(50)の学習可能レイヤの別のセット(61a,62a,61b,62b)によって、前記第1のデータ(15,59a)から導出されたデータを、第2の活性化関数(63a,64a,63b,64b)を使用して処理するステップをさらに含み、
    前記第2の活性化関数(63a,64a,63b,64b)はゲート付き活性化関数である、
    請求項22ないし請求項29のいずれか1項に記載のオーディオ信号を生成するための方法。
  31. 前記学習可能レイヤの別のセット(61a,62a,61b,62b)は1つまたは2つの畳み込みレイヤから成る、請求項30に記載のオーディオ信号を生成するための方法。
  32. 前記第2の活性化関数(63a,64a,63b,64b)はソフトマックスゲート付き双曲線正接(TanH)関数である、請求項30または請求項31に記載のオーディオ信号を生成するための方法。
  33. 前記第1の活性化関数はリーキー整流化線形ユニット(リーキーReLu)関数である、請求項22ないし請求項32のいずれか1項に記載のオーディオ信号を生成するための方法。
  34. 畳み込み動作(61a,61b,62a,62b)は最大膨張率2で実行される、請求項22ないし請求項33のいずれか1項に記載のオーディオ信号を生成するための方法。
  35. 前記第1の処理ブロック(50,50a~50h)の工程を8回繰り返し、前記第2の処理ブロック(45)の工程を1回だけ行うステップを含む、請求項22ないし請求項34のいずれか1項に記載のオーディオ信号を生成するための方法。
  36. 前記第1のデータ(15,59)の次元が前記オーディオ信号よりも低い、請求項22ないし請求項35のいずれか1項に記載のオーディオ信号を生成するための方法。
  37. 前記ターゲットデータ(12)はスペクトログラムまたはビットストリームである、請求項22ないし請求項36のいずれか1項に記載のオーディオ信号を生成するための方法。
  38. 前記スペクトログラムはメルスペクトログラムである、請求項37に記載の方法。
  39. 前記ターゲットデータ(12)はテキストから導出され、前記ターゲットデータはオーディオデータの圧縮表現である、または前記ターゲットデータは劣化オーディオ信号である、請求項22ないし請求項38のいずれか1項に記載のオーディオ信号を生成するための方法。
  40. 請求項1ないし請求項21のいずれか1項に記載のオーディオ生成器(10)を学習(100)させるための方法であって、前記学習(100)は請求項22ないし請求項39のいずれかに記載の工程を1回以上繰り返すステップを含む、方法。
  41. 生成されたオーディオ信号(14,16)を少なくとも1つの評価器(132)で評価(130)するステップと、
    前記評価(130)の結果に応じて前記オーディオ生成器(10)の加重(74,75)を調節するステップと
    をさらに含む、請求項40に記載の方法。
  42. 前記少なくとも1つの評価器(132)はニューラルネットワークである、請求項41に記載の方法。
  43. 前記評価器の加重を前記評価の結果に応じて適合させるステップをさらに含む、請求項41または請求項42に記載の方法。
  44. 学習(130)は損失関数(140)を最適化するステップを含む、請求項40ないし請求項43のいずれか1項に記載の方法。
  45. 損失関数を最適化(130)するステップは、前記生成されたオーディオ信号(16)と基準オーディオ信号(104)との間の固定メトリックを計算するステップを含む、請求項44に記載の方法。
  46. 前記固定メトリックを計算するステップは、前記生成されたオーディオ信号(16)と前記基準オーディオ信号(104)との間の1つ以上のスペクトル歪みを計算するステップを含む、請求項45に記載の方法。
  47. 前記1つ以上のスペクトル歪みを計算するステップは、前記生成されたオーディオ信号(16)および前記基準オーディオ信号(104)のマグニチュードまたはログマグニチュードに対して行われる、請求項46に記載の方法。
  48. 前記1つ以上のスペクトル歪みを計算するステップは、前記生成されたオーディオ信号(16)および前記基準オーディオ信号(104)の異なる時間または周波数解像度に対して行われる、請求項46または請求項47に記載の方法。
  49. 前記損失関数(140)を最適化するステップは、1つ以上の評価器(132)によって前記生成されたオーディオ信号(16)の表現または前記基準オーディオ信号(104)の表現をランダムに供給し評価することによって1つ以上の敵対的メトリックを導出するステップを含み、評価するステップは、前記オーディオ信号(14,16)の事前学習済みの自然さの分類レベルを示す既定の数の等級に、供給されたオーディオ信号(16,132)を分類するステップを含む、請求項44ないし請求項48のいずれか1項に記載の方法。
  50. 前記損失関数を最適化するステップは、1つ以上の評価器(132)によって固定メトリックを計算し、敵対的メトリックを導出するステップを含む、請求項44ないし請求項49のいずれか1項に記載の方法。
  51. 前記オーディオ生成器(10)はまず、前記固定メトリックを用いて学習させられる、請求項50に記載の方法。
  52. 4つの評価器(132a~132d)が4つの敵対的メトリックを導出する、請求項49ないし請求項51のいずれか1項に記載の方法。
  53. 前記評価器(132)はフィルタバンクによる前記生成されたオーディオ信号(16)の前記表現または前記基準オーディオ信号(104)の前記表現の分解(110)後に動作する、請求項49または請求項52に記載の方法。
  54. 前記評価器(132a~132d)はそれぞれ、前記生成されたオーディオ信号(16)の前記表現または前記基準オーディオ信号(104)の前記表現の1つ以上の部分(105a~105d)を入力として受信する、請求項49または請求項53に記載の方法。
  55. 前記信号部分は、ランダム窓関数を使用して、前記入力信号(14)からランダムなウィンドウ(105a~105d)をサンプリングして生成される、請求項54に記載の方法。
  56. 前記ランダムウィンドウ(105a~105d)のサンプリングは、各評価器(132a~132d)について複数回繰り返される、請求項54または請求項55に記載の方法。
  57. 前記ランダムウィンドウ(105a~105d)が各評価器(132a~132d)についてサンプリングされる回数は、前記生成されたオーディオ信号の前記表現または前記基準オーディオ信号(104)の前記表現の長さに比例する、請求項56に記載の方法。
  58. プログラムが処理デバイスで実行されるときに、請求項22ないし請求項57の工程を実行するためのソフトウェアコード部分を含む処理デバイス用プログラムを含む、コンピュータプログラム製品。
  59. 前記コンピュータプログラム製品は、前記ソフトウェアコード部分が格納されているコンピュータ可読媒体を含み、前記プログラムは前記処理デバイスの内蔵メモリに直接搭載することができる、請求項58に記載のコンピュータプログラム製品。
  60. 数理モデルを含むオーディオ信号(16)を生成する方法であって、前記数理モデルは生成する前記オーディオ信号(16)を表す入力シーケンス(12)から所与の時間ステップにオーディオサンプルを出力するように構成され、
    前記数理モデルは入力された代表シーケンス(12)を使用して前記出力オーディオサンプルを作り出すためにノイズベクトル(14)を整形するように構成される、
    方法。
  61. 前記数理モデルはオーディオデータを用いて学習させられる、請求項60に記載の方法。
  62. 前記数理モデルはニューラルネットワークである、請求項60または請求項61に記載の方法。
  63. 前記ネットワークは順伝播型ネットワークである、請求項63に記載の方法。
  64. 前記ネットワークは畳み込みネットワークである、請求項62または63に記載の方法。
  65. 前記ノイズベクトル(14)の次元は生成するオーディオ信号(16)よりも低い、請求項60ないし請求項64のいずれか1項に記載の方法。
  66. 前記入力された代表シーケンス(12)を用いて前記数理モデルを条件付けするため、ひいては前記ノイズベクトル(14)を整形するために、時間適合的脱正規化(TADE)法が使用される、請求項60ないし請求項65のいずれか1項に記載の方法。
  67. 修正ソフトマックスゲート付きTanh(63a,64a,64b,46)が前記ニューラルネットワークの各レイヤを活性化させる、請求項62ないし請求項66のいずれか1項に記載の方法。
  68. 畳み込み動作は最大膨張率2で実行される、請求項64ないし請求項67のいずれか1項に記載の方法。
  69. 前記ノイズベクトル(14)ならびに前記入力された代表シーケンス(12)はアップサンプリング(70,30)されて、前記ターゲットサンプリングレートで前記出力オーディオ(16)を取得する、請求項60ないし請求項68のいずれか1項に記載の方法。
  70. 前記アップサンプリング(70)は前記数理モデルの異なるレイヤにおいて順次行われる、請求項69に記載の方法。
  71. 各レイヤについての前記アップサンプリングの係数は2または2の倍数である、請求項70に記載の方法。
  72. 前記生成されたオーディオ信号はテキスト読み上げアプリケーションで使用され、前記入力された代表シーケンスはテキストから導出される、請求項60ないし請求項71のいずれか1項に記載の方法。
  73. 前記生成されたオーディオ信号(16)はオーディオデコーダで使用され、前記入力された代表シーケンスは伝送または記憶される元のオーディオの圧縮表現である、請求項60ないし請求項72のいずれか1項に記載の方法。
  74. 前記生成されたオーディオ信号(16)は劣化オーディオ信号のオーディオ品質を改善するために用いられ、前記入力された代表シーケンス(12)は前記劣化信号から導出される、請求項60ないし請求項73のいずれか1項に記載の方法。
  75. オーディオ生成のためにニューラルネットワークを学習させる方法であって、
    前記ニューラルネットワークは、生成する前記オーディオデータ(16)を表す入力シーケンス(14)から所与の時間ステップにオーディオサンプルを出力し、
    前記ニューラルネットワークは、入力された代表シーケンス(12)を用いて出力された前記オーディオサンプル(16)を作り出すためにノイズベクトル(14)を整形するように構成され、
    前記ニューラルネットワークは請求項51~65のいずれか1項に従って設計され、
    前記学習は損失関数(140)を最適化するように設計される、
    方法。
  76. 前記損失関数は生成された前記オーディオ信号(16)と基準オーディオ信号(104)との間で算出された固定メトリックを含む、請求項75に記載の方法。
  77. 前記固定メトリックは、前記生成されたオーディオ信号(16)と前記基準オーディオ信号(104との間で算出された1つ以上のスペクトル歪みのうちの1つである、請求項76に記載の方法。
  78. 前記1つ以上のスペクトル歪みは、前記生成されたオーディオ信号(16)および前記基準オーディオ信号(104)のスペクトル表現のマグニチュードまたはログマグニチュードについて計算される、請求項77に記載の方法。
  79. 前記固定メトリックを形成する前記1つ以上のスペクトル歪みは異なる時間解像度または周波数解像度について計算される、請求項77または請求項78に記載の方法。
  80. 前記損失関数は、追加の識別的ネットワークから導出された敵対的メトリックを含み、
    前記識別的ニューラルネットワークは前記生成されたオーディオ信号(16)の表現または前記基準オーディオ信号(104)の表現を入力として受信し、
    前記識別的ニューラルネットワークは前記生成されたオーディオ信号(16)がどのていど現実的であるかを評価するように構成される、
    請求項75ないし請求項79のいずれか1項に記載の方法。
  81. 前記損失関数は固定メトリックと追加の識別的ニューラルネットワークから導出された敵対的メトリックの双方を含む、請求項75ないし請求項80のいずれか1項に記載の方法。
  82. 前記オーディオサンプルを生成する前記ニューラルネットワークは、まず固定メトリックのみを用いて学習させられる、請求項76ないし請求項81のいずれか1項に記載の方法。
  83. 前記敵対的メトリックは、4つの識別的ニューラルネットワーク(132a~132d)によって導出される、請求項80または請求項81に記載の方法。
  84. 前記識別的ニューラルネットワークは、入力された前記オーディオ信号をフィルタバンクが分解したのちに動作する、請求項80または請求項18に記載の方法。
  85. 各識別的ニューラルネットワーク(132)は、前記入力されたオーディオ信号をランダムにウィンドウ化した1つ以上のバージョンを入力として受信する、請求項80または請求項81に記載の方法。
  86. 前記ランダムウィンドウ(105a~105d)の前記サンプリングは、各識別的ニューラルネットワーク(132)について複数回繰り返される、請求項85に記載の方法。
  87. 前記ランダムウィンドウ(105a~105d)が各識別的ニューラルネットワーク(132)についてサンプリングされる回数は、前記入力されたオーディオサンプルの長さに比例する請求項86に記載の方法。
JP2023522965A 2020-10-15 2021-10-13 オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法 Pending JP2023546099A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP20202058.2 2020-10-15
EP20202058 2020-10-15
PCT/EP2021/059805 WO2022078634A1 (en) 2020-10-15 2021-04-15 Audio generator and methods for generating an audio signal and training an audio generator
EPPCT/EP2021/059805 2021-04-15
PCT/EP2021/078372 WO2022079130A1 (en) 2020-10-15 2021-10-13 Audio generator and methods for generating an audio signal and training an audio generator

Publications (1)

Publication Number Publication Date
JP2023546099A true JP2023546099A (ja) 2023-11-01

Family

ID=72964439

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2023522964A Pending JP2023546098A (ja) 2020-10-15 2021-10-13 オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法
JP2023522965A Pending JP2023546099A (ja) 2020-10-15 2021-10-13 オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2023522964A Pending JP2023546098A (ja) 2020-10-15 2021-10-13 オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法

Country Status (8)

Country Link
US (2) US20230282202A1 (ja)
EP (2) EP4229623A1 (ja)
JP (2) JP2023546098A (ja)
KR (2) KR20230109630A (ja)
CN (2) CN116686042A (ja)
CA (2) CA3195578A1 (ja)
MX (2) MX2023004329A (ja)
WO (4) WO2022078634A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092503B (zh) * 2023-04-06 2023-06-20 华侨大学 联合时域和频域的伪造语音检测方法、装置、设备及介质
CN116403562B (zh) * 2023-04-11 2023-12-05 广州九四智能科技有限公司 一种基于语义信息自动预测停顿的语音合成方法、系统
CN117292672B (zh) * 2023-11-27 2024-01-30 厦门大学 一种基于矫正流模型的高质量语音合成方法
CN117592384B (zh) * 2024-01-19 2024-05-03 广州市车厘子电子科技有限公司 一种基于生成对抗网络的主动声浪生成方法
CN117809621B (zh) * 2024-02-29 2024-06-11 暗物智能科技(广州)有限公司 一种语音合成方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068557B1 (en) * 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks
KR20230043250A (ko) * 2018-05-17 2023-03-30 구글 엘엘씨 뉴럴 네트워크들을 사용하여 대상 화자의 음성으로 텍스트로부터의 스피치의 합성
CN110060690B (zh) * 2019-04-04 2023-03-24 南京邮电大学 基于STARGAN和ResNet的多对多说话人转换方法

Also Published As

Publication number Publication date
EP4229624A1 (en) 2023-08-23
WO2022078651A1 (en) 2022-04-21
KR20230109631A (ko) 2023-07-20
CA3195582A1 (en) 2022-04-21
MX2023004330A (es) 2023-06-13
WO2022079129A1 (en) 2022-04-21
US20230317056A1 (en) 2023-10-05
CN116648742A (zh) 2023-08-25
CN116686042A (zh) 2023-09-01
KR20230109630A (ko) 2023-07-20
MX2023004329A (es) 2023-06-13
EP4229623A1 (en) 2023-08-23
CA3195578A1 (en) 2022-04-21
WO2022079130A1 (en) 2022-04-21
US20230282202A1 (en) 2023-09-07
JP2023546098A (ja) 2023-11-01
WO2022078634A1 (en) 2022-04-21

Similar Documents

Publication Publication Date Title
Caillon et al. RAVE: A variational autoencoder for fast and high-quality neural audio synthesis
JP2023546099A (ja) オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法
US10008218B2 (en) Blind bandwidth extension using K-means and a support vector machine
US20240127832A1 (en) Decoder
CN114267372A (zh) 语音降噪方法、系统、电子设备和存储介质
Alex et al. Data augmentation for speech separation
Kim et al. Audio Super-Resolution With Robust Speech Representation Learning of Masked Autoencoder
Wu et al. Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion.
US8447594B2 (en) Multicodebook source-dependent coding and decoding
Saeki et al. SelfRemaster: Self-supervised speech restoration with analysis-by-synthesis approach using channel modeling
CN116705056A (zh) 音频生成方法、声码器、电子设备及存储介质
RU2823016C1 (ru) Генератор аудиоданных и способы формирования аудиосигнала и обучения генератора аудиоданных
RU2823015C1 (ru) Генератор аудиоданных и способы формирования аудиосигнала и обучения генератора аудиоданных
Ou et al. Concealing audio packet loss using frequency-consistent generative adversarial networks
Pooladzandi et al. Exploring the Potential of VAE Decoders for Enhanced Speech Re-Synthesis
Baoueb et al. SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis
Wang et al. Combined Generative and Predictive Modeling for Speech Super-resolution
Wu et al. Relational data selection for data augmentation of speaker-dependent multi-band melgan vocoder
Gómez et al. Low-complexity Real-time Neural Network for Blind Bandwidth Extension of Wideband Speech
EP4233051B1 (en) An apparatus for providing a processed audio signal, a method for providing a processed audio signal, an apparatus for providing neural network parameters and a method for providing neural network parameters
EP4018440B1 (en) Multi-lag format for audio coding
Srikotr The improved speech spectral envelope compression based on VQ-VAE with adversarial technique
Saeki et al. SelfRemaster: Self-Supervised Speech Restoration for Historical Audio Resources
CN114556470A (zh) 利用生成模型对音频信号进行波形编码的方法和系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230615

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240521

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240820