JP2023546145A - 正弦波活性化を用いるニューラル・ネットワーク・ベースのオーディオ処理のための方法及び装置 - Google Patents

正弦波活性化を用いるニューラル・ネットワーク・ベースのオーディオ処理のための方法及び装置 Download PDF

Info

Publication number
JP2023546145A
JP2023546145A JP2023523182A JP2023523182A JP2023546145A JP 2023546145 A JP2023546145 A JP 2023546145A JP 2023523182 A JP2023523182 A JP 2023523182A JP 2023523182 A JP2023523182 A JP 2023523182A JP 2023546145 A JP2023546145 A JP 2023546145A
Authority
JP
Japan
Prior art keywords
generator
audio signal
audio
layer
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023523182A
Other languages
English (en)
Inventor
ビスワス,アリジット
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2023546145A publication Critical patent/JP2023546145A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

本件ではディープ・ラーニング・ベースの生成器を用いてオーディオ信号を処理する方法が説明され、本方法は:(a)オーディオ信号を生成器に入力してオーディオ信号を処理し;(b)生成器のエンコーダ・ステージを利用して、オーディオ信号の時間セグメントを潜在特徴空間表現にマッピングし;(c)デコーダ・ステージの少なくとも1つの層が正弦波活性化を適用する生成器のデコーダ・ステージを利用して、潜在特徴空間表現をアップサンプリングし;(d)処理されたオーディオ信号を、生成器のデコーダ・ステージからの出力として取得するステップを含む。生成器を訓練する方法並びにそれぞれの装置、システム、及びコンピュータ・プログラム製品が更に説明される。

Description

関連出願の相互参照
本件は、以下の先の出願に基づく優先権を主張している:2020年10月15日付けで出願された米国仮出願63/092,242号及び2020年12月1日付けで出願されたEP出願20210969.0号;これらは参照により本件に援用される。
技術分野
本開示は、一般に、ディープ・ラーニング・ベースの生成器を使用してオーディオ信号を処理する方法に関連している。特に、オーディオ信号の時間セグメントは、生成器のエンコーダ・ステージを使用して、潜在特徴空間表現にマッピングされた後に、生成器のデコーダ・ステージを使用して、潜在特徴空間表現をアップサンプリングすることに続き、デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用する。本開示は、更に、生成器と識別子を含む敵対的生成ネットワーク(Generative Adversarial Network,GAN)の設定における生成器を訓練する方法にも関連する。本開示は、更に、それぞれの装置、システム、及びコンピュータ・プログラム製品にも関連している。幾つかの実施形態は、その開示を特に参照して本件で説明されるであろうが、本開示はそのような利用分野に限定されず、より広い状況に適用可能であることが認められるであろう。
開示全体を通じて背景技術についての如何なる議論も、そのような技術が広く知られていたり、或いは当該分野の一般的な知識の一部を形成していたりすることを認めているように決して考えてはならない。ここ数年、ディープ・ラーニング・アプローチは、会話の改善を含む様々な応用分野でますます魅力的なものになりつつある。一般に、最近の研究はほとんど深層畳み込みGAN(一般に、DCGAN(deep convolutional GAN)として知られている)に基づいている。これまでのディープ・ラーニング・アプローチのほとんどは、スピーチのノイズ除去に関連している。
ノイズ除去に関しては、直感的には、コーディング・アーティファクトの削減及びノイズ除去は非常に関連していると考えることができる。しかしながら、所望の音と相関が高いコーディング・アーティファクト/ノイズの除去は、相関が低いことが多い他のノイズ・タイプを除去すること(ノイズ除去アプリケーション)よりも複雑であるようである。コーディング・アーティファクトの特性は、コーデックと使用されるコーディング・ツール、そして選択されたビットレートに依存する。また、スピーチや音楽などのトーナルな内容(tonal content)を含むオーディオ信号のモデリングは、この種の信号に自然に含まれる周期関数に起因して更に複雑になる。このように、トーナルな内容を含むオーディオ信号の処理に向けて、ディープ・ラーニングに基づくアプローチを改善する必要性が存在する。
更に、オーディオをコーディング・ノイズから復元することは困難な問題であることに更に留意を要する。しかしながら、コーディング・アーティファクトとコーディング・ノイズを減らすために使用される深層畳み込みGANは、モデル・パラメータ及び/又はメモリ使用の観点から非常に複雑であり、従って非常に重い演算負担を招く。
このように、改善された効率及び削減された演算負担に向けて、ディープ・ラーニング・ベースのアプローチを改善する必要性も存在する。
本開示の第1の態様によれば、ディープ・ラーニング・ベースの生成器を用いてオーディオ信号を処理する方法が提供され、生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、エンコーダ・ステージの最終層は、チャネル次元及び時間次元に沿う複数の要素を含む潜在特徴空間表現へのマッピングを行う。方法は(a)オーディオ信号を生成器に入力してオーディオ信号を処理するステップを含むことが可能である。方法は(b)生成器のエンコーダ・ステージを利用して、オーディオ信号の時間セグメントを潜在特徴空間表現にマッピングするステップを更に含むことが可能である。方法は(c)時間及びチャネルの再帰性(recurrence)を潜在特徴空間表現に適用して、修正された潜在特徴空間表現を取得するステップを更に含むことが可能である。そして、方法は(e)修正された潜在特徴空間表現に基づいて、処理されたオーディオ信号を、生成器のデコーダ・ステージからの出力として取得するステップを含むことが可能である。
一部の実施形態において、方法は、オーディオ信号を含むオーディオ・ビットストリームを受信するステップを更に含むことが可能である。
一部の実施形態において、方法は、オーディオ・ビットストリームをコア・デコーディングしてオーディオ信号を取得するステップを更に含むことが可能である。
一部の実施形態において、方法は、知覚的に重み付けされたドメインにおいて実行されることが可能であり、ステップ(e)において、知覚的に重み付けされたドメインにおいて処理されたオーディオ信号が、生成器のデコーダ・ステージからの出力として取得されることが可能である。
一部の実施形態において、方法は、処理されたオーディオ信号を、知覚的に重み付けされたドメインから元の信号ドメインへ変換するステップを更に含むことが可能である。
一部の実施形態において、処理されたオーディオ信号を、知覚的に重み付けされたドメインから元の信号ドメインへ変換するステップは、知覚的に重み付けされたドメインにおける処理されたオーディオ信号に、インバース・マスクを適用することに基づくことが可能であり、インバース・マスクは心理音響的モデル(psychoacoustic model)に基づいて算出される。
一部の実施形態において、オーディオ・ビットストリームは、処理されたオーディオ信号を、知覚的に重み付けされたドメインから元の信号ドメインへ変換するために適用されるマスクを示すメタデータを更に含むことが可能である。
一部の実施形態において、生成器は、知覚的に重み付けされたドメインで訓練された生成器であってもよい。
一部の実施形態において、生成器は、敵対的生成ネットワークの設定で訓練された生成器であってもよい。
一部の実施形態において、エンコーダ・ステージの少なくとも1つの層及びデコーダ・ステージの少なくとも1つの層において、ReLU,PReLU,LReLU,eLU及びSeLUのうちの1つ以上を含む非線型演算が実行される可能性がある。
一部の実施形態において、生成器は、デコーダ・ステージの最終層に続く出力層として、非ストライド(ストライド=1を意味する)転置畳み込み層(non-strided transposed convolutional layer)を更に含むことが可能である。
一部の実施形態において、生成器のエンコーダ・ステージとデコーダ・ステージのそれぞれの対応する(homologous)層の間に、1つ以上のスキップ接続が存在する可能性がある。
一部の実施形態において、生成器は、時間及びチャネルの再帰性を潜在特徴空間表現に適用するために、エンコーダ・ステージの最終層の後にリカレント・ユニットを更に含むことが可能である。
一部の実施形態において、リカレント・ユニットは、時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスと、チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスとを含むことが可能である。
一部の実施形態において、時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの各々は、時間次元に沿う潜在特徴空間表現に含まれる複数の要素のうちの一連の要素を処理することが可能であり、チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの各々は、チャネル次元に沿う潜在特徴空間表現に含まれる複数の要素のうちの一連の要素を処理することが可能である。
一部の実施形態において、時間リカレント・ニューラル・ネットワーク及びチャネル・リカレント・ニューラル・ネットワークはそれぞれ2つ以上のLRNN個の層とM個の隠れ活性化を含むことが可能であり、Mは1以上の自然数である。
一部の実施形態において、時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力とチャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力とは、チャネル次元に沿って連結され、その後に、線型層を用いて修正された潜在特徴空間表現にマッピングされることが可能である。
一部の実施形態において、連結の前に、時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力はスタックされることが可能であり、チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上の出力は転置されてスタックされることが可能である。
一部の実施形態において、リカレント・ニューラル・ネットワークは、長短期メモリ又はゲート付きリカレント・ユニットであってもよい。
一部の実施形態において、ランダム・ノイズ・ベクトルzが、オーディオを修正するために前記修正された潜在特徴空間表現に適用されることが可能である。
一部の実施形態において、方法は、ステップ(a)の前に実行される以下のステップ:
(i)オーディオ訓練信号を生成器に入力するステップ;
(ii)時間及びチャネルの再帰性をオーディオ訓練信号の潜在特徴空間表現に適用して、処理されたオーディオ訓練信号が生成される基礎となる修正された潜在特徴空間表現を取得することにより、オーディオ訓練信号に基づいて、処理されたオーディオ訓練信号を、生成器が生成するステップ;
(iii)処理されたオーディオ訓練信号と、オーディオ訓練信号が導出される元の対応するオリジナル・オーディオ信号とを、識別器に1つずつ入力するステップ;
(iv)その入力されたオーディオ信号が処理されたオーディオ訓練信号であるか又はオリジナル・オーディオ信号であるかを識別器により判別するステップ;及び
(v)識別器が、処理されたオーディオ訓練信号をオリジナル・オーディオ信号からもはや識別できなくなるまで、生成器のパラメータを反復的にチューニングするステップ;
を更に含むことが可能である。
一部の実施形態において、ステップ(i)ないし(v)は知覚的に重み付けされたドメインで実行されることが可能である。
本開示の第2の態様によれば、生成器と識別器を含む敵対的生成ネットワーク(GAN)の設定における生成器を訓練する方法が提供され、生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、エンコーダ・ステージの最終層は、チャネル次元及び時間次元に沿う複数の要素を含む潜在特徴空間表現へのマッピングを行う。方法は(a)オーディオ訓練信号を生成器に入力するステップを含むことが可能である。方法は、(b)時間及びチャネルの再帰性をオーディオ訓練信号の潜在特徴空間表現に適用して、処理されたオーディオ訓練信号が生成される基礎となる修正された潜在特徴空間表現を取得することにより、オーディオ訓練信号に基づいて、処理されたオーディオ訓練信号を、生成器が生成するステップを更に含むことが可能である。方法は(c)処理されたオーディオ訓練信号と、オーディオ訓練信号が導出される元の対応するオリジナル・オーディオ信号とを、識別器に1つずつ入力するステップを更に含むことが可能である。方法は(d)入力されたオーディオ信号が処理されたオーディオ訓練信号であるか又はオリジナル・オーディオ信号であるかを識別器により判別するステップを更に含むことが可能である。そして、方法は(e)識別器が、処理されたオーディオ訓練信号をオリジナル・オーディオ信号からもはや識別できなくなるまで、生成器のパラメータを反復的にチューニングするステップを更に含むことが可能である。
一部の実施形態において、ステップ(a)ないし(e)は知覚的に重み付けされたドメインで実行されることが可能である。
一部の実施形態において、エンコーダ・ステージの少なくとも1つの層及びデコーダ・ステージの少なくとも1つの層において、ReLU,PReLU,LReLU,eLU及びSeLUのうちの1つ以上を含む非線型演算が実行されることが可能である。
一部の実施形態において、生成器は、デコーダ・ステージの最終層に続く出力層として、非ストライド転置畳み込み層を更に含むことが可能である。
一部の実施形態において、生成器のエンコーダ・ステージとデコーダ・ステージのそれぞれの対応する層の間に、1つ以上のスキップ接続が存在することが可能である。
一部の実施形態において、生成器は、時間及びチャネルの再帰性を潜在特徴空間表現に適用するために、エンコーダ・ステージの最終層の後にリカレント・ユニットを更に含むことが可能である。
一部の実施形態において、リカレント・ユニットは、時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスと、チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスとを含むことが可能である。
一部の実施形態において、時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの各々は、時間次元に沿う潜在特徴空間表現に含まれる複数の要素のうちの一連の要素を処理することが可能であり、チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの各々は、チャネル次元に沿う潜在特徴空間表現に含まれる複数の要素のうちの一連の要素を処理することが可能である。
一部の実施形態において、時間リカレント・ニューラル・ネットワーク及びチャネル・リカレント・ニューラル・ネットワークはそれぞれ2つ以上のLRNN個の層とM個の隠れ活性化を含むことが可能であり、Mは1以上の自然数である。
一部の実施形態において、時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力とチャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力とは、チャネル次元に沿って連結され、その後に、線型層を用いて前記修正された潜在特徴空間表現にマッピングされることが可能である。
一部の実施形態において、連結の前に、時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力はスタックされることが可能であり、チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上の出力は転置されてスタックされることが可能である。
一部の実施形態において、リカレント・ニューラル・ネットワークは、長短期メモリ又はゲート付きリカレント・ユニットであってもよい。
一部の実施形態において、ランダム・ノイズ・ベクトルzが、オーディオを修正するために前記修正された潜在特徴空間表現に適用されることが可能である。
本開示の第3の態様によれば、処理されたオーディオ信号を生成する装置が提供され、装置はディープ・ラーニング・ベースの生成器を含み、生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、エンコーダ・ステージの最終層は、チャネル次元及び時間次元に沿う複数の要素を含む潜在特徴空間表現へのマッピングを行う。生成器は(a)入力オーディオ信号を処理するように構成されることが可能である。生成器は(b)エンコーダ・ステージを利用して、オーディオ信号の時間セグメントを潜在特徴空間表現にマッピングするように更に構成されることが可能である。生成器は(c)時間及びチャネルの再帰性を潜在特徴空間表現に適用して、修正された潜在特徴空間表現を取得するように更に構成されることが可能である。そして、生成器は(d)修正された潜在特徴空間表現に基づいて、処理されたオーディオ信号を、デコーダ・ステージから出力するように構成されることが可能である。
一部の実施形態において、装置は、オーディオ信号を含むオーディオ・ビットストリームを受信する受信機を更に含むことが可能である。
一部の実施形態において、装置は、オーディオ・ビットストリームをコア・デコーディングして前記オーディオ信号を取得するコア・デコーダを更に含むことが可能である。
一部の実施形態において、装置は、知覚的に重み付けされたドメインにおいて、処理されたオーディオ信号を生成するように構成されることが可能である。
一部の実施形態において、装置は、オーディオ・ビットストリームを非多重化するためのデマルチプレクサを更に含むことが可能であり、オーディオ・ビットストリームは、処理されたオーディオ信号を、知覚的に重み付けされたドメインから元の信号ドメインへ変換するために適用されるマスクを示すメタデータを含むことが可能である。
本開示の第4の態様によれば、ディープ・ラーニング・ベースの生成器を用いてオーディオ信号を処理する方法をデバイスに実行させるように構成された命令を備えるコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム製品が提供され、生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、処理能力を有するデバイスにより実行されると、エンコーダ・ステージの最終層は、チャネル次元及び時間次元に沿う複数の要素を含む潜在特徴空間表現へのマッピングを行うものである。
本開示の第5の態様によれば、生成器と識別器を含む敵対的生成ネットワーク(GAN)の設定における生成器を訓練する方法をデバイスに実行させるように構成された命令を備えるコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム製品が提供され、生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、処理能力を有するデバイスにより実行されると、エンコーダ・ステージの最終層は、チャネル次元及び時間次元に沿う複数の要素を含む潜在特徴空間表現へのマッピングを行うものである。
本開示の第6の態様によれば、処理されたオーディオ信号を生成する装置と生成器及び識別器を含む敵対的ネットワークとを含むシステムが提供され、システムは、ディープ・ラーニング・ベースの生成器を用いてオーディオ信号を処理する方法を実行するように構成されており、生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、エンコーダ・ステージの最終層は、チャネル次元及び時間次元に沿う複数の要素を含む潜在特徴空間表現へのマッピングを行うものであり、及び/又は、システムは、生成器と識別器を含む敵対的生成ネットワーク(GAN)の設定における生成器を訓練する方法を実行するように構成されており、生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、エンコーダ・ステージの最終層は、チャネル次元及び時間次元に沿う複数の要素を含む潜在特徴空間表現へのマッピングを行うものである。
本開示の第7の態様によれば、オーディオ信号を生成し、オーディオ信号をオーディオ・ビットストリームにおいてエンコードする装置と、処理されたオーディオ信号を生成する装置とを含むシステムが提供される。
本開示の第8の態様によれば、ディープ・ラーニング・ベースの生成器を用いてオーディオ信号を処理する方法が提供され、生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に複数のフィルタを備える複数の層を含み、デコーダ・ステージの各層における複数のフィルタは、複数の特徴マップを生成するフィルタリング処理を実行し、エンコーダ・ステージの最終層は、潜在特徴空間表現へのマッピングを行う。方法は(a)オーディオ信号を生成器に入力してオーディオ信号を処理するステップを含むことが可能である。方法は(b)生成器のエンコーダ・ステージを利用して、オーディオ信号の時間セグメントを潜在特徴空間表現にマッピングするステップを更に含むことが可能である。方法は(c)生成器のデコーダ・ステージを利用して潜在特徴空間表現をアップサンプリングするステップを含むことが可能であり、ここで、デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用する。そして、方法は(d)処理されたオーディオ信号を、生成器のデコーダ・ステージからの出力として取得するステップを含むことが可能である。
一部の実施形態において、正弦波活性化は正弦波活性化関数により実装されることが可能であり、正弦波活性化関数は少なくとも1つの訓練可能なパラメータを有する。
一部の実施形態において、正弦波活性化関数は、f(x)=x+(1/a)sin2(ax+φ)に対応するパラメトリックな二乗正弦波活性化関数であってもよい。
一部の実施形態において、生成器は敵対的生成ネットワークの設定で訓練された生成器であってもよく、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値は、敵対的生成ネットワーク(GAN)の設定における生成器を訓練することによって取得されたものであってもよい。
一部の実施形態において、ステップ(c)において、デコーダ・ステージの少なくとも1つの層は、デコーダ・ステージの少なくとも1つの層で生成された複数の特徴マップの各々に個別的に正弦波活性化を適用することが可能である。
一部の実施形態において、ステップ(c)において、デコーダ・ステージの2つ以上の層は、デコーダ・ステージの2つ以上の層の各々で生成された複数の特徴マップの各々に個別的に正弦波活性化を適用することが可能である。
一部の実施形態において、少なくとも1つの層に対する正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値は、非一様な分布によって表現されることが可能であり、非一様な分布の各々の値は、少なくとも1つの層で生成された複数の特徴マップのそれぞれについて個別的に取得された値に対応している。
一部の実施形態において、非一様な分布の形状は、オーディオ信号の内容及び/又はデコーダの層番号に依存していてもよい。
一部の実施形態において、オーディオ信号はトーナルな内容を含むことが可能である。
一部の実施形態において、エンコーダ・ステージの少なくとも1つの層において、ReLU,PReLU,LReLU,eLU及びSeLUのうちの1つ以上を含む非線型演算が実行されることが可能である。
一部の実施形態において、生成器は、デコーダ・ステージの最終層に続く出力層として、非ストライド転置畳み込み層を更に含むことが可能であり、出力層はtanh活性化を適用することが可能である。
一部の実施形態において、生成器のエンコーダ・ステージとデコーダ・ステージのそれぞれの対応する層の間に、1つ以上のスキップ接続が存在している可能性がある。
一部の実施形態において、ランダム・ノイズ・ベクトルzが、オーディオを修正するために前記潜在特徴空間表現に適用されてもよい。
一部の実施形態において、方法は、オーディオ信号を含むオーディオ・ビットストリームを受信するステップを更に含むことが可能である。
一部の実施形態において、方法は、オーディオ信号を取得するためにオーディオ・ビットストリームをコア・デコーディングするステップを更に含むことが可能である。
一部の実施形態において、方法は、ステップ(a)の前に実行される以下のステップ:
(i)オーディオ訓練信号を生成器に入力するステップ;
(ii)生成器のエンコーダ・ステージを利用して、オーディオ訓練信号の時間セグメントを潜在特徴空間表現にマッピングし、且つ、生成器のデコーダ・ステージを利用して、潜在特徴空間表現をアップサンプリングすることにより、オーディオ訓練信号に基づいて、処理されたオーディオ訓練信号を生成器により生成するステップであって、デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用する、ステップ;
(iii)処理されたオーディオ訓練信号と、オーディオ訓練信号が導出される元の対応するオリジナル・オーディオ信号とを、識別器に1つずつ入力するステップ;
(iv)その入力されたオーディオ信号が処理されたオーディオ訓練信号であるか又はオリジナル・オーディオ信号であるかを識別器により判別するステップ;及び
(v)識別器が、処理されたオーディオ訓練信号をオリジナル・オーディオ信号からもはや識別できなくなるまで、生成器のパラメータを反復的にチューニングするステップ;
を更に含むことが可能である。
一部の実施形態において、ステップ(v)における生成器のパラメータを反復的にチューニングするステップは、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含むことが可能である。
一部の実施形態において、正弦波活性化関数は、f(x)=x+(1/a)sin2(ax+φ)に対応するパラメトリックな二乗正弦波活性化関数であってもよく、aは少なくとも1つの訓練可能なパラメータであってもよい。
一部の実施形態において、デコーダ・ステージの少なくとも1つの層は、デコーダ・ステージの少なくとも1つの層で生成された複数の特徴マップの各々に個別的に正弦波活性化を適用することが可能であり、ステップ(v)における生成器のパラメータを反復的にチューニングするステップは、複数の特徴マップの各々に関し、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含むことが可能である。
一部の実施形態において、デコーダ・ステージの2つ以上の層は、デコーダ・ステージの2つ以上の層で生成された複数の特徴マップの各々に個別的に正弦波活性化を適用することが可能であり、ステップ(v)における生成器のパラメータを反復的にチューニングするステップは、複数の特徴マップの各々に関し、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含むことが可能である。
一部の実施形態において、オーディオ訓練信号はトーナルな内容を含むことが可能である。
一部の実施形態において、ステップ(i)は、更に、オーディオ訓練信号を入力する前に、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するために、ランダム初期化方法を適用するステップを含むことが可能である。
一部の実施形態において、ステップ(i)は、更に、オーディオ訓練信号を入力する前に、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するために、片側指数初期化方法を適用することを、少なくとも1つの層に対する正弦波活性化関数の訓練可能なパラメータの値の分布が、片側指数分布に実質的に対応するように行う、ステップを含むことが可能である。
本開示の第9の態様によれば、生成器と識別器を含む敵対的生成ネットワーク(GAN)の設定における生成器を訓練する方法が提供され、生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に複数のフィルタを備える複数の層を含み、デコーダ・ステージの各層における複数のフィルタは、複数の特徴マップを生成するフィルタリング処理を実行し、エンコーダ・ステージの最終層は、潜在特徴空間表現へのマッピングを行う。方法は(a)オーディオ訓練信号を生成器に入力するステップを含むことが可能である。方法は(b)生成器のエンコーダ・ステージを利用して、オーディオ訓練信号の時間セグメントを潜在特徴空間表現にマッピングし、且つ、生成器のデコーダ・ステージを利用して、潜在特徴空間表現をアップサンプリングすることにより、オーディオ訓練信号に基づいて、処理されたオーディオ訓練信号を生成器により生成するステップを含むことが可能であり、デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用する。方法は(c)処理されたオーディオ訓練信号と、オーディオ訓練信号が導出される元の対応するオリジナル・オーディオ信号とを、識別器に1つずつ入力するステップを更に含むことが可能である。方法は(d)入力されたオーディオ信号が処理されたオーディオ訓練信号であるか又はオリジナル・オーディオ信号であるかを識別器により判別するステップを更に含むことが可能である。そして、方法は(e)識別器が、処理されたオーディオ訓練信号をオリジナル・オーディオ信号からもはや識別できなくなるまで、生成器のパラメータを反復的にチューニングするステップを更に含むことが可能である。
一部の実施形態において、正弦波活性化は正弦波活性化関数により実装されてもよく、正弦波活性化関数は少なくとも1つの訓練可能なパラメータを有する。
一部の実施形態において、正弦波活性化関数は、f(x)=x+(1/a)sin2(ax+φ)に対応するパラメトリックな二乗正弦波活性化関数であってもよく、aは少なくとも1つ訓練可能なパラメータであってもよい。
一部の実施形態において、ステップ(e)における生成器のパラメータを反復的にチューニングするステップは、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含むことが可能である。
一部の実施形態において、デコーダ・ステージの少なくとも1つの層は、デコーダ・ステージの少なくとも1つの層で生成された複数の特徴マップの各々に個別的に正弦波活性化を適用することが可能であり、ステップ(e)における生成器のパラメータを反復的にチューニングするステップは、複数の特徴マップの各々に関し、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含むことが可能である。
一部の実施形態において、デコーダ・ステージの2つ以上の層は、デコーダ・ステージの2つ以上の層で生成された複数の特徴マップの各々に個別的に正弦波活性化を適用することが可能であり、ステップ(e)における生成器のパラメータを反復的にチューニングするステップは、複数の特徴マップの各々に関し、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含むことが可能である。
一部の実施形態において、オーディオ訓練信号はトーナルな内容を含むことが可能である。
一部の実施形態において、ステップ(a)は、更に、オーディオ訓練信号を入力する前に、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するために、ランダム初期化方法を適用するステップを含むことが可能である。
一部の実施形態において、ステップ(a)は、更に、オーディオ訓練信号を入力する前に、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するために、片側指数初期化方法を適用することを、少なくとも1つの層に対する正弦波活性化関数の訓練可能なパラメータの値の分布が、片側指数分布に実質的に対応するように行う、ステップを更に含むことが可能である。
一部の実施形態において、エンコーダ・ステージの少なくとも1つの層において、ReLU,PReLU,LReLU,eLU及びSeLUのうちの1つ以上を含む非線型演算が実行されてもよい。
一部の実施形態において、生成器は、デコーダ・ステージの最終層に続く出力層として、非ストライド転置畳み込み層を更に含むことが可能であり、出力層はtanh活性化を適用することが可能である。
一部の実施形態において、生成器のエンコーダ・ステージとデコーダ・ステージのそれぞれの対応する層の間に、1つ以上のスキップ接続が存在する可能性がある。
一部の実施形態において、ランダム・ノイズ・ベクトルzが、オーディオを修正するために前記潜在特徴空間表現に適用される可能性がある。
本開示の第10の態様によれば、処理されたオーディオ信号を生成する装置が提供され、装置はディープ・ラーニング・ベースの生成器を含み、生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に複数のフィルタを備える複数の層を含み、デコーダ・ステージの各層における複数のフィルタは、複数の特徴マップを生成するフィルタリング処理を実行し、エンコーダ・ステージの最終層は、潜在特徴空間表現へのマッピングを行う。生成器は(a)入力オーディオ信号を処理するように構成されることが可能である。生成器は(b)エンコーダ・ステージを利用して、オーディオ信号の時間セグメントを潜在特徴空間表現にマッピングするように更に構成されることが可能である。生成器は(c)デコーダ・ステージを利用して潜在特徴空間表現をアップサンプリングするように更に構成されることが可能であり、デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用する。そして、生成器は(d)処理されたオーディオ信号を、デコーダ・ステージから出力するように構成されることが可能である。
一部の実施形態において、装置は、オーディオ信号を含むオーディオ・ビットストリームを受信する受信機を更に含むことが可能である。
一部の実施形態において、装置は、オーディオ・ビットストリームをコア・デコーディングしてオーディオ信号を取得するコア・デコーダを更に含むことが可能である。
本開示の第11の態様によれば、処理されたオーディオ信号を生成する装置と生成器及び識別器を含む敵対的ネットワークとを含むシステムが提供され、システムは、本件で説明される方法を実行するように構成されている。
本開示の第12の態様によれば、オーディオ信号を生成し、オーディオ信号をオーディオ・ビットストリームにおいてエンコードする装置と、本件で説明されるように、処理されたオーディオ信号を生成する装置とを含むシステムが提供される。
本開示の更なる態様によれば、処理能力を有するデバイスにより実行されると、本件で説明される方法をデバイスに実行させるように構成された命令を備えるコンピュータ読み取り可能な記憶媒体をそれぞれが含むコンピュータ・プログラム製品が提供される。
以下、本開示の例示的な実施形態を、添付図面を参照しながら専ら例示として説明する。
図1は、ディープ・ラーニング・ベースの生成器を使用してオーディオ信号を処理する方法の例を示す。 図2aは、スピーチ・コンテンツを含むオーディオ信号に対して得られる、少なくとも1つの訓練可能なパラメータaの訓練された値に依存するパラメトリック二乗正弦波活性化関数の例を示す。 図2bは、スピーチ・コンテンツを含むオーディオ信号に対して得られる典型的なPReLU活性化の例を示す。 図3aは、スピーチ・コンテンツを含むオーディオ信号を用いた訓練に基づく第1のデコーダ層における正弦波活性化関数の少なくとも1つの訓練可能なパラメータaの値の分布の例を示す。 図3bは、スピーチ・コンテンツを含むオーディオ信号を用いた訓練に基づく第2,最終デコーダ層における正弦波活性化関数の少なくとも1つの訓練可能なパラメータaの値の分布の例を示す。 図4aは、音楽コンテンツを含むオーディオ信号を用いた訓練に基づく第1のデコーダ層における正弦波活性化関数の少なくとも1つの訓練可能なパラメータaの値の分布の例を示す。 図4bは、音楽コンテンツを含むオーディオ信号を用いた訓練に基づく第2,最終デコーダ層における正弦波活性化関数の少なくとも1つの訓練可能なパラメータaの値の分布の例を示す。 図5は、生成器のシンプルなアーキテクチャの例を概略的に示す。 図6は、生成器と識別器を含む敵対的生成ネットワーク(GAN)の設定における生成器又は識別器を訓練する方法の例を示す。 図7は、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するための片側指数初期化方法の例を示す。 図8は、ディープ・ラーニング・ベースの生成器を使用してオーディオ信号を処理する別の方法例を示しており、生成器は、時間及びチャネルの再帰性を潜在特徴空間表現に適用するリカレント・ユニットを追加的に含む。 図9は、ディープ・ラーニング・ベースの生成器を使用してオーディオ信号を処理する更に別の方法例を示しており、生成器は、時間及びチャネルの再帰性を潜在特徴空間表現に適用するリカレント・ユニットを追加的に含む。 図10は、生成器のアーキテクチャの別の例を概略的に示す。 図11は、潜在特徴空間表現の例を概略的に示す。 図12は、時間及びチャネルの再帰性を潜在特徴空間表現に適用する例を概略的に示す。 図13は、時間及びチャネルの再帰性を潜在特徴空間表現に適用する別の例を概略的に示す。 図14は、生成器と識別器を含む敵対的生成ネットワーク(GAN)の設定における生成器を訓練する別の方法例を示す。 図15は、生成器と識別器を含む敵対的生成ネットワーク(GAN)の設定における識別器を訓練する別の方法例を示す。
例示的な実施形態の説明
概要
例えばスピーチや音楽のようにトーナルな内容を有する多くのオーディオ信号は、自然に周期的な関数を含んでいる。一般に、ディープ・ラーニング・ベースのオーディオ処理では、アップサンプリングの際に、ディープ・ラーニング・ベースの生成器のデコーダ・ステージを使用して、コンパクトな潜在特徴空間表現を信号ドメインに変換して戻し、処理されたオーディオ信号を出力する。周期関数を含むオーディオ信号の場合、ディープ・ラーニング・ベースの生成器は、そのような関数をモデル化するためのバイアス(bias)がまだ不足している。
本件で説明される方法、装置及びシステムは、アップサンプリング・プロセスの間に正弦波活性化を使用しており(例えば、転置畳み込みの後に正弦波活性化が続く)、ここで、正弦波活性化関数の少なくとも1つのパラメータは学習可能(訓練可能)である。これは、モデルに周期的なバイアスを導入して、オーディオ生成のような多くのオーディオ・タスクで自然に現れる周期的な関数を学習する。
ディープ・ラーニング・ベースの生成器を用いるオーディオ信号処理方法
図1の例を参照して、ディープ・ラーニング・ベースの生成器を用いるオーディオ信号処理方法を説明する。生成器は、エンコーダ・ステージとデコーダ・ステージを含み、各々は各層に複数のフィルタを備える複数の層を含む。デコーダ・ステージの各層における複数のフィルタは、複数の特徴マップを生成するフィルタリング処理を実行する。エンコーダ・ステージの最後層は、潜在特徴空間表現へのマッピングを行う。
図1の例に示されるように、ステップS1001において、オーディオ信号は、オーディオ信号を処理するための生成器に入力される。実施形態では、オーディオ信号はトーナルな内容を含む可能性がある。例えば、オーディオ信号は、スピーチ及び/又は音楽の内容を含む可能性がある。トーナルな内容を含むオーディオ信号は自然に周期的な関数を含む。
実施形態では、ステップS1001の前に、方法は、オーディオ信号を含むオーディオ・ビットストリームを受信するステップを更に含むことが可能である。方法は、次いで、オーディオ・ビットストリームをコア・デコードしてオーディオ信号を取得し、オーディオ信号は、次いで、処理を行う生成器に入力される。
ステップS1002において、オーディオ信号の時間セグメントが、生成器のエンコーダ・ステージを使用して、潜在特徴空間表現にマッピングされる。実施形態では、オーディオを修正するために、ランダムなノイズ・ベクトルzが潜在特徴空間表現に適用されてもよい。
ステップS1003において、生成器のデコーダ・ステージを使用して、潜在特徴空間表現がアップサンプリングされ、ここで、デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用する。デコーダ・ステージの層(ニューラル・アップサンプリング層)は、典型的には、潜在特徴空間表現を信号ドメインへ変換して戻すために使用される。この場合において、アップサンプリング・プロセス中に、デコーダ・ステージの少なくとも1つの層は、正弦波活性化を適用する(例えば、転置畳み込みの後に正弦波活性化が続く)。これは、例えば、以下に詳細に示されるように、トーナルな内容を含むオーディオ信号に自然に含まれる周期関数をモデル化することを可能にする。
実施形態では、正弦波活性化は正弦波活性化関数によって実装されてもよく、正弦波活性化関数は少なくとも1つの訓練可能なパラメータを有することが可能である。これは、周期関数を学習/訓練するために、周期的なバイアスを導入することを可能にする。所与のタスクに関し、正弦波活性化のパラメータは、例えば、信号の内容に依存して学習/訓練される可能性がある。実施形態では、正弦波活性化関数は、f(x)=x+(1/a)sin2(ax+φ) に対応するパラメトリックな二乗正弦波活性化関数であってもよい。
実施形態では、生成器は敵対的生成ネットワークの設定で訓練された生成器であってもよく、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値は、以下で詳細に説明されるように、敵対的生成ネットワーク(GAN)の設定で訓練することによって得られたものであってもよい。
ここで、図2a及び図2bの例を参照すると、図2aは、スピーチの内容を含むオーディオ信号に対して得られた、少なくとも1つの訓練可能なパラメータaの訓練された(学習された)値に依存するパラメトリックな二乗正弦波活性化関数の例を示している。図2aでは、a=1.0の値は、最小の 「くねり(wiggle)」 を有する最初の最上位の曲線に対応する。a=2.2の値は2番目の曲線に対応し、a=7.5の値は3番目の曲線に対応し、a=12.8の値は4番目の曲線に対応し、a=25.4の値は、最も多数の「くねり」を有する5番目の最下位の曲線に対応する。
比較のために、図2bには、図2aと同じオーディオ信号に対して得られる典型的なPReLU(パラメトリック正規化線型関数(parametric rectified linear unit))活性化の例が示されている。図2bでは、a=0.0の値は最初の最上位の曲線に対応し、a=0.1の値は2番目の曲線に対応し、a=0.2の値は3番目の曲線に対応し、a=0.5の値は4番目の曲線に対応し、a=5の値は5番目の最下位の曲線に対応する。曲線の傾き(slope)は、(x軸上で)x=0又はそれ以上の値に対して同じである。
図2aと2bの比較は、PReLU活性化の代わりに正弦波活性化を導入すると、周期関数をモデル化することを可能にする周期的な「くねり」を導入することができ、その場合において、aの値が高いほど、より多くの「くねり」が正弦波活性化関数に導入される、ということを示している。
実施形態では、ステップS1003において、デコーダ・ステージの少なくとも1つの層は、デコーダ・ステージの少なくとも1つの層で生成された複数の特徴マップのそれぞれに個別的に正弦波活性化を適用することが可能である。別の実施形態では、ステップS1003において、デコーダ・ステージの2つ以上の層は、デコーダ・ステージの2つ以上の層の各々で生成された複数の特徴マップの各々に個別的に正弦波活性化を適用することが可能である。実施形態では、少なくとも1つの層の正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値は、次いで、非一様分布によって表されてもよく、非一様分布の各々の値は、少なくとも1つの層で生成された複数の特徴マップのそれぞれに対して個別的に得られた値に対応する。非一様分布の形状は、図3a,3b,4a及び4bの例に示されるように、(訓練に使用されている)オーディオ信号の内容及び/又はデコーダ層番号(decoder layer number)に依存していてもよい。
図3a及び3bは、第1のデコーダ層(3a)及び第2,最終デコーダ層(3b)における、スピーチ内容に対する少なくとも1つの訓練可能なパラメータaの非一様分布を示す。スピーチ内容の場合、第1及び第2,最終デコーダ層におけるほとんどの特徴マップ(図中の棒)において、少なくとも1つの訓練可能なパラメータaの値は低くなっており、対応する活性化は、パラメータaの小さな値と同様に、ReLU(正規化線型関数)活性化に近づき、正弦波活性化関数の「くねり」は減少する。図3bのプロットがスパース(sparse)である理由は、特徴マップの数がデコーダ・ステージの中で徐々に減少しているためであることに留意を要する。
図4a及び4bは、第1のデコーダ層(4a)及び第2,最終デコーダ層(4b)における、音楽内容に対する少なくとも1つの訓練可能なパラメータaの非一様分布を示す。音楽内容の場合をスピーチ内容と比較すると、少なくとも1つの訓練可能なパラメータaの値の非一様分布は、より高い値の方にシフトしている。その理由は、音楽はより多くのトーナルな成分を有しており、従ってより多くの周期的なバイアスが生成モデルに要求されるからである。
図1の例を再び参照すると、ステップS1004において、生成器のデコーダ・ステージからの出力として、処理済みのオーディオ信号が次いで取得される。
上記の方法は、例えばデコーダのようなそれぞれの装置で実装されることが可能である。処理されたオーディオ信号を生成する装置は、ディープ・ラーニング・ベースの生成器を含み、生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に複数のフィルタを備える複数の層を含み、デコーダ・ステージの各層の複数のフィルタは、複数の特徴マップを生成するフィルタリング処理を実行し、エンコーダ・ステージの最終層は、潜在特徴空間表現へのマッピングを行う。生成器は(a)入力オーディオ信号を処理するように構成されることが可能である。生成器は(b)エンコーダ・ステージを使用して、オーディオ信号の時間セグメントを潜在特徴空間表現にマッピングするように更に構成されることが可能である。生成器は(c)デコーダ・ステージを使用して潜在特徴空間表現をアップサンプリングするように更に構成されることが可能であり、ここで、デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用する。そして、生成器は(d)処理されたオーディオ信号を、デコーダ・ステージから出力するように構成されることが可能である。
実施形態では、装置は、オーディオ信号を含むオーディオ・ビットストリームを受信する受信機を更に含むことが可能である。実施形態では、装置は、オーディオ信号を得るために、オーディオ・ビットストリームをコア・デコードするコア・デコーダを更に含むことが可能である。
代替的又は追加的に、上記の方法は、デバイスに上記の方法を実行させるように構成された命令を備えるコンピュータ読み取り可能な記憶媒体を含むそれぞれのコンピュータ・プログラム製品において実装されてもよい。
代替的又は追加的に、上記の方法は、オーディオ信号を生成し、オーディオ信号をオーディオ・ビットストリームに符号化する装置と、上述した装置とを含むシステムによっても実装されてもよい。
生成器のシンプルなアーキテクチャ
ディープ・ラーニング・ベースの生成器のアーキテクチャは限定されないことに留意を要する。上述した方法は、任意のニューラル・アップサンプリング層によって実現することが可能である。
ここで、図5の例を参照すると、生成器のシンプルなアーキテクチャの非限定的な例が概略的に示されている。生成器1000は、エンコーダ・ステージ1001とデコーダ・ステージ1002を含む。生成器1000のエンコーダ・ステージ1001とデコーダ・ステージ1002は、全層畳み込み(fully convolutional)であってもよい。デコーダ・ステージ1002は、エンコーダ・ステージ1001を鏡映しにしたものであってもよい。エンコーダ・ステージ1001及びデコーダ・ステージ1002は、それぞれ各層に複数のフィルタを備えた複数の層1001a,1001b,1001c,1002a,1002b,1002cを含むことが可能であり、ここで、デコーダ・ステージの各層の複数のフィルタは、複数の特徴マップを生成するフィルタリング処理を実行することが可能であり、エンコーダ・ステージ1001の最後の層は、潜在特徴空間表現c*,1003に対するマッピングを行うことが可能である。
即ち、エンコーダ・ステージ1001とデコーダ・ステージ1002はそれぞれL個の層を含むことが可能であり、L個の各層にN個のフィルタを備えている。Lは1以上の自然数であってもよく、Nは1以上の自然数であってもよい。N個のフィルタのサイズ(カーネル・サイズとも呼ばれる)は限定されないが、しかしながら、フィルタ・サイズはL個の層のそれぞれで同じであってもよく、例えば、フィルタ・サイズは31であってもよい。各層でフィルタの数は増加してもよい。各フィルタは、例えば2というストライドで生成器の各層に入力されたオーディオ信号に対して作用することが可能である。従って、2の因子で学習可能なダウン・サンプリングがエンコーダ層で実行されてもよく、2の因子で学習可能なアップ・サンプリングがデコーダ層で実行されてもよい。換言すれば、生成器のエンコーダ・ステージ1001は、2というストライドを用いる複数の1D畳み込み層(バイアス項なし)を含むことが可能であり、生成器のデコーダ・ステージ1002は、2というストライドで複数の1D転置畳み込み層(multiple 1D-transposed convolutional layers)(バイアス項なし)を含むことが可能である。
実施形態では、エンコーダ・ステージ1001の少なくとも1つの層において、パラメトリック正規化線型ユニット(PReLU),正規化線型ユニット(ReLU),リーキー正規化線型ユニット(LReLU),指数線型ユニット(eLU),及びスケーリングされた指数線型ユニット(SeLU)の1つ以上を含む活性化として更に非線型演算が実行されてもよい。図5の例では、非線型演算はPReLUに基づいている。
実施形態では、デコーダ・ステージ1002の少なくとも1つの層において、上述したように正弦波活性化を行うことが可能である。その少なくとも1つの層を除くデコーダ・ステージ1002の残りの層においてもまた、パラメトリック正規化線型ユニット(PReLU),正規化線型ユニット(ReLU),リーキー正規化線型ユニット(LReLU),指数線型ユニット(eLU),及びスケーリングされた指数線型ユニット(SeLU)の1つ以上を含む活性化として、非線型演算が加えて実行されてもよい。実施形態では、正弦波活性化は正弦波活性化関数によって実装されてもよく、正弦波活性化関数は少なくとも1つの訓練可能なパラメータを有することが可能である。
実施形態では、正弦波活性化関数は、f(x)=x+(1/a)sin2(ax+φ)に対応するパラメトリック二乗正弦波活性化関数であってもよい。位相φの非限定的な例は、φ=0を含むことが可能であり、この場合、活性化関数は、
f(x)=x+(1/a)sin2(ax)
となり、或いはφ=90°であってもよく、この場合、活性化関数は、
f(x)=x+(1/a)cos2(ax)
となる。
実施形態では、デコーダ・ステージ1002の少なくとも1つの層は、デコーダ・ステージ1002の少なくとも1つの層で生成された複数の特徴マップのそれぞれに個別的に正弦波活性化を適用することが可能である。更なる実施形態では、デコーダ・ステージ1002の2つ以上の層は、デコーダ・ステージ1002の2つ以上の層のそれぞれで生成された複数の特徴マップのそれぞれに個別的に正弦波活性化を適用することが可能である。少なくとも1つの層に対する正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値は、次いで、上述したように非一様分布によって表現されてもよく、非一様分布の各値は、少なくとも1つの層又は2つ以上の層で生成された複数の特徴マップのそれぞれのものに対して個別的に得られた値に対応する。非一様分布の形状は、オーディオ信号の内容及び/又はデコーダ層番号1002a,1002b,1002cに依存してもよい。
生成器1000は、実施形態では、デコーダ・ステージ1002の最終層1002aに続く出力層として、非ストライド(ストライド=1)転置畳み込み層を更に含むことが可能である。出力層は、例えばモノラル・オーディオ信号の場合はN=1のフィルタを含み、例えばマルチ・チャネル・オーディオ信号の例としてステレオ・オーディオ信号の場合はN=2のフィルタを含むことが可能である。フィルタ・サイズは31であってもよい。出力層では、デコーダ・ステージ1002から出力されるオーディオ信号は+1及び-1に制限されることを必要とするので、活性化はtanh演算、tanh(x)活性化に基づいていてもよい。
図5の例に示されているように、実施形態では、生成器1000のエンコーダ・ステージ1001及びデコーダ・ステージ1002のそれぞれの対応する層(又はホモロガス層)の間に、1つ以上のスキップ接続1005が存在してもよい。この場合、潜在特徴空間表現c*,1003は、情報の損失を防ぐためにバイパスされることが可能である。スキップ接続1005は、連結(concatenation)及び信号加算(signal addition)のうちの1つ以上を用いて実装されてもよい。スキップ接続1005の実装に起因して、フィルタ出力の数は「事実上」2倍になる可能性がある。
実施形態では、ランダム・ノイズ・ベクトルz,1004が、オーディオを修正するために、潜在特徴空間表現c*,1003に更に適用されてもよい。
識別器のアーキテクチャ
識別器のアーキテクチャは、生成器のエンコーダ・ステージと同じ構造を有することが可能である。換言すれば、識別器のアーキテクチャは、生成器のエンコーダ・ステージの構造を鏡映しにしていてもよい。即ち、識別器は、各層に複数のフィルタを備える複数の層を含むことが可能である。即ち、識別器は、L個の層を含むことが可能であり、L個の各層にN個のフィルタを備えている。Lは1以上の自然数であってもよく、Nは1以上の自然数であってもよい。N個のフィルタのサイズ(カーネル・サイズとも呼ばれる)は限定されないが、しかしながら、フィルタ・サイズはL個の層のそれぞれで同じであってもよく、例えば、フィルタ・サイズは31であってもよい。各層でフィルタの数は増加してもよい。各フィルタは、例えば2というストライドで識別器の各層に入力されたオーディオ信号に対して作用することが可能である。換言すれば、識別器は、2というストライドを用いる複数の1D畳み込み層(バイアス項なし)を含むことが可能である。識別器の少なくとも1つの層で実行される非線形処理は、LReLUを含むことが可能である。識別器は、先頭に付加する入力層を含むことが可能である。入力層は非ストライド畳み込み層(ストライド=1は非ストライドを意味する)であってもよい。識別器は更に出力層を含むことが可能である。出力層は、1というフィルタ・サイズを有するN=1のフィルタを有する可能性がある(識別器は本物/偽物の1つの判断(single real/fake judgement)を行う)。この場合、出力層のフィルタ・サイズは、識別器の層のフィルタ・サイズと異なる可能性がある。従って、出力層は、隠れ活性化(hidden activations)をダウン・サンプリングしない1次元(1D)畳み込み層であってもよい。これは、出力層のフィルタが1のストライド1で動作する一方で、識別器の先行する全ての層が2のストライドを使用する可能性があることを意味する。出力層の活性化は、少なくとも1つの識別器層の活性化と異なっていてもよい。活性化はシグモイド(sigmoid)であってもよい。しかしながら、最小二乗訓練法が使用される場合、シグモイド活性化は必要とされない可能性があり、従ってオプションである。
敵対的生成ネットワーク(GAN)設定において生成器を訓練する方法
実施形態では、生成器は、敵対的生成ネットワークの設定(GAN設定)において訓練された生成器であってもよい。GANの設定は、一般に、反復プロセスによって訓練される生成器Gと識別器Dを含む。敵対的生成ネットワークの設定における訓練中に、生成器Gは、エンコーダ・ステージを使用してオーディオ訓練信号の時間セグメントを潜在特徴空間表現にマッピングし、デコーダ・ステージを使用して潜在特徴空間表現をアップサンプリングすることによって、処理されたオーディオ訓練信号x*を生成し、この場合において、デコーダ・ステージの少なくとも1つの層が正弦波活性化を適用する。オーディオ訓練信号は、それぞれコード化及びデコード化されるオリジナル・オーディオ信号xから導出されることが可能である。実施形態では、ランダム・ノイズ・ベクトルが、潜在特徴空間表現に適用されてもよい。しかしながら、ランダム・ノイズ・ベクトルはz=0に設定されてもよい。コーディング・アーティファクト削減の場合、ランダム・ノイズ・ベクトルをz=0に設定することは、最良の結果をもたらす可能性がある。代替的に、ランダム・ノイズ・ベクトルzを入力せずに、訓練が実行されてもよい。
生成器Gは、オリジナル・オーディオ信号xと区別できない、処理された音声訓練信号x*を出力することを試みる。識別器Dは、生成された処理されたオーディオ訓練信号x*とオリジナル・オーディオ信号xを一度に1つの供給を受け、入力信号が、処理されたオーディオ訓練信号x*であるか又はオリジナル・オーディオ信号xであるかを、偽物/本物で判定する。このとき、識別器Dは、オリジナル・オーディオ信号xを、処理されたオーディオ訓練信号x*から区別しようとする。反復プロセスの間、生成器Gは、オリジナル・オーディオ信号xと比較して益々良く処理されたオーディオ訓練信号x*を生成するようにパラメータを調整し、また、識別器Dは、処理されたオーディオ訓練信号x*とオリジナル・オーディオ信号xの間でより良い判別を行うように学習する。この敵対的な学習プロセスは、次式(1)で記述することができる:
最終ステップで生成器Gを訓練するために、先ず識別器Dが訓練されてもよい、ということに留意を要する。識別器Dの訓練と更新は、オリジナル・オーディオ信号xに高いスコアを、処理されたオーディオ訓練信号x*に低いスコアを割り当てる確率を最大化することを含むことが可能である。識別器Dの訓練におけるゴールは、オリジナル・オーディオ信号(コード化されていないもの)が本物として認識される一方で、処理されたオーディオ訓練信号x*(生成されたもの)が偽物として認識されることである、とすることが可能である。識別器Dが訓練され更新される間、生成器Gのパラメータは固定されたままであってもよい。
次いで、生成器Gの訓練と更新は、オリジナル・オーディオ信号xと生成された処理されたオーディオ訓練信号x*との間の差を最小化することを含むことが可能である。生成器Gの訓練におけるゴールは、識別器Dが、生成された処理されたオーディオ訓練信号x*を本物として認識することを達成することである、とすることが可能である。
図6の例を参照すると、敵対的生成ネットワーク(GAN)の設定において生成器を訓練する方法と識別器を訓練する方法とが例示されている。生成器G,2000の訓練は以下を含むことが可能である:オーディオ訓練信号x~,2001及びオプションとしてランダム・ノイズ・ベクトルz,2002は、生成器G,2000に入力されることが可能である。実施形態では、ランダム・ノイズ・ベクトルzはz=0に設定されてもよい。代替的に、訓練はランダム・ノイズ・ベクトルzの入力無しに実行されてもよい。
実施形態では、オーディオ訓練信号x~,2001は、トーナルな内容を含む可能性がある。これは、このようなオーディオ信号に自然に含まれる周期関数について、生成器Gを訓練することを可能にする。オーディオ訓練信号x~,2001は、オリジナル・オーディオ信号x,2003をコーディング及びデコーディングすることによって取得することが可能である。入力に基づいて、生成器G,2000は、次いで、エンコーダ・ステージを使用して、オーディオ訓練信号x~,2001の時間セグメントを潜在特徴空間表現にマッピングし、デコーダ・ステージを使用して、潜在特徴空間表現をアップサンプリングすることによって、処理されたオーディオ訓練信号x*,2004を生成し、この場合において、デコーダ・ステージの少なくとも1つの層は、説明されているように正弦波活性化を適用する。実施形態では、正弦波活性化は、正弦波活性化関数によって実装されてもよく、正弦波活性化関数は、少なくとも1つの訓練可能なパラメータを有する可能性がある。実施形態では、正弦波活性化関数は、f(x)=x+(1/a)sin2(ax+φ)に対応するパラメトリック二乗正弦波活性化関数であってもよく、ここで、aは少なくとも1つの訓練可能なパラメータである。
一度に1つずつ、オーディオ訓練信号x~,2001が導出された元のオリジナル・オーディオ信号x,2003と、生成された処理されたオーディオ訓練信号x*,2004とが、識別器D,2006に入力される(2005)。付加情報として、オーディオ訓練信号x~,2001も、その都度、識別器D,2006に入力されることが可能である。次いで、識別器D,2006は、入力データが、処理されたオーディオ訓練信号x*,2004(偽物)であるか、又はオリジナル・オーディオ信号x,2003(本物)であるかを判別する(2007)。次のステップでは、識別器D,2006が、処理されたオーディオ訓練信号x*,2004を、オリジナル・オーディオ信号x,2003からもはや区別できなくなるまで、生成器G,2000のパラメータがチューニングされる。これは反復的なプロセス2008で行うことが可能である。
実施形態では、生成器G,2000のパラメータの反復的なチューニング,2008は、上述したように正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復チューニングすることを含む可能性がある。正弦波活性化関数がf(x)=x+(1/a)sin2(ax+φ)に対応するパラメトリック二乗正弦波活性化関数として実装されている場合、aの値をチューニング(学習/訓練)することが可能である。
実施形態では、デコーダ・ステージの少なくとも1つの層は、デコーダ・ステージの少なくとも1つの層で生成された複数の特徴マップのそれぞれに個別的に正弦波活性化を適用することが可能であり、生成器G,2000のパラメータを反復的にチューニングすること2008は、複数の特徴マップのそれぞれについて、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングすることを含むことが可能である。
実施形態では、デコーダ・ステージの2つ以上の層は、デコーダ・ステージの2つ以上の層で生成された複数の特徴マップのそれぞれに個別的に正弦波活性化を適用することが可能であり、生成器G,2000のパラメータを反復的にチューニングすること2008は、複数の特徴マップのそれぞれについて、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングすることを含むことが可能である。
識別器D,2006による判別は、次式(2)に従って、1つ以上の知覚的に動機付けられた目的関数(perceptually motivated objective function)に基づいていてもよい:
式(2)の第1項から理解できるように、条件付き敵対的生成ネットワークの設定(conditioned Generative Adversarial Network setting)は、オーディオ訓練信号x~を追加情報として識別器に入力することによって、適用されている。上記の式(2)の後ろの2つの項は、多重解像度STFT損失項(multi-resolution STFT loss term)と呼ばれる場合がある。多重解像度STFT損失は、異なるSTFTパラメータを使用する異なるSTFTベースの損失関数の合計であると言ってもよい。Lm sc(スペクトル収束損失)とLm mag(対数スケールSTFTマグニチュード損失)は、それぞれFFTビン数∈{512,1024,2048},ホップサイズ∈{50,120,240},最終ウィンドウ長∈{240,600,1200}を用いてM個の異なる解像度でSTFTベースの損失を適用することが可能である。結果は、一般的なオーディオ(即ち、任意のコンテンツ・タイプ)を取り扱うために、多重解像度STFT損失項が品質改善をもたらすことを示していた。
式(2)の第2項は、因子λによってスケーリングされた1-ノルム距離である。ラムダの値は、生成器に入力される信号長及び/又はアプリケーションに依存して、10ないし100の中から選択することが可能である。例えば、ラムダはλ=100であるように選択されてもよい。更に、多重解像度STFT損失項のスケーリング(λとθ)は、ラムダと同じ値に設定されてもよい。
再び図6の例を参照すると、実施形態では、オーディオ訓練信号x~,2001を生成器G,2000に入力する前に、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するためのランダムな初期化方法が適用されてもよい。
代替的に、実施形態では、オーディオ訓練信号x~,2001を生成器G,2000に入力する前に、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するための片側指数初期化方式(one-sided exponential initialization scheme)が、少なくとも1つの層の正弦波活性化関数の訓練可能なパラメータの値の分布が実質的に片側指数分布に対応することができるように、適用される可能性がある。片側指数初期化方式の例は図7に示されている。ランダム初期化と比較して、片側指数初期化方式を適用することは、正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値が、より速く学習されるという点で、訓練をスピード・アップすることを可能にする。
再び図6の例に関し、識別器D,2006の訓練は、生成器G,2000の訓練について前述したのと同じ一般的なプロセスに従ってもよいが、但しその場合、発生器G,2000のパラメータは固定される可能性がある一方、識別器D,2006のパラメータは変化させられる可能性がある(2009)。識別器D,2006の訓練は、次式(3)によって記述することが可能であり、これは、識別器D,2006が、処理されたオーディオ訓練信号x*,2004を偽物として判別することを可能にする:
上記のケースでは、オーディオ訓練信号x~を追加情報として識別器D,2006に入力することによって、最小二乗(least squares,LS)アプローチと条件付き敵対的生成ネットワーク設定とが適用されている。
最小二乗法と並んで、他の訓練方法もまた、敵対的生成ネットワークの設定における生成器と識別器を訓練するために使用されてもよい。本開示は、特定の訓練方法に限定されない。代替的又は追加的に、所謂ワッサースタイン(Wasserstein)アプローチが使用されてもよい。この場合、最小二乗距離の代わりに、ワッサースタイン距離としても知られているアース・ムーバー距離(Earth Mover Distance)が使用される可能性がある。一般に、様々な訓練方法が、生成器と識別器の訓練をより安定化させている。しかしながら、適用される訓練方法の種類は、生成器のアーキテクチャに影響を及ぼさない。
正弦波活性化の実装は、上記の方法、装置、及びシステムに限定されない。以下、ディープ・ラーニング・ベースの生成器を使用してオーディオ信号を処理する別の方法が説明されており、その場合において、正弦波活性化を追加的に適用することが可能である。以下の例では、生成器はリカレント・ユニットを追加的に含んでいる。
ディープ・ラーニング・ベースの生成器を用いたオーディオ信号処理方法(生成器はリカレント・ユニットを含む)
オーディオ、特に音楽では、特定の調和相関又は類似性が、周波数及び時間軸の双方に沿ったスペクトログラムで観察することが可能である。従って、オーディオ信号がディープ・ラーニング・ベースの生成器に入力される場合、潜在特徴空間を表すボトルネック(bottleneck)において、チャネル_vs._時間という2つの次元の双方に関して相関が存在する、ということを期待することができる。この態様は、信号モデリングの効率を向上させ、と同時に、ディープ・ラーニング・ベースの生成器に要求される演算負荷を軽減することを、例えばリカレント・ニューラル・ネットワーク(Recurrent Neural Networks,RNN)によって適用される時間及びチャネルの再帰性(recurrence)を使用して、この2次元表現からパターンを抽出することによって行うことが可能である。
図8の例を参照すると、ディープ・ラーニング・ベースの生成器を使用してオーディオ信号を処理する方法が示されている。以下、更に詳細に説明されるように、生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、生成器のエンコーダ・ステージの最後層は、チャネル次元と時間次元に沿った複数の要素を含む潜在特徴空間表現へのマッピングを行う。
図8の例に示されるように、ステップS101において、オーディオ信号は、オーディオ信号を処理するための生成器に入力される。オーディオ信号は、モノ・チャネル信号であってもよいし或いはマルチ・チャネル信号であってもよい。実施形態では、オーディオ信号は、オーディオ信号を含むビットストリームとして受信されてもよい。換言すれば、実施形態では、方法はオーディオ信号を含む音声ビットストリームを受信することを更に含むことが可能である。ビットストリームに含まれるオーディオ信号は、コーディングされたオーディオ信号であってもよい。実施形態では、方法は、オーディオ信号を得るためにオーディオ・ビットストリームをコア・デコードすることを更に含んでもよい。適用されるコーデックは限定されず、例えば、HE-AACやUSAC(i.e. xHE-AAC)のようなAACファミリのコーデックが適用されてもよい。
ステップS102において、オーディオ信号の時間セグメントは、生成器のエンコーダ・ステージを利用して潜在特徴空間表現にマッピングされる。潜在特徴空間表現は、チャネルと時間に関する2次元表現を表す。「チャネル」という用語は、特徴マップを指す場合もあるが、畳み込みフィルタリング処理の出力を指す場合もあることに留意を要する。従って、任意のタイプのコーデックがオーディオ信号に適用される可能性があり、オーディオ信号は任意のタイプの内容(例えば、スピーチ、音楽、拍手など)を含む可能性がある。
ステップS103において、時間及びチャネルの再帰性が潜在特徴空間表現に適用されて、修正された潜在特徴空間表現を取得する。時間及びチャネルの再帰性を潜在特徴空間表現に適用することにより、特定の調和相関又は類似性が、オーディオ信号-特に音楽-のスペクトログラムにおいて、周波数及び時間軸に沿って観測できるということが活用され、それはチャネル及び時間の次元に沿って潜在特徴空間表現にも反映される。従って、時間-チャネルの再帰性は、時間及びチャネルの依存性の両方を捕らえている。従って、「修正された(modified)」 という用語は、時間及びチャネルの再帰性を適用することによって修正された潜在特徴空間表現を指す。
ステップS104において、生成器のデコーダ・ステージからの出力として、処理されたオーディオ信号が、修正された潜在特徴空間表現に基づいて取得される。更に、特に、ステップS101で生成器に入力されたオーディオ信号がトーナルな内容を含む場合、上述したように、デコーダ・ステージの少なくとも1つの層は、正弦波活性化を適用する可能性がある。
実施形態では、上記の方法ステップは、知覚的に重みづけされたドメインで実行される可能性がある。知覚的に重みづけされたドメインの例は、2020年10月15日付で出願された「ニューラル・ネットワークを使用したオーディオ処理のための方法及び装置」と題する米国仮出願第63/092,118号に記載されており、その全体が参照により本件に援用されている。
この場合、知覚的に重み付けされたオーディオ信号は、ステップS101における生成器に入力されることが可能である。知覚的に重み付けされたオーディオ信号は、心理音響モデルに基づいて推定されたマスキング閾値を示すマスク又はマスキング曲線を適用することによって、オリジナル信号ドメイン(即ち、オーディオ信号が受信される信号ドメイン)から、知覚的に重み付けされたドメインへ、受信オーディオ信号を変換することによって取得されてもよい。マスク又はマスキング曲線は、所与の刺激信号に対して人間の聴覚系が検出できる丁度可知歪(just noticeable distortion,JND)のレベルを定める。従って、知覚的に重み付けされたドメインで方法を実行することは、ホワイト・ノイズ(スペクトル的にフラットなノイズ)を知覚的なドメインのオーディオ信号に追加することによる聴覚的な影響を最小化し、なぜなら、オーディオ信号がオリジナル信号ドメインへ変換されて戻る場合に、ノイズは聴覚的に最小限になるように整形されることになるからである。
ディープ・ラーニング・ベースの生成器を使用してオーディオ信号を処理する別の方法の例を示す図9の例を参照すると、ステップS204において、知覚的に重み付けされたドメインにおいて、処理されたオーディオ信号が、次いで、生成器のデコーダ・ステージからの出力として取得されることが可能である。また、この場合、デコーダ・ステージの少なくとも1つの層が、前述したような正弦波活性化を適用してもよい。例えば、知覚的に重み付けされたドメインにおける処理されたオーディオ信号は、図8に示されるようにして取得されてもよい。この場合、方法は更に、処理されたオーディオ信号を、知覚的に重み付けされたドメインからオリジナル信号ドメインへ変換するステップS205を更に含むことが可能である。「オリジナル信号ドメイン」という表現は、オーディオ信号を知覚的に重み付けされたドメインへ変換する前のオーディオ信号のドメイン、あるいは換言すれば、オーディオ信号が受信/取得された信号ドメインを指す。実施形態では、処理されたオーディオ信号を、知覚的に重み付けされたドメインからオリジナル信号ドメインへ変換することは、インバース・マスクを、知覚的に重み付けされたドメインにおける処理されたオーディオ信号に適用することに基づいていてもよく、インバース・マスクは心理音響モデルに基づいて算出されている。インバース・マスクは、例えば、オーディオ信号を、オリジナル信号ドメインから知覚的に重み付けされたドメインへ変換するために適用されるマスク又はマスキング曲線のインバースであってもよい。代替的又は追加的に、実施形態では、処理されたオーディオ信号を、知覚的に重み付けされたドメインからオリジナル信号ドメインへ変換するために適用されるマスク(又はマスキング曲線)を示すメタデータが、受信されたビットストリームに更に含まれてもよい。
上記の方法は、例えばデコーダのようなそれぞれの装置で実装されてもよい。処理されたオーディオ信号を生成するための装置は、ディープ・ラーニング・ベースの生成器を含み、生成器は、エンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、エンコーダ・ステージの最終層は、チャネル次元と時間次元に沿う複数の要素を含む潜在特徴空間表現へのマッピングを行う。生成器は:(a)入力オーディオ信号を処理し;(b)エンコーダ・ステージを使用して、オーディオ信号の時間セグメントを潜在特徴空間表現にマッピングし;(c)時間及びチャネルの再帰性を潜在特徴空間表現に適用して、修正された潜在特徴空間表現を取得し;且つ(d)修正された潜在特徴空間表現に基づいて、処理されたオーディオ信号をデコーダ・ステージから出力するように構成されている。
実施形態では、装置は、オーディオ信号を含むオーディオ・ビットストリームを受信するための受信機を更に含むことが可能である。実施形態では、装置は、オーディオ信号を得るために、音声ビットストリームをコア・デコードするためのコア・デコーダを更に含むことが可能である。実施形態では、装置は、知覚的に重み付けされたドメインにおいて、処理されたオーディオ信号を生成するように構成されることが可能である。実施形態では、装置は更に、オーディオ・ビットストリームを非多重化するためのデマルチプレクサを更に含み、この場合において、オーディオ・ビットストリームは、処理されたオーディオ信号を、知覚的に重み付けされたドメインからオリジナル信号ドメインへ変換するために適用されるマスクを示すメタデータを含むことが可能である。
代替的又は追加的に、上記の方法は、当該方法をデバイスに実行させるように適合させた命令を備えるコンピュータ読み取り可能な記憶媒体を含むそれぞれのコンピュータ・プログラム製品において実施されてもよい。
代替的又は追加的に、上記の方法は、オーディオ信号を生成し、オーディオ信号をオーディオ・ビットストリームにエンコードする装置と、上記の装置とを含むシステムによっても実施されてもよい。
リカレント・ユニットを含む生成器のアーキテクチャ
図10の例をここで参照すると、生成器のアーキテクチャが概略的に示されている。生成器100は、エンコーダ・ステージ101とデコーダ・ステージ102を含む。生成器100のエンコーダ・ステージ101とデコーダ・ステージ102は、全層畳み込みであってもよい。デコーダ・ステージ102は、エンコーダ・ステージ101を鏡映しにしたものであってもよい。エンコーダ・ステージ101及びデコーダ・ステージ102は、それぞれ複数の層101a,101b,101c,102a,102b,102cを含むことが可能であり、各層には1つ以上のフィルタが含まれている。即ち、エンコーダ・ステージ101とデコーダ・ステージ102はそれぞれL個の層を含むことが可能であり、L個の各層にN個のフィルタを備えている。Lは1以上の自然数であってもよく、Nは1以上の自然数であってもよい。N個のフィルタのサイズ(カーネル・サイズとも呼ばれる)は限定されないが、しかしながら、フィルタ・サイズはL個の層のそれぞれで同じであってもよく、例えば、フィルタ・サイズは31であってもよい。各層でフィルタの数は増加してもよい。各フィルタは、例えば2というストライドで生成器の各層に入力されたオーディオ信号に対して作用することが可能である。従って、2の因子で学習可能なダウン・サンプリングがエンコーダ層で実行されてもよく、2の因子で学習可能なアップ・サンプリングがデコーダ層で実行されてもよい。換言すれば、生成器のエンコーダ・ステージ101は、2というストライドを用いる複数の1D畳み込み層(バイアス項なし)を含むことが可能であり、生成器のデコーダ・ステージ102は、2というストライドで複数の1D転置畳み込み層(バイアス項なし)を含むことが可能である。
実施形態では、エンコーダ・ステージ101の少なくとも1つの層及びデコーダ・ステージ102の少なくとも1つの層において、パラメトリック正規化線型ユニット(PReLU),正規化線型ユニット(ReLU),リーキー正規化線型ユニット(LReLU),指数線型ユニット(eLU),及びスケーリングされた指数線型ユニット(SeLU)の1つ以上を含む活性化として、非線型演算が実行されてもよい。図3の例では、非線型演算はPReLUに基づいている。正弦波活性化を適用される場合、デコーダ・ステージ102の少なくとも1つの層における活性化は、正弦波活性化関数によって実装されてもよく、この場合において、デコーダ・ステージ102の残りの層における活性化は説明されているまま残る。一部の実装では、出力層を除いて、デコーダ・ステージの全ての層について正弦波活性化が適用されてもよいことに留意を要する。
生成器100は、実施形態では、デコーダ・ステージ102の最終層102aに続く出力層として、非ストライド(ストライド=1)転置畳み込み層を更に含むことが可能である。出力層は、例えばモノラル・オーディオ信号の場合はN=1のフィルタを含み、例えばマルチ・チャネル・オーディオ信号の例としてステレオ・オーディオ信号の場合はN=2のフィルタを含むことが可能である。フィルタ・サイズは31であってもよい。出力層において、活性化は、少なくとも1つのエンコーダ層と少なくとも1つのデコーダ層で実行される活性化と相違していてもよい。活性化は例えばtanh演算に基づいていてもよい。
図10の例に示されているように、実施形態では、生成器100のエンコーダ・ステージ101及びデコーダ・ステージ102のそれぞれの対応する層の間に、1つ以上のスキップ接続106が存在してもよい。この場合、修正された潜在特徴空間表現c*,104は、情報の損失を防ぐためにバイパスされることが可能である。スキップ接続106は、連結及び信号加算のうちの1つ以上を用いて実装されてもよい。スキップ接続106の実装に起因して、フィルタ出力の数は「事実上」2倍になる可能性がある。修正された潜在特徴空間表現c*,104は、時間及びチャネルの再帰性103を、エンコーダ・ステージ101の最終層101cによって得られる潜在特徴空間表現に適用し、その潜在特徴空間表現に対してマッピングを行うことによって取得される。
図11の例では、潜在特徴空間表現が概略的に示されている。潜在特徴空間表現は、チャネル次元に沿うc1ないしcN,201a,201b,201c及び時間次元に沿うt1ないしtT,202a,202b,202cの複数の要素を含み、これらはチャネル201及び時間202の観点からの2次元特徴空間を表す。
例えば、生成器のエンコーダ・ステージが、前述のようにカーネル・サイズが31でストライドが2の1D畳み込み層を6つ含み、64,64,128,128,256,256のフィルタ数である場合、潜在特徴空間での時間次元は16384/2^6=256サンプルであり、ここで、16384は生成器に供給されるサンプル数であり、即ち潜在特徴空間の次元は256チャネル(N)x256時間(T)である。実験結果に基づいて、時間及びチャネルの再帰性を適用する前に、潜在特徴空間表現の次元を256x256に設定することは、最良の結果をもたらす可能性がある。
図10の例を再び参照すると、実施形態では、生成器100は、時間及びチャネルの再帰性を潜在特徴空間表現に適用して、修正された潜在特徴空間表現c*,104を得るために、エンコーダ・ステージ101の最終層101cの後に、リカレント・ユニット103を更に含むことが可能である。リカレント・ユニット103は以下で更に詳細に説明される。実施形態では、ランダム・ノイズ・ベクトルz,105が、オーディオを修正するために、修正された潜在特徴空間表現c*,104に更に適用されることが可能である。
図12の例をここで参照して、リカレント・ユニットをより詳細に説明する。前述したように、生成器は、時間及びチャネルの再帰性を潜在特徴空間表現に適用して、修正された潜在特徴空間表現を取得するために、エンコーダ・ステージの最終層の後にリカレント・ユニットを含むことが可能である。実施形態では、リカレント・ユニットは、時間リカレント・ニューラル・ネットワーク204の1つ以上のインスタンスと、チャネル・リカレント・ニューラル・ネットワーク203の1つ以上のインスタンス203とを含むことが可能である。実施形態では、時間リカレント・ニューラル・ネットワーク204の1つ以上のインスタンスのそれぞれは、時間次元に沿って潜在特徴空間表現に含まれる複数の要素t1ないしtT,202a,202b,202cのうちの一連の要素t1,202aを処理することが可能であり、また、チャネル・リカレント・ニューラル・ネットワーク203の1つ以上のインスタンスのそれぞれは、チャネル次元に沿って潜在特徴空間表現に含まれる複数の要素c1ないしcN,201a,201b,201cのうちの一連の要素c1,201aを処理することが可能である。実施形態では、時間リカレント・ニューラル・ネットワーク204とチャネル・リカレント・ニューラル・ネットワーク203のそれぞれは、2つ以上のLRNN個の層,203a,203b,204a,204b,及びM個の隠れ活性化を含み、Mは自然数≧1であるとすることが可能である。例えば、各々のリカレント・ニューラル・ネットワークは、LRNN=2個の層及びM=256個の隠れ活性化(ユニット)を含むことが可能である。
図13の例をここで参照すると、実施形態では、時間リカレント・ニューラル・ネットワークの1つ以上のインスタンス204,206の出力と、チャネル・リカレント・ニューラル・ネットワークの1つ以上のインスタンス203,205の出力とは、チャネル次元に沿って連結され(209)、その後に、線型層210を使用して、修正された潜在特徴空間表現にマッピングされることが可能である。連結209の前に、実施形態では、時間リカレント・ニューラル・ネットワークの1つ以上のインスタンス204,206の出力はスタックされてもよく(208)、チャネル・リカレント・ニューラルネットワークの1つ以上のインスタンス203,205の出力は、転置されてスタックされてもよい(207)。この場合、線型層210の最終出力は、時間及びチャネルの再帰性の適用前の潜在特徴空間表現と同じ次元である。
潜在特徴空間表現(例えば、スペクトログラム表現)におけるオーディオは、時間及びチャネルの両方の次元にわたる動態(dynamics)を有する。修正された潜在特徴空間表現を得るために、潜在特徴空間表現における2次元に対して適用されるリカレント・ニューラル・ネットワーク(RNN)は、2次元にわたる動態を明示的にモデル化することに役立つ。その結果、モデル(生成器)の「パラメータ効率」はより良いものとなる(即ち、より少ない数のパラメータで、信号をモデル化することができる)。
RNNが存在しない場合、即ち、畳み込み層のみが存在する場合(修正されていない潜在特徴空間表現の場合)、畳み込みフィルタは、時間次元のみを横断して動作する。従って、チャネル次元に沿ってある程度のモデリング機能を実現するには、モデルはより深層化されることを必要とするであろうし、及び/又はフィルタの数が増やされることを必要とするであろう。その方法は、スピーチや拍手のような非常に特定のクラスの信号に対しては機能するかもしれないが、音楽のような多様な信号に対しては、その方法は効果的ではなく、即ちそのモデルは良く機能しない。
リカレント・ニューラル・ネットワークは実施形態において限定されないが、リカレント・ニューラル・ネットワークは、長短期メモリ又はゲート付きリカレント・ユニットであってもよい。
例えば、長短期メモリ(long short-term memories,LSTM)が使用される場合、実装は次のようなものであってもよい:
・次に、C-LSTMの出力はトランスポーズされ、その結果、次元はT-LSTMの出力と同じになる。
・次に、2つの出力は、チャネル次元に沿って連結される(チャネルは2倍になる)。
・最終的に、連結されたデータは、チャネル数を減らす線型層に入力される(出力次元は、潜在特徴空間表現の次元と同じになる)。
LSTMの場合、上記で使用されているLRNN個の層という用語は、LSTMの状況で知られているモジュールという用語と可換に使用されてもよい。更に、インスタンスという用語は、潜在特徴空間表現に含まれる複数の要素の同じ一連の要素を処理する全てのLSTMモジュール、例えば、一連の要素c1を処理する全てのチャネルLSTMモジュールを含む可能性がある。
識別器のアーキテクチャ
識別器のアーキテクチャは、リカレント・ユニットに至るまでの生成器のエンコーダ・ステージと同じ構造を有することが可能である。換言すれば、識別器のアーキテクチャは、リカレント・ユニットに至るまでの生成器のエンコーダ・ステージの構造を鏡映しにしていてもよい。即ち、識別器は、各層に1つ以上のフィルタを備える複数の層を含むことが可能である。即ち、識別器は、L個の層を含むことが可能であり、L個の各層にN個のフィルタを備えている。Lは1以上の自然数であってもよく、Nは1以上の自然数であってもよい。N個のフィルタのサイズ(カーネル・サイズとも呼ばれる)は限定されないが、しかしながら、フィルタ・サイズはL個の層のそれぞれで同じであってもよく、例えば、フィルタ・サイズは31であってもよい。各層でフィルタの数は増加してもよい。各フィルタは、例えば2というストライドで識別器の各層に入力されたオーディオ信号に対して作用することが可能である。換言すれば、識別器は、2というストライドを用いる複数の1D畳み込み層(バイアス項なし)を含むことが可能である。識別器の少なくとも1つの層で実行される非線形処理は、LReLUを含むことが可能である。識別器は、先頭に付加する入力層を含むことが可能である。入力層は非ストライド畳み込み層(ストライド=1は非ストライドを意味する)であってもよい。識別器は更に出力層を含むことが可能である。出力層は、1というフィルタ・サイズを有するN=1のフィルタを有する可能性がある(識別器は本物/偽物の1つの判断を行う)。この場合、出力層のフィルタ・サイズは、識別器の層のフィルタ・サイズと異なる可能性がある。従って、出力層は、隠れ活性化をダウン・サンプリングしない1次元(1D)畳み込み層であってもよい。これは、出力層のフィルタが1のストライド1で動作する一方で、識別器の先行する全ての層が2のストライドを使用する可能性があることを意味する。出力層の活性化は、少なくとも1つの識別器層の活性化と異なっていてもよい。活性化はシグモイドであってもよい。しかしながら、最小二乗訓練法が使用される場合、シグモイド活性化は必要とされない可能性があり、従ってオプションである。
敵対的生成ネットワーク(GAN)設定において生成器を訓練する別の方法
実施形態では、生成器は、敵対的生成ネットワークの設定(GAN設定)において訓練された生成器であってもよい。GANの設定は、一般に、反復プロセスによって訓練される生成器Gと識別器Dを含む。敵対的生成ネットワークの設定における訓練中に、生成器Gは、時間及びチャネルの再帰性をオーディオ訓練信号の潜在特徴空間表現に適用して、処理されたオーディオ訓練信号が生成される基礎となる修正された潜在特徴空間表現を取得することによって、処理されたオーディオ訓練信号x*を生成する。更に、処理されたオーディオ訓練信号x*を生成するために、生成器の少なくとも1つのデコーダ層によって、正弦波活性化が適用されてもよい。これは、オーディオ訓練信号がトーナルな内容を含む場合に特に有利である。オーディオ訓練信号は、それぞれコード化及びデコード化されるオリジナル・オーディオ信号xから導出されることが可能である。実施形態では、ランダム・ノイズ・ベクトルが、修正された潜在特徴空間表現に適用されてもよい。しかしながら、ランダム・ノイズ・ベクトルはz=0に設定されてもよい。コーディング・アーティファクト削減の場合、ランダム・ノイズ・ベクトルをz=0に設定することは、最良の結果をもたらす可能性がある。代替的に、ランダム・ノイズ・ベクトルzを入力せずに、訓練が実行されてもよい。
生成器Gは、オリジナル・オーディオ信号xと区別できない、処理された音声訓練信号x*を出力することを試みる。識別器Dは、生成された処理されたオーディオ訓練信号x*とオリジナル・オーディオ信号xを一度に1つの供給を受け、入力信号が、処理されたオーディオ訓練信号x*であるか又はオリジナル・オーディオ信号xであるかを、偽物/本物で判定する。このとき、識別器Dは、オリジナル・オーディオ信号xを、処理されたオーディオ訓練信号x*から区別しようとする。反復プロセスの間、生成器Gは、オリジナル・オーディオ信号xと比較して益々良く処理されたオーディオ訓練信号x*を生成するようにパラメータを調整し、また、識別器Dは、処理されたオーディオ訓練信号x*とオリジナル・オーディオ信号xの間でより良い判別を行うように学習する。この敵対的な学習プロセスは、次式(1)で記述することができる:

最終ステップで生成器Gを訓練するために、先ず識別器Dが訓練されてもよい、ということに留意を要する。識別器Dの訓練と更新は、オリジナル・オーディオ信号xに高いスコアを、処理されたオーディオ訓練信号x*に低いスコアを割り当てる確率を最大化することを含むことが可能である。識別器Dの訓練におけるゴールは、オリジナル・オーディオ信号(コード化されていないもの)が本物として認識される一方で、処理されたオーディオ訓練信号x*(生成されたもの)が偽物として認識されることである、とすることが可能である。識別器Dが訓練され更新される間、生成器Gのパラメータは固定されたままであってもよい。
次いで、生成器Gの訓練と更新は、オリジナル・オーディオ信号xと生成された処理されたオーディオ訓練信号x*との間の差を最小化することを含むことが可能である。生成器Gの訓練におけるゴールは、識別器Dが、生成された処理されたオーディオ訓練信号x*を本物として認識することを達成することである、とすることが可能である。
実施形態では、生成器の訓練は知覚的に重み付けされたドメインで実行されてもよい。生成器は、上記のような敵対的生成ネットワークの設定において、知覚的に重み付けされたドメインで訓練されてもよい。この場合、知覚的に重み付けされたドメインのオーディオ訓練信号が、処理のために生成器に入力されてもよい。知覚的に重み付けされたオーディオ訓練信号は、コーディング及びデコーディングの前に、オリジナル・オーディオ信号を知覚的に重み付けされたドメインへ追加的に変換することによって、オリジナル・オーディオ信号から導出されてもよい。オリジナル・オーディオ信号の知覚的に重み付けされたドメインへの変換は、心理音響モデルに基づいて推定されるマスキング閾値を示すマスキング曲線又はマスクを適用することによって行われてもよい。何れの場合も、生成器の訓練が知覚的に重み付けされたドメインで実行される場合、生成器は知覚的に重み付けされたドメインにおいて、処理されたオーディオ訓練信号を生成し、識別器は、知覚的に重み付けされたドメインにおけるオリジナル・オーディオ信号と知覚的に重み付けされたドメインにおける処理されたオーディオ訓練信号との間で識別を行う。
図14と図15の例を参照すると、知覚的に重み付けされたドメインでの敵対的生成ネットワーク(GAN)の設定における生成器を訓練する方法と識別器を訓練する方法とが例示されている。ここで、図14の例を参照すると、生成器G,300の訓練は次のものを含む可能性がある。知覚的に重み付けされたオーディオ訓練信号x~,307及びオプションとしてランダム・ノイズ・ベクトルz,310は、生成器G,300に入力されることが可能である。実施形態では、ランダム・ノイズ・ベクトルzはz=0に設定されてもよい。代替的に、訓練はランダム・ノイズ・ベクトルzの入力無しに実行されてもよい。
知覚的に重み付けされたオーディオ訓練信号x~,307は、知覚的に重み付けされたオリジナル・オーディオ信号x,308をコーディング及びデコーディングすることによって導出されることが可能であり、知覚的に重み付けされたオリジナル・オーディオ信号x,308は、マスク又はマスキング曲線P,311を、オリジナル・オーディオ信号xip,311に適用することによって導出され、マスクマスキング曲線は、心理音響モデルから導出されたるマスキング閾値を示す。
入力に基づいて、生成器G,300は、次いで、時間及びチャネルの再帰性を、知覚的に重み付けされたオーディオ訓練信号の潜在特徴空間表現に適用して、処理された知覚的に重み付けされたオーディオ訓練信号が以後に生成される基礎となる修正された潜在特徴空間表現を取得することによって、処理された知覚的に重み付けされたオーディオ訓練信号x*,306を生成する。生成器G,300の少なくとも1つのデコーダ層は、正弦波活性化を適用することが可能である。
一度に1つずつ、知覚的に重み付けされたオーディオ訓練信号x~,307が導出された元の知覚的に重み付けされたオリジナル・オーディオ信号x,308と、生成された処理された知覚的に重み付けされたオーディオ訓練信号x*,306とが、識別器D,301に入力される(305)。付加情報として、知覚的に重み付けされたオーディオ訓練信号x~,307も、その都度、識別器D,301に入力されることが可能である。次いで、識別器D,301は、入力データが、処理された知覚的に重み付けされたオーディオ訓練信号x*,306(偽物)であるか、又は知覚的に重み付けされたオリジナル・オーディオ信号x,308(本物)であるかを判別する。次のステップでは、識別器D,301が、知覚的に重み付けされた処理されたオーディオ訓練信号x*,306を、知覚的に重み付けされたオリジナル・オーディオ信号x,308からもはや区別できなくなるまで、生成器G,300のパラメータがチューニングされる。これは反復的なプロセス304で行うことが可能である。
実施形態では、識別器D,301による判別は、次式(2)に従って、1つ以上の知覚的に動機付けられた目的関数に基づいていてもよい:


式(2)の第1項から理解できるように、条件付き敵対的生成ネットワークの設定は、知覚的に重み付けされたオーディオ訓練信号x~を追加情報として識別器に入力することによって、適用されている。上記の式(2)の後ろの2つの項は、多重解像度STFT損失項と呼ばれる場合がある。多重解像度STFT損失は、異なるSTFTパラメータを使用する異なるSTFTベースの損失関数の合計であると言ってもよい。Lm sc(スペクトル収束損失)と Lm mag(対数スケールSTFTマグニチュード損失)は、それぞれFFTビン数∈{512,1024,2048},ホップサイズ∈{50,120,240},最終ウィンドウ長∈{240,600,1200}を用いてM個の異なる解像度でSTFTベースの損失を適用することが可能である。結果は、一般的なオーディオ(即ち、任意のコンテンツ・タイプ)を取り扱うために、多重解像度STFT損失項が品質改善をもたらすことを示していた。
式(2)の第2項は、因子λによってスケーリングされた1-ノルム距離である。ラムダの値は、生成器に入力される信号長及び/又はアプリケーションに依存して、10ないし100の中から選択することが可能である。例えば、ラムダはλ=100であるように選択されてもよい。更に、多重解像度STFT損失項のスケーリング(λとθ)は、ラムダと同じ値に設定されてもよい。
図15の例をここで参照すると、識別器D,301の訓練は、発生器G,300の訓練について前述したのと同じ一般的なプロセスに従ってもよいが、但しその場合、生成器G,300のパラメータは固定される可能性がある一方(太線で示されている)、識別器D,301のパラメータは変化させられる可能性がある。識別器D,301の訓練は、次式(3)によって記述することが可能であり、これは、識別器D,301が、処理された知覚的に重み付けされたオーディオ訓練信号x*,306を偽物として判別することを可能にする:

上記のケースでは、知覚的に重み付けされたオーディオ訓練信号x~を追加情報として識別器に入力することによって、最小二乗(LS)アプローチと条件付き敵対的生成ネットワーク設定とが適用されている。
最小二乗法と並んで、他の訓練方法もまた、敵対的生成ネットワークの設定における生成器と識別器を訓練するために使用されてもよい。本開示は、特定の訓練方法に限定されない。代替的又は追加的に、所謂ワッサースタイン・アプローチが使用されてもよい。この場合、最小二乗距離の代わりに、ワッサースタイン距離としても知られているアース・ムーバー距離が使用される可能性がある。一般に、様々な訓練方法が、生成器と識別器の訓練をより安定化させている。しかしながら、適用される訓練方法の種類は、本件で詳細に説明される生成器のアーキテクチャに影響を及ぼさない。
解 釈
特に言及されていない限り、以下の議論から明らかなように、本開示を通じて、「処理する」、「演算する」、「決定する」、「分析する」等のような用語を使用する議論は、コンピュータ若しくは演算システム又は同様な電子演算デバイスの動作及び/又はプロセスであって、電子的なものように物理的な量として表されるデータを、同様に物理的な量として表される他のデータに操作及び/又は変換するものを指していることが認められる。
同様な方法で、「プロセッサ」という用語は、例えばレジスタ及び/又はメモリからの電子データを処理して、その電子データを、例えばレジスタ及び/又はメモリに格納されることが可能な他の電子データに変換する何らかのデバイス又はデバイスの一部を指すことが可能である。「コンピュータ」、「演算マシン」又は「演算プラットフォーム」は、1つ以上のプロセッサを含むことが可能である。
本件で説明される方法論は、ある例示的な実施形態において、1つ以上のプロセッサによって実行されると、本件で説明されている方法の少なくとも1つを実行する命令セットを含むコンピュータ読み取り可能な(機械読み取り可能なとも呼ばれる)コードを受け入れる1つ以上のプロセッサによって実行可能である。実行すべき動作を指定する命令セット(シーケンシャルな又はそうではないもの)を実行することが可能な何らかのプロセッサが含まれる。従って、1つの例は、1つ以上のプロセッサを含む典型的な処理システムである。各プロセッサは、CPU、グラフィックス処理ユニット、及びプログラム可能なDSPユニットのうちの1つ以上を含むことが可能である。処理システムは、更に、メインRAM及び/又はスタティックRAM、及び/又はROMを含むメモリ・サブシステムを含むことが可能である。素子間の通信用にバス・サブシステムが含まれてもよい。処理システムは、更に、ネットワークによって結合されたプロセッサを備える分散型処理システムであってもよい。処理システムがディスプレイを必要とする場合、そのようなディスプレイ、例えば、液晶ディスプレイ(LCD)又は陰極線管(CRT)ディスプレイが含まれてもよい。手動でのデータ入力が要求される場合、処理システムはまた、キーボードのような英数字入力ユニット、マウスのようなポインティング制御デバイス等のうちの1つ以上のような入力デバイスも含む。処理システムは、ディスク・ドライブ・ユニットのようなストレージ・システムを含む場合がある。何らかの構成における処理システムは、サウンド出力デバイスとネットワーク・インターフェース・デバイスを含む場合がある。従って、メモリ・サブシステムは、1つ以上のプロセッサによって実行されると、本件で説明されている1つ以上の方法を実行させるための一連の命令を含むコンピュータ読み取り可能なコード(例えば、ソフトウェア)を運ぶコンピュータ読み取り可能なキャリア媒体を含む。方法が幾つかの要素、例えば、幾つかのステップを含む場合、特に言明されていない限り、そのような要素の順序が暗示されていることはない、ということに留意されたい。ソフトウェアは、ハード・ディスク内に存在していてもよいし、或いは、コンピュータ・システムによるそれらの実行中にRAM内及び/又はプロセッサ内に、完全に又は少なくとも部分的に存在していてもよい。従って、メモリとプロセッサは、コンピュータ読み取り可能なコードを運ぶコンピュータ読み取り可能なキャリア媒体も構成している。更に、コンピュータ読み取り可能なキャリア媒体が形成されてもよいし、或いはコンピュータ・プログラム製品に含まれていてもよい。
代替的な例示的な実施形態では、1つ以上のプロセッサは、スタンドアロン・デバイスとして動作してもよいし、或いはネットワーク化された配置の中で接続され、例えば他のプロセッサにネットワーク接続されていてもよいし、1つ以上のプロセッサは、サーバー・ユーザー・ネットワーク環境におけるサーバー又はユーザー・マシンのキャパシティ内で、又はピア・ツー・ピア若しくは分散ネットワーク環境におけるピア・マシンとして動作することが可能である。1つ以上のプロセッサは、パーソナル・コンピュータ(PC)、タブレットPC、パーソナル・デジタル・アシスタント(PDA)、セルラー電話、ウェブ・アプライアンス、ネットワーク・ルーター、スイッチ又はブリッジ、又は何らかのマシンであって、そのマシンによって実行される動作を指定する一連の命令(シーケンシャル又はそうでないもの)を実行することが可能なものを形成することが可能である。
「マシン」という用語は、本件で議論されている方法論の何れか1つ又はそれ以上を実行するための命令セット(又は複数のセット)を個別に又は共同で実行するマシンの任意の集合も含むものとする、ということに留意されたい。
従って、本件で説明される各方法の一例の実施形態は、一組の命令、例えば、1つ以上のプロセッサ(例えば、ウェブ・サーバー配置の一部である1つ以上のプロセッサ)で実行するためのコンピュータ・プログラム、を運ぶコンピュータ読み取り可能なキャリア媒体の形式におけるものである。従って、当業者に理解されるように、本開示の例示的な実施形態は、方法、特別目的装置のような装置、データ処理システムのような装置、又は、コンピュータ読み取り可能なキャリア媒体、例えば、コンピュータ・プログラム製品として具現化される可能性がある。コンピュータ読み取り可能なキャリア媒体は、1つ以上のプロセッサ上で実行されると、1つ以上のプロセッサに方法を実行させる一連の命令を含むコンピュータ読み取り可能なコードを搬送する。従って、本開示の態様は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、又は、ソフトウェアとハードウェアの態様を組み合わせた例示的な実施形態の形式をとることが可能である。更に、本開示は、媒体に組み込まれたコンピュータ読み取り可能なプログラム・コードを運ぶキャリア媒体(例えば、コンピュータ読み取り可能な記憶媒体におけるコンピュータ・プログラム製品)の形式をとることが可能である。
ソフトウェアは、ネットワーク・インターフェース・デバイスによりネットワークを介して更に送信又は受信される可能性がある。キャリア媒体は、例示的な実施形態では単一の媒体であるが、「キャリア媒体」という用語は、1つ以上の命令セットを記憶する単一の媒体又は複数の媒体(例えば、集中型又は分散型データベース、及び/又は関連するキャッシュ及びサーバー)を含むように考えられるべきである。「キャリア媒体」という用語はまた、1つ以上のプロセッサによる実行のための命令セットを記憶、エンコード又は搬送することが可能であり且つ本開示の方法論の内の任意の1つ以上を1つ以上のプロセッサに実行させる任意の媒体を含むものとする。キャリア媒体は、不揮発性媒体、揮発性媒体、伝送媒体を含むがこれらに限定されない多くの形態をとることが可能である。不揮発性媒体は、例えば、光ディスク、磁気ディスク、光磁気ディスクを含む。揮発性媒体は、メイン・メモリのようなダイナミック・メモリを含む。伝送媒体は、バス・サブシステムを構成する配線を含む同軸ケーブル、銅線及び光ファイバーを含む。伝送媒体は、電波及び赤外線データの通信中に発生するような音波又は光波の形をとる場合もある。例えば、「キャリア媒体」という用語は、相応に、光学的及び磁気的媒体に組み込まれたコンピュータ製品、ソリッド・ステート・メモリを含むが、これらに限定されないものとし;媒体は、少なくとも1つのプロセッサ又は1つ以上のプロセッサによって検出可能な伝播される信号を運ぶものであって、実行されると方法を実現する一連の命令を表現するものであり;また、ネットワークにおける伝送媒体は、1つ以上のプロセッサのうちの少なくとも1つのプロセッサによって検出可能な伝播される信号を運ぶものであって一連の命令を表現するものである。
説明されている方法のステップは、ストレージに記憶された命令(コンピュータが読み取ることが可能なコード)を実行する処理を行う(例えば、コンピュータ)システムの適切なプロセッサ(又は複数のプロセッサ)によって、ある例示的な実施形態で実行されることが理解されるであろう。また、開示は何らかの特定の実装又はプログラミング技術に限定されないこと、及び、開示は本件で説明されている機能を実装するための適切な任意の技術を使用して実装されてもよいことも理解されるであろう。開示は何らかの特定のプログラミング言語やオペレーティング・システムに限定されない。
本開示全体を通じて「ある実施形態」、「幾つかの実施形態」又は「例示的な実施形態」に関する言及は、その実施形態に関連して説明される特定の特徴、構造又は特性が、本開示の少なくとも1つの実施形態に含まれていることを意味する。従って、本開示全体を通して様々な箇所における「ある実施形態において」、「幾つかの実施形態において」又は「例示的な実施形態において」という語句の出現は、必ずしも全てが同じ例示的な実施形態を指しているとは限らない。更に、1つ以上の例示的な実施形態において、本開示から当業者にとって明らかであるように、特定の特徴、構造又は特性は適切な任意の方法で組み合わせられてもよい。
本件で使用されているように、特に明記されていない限り、共通の対象を記述するための序数形容詞「第1」,「第2」,「第3」などの使用は、類似の対象の異なるインスタンスが参照されていることを単に示しているに過ぎず、そのように記述された対象が、時間的に、空間的に、所与の順序、ランキング、又は何らかのその他の方法になければならないように意図されてはいない。
以下のクレーム及び本件の説明において、含んでいる(comprising)、から構成される(comprised of)、又は含むもの(which comprises)のうちの何れの用語も、それにつながる要素/特徴を少なくとも含むが、他を除外していないことを意味するオープンな用語である。従って、含んでいるという用語は、クレームで使用される場合、その後に列挙される手段又は要素又はステップに限定されるように解釈されるべきではない。例えば、A及びBを含むデバイスという表現の範囲は、要素A及びBのみで構成されるデバイスに限定されるべきではない。本件で使用されるように、包含している(including)又は包含するもの(which includes)又は包含するもの(that includes)のうちの何れの用語も、それにつながる要素/特徴を少なくとも含むが、他を除外していないことを意味するオープンな用語である。従って、包含しているは、含んでいると同義であり、それを意味する。
開示の例示的な実施形態の上記の説明において、開示の様々な特徴は、開示を効率化し、1つ以上の様々な発明態様の理解を支援する目的で、単一の例示的な実施形態、図、又はその説明で一緒にまとめられることが間々ある、ということが認識されるべきである。しかしながら、この開示方法は、各クレームに明示的に記載されているよりも多くの特徴をクレームが要求している意図を反映しているものとして解釈されるべきではない。むしろ、以下のクレームが反映しているように、発明態様は、前述の単一の開示された例示的な実施形態の内の全ての特徴よりも少ないものの中にある。従って、明細書に続くクレームは、本件明細書に明示的に組み込まれており、各クレームは本開示の個々の例示的な実施形態として独立している。
更に、本件で説明される幾つかの例示的な実施形態は、他の例示的な実施形態に含まれる特徴の一部を含んで一部を含まないが、異なる例示的な実施形態の特徴の組み合わせは、当業者に理解されるように、開示の範囲内にあり且つ異なる例示的な実施形態を形成することを意味している。例えば、以下のクレームでは、何らかのクレームされる例示的な実施形態も、任意の組み合わせで使用されることが可能である。
本件で行われる説明では、多くの具体的な詳細が述べられている。しかしながら、開示の例示的な実施形態は、これらの具体的な詳細なしに実施されてもよいことが理解される。他の例では、本説明の理解を曖昧にしないように、周知の方法、構造及び技術は詳細には示されていない。
従って、開示のベスト・モードであると考えられるものが説明されているが、当業者は、開示の精神から逸脱することなく、他の更なる変形が施される可能性があることを認識するであろうし、また、そのような変更及び変形は全て開示の範囲内に該当するように要求されていることが意図されている。例えば、上記の何れの数式も、使用される可能性のある手順の単なる代表例であるに過ぎない。機能はブロック図に追加されたり又はそこから削除されたりしてもよく、動作は機能ブロック間で入れ替えられてもよい。ステップは本開示の範囲内で説明される方法に追加又は削除されてもよい。
以下、本開示の更なる詳細を、例示的に列挙される実施形態(enumerated example embodiments,EEE)であるEEEa及びEEEbの2つのセットによって非限定的な方法で説明する:
EEEa 1 ディープ・ラーニング・ベースの生成器を用いてオーディオ信号を処理する方法であって、前記生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、前記エンコーダ・ステージの最終層は、チャネル次元及び時間次元に沿う複数の要素を含む潜在特徴空間表現へのマッピングを行うものであり、前記方法は:
(a)前記オーディオ信号を処理するための前記生成器に前記オーディオ信号を入力するステップ;
(b)前記生成器の前記エンコーダ・ステージを利用して、前記オーディオ信号の時間セグメントを前記潜在特徴空間表現にマッピングするステップ;
(c)時間及びチャネルの再帰性を前記潜在特徴空間表現に適用して、修正された潜在特徴空間表現を取得するステップ;及び
(e)前記修正された潜在特徴空間表現に基づいて、処理されたオーディオ信号を、前記生成器の前記デコーダ・ステージからの出力として取得するステップを含む。
EEEa2 EEEa1に記載の方法において、前記方法は、前記オーディオ信号を含むオーディオ・ビットストリームを受信するステップを更に含む。
EEEa 3 EEEa2に記載の方法において、前記方法は、前記オーディオ・ビットストリームをコア・デコーディングして前記オーディオ信号を取得するステップを更に含む。
EEEa 4 EEEa1ないしEEEa3のうちの何れか1項に記載の方法において、前記方法は、知覚的に重み付けされたドメインにおいて実行され、ステップ(e)において、前記知覚的に重み付けされたドメインにおいて処理されたオーディオ信号が、前記生成器の前記デコーダ・ステージからの出力として取得される。
EEEa 5 EEEa4に記載の方法において、前記方法は、前記処理されたオーディオ信号を、前記知覚的に重み付けされたドメインから元の信号ドメインへ変換するステップを更に含む。
EEEa 6 EEEa5に記載の方法において、前記処理されたオーディオ信号を、前記知覚的に重み付けされたドメインから元の信号ドメインへ変換するステップは、前記知覚的に重み付けされたドメインにおける前記処理されたオーディオ信号に、インバース・マスクを適用することに基づいており、前記インバース・マスクは心理音響的モデルに基づいて算出されている。
EEEa7 EEEa6に記載の方法において、前記オーディオ・ビットストリームは、前記処理されたオーディオ信号を、前記知覚的に重み付けされたドメインから前記元の信号ドメインへ変換するために適用される前記マスクを示すメタデータを含む。
EEEa8 EEEa1ないしEEEa7のうちの何れか1項に記載の方法において、前記生成器は、前記知覚的に重み付けされたドメインで訓練された生成器である。
EEEa9 EEEa1ないしEEEa8のうちの何れか1項に記載の方法において、前記生成器は、敵対的生成ネットワークの設定で訓練された生成器である。
EEEa10 EEEa1ないしEEEa9のうちの何れか1項に記載の方法において、前記エンコーダ・ステージの少なくとも1つの層及び前記デコーダ・ステージの少なくとも1つの層において、ReLU,PReLU,LReLU,eLU及びSeLUのうちの1つ以上を含む非線型演算が実行される。
EEEa11 EEEa1ないしEEEa10のうちの何れか1項に記載の方法において、前記生成器は、前記デコーダ・ステージの最終層に続く出力層として、非ストライド転置畳み込み層を更に含む。
EEEa12 EEEa1ないしEEEa11のうちの何れか1項に記載の方法において、前記生成器の前記エンコーダ・ステージと前記デコーダ・ステージのそれぞれの対応する層の間に、1つ以上のスキップ接続が存在している。
EEEa13 EEEa1ないしEEEa12のうちの何れか1項に記載の方法において、前記生成器は、前記時間及びチャネルの再帰性を前記潜在特徴空間表現に適用するために、前記エンコーダ・ステージの最終層の後にリカレント・ユニットを更に含む。
EEEa14 EEEa13に記載の方法において、前記リカレント・ユニットは、時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスと、チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスとを含む。
EEEa15 EEEa14に記載の方法において、前記時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの各々は、前記時間次元に沿う前記潜在特徴空間表現に含まれる複数の要素のうちの一連の要素を処理し、前記チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの各々は、前記チャネル次元に沿う前記潜在特徴空間表現に含まれる複数の要素のうちの一連の要素を処理する。
EEEa16 EEEa14又はEEEa15に記載の方法において、前記時間リカレント・ニューラル・ネットワーク及び前記チャネル・リカレント・ニューラル・ネットワークはそれぞれ2つ以上のLRNN個の層とM個の隠れ活性化を含み、Mは1以上の自然数である。
EEEa17 EEEa14ないしEEEa16のうちの何れか1項に記載の方法において、前記時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力と前記チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力とは、前記チャネル次元に沿って連結され、その後に、線型層を用いて前記修正された潜在特徴空間表現にマッピングされる。
EEEa18 EEEa17に記載の方法において、連結の前に、前記時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力はスタックされ、前記チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上の出力は転置されてスタックされる。
EEEa19 EEEa14ないしEEEa18のうちの何れか1項に記載の方法において、前記リカレント・ニューラル・ネットワークは、長短期メモリ又はゲート付きリカレント・ユニットである。
EEEa20 EEEa1ないしEEEa19のうちの何れか1項に記載の方法において、ランダム・ノイズ・ベクトルzが、オーディオを修正するために前記修正された潜在特徴空間表現に適用される。
EEEa21 EEEa1ないしEEEa20のうちの何れか1項に記載の方法において、前記方法は、ステップ(a)の前に実行される以下のステップ:
(i)オーディオ訓練信号を前記生成器に入力するステップ;
(ii)時間及びチャネルの再帰性を前記オーディオ訓練信号の前記潜在特徴空間表現に適用して、処理されたオーディオ訓練信号が生成される基礎となる修正された潜在特徴空間表現を取得することにより、前記オーディオ訓練信号に基づいて、処理されたオーディオ訓練信号を、前記生成器が生成するステップ;
(iii)前記処理されたオーディオ訓練信号と、前記オーディオ訓練信号が導出される元の対応するオリジナル・オーディオ信号とを、識別器に1つずつ入力するステップ;
(iv)その入力されたオーディオ信号が前記処理されたオーディオ訓練信号であるか又は前記オリジナル・オーディオ信号であるかを前記識別器により判別するステップ;及び
(v)前記識別器が、前記処理されたオーディオ訓練信号を前記オリジナル・オーディオ信号からもはや識別できなくなるまで、前記生成器のパラメータを反復的にチューニングするステップを更に含む。
EEEa22 EEEa21に記載の方法において、ステップ(i)ないし(v)は知覚的に重み付けされたドメインで実行される。
EEEa23 生成器と識別器を含む敵対的生成ネットワーク(GAN)の設定における生成器を訓練する方法であって、前記生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、前記エンコーダ・ステージの最終層は、チャネル次元及び時間次元に沿う複数の要素を含む潜在特徴空間表現へのマッピングを行うものであり、前記方法は:
(a)オーディオ訓練信号を前記生成器に入力するステップ;
(b)時間及びチャネルの再帰性を前記オーディオ訓練信号の前記潜在特徴空間表現に適用して、処理されたオーディオ訓練信号が生成される基礎となる修正された潜在特徴空間表現を取得することにより、前記オーディオ訓練信号に基づいて、処理されたオーディオ訓練信号を、前記生成器が生成するステップ;
(c)前記処理されたオーディオ訓練信号と、前記オーディオ訓練信号が導出される元の対応するオリジナル・オーディオ信号とを、識別器に1つずつ入力するステップ;
(d)その入力されたオーディオ信号が前記処理されたオーディオ訓練信号であるか又は前記オリジナル・オーディオ信号であるかを前記識別器により判別するステップ;及び
(e)前記識別器が、前記処理されたオーディオ訓練信号を前記オリジナル・オーディオ信号からもはや識別できなくなるまで、前記生成器のパラメータを反復的にチューニングするステップを含む。
EEEa24 EEEa23に記載の方法において、ステップ(a)ないし(e)は知覚的に重み付けされたドメインで実行される。
EEEa25 EEEa23又はEEEa24に記載の方法において、前記エンコーダ・ステージの少なくとも1つの層及び前記デコーダ・ステージの少なくとも1つの層において、ReLU,PReLU,LReLU,eLU及びSeLUのうちの1つ以上を含む非線型演算が実行される。
EEEa26 EEEa23ないしEEEa25のうちの何れか1項に記載の方法において、前記生成器は、前記デコーダ・ステージの最終層に続く出力層として、非ストライド転置畳み込み層を更に含む。
EEEa27 EEEa23ないしEEEa26のうちの何れか1項に記載の方法において、前記生成器の前記エンコーダ・ステージと前記デコーダ・ステージのそれぞれの対応する層の間に、1つ以上のスキップ接続が存在している。
EEEa28 EEEa23ないしEEEa27のうちの何れか1項に記載の方法において、前記生成器は、前記時間及びチャネルの再帰性を前記潜在特徴空間表現に適用するために、前記エンコーダ・ステージの最終層の後にリカレント・ユニットを更に含む。
EEEa29 EEEa28に記載の方法において、前記リカレント・ユニットは、時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスと、チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスとを含む。
EEEa30 EEEa29に記載の方法において、前記時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの各々は、前記時間次元に沿う前記潜在特徴空間表現に含まれる複数の要素のうちの一連の要素を処理し、前記チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの各々は、前記チャネル次元に沿う前記潜在特徴空間表現に含まれる複数の要素のうちの一連の要素を処理する。
EEEa31 EEEa29又はEEEa30に記載の方法において、前記時間リカレント・ニューラル・ネットワーク及び前記チャネル・リカレント・ニューラル・ネットワークはそれぞれ2つ以上のLRNN個の層とM個の隠れ活性化を含み、Mは1以上の自然数である。
EEEa32 EEEa29ないしEEEa31のうちの何れか1項に記載の方法において、前記時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力と前記チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力とは、前記チャネル次元に沿って連結され、その後に、線型層を用いて前記修正された潜在特徴空間表現にマッピングされる。
EEEa33 EEEa32に記載の方法において、連結の前に、前記時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力はスタックされ、前記チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上の出力は転置されてスタックされる。
EEEa34 EEEa29ないしEEEa33のうちの何れか1項に記載の方法において、前記リカレント・ニューラル・ネットワークは、長短期メモリ又はゲート付きリカレント・ユニットである。
EEEa35 EEEa23ないしEEEa34のうちの何れか1項に記載の方法において、ランダム・ノイズ・ベクトルzが、オーディオを修正するために前記修正された潜在特徴空間表現に適用される。
EEEa36 処理されたオーディオ信号を生成する装置であって、前記装置はディープ・ラーニング・ベースの生成器を含み、前記生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、前記エンコーダ・ステージの最終層は、チャネル次元及び時間次元に沿う複数の要素を含む潜在特徴空間表現へのマッピングを行うものであり、前記生成器は:
(a)入力オーディオ信号を処理するステップ;
(b)前記エンコーダ・ステージを利用して、前記オーディオ信号の時間セグメントを前記潜在特徴空間表現にマッピングするステップ;
(c)時間及びチャネルの再帰性を前記潜在特徴空間表現に適用して、修正された潜在特徴空間表現を取得するステップ;及び
(d)前記修正された潜在特徴空間表現に基づいて、処理されたオーディオ信号を、前記デコーダ・ステージから出力するステップ;
を行うように構成されている。
EEEa37 EEEa36に記載の装置において、前記オーディオ信号を含むオーディオ・ビットストリームを受信する受信機を更に含む。
EEEa38 EEEa36又はEEEa37に記載の装置において、前記オーディオ・ビットストリームをコア・デコーディングして前記オーディオ信号を取得するコア・デコーダを更に含む。
EEEa39 EEEa36ないしEEEa38のうちの何れか1項に記載の装置において、前記装置は知覚的に重み付けされたドメインにおいて、前記処理されたオーディオ信号を生成するように構成されている。
EEEa40 EEEa39に記載の装置において、前記オーディオ・ビットストリームを非多重化するためのデマルチプレクサを更に含み、前記オーディオ・ビットストリームは、前記処理されたオーディオ信号を、前記知覚的に重み付けされたドメインから前記元の信号ドメインへ変換するために適用されるマスクを示すメタデータを含む。
EEEa41 処理能力を有するデバイスにより実行された場合に、EEEa1ないしEEEa22のうちの何れか1項に記載の方法を前記デバイスに実行させるように構成された命令を備えるコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム製品。
EEEa42 処理能力を有するデバイスにより実行された場合に、EEEa23ないしEEEa35のうちの何れか1項に記載の方法を前記デバイスに実行させるように構成された命令を備えるコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム製品。
EEEa43 処理されたオーディオ信号を生成する装置と生成器及び識別器を含む敵対的ネットワークとのシステムにおいて、前記システムは、EEEa1ないしEEEa35のうちの何れか1項に記載の方法を実行するように構成されている。
EEEa44 処理されたオーディオ信号を生成し、前記オーディオ信号をオーディオ・ビットストリームにおいてエンコードする装置と、EEEa36ないしEEEa40のうちの何れか1項に記載の処理されたオーディオ信号を生成する装置とのシステム。
EEEb1 ディープ・ラーニング・ベースの生成器を用いてオーディオ信号を処理する方法であって、前記生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に複数のフィルタを備える複数の層を含み、前記デコーダ・ステージの各層における前記複数のフィルタは、複数の特徴マップを生成するフィルタリング処理を実行し、エンコーダ・ステージの最終層は、潜在特徴空間表現へのマッピングを行うものであり、前記方法は:
(a)前記オーディオ信号を処理するための前記生成器に前記オーディオ信号を入力するステップ;
(b)前記生成器の前記エンコーダ・ステージを利用して、前記オーディオ信号の時間セグメントを前記潜在特徴空間表現にマッピングするステップ;
(c)前記生成器の前記デコーダ・ステージを利用して前記潜在特徴空間表現をアップサンプリングするステップであって、前記デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用するステップ;及び
(d)処理されたオーディオ信号を、前記生成器の前記デコーダ・ステージからの出力として取得するステップを含む。
EEEb2 EEEb1に記載の方法において、前記正弦波活性化は正弦波活性化関数により実装されており、前記正弦波活性化関数は少なくとも1つの訓練可能なパラメータを有する。
EEEb3 EEEb2に記載の方法において、前記正弦波活性化関数は、f(x)=x+(1/a)sin2(ax+φ)に対応するパラメトリックな二乗正弦波活性化関数である。
EEEb4 EEEb2又はEEEb3に記載の方法において、前記生成器は敵対的生成ネットワークの設定で訓練された生成器であり、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値は、前記敵対的生成ネットワーク(GAN)の設定における前記生成器を訓練することによって取得されたものである。
EEEb5 EEEb1ないしEEEb4のうちの何れか1項に記載の方法において、ステップ(c)において、前記デコーダ・ステージの少なくとも1つの層は、前記デコーダ・ステージの少なくとも1つの層で生成された前記複数の特徴マップの各々に個別的に前記正弦波活性化を適用する。
EEEb6 EEEb5に記載の方法において、ステップ(c)において、前記デコーダ・ステージの2つ以上の層は、前記デコーダ・ステージの2つ以上の層の各々で生成された前記複数の特徴マップの各々に個別的に前記正弦波活性化を適用する。
EEEb7 EEEb2ないしEEEb4のうちの何れか1項に従属する場合のEEEb5又はEEEb6に記載の方法において、前記少なくとも1つの層に対する前記正弦波活性化関数の前記少なくとも1つの訓練可能なパラメータの値は、非一様な分布によって表現され、前記非一様な分布の各々の値は、前記少なくとも1つの層で生成された前記複数の特徴マップのそれぞれについて個別的に取得された値に対応している。
EEEb8 EEEb7に記載の方法において、前記非一様な分布の形状は、前記オーディオ信号の内容及び/又はデコーダの層番号に依存している。
EEEb9 EEEb1ないしEEEb8のうちの何れか1項に記載の方法において、前記オーディオ信号はトーナルな内容(tonal content)を含む。
EEEb10 EEEb1ないしEEEb9のうちの何れか1項に記載の方法において、前記エンコーダ・ステージの少なくとも1つの層において、ReLU,PReLU,LReLU,eLU及びSeLUのうちの1つ以上を含む非線型演算が実行される。
EEEb11 EEEb1ないしEEEb10のうちの何れか1項に記載の方法において、前記生成器は、前記デコーダ・ステージの最終層に続く出力層として、非ストライド転置畳み込み層を更に含み、前記出力層はtanh活性化を適用する。
EEEb12 EEEb1ないしEEEb11のうちの何れか1項に記載の方法において、前記生成器の前記エンコーダ・ステージと前記デコーダ・ステージのそれぞれの対応する層の間に、1つ以上のスキップ接続が存在している。
EEEb13 EEEb1ないしEEEb12のうちの何れか1項に記載の方法において、ランダム・ノイズ・ベクトルzが、オーディオを修正するために前記潜在特徴空間表現に適用される。
EEEb14 EEEb1ないしEEEb13のうちの何れか1項に記載の方法において、前記方法は前記オーディオ信号を含むオーディオ・ビットストリームを受信するステップを更に含む。
EEEb15 EEEb14に記載の方法において、前記方法は、前記オーディオ信号を取得するために前記オーディオ・ビットストリームをコア・デコーディングするステップを更に含む。
EEEb16 EEEb1ないしEEEb15のうちの何れか1項に記載の方法において、前記方法は、ステップ(a)の前に実行される以下のステップ:
(i)オーディオ訓練信号を前記生成器に入力するステップ;
(ii)前記生成器の前記エンコーダ・ステージを利用して、前記オーディオ訓練信号の時間セグメントを前記潜在特徴空間表現にマッピングし、且つ、前記生成器のデコーダ・ステージを利用して、前記潜在特徴空間表現をアップサンプリングすることにより、前記オーディオ訓練信号に基づいて、処理されたオーディオ訓練信号を前記生成器により生成するステップであって、前記デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用する、ステップ;
(iii)前記処理されたオーディオ訓練信号と、前記オーディオ訓練信号が導出される元の対応するオリジナル・オーディオ信号とを、識別器に1つずつ入力するステップ;
(iv)その入力されたオーディオ信号が前記処理されたオーディオ訓練信号であるか又は前記オリジナル・オーディオ信号であるかを前記識別器により判別するステップ;及び
(v)前記識別器が、前記処理されたオーディオ訓練信号を前記オリジナル・オーディオ信号からもはや識別できなくなるまで、前記生成器のパラメータを反復的にチューニングするステップを更に含む。
EEEb17 EEEb16に記載の方法において、ステップ(v)における前記生成器のパラメータを反復的にチューニングするステップは、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含む。
EEEb18 EEEb17に記載の方法において、前記正弦波活性化関数は、f(x)=x+(1/a)sin2(ax+φ)に対応するパラメトリックな二乗正弦波活性化関数であり、ここで、aは前記少なくとも1つの訓練可能なパラメータである。
EEEb19 EEEb16ないしEEEb18のうちの何れか1項に記載の方法において、前記デコーダ・ステージの少なくとも1つの層は、前記デコーダ・ステージの少なくとも1つの層で生成された前記複数の特徴マップの各々に個別的に前記正弦波活性化を適用し、ステップ(v)における前記生成器のパラメータを反復的にチューニングするステップは、前記複数の特徴マップの各々に関し、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含む。
EEEb20 EEEb19に記載の方法において、前記デコーダ・ステージの2つ以上の層は、前記デコーダ・ステージの2つ以上の層で生成された前記複数の特徴マップの各々に個別的に前記正弦波活性化を適用し、ステップ(v)における前記生成器のパラメータを反復的にチューニングするステップは、前記複数の特徴マップの各々に関し、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含む。
EEEb21 EEEb16ないしEEEb20のうちの何れか1項に記載の方法において、前記オーディオ訓練信号はトーナルな内容を含む。
EEEb22 EEEb16ないしEEEb21のうちの何れか1項に記載の方法において、ステップ(i)は、更に、前記オーディオ訓練信号を入力する前に、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するために、ランダム初期化方法を適用するステップを含む。
EEEb23 EEEb16ないしEEEb21のうちの何れか1項に記載の方法において、ステップ(i)は、更に、前記オーディオ訓練信号を入力する前に、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するために、片側指数初期化方法を適用することを、前記少なくとも1つの層に対する前記正弦波活性化関数の訓練可能なパラメータの値の分布が、片側指数分布に実質的に対応するように行う、ステップを含む。
EEEb24 生成器と識別器を含む敵対的生成ネットワーク(GAN)の設定における生成器を訓練する方法であって、前記生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に複数のフィルタを備える複数の層を含み、前記デコーダ・ステージの各層における複数のフィルタは、複数の特徴マップを生成するフィルタリング処理を実行し、前記エンコーダ・ステージの最終層は、潜在特徴空間表現へのマッピングを行うものであり、前記方法は:
(a)オーディオ訓練信号を前記生成器に入力するステップ;
(b)前記生成器の前記エンコーダ・ステージを利用して、前記オーディオ訓練信号の時間セグメントを前記潜在特徴空間表現にマッピングし、且つ、前記生成器のデコーダ・ステージを利用して、前記潜在特徴空間表現をアップサンプリングすることにより、前記オーディオ訓練信号に基づいて、処理されたオーディオ訓練信号を前記生成器により生成するステップであって、前記デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用する、ステップ;
(c)前記処理されたオーディオ訓練信号と、前記オーディオ訓練信号が導出される元の対応するオリジナル・オーディオ信号とを、識別器に1つずつ入力するステップ;
(d)その入力されたオーディオ信号が前記処理されたオーディオ訓練信号であるか又は前記オリジナル・オーディオ信号であるかを前記識別器により判別するステップ;及び
(e)前記識別器が、前記処理されたオーディオ訓練信号を前記オリジナル・オーディオ信号からもはや識別できなくなるまで、前記生成器のパラメータを反復的にチューニングするステップを更に含む。
EEEb25 EEEb24に記載の方法において、前記正弦波活性化は正弦波活性化関数により実装されており、前記正弦波活性化関数は少なくとも1つの訓練可能なパラメータを有する。
EEEb26 EEEb25に記載の方法において、前記正弦波活性化関数は、f(x)=x+(1/a)sin2(ax+φ)に対応するパラメトリックな二乗正弦波活性化関数であり、aは前記少なくとも1つ訓練可能なパラメータである。
EEEb27 EEEb25又はEEEb26に記載の方法において、ステップ(e)における前記生成器のパラメータを反復的にチューニングするステップは、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含む。
EEEb28 EEEb25ないしEEEb27のうちの何れか1項に記載の方法において、前記デコーダ・ステージの少なくとも1つの層は、前記デコーダ・ステージの少なくとも1つの層で生成された前記複数の特徴マップの各々に個別的に前記正弦波活性化を適用し、ステップ(e)における前記生成器のパラメータを反復的にチューニングするステップは、前記複数の特徴マップの各々に関し、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含む。
EEEb29 EEEb28に記載の方法において、前記デコーダ・ステージの2つ以上の層は、前記デコーダ・ステージの2つ以上の層で生成された前記複数の特徴マップの各々に個別的に前記正弦波活性化を適用し、ステップ(e)における前記生成器のパラメータを反復的にチューニングするステップは、前記複数の特徴マップの各々に関し、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含む。
EEEb30 EEEb24ないしEEEb29のうちの何れか1項に記載の方法において、前記オーディオ訓練信号はトーナルな内容を含む。
EEEb31 EEEb25ないしEEEb30のうちの何れか1項に記載の方法において、ステップ(a)は、更に、前記オーディオ訓練信号を入力する前に、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するために、ランダム初期化方法を適用するステップを含む。
EEEb32 EEEb25ないしEEEb30のうちの何れか1項に記載の方法において、ステップ(a)は、更に、前記オーディオ訓練信号を入力する前に、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するために、片側指数初期化方法を適用することを、前記少なくとも1つの層に対する前記正弦波活性化関数の訓練可能なパラメータの値の分布が、片側指数分布に実質的に対応するように行う、ステップを含む。
EEEb33 EEEb24ないしEEEb32のうちの何れか1項に記載の方法において、前記エンコーダ・ステージの少なくとも1つの層において、ReLU,PReLU,LReLU,eLU及びSeLUのうちの1つ以上を含む非線型演算が実行される。
EEEb34 EEEb24ないしEEEb33のうちの何れか1項に記載の方法において、前記生成器は、前記デコーダ・ステージの最終層に続く出力層として、非ストライド転置畳み込み層を更に含み、前記出力層はtanh活性化を適用する。
EEEb35 EEEb24ないしEEEb34のうちの何れか1項に記載の方法において、前記生成器の前記エンコーダ・ステージと前記デコーダ・ステージのそれぞれの対応する層の間に、1つ以上のスキップ接続が存在している。
EEEb36 EEEb24ないしEEEb35のうちの何れか1項に記載の方法において、ランダム・ノイズ・ベクトルzが、オーディオを修正するために前記潜在特徴空間表現に適用される。
EEEb37 処理されたオーディオ信号を生成する装置であって、前記装置はディープ・ラーニング・ベースの生成器を含み、前記生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に複数のフィルタを備える複数の層を含み、前記デコーダ・ステージの各層における前記複数のフィルタは、複数の特徴マップを生成するフィルタリング処理を実行し、前記エンコーダ・ステージの最終層は、潜在特徴空間表現へのマッピングを行うものであり、前記生成器は:
(a)入力オーディオ信号を処理するステップ;
(b)前記エンコーダ・ステージを利用して、前記オーディオ信号の時間セグメントを前記潜在特徴空間表現にマッピングするステップ;
(c)前記デコーダ・ステージを利用して前記潜在特徴空間表現をアップサンプリングするステップであって、前記デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用するステップ;及び
(d)処理されたオーディオ信号を、前記デコーダ・ステージから出力するステップ;
を行うように構成されている。
EEEb38 EEEb37に記載の装置において、前記オーディオ信号を含むオーディオ・ビットストリームを受信する受信機を更に含む。
EEEb39 EEEb38に記載の装置において、前記オーディオ・ビットストリームをコア・デコーディングして前記オーディオ信号を取得するコア・デコーダを更に含む。
EEEb40 処理能力を有するデバイスにより実行された場合に、EEEb1ないしEEEb23のうちの何れか1項に記載の方法を前記デバイスに実行させるように構成された命令を備えるコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム製品。
EEEb41 処理能力を有するデバイスにより実行された場合に、EEEb24ないしEEEb36のうちの何れか1項に記載の方法を前記デバイスに実行させるように構成された命令を備えるコンピュータ読み取り可能な記憶媒体を含むコンピュータ・プログラム製品。
EEEb42 処理されたオーディオ信号を生成する装置と生成器及び識別器を含む敵対的ネットワークとのシステムにおいて、前記システムは、EEEb1ないしEEEb36のうちの何れか1項に記載の方法を実行するように構成されている。
EEEb43 処理されたオーディオ信号を生成し、前記オーディオ信号をオーディオ・ビットストリームにおいてエンコードする装置と、EEEb37ないしEEEb39のうちの何れか1項に記載の処理されたオーディオ信号を生成する装置とのシステム。

Claims (58)

  1. ディープ・ラーニング・ベースの生成器を用いてオーディオ信号を処理するコンピュータで実施される方法であって、前記生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に1つ以上のフィルタを備える複数の層を含み、前記エンコーダ・ステージの最終層は、チャネル次元及び時間次元に沿う複数の要素を含む潜在特徴空間表現へのマッピングを行うものであり、前記方法は:
    (a)前記オーディオ信号を処理するための前記生成器に前記オーディオ信号を入力するステップ;
    (b)前記生成器の前記エンコーダ・ステージを利用して、前記オーディオ信号の時間セグメントを前記潜在特徴空間表現にマッピングするステップ;
    (c)時間及びチャネルの再帰性を前記潜在特徴空間表現に適用して、修正された潜在特徴空間表現を取得するステップ;及び
    (e)前記修正された潜在特徴空間表現に基づいて、処理されたオーディオ信号を、前記生成器の前記デコーダ・ステージからの出力として取得するステップ;
    を含む方法。
  2. 請求項1に記載の方法において、前記方法は知覚的に重み付けされたドメインにおいて実行され、ステップ(e)において、前記知覚的に重み付けされたドメインにおいて処理されたオーディオ信号が、前記生成器の前記デコーダ・ステージからの出力として取得される、方法。
  3. 請求項2に記載の方法において、前記方法は、前記処理されたオーディオ信号を、前記知覚的に重み付けされたドメインから元の信号ドメインへ変換するステップを更に含む方法。
  4. 請求項3に記載の方法において、前記処理されたオーディオ信号を、前記知覚的に重み付けされたドメインから元の信号ドメインへ変換するステップは、前記知覚的に重み付けされたドメインにおける前記処理されたオーディオ信号に、インバース・マスクを適用することに基づいており、前記インバース・マスクは心理音響的モデルに基づいて算出されている、方法。
  5. 請求項4に記載の方法において、前記オーディオ・ビットストリームは、前記処理されたオーディオ信号を、前記知覚的に重み付けされたドメインから前記元の信号ドメインへ変換するために適用される前記マスクを示すメタデータを含む、方法。
  6. 請求項1ないし5のうちの何れか1項に記載の方法において、前記生成器は、前記知覚的に重み付けされたドメインで訓練された生成器である、方法。
  7. 請求項1ないし6のうちの何れか1項に記載の方法において、前記生成器は、前記時間及びチャネルの再帰性を前記潜在特徴空間表現に適用するために、前記エンコーダ・ステージの最終層の後にリカレント・ユニットを更に含む、方法。
  8. 請求項7に記載の方法において、前記リカレント・ユニットは、時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスと、チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスとを含む、方法。
  9. 請求項8に記載の方法において、前記時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの各々は、前記時間次元に沿う前記潜在特徴空間表現に含まれる複数の要素のうちの一連の要素を処理し、前記チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの各々は、前記チャネル次元に沿う前記潜在特徴空間表現に含まれる複数の要素のうちの一連の要素を処理する、方法。
  10. 請求項8又は9に記載の方法において、前記時間リカレント・ニューラル・ネットワーク及び前記チャネル・リカレント・ニューラル・ネットワークはそれぞれ2つ以上のLRNN個の層とM個の隠れ活性化を含み、Mは1以上の自然数である、方法。
  11. 請求項8ないし10のうちの何れか1項に記載の方法において、前記時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力と前記チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力とは、前記チャネル次元に沿って連結され、その後に、線型層を用いて前記修正された潜在特徴空間表現にマッピングされる、方法。
  12. 請求項11に記載の方法において、連結の前に、前記時間リカレント・ニューラル・ネットワークのうちの1つ以上のインスタンスの出力はスタックされ、前記チャネル・リカレント・ニューラル・ネットワークのうちの1つ以上の出力は転置されてスタックされる、方法。
  13. 請求項8ないし12のうちの何れか1項に記載の方法において、前記リカレント・ニューラル・ネットワークは、長短期メモリ又はゲート付きリカレント・ユニットである、方法。
  14. 請求項1ないし13のうちの何れか1項に記載の方法において、ランダム・ノイズ・ベクトルzが、オーディオを修正するために前記修正された潜在特徴空間表現に適用される、方法。
  15. 請求項1ないし14のうちの何れか1項に記載の方法において、前記方法は、ステップ(a)の前に実行される以下のステップ:
    (i)オーディオ訓練信号を前記生成器に入力するステップ;
    (ii)時間及びチャネルの再帰性を前記オーディオ訓練信号の前記潜在特徴空間表現に適用して、処理されたオーディオ訓練信号が生成される基礎となる修正された潜在特徴空間表現を取得することにより、前記オーディオ訓練信号に基づいて、処理されたオーディオ訓練信号を、前記生成器が生成するステップ;
    (iii)前記処理されたオーディオ訓練信号と、前記オーディオ訓練信号が導出される元の対応するオリジナル・オーディオ信号とを、識別器に1つずつ入力するステップ;
    (iv)その入力されたオーディオ信号が前記処理されたオーディオ訓練信号であるか又は前記オリジナル・オーディオ信号であるかを前記識別器により判別するステップ;及び
    (v)前記識別器が、前記処理されたオーディオ訓練信号を前記オリジナル・オーディオ信号からもはや識別できなくなるまで、前記生成器のパラメータを反復的にチューニングするステップ;
    を更に含む、方法。
  16. ディープ・ラーニング・ベースの生成器を用いてオーディオ信号を処理する方法であって、前記生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に複数のフィルタを備える複数の層を含み、前記デコーダ・ステージの各層における前記複数のフィルタは、複数の特徴マップを生成するフィルタリング処理を実行し、エンコーダ・ステージの最終層は、潜在特徴空間表現へのマッピングを行うものであり、前記方法は:
    (a)前記オーディオ信号を処理するための前記生成器に前記オーディオ信号を入力するステップ;
    (b)前記生成器の前記エンコーダ・ステージを利用して、前記オーディオ信号の時間セグメントを前記潜在特徴空間表現にマッピングするステップ;
    (c)前記生成器の前記デコーダ・ステージを利用して前記潜在特徴空間表現をアップサンプリングするステップであって、前記デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用するステップ;及び
    (d)処理されたオーディオ信号を、前記生成器の前記デコーダ・ステージからの出力として取得するステップ;
    を含む方法。
  17. 請求項16に記載の方法において、前記正弦波活性化は正弦波活性化関数により実装されており、前記正弦波活性化関数は少なくとも1つの訓練可能なパラメータを有する、方法。
  18. 請求項17に記載の方法において、前記正弦波活性化関数は、f(x)=x+(1/a)sin2(ax+φ)に対応するパラメトリックな二乗正弦波活性化関数である、方法。
  19. 請求項17又は18に記載の方法において、前記生成器は敵対的生成ネットワークの設定で訓練された生成器であり、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値は、前記敵対的生成ネットワーク(GAN)の設定における前記生成器を訓練することによって取得されたものである、方法。
  20. 請求項16ないし19のうちの何れか1項に記載の方法において、ステップ(c)において、前記デコーダ・ステージの少なくとも1つの層は、前記デコーダ・ステージの少なくとも1つの層で生成された前記複数の特徴マップの各々に個別的に前記正弦波活性化を適用する、方法。
  21. 請求項20に記載の方法において、ステップ(c)において、前記デコーダ・ステージの2つ以上の層は、前記デコーダ・ステージの2つ以上の層の各々で生成された前記複数の特徴マップの各々に個別的に前記正弦波活性化を適用する、方法。
  22. 請求項17ないし19のうちの何れか1項に従属する場合の請求項20又は21に記載の方法において、前記少なくとも1つの層に対する前記正弦波活性化関数の前記少なくとも1つの訓練可能なパラメータの値は、非一様な分布によって表現され、前記非一様な分布の各々の値は、前記少なくとも1つの層で生成された前記複数の特徴マップのそれぞれについて個別的に取得された値に対応している、方法。
  23. 請求項22に記載の方法において、前記非一様な分布の形状は、前記オーディオ信号の内容及び/又はデコーダの層番号に依存している、方法。
  24. 請求項16ないし23のうちの何れか1項に記載の方法において、前記オーディオ信号はトーナルな内容を含む、方法。
  25. 請求項16ないし24のうちの何れか1項に記載の方法において、前記エンコーダ・ステージの少なくとも1つの層において、ReLU,PReLU,LReLU,eLU及びSeLUのうちの1つ以上を含む非線型演算が実行される、方法。
  26. 請求項16ないし25のうちの何れか1項に記載の方法において、前記生成器は、前記デコーダ・ステージの最終層に続く出力層として、非ストライド転置畳み込み層を更に含み、前記出力層はtanh活性化を適用する、方法。
  27. 請求項16ないし26のうちの何れか1項に記載の方法において、前記生成器の前記エンコーダ・ステージと前記デコーダ・ステージのそれぞれの対応する層の間に、1つ以上のスキップ接続が存在している、方法。
  28. 請求項16ないし27のうちの何れか1項に記載の方法において、ランダム・ノイズ・ベクトルzが、オーディオを修正するために前記潜在特徴空間表現に適用される、方法。
  29. 請求項16ないし28のうちの何れか1項に記載の方法において、前記オーディオ信号を含むオーディオ・ビットストリームを受信するステップを更に含む方法。
  30. 請求項29に記載の方法において、前記オーディオ信号を取得するために前記オーディオ・ビットストリームをコア・デコーディングするステップを更に含む方法。
  31. 請求項16ないし30のうちの何れか1項に記載の方法において、前記方法は、ステップ(a)の前に実行される以下のステップ:
    (i)オーディオ訓練信号を前記生成器に入力するステップ;
    (ii)前記生成器の前記エンコーダ・ステージを利用して、前記オーディオ訓練信号の時間セグメントを前記潜在特徴空間表現にマッピングし、且つ、前記生成器のデコーダ・ステージを利用して、前記潜在特徴空間表現をアップサンプリングすることにより、前記オーディオ訓練信号に基づいて、処理されたオーディオ訓練信号を前記生成器により生成するステップであって、前記デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用する、ステップ;
    (iii)前記処理されたオーディオ訓練信号と、前記オーディオ訓練信号が導出される元の対応するオリジナル・オーディオ信号とを、識別器に1つずつ入力するステップ;
    (iv)その入力されたオーディオ信号が前記処理されたオーディオ訓練信号であるか又は前記オリジナル・オーディオ信号であるかを前記識別器により判別するステップ;及び
    (v)前記識別器が、前記処理されたオーディオ訓練信号を前記オリジナル・オーディオ信号からもはや識別できなくなるまで、前記生成器のパラメータを反復的にチューニングするステップ;
    を更に含む方法。
  32. 請求項31に記載の方法において、ステップ(v)における前記生成器のパラメータを反復的にチューニングするステップは、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含む、方法。
  33. 請求項32に記載の方法において、前記正弦波活性化関数は、f(x)=x+(1/a)sin2(ax+φ)に対応するパラメトリックな二乗正弦波活性化関数であり、aは前記少なくとも1つの訓練可能なパラメータである、方法。
  34. 請求項31ないし33のうちの何れか1項に記載の方法において、前記デコーダ・ステージの少なくとも1つの層は、前記デコーダ・ステージの少なくとも1つの層で生成された前記複数の特徴マップの各々に個別的に前記正弦波活性化を適用し、ステップ(v)における前記生成器のパラメータを反復的にチューニングするステップは、前記複数の特徴マップの各々に関し、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含む、方法。
  35. 請求項34に記載の方法において、前記デコーダ・ステージの2つ以上の層は、前記デコーダ・ステージの2つ以上の層で生成された前記複数の特徴マップの各々に個別的に前記正弦波活性化を適用し、ステップ(v)における前記生成器のパラメータを反復的にチューニングするステップは、前記複数の特徴マップの各々に関し、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含む、方法。
  36. 請求項31ないし35のうちの何れか1項に記載の方法において、前記オーディオ訓練信号はトーナルな内容を含む、方法。
  37. 請求項31ないし36のうちの何れか1項に記載の方法において、ステップ(i)は、更に、前記オーディオ訓練信号を入力する前に、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するために、ランダム初期化方法を適用するステップを含む、方法。
  38. 請求項31ないし36のうちの何れか1項に記載の方法において、ステップ(i)は、更に、前記オーディオ訓練信号を入力する前に、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するために、片側指数初期化方法を適用することを、前記少なくとも1つの層に対する前記正弦波活性化関数の訓練可能なパラメータの値の分布が、片側指数分布に実質的に対応するように行う、ステップを含む、方法。
  39. 生成器と識別器を含む敵対的生成ネットワーク(GAN)の設定における生成器を訓練する方法であって、前記生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に複数のフィルタを備える複数の層を含み、前記デコーダ・ステージの各層における複数のフィルタは、複数の特徴マップを生成するフィルタリング処理を実行し、前記エンコーダ・ステージの最終層は、潜在特徴空間表現へのマッピングを行うものであり、前記方法は:
    (a)オーディオ訓練信号を前記生成器に入力するステップ;
    (b)前記生成器の前記エンコーダ・ステージを利用して、前記オーディオ訓練信号の時間セグメントを前記潜在特徴空間表現にマッピングし、且つ、前記生成器のデコーダ・ステージを利用して、前記潜在特徴空間表現をアップサンプリングすることにより、前記オーディオ訓練信号に基づいて、処理されたオーディオ訓練信号を前記生成器により生成するステップであって、前記デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用する、ステップ;
    (c)前記処理されたオーディオ訓練信号と、前記オーディオ訓練信号が導出される元の対応するオリジナル・オーディオ信号とを、識別器に1つずつ入力するステップ;
    (d)その入力されたオーディオ信号が前記処理されたオーディオ訓練信号であるか又は前記オリジナル・オーディオ信号であるかを前記識別器により判別するステップ;及び
    (e)前記識別器が、前記処理されたオーディオ訓練信号を前記オリジナル・オーディオ信号からもはや識別できなくなるまで、前記生成器のパラメータを反復的にチューニングするステップ;
    を更に含む方法。
  40. 請求項39に記載の方法において、前記正弦波活性化は正弦波活性化関数により実装されており、前記正弦波活性化関数は少なくとも1つの訓練可能なパラメータを有する、方法。
  41. 請求項40に記載の方法において、前記正弦波活性化関数は、f(x)=x+(1/a)sin2(ax+φ)に対応するパラメトリックな二乗正弦波活性化関数であり、aは前記少なくとも1つ訓練可能なパラメータである、方法。
  42. 請求項40又は41に記載の方法において、ステップ(e)における前記生成器のパラメータを反復的にチューニングするステップは、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含む、方法。
  43. 請求項25ないし42のうちの何れか1項に記載の方法において、前記デコーダ・ステージの少なくとも1つの層は、前記デコーダ・ステージの少なくとも1つの層で生成された前記複数の特徴マップの各々に個別的に前記正弦波活性化を適用し、ステップ(e)における前記生成器のパラメータを反復的にチューニングするステップは、前記複数の特徴マップの各々に関し、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含む、方法。
  44. 請求項43に記載の方法において、前記デコーダ・ステージの2つ以上の層は、前記デコーダ・ステージの2つ以上の層で生成された前記複数の特徴マップの各々に個別的に前記正弦波活性化を適用し、ステップ(e)における前記生成器のパラメータを反復的にチューニングするステップは、前記複数の特徴マップの各々に関し、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を反復的にチューニングするステップを含む、方法。
  45. 請求項39ないし44のうちの何れか1項に記載の方法において、前記オーディオ訓練信号はトーナルな内容を含む、方法。
  46. 請求項40ないし45のうちの何れか1項に記載の方法において、ステップ(a)は、更に、前記オーディオ訓練信号を入力する前に、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するために、ランダム初期化方法を適用するステップを含む、方法。
  47. 請求項40ないし45のうちの何れか1項に記載の方法において、ステップ(a)は、更に、前記オーディオ訓練信号を入力する前に、前記正弦波活性化関数の少なくとも1つの訓練可能なパラメータの値を初期化するために、片側指数初期化方法を適用することを、前記少なくとも1つの層に対する前記正弦波活性化関数の訓練可能なパラメータの値の分布が、片側指数分布に実質的に対応するように行う、ステップを含む、方法。
  48. 請求項39ないし47のうちの何れか1項に記載の方法において、前記エンコーダ・ステージの少なくとも1つの層において、ReLU,PReLU,LReLU,eLU及びSeLUのうちの1つ以上を含む非線型演算が実行される、方法。
  49. 請求項39ないし48のうちの何れか1項に記載の方法において、前記生成器は、前記デコーダ・ステージの最終層に続く出力層として、非ストライド転置畳み込み層を更に含み、前記出力層はtanh活性化を適用する、方法。
  50. 請求項39ないし49のうちの何れか1項に記載の方法において、前記生成器の前記エンコーダ・ステージと前記デコーダ・ステージのそれぞれの対応する層の間に、1つ以上のスキップ接続が存在している、方法。
  51. 請求項39ないし50のうちの何れか1項に記載の方法において、ランダム・ノイズ・ベクトルzが、オーディオを修正するために前記潜在特徴空間表現に適用される、方法。
  52. 処理されたオーディオ信号を生成する装置であって、前記装置はディープ・ラーニング・ベースの生成器を含み、前記生成器はエンコーダ・ステージとデコーダ・ステージを含み、各々は各層に複数のフィルタを備える複数の層を含み、前記デコーダ・ステージの各層における前記複数のフィルタは、複数の特徴マップを生成するフィルタリング処理を実行し、前記エンコーダ・ステージの最終層は、潜在特徴空間表現へのマッピングを行うものであり、前記生成器は:
    (a)入力オーディオ信号を処理するステップ;
    (b)前記エンコーダ・ステージを利用して、前記オーディオ信号の時間セグメントを前記潜在特徴空間表現にマッピングするステップ;
    (c)前記デコーダ・ステージを利用して前記潜在特徴空間表現をアップサンプリングするステップであって、前記デコーダ・ステージの少なくとも1つの層は正弦波活性化を適用するステップ;及び
    (d)処理されたオーディオ信号を、前記デコーダ・ステージから出力するステップ;
    を行うように構成されている、装置。
  53. 請求項52に記載の装置において、前記オーディオ信号を含むオーディオ・ビットストリームを受信する受信機を更に含む装置。
  54. 請求項53に記載の装置において、前記オーディオ・ビットストリームをコア・デコーディングして前記オーディオ信号を取得するコア・デコーダを更に含む装置。
  55. 処理能力を有するデバイスにより実行された場合に、請求項1ないし38のうちの何れか1項に記載の方法を前記デバイスに実行させるように構成された命令を含むコンピュータ・プログラム。
  56. 処理能力を有するデバイスにより実行された場合に、請求項39ないし51のうちの何れか1項に記載の方法を前記デバイスに実行させるように構成された命令を含むコンピュータ・プログラム。
  57. 処理されたオーディオ信号を生成する装置と生成器及び識別器を含む敵対的ネットワークとのシステムにおいて、前記システムは、請求項1ないし51のうちの何れか1項に記載の方法を実行するように構成されている、システム。
  58. オーディオ信号を生成し、前記オーディオ信号をオーディオ・ビットストリームにおいてエンコードする装置と、請求項52ないし54のうちの何れか1項に記載の処理されたオーディオ信号を生成する装置とを含むシステム。


JP2023523182A 2020-10-15 2021-10-15 正弦波活性化を用いるニューラル・ネットワーク・ベースのオーディオ処理のための方法及び装置 Pending JP2023546145A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063092242P 2020-10-15 2020-10-15
US63/092,242 2020-10-15
EP20210969.0 2020-12-01
EP20210969 2020-12-01
PCT/EP2021/078653 WO2022079264A2 (en) 2020-10-15 2021-10-15 Method and apparatus for neural network based processing of audio using sinusoidal activation

Publications (1)

Publication Number Publication Date
JP2023546145A true JP2023546145A (ja) 2023-11-01

Family

ID=78302762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023523182A Pending JP2023546145A (ja) 2020-10-15 2021-10-15 正弦波活性化を用いるニューラル・ネットワーク・ベースのオーディオ処理のための方法及び装置

Country Status (5)

Country Link
US (1) US20240021210A1 (ja)
EP (1) EP4229635A2 (ja)
JP (1) JP2023546145A (ja)
CN (1) CN116348869A (ja)
WO (1) WO2022079264A2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109841226B (zh) * 2018-08-31 2020-10-16 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法

Also Published As

Publication number Publication date
US20240021210A1 (en) 2024-01-18
WO2022079264A3 (en) 2022-06-02
WO2022079264A2 (en) 2022-04-21
EP4229635A2 (en) 2023-08-23
CN116348869A (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
Kong et al. Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis
Sriram et al. Robust speech recognition using generative adversarial networks
US20230229892A1 (en) Method and apparatus for determining parameters of a generative neural network
JP2023523763A (ja) ダイナミックレンジ低減領域においてマルチチャネルオーディオを強調するための方法、装置、及びシステム
Qi et al. Exploring deep hybrid tensor-to-vector network architectures for regression based speech enhancement
WO2022079263A1 (en) A generative neural network model for processing audio samples in a filter-bank domain
EP3906551B1 (en) Method, apparatus and system for hybrid speech synthesis
JP2023546145A (ja) 正弦波活性化を用いるニューラル・ネットワーク・ベースのオーディオ処理のための方法及び装置
US20240055006A1 (en) Method and apparatus for processing of audio data using a pre-configured generator
WO2023237640A1 (en) Loss conditional training and use of a neural network for processing of audio using said neural network
Raj et al. Audio signal quality enhancement using multi-layered convolutional neural network based auto encoder–decoder
CN117316160B (zh) 无声语音识别方法、装置、电子设备和计算机可读介质
Srinivasarao Speech signal analysis and enhancement using combined wavelet Fourier transform with stacked deep learning architecture
CN112992177B (zh) 语音风格迁移模型的训练方法、装置、设备及存储介质
CN116368495A (zh) 使用嵌套卷积神经网络架构进行音频处理的方法和装置
US20220392458A1 (en) Methods and system for waveform coding of audio signals with a generative model
US20220277754A1 (en) Multi-lag format for audio coding
JP2023546150A (ja) 入れ子式畳み込みニューラルネットワークアーキテクチャを使用したオーディオ処理のための方法及び装置
CN117497010A (zh) 一种语音检测方法及其装置、电子设备、存储介质
CN118197329A (zh) 一种基于语音转换的音色生成方法
Wakabayashi et al. Dereverberation using denoising deep auto encoder with harmonic structure
CN114974207A (zh) 语音合成方法、语音合成装置以及电子设备
Plumbley et al. Object-Coding for Resolution-Free Musical Audio