JP2023523763A - ダイナミックレンジ低減領域においてマルチチャネルオーディオを強調するための方法、装置、及びシステム - Google Patents

ダイナミックレンジ低減領域においてマルチチャネルオーディオを強調するための方法、装置、及びシステム Download PDF

Info

Publication number
JP2023523763A
JP2023523763A JP2022565983A JP2022565983A JP2023523763A JP 2023523763 A JP2023523763 A JP 2023523763A JP 2022565983 A JP2022565983 A JP 2022565983A JP 2022565983 A JP2022565983 A JP 2022565983A JP 2023523763 A JP2023523763 A JP 2023523763A
Authority
JP
Japan
Prior art keywords
channel
dynamic range
channel audio
reduced
companding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022565983A
Other languages
English (en)
Inventor
ビスワス,アリジート
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2023523763A publication Critical patent/JP2023523763A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法であって、マルチチャネルオーディオ信号は、2つ以上のチャネルを含み、方法は、敵対的生成ネットワーク設定のマルチチャネルジェネレータを用いて、ダイナミックレンジ低減rawマルチチチャネルオーディオ信号の2つ以上のチャネルを共同強調するステップを含む方法が記載されている。さらに、敵対的生成ネットワーク設定のダイナミックレンジ低減領域において、マルチチャネルジェネレータを訓練する方法、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置、それぞれのシステム及びコンピュータプログラム製品が記載されている。

Description

[関連出願の相互参照]
本出願は、2020年4月30日に出願された米国仮特許出願第63/018,282号(参照:D20011USP1)及び2020年5月20日に出願された欧州特許出願第20175654.1号(参照:D20011EP)に基づく優先権を主張している。
[技術分野]
本開示は、概して、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法に関するものであり、より具体的には、敵対的生成ネットワーク設定のマルチチャネルジェネレータを用いて、ダイナミックレンジ低減rawマルチチチャネルオーディオ信号の2つ以上のチャネルを共同強調することに関するものである。いくつかの実施形態は、その開示に特に言及してここで説明されるが、本開示はそのような使用分野に限定されず、より広い文脈で適用可能であることが理解されるであろう。
本開示全体にわたる背景技術の議論は、かかる技術が広く知られていること、又は、当該分野における共通の一般知識の一部を形成することを認めるものと決して見なされるべきではない。オーディオ録音システムは、オーディオ信号を伝送又は保存に適したエンコード信号にエンコードし、その後、コード化された信号を受信し又は取得してデコードし、再生用の元のオーディオ信号のバージョンを取得するために使用される。低ビットレートオーディオコーディングは、帯域幅とストレージ要件を削減できる知覚的なオーディオ圧縮技術である。知覚オーディオ符号化システムの例には、AC-3、先進的音響コーディング(Advanced Audio Coding:AAC)、及び、ETSIによって標準化され、ATSC3.0に含まれている、より最近標準化されたAC-4オーディオ符号化システムが含まれる。
しかしながら、低ビットレートのオーディオコーディングは、不可避のコーディングアーチファクトをもたらす。低ビットレートでコード化されたオーディオは、特にオーディオ信号の細部に影響を受け、量子化とコーディングによってもたらされるノイズのためにオーディオ信号の品質が低下し得る。
これまで、低ビットレートでコード化されたシングルチャネル及びマルチチャネルオーディオの品質を強調又はエンハンスする(enhance)ために、いくつかのアプローチが開発されてきた。マルチチャネルアプローチには、例えば、ビームフォーミングやマルチチャネルウィナーフィルタなどを含む。空間情報を使用するため、マルチチャネルアプローチは概してシングルチャネルアプローチよりも優れたパフォーマンスを発揮することができる。
C.Uhle他は、彼らの刊行物「Methods for Low Bitrate Coding Enhancement Part II: Spatial Enhancement」AES International Conference on Automotive Audio、2017年において、知覚コーディング技術をレビューし、一般的な空間コーディングアーチファクトの性質と起源について議論している。さらに、共通タイプのアーチファクトを軽減するために設計された専用アルゴリズムのセットが提案されている。このセットから、コード化されたオーディオ素材の基礎となるエンコーダ構成に個別に適応するLBCE(低ビットレートコーディング強調)エンジンを構築することができる。
コンパンディングはAC-4コーディングシステムのコーディングツールであり、スピーチ及び高密度の一時的事象(例えば拍手(applause))の知覚コーディングを改善する。コンパンディングの利点は、入力信号の短時間ダイナミクスを低減し、エンコーダ側でのビットレート要求を削減すると同時に、デコーダ側で適切な時間的ノイズシェーピングを確保することを含む。
ここ数年、ディープラーニングのアプローチは、スピーチ強調を含む種々の応用分野でますます魅力的になってきている。この文脈では、D.Michelsanti及びZ.-H.Tanは、INTERSPEECH 2017において、刊行された 彼らの刊行物「Conditional Generative Adversarial Networks for Speech Enhancement and Noise-Robust Speaker Verification」の中で、条件付き敵対的生成ネットワーク(GAN)方法は、古典的な短時間スペクトル振幅最小平均二乗誤差スピーチ強調アルゴリズムよりも優れており、スピーチ強調に対するディープニューラル ネットワーク ベースのアプローチに匹敵する、と述べている。
N.Tawara、T.Kobayash及び T. Ogawaは、INTERSPEECH 2019において刊行された、彼らの刊行物「Multi-channel Speech Enhancement Using Time-Domain Convolutional Denoising Autoencoder」の中で、マルチチャネル時間領域畳み込みデノイジングオートエンコーダ(TCDAE)について述べ、マルチチャネル構成でのスピーチ強調パフォーマンスを評価している。TCDAEは、時間領域でノイズの多いスピーチ信号をクリーンな信号に直接マッピングし、空間情報をエンドツーエンドで学習することを目的としている。
A.Biswas他は、「Audio Codec Enhancement with Generative Adversarial Networks」で、コーディングノイズで汚染された信号を効果的に復元するためのGANベースのコーディングされたオーディオエンハンサーについて述べている。この方法はデコードされた波形で直接動作するため、この概念はコーデックに依存しない。
概して、最近の研究はほとんどが深層畳み込みGANに基づいている。GANはスピーチ及びオーディオ関連アプリケーションでも使用されることが増えているが、マルチチャネルオーディオへの応用はまだ少ない。さらに、これまでのディープラーニングのアプローチのほとんどは、スピーチのノイズ除去(speech denoising)に関連している。なお、コーディングノイズからのオーディオの復元は困難な問題である。直感的には、コーディングアーチファクトの低減とノイズ除去は非常に関連していると考えることができる。ただし、所望のサウンドとの相関性が高いコーディングアーチファクト/ノイズの除去は、相関性が低いことが多い他のノイズタイプ(ノイズ除去アプリケーション)を除去するよりも複雑に見える。コーディングアーチファクトの特性は、コーデックと採用されるコーディングツール、及び選択されたビットレートによって異なる。したがって、GAN設定でトレーニングされたジェネレータの利点とコンパンディング技術の利点を組み合わせて、マルチチャネルオーディオ信号のコーディングアーチファクトを顕著に削減し、高品質なエンハンスドオーディオの利点をユーザーに提供することが望ましい。
本発明の第1態様によれば、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法が提供される。本方法は、オーディオビットストリームを受信するステップを含み得る。本方法はさらに、オーディオビットストリームをコアデコーディングし、受信したオーディオビットストリーム(受信オーディオビットストリーム)に基づいてダイナミックレンジが低減したrawマルチチャネルオーディオ信号(ダイナミックレンジ低減rawマルチチャネルオーディオ信号)を取得するステップであって、ダイナミックレンジ低減rawマルチチャネルオーディオ信号は、2つ以上のチャネルを含む、ステップを含み得る。本方法はさらに、ダイナミックレンジ低減rawマルチチャネルオーディオ信号を共同処理するために、ダイナミックレンジ低減rawマルチチャネルオーディオ信号をマルチチャネルジェネレータに入力するステップを含み得る。本方法はさらに、前記ダイナミックレンジ低減ドメインにおいて、前記マルチチャネルジェネレータによって前記ダイナミックレンジ低減rawマルチチャネルオーディオ信号の前記2つ以上のチャネルを共同強調するステップを含み得る。さらに本方法は、マルチチャネルジェネレータからの出力として、後続のダイナミックレンジの拡張のために、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得するステップであって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は2つ以上のチャネルを有する、ステップを含み得る。
上記のように構成されたこの方法は、敵対的生成ネットワーク設定で訓練されたマルチチャネルジェネレーを使用して、低減されたダイナミックレンジ領域でマルチチャネルオーディオ信号の品質を改善することができる。この場合、コード化されたオーディオの共同復元と空間強調が実行されることができる。
いくつかの実施形態では、方法はさらに、オーディオビットストリームをコアデコーディングするステップの後、ダイナミックレンジ低減動作を実行して、ダイナミックレンジ低減rawマルチチャネルオーディオ信号を取得する、ステップをさらに含み得る。
いくつかの実施形態では、オーディオビットストリームはAC-4フォーマットであり得る。
いくつかの実施形態では、方法は、2つ以上のチャネルで拡張動作(an expansion operation)を実行することによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張するステップをさらに含み得る。
いくつかの実施形態では、拡張動作は、それぞれのゲイン値を計算するためのスペクトルの大きさ(spectral magnitudes)のpノルムに基づくコンパンディング動作であり得る。
いくつかの実施形態では、受信オーディオビットストリームは、メタデータを含み、オーディオビットストリームを受信するステップは、受信オーディオビットストリームをデマルチプレクシングするステップを含み得る。
いくつかの実施形態では、マルチチャネルジェネレータによってダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調するステップは、メタデータに基づき得る。
いくつかの実施形態では、メタデータは、コンパンディング制御データの1つ以上のアイテムを含み得る。
いくつかの実施形態では、コンパンディング制御データは、マルチチャネルオーディオ信号のエンコーディングに使用されていた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含み得る。
いくつかの実施形態では、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含み得る。
いくつかの実施形態では、マルチチャネルジェネレータによってダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存し得る。
いくつかの実施形態では、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されないことがある。
いくつかの実施形態では、マルチチャネルジェネレータは、敵対的生成ネットワーク設定でダイナミックレンジ低減領域において訓練されたジェネレータであり得る。
いくつかの実施形態では、マルチチャネルジェネレータは、鏡面対称に配置されたエンコーダステージ及びデコーダステージを含み、エンコーダステージ及び前記デコーダステージはそれぞれ、各層内にN個のフィルタを有するL個の層を含み、Lは1より大きい自然数であり、Nは1より大きい自然数であり、エンコーダステージ及びデコーダステージの各層内のN個のフィルタのサイズは同一であり、エンコーダステージ及びデコーダステージのN個のフィルタのそれぞれは、1より大きいストライドで動作し得る。
いくつかの実施形態では、エンコーダステージの少なくとも1つの層及びデコーダステージの少なくとも1つの層において、ReLU、PReLU、LReLU、eLU及びSeLのうちの1つ以上を含む非線形動作が実行され得る。
いくつかの実施形態では、マルチチャネルジェネレータはさらに、エンコーダステージに先行する(prepending)入力層として、非ストライド畳み込み層を含み得る。
いくつかの実施形態では、マルチチャネルジェネレータはさらに、デコーダステージの後続の出力層として、非ストライド置換された畳み込み層を含み得る。
いくつかの実施形態では、マルチチャネルジェネレータのそれぞれの同種層間に1つ以上のスキップ接続が存在し得る。
いくつかの実施形態では、マルチチャネルジェネレータは、エンコーダステージ及び前記デコーダステージの間で、ダイナミックレンジが低減されたコード化されたマルチチャネルオーディオ特徴空間に少なくとも基づいて、ダイナミックレンジ低減領域においてマルチチャネルオーディオを変更するためのステージを含み得る。
いくつかの実施形態では、ランダムノイズベクトルzは、前記ダイナミックレンジ低減領域においてマルチチャネルオーディオを変更するために、ダイナミックレンジが低減されたコード化されたマルチチャネルオーディオ特徴空間内で用いられ得る。
いくつかの実施形態では、ランダムノイズベクトルzの使用は、オーディオビットストリームのビットレート及びマルチチャネルオーディオ信号のチャネルの数を条件とし得る。
いくつかの実施形態では、方法はさらに、オーディオビットストリームを受信するステップの前に実行されるべき以下のステップ:
ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号をマルチチャネルジェネレータに入力するステップであって、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号は2つ以上のチャネルを含む、ステップと;
マルチチャネルジェネレータによって、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号に基づいて、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップと;
強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号の2つ以上のチャネルの各チャネル、及び、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号が導出される、元のダイナミックレンジ低減マルチチャネルオーディオ信号の対応するチャネルを、1つ以上のシングルチャネルディスクリミネータの群のうちの1つのシングルチャネルディスクリミネータに、一度に1つずつ入力するステップと;
強化されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号及び対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号をマルチチャネルディスクリミネータに一度に1つずつさらに入力するステップと;
シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータによって、入力ダイナミックレンジ低減マルチチャネルオーディオ信号が強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号又は元のダイナミックレンジ低減マルチチャネルオーディオ信号であるかどうかを判断するステップと;
シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータが元のダイナミックレンジ低減マルチチャネルオーディオ信号から強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を最早区別することができなくなるまで、マルチチャネルジェネレータの前記パラメータをチューニングするステップと、を含み得る。
いくつかの実施形態では、1つ以上のシングルチャネルディスクリミネータの群は、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択され、元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、5.1タイプマルチチャネルオーディオ信号、7.1タイプマルチチャネルオーディオ信号、又は、9.1タイプマルチチャネルオーディオ信号を含み得る。
いくつかの実施形態では、付加的に、ランダムノイズベクトルzはマルチチャネルジェネレータへの入力であり、マルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にランダムノイズベクトルzに基づき得る。
いくつかの実施形態では、付加的なメタデータはマルチチャネルジェネレータへの入力であり、マルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にメタデータに基づき得る。
いくつかの実施形態では、メタデータは、コンパンディング制御データの1つ以上のアイテムを含み得る。
いくつかの実施形態では、
コンパンディング制御データは、元のマルチチャネルオーディオ信号のエンコーディングに用いられた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含み得る。
いくつかの実施形態では、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含み得る。
いくつかの実施形態では、マルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存し得る。
いくつかの実施形態では、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されない。
本発明の第2態様によれば、マルチチャネルジェネレータ、1つ以上のシングルチャネルディスクリミネータの群及びマルチチャネルディスクリミネータを有する敵対的生成ネットワークの設定において、ダイナミックレンジ低減領域において、マルチチャネルジェネレータを訓練する方法が提供される。本方法は、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号をマルチチャネルジェネレータに入力するステップであって、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号は2つ以上のチャネルを含む、ステップを含み得る。本方法は、マルチチャネルジェネレータによって、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号に基づいて、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップを含み得る。本方法は、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号の2つ以上のチャネルの各チャネル、及び、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号が導出される、元のダイナミックレンジ低減マルチチャネルオーディオ信号の対応するチャネルを、1つ以上のシングルチャネルディスクリミネータの群のうちの1つのシングルチャネルディスクリミネータに、一度に1つずつ入力するステップを含み得る。本方法は、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号及び対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号をマルチチャネルディスクリミネータに一度に1つずつさらに入力するステップを含み得る。本方法は、シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータによって、入力ダイナミックレンジ低減マルチチャネルオーディオ信号が強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号であるか又は元のダイナミックレンジ低減マルチチャネルオーディオ信号であるかどうかを判断するステップと;シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータが元のダイナミックレンジ低減マルチチャネルオーディオ信号から強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を最早区別することができなくなるまで、マルチチャネルジェネレータのパラメータをチューニングするステップと、を含み得る。
いくつかの実施形態では、1つ以上のシングルチャネルディスクリミネータの群は、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択され、元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、5.1タイプマルチチャネルオーディオ信号、7.1タイプマルチチャネルオーディオ信号、又は、9.1タイプマルチチャネルオーディオ信号を含み得る。
いくつかの実施形態では、付加的に、ランダムノイズベクトルzはマルチチャネルジェネレータへの入力であり、マルチチャネルジェネレータによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは付加的にランダムノイズベクトルzに基づき得る。
いくつかの実施形態では、付加的なメタデータはマルチチャネルジェネレータへの入力であり、マルチチャネルジェネレータによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にメタデータに基づき得る。
いくつかの実施形態では、メタデータは、コンパンディング制御データの1つ以上のアイテムを含み得る。
いくつかの実施形態では、コンパンディング制御データは、元のマルチチャネルオーディオ信号のエンコーディングに用いられた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含み得る。
いくつかの実施形態では、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含み得る。
いくつかの実施形態では、マルチチャネルジェネレータによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存し得る。
いくつかの実施形態では、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されない。
本発明の第3態様によれば、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置が提供される。装置は、オーディオビットストリームを受信するための受信器を備え得る。装置は、さらに、オーディオビットストリームをコアデコーディングし、受信したオーディオビットストリーム(受信オーディオビットストリーム)に基づいてダイナミックレンジが低減したrawマルチチャネルオーディオ信号(ダイナミックレンジ低減rawマルチチャネルオーディオ信号)を取得するためのコアデコーダであって、ダイナミックレンジ低減rawマルチチャネルオーディオ信号は、2つ以上のチャネルを含む、コアデコーダを備え得る。さらに装置は、ダイナミックレンジ低減領域において、ダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調し、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得する、マルチチャネルジェネレータであって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は2つ以上のチャネルを有する、マルチチャネルジェネレータを備え得る。
いくつかの実施形態では、装置はさらに、受信オーディオビットストリームをデマルチプレクシングするデマルチプレクサであって、受信オーディオビットストリームは、メタデータを含む、デマルチプレクサをさらに含み得る。
いくつかの実施形態では、メタデータは、コンパンディング制御データの1つ以上のアイテムを含み得る。
いくつかの実施形態では、コンパンディング制御データは、マルチチャネルオーディオ信号のエンコーディングに使用されていた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含み得る。
いくつかの実施形態では、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含み得る。
いくつかの実施形態では、マルチチャネルジェネレータは、コンパンディング制御データによって示されるコンパンディングモードに依存するダイナミックレンジ低減領域において、ダイナミックレンジ低減rawマルチチャネルオーディオ信号の前記2つ以上のチャネルを共同強調するように構成され得る。
いくつかの実施形態では、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータは共同強調を実行しないように構成され得る。
いくつかの実施形態では、装置は、さらに、2つ以上のチャネルに拡張動作を実行して、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張する、ように構成された拡張ユニットをさらに含み得る。
いくつかの実施形態では、装置は、さらに、オーディオビットストリームをコアデコーディングした後に領域レンジ低減動作を実行して、ダイナミックレンジ低減rawマルチチャネルオーディオ信号を取得する、ように構成されたダイナミックレンジ低減ユニットをさらに含み得る。
本発明の第4態様によれば、処理能力を有するデバイスによって実行されたときに、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法をデバイスに実行させるように適合された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品が提供される。
本発明の第5態様によれば、処理能力を有するデバイスによって実行されたときに、マルチチャネルジェネレータ、1つ以上のシングルチャネルディスクリミネータの群及びマルチチャネルディスクリミネータを有する敵対的生成ネットワークの設定において、ダイナミックレンジ低減領域において、マルチチャネルジェネレータを訓練する方法をデバイスに実行させるように適合された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品が提供される。
本発明の第6態様によれば、ダイナミックレンジ低減領域においてオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置と、敵対的生成ネットワークとのシステムであって、前記敵対的生成ネットワークはマルチチャネルジェネレータと、1つ以上のシングルチャネルディスクリミネータの群と、マルチチャネルディスクリミネータとを有し、システムは、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法を実行するように構成されている、システムが提供される。
本発明の第7態様によれば、ダイナミックレンジ低減を入力マルチチャネルオーディオ信号に適用し、オーディオビットストリーム内のダイナミックレンジ低減マルチチャネルオーディオ信号をエンコーディングする装置、及び、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置のシステムが提供される。
ここでは、本開示の例示的な実施形態を、添付の図面を参照して、単なる例として述べる。
図1は、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから、強調されたマルチチャネルオーディオ信号を生成する方法の一例を示すフロー図である。 図2は、低減ダイナミックレンジ領域においてマルチチャネルジェネレータを訓練するためのマルチチャネルディスクリミネータを含む敵対的生成ネットワーク設定の一例を示す図である。 図3は、低減ダイナミックレンジ領域でマルチチャネルジェネレータを訓練するためのシングルチャネルディスクリミネータを含む敵対的生成ネットワーク設定の一例を示す図である。 図4は、低減ダイナミックレンジ領域でマルチチャネルディスクリミネータを訓練するための敵対的生成ネットワーク設定の一例を示す図である。 図5は、低減ダイナミックレンジ領域でマルチチャネルディスクリミネータを訓練するための敵対的生成ネットワーク設定のさらなる一例を示す図である。 図6は、低減されたダイナミックレンジ領域でシングルチャネルディスクリミネータを訓練するための敵対的生成ネットワーク設定の一例を示す図である。 図7は、低減されたダイナミックレンジ領域でシングルチャネルディスクリミネータを訓練するための敵対的生成ネットワーク設定のさらなる一例を示す図である。 図8は、マルチチャネルジェネレータキテクチャの一例を示す図である。
コンパンディング(Companding)
米国特許第9,947,335号公報に記載されているコンパンディング技術は、QMF(直交ミラーフィルタ)領域で実装されるコンパンディングアルゴリズムを使用して、オーディオコーデックにおける量子化ノイズの時間的ノイズシェーピングを達成し、参照によりその全体が本明細書に組み込まれる。概して、コンパンディングは、量子化ノイズ(例えば、MDCT(修正離散コサイン変換) 領域に導入された量子化ノイズ)の時間的分布を制御するために使用できるQMF領域で動作するパラメトリックコーディングツールである。そのため、コンパンディング技術は、QMF分析ステップ、その後の実際のコンパンディング動作/アルゴリズムの適用、及び、QMF合成ステップを含むことができる。
コンパンディングは、信号のダイナミックレンジを低減させ、同等に信号から時間的エンベロープを除去する技術の例として見られ得る。ここに記載されている方法、装置及びシステムは、低減されたダイナミックレンジ領域におけるマルチチャネルオーディオ信号の品質を改善することを目的としている。かかる改善は、コンパンディング技術を用いた応用に特に有益であり得る。したがって、いくつかの実施形態は、コンパンディングに関連しており、特に、QMF領域におけるマルチチャネルオーディオ信号の品質を、ダイナミックレンジ低減領域として改善することに関連する。
概要
図1を参照すると、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから、強調されたマルチチャネルオーディオ信号を生成する方法を図示する。第1ステップ101では、マルチチャネルオーディオ信号を含むオーディオビットストリームを受信する。オーディオビットストリームのコーデックは、限定されず、例えばAAC(Advanced Audio Coding)、AC-3、HE-AAC、USAC、AC-4などの、非可逆オーディオ圧縮で使用される任意のコーデックであり得る。一実施形態では、オーディオビットストリームはAC-4フォーマットであり得る。第2ステップ102では、オーディオビットストリームをコアデコードし、受信したオーディオビットストリームに基づいて、ダイナミックレンジ低減rawマルチチャネルオーディオ信号を取得し、ここで、ダイナミックレンジ低減rawマルチチャネルオーディオ信号は、複数のチャネルを含む。例えば、オーディオビットストリームをコアデコードして、マルチチャネルオーディオ信号を含むオーディオビットストリームに基づいて、2つ以上のチャネルを含むダイナミックレンジ低減rawマルチチャネルオーディオ信号を取得することができる。ここで使用されるコアデコードという用語は、一般にMDCTドメインの波形コーディング後にデコードされたオーディオを指す。AC-4では、コアコーデックはASF(オーディオスペクトルフロントエンド:Audio Spectral Frontend) 又はSSF(スピーチスペクトルフロントエンド:Speech Spectral Frontend)として知られている。
なお、ここで用いられるように、ダイナミックレンジ低減マルチチャネルオーディオ信号に関する用語「raw」は、後述のマルチチャネルジェネレータ(以下では単にジェネレータとも称する) による共同強調前のダイナミックレンジ低減マルチチャネルオーディオ信号、即ち非強調ダイナミックレンジ低減マルチチャネルオーディオ信号を指す。
ダイナミックレンジ低減マルチチャネルオーディオ信号は、オーディオビットストリームにエンコードされることができる。
あるいは、オーディオビットストリームのコアデコードの前又は後に、ダイナミックレンジの低減を実行することもできる。したがって、一実施形態では、ステップ102は、オーディオビットストリームをコアデコードした後に、例えばコンパンディングなどのダイナミックレンジ低減動作を実行することをさらに含むことができる。
ステップ103において、ダイナミックレンジ低減rawマルチチャネルオーディオ信号は、ダイナミックレンジ低減rawマルチチャネルオーディオ信号を共同処理するためにマルチチャネルジェネレータに入力される。ここでいう「共同(jointly)」とは、マルチチャネルオーディオ信号の2つ以上のチャネルで同時に行われる処理/強調等の動作を指す。この場合、共同は、マルチチャネルジェネレータによってダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを同時に強調することを指す。換言すると、ダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルはマルチチャネルジェネレータに同時に入力される。ステップ104では、その後、ダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルが、ダイナミックレンジ低減領域内のマルチチャネルジェネレータによって共同強調される、その詳細については、以下でさらに述べる。マルチチャネルジェネレータによって実行される強調プロセスは、コーディングアーチファクトと量子化ノイズを低減することによって、ダイナミックレンジ低減rawマルチチャネルオーディオ信号の品質を向上させることを意図する。ステップ105では、後続のダイナミックレンジ拡張のための強調ダイナミックレンジ低減マルチチャネルオーディオ信号が、マルチチャネルジェネレータからの出力として取得され、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は2つ以上のチャネルを有する。
一実施形態において、本方法は、2つ以上のチャネルで拡張動作を実行することによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張するステップをさらに含み得る。一実施形態において、拡張動作は、それぞれのゲイン値を計算するためのスペクトルの大きさ(spectral magnitudes)のpノルムに基づくコンパンディング動作であり得る。
一般的なコンパンディング(圧縮/展開:compression/expansion)では、圧縮と展開のゲイン値を算出し、フィルタバンクに適用する。個々のゲイン値の適用に関連する潜在的な問題を解決するために、短いプロトタイプフィルタを適用することができる。上記のコンパンディング動作を参照すると、マルチチャネルジェネレータによって出力される強調ダイナミックレンジ低減マルチチャネルオーディオ信号は、フィルタバンクによって分析され、強調ダイナミックレンジ低減マルチチャネルオーディオ信号の2つ以上のチャネルに周波数領域で直接広帯域ゲインが適用されることができる。適用したプロトタイプフィルタの形状によれば、時間領域における対応する効果は、ゲイン適用を自然に滑らかにすることである。その後、変更された周波数信号は、それぞれの合成フィルタバンクで変換されて時間領域に戻される(converted back to the time domain)。これに関連して、QMFから時間領域に戻るように変換する前に、帯域幅拡張とパラメトリックアップミキシングのうちの1つ以上を非制限的に含む多くのQMFツールがその後実行され得ることに留意されたい。フィルタバンクで信号を分析すると、そのスペクトルコンテンツにアクセスできるようになり、高周波数による寄与を優先的にブーストする(又は弱いスペクトルコンテンツによる寄与をブーストする)ゲインの計算が可能になり、信号の最も強い成分によって支配されないゲイン値が得られるため、異なるソースが混在するオーディオソースに関連する問題を解決できる。これに関連して、ゲイン値は、スペクトルの大きさのpノルムを使用して計算することができ、ここでpは典型的に2未満であり、p=2の場合のようにエネルギーに基づくよりも、量子化ノイズの成形により効果的であることが見出されている。
上記の方法は任意のデコーダで実装できる。上記の方法をコンパンディングと組み合わせて適用する場合、上記の方法をAC-4デコーダで実装することができる。
代替的に又は付加的に、上記の方法は、ダイナミックレンジ低減領域において、オーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置と、敵対的生成ネットワークと、のシステムによって実行されることもでき、敵対的生成ネットワークは、マルチチャネルジェネレータと、1つ以上のシングルチャネルディスクリミネータの群と、マルチチャネルディスクリミネータとを有する。
装置は、デコーダであることができる。
上記の方法は、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置によって実行することもできる。オーディオビットストリームを受信するための受信器を備え得る。装置は、さらに、オーディオビットストリームをコアデコーディングし、受信したオーディオビットストリーム(受信オーディオビットストリーム:received audio bitstream)に基づいてダイナミックレンジが低減したrawマルチチャネルオーディオ信号(ダイナミックレンジ低減rawマルチチャネルオーディオ信号:dynamic range reduced raw multi-channel audio signal)を取得するためのコアデコーダであって、ダイナミックレンジ低減rawマルチチャネルオーディオ信号は、2つ以上のチャネルを含む、コアデコーダを備え得る。さらに装置は、ダイナミックレンジ低減領域において、ダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調し、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得する、マルチチャネルジェネレータであって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は2つ以上のチャネルを有する、マルチチャネルジェネレータを備え得る。一実施形態において、装置は、さらに、デマルチプレクサを備え得る。一実施形態において、装置は、さらに、拡張ユニットを備え得る。一実施形態において、装置はさらに、ダイナミックレンジ低減ユニットを備え得る。
代替的に又は付加的に、装置は、ダイナミックレンジ低減を入力マルチチャネルオーディオ信号に適用し、オーディオビットストリーム内のダイナミックレンジ低減マルチチャネルオーディオ信号をエンコーディングする装置、及び、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置のシステムの一部であり得る。代替的に又は付加的に、上記の方法は、処理能力を有するデバイスによって実行されたときに、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法をデバイスに実行させるように適合された命令を有するコンピュータ可読記憶媒体を含む、それぞれのコンピュータプログラム製品によって実装され得る。
メタデータ(Metadata)
代替的に又は付加的に、上記の方法は、メタデータを含むことができる。一実施形態では、受信オーディオビットストリームはメタデータを含み、ステップ101はさらに受信オーディオビットストリームのデマルチプレクシングを含む。一実施形態では、ステップ104において、上記のように、マルチチャネルジェネレータによってダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調するステップは、メタデータに基づき得る。上記のように、ここに記載されている方法、装置及びシステムは、コンパンディングと組み合わせて適用される場合に有益であり得る。一実施形態において、メタデータは、したがって、コンパンディング制御データの1つ以上のアイテムを含み得る。コンパンディングは、概して、スピーチ及び過渡信号(speech and transient signals)に利益をもたらし得るが、各QMFタイムスロットをゲイン値で個別に変更すると、エンコード中に不連続が発生し得るため、一部の定常信号の品質が低下し、コンパンディングデコーダーにおいて、成形ノイズのエンベロープが不連続になり、可聴アーチファクトにつながり得る。それぞれのコンパンディング制御データにより、過渡信号のコンパンディングをオン、定常信号のコンパンディングをオフに選択的に切り替えるか、又は、必要に応じて平均コンパンディングを適用することができる。ここでいう平均コンパンディングとは、隣接するアクティブなコンパンディングフレームのゲインに似たオーディオフレームに一定のゲインを適用することを指す。コンパンディング制御データは、エンコード中に検出され、オーディオビットストリームを介してデコーダに送信されることができる。一実施形態において、コンパンディング制御データは、したがって、マルチチャネルオーディオ信号のエンコーディングに使用されていた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含み得る。一実施形態において、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含み得る。一実施形態では、ステップ104において、上記のように、マルチチャネルジェネレータによってダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存し得る。一実施形態において、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されない。実施形態では、コンパンディング制御データの1つ以上のアイテムを含むメタデータが参照されるが、これは限定を意図するものではない。代替的に又は付加的に、マルチチャネルジェネレータによるダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調することは、他のメタデータから導出されたパラメータ又は他のメタデータの組み合わせに基づき得る。
敵対的生成ネットワーク設定(Generative Adversarial Network setting)
ステップ104において、上記のように、マルチチャネルジェネレータは、ダイナミックレンジ低減領域において、ダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調する。この強調により、コーディングアーチファクトが低減され、ダイナミックレンジ低減マルチチャネルオーディオ信号の品質は、元のコーディングされていないダイナミックレンジ低減マルチチャネルオーディオ信号と比較して、ダイナミックレンジ低減マルチチャネルオーディオ信号の品質は、ダイナミックレンジ低減マルチチャネルオーディオ信号の2つ以上のチャネルのダイナミックレンジを拡張する前にすでに強調されている。
一実施形態において、
マルチチャネルジェネレータは、敵対的生成ネットワーク設定(GAN設定)でのダイナミックレンジ低減領域において訓練されたジェネレータであり得る。例えば、ダイナミックレンジ低減領域は、AC-4コンパンディング領域であり得る。場合によっては(AC-4コンパンディングなど)、ダイナミックレンジの低減は、信号の時間的エンベロープを除去(又は抑制)することと同等であり得る。したがって、マルチチャネルジェネレータは、信号から時間的エンベロープを除去した後に、領域で訓練されたジェネレータであり得ると言うことができる。さらに、以下ではGANの設定について述べるが、これは限定的な意味で理解されるものではなく、他の生成モデルも考えられ、本開示の範囲に含まれることに留意されたい。
GAN設定には、マルチチャネルジェネレータG、1つ以上のシングルチャネルディスクリミネータの群Dk、及びマルチチャネルディスクリミネータDjが含まれ、それぞれが反復プロセスによって訓練される。敵対的生成ネットワーク設定での訓練中に、マルチチャネルジェネレータGは、2つ以上のチャネルを含み、対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号xから導かれるダイナミックレンジ低減rawマルチチャネルオーディオトレーニング信号
[外1]
Figure 2023523763000002
(以下、xとも表す。)(コアエンコード及びコアデコード)に基づいて、2つ以上のチャネルを含む強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*を共同生成する。ダイナミックレンジ低減は、マルチチャネルオーディオ信号の2つ以上のチャネルにコンパンディング動作を適用することによって行うことができる。コンパンディング動作は、AC-4コーデックで特定され、AC-4エンコーダで実行されるコンパンディング動作であり得る。
一実施形態では、ランダムノイズベクトルzは、ダイナミックレンジ低減rawマルチチャネルオーディオトレーニング信号x*に加えて、マルチチャネルジェネレータに入力することができ、マルチチャネルジェネレータによって、強調ダイナミックレンジ低減マルチチャネルオーディオトレーニング信号x*を共同生成することは、付加的にランダムノイズベクトルzに基づくことができる。一実施形態では、ランダムノイズベクトル(z)の付加的な入力は、ダイナミックレンジ低減マルチチャネルオーディオ訓練信号が導出された元のマルチチャネルオーディオ信号を含むオーディオビットストリームのビットレートを条件とし得るか、及び/又はダイナミックレンジ低減マルチチャネルオーディオ訓練信号を条件とし得る。例えば、ステレオ信号の場合、ランダムノイズベクトルzを36kbit/s以下で使用することができる。拍手には(For applause)、ランダムノイズベクトルzが全てのビットレートに使用することができる。ただし、ランダムノイズベクトルをz=0に設定することもできる。ビットレートが低すぎない場合、ランダムノイズベクトルがz=0に設定されていれば、コーディングアーチファクトの低減は良好な結果をもたらす。あるいは、ランダムノイズベクトルzを入力せずにトレーニングを実行することもできる。代替的に又は付加的に、一実施形態では、メタデータをマルチチャネルジェネレータに入力し、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*を共同生成することができ、さらにメタデータに基づくことができる。訓練中に、強調されたダイナミックレンジ低減マルチチャネルオーディオ君r年信号x*の共同生成は、したがってメタデータに基づいて条件づけることができる。一実施形態において、メタデータは、コンパンディング制御データの1つ以上のアイテムを含み得る。一実施形態において、コンパンディング制御データは、オーディオデータのエンコーディングに用いられた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含み得る。一実施形態において、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含み得る。一実施形態において、マルチチャネルジェネレータによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*の共同生成は、コンパンディング制御データによって示されるコンパンディングモードに依存し得る。この場合、訓練中に、マルチチャネルジェネレータはコンパンディングモードを条件づけることができる。一実施形態では、コンパンディングモードがコンパンディングオフである場合、これは、入力rawマルチチャネルオーディオ訓練信号がダイナミックレンジ低減されておらず、マルチチャネルジェネレータによる共同強調が行われないことがあることを示し得る前述のように、コンパンディング制御データは、マルチチャネルオーディオ信号のエンコーディング中に検出され、過渡信号に対してはコンパンディングをオンにし、定常信号に対してはオフにし、必要に応じて平均コンパンディングを適用するというコンパンディングを選択的に適用することができる。
訓練中、マルチチャネルジェネレータは、対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号xと区別できない、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*を出力しようと試みる。第1ステップでは、1つ以上のシングルチャネルディスクリミネータの群のシングルチャネルディスクリミネータDkは、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*の2つ以上のチャネルの各チャネルと、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号を導出する元のダイナミックレンジ低減マルチチャネルオーディオ信号xの対応するチャネルと、を一度に1つずつ供給され、入力データが生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*のチャネルであるか、元のダイナミックレンジ低減マルチチャネルオーディオ信号xの対応するチャネルであるかを真/偽の方法で判断する。ここで、シングルチャネルディスクリミネータDkは、元のダイナミックレンジ低減マルチチャネルオーディオ信号xの各チャネルを、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*の対応するチャネルから識別することを試みる。反復プロセスの間に、マルチチャネルジェネレータは、そのパラメータを調整して、元のダイナミックレンジ低減マルチチャネルオーディオ信号xと比較して、ますます好適な強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*を生成し、シングルチャネルディスクリミネータDkは、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*の2つ以上のチャネルと、元のダイナミックレンジ低減マルチチャネルオーディオ信号xの対応するチャネルとの間のより良好な判断を学習する。
なお、シングルチャネルディスクリミネータDkによって、入力データが生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*のチャネルであるか、又は元のダイナミックレンジ低減マルチチャネルオーディオ信号xの対応するチャネルであるか、を真(freal)/偽(fake)の方法で判定するステップは、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*の各チャネルについて、同一のシングルチャネルディスクリミネータDkによって行うことができる。代替的に又は付加的に、シングルチャネルディスクリミネータDkによって、入力データが生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*のチャネルであるか、又は元のダイナミックレンジ低減マルチチャネルオーディオ信号xの対応するチャネルであるか、を真/偽の方法で判断するステップは、シングルチャネルディスクリミネータDkの群によって実行することができ、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*の各チャネルと、元のダイナミックレンジ低減マルチチャネルオーディオ信号xの各対応チャネルは、そのチャネルで訓練された個々のシングルチャネルディスクリミネータDkに入力される。一実施形態では、1つ以上のシングルチャネルディスクリミネータの群Dkは、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択することができ、元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、5.1タイプマルチチャネルオーディオ信号、7.1タイプマルチチャネルオーディオ信号、又は、9.1タイプマルチチャネルオーディオ信号を含み得る。
第2ステップでは、マルチチャネルディスクリミネータDjは、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*と、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号を導出する、対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号xと、を一度に1つずつ(one at a time)供給され、入力データが生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*であるか、対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号xであるかを真/偽の方法で判断する。ここで、マルチチャネルディスクリミネータDjは、元のダイナミックレンジ低減マルチチャネルオーディオ信号xを、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*から識別することを試みる。反復プロセスの間に、マルチチャネルジェネレータは、そのパラメータを調整して、元のダイナミックレンジ低減マルチチャネルオーディオ信号xと比較して、ますます好適な強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*を生成し、マルチチャネルディスクリミネータDjは、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*と、元のダイナミックレンジ低減マルチチャネルオーディオ信号xとの間のより良好な判断を学習する。
なお、最終ステップでマルチチャネルジェネレータを訓練するために、先にシングルチャネルディスクリミネータDkとマルチチャネルディスクリミネータDjを訓練しすることができる。ディスクリミネータの訓練と更新は、ダイナミックレンジ低減ドメインでも実行できる。ディスクリミネータの訓練と更新は、元のダイナミックレンジ低減マルチチャネルオーディオ信号xにハイスコアを割り当て、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*にロースコアを割り当てる確率を最大化することが含まれることができる。ディスクリミネータの訓練における目標は、元のダイナミックレンジ低減マルチチャネルオーディオ信号xを真として認識する一方で、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*(生成されたデータ) を偽として認識することであり得る。ディスクリミネータが訓練され更新されている間、マルチチャネルジェネレータのパラメータは固定されることができる。
マルチチャネルジェネレータの訓練と更新には、元のダイナミックレンジ低減マルチチャネルオーディオ信号xと生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*との差を最小限に抑えることが含まれることができる。マルチチャネルジェネレータを訓練する目的は、シングルチャネルディスクリミネータDkが、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*の2つ以上のチャネルのそれぞれを真として認識することである。さらに、マルチチャネルディスクリミネータDjは、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*を真として認識する。
ここで図2の例を参照して、敵対的生成ネットワーク(GAN)設定でのダイナミックレンジ低減ドメインでのマルチチャネルジェネレータG,1の訓練について、より詳細に述べる。図2の例では、GAN設定はマルチチャネルのジェネレータG,1とマルチチャネルディスクリミネータDj,2jを含む。マルチチャネルジェネレータG,1の訓練は、以下のものを含み得る。
2つ以上のチャネルxip,12を含む元のマルチチャネルオーディオ信号にダイナミックレンジ低減comp,10をかけて、2つ以上のチャネルx,9を含むダイナミックレンジが低減した元のマルチチャネルオーディオ信号を取得することができる。ダイナミックレンジの低減は、2つ以上のチャネルのそれぞれにコンパンディング動作、特にAC-4コンパンディング動作を適用し、その後にQMF (直交ミラーフィルタ)合成ステップを適用することによって行うことができる。コンパンディング動作はQMFドメインで行われるため、その後のQMF合成ステップが必要となる。マルチチャネルジェネレータG,1への入力の前に、コアエンコーディングとコアデコーディングに加えて、ダイナミックレンジが低減した元のマルチチャネルオーディオ信号x,9をかけて、ダイナミックレンジ低減らwマルチチャネルオーディオ訓練信号x,8を取得することができる。その後、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号、x,8、及びランダムノイズベクトルz,11はマルチチャネルジェネレータG、1に入力される。その後、入力に基づいて、マルチチャネルジェネレータG,1は、ダイナミックレンジ低減領域で、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7を共同生成する。一実施形態では、ランダムノイズベクトルzの入力は、ダイナミックレンジ低減マルチチャネルオーディオ訓練信号が導出された元のマルチチャネルオーディオ信号を含むオーディオビットストリームのビットレート、及び/又はダイナミックレンジ低減マルチチャネルオーディオ訓練信号のチャネルの数(a number of channels)を条件とすることができる。一実施形態において、ランダムノイズベクトルz11は、z=0に設定されることができる。あるいは、ランダムノイズベクトルz,11を入力せずに訓練を実行することができる。付加的に又は代替的に、マルチチャネルジェネレータG,1は、ダイナミックレンジが低減したコード化マルチチャネルオーディオ特徴空間の入力としてメタデータを使用して訓練されて、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7を変更することができる。一度に1つずつ、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号x*,8が導出される元のダイナミックレンジ低減マルチチャネルオーディオ信号x,9と、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7と、がマルチチャネルディスクリミネータDj,2jに入力される。追加情報として、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号x,8もマルチチャネルディスクリミネータDj,2jに毎回入力することができる。その後、マルチチャネルディスクリミネータDj,2jは、入力データが強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7,(偽)であるか、又は、元のダイナミックレンジ低減マルチチャネルオーディオ信号x,9,(真)であるかを判断する3j,4j。次のステップでは、マルチチャネルジェネレータG,1のパラメータは、マルチチャネルディスクリミネータDj,2jが、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7を元のダイナミックレンジ低減マルチチャネルオーディオ信号x,9から最早区別できなくなるまで調整される。これは反復プロセス5jで行うことができる。
ここで図3の例を参照すると、敵対的生成ネットワーク(GAN)設定におけるダイナミックレンジ低減領域でのマルチチャネルジェネレータG,1の訓練がより詳細に述べられ、図3の例では、GAN設定にマルチチャネルジェネレータG,1とシングルチャネルディスクリミネータDk,2kとが含まれる。マルチチャネルジェネレータG,1の訓練には、以下が含まれ得る。
上記のように、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号x*,8、及び強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7を取得することができる。一度に1つずつ、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号x,8が導出される元のダイナミックレンジ低減マルチチャネルオーディオ信号x,9のチャネルkと、生成された強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7の対応するチャネルとは、シングルチャネルディスクリミネータDk,2kに入力される(なお、細い線は個々のチャネルを示し、太い線はマルチチャネル信号を示す)。追加情報として、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号、x8、の対応するチャネルも、シングルチャネルディスクリミネータDk,2kに毎回入力することができる。シングルチャネルディスクリミネータDk,2kは、その後、入力データが強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7,(偽)のチャネルであるか、又は、元のダイナミックレンジ低減マルチチャネルオーディオ信号x,9,(真)の対応するチャネルであるかを判断する3k,4k。
次のステップでは、マルチチャネルジェネレータG,1のパラメータは、シングルチャネルディスクリミネータD,2kが、強化されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7のチャネルを、元のダイナミックレンジ低減マルチチャネルオーディオ信号x,9の対応するチャネルから最早区別できなくなるまで調整される。これは反復プロセス5kで行うことができる。なお、上記のような判断するステップは、同一のシングルチャネルディスクリミネータDk,2kによって、それぞれの強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7及び元のダイナミックレンジ低減マルチチャネルオーディオ信号x,9の各チャネルについて、代替的に又は追加的に、上記の判断するステップは、1つ以上のシングルチャネルディスクリミネータDkの群のそれぞれのチャネル特有のシングルチャネルディスクリミネータDk,2kによって、各チャネルに対して個別に行うこともできる。1つ以上のシングルチャネルディスクリミネータの群は、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択されることができ、元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、5.1タイプマルチチャネルオーディオ信号、7.1タイプマルチチャネルオーディオ信号、又は、9.1タイプマルチチャネルオーディオ信号を含み得る。
シングルチャネルディスクリミネータDk及びマルチチャネルディスクリミネータDjによる判断は、次の式(1)にしたがい、知覚的に動機付けられた1つ以上の目的関数に基づくことができ、ここで、Ncはマルチチャネルオーディオ信号のチャネルの総数を指す。
Figure 2023523763000003
添え字LSは最小二乗法の導入を意味する。さらに、式(1)の第1項と第2項からわかるように、コアデコードされたダイナミックレンジ低減rawマルチチャネルオーディオ信号xを、シングルチャネルディスクリミネータDkとマルチチャネルィスクリミネータDjの両方に付加情報として入力することによって、条件付き敵対的生成ネットワーク設定を適用している。これにより、ディスクリミネータは条件付き分類タスク、すなわち、ディスクリミネータの入力が、所与のコード化信号に基づいて元の信号であるか又は強調信号であるかを学習することができる。
上記の式(1)のシングルチャネルディスクリミネータDkを指す最後の項の導入は、これらの周波数は通常、より高いビット数でコード化されるため、反復プロセス中にこれらの周波数が乱されないことを保証するのに役立つ。最後の項はλ因子でスケールされた1ノルム距離である。ラムダの値は、マルチチャネルジェネレータに入力されるアプリケーション及び/又は信号の長さに依存して、10から100の間で選択できる。たとえば、λ=100を選択できる。
ここで図4と図5の例を参照すると、敵対的生成ネットワーク設定でのダイナミックレンジ低減領域でのマルチチャネルディスクリミネータDj,2jの訓練は、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号x,8と共に、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7及び元のダイナミックレンジ低減マルチチャネルオーディオ信号x,9を、マルチチャネルディスクリミネータDj,2jに一度に1つの入力することに応じて6j、14j、マルチチャネルジェネレータG,1のトレーニングについて上記で説明したのと同じ一般的な反復プロセス13jにしたがうことができ、この場合、マルチチャネルジェネレータG,1のパラメータが固定され得る場合を除いて、マルチチャネルディスクリミネータDj,2jは変化する(図4及び5と比較して図2及び3のディスクリミネータの周りの太い線によって示される)。マルチチャネルディスクリミネータDj,2jの訓練は、次の式(2)で記述することができ、マルチチャネルディスクリミネータDj,2jは、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7を偽として決定することができる。
Figure 2023523763000004
上記の場合、最小二乗法(LS)と条件付き敵対的生成ネットワーク設定も、コアデコードされたダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号xを、マルチチャネルディスクリミネータDjに追加情報として入力することによって適用されている。ここで図6と図7の例を参照すると、敵対的生成ネットワーク設定でのダイナミックレンジ低減領域でのマルチチャネルディスクリミネータDk,2kの訓練は、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号x,8の対応するチャネルと共に、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7のチャネル及び元のダイナミックレンジ低減マルチチャネルオーディオ信号x,9に対応するチャネルを、シングルチャネルディスクリミネータDk,2kに一度に1つの入力することに応じて6k,14k、マルチチャネルジェネレータG,1のトレーニングについて上記で説明したのと同じ一般的な反復プロセス13kにしたがうことができ、この場合、マルチチャネルジェネレータG,1のパラメータが固定され得る場合を除いて、シングルチャネルディスクリミネータDk,2kは変化する(図6及び7と比較して図2及び3のディスクリミネータの周りの太い線によって示される)。シングルチャネルディスクリミネータDk,2kの訓練は、次の式(3)で記述することができ、シングルチャネルディスクリミネータDk,2kは、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7を偽として決定することができる。
Figure 2023523763000005
上記の場合、最小二乗法(LS)と条件付き敵対的生成ネットワーク設定も、コアデコードされたダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号xの対応するチャネルを、シングルチャネルディスクリミネータDkに追加情報として入力することによって適用されている。Ncはさらに、マルチチャネルジェネレータが強調するマルチチャネルオーディオ信号のチャネル数を意味する。
上記の訓練に基づいて、シングルチャネルディスクリミネータDkを訓練して、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7の1チャネルのみを偽として決定するか、又は、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号x*,7の各チャネルを偽として決定することができ、強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号は、ステレオタイプマルチチャネルオーディオ信号、5.1タイプマルチチャネルオーディオ信号、7.1タイプマルチチャネルオーディオ信号、又は、9.1タイプマルチチャネルオーディオ信号を含み得る。
概して、シングルチャネルディスクリミネータとマルチチャネルディスクリミネータとの両方を使用して訓練すると、個々のチャネルだけでなく、全体的な空間的印象をよりよく制御できる。最小二乗法以外にも、ダイナミックレンジ低減領域の敵対的生成ネットワーク設定におけるマルチチャネルディスクリミネータDj及びシングルチャネルディスクリミネータDkと同様に、マルチチャネルジェネレータを訓練するために他の訓練方法を使用することもできる。本開示は、特定の訓練方法に限定されない。代替的に又は付加的に、いわゆるワッサースタインアプローチを使用することもできる。この場合、最小二乗法距離の代わりに、ワッサースタイン距離とも呼ばれるEMD(Earth Mover Distance)を使用することもできる。概して、異なる訓練方法は、マルチチャネルジェネレータとディスクリミネータの訓練がより安定する。ただし、適用される訓練方法の種類は、後述するマルチチャネルジェネレータのアーキテクチャには影響しない。
マルチチャネルジェネレータのアーキテクチャ(Architecture of the multi-channel Generator)
マルチチャネルジェネレータのアーキテクチャは一般に制限されないが、一実施形態では、マルチチャネルジェネレータはエンコーダステージとデコーダステージとを含むことができる。マルチチャネルジェネレータのエンコーダステージとデコーダステージとは完全に畳み込み可能である。一実施形態では、デコーダステージはエンコーダステージをミラーリング(mirror)してもよく、デコーダステージと同様に、エンコーダステージはそれぞれ、各層Lに多数のN個のフィルタを有する多数のL層を含むことができる。Lは1より大きい自然数、Nは1より大きい自然数であり得る。Nフィルタのサイズ(カーネルサイズとも呼ばれる)は制限されず、マルチチャネルジェネレータによるダイナミックレンジ低減rawマルチチャネルオーディオ信号の品質向上の要件に従って選択することができる。ただし、フィルタサイズはL層ごとに同じでもよい。
ここで、マルチチャネルジェネレータのアーキテクチャの例を概略的に示した図8の例を参照すると、第1ステップ15で、複数のチャネルを有するダイナミックレンジ低減rawマルチチャネルオーディオ信号をマルチチャネルジェネレータに入力することができる。一実施形態では、この入力層15は、エンコーダステージに先行する又はエンコーダステージの前段の(prepending)ストライドなし(例えば、ストライド=1はストライドなしを意味する)の畳み込み層であることができる。
学習した非ストライド畳み込み層(例えば入力層15)の出力は、個々の入力チャネルのいくつかの(正確な数は非ストライド畳み込み層のフィルタ又はカーネルの数に依存する)組み合わせとして見ることができる。したがって、このような層の出力は、マルチチャネルの中間ーサイド信号(mid-side signal)として見ることができる。例えば、ステレオ入力信号(例えば、2チャネルの入力信号)の場合、XL及びXRを左右チャネルとすると、中間信号M=0.5*(XL+XR)、サイド信号S=0.5*(XL-XR)となる。したがって、マルチチャネルの中間ーサイド信号が作成されると、XL及びXRの複数の組み合わせが生成される。このようなシステムを学習すれば、XLとXRとの間の空間的関係についての追加的なヒントを提供することができる。例えば、サイド信号S=0の単純な場合を考えると、XL=XRである可能性が最も高い。したがって、前段の(prepended)非ストライド畳み込み層は、オーディオ信号(例えば、元のオーディオ信号とコード化されたオーディオ信号の両方)とそれに対応する空間関係(例えば、元のオーディオ信号とコード化されたオーディオ信号との間の空間的関係)に関する情報でセットアップを条件づけることができる。そのため、コーディングによって空間的な幅が失われた場合に、提案したシステムで復元することができ、空間的な強調を含むコード化されたオーディオ強調を共同で行うことができる。
入力層におけるフィルタ数N=16及びフィルタサイズ31の例示的な値は、良好な結果、例えば、コーディングアーチファクトの最小量をもたらす。パラメトリック正規化線形ユニット(parametric rectified linear uni:PReLU) であり得る入力層で非線形活性化を行うことができる。第1の図示されたエンコーダ層16、層番号L=1、31のフィルタサイズを有するN=16フィルタを含むことができる。第2の図示されたエンコーダ層17、層番号L=2、31のフィルタサイズを有するN=32フィルタを含むことができる。以降の層は、わかりやすく簡潔にするために省略している。第3の図示されたエンコーダ層18、層番号L=11、31のフィルタサイズを有するN=512フィルタを含むことができる。したがって、各層でフィルタの数が増えることがある。1つの実施形態では、各フィルタは、ストライド>1で各エンコーダ層に入力されたダイナミックレンジ低減マルチチャネルオーディオ信号の2つ以上のチャネルで動作することができる。各フィルタは、たとえば、ストライド2の各エンコーダ層に入力されたダイナミックレンジ低減マルチチャネルオーディオ信号の2つ以上のチャネルで動作することができる。したがって、2倍の学習可能なダウンサンプリングを行うことができる。
あるいは、各エンコーダ層のストライドを1にしてフィルタを動作させた後、(既知の信号処理のように)2倍のダウンサンプリングを行うこともできる。あるいは、たとえば、各フィルタは、ストライド4で各エンコーダ層に入力されたダイナミックレンジ低減マルチチャネルオーディオ信号の2つ以上のチャネルで動作することができる。これにより、マルチチャネルジェネレータの全体的な層数を半分にできる場合がある。
マルチチャネルジェネレータの少なくとも1つのエンコーダ層及び少なくとも1つのデコーダ層において、活性化として加えて非線形動作を実行することができる。一実施形態では、非線形動作は、パラメトリック正規化線形ユニット(PReLU)、正規化線形ユニット(ReLU)、漏れ正規化線形ユニット(LReLU)、指数線形ユニット(eLU)及びスケールされた指数線形ユニット(SeLU)の1つ以上を含むことができる。図8の例では、非線形動作はPReLUに基づく。
図8に概略的に示すように、それぞれのデコーダ層22、21、20は、エンコーダ層16、17、18をミラーリングしている。各層のフィルタ数と各層のフィルタ幅とは、デコーダステージではエンコーダステージと同じであることができるが、デコーダステージでのマルチチャネルオーディオ信号のアップサンプリングは、2つの代替的アプローチによって行われることができる。一実施形態では、分数的ストライド畳み込み(転置畳み込みとも称される)動作をデコーダステージの層20、21、22において使用することができる。あるいは、デコーダステージの各層において、従来の信号処理と同様にアップサンプリング係数2でアップサンプリングと補間を行った後、ストライド1で各層に入力されたマルチチャネルオーディオ信号の2つ以上のチャネルをフィルタが動作することができる。
さらに、一実施例では、マルチチャネルジェネレータは、出力層23として、非ストライド(ストライド=1の転置畳み込みを意味する)転置畳み込み層をさらに含み、その後デコーダステージに続く。この例では、出力層23は、フィルタサイズが31のN=2フィルタを含むことができる。なお、出力層のフィルタ数は、マルチチャネルジェネレータが強調するマルチチャネルオーディオ信号のチャネル数Ncと同じであることができる。たとえば、ステレオ強調の場合、出力層Nc=N=2で保持されることができる。出力層23では、アクティベーションは、エンコーダ層の少なくとも1つとデコーダ層の少なくとも1つで実行されるアクティベーションとは異なる場合がある。アクティベーションは、tanh動作などに基づいて行うことができる。
エンコーダステージとデコーダステージとの間で、ダイナミックレンジ低減マルチチャネルオーディオ信号を変更して、強調ダイナミックレンジ低減マルチチャネルオーディオ信号を生成することができる。一実施形態では、変更は、ダイナミックレンジが低減されたコード化マルチチャネルオーディオ特徴空間25(ボトルネック層とも称される)に基づくことができる。一実施形態において、ランダムノイズベクトルzは、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号の、2つ以上のチャネルを変更するために、ダイナミックレンジが低減されたコード化マルチチャネルオーディオ特徴空間25内で用いられ得る。ダイナミックレンジが低減されたコード化マルチチャネルオーディオ特徴空間25での変更は、例えば、ランダムノイズベクトル(z)を、エンコーダ段階の最後の層から出力されるマルチチャネルオーディオ信号の2つ以上のチャネルのベクトル表現(c)と連結することによって行うことができる一実施形態では、ランダムノイズベクトルzの使用は、オーディオビットストリームのビットレート及び/又はマルチチャネルオーディオ信号のチャネルの数を条件とし得る。例えば、ランダムノイズベクトルzは、36 kbit/s以下のステレオ信号の場合に使用され、拍手(applause)の場合にはすべてのビットレートに使用されることができる。ただし、ランダムノイズベクトルをz=0に設定することもできる。ビットレートが低すぎない場合、ランダムノイズベクトルがz=0に設定されていれば、コーディングアーチファクトの低減は好適な結果をもたらす。代替的に又は付加的に、この時点でメタデータを入力して、マルチチャネルオーディオ信号の2つ以上のチャネルを変更することもできる。この場合、強調ダイナミックレンジ低減マルチチャネルオーディオ信号の生成は、所与のメタデータに基づいて条件づけられることができる。
一実施形態では、スキップ接続24は、エンコーダステージとデコーダステージとの同種層の間、及び、エンコーダステージに先行する入力層とデコーダステージの後段の(追加)出力層の間に存在し得る。この場合、前述のダイナミックレンジが低減されたコード化マルチチャネルオーディオ特徴空間25は、情報の損失を防ぐためにバイパスされる可能性がある。一実施形態では、スキップ接続24は、一つ以上の連結と信号付加を使用して実装することができる。スキップ接続24の実装により、フィルタ出力の数が「仮想的に」2倍にすることができる。
図8の例を参照すると、マルチチャネルジェネレータのアーキテクチャは次のようにまとめられる。
15/入力層:非ストライド畳み込み層:フィルタ数N=16,フィルタサイズ=31,活性化=PreLU
16/エンコーダ層L=1:フィルタ数N=16,フィルタサイズ=31,活性化=PreLU
17/エンコーダ層L=2:フィルタ数N=32,フィルタサイズ=31,活性化=PreLU



18/エンコーダ層L=11:フィルタ数N=512,フィルタサイズ=31
19/エンコーダ層L=12:フィルタ数N=1024,フィルタサイズ=31

25/ダイナミックレンジ低減コード化マルチチャネルオーディオ特徴空間

20/デコーダ層L=1:フィルタ数N=512,フィルタサイズ=31



21/デコーダ層L=10:フィルタ数N=32,フィルタサイズ=31,活性化PreLU
22/デコーダ層L=11:フィルタ数N=16,フィルタサイズ=31,活性化PreLU
23/出力層:フィルタ数N=2,フィルタサイズ=31,活性化tanh
24/スキップ接続
上記のアーキテクチャは、単に例を表しているに過ぎない。用途に応じて、マルチチャネルジェネレータのエンコーダステージとデコーダステージとの層ー数は、それぞれダウンスケール又はアップスケールされる。
概して、上記のマルチチャネルジェネレータキテクチャは、WavenetやsampleRNNなどの複雑な動作を実行する必要がないため、ワンショットアーチファクト低減の可能性を提供する。
さらに、(例えば、マルチチャネル入力信号上で共同動作する非ストライド畳み込み層で構成され(対応する非ストライド転置畳み込み層でマルチチャネル強調出力信号を生成する))上記のマルチチャネルジェネレータは、1つ以上のシングルチャネルジェネレータを適用する場合と比較して、空間冗長性の利用が優れているため、複雑さが低減される。例えば、ステレオ(例:2チャネル)の(ベストオーディオ品質を有する)入力信号の場合(例:マルチチャネルジェネレータ)、ステレオジェネレータのパラメータは、シングルチャネルのジェネレータと比較して0.14%多いパラメータを有することができる。このパラメータの増加は、シングルチャネルのジェネレータと比較して12.1%多い複雑さになる。しかしながら、いまや、ステレオ入力信号は(2つの個別のシングルチャネルジェネレータではなく)ステレオ(例:マルチチャネル)ジェネレータで共同処理されるため、2つの個別のシングルチャネルジェネレータと比較して複雑さが44%節約された。
ディスクリミネータのアーキテクチャ(Architecture of the Discriminator)
シングルチャネルのディスクリミネータとマルチチャネルのディスクリミネータの両方のアーキテクチャは制限されていない。マルチチャネルディスクリミネータのアーキテクチャは、前述のマルチチャネルジェネレータのエンコーダステージと同じ構造に従うことができる。マルチチャネルディスクリミネータのアーキテクチャは、マルチチャネルジェネレータのエンコーダステージをミラーリングすることができる。したがって、マルチチャネルディスクリミネータは多数のL層を含み、複数のN個のフィルタを含むことができる。Lは1より大きい自然数であり、Nは1より大きい自然数である。Nフィルタのサイズは制限されず、ディスクリミネータの要件に従って選択することもできる。ただし、フィルタサイズはL層ーごとに同一であることができる。ディスクリミネータの少なくとも1つのエンコーダ層で実行される非線形動作は、LReLUを含むことができる。エンコーダステージの前段に(Prepending)、マルチチャネルディスクリミネータは入力層を含むことができる。入力層は、上記の通りの非ストライド畳み込み層(非ストライドを表すストライド=1)であることができる。エンコーダステージに続いて、マルチチャネルディスクリミネータは、出力層を含むことができる。出力層は、フィルタサイズが1のN=1フィルタを有することができる(ディスクリミネータはシングル真/偽判断を行う)。この場合、出力層のフィルタサイズとエンコーダ層のフィルタサイズが異なることがある。したがって、出力層は隠れた活性化をダウンサンプリングしない1次元畳み込み層であることができる。
これは、出力層のフィルタがストライド1で動作し得る一方で、マルチチャネルディスクリミネータのエンコーダステージの前段のすべての層がストライド2を使用し得ることを意味する。あるいは、エンコーダステージの前段の層の各フィルタは、ストライド4で動作することができる。これにより、マルチチャネルディスクリミネータの全体的な層数を半分にすることができる。出力層の活性化は、少なくとも1つのエンコーダ層の活性化とは異なることができる。活性化はシグモイド型である。ただし、最小二乗法訓練アプローチを使用する場合は、シグモイド活性化は必要ないことがあるため、任意である。
マルチチャネルディスクリミネータは2つ以上のチャネルを入力として受け入れることができるが、シングルチャネルディスクリミネータは1つのチャネルのみを入力として受け入れることができる。したがって、シングルチャネルディスクリミネータのアーキテクチャは、シングルチャネルディスクリミネータが上記の前段層(prepended layer)を含まないという点で、マルチチャネルディスクリミネータのアーキテクチャとは若干異なる。
概して、マルチチャネルディスクリミネータは、チャネル間の空間関係を考慮して、全体的なプレゼンテーションの品質(例えば、マルチチャネル信号)を評価することを意味する。シングルチャネルディスクリミネータだけを採用した場合、チャネル間の関係を考慮することはできない。したがって、いくつかの実施形態では、シングルチャネルディスクリミネータとマルチチャネルディスクリミネータの両方を使用して、個々のチャネルとすべてのチャネルの品質をそれぞれ共同評価する。
解釈
特に断りのない限り、以下の議論から明らかなように、「処理」、「コンピューティング」、「決定」、「分析」等の用語を利用した開示議論を通して、電子的などの物理的な量として表されるデータを同様に物理的な量として表される他のデータにマニピュレート及び/又は変換する、コンピュータ又はコンピューティングシステム、又は同様の電子計算デバイスのアクション及び/又はプロセスを指すことが理解される。
同様の方法で、「プロセッサ」という用語は、例えば、レジスタ及び/又はメモリから電子データを処理して、その電子データを、例えば、レジスタ及び/又はメモリに格納することができる他の電子データに変換する装置又は装置の一部を指すことができる。「コンピュータ」、「コンピューティングマシン」、「コンピューティングプラットフォーム」は、1つ以上のプロセッサを含むことができる。
ここに記載されているメトロジーは、一例の実施形態において、1つ以上のプロセッサによって実行されたときに、ここに記載されている方法の少なくとも1つを実行する命令セットを含むコンピュータ可読(機械可読とも呼ばれる)コードを受け入れる1つ以上のプロセッサによって実行可能である。実行するアクションを指定する一連の命令(連続的又はそれ以外)を実行できる任意のプロセッサが含まれる。したがって、1つの実施例は、1つ以上のプロセッサを含む典型的な処理システムである。各プロセッサは、CPU、グラフィック処理ユニット及びプログラム可能なDSPユニットの1つ以上を含むことができる。処理システムはさらに、メインRAM及び/又はスタティックRAM及び/又はROMを含むメモリサブシステムを含むことができる。コンポーネント間の通信用にバスサブシステムが含まれることができる。さらに、処理システムは、ネットワークによって結合されたプロセッサを有する分散処理システムであることができる。処理システムがディスプレイを必要とする場合、例えば、液晶ディスプレイ(LCD)又は陰極線管(CRT)ディスプレイなどのディスプレイを含むことができる。手動でのデータ入力が必要な場合、処理システムは、キーボードなどの、1つ以上の英数字入力ユニット、マウスなどのポインティングコントロールデバイスなどの入力デバイスも含むことができる。処理システムは、ディスクドライブユニットなどのストレージシステムを含むこともできる。一部の構成の処理システムは、サウンド出力デバイスとネットワークインターフェイスデバイスを含むこともできる。したがって、メモリサブシステムは、1つ以上のプロセッサによって実行されたときに、ここで説明する1つ以上の方法を実行させるための命令セットを含むコンピュータ可読コード(例:ソフトウェア)を坦持するコンピュータ可読キャリア媒体を含む。方法が複数の要素、たとえば複数のステップを含む場合、特に明記されていない限り、そのような要素の順序付けは暗示されないことに留意されたい。ソフトウェアは、ハードディスク内に存在することもあれば、コンピュータシステムによる実行中にRAM内及び/又はプロセッサ内に完全に又は少なくとも部分的に存在することができる。したがって、メモリとプロセッサは、コンピュータが読み取り可能なコードを坦持するコンピュータ読み取り可能キャリア媒体も構成する。さらに、コンピュータで読み取り可能なキャリア媒体が形成されるか又はコンピュータプログラム製品に含まれることができる。
代替的実施形態では、1つ以上のプロセッサがスタンドアロンデバイスとして動作するか、又は他のプロセッサにネットワーク接続されることができ、ネットワーク展開では、1つ以上のプロセッサが、サーバ・ユーザーネットワーク環境でサーバ又はユーザマシンの容量で動作するか、又は、ピアツーピア又は分散ネットワーク環境でピアマシンとして動作することができる。1つ以上のプロセッサは、パーソナルコンピュータ(PC)、タブレットPC、パーソナルデジタルアシスタント(PDA)、携帯電話、ウェブアプライアンス、ネットワークルータ、スイッチ若しくはブリッジ、又はそのマシンによって実行されるアクションを指定する命令セット(連続的又はその他)を実行できる任意のマシンを形成することができる。
「マシン」という用語は、ここで議論されているメトロジーのいずれか1つ以上を実行するための命令のセット(又は複数のセット)を個別に又は共同で実行するマシンの集合も含むものとする。
したがって、ここに記載されている各方法の一つの例示的実施形態は、例えば、1つ以上のプロセッサ、例えば、ウェブサーバアレンジメントの一部である1つ以上のプロセッサ上で実行するためのコンピュータプログラムの、命令セットを坦持するコンピュータ可読キャリア媒体の形式である。したがって、当業者には理解されるように、本開示の例示的な実施形態は、方法、専用装置などの装置、データ処理システムなどの装置、又はコンピュータ可読キャリア媒体、例えばコンピュータプログラム製品として、具体化することができる。コンピュータ読み取り可能キャリア媒体は、1つ以上のプロセッサで実行されたときに、1つ以上のプロセッサに方法を実装させる命令のセットを含むコンピュータ読み取り可能コードを坦持する。したがって、本開示の態様は、方法、完全にハードウェアの例の実施形態、完全にソフトウェアの例の実施形態、又はソフトウェアとハードウェアの態様を組み合わせた例の実施形態の形態をとることができる。さらに、本開示は、媒体に具現化されたコンピュータ可読プログラムコードを担持するキャリア媒体(例えば、コンピュータ可読記憶媒体上のコンピュータプログラム製品)の形をとることができる。
ソフトウェアは、ネットワークインターフェイスデバイスを介してネットワーク上でさらに送受信されることができる。キャリア媒体は一例の実施形態では、単一媒体であるが、「キャリア媒体」という用語は、1つ以上の命令セットを格納する単一媒体又は複数媒体(例えば、集中型又は分散型データベース、及び/又は関連するキャッシュとサーバ)を含むものとみなすべきである。「キャリア媒体」という用語はまた、1つ以上のプロセッサによる実行のための命令セットを格納、エンコード又は坦持することができ、1つ以上のプロセッサに本開示のメトロジーのいずれか1つ以上を実行させる媒体を含むものとする。キャリア媒体は、不揮発性メディア、揮発性メディア、伝送メディアなど、さまざまな形式を取ることができる。不揮発性媒体は、例えば、光ディスク、磁気ディスク、光磁気ディスクなどを含む。揮発性メディアには、メインメモリなどの動的メモリが含まれる。伝送メディアは、バスサブシステムを構成するワイヤを含む、同軸ケーブル、銅線及び光ファイバーを含む。伝送媒体は、電波や赤外線データ通信の際に発生する音波や光波の形態をとることもできる。例えば、「キャリア媒体」という用語は、固体メモリ、光学的及び磁気的に実装されたコンピュータ製品、少なくとも1つのプロセッサ又は1つ以上のプロセッサによって検出可能な伝搬信号を保持し、実行時に方法を実装する一連の命令を表す媒体、1つ以上のプロセッサのうちの少なくとも1つのプロセッサによって検出可能であり、命令のセットを表す伝搬信号を担持する、ネットワーク内の伝送媒体、を含むが、これらに限定されないものと解釈されるべきである。
議論された方法のステップは、一例の実施形態において、ストレージに格納された(コンピュータ読み取り可能な)命令を実行する処理システムの適切な(1つ以上の)プロセッサ(例えばコンピュータ)によって実行されることが理解されるであろう。また、この開示は、特定の実装又はプログラミング技術に限定されず、ここに記載されている機能を実装するための適切な技術を使用して実装することができることも理解されるであろう。この開示は、特定のプログラミング言語やオペレーティングシステムに限定されない。
本開示全体を通しての「1つの実施形態」、「いくつかの実施形態」又は「一例の実施形態」あるいは「例示的実施形態」への言及は、その実施形態に関連して記述された特定の特徴、構造又は特性が、本開示の少なくとも1つの実施形態に含まれることを意味する。したがって、本開示全体を通して様々な場所に現れる「1つの実施形態において」、「いくつかの実施形態において」又は「一例の実施形態において」という語句の出現は、必ずしもすべてが同じ一例の実施形態を指しているわけではない。さらに、特定の特徴、構造又は特性は、1つ以上の例示的な実施形態において、本開示から当業者に明らかなように、任意の適切な方法で組み合わせることができる。
ここで使用されているように、特に明記されていない限り、共通の対象物を記述するための序数形容詞「第1」、「第2」、「第3」などの使用は、単に似た対象物の異なるインスタンスが参照されていることを示すだけであり、そのように記述されている対象物が、時間的、空間的、順位付け、又はその他の方法のいずれかで、所与のシーケンスになければならないことを意味するものではない。
以下の請求項及び本明細書中の説明において、備える又は有する(comprising, comprised of or which comprises)という用語のいずれかは、少なくとも後に続く要素/特徴を含むが、他を除外しないことを意味するオープンな用語である。したがって、備える又は有するという用語は、特許請求の範囲において使用される場合、その後に列挙された手段、要素又はステップに限定されると解釈されるべきではない。例えば、AとBを備えるデバイスという表現の範囲は、要素AとBだけで構成されるデバイスに限定されるべきではない。ここで使用されている含む(including or which includes)という用語のいずれかは、少なくとも後に続く要素/特徴を含むが、他を除外しないことを意味するオープンな用語である。したがって、含むは、有する、備えると同義であり、意味する。
開示の例示的な実施形態の上記の説明では、本開示の種々の特徴は、開示を合理化し、種々の発明態様のうちの1つ以上の理解を助ける目的で、単一の例示的実施形態、図面、又は記載にまとめられることがあることを認識すべきである。しかしながら、この開示方法は、各請求項に明示的に記載されているよりも多くの特徴を要求するという意図を反映していると解釈されるべきではない。むしろ、以下の特許請求の範囲が反映しているように、発明態様は、前述の開示された単一の一例の実施形態のすべての特徴よりも少ない特徴にある。したがって、本明細書に続く特許請求の範囲は、本明細書に明示的に組み込まれ、各請求項は、本開示の別個の例示的な実施形態として独立している。
さらに、ここに記載されているいくつかの例示的実施形態は、他の例の実施形態に含まれる他の特徴を含まないが、異なる例示的実施形態の特徴の組み合わせは、当業者に理解されるように、開示の範囲内にあることを意味し、異なる例示的実施形態を形成する。例えば、以下の特許請求の範囲では、請求項に記載されている任意の例示的実施形態も、任意の組み合わせで使用することができる。
本明細書に提供される説明において、多数の特定の詳細が記載されている。しかしながら、本開示の例示的な実施形態は、これらの特定の詳細なしに実施され得ることが理解される。他の例では、周知の方法、構造及び技術は、この説明の理解を不明瞭にしないために詳細には示されていない。
したがって、開示のベストモードと考えられるものが記載されているが、当業者は、開示の思想から逸脱することなく、他の及びさらなる変更が加えられる可能性があることを認識し、そのような変更及び変形はすべて開示の範囲内にあると主張することを意図している。たとえば、上記の式は、使用可能な手順を表しているにすぎない。ブロック図から機能を追加又は削除したり、機能ブロック間で動作を入れ替えることがでる。ステップは、本開示の範囲内で記述された方法に追加又は削除することができる。
本開示の種々の態様及び実装は、特許請求の範囲ではない以下の列挙された例示的実施形態(EEE)から理解され得る。
EEE1.
ダイナミックレンジ低減領域(a dynamic range reduced domain)において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号(an enhanced multi-channel audio signal)を生成する方法であって、方法は、
(a) オーディオビットストリームを受信するステップと、
(b) オーディオビットストリームをコアデコーディングするステップ、及び、受信したオーディオビットストリーム(受信オーディオビットストリーム)に基づいてダイナミックレンジが低減したrawマルチチャネルオーディオ信号(ダイナミックレンジ低減rawマルチチャネルオーディオ信号:a dynamic range reduced raw multi-channel audio signal)を取得する、ステップであって、ダイナミックレンジ低減rawマルチチャネルオーディオ信号は、2つ以上のチャネルを含む、ステップと、
(c) ダイナミックレンジ低減rawマルチチャネルオーディオ信号を共同処理するために、ダイナミックレンジ低減rawマルチチャネルオーディオ信号をマルチチャネルジェネレータに入力するステップと、
(d) ダイナミックレンジ低減領域において、マルチチャネルジェネレータによってダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調する(jointly enhancing)ステップと、
(e) マルチチャネルジェネレータからの出力として、後続の前記ダイナミックレンジの拡張のために、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得するステップであって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は2つ以上のチャネルを有する、ステップと、
を含む。
EEE2.
EEE1による方法であって、ステップ(b)は、オーディオビットストリームをコアデコーディングするステップの後、ダイナミックレンジ低減動作(dynamic range reduction operation)を実行して、ダイナミックレンジ低減rawマルチチャネルオーディオ信号を取得する、ステップをさらに含む。
EEE3.
EEE1による方法であって、オーディオビットストリームはAC-4フォーマットである。
EEE4.
EEE1乃至3いずれかによる方法であって、方法は、2つ以上のチャネルで拡張動作を実行することによって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張するステップ(f)をさらに含む。
EEE5.
EEE4による方法であって、拡張動作は、それぞれのゲイン値を計算するためのスペクトルの大きさのpノルムに基づくコンパンディング動作(a companding operation)である。
EEE6.
EEE1乃至3いずれかによる方法であって、受信オーディオビットストリームは、メタデータを含み、ステップ(a)は、受信オーディオビットストリームをデマルチプレクシングする(demultiplexing)ステップを含む。
EEE7.
EEE6による方法であって、ステップ(d)において、マルチチャネルジェネレータによってダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調するステップは、メタデータに基づく。
EEE8.
EEE7による方法であって、メタデータは、コンパンディング制御データの1つ以上のアイテムを含む。
EEE9.
EEE8による方法であって、コンパンディング制御データは、マルチチャネルオーディオ信号のエンコーディングに使用されていた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む。
EEE10.
EEE9による方法であって、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む。
EEE11.
EEE9又は10による方法であって、ステップ(d)において、マルチチャネルジェネレータによってダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存する。
EEE12.
EEE10に従属するEEE11による方法であって、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されない。
EEE13.
EEE1乃至12いずれかによる方法であって、マルチチャネルジェネレータは、敵対的生成ネットワーク設定でダイナミックレンジ低減領域において訓練されたジェネレータである。
EEE14.
EEE1乃至13いずれかによる方法であって、マルチチャネルジェネレータは、鏡面対称(a mirror symmetric manner)に配置されたエンコーダステージ及びデコーダステージを含み、エンコーダステージ及びデコーダステージはそれぞれ、各層内にN個のフィルタを有するL個の層を含み、Lは1より大きい自然数であり、Nは1より大きい自然数であり、エンコーダステージ及びデコーダステージの各層内のN個のフィルタのサイズは同一であり、エンコーダステージ及びデコーダステージのN個のフィルタのそれぞれは、1より大きいストライドで動作する。
EEE15.
EEE14による方法であって、エンコーダステージの少なくとも1つの層及びデコーダステージの少なくとも1つの層において、ReLU、PReLU、LReLU、eLU及びSeLのうちの1つ以上を含む非線形動作が実行される。
EEE16.
EEE14又は15による方法であって、マルチチャネルジェネレータはさらに、エンコーダステージに先行する入力層として、非ストライド畳み込み層を含む。
EEE17.
EEE14乃至16いずれかによる方法であって、マルチチャネルジェネレータはさらに、デコーダステージの後続の出力層として、非ストライド置換された畳み込み層(a non-strided transposed convolutional layer)を含む。
EEE18.
EEE14乃至17いずれかによる方法であって、マルチチャネルジェネレータのそれぞれの同種層(homologous layers)間に1つ以上のスキップ接続が存在する。
EEE19.
EEE14乃至18いずれかによる方法であって、マルチチャネルジェネレータは、エンコーダステージ及びデコーダステージの間に、ダイナミックレンジが低減されたコード化されたマルチチャネルオーディオ特徴空間に少なくとも基づいて、ダイナミックレンジ低減領域においてマルチチャネルオーディオを変更するためのステージを含む。
EEE20.
EEE19による方法であって、ランダムノイズベクトルzは、ダイナミックレンジ低減領域においてマルチチャネルオーディオを変更するために、ダイナミックレンジが低減されたコード化されたマルチチャネルオーディオ特徴空間内で用いられる。
EEE21.
EEE20による方法であって、ランダムノイズベクトルzの使用は、オーディオビットストリームのビットレート及びマルチチャネルオーディオ信号のチャネルの数を条件とする。
EEE22.
EEE1乃至21いずれかによる方法であって、方法はさらに、ステップ(a)の前に実行されるべき以下のステップ:
(i) ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号)をマルチチャネルジェネレータに入力するステップであって、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号は2つ以上のチャネルを含む、ステップと;
(ii) マルチチャネルジェネレータによって、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号に基づいて、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号(強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号)を共同生成するステップと;
(iii) 強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号の前記2つ以上のチャネルの各チャネル、及び、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号が導出される、元のダイナミックレンジ低減マルチチャネルオーディオ信号の対応するチャネルを、1つ以上のシングルチャネルディスクリミネータの群のうちの1つの(out of)シングルチャネルディスクリミネータに、一度に1つずつ(one at a time)入力するステップと;
(iv) 強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号及び対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号をマルチチャネルディスクリミネータに一度に1つずつさらに入力するステップと;
(v) シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータによって、入力ダイナミックレンジ低減マルチチャネルオーディオ信号が強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号であるか又は元のダイナミックレンジ低減マルチチャネルオーディオ信号であるかどうかを判断するステップと;
(vi) シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータが元のダイナミックレンジ低減マルチチャネルオーディオ信号から強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を最早区別することができなくなるまで、マルチチャネルジェネレータのパラメータをチューニングするステップと、を含む。
EEE23.
EEE22による方法であって、1つ以上のシングルチャネルディスクリミネータの群は、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択され、元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、5.1タイプマルチチャネルオーディオ信号、7.1タイプマルチチャネルオーディオ信号、又は、9.1タイプマルチチャネルオーディオ信号を含む。
EEE24.
EEE22又は23による方法であって、ステップ(i)において、付加的に、ランダムノイズベクトルzはマルチチャネルジェネレータへの入力であり、ステップ(ii)におけるマルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にランダムノイズベクトルzに基づく。
EEE25.
EEE22乃至24いずれかによる方法であって、ステップ(i)において、付加的なメタデータはマルチチャネルジェネレータへの入力であり、ステップ(ii)におけるマルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にメタデータに基づく。
EEE26.
EEE25による方法であって、メタデータは、コンパンディング制御データの1つ以上のアイテムを含む。
EEE27.
EEE26による方法であって、コンパンディング制御データは、元のマルチチャネルオーディオ信号のエンコーディングに用いられた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む。
EEE28.
EEE27による方法であって、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む。
EEE29.
EEE27又は28による方法であって、ステップ(ii)におけるマルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存する。
EEE30.
EEE28に従属するEEE29による方法であって、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されない。
EEE31.
マルチチャネルジェネレータと、1つ以上のシングルチャネルディスクリミネータの群と、マルチチャネルディスクリミネータと、を有する敵対的生成ネットワークの設定で、ダイナミックレンジ低減領域においてマルチチャネルジェネレータを訓練する方法であって、方法は、
(a) ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号をマルチチャネルジェネレータに入力するステップであって、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号は2つ以上のチャネルを含む、ステップと、
(b) マルチチャネルジェネレータによって、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号に基づいて、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップと、
(c) 強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号の2つ以上のチャネルの各チャネル、及び、ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号が導出される、元のダイナミックレンジ低減マルチチャネルオーディオ信号の対応するチャネルを、1つ以上のシングルチャネルディスクリミネータの群のうちの1つのシングルチャネルディスクリミネータに、一度に1つずつ入力するステップと、
(d) 強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号及び対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号をマルチチャネルディスクリミネータに一度に1つずつさらに入力するステップと、
(e) シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータによって、入力ダイナミックレンジ低減マルチチャネルオーディオ信号が強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号又は元のダイナミックレンジ低減マルチチャネルオーディオ信号であるかどうかを判断するステップと、
(f) シングルチャネルディスクリミネータ及びマルチチャネルディスクリミネータが元のダイナミックレンジ低減マルチチャネルオーディオ信号から強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を最早区別することができなくなるまで、マルチチャネルジェネレータのパラメータをチューニングするステップと、を含む。
EEE32.
EEE36による方法であって、1つ以上のシングルチャネルディスクリミネータの群は、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択され、元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、5.1タイプマルチチャネルオーディオ信号、7.1タイプマルチチャネルオーディオ信号、又は、9.1タイプマルチチャネルオーディオ信号を含む。
EEE33.
EEE31又は32による方法であって、ステップ(i)において、付加的に、ランダムノイズベクトルzはマルチチャネルジェネレータへの入力であり、ステップ(ii)におけるマルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にランダムノイズベクトルzに基づく。
EEE34.
EEE31乃至33いずれかによる方法であって、ステップ(i)において、付加的なメタデータはマルチチャネルジェネレータへの入力であり、ステップ(ii)において、マルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的にメタデータに基づく。
EEE35.
EEE34による方法であって、メタデータは、コンパンディング制御データの1つ以上のアイテムを含む。
EEE36.
EEE35による方法であって、コンパンディング制御データは、元のマルチチャネルオーディオ信号のエンコーディングに用いられた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む。
EEE37.
EEE36による方法であって、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む。
EEE38.
EEE36又は37による方法であって、ステップ(ii)におけるマルチチャネルジェネレータによって強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、コンパンディング制御データによって示されるコンパンディングモードに依存する。
EEE39.
EEE37に従属するEEE38による方法であって、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータによる共同強調は実行されない。
EEE40.
ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置であって、装置は、
(a) オーディオビットストリームを受信するための受信器と、
(b) オーディオビットストリームをコアデコーディングし、受信したオーディオビットストリーム(受信オーディオビットストリーム)に基づいてダイナミックレンジが低減したrawマルチチャネルオーディオ信号(ダイナミックレンジ低減rawマルチチャネルオーディオ信号)を取得するためのコアデコーダであって、ダイナミックレンジ低減rawマルチチャネルオーディオ信号は、2つ以上のチャネルを含む、コアデコーダと、
(c) ダイナミックレンジ低減領域において、ダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調し、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得する、マルチチャネルジェネレータであって、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は2つ以上のチャネルを有する、マルチチャネルジェネレータと、を備える。
EEE41.
EEE40による装置であって、受信オーディオビットストリームをデマルチプレクシングするデマルチプレクサであって、受信オーディオビットストリームは、メタデータを含む、デマルチプレクサをさらに含む。
EEE42.
EEE41による装置であって、メタデータは、コンパンディング制御データの1つ以上のアイテムを含む。
EEE43.
EEE42による装置であって、
コンパンディング制御データは、マルチチャネルオーディオ信号のエンコーディングに使用されていた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む。
EEE44.
EEE43による装置であって、コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む。
EEE45.
EEE43又はEEE44による装置、マルチチャネルジェネレータは、コンパンディング制御データによって示されるコンパンディングモードに依存するダイナミックレンジ低減領域において、ダイナミックレンジ低減rawマルチチャネルオーディオ信号の2つ以上のチャネルを共同強調するように構成されている。
EEE46.
EEE44に従属するEEE45による装置であって、コンパンディングモードがコンパンディングオフである場合、マルチチャネルジェネレータは共同強調を実行しないように構成されている。
EEE47.
EEE40乃至46いずれかによる装置であって、装置は、2つ以上のチャネルに拡張動作を実行して、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張する、ように構成された拡張ユニット(an expansion unit)をさらに含む。
EEE48.
EEE40乃至46いずれかによる装置であって、前記装置は、オーディオビットストリームをコアデコーディングした後に領域レンジ低減動作を実行して、ダイナミックレンジ低減rawマルチチャネルオーディオ信号を取得する、ように構成されたダイナミックレンジ低減ユニットをさらに含む。
EEE49.
処理能力を有するデバイスによって実行されたときに、EEE1乃至EEE30いずれかによる方法をデバイスに実行させるように適合された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品。
EEE50.
処理能力を有するデバイスによって実行されたときに、EEE31乃至EEE39いずれかによる方法をデバイスに実行させるように適合された命令を有するコンピュータ可読記憶媒体を含む、コンピュータプログラム製品。
EEE51.
ダイナミックレンジ低減領域においてオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置と、敵対的生成ネットワークとのシステムであって、敵対的生成ネットワークはマルチチャネルジェネレータと、1つ以上のシングルチャネルディスクリミネータの群と、マルチチャネルディスクリミネータとを有し、システムは、EEE1乃至30いずれかによる方法を実行するように構成されている、システム。
EEE52.
ダイナミックレンジ低減を入力マルチチャネルオーディオ信号に適用し、オーディオビットストリーム内のダイナミックレンジ低減マルチチャネルオーディオ信号をエンコーディングする装置、及び、ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含む、オーディオビットストリームから強調マルチチャネルオーディオ信号を生成する、EEE40乃至48いずれかによる装置、のシステム。

Claims (52)

  1. ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する方法であって、
    当該方法は、
    オーディオビットストリームを受信するステップと、
    前記オーディオビットストリームをコアデコーディングするステップ、及び、受信した前記オーディオビットストリーム(受信オーディオビットストリーム)に基づいてダイナミックレンジが低減されたrawマルチチャネルオーディオ信号(ダイナミックレンジ低減rawマルチチャネルオーディオ信号)を取得する、ステップであって、前記ダイナミックレンジ低減rawマルチチャネルオーディオ信号は、2つ以上のチャネルを含む、ステップと、
    前記ダイナミックレンジ低減rawマルチチャネルオーディオ信号を共同処理するために、前記ダイナミックレンジ低減rawマルチチャネルオーディオ信号をマルチチャネルジェネレータに入力するステップと、
    前記ダイナミックレンジ低減領域において、前記マルチチャネルジェネレータによって前記ダイナミックレンジ低減rawマルチチャネルオーディオ信号の前記2つ以上のチャネルを共同強調するステップと、
    前記マルチチャネルジェネレータからの出力として、後続の前記ダイナミックレンジの拡張のために、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得するステップであって、前記強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は2つ以上のチャネルを有する、ステップと、
    を含む、方法。
  2. 前記オーディオビットストリームをコアデコーディングするステップの後、ダイナミックレンジ低減動作を実行して、前記ダイナミックレンジ低減rawマルチチャネルオーディオ信号を取得する、ステップをさらに含む、
    請求項1記載の方法。
  3. 前記オーディオビットストリームはAC-4フォーマットである、
    請求項1記載の方法。
  4. 当該方法は、前記2つ以上のチャネルで拡張動作を実行することによって、前記強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張するステップをさらに含む、
    請求項1記載の方法。
  5. 前記拡張動作は、それぞれのゲイン値を計算するためのスペクトルの大きさのpノルムに基づくコンパンディング動作である、
    請求項4記載の方法。
  6. 前記受信オーディオビットストリームは、メタデータを含み、
    前記オーディオビットストリームを受信するステップは、前記受信オーディオビットストリームをデマルチプレクシングするステップを含む、
    請求項1乃至5いずれか1項記載の方法。
  7. 前記マルチチャネルジェネレータによって前記ダイナミックレンジ低減rawマルチチャネルオーディオ信号の前記2つ以上のチャネルを共同強調するステップは、前記メタデータに基づく、
    請求項6記載の方法。
  8. 前記メタデータは、コンパンディング制御データの1つ以上のアイテムを含む、
    請求項7記載の方法。
  9. 前記コンパンディング制御データは、前記マルチチャネルオーディオ信号のエンコーディングに使用されていた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む、
    請求項8記載の方法。
  10. 前記コンパンディングモードは、コンパンディングオンの前記コンパンディングモード、コンパンディングオフの前記コンパンディングモード及び平均コンパンディングの前記コンパンディングモードを含む、
    請求項9記載の方法。
  11. 前記マルチチャネルジェネレータによって前記ダイナミックレンジ低減rawマルチチャネルオーディオ信号の前記2つ以上のチャネルを共同強調するステップは、前記コンパンディング制御データによって示される前記コンパンディングモードに依存する、
    請求項9又は10記載の方法。
  12. 前記コンパンディングモードがコンパンディングオフである場合、前記マルチチャネルジェネレータによる共同強調は実行されない、
    請求項10に従属する請求項11記載の方法。
  13. 前記マルチチャネルジェネレータは、敵対的生成ネットワーク設定でダイナミックレンジ低減領域において訓練されたジェネレータである、
    請求項1乃至12いずれか1項記載の方法。
  14. 前記マルチチャネルジェネレータは、鏡面対称に配置されたエンコーダステージ及びデコーダステージを含み、
    前記エンコーダステージ及び前記デコーダステージはそれぞれ、各層内にN個のフィルタを有するL個の層を含み、
    Lは1より大きい自然数であり、
    Nは1より大きい自然数であり、
    前記エンコーダステージ及び前記デコーダステージの各層内の前記N個のフィルタのサイズは同一であり、
    前記エンコーダステージ及び前記デコーダステージの前記N個のフィルタのそれぞれは、1より大きいストライドで動作する、
    請求項1乃至13いずれか1項記載の方法。
  15. 前記マルチチャネルジェネレータはさらに、前記エンコーダステージに先行する入力層として、非ストライド畳み込み層を含む、
    請求項14記載の方法。
  16. 前記エンコーダステージの少なくとも1つの層及び前記デコーダステージの少なくとも1つの層において、ReLU、PReLU、LReLU、eLU及びSeLのうちの1つ以上を含む非線形動作が実行される、
    請求項14又は15記載の方法。
  17. 前記マルチチャネルジェネレータはさらに、前記デコーダステージの後続の出力層として、非ストライド置換された畳み込み層を含む、
    請求項14乃至16いずれか1項記載の方法。
  18. マルチチャネルジェネレータのそれぞれの同種層間に1つ以上のスキップ接続が存在する、
    請求項14乃至17いずれか1項記載の方法。
  19. 前記マルチチャネルジェネレータは、前記エンコーダステージ及び前記デコーダステージの間に、ダイナミックレンジが低減されたコード化されたマルチチャネルオーディオ特徴空間に少なくとも基づいて、前記ダイナミックレンジ低減領域においてマルチチャネルオーディオを変更するためのステージを含む、
    請求項14乃至18いずれか1項記載の方法。
  20. ランダムノイズベクトルzは、前記ダイナミックレンジ低減領域においてマルチチャネルオーディオを変更するために、前記ダイナミックレンジが低減されたコード化されたマルチチャネルオーディオ特徴空間内で用いられる、
    請求項19記載の方法。
  21. 前記ランダムノイズベクトルzの使用は、前記オーディオビットストリームのビットレート及び前記マルチチャネルオーディオ信号のチャネルの数を条件とする、
    請求項20記載の方法。
  22. 前記方法はさらに、前記オーディオビットストリームを受信するステップの前に実行されるべき以下のステップ:
    ダイナミックレンジが低減されたrawマルチチャネルオーディオ訓練信号(ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号)を前記マルチチャネルジェネレータに入力するステップであって、前記ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号は2つ以上のチャネルを有する、ステップと、
    前記マルチチャネルジェネレータによって、前記ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号に基づいて、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号(強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号)を共同生成するステップと、
    前記強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号の前記2つ以上のチャネルの各チャネル、及び、前記ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号が導出される、元のダイナミックレンジ低減マルチチャネルオーディオ信号の対応するチャネルを、1つ以上のシングルチャネルディスクリミネータの群のうちの1つのシングルチャネルディスクリミネータに、一度に1つずつ入力するステップと、
    前記強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号及び前記対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号をマルチチャネルディスクリミネータに一度に1つずつさらに入力するステップと、
    前記シングルチャネルディスクリミネータ及び前記マルチチャネルディスクリミネータによって、入力された前記ダイナミックレンジ低減マルチチャネルオーディオ信号が前記強調ダイナミックレンジ低減マルチチャネルオーディオ訓練信号であるか又は前記元のダイナミックレンジ低減マルチチャネルオーディオ信号であるかどうかを判断するステップと、
    前記シングルチャネルディスクリミネータ及び前記マルチチャネルディスクリミネータが前記元のダイナミックレンジ低減マルチチャネルオーディオ信号から前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を最早区別することができなくなるまで、前記マルチチャネルジェネレータのパラメータをチューニングするステップと、
    を含む、請求項1乃至21いずれか1項記載の方法。
  23. 前記1つ以上のシングルチャネルディスクリミネータの前記群は、前記元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択され、
    前記元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、5.1タイプマルチチャネルオーディオ信号、7.1タイプマルチチャネルオーディオ信号、又は、9.1タイプマルチチャネルオーディオ信号を含む、
    請求項22記載の方法。
  24. 付加的に、ランダムノイズベクトルzは前記マルチチャネルジェネレータへの入力であり、
    前記マルチチャネルジェネレータによって前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的に前記ランダムノイズベクトルzに基づく、
    請求項22又は23記載の方法。
  25. 付加的なメタデータは前記マルチチャネルジェネレータへの入力であり、
    前記マルチチャネルジェネレータによって前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的に前記メタデータに基づく、
    請求項22乃至24いずれか1項記載の方法。
  26. 前記メタデータは、コンパンディング制御データの1つ以上のアイテムを含む、
    請求項25記載の方法。
  27. 前記コンパンディング制御データは、前記元のマルチチャネルオーディオ信号のエンコーディングに用いられた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む、
    請求項26記載の方法。
  28. 前記コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む、
    請求項27記載の方法。
  29. 前記マルチチャネルジェネレータによって、前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、前記コンパンディング制御データによって示される前記コンパンディングモードに依存する、
    請求項27又は28記載の方法。
  30. 前記コンパンディングモードがコンパンディングオフである場合、前記マルチチャネルジェネレータによる共同強調は実行されない、
    請求項28を引用する請求項29記載の方法。
  31. マルチチャネルジェネレータと、1つ以上のシングルチャネルディスクリミネータの群と、マルチチャネルディスクリミネータと、を有する敵対的生成ネットワークの設定で、ダイナミックレンジ低減領域においてマルチチャネルジェネレータを訓練する方法であって、前記方法は、
    ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号を前記マルチチャネルジェネレータに入力するステップであって、前記ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号は2つ以上のチャネルを含む、ステップと、
    前記マルチチャネルジェネレータによって、前記ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号に基づいて、強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップと、
    前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号の前記2つ以上のチャネルの各チャネル、及び、前記ダイナミックレンジ低減rawマルチチャネルオーディオ訓練信号が導出される、元のダイナミックレンジ低減マルチチャネルオーディオ信号の対応するチャネルを、前記1つ以上のシングルチャネルディスクリミネータの群のうちの1つのシングルチャネルディスクリミネータに、一度に1つずつ入力するステップと、
    前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号及び前記対応する元のダイナミックレンジ低減マルチチャネルオーディオ信号を前記マルチチャネルディスクリミネータに一度に1つずつさらに入力するステップと、
    前記シングルチャネルディスクリミネータ及び前記マルチチャネルディスクリミネータによって、入力された前記ダイナミックレンジ低減マルチチャネルオーディオ信号が前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号又は前記元のダイナミックレンジ低減マルチチャネルオーディオ信号であるかどうかを判断するステップと、
    前記シングルチャネルディスクリミネータ及び前記マルチチャネルディスクリミネータが前記元のダイナミックレンジ低減マルチチャネルオーディオ信号から前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を最早区別することができなくなるまで、前記マルチチャネルジェネレータのパラメータをチューニングするステップと、
    を含む方法。
  32. 前記1つ以上のシングルチャネルディスクリミネータの群は、元のダイナミックレンジ低減マルチチャネルオーディオ信号のタイプに基づいて選択され、
    前記元のダイナミックレンジ低減マルチチャネルオーディオ信号は、ステレオタイプマルチチャネルオーディオ信号、5.1タイプマルチチャネルオーディオ信号、7.1タイプマルチチャネルオーディオ信号、又は、9.1タイプマルチチャネルオーディオ信号を含む、
    請求項31記載の方法。
  33. 付加的に、ランダムノイズベクトルzは前記マルチチャネルジェネレータへの入力であり、
    前記マルチチャネルジェネレータによって前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的に前記ランダムノイズベクトルzに基づく、
    請求項31又は32記載の方法。
  34. 付加的なメタデータは前記マルチチャネルジェネレータへの入力であり、
    前記マルチチャネルジェネレータによって前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、付加的に前記メタデータに基づく、
    請求項31乃至33いずれか1項記載の方法。
  35. 前記メタデータは、コンパンディング制御データの1つ以上のアイテムを含む、
    請求項34記載の方法。
  36. 前記コンパンディング制御データは、前記元のマルチチャネルオーディオ信号のエンコーディングに用いられた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む、
    請求項35記載の方法。
  37. 前記コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む、
    請求項36記載の方法。
  38. 前記マルチチャネルジェネレータによって前記強調されたダイナミックレンジ低減マルチチャネルオーディオ訓練信号を共同生成するステップは、前記コンパンディング制御データによって示される前記コンパンディングモードに依存する、
    請求項36又は37記載の方法。
  39. 前記コンパンディングモードがコンパンディングオフである場合、前記マルチチャネルジェネレータによる共同強調は実行されない、
    請求項37に従属する請求項38記載の方法。
  40. ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから強調されたマルチチャネルオーディオ信号を生成する装置であって、装置は、
    前記オーディオビットストリームを受信するための受信器と、
    前記オーディオビットストリームをコアデコーディングし、受信した前記オーディオビットストリーム(受信オーディオビットストリーム)に基づいてダイナミックレンジが低減したrawマルチチャネルオーディオ信号(ダイナミックレンジ低減rawマルチチャネルオーディオ信号)を取得するためのコアデコーダであって、前記ダイナミックレンジ低減rawマルチチャネルオーディオ信号は2つ以上のチャネルを含む、コアデコーダと、
    前記ダイナミックレンジ低減領域において、前記ダイナミックレンジ低減rawマルチチャネルオーディオ信号の前記2つ以上のチャネルを共同強調し、強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を取得する、マルチチャネルジェネレータであって、前記強調されたダイナミックレンジ低減マルチチャネルオーディオ信号は2つ以上のチャネルを有する、マルチチャネルジェネレータと、
    を備える装置。
  41. 前記受信オーディオビットストリームをデマルチプレクシングするデマルチプレクサであって、前記受信オーディオビットストリームはメタデータを含む、デマルチプレクサをさらに含む、
    請求項40記載の装置。
  42. 前記メタデータは、コンパンディング制御データの1つ以上のアイテムを含む、
    請求項41記載の装置。
  43. 前記コンパンディング制御データは、前記マルチチャネルオーディオ信号のエンコーディングに使用されていた、1つ以上のコンパンディングモードの中のコンパンディングモードに関する情報を含む、
    請求項42記載の装置。
  44. 前記コンパンディングモードは、コンパンディングオンのコンパンディングモード、コンパンディングオフのコンパンディングモード及び平均コンパンディングのコンパンディングモードを含む、
    請求項43記載の装置。
  45. 前記マルチチャネルジェネレータは、前記コンパンディング制御データによって示される前記コンパンディングモードに依存する前記ダイナミックレンジ低減領域において、前記ダイナミックレンジ低減rawマルチチャネルオーディオ信号の前記2つ以上のチャネルを共同強調するように構成されている、
    請求項43又は44記載の装置。
  46. 前記コンパンディングモードがコンパンディングオフである場合、前記マルチチャネルジェネレータは共同強調を実行しないように構成されている、
    請求項44に従属する請求項45記載装置。
  47. 前記装置は、
    前記2つ以上のチャネルに拡張動作を実行して、前記強調されたダイナミックレンジ低減マルチチャネルオーディオ信号を拡張されたダイナミックレンジ領域に拡張する、ように構成された拡張ユニットをさらに含む、
    請求項40乃至46いずれか1項記載の装置。
  48. 前記装置は、
    前記オーディオビットストリームをコアデコーディングした後に領域レンジ低減動作を実行して、前記ダイナミックレンジ低減rawマルチチャネルオーディオ信号を取得する、ように構成されたダイナミックレンジ低減ユニットをさらに含む、
    請求項40乃至47いずれか1項記載の装置。
  49. 処理能力を有するデバイスによって実行されたときに、請求項1乃至30いずれか1項記載の方法を前記デバイスに実行させるように適合された命令を有するコンピュータプログラム。
  50. 処理能力を有するデバイスによって実行されたときに、請求項31乃至39いずれか1項記載の方法を前記デバイスに実行させるように適合された命令を有するコンピュータプログラム。
  51. ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含むオーディオビットストリームから、強調されたマルチチャネルオーディオ信号を生成する装置と、
    マルチチャネルジェネレータ、1つ以上のシングルチャネルディスクリミネータの群、及びマルチチャネルディスクリミネータを有する敵対的生成ネットワークと、のシステムであって、
    前記システムは、請求項1乃至30いずれか1項記載の方法を実行するように構成されている、システム。
  52. ダイナミックレンジ低減を入力マルチチャネルオーディオ信号に適用し、オーディオビットストリーム内の前記ダイナミックレンジ低減マルチチャネルオーディオ信号をエンコーディングする装置と、
    ダイナミックレンジ低減領域において、マルチチャネルオーディオ信号を含む、オーディオビットストリームから強調マルチチャネルオーディオ信号を生成する、請求項40乃至48いずれか1項記載の装置と、
    のシステム。
JP2022565983A 2020-04-30 2021-04-29 ダイナミックレンジ低減領域においてマルチチャネルオーディオを強調するための方法、装置、及びシステム Pending JP2023523763A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202063018282P 2020-04-30 2020-04-30
US63/018,282 2020-04-30
EP20175654.1 2020-05-20
EP20175654 2020-05-20
PCT/EP2021/061283 WO2021219798A2 (en) 2020-04-30 2021-04-29 Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain

Publications (1)

Publication Number Publication Date
JP2023523763A true JP2023523763A (ja) 2023-06-07

Family

ID=75639918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022565983A Pending JP2023523763A (ja) 2020-04-30 2021-04-29 ダイナミックレンジ低減領域においてマルチチャネルオーディオを強調するための方法、装置、及びシステム

Country Status (5)

Country Link
US (1) US20230178084A1 (ja)
EP (1) EP4143825A2 (ja)
JP (1) JP2023523763A (ja)
CN (1) CN115485769A (ja)
WO (1) WO2021219798A2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114609493B (zh) * 2022-05-09 2022-08-12 杭州兆华电子股份有限公司 一种信号数据增强的局部放电信号识别方法
CN115985330A (zh) * 2022-12-29 2023-04-18 南京硅基智能科技有限公司 一种音频编解码的系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9947335B2 (en) 2013-04-05 2018-04-17 Dolby Laboratories Licensing Corporation Companding apparatus and method to reduce quantization noise using advanced spectral extension

Also Published As

Publication number Publication date
EP4143825A2 (en) 2023-03-08
CN115485769A (zh) 2022-12-16
US20230178084A1 (en) 2023-06-08
WO2021219798A2 (en) 2021-11-04
WO2021219798A3 (en) 2021-12-09

Similar Documents

Publication Publication Date Title
TWI405187B (zh) 可縮放語音及音訊編碼解碼器、包括可縮放語音及音訊編碼解碼器之處理器、及用於可縮放語音及音訊編碼解碼器之方法及機器可讀媒體
KR101586317B1 (ko) 신호 처리 방법 및 장치
JP7019096B2 (ja) 低ビットレート符号化オーディオの増強を制御する方法及び機器
JP2009524108A (ja) 拡張帯域周波数コーディングによる複素変換チャネルコーディング
KR20200067954A (ko) 고차 앰비소닉스 신호 표현의 압축 및 압축 해제 방법 및 장치
KR102089602B1 (ko) 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램
JP6585094B2 (ja) Hoa信号表現のサブバンド内の優勢な方向性信号の方向のエンコード/デコードのための方法および装置
JP2017523451A (ja) 圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置
JP2023523763A (ja) ダイナミックレンジ低減領域においてマルチチャネルオーディオを強調するための方法、装置、及びシステム
JP4842147B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
JP2017523454A (ja) Hoa信号表現のサブバンド内の優勢な方向性信号の方向のエンコード/デコードのための方法および装置
EP4158624A1 (en) Method and apparatus for determining parameters of a generative neural network
JP6585095B2 (ja) 圧縮hoa表現をデコードする方法および装置ならびに圧縮hoa表現をエンコードする方法および装置
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
JP2017523452A (ja) Hoa信号表現のサブバンド内の優勢な方向性信号の方向のエンコード/デコードのための方法および装置
US20240021210A1 (en) Method and apparatus for neural network based processing of audio using sinusoidal activation
US20240055006A1 (en) Method and apparatus for processing of audio data using a pre-configured generator
US20220392458A1 (en) Methods and system for waveform coding of audio signals with a generative model
KR20220050924A (ko) 오디오 코딩을 위한 다중 래그 형식
CN117935840A (zh) 由终端设备执行的方法和设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240425