JP7019096B2 - 低ビットレート符号化オーディオの増強を制御する方法及び機器 - Google Patents

低ビットレート符号化オーディオの増強を制御する方法及び機器 Download PDF

Info

Publication number
JP7019096B2
JP7019096B2 JP2021510118A JP2021510118A JP7019096B2 JP 7019096 B2 JP7019096 B2 JP 7019096B2 JP 2021510118 A JP2021510118 A JP 2021510118A JP 2021510118 A JP2021510118 A JP 2021510118A JP 7019096 B2 JP7019096 B2 JP 7019096B2
Authority
JP
Japan
Prior art keywords
audio data
audio
augmented
metadata
augmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021510118A
Other languages
English (en)
Other versions
JP2021525905A (ja
Inventor
ビスワス,アリジート
ダイ,ジア
スティーヴン マスター,アーロン
Original Assignee
ドルビー・インターナショナル・アーベー
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー, ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2021525905A publication Critical patent/JP2021525905A/ja
Application granted granted Critical
Publication of JP7019096B2 publication Critical patent/JP7019096B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

[関連出願]
本願は、PCT出願番号PCT/CN2018/103317号、2018年8月30日出願、米国仮特許出願番号第62/733,409号、2018年9月19日出願、及び米国仮特許出願番号第62/850,117号、2019年5月20日出願、の優先権を主張する。これらの出願の各々は、参照によりそれらの全体がここに組み込まれる。
[技術分野]
本開示は、概して、オーディオデータの低ビットレート符号化、及びデコーダ側における低ビットレート符号化オーディオデータのオーディオ増強を制御するための増強メタデータの生成の方法に関し、より詳細には、符号化オーディオデータをコア復号した後にデコーダ側でオーディオ増強種類及び/又は量を制御するために使用されるべき増強メタデータを生成することに関する。本開示は、更に、それぞれのエンコーダ、増強メタデータに基づき低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法、並びにそれぞれのデコーダ、に関する。
幾つかの実施形態はその開示を特に参照して本願明細書に記載されるが、理解されるべきことに、本開示はそのような利用分野に限定されず、より広い状況において適用可能である。
本開示を通じて背景技術のいかなる議論も、そのような技術が広く知られていること又は当分野における共通の一般知識を形成することの自認として考えられるべきではない。
近年、特に深層学習アプローチがオーディオ増強に大きな進歩を提供し得ることが分かってきた。
オーディオ録音システムは、オーディオ信号を、伝送又は記憶に適する符号化信号へと符号化し、次に後に受信し又は読み出し、再生のために符号化信号を復号して元のオーディオ信号のバージョンを取得するために使用される。低ビットレート符号化は、帯域幅及び記憶要件の低減を可能にする知覚オーディオ圧縮技術である。知覚オーディオ符号化システムの例は、Dolby-AC3、Advanced Audio Coding(AAC)、ETSIにより標準化されATSC3.0に含まれる、より最近の標準化されたDolby AC-4オーディオ符号化システム、を含む。
しかしながら、低ビットレートオーディオ符号化は、避けられない符号化アーチファクトを導入する。低ビットレートで符号化されたオーディオは、特に、オーディオ信号の詳細において影響を受ける可能性があり、オーディオ信号の品質は、量子化及び符号化により導入されるノイズにより劣化する可能性がある。この点で特に問題なのは、所謂、プリエコー(pre-echo)アーチファクトである。プリエコーアーチファクトは、周波数ドメインにおける過渡的な(transient)オーディオ信号の量子化において生成され、過渡状態自体の前に量子化ノイズを広げる。プリエコーノイズは、実際に、例えばMPEG AACコーデックのようなオーディオコーデック又は任意の他の変換に基づく(例えば、MDCTに基づく)オーディオコーデックの品質を有意に損なう。
現在まで、プリエコーノイズを低減し、従って低ビットレート符号化オーディオの品質を向上するために、幾つかの方法が開発されてきた。これらの方法は、短ブロック切り替え及び時間的ノイズ成形(temporal noise shaping (TNS))を含む。後者の技術は、時間ドメインにおける量子化ノイズを成形するために、周波数ドメインにおける予測フィルタの適用に基づき、ユーザに分配されるノイズがあまり現れないようにする。
周波数ドメインオーディオコーデックにおいてプリエコーノイズを低減する最近の方法は、J.Lapierre及びR.Lefebvreにより、proceedings of the International Conference on Acoustics, Speech and Signals Processing 2017で公開されている。この最近開発された方法は、受信したビットストリームからのデータを用いてデコーダにおいて動作するアルゴリズムに基づく。特に、復号ビットストリームは、プリエコーアーチファクトを生成する可能性のある過渡的信号の存在について、フレーム毎にテストされる。このような信号を検出すると、オーディオ信号は、遷移前及び遷移後の信号部分に分離される。これらの部分は、次に、特定の過渡的特性及びコーデックパラメータと一緒に、ノイズ低減アルゴリズムに供給される。先ず、フレーム内に存在する量子化ノイズの量が、周波数バンド又は周波数係数毎に、スケーリング係数及びビットストリームからの係数の大きさ(coefficient amplitude)を用いて推定される。この推定は、次に、ランダムノイズ信号を成形するために使用される。ランダムノイズ信号は、オーバサンプリングされたDFTドメインにおける処理後の信号に追加され、次に、時間ドメインに変換され、プレウインドウにより乗算され、そして周波数ドメインに戻される。ここで、スペクトル減算が、アーチファクトを追加することなく、処理前の信号に適用できる。更にフレームエネルギ全体を保存するために、量子化ノイズに起因して信号が処理後の信号から処理前の信号までに損なわれることを考慮して、処理前の信号から除去されたエネルギが処理後の信号に追加され戻される。両方の信号を一緒に加算し、MDCTドメインに変換した後に、デコーダの残りの部分は、次に、元の係数を置き換えるために変更されたMDCT係数を使用できる。しかしながら、著者らにより既に識別された欠点は、アルゴリズムが現在のシステムにおいて使用可能であるという事実にも拘わらず、デコーダにおける計算が増大することである。
低ビットレートで符号化されたオーディオ信号の増強のための新規な後処理ツールキットは、A.Raghuram et al.による、convention paper 7221 of the Audio Engineering Society presented at the 123rd Convention in New York, NY, USA, October 5-8 2007において公開されている。特に、該文献は、低ビットレート符号化オーディオにおけるノイズの問題も解決し、適応型フィルタリング技術に基づき広帯域背景雑音を除去する自動ノイズ除去(Automatic Noise Removal (ANR))アルゴリズムを提示する。特に、ANRアルゴリズムの1つの側面は、信号の詳細な調波分析を実行することにより、並びに知覚モデル化及び正確な信号分析及び合成を利用することにより、ノイズ除去のステップの前に、信号からの一次信号成分が除去されるとき、一次信号音声が保存されることである。ANRアルゴリズムの第2の側面は、ノイズ除去処理を完全に自動化する新規な信号活性検出アルゴリズムの助けにより、ノイズプロファイル/統計を連続的に且つ自動的に更新することである。ノイズ除去アルゴリズムは、コアとして、ノイズ除去カルマン(Kalman)フィルタを使用する。
プリエコーアーチファクトの他にも、低ビットレート符号化オーディオの品質は、量子化ノイズによっても損なわれる。情報容量要件を低減するために、オーディオ信号のスペクトル成分は量子化される。量子化は、しかしながら、信号にノイズを注入する。通常、知覚オーディオ符号化システムは、量子化ノイズの大きさを制御するために心理音響モデルの使用を含む。その結果、該ノイズがマスクされ、信号内のスペクトル成分により聞こえないようにレンダリングされる。
所与のバンド内のスペクトル成分は、しばしば、同じ量子化分解能に量子化され、心理音響モデルに従い、可聴レベルの量子化ノイズを注入することなく可能な最大の最小量子化分解能を有する最小の信号対雑音比(signal to noise ratio (SNR))が決定される。より広いバンドでは、情報容量要件は、比較的粗い量子化分解能に符号化システムを制約する。結果として、より小さな値のスペクトル成分は、それらが最小量子化レベルより小さい大きさを有する場合、ゼロに量子化される。量子化ノイズが聞こえないほど十分低く保たれ又は心理音響的にマスクされたとしても、符号化信号の中の多くのゼロに量子化されるスペクトル成分(スペクトルホール(spectral hole))の存在は、オーディオ信号の品質を劣化させ得る。この点における劣化は、心理音響マスクの結果が量子化分解能を決定するために使用されるモデルにより予測されるものより小さいために、量子化ノイズが聞こえないことから生じ得る。多くのゼロに量子化されるスペクトル成分は、元のオーディオ信号と比べて、復号オーディオ信号のエネルギ又はパワーを更に聞こえるように低減し得る。歪み取り消しフィルタバンクを用いる符号化システムでは、歪みを取り消す(キャンセルする)ための復号処理における合成フィルタバンクの能力は、1つ以上のスペクトル成分の値が符号化処理において有意に変化した場合、有意に損なわれ得る。これはまた、復号生オーディオ信号の品質も損なう。
圧伸(Companding)は、Dolby AC-4符号化システムにおける新しい符号化ツールであり、会話及び密な過渡的イベント(例えば、拍手喝采)の知覚的符号化を向上する。圧伸の利点は、入力信号の短時間の変遷を低減し、従ってエンコーダ側におけるビットレート要求を低減するとともに、同時に、デコーダ側における適正な時間的ノイズ成形を保証する。
近年の間に、深層学習アプローチは、会話増強を含む様々な分野の用途で益々魅力的になってきている。この状況で、D.Michelsanti及びZ.-H.Tanは、彼らの文献「Conditional Generative Adversarial Networks for Speech Enhancement and Noise-Robust Speaker Verification」、INTERSPEECH 2017で、条件付き敵対的生成ネットワーク(Generative Adversarial Network (GAN))方法が、典型的な短時間スペクトル振幅最小平均二乗誤差会話増強アルゴリズムより性能が優れており、会話増強のための深層ニューラルネットワークに基づくアプローチに匹敵することを記載している。
しかし、この顕著な性能は、聴者が元のオーディオの深層学習に基づく増強バージョンを、元のオーディオよりも好むというジレンマも引き起こし得る。これは、コンテンツ制作者の芸術的意図ではない可能性がある。従って、エンコーダ側にいるコンテンツ制作者に、デコーダ側で適用され得る増強の有無、種類又は多さ、及びどんな場合かを制作者が選択することを可能にする制御手段を提供することが望ましい。これは、コンテンツ制作者に、増強オーディオの意図及び品質に対する最終的な制御を与え得る。
本開示の第1の態様によると、オーディオデータの低ビットレート符号化、及びデコーダ側における低ビットレート符号化オーディオデータのオーディオ増強を制御するための増強メタデータの生成の方法が提供される。当該方法は、(a)低ビットレートで元のオーディオデータをコア符号化して、符号化オーディオデータを取得するステップを含み得る。当該方法は、(b)符号化オーディオデータをコア復号した後に、デコーダ側で、オーディオ増強種類及び/又は量を制御するために使用される増強メタデータを生成するステップを更に含み得る。当該方法は、(c)符号化オーディオデータ及び増強メタデータを出力するステップを更に含み得る。
幾つかの実施形態では、ステップ(b)において増強メタデータを生成するステップは、
(i)前記符号化オーディオデータをコア復号して、コア復号生オーディオデータを取得するステップと、
(ii)オーディオ増強部に入力されるオーディオデータの前記オーディオ増強種類及び/又は量を制御するための候補増強メタデータに基づき、前記コア復号生オーディオデータを処理するために、前記オーディオ増強部に前記コア復号生オーディオデータを入力するステップと、
(iii)前記オーディオ増強部からの出力として、増強オーディオデータを取得するステップと、
(iv)前記増強オーディオデータに基づき、前記候補増強メタデータの適合性を決定するステップと、
(v)前記決定の結果に基づき、増強メタデータを生成するステップと、
を含み得る。
幾つかの実施形態では、ステップ(iv)において前記候補増強メタデータの前記適合性を決定するステップは、ユーザに前記増強オーディオデータを提示し、該提示に応答して前記ユーザから第1入力を受信するステップを含み得、
ステップ(v)において前記増強メタデータを生成するステップは、前記第1入力に基づいてよい。
幾つかの実施形態では、前記ユーザからの前記第1入力は、前記候補増強メタデータが前記ユーザにより受け入れられるか又は拒否されるかの指示を含み得る。
幾つかの実施形態では、前記ユーザが前記候補増強メタデータを拒否する場合、前記候補増強メタデータの変更を示す第2入力が前記ユーザから受信されてよく、ステップ(v)における前記増強メタデータを生成するステップは、前記第2入力に基づいてよい。
幾つかの実施形態では、前記ユーザが前記候補増強メタデータを拒否する場合、ステップ(ii)~(v)が繰り返されてよい。
幾つかの実施形態では、前記増強メタデータは、増強制御データの1つ以上のアイテムを含んでよい。
幾つかの実施形態では、前記増強制御データは、1つ以上のオーディオ増強種類に関する情報を含んでよく、前記1つ以上のオーディオ増強種類は、会話増強、音楽増強、及び拍手増強、のうちの1つ以上を含む。
幾つかの実施形態では、前記増強制御データは、前記1つ以上のオーディオ増強種類のそれぞれの許容性に関する情報を更に含んでよい。
幾つかの実施形態では、前記増強制御データは、前記1つ以上のオーディオ増強量に関する情報を更に含んでよい。
幾つかの実施形態では、前記増強制御データは、前記デコーダ側において自動的に更新されたオーディオ増強部によりオーディオ増強が実行されるべきか否かについての許容性に関する情報を更に含んでよい。
幾つかの実施形態では、ステップ(ii)における前記候補増強メタデータに基づき、前記コア復号生オーディオデータを処理するステップは、1つ以上の所定のオーディオ増強モジュールを適用することにより実行されてよく、前記増強制御データは、同じ又は実質的に同じ種類の増強を達成する、デコーダ側にある1つ以上の異なる増強モジュールを使用することの許容性に関する情報を更に含んでよい。
幾つかの実施形態では、前記オーディオ増強部は生成ネットワークであってよい。
本開示の第2の態様によると、低ビットレート符号化オーディオデータの増強を制御するための増強メタデータの生成するエンコーダが提供される。前記エンコーダは、オーディオデータを低ビットレート符号化し、及びデコーダ側における低ビットレート符号化オーディオデータのオーディオ増強を制御するための増強メタデータを生成する方法を実行するよう構成される1つ以上のプロセッサを含んでよい。
本開示の第3の態様によると、増強メタデータに基づき、低ビットレート符号化オーディオデータから増強オーディオデータを生成するエンコーダが提供される。当該方法は、(あ)低ビットレートで符号化されたオーディオデータと、増強メタデータと、を受信するステップを含んでよい。当該方法は、(b)符号化オーディオデータをコア復号して、コア復号生オーディオデータを取得するステップを更に含んでよい。当該方法は、(c)増強メタデータに基づき、コア復号生オーディオデータを処理するために、オーディオ増強部にコア復号生オーディオデータを入力するステップを更に含んでよい。当該方法は、(d)オーディオ増強部からの出力として、増強オーディオデータを取得するステップを更に含んでよい。当該方法は、(e)符号化オーディオデータを出力するステップを更に含み得る。
幾つかの実施形態では、前記増強メタデータに基づき、前記コア復号生オーディオデータを処理するステップは、前記増強メタデータに従い1つ以上のオーディオ増強モジュールを適用することにより実行されてよい。
幾つかの実施形態では、前記オーディオ増強部は生成ネットワークであってよい。
本開示の第4の態様によると、増強メタデータに基づき、低ビットレート符号化オーディオデータから増強オーディオデータを生成するデコーダが提供される。前記デコーダは、増強メタデータに基づき、低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法を実行するよう構成される1つ以上のプロセッサを含んでよい。
本開示の例示的な実施形態は、単なる例を用いて、添付の図面を参照して以下に説明される。
オーディオデータを低ビットレート符号化し、及びデコーダ側における低ビットレート符号化オーディオデータのオーディオ増強を制御するための増強メタデータを生成する方法の一例のフロー図を示す。 符号化オーディオデータをコア復号した後に、デコーダ側で、オーディオ増強種類及び/又は量を制御するために使用される増強メタデータを生成するフロー図を示す。 符号化オーディオデータをコア復号した後に、デコーダ側で、オーディオ増強種類及び/又は量を制御するために使用される増強メタデータを生成する更なる一例のフロー図を示す。 符号化オーディオデータをコア復号した後に、デコーダ側で、オーディオ増強種類及び/又は量を制御するために使用される増強メタデータを生成するまた更なる例のフロー図を示す。 オーディオデータを低ビットレート符号化し、及びデコーダ側における低ビットレート符号化オーディオデータのオーディオ増強を制御するための増強メタデータを生成する方法を実行するよう構成されるエンコーダの一例を示す。 増強メタデータに基づき、低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法の一例を示す。 増強メタデータに基づき、低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法を実行するよう構成されるデコーダの一例を示す。 オーディオデータを低ビットレート符号化し、デコーダ側で低ビットレート符号化オーディオデータのオーディオ増強を制御するための増強メタデータを生成する方法を実行するよう構成されるエンコーダ、及び増強メタデータに基づき低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法を実行するよう構成されるデコーダ、のシステム一例を示す。 本願明細書に記載の方法を実行するよう構成される2つ以上のプロセッサを有する装置の一例を示す。
<オーディオ増強の概要>
デコーダ側で低ビットレート符号化オーディオビットストリームから増強オーディオデータを生成することは、例えば、以下に与えられ、及び参照により本願明細書に全体が組み込まれる米国仮特許出願番号第62/733,409号に記載されるように、実行されてよい。損失オーディオ圧縮、例えばAAC(Advanced Audio Coding)、Dolby-AC3、HE-AAC、USAC、又はDolby-AC4で使用される任意のコーデックの低ビットレート符号化オーディオビットストリームが受信されてよい。受信され復号された低ビットレート符号化オーディオビットストリームから取得された復号生オーディオデータは、生オーディオデータを増強する生成ネットワーク(Generator)に入力されてよい。生オーディオデータは、次に、生成ネットワークにより増強されてよい。一般的に増強処理は、符号化アーチファクトを低減することにより、生オーディオデータの品質を向上することを意図している。生成ネットワークによる生オーディオデータの増強は、従って、プリエコーノイズ、量子化ノイズの低減、スペクトルギャップを満たすこと、及び1つ以上の損失フレームの調整を計算すること、のうちの1つ以上を含んでよい。用語「スペクトルギャップ」は、スペクトルホール及び損失している高周波数帯域幅の両方を含んでよい。1つ以上の損失フレームの調整は、ユーザにより生成されたパラメータを使用して計算されてよい。次に、生成ネットワークからの出力として、増強オーディオデータが取得されてよい。
オーディオ増強を実行する上述の方法は、時間ドメインにおいて及び/又は少なくとも部分的に中間(コーデック)変換ドメインにおいて実行されてよい。例えば、生オーディオデータは、生オーディオデータを生成ネットワークに入力する前に、中間変換ドメインに変換されてよく、取得された増強オーディオデータは、時間ドメインに変換され戻されてよい。中間変換ドメインは、例えば、MDCTドメインであってよい。
オーディオ増強は、時間ドメインにおいて又は中間(コーデック)変換ドメインにおいて、任意のデコーダで実施されてよい。代替として又は追加で、オーディオ増強は、エンコーダの生成したメタデータによりガイドされてもよい。エンコーダの生成したメタデータは、通常、エンコーダパラメータ及び/又はビットストリームパラメータのうちの1つ以上を含んでよい。
オーディオ増強は、例えば、低ビットレート符号化オーディオビットストリームから増強オーディオデータを生成するデコーダ、並びに生成ネットワーク及び識別ネットワーク(Discriminator)を有する敵対的生成ネットワーク設定、のシステムにより実行されてもよい。
上述のように、デコーダによるオーディオ増強は、エンコーダの生成したメタデータによりガイドされてよい。エンコーダの生成したメタデータは、例えば、符号化品質の指示を含んでよい。符号化品質の指示は、例えば、元のオーディオデータと比べたとき、復号オーディオデータの品質に対する符号化アーチファクトの存在及び影響に関する情報を含んでよい。符号化品質の指示は、従って、生成ネットワークにおける生オーディオデータの増強をガイドするために使用されてよい。符号化品質の指示は、オーディオデータを変更するための生成ネットワークの符号化オーディオ特徴空間(ボトルネック層としても知られる)における追加情報としても使用されてよい。
メタデータは、例えば、ビットストリームパラメータも含んでよい。ビットストリームパラメータは、例えば、ビットレート、AACに基づくコーデック及びDolby AC-4コーデックに関連するスケーリング係数値、並びにAACに基づくコーデック及びDolby AC-4コーデックに関連するグローバル利得、のうちの1つ以上を含んでよい。ビットストリームパラメータは、生成ネットワークにおける生オーディオデータの増強をガイドするために使用されてよい。ビットストリームパラメータは、生成ネットワークの符号化オーディオ特徴空間において、追加情報として使用されてもよい。
メタデータは、例えば、生成ネットワークにより復号生オーディオデータを増強するか否かについての指示を更に含んでよい。この情報は、従って、オーディオ増強のトリガとして使用されてよい。指示がYESであれば、増強が実行されてよい。指示がNOであれば、増強はデコーダにより回避されてよく、デコーダにおいて従来実行されたような復号処理は、メタデータを含む受信したビットストリームに基づき実行されてよい。
<敵対的生成ネットワーク設定>
上述のように、生成ネットワークは、復号側で、生オーディオデータを増強して低ビットレート符号化により導入される符号化アーチファクトを低減するために、及び従って、元の未符号化オーディオデータと比べて生オーディオデータの品質を向上するために、使用されてよい。
このような生成ネットワークは、敵対的生成ネットワーク設定(Generative Adversarial Network setting (GAN setting))においてトレーニングされた生成ネットワークであってよい。GAN設定は、通常、反復処理によりトレーニングされる、生成ネットワークG及び識別ネットワークDを含む。敵対的生成ネットワーク設定におけるトレーニング中に、生成ネットワークGは、それぞれ低ビットレートで符号化及び復号された、ランダムノイズベクトルz及び元のオーディオデータxから導出した生オーディオデータに基づき、増強オーディオデータxを生成する。しかしながら、ランダムノイズベクトルは、z=0に設定されてよく、これは、符号化アーチファクトの低減のために最良であるとして見付かったものである。トレーニングは、ランダムノイズベクトルzの入力を有しないで実行されてよい。更に、メタデータは、符号化オーディオ特徴空間において増強オーディオデータを変更するために、生成ネットワークに入力されてよい。ここで、トレーニング中に、増強オーディオデータの生成は、メタデータに基づき条件付けされてよい。生成ネットワークGは、元のオーディオデータxと区別のつかない増強オーディオデータxを出力しようとする。識別ネットワークDは、生成された増強オーディオデータx及び元のオーディオデータxを一度に1つ供給され、入力データが増強オーディオデータxか元のオーディオデータxかを真偽方法(fake/real manner)で判断する。ここで、識別ネットワークDは、増強オーディオデータxから元のオーディオデータxを区別しようとする。反復処理の間、生成ネットワークGは、次に、元のオーディオデータxと比べて益々良好な増強オーディオデータxを生成するために、自身のパラメータを調整する。そして、識別ネットワークDは、増強オーディオデータxと元のオーディオデータxとの間で、より良好な判断を学習する。この敵対的学習処理は、次式(1)により表すことができる:
Figure 0007019096000001
留意すべきことに、識別ネットワークDは、最終ステップで生成ネットワークGをトレーニングするために、最初にトレーニングされてよい。識別ネットワークDのトレーニング及び更新は、元のオーディオデータxに高いスコアを、及び増強オーディオデータxに低いスコアを割り当てる確率を最大化することを含んでよい。識別ネットワークDのトレーニングにおける目標は、元のオーディオデータ(符号化されていない)が真として認識され、一方で増強オーディオデータx(生成された)が偽として認識されることであってよい。識別ネットワークDがトレーニングされ更新される間、生成ネットワークGのパラメータは固定されたままでよい。
生成ネットワークGのトレーニング及び更新は、次に、元のオーディオデータxと生成された増強オーディオデータxとの間の差を最小化することを含んでよい。生成ネットワークGのトレーニングにおける目標は、識別ネットワークDが生成された増強オーディオデータxを真として認識することを達成することであってよい。
生成ネットワークGのトレーニングは、例えば、以下を含んでよい。生オーディオデータx及びランダムノイズベクトルzは、生成ネットワークGに入力されてよい。生オーディオデータxは、低ビットレートで符号化され、次に元のオーディオデータxを復号することにより取得されてよい。入力に基づき、生成ネットワークGは、次に、増強オーディオデータxを生成してよい。ランダムノイズベクトルzが使用される場合、z=0に設定されてよく、又はランダムノイズベクトルzの入力を有しないでトレーニングが実行されてよい。更に、生成ネットワークGは、増強オーディオデータxを修正するために符号化オーディオ特徴空間における入力として、メタデータを用いてトレーニングされてよい。ひとつずつ、生オーディオデータx及び生成された増強オーディオデータxの導出された元のオーディオデータxは、次に識別ネットワークDに入力される。追加情報として、生オーディオデータxも、その都度、識別ネットワークDに入力される。識別ネットワークDは、次に、入力データが増強オーディオデータxか(偽)元のオーディオデータxか(真)を判断してよい。次のステップで、生成ネットワークGのパラメータは、次に、識別ネットワークDがもはや増強オーディオデータxを元のオーディオデータxから区別できなくなるまで、調整されてよい。これは、反復処理の中で行われてよい。
識別ネットワークDによる判断は、次式(2)に従い、1つ以上の知覚的に動機付けされた目的関数に基づいてよい。
Figure 0007019096000002
インデックスLSは、最小二乗アプローチの組み込みを表す。更に、式(2)の第1項から分かるように、条件付き敵対的生成ネットワーク設定は、識別ネットワークDへの追加情報として、生オーディオデータxを入力することにより、適用されている。
しかしながら、特に、上述の式(2)の最後の項の導入により、より低い周波数が通常より多くのビット数で符号化されるので、反復処理の間、これらの周波数が混乱しない(disrupted)ことを保証できることが分かる。最後の項は、係数ラムダλによりスケーリングされる1ノルム距離(1-norm distance)である。ラムダの値は、生成ネットワークへの入力である適用及び/又は信号長に依存して10~100から選択されてよい。例えば、ラムダは、λ=100になるよう選択されてよい。
識別ネットワークDのトレーニングは、この場合、生成ネットワークGのパラメータが固定され得るが識別ネットワークDのパラメータは変化し得ることを除き、生成ネットワークGのトレーニングのための上述と同じ一般的処理に従ってよい。識別ネットワークDのトレーニングは、例えば、識別ネットワークDが増強オーディオデータxを偽として決定することを可能にする次式(3)により記述され得る。
Figure 0007019096000003
上述の場合、最小二乗アプローチ(LS)及び条件付き敵対的生成ネットワーク設定は、識別ネットワークDへの追加情報として、生オーディオデータxを入力することにより、適用されている。
最小二乗アプローチの他に、他のトレーニング方法も、敵対的生成ネットワーク設定において、生成ネットワーク及び識別ネットワークをトレーニングするために使用されてよい。例えば、所謂、ワッサースタイン(Wasserstein)アプローチが使用されてよい。この場合、最小二乗距離の代わりに、ワッサースタイン距離(Wasserstein Distance)としても知られているEMD(Earth Mover Distance)が使用されてよい。一般に、異なるトレーニング方法は、生成ネットワーク及び識別ネットワークをより安定化させる。しかしながら、適用されるトレーニング方法の種類は、例示的に以下に説明される生成ネットワークのアーキテクチャに影響を与えない。
<生成ネットワークのアーキテクチャ>
生成ネットワークのアーキテクチャは、通常、制限されないが、生成ネットワークは、例えば、エンコーダ段及びデコーダ段を含んでよい。生成ネットワークのエンコーダ段及びデコーダ段は、完全に畳み込みであってよい。デコーダ段は、エンコーダ段をミラーリング(mirror)してよく、エンコーダ段及びデコーダ段は、それぞれ、各層L内にN個のフィルタを有するL個の層を含んでよい。Lは、自然数≧1であってよく、Nは自然数≧1であってよい。N個のフィルタのサイズ(カーネルサイズとしても知られている)は、制限されず、生成ネットワークにより生オーディオデータの品質の増強の要件に従い選択されてよい。しかしながら、フィルタサイズは、L個の層の各々で同じであってよい。
より詳細には、生成ネットワークは、第1エンコーダ層、層番号L=1を有してよく、これは、フィルタサイズ31を有するN=16個のフィルタを含んでよい。第2エンコーダ層、層番号L=2は、フィルタサイズ31を有するN=32個のフィルタを含んでよい。後続のエンコーダ層、層番号L=11は、フィルタサイズ31を有するN=512個のフィルタを含んでよい。各層の中で、フィルタの数は増大する。フィルタの各々は、ストライド2を有する層であるエンコーダの各々に入力されるオーディオデータに対して作用してよい。ここで、幅(信号の時間期間)が狭くなるほど、深さが深くなる。従って、係数2による学習可能なダウンサンプリングが実行されてよい。代替として、フィルタは、エンコーダ層の各々において、ストライド1で動作してよく、その後に、(知られている信号処理におけるように)係数2によるダウンサンプリングが続く。
少なくとも1つのエンコーダ層で、及び少なくとも1つのデコーダ層で、活性化として非線形動作が追加で実行されてよい。非線形動作は、例えば、1つ以上のパラメータ正規化線形ユニット(parametric rectified linear unit (PReLU))、正規化線形ユニット(rectified linear unit (ReLU))、漏れのある正規化線形ユニット(leaky rectified linear unit (LReLU))、指数関数的線形ユニット(exponential linear unit (eLU))、及びスケーリングされた指数関数的線形ユニット(scaled exponential linear unit (SeLU))のうちの1つ以上を含んでよい。
それぞれのデコーダ層は、エンコーダ層をミラーリングしてよい。各層の中のフィルタの数、及び各層の中のフィルタの幅は、デコーダ段においてエンコーダ段におけるものと同じであってよいが、狭い幅(信号の時間期間)から開始するオーディオ信号のアップサンプリングは、2つの選択的アプローチにより実行されてよい。分数ストライドの畳み込み(転置畳み込み(transposed convolution)としても知られている)動作が、デコーダ段の層において使用されて、オーディオ信号の幅を全期間、つまり生成ネットワークに入力されたオーディオ信号のフレームへと増大させてよい。
代替として、アップサンプリング係数2による畳み込み信号処理におけるようにアップサンプリング及び補間が実行された後に、デコーダ段の各層において、フィルタは、ストライド1を有する各層に入力されたオーディオデータに対して作用してよい。
更に、出力層(畳み込み層)は、次に、増強オーディオデータが最終ステップで出力される前に、デコーダ段に続いてよい。出力層は、例えば、31のフィルタサイズを有するN=1個のフィルタを含んでよい。
出力層では、活性化は、少なくとも1つのエンコーダ層及び少なくとも1つのデコーダ層において実行される活性化と異なってよい。活性化は、生成ネットワークに入力されるオーディオ信号と同じ範囲に限られる(bounded)任意の非線形関数であってよい。増強されるべき時間信号は、例えば+/-1の間に限られてよい。活性化は、次に、例えば、tanh演算に基づいてよい。
エンコーダ段とデコーダ段との間で、オーディオデータは、増強オーディオデータを生成するために変更されてよい。変更は、符号化オーディオ特徴空間(ボトルネック層としても知られている)に基づいてよい。符号化オーディオ特徴空間における変更は、例えば、エンコーダ段における最後の層からの出力として、ランダムノイズベクトル(z)を生オーディオデータのベクトル表現(c)と連結することにより行われてよい。ランダムノイズベクトルは、しかしながら、z=0に設定されてよい。符号化アーチファクト低減のために、ランダムノイズベクトルをz=0に設定することが最良の結果を生じ得ることが分かった。追加情報として、ビットストリームパラメータ及びメタデータに含まれるエンコーダパラメータが、ここで、増強オーディオデータを変更するために入力されてよい。ここで、増強オーディオデータの生成は、所与のメタデータに基づき条件付けされてよい。
スキップ接続(Skip connection)が、エンコーダ段及びデコーダ段の同類の層の間に存在してよい。ここで、上述の符号化オーディオ特徴空間は情報の損失を防ぐために迂回され得るとき、増強オーディオは、符号化オーディオの時間構造又はテクスチャを維持してよい。スキップ接続は、連結及び信号追加のうちの1つ以上を用いて実施されてよい。スキップ接続の実施により、フィルタ出力の数は、「仮想的に」倍増されてよい。
生成ネットワークのアーキテクチャは、例えば、以下のように要約され得る(スキップ接続は省略される)。
入力:生オーディオデータ
エンコーダ層L=1:フィルタ数N=16、フィルタサイズ=31、活性化=PreLU
エンコーダ層L=2:フィルタ数N=32、フィルタサイズ=31、活性化=PreLU
エンコーダ層L=11:フィルタ数N=512、フィルタサイズ=31
エンコーダ層L=12:フィルタ数N=1024、フィルタサイズ=31
符号化オーディオ特徴空間
デコーダ層L=1:フィルタ数N=512、フィルタサイズ=31
デコーダ層L=10:フィルタ数N=32、フィルタサイズ=31、活性化=PreLU
デコーダ層L=11:フィルタ数N=16、フィルタサイズ=31、活性化=PreLU
出力層:フィルタ数N=1、フィルタサイズ=31、活性化=tanh
出力:増強オーディオデータ
用途に依存して、生成ネットワークのエンコーダ段内の及びデコーダ段内の層の数は、しかしながら、それぞれ縮小され又は拡大されてよい。
<識別ネットワークのアーキテクチャ>
識別ネットワークのアーキテクチャは、以上に例として記載した生成ネットワークのエンコーダ段のような1次元畳み込み構造に従ってよい。識別ネットワークアーキテクチャは、従って、生成ネットワークのデコーダ段をミラーリングしてよい。識別ネットワークは、従ってL個の層を含んでよく、各層はN個のフィルタを含んでよい。Lは、自然数≧1であってよく、Nは自然数≧1であってよい。N個のフィルタのサイズは限定されず、識別ネットワークの要件に従い選択されてもよい。しかしながら、フィルタサイズは、L個の層の各々で同じであってよい。識別ネットワークのエンコーダ段のうちの少なくとも1つにおいて実行される非線形動作は、LeakyReLUを含んでよい。
エンコーダ段に従い、識別ネットワークは、出力層を含んでよい。出力層は、1のフィルタサイズを有するN=1個のフィルタを含んでよい。ここで、出力層のフィルタサイズは、エンコーダ層のフィルタサイズと異なってよい。出力層は、従って、隠れ活性化をダウンサンプリングしない1次元畳み込み層である。これは、出力層の中のフィルタがストライド1により動作し得るが、識別ネットワークのエンコーダ段の全部の前の層がストライド2を使用してよいことを意味する。出力層における活性化は、エンコーダ層のうちの少なくとも1つにおける活性化と異なってよい。活性化はシグモイド(sigmoid)であってよい。しかしながら、最小二乗トレーニングアプローチが使用される場合、シグモイド活性化は必要なくてよく、従って任意である。
識別ネットワークのアーキテクチャは、以下のように例示的に要約され得る。
入力:増強オーディオデータ又は元のオーディオデータ
エンコーダ層L=1:フィルタ数N=16、フィルタサイズ=31、活性化=LeakyReLU
エンコーダ層L=2:フィルタ数N=32、フィルタサイズ=31、活性化=LeakyReLU
エンコーダ層L=11:フィルタ数N=1024、フィルタサイズ=31、活性化=LeakyReLU
出力層:フィルタ数N=1、フィルタサイズ=1、任意的に活性化=sigmoid
出力(示されない):元のデータ及び生成ネットワークにより生成された増強オーディオデータに関連して、真/偽としての入力に対する判断
用途に依存して、識別ネットワークのエンコーダ段内の層の数は、例えば、それぞれ縮小され又は拡大されてよい。
<圧伸>
圧伸(Companding)技術は、参照により全体がここに組み込まれる米国特許第9,947,335B2号に記載のように、QMF(quadrature mirror filter)ドメインにおいて実施される圧伸アルゴリズムの使用を通じて、オーディオコーデック内で量子化ノイズの時間的ノイズ成形を達成し、量子化ノイズの時間的成形を達成する。通常、圧伸は、量子化ノイズ(例えば、MDCT(modified discrete cosine transform)ドメインに導入される量子化ノイズ)の時間的分散を制御するために使用され得るQMFドメインにおいて動作するパラメータ符号化ツールである。このように、圧伸技術は、QMF分析ステップ、その後に続く実際の圧伸動作/アルゴリズムの適用、及びQMF合成ステップを含んでよい。
圧伸は、信号のダイナミックレンジを縮小し、等価的に、信号から時間的エンベロープを除去する例示的な技術として理解できる。縮小ダイナミックレンジドメインにおけるオーディオ品質の向上は、特に、圧伸技術を伴う用途のために価値がある。
低ビットレート符号化オーディオビットストリームからの縮小されたダイナミックレンジのオーディオデータのオーディオ増強は、例えば、以下に詳述されるように、及び参照により本願明細書に全体が組み込まれる米国仮特許出願番号第62/850,117号に記載されるように、実行されてよい。損失オーディオ圧縮、例えばAAC(Advanced Audio Coding)、Dolby-AC3、HE-AAC、USAC、又はDolby-AC4で使用される任意のコーデックの低ビットレートオーディオビットストリームが受信されてよい。しかしながら、低ビットレートオーディオビットストリームは、AC-4フォーマットであってよい。低ビットレートオーディオビットストリームはコア復号され、縮小されたダイナミックレンジの生オーディオデータは、低ビットレートオーディオビットストリームに基づき取得されてよい。例えば、低ビットレートオーディオビットストリームは、低ビットレートオーディオビットストリームに基づき、縮小されたダイナミックレンジの生オーディオデータを取得するために、コア復号されてよい。縮小されたダイナミックレンジのオーディオデータは、低ビットレートオーディオビットストリーム内に符号化されてよい。代替として、ダイナミックレンジの縮小は、低ビットレートオーディオビットストリームをコア復号する前又はした後に、実行されてよい。ダイナミックレンジの縮小された生オーディオデータは、ダイナミックレンジの縮小された生オーディオデータを処理する生成ネットワークへと入力されてよい。ダイナミックレンジの縮小された生オーディオデータは、次に、ダイナミックレンジの縮小されたドメインで、生成ネットワークにより増強されてよい。生成ネットワークにより実行される増強処理は、符号化アーチファクト及び量子化ノイズを低減することにより、生オーディオデータの品質を向上することを意図している。出力として、増強されたダイナミックレンジの縮小されたオーディオデータが、伸張(expanded)ドメインへの後の伸張のために取得されてよい。このような方法は、伸張動作を実行することにより、増強されたダイナミックレンジの縮小されたオーディオデータを増強されたダイナミックレンジドメインへと伸張するステップを更に含んでよい。伸張動作は、それぞれの利得値を計算するためのスペクトルの大きさのpノルム(p-norm)に基づく圧伸動作であってよい。
圧伸(圧縮/伸張)では、通常、圧縮及び伸張の利得値が計算され、フィルタバンクに適用される。個々の利得値の適用に関連する起こり得る問題を解決するために、ショートプロトタイプ(short prototype)フィルタが適用されてよい。上述の圧伸動作を参照して、生成ネットワークにより出力されるような、伸張されたダイナミックレンジの縮小されたオーディオデータは、フィルタバンクにより分析されてよく、広帯域利得は周波数ドメインにおいて直接適用されてよい。適用されるプロトタイプフィルタの形状に従い、時間ドメインにおける対応する効果は、当然に利得適用を円滑にする。変更された周波数信号は、次に、それぞれの合成フィルタバンクにおいて、時間ドメインへと変換され戻される。フィルタバンクによる信号の分析は、そのスペクトルコンテンツへのアクセスを提供し、高周波数による貢献を優先的にブーストする(又は弱い任意のスペクトルコンテンツによる貢献をブーストする)ことを可能にし、信号ないの最も強い成分により支配されない利得値を提供し、従って、異なるソースの混合を含むオーディオソースに関連する問題を解決する。このコンテキストでは、利得値は、スペクトルの大きさのp-normを用いて計算されてよい。ここで、p=2のようにエネルギに基づくのではなく、pは、標準的に2より小さく、量子化ノイズの成形においてより効果的であることが分かっている。
上述の方法は、任意のデコーダに実施されてよい。上述の方法が圧伸と関連して適用される場合、上述の方法は、AC-4デコーダに実施されてよい。
代替として又は追加で、上述の方法は、ダイナミックレンジの縮小されたドメインで、低ビットレートオーディオビットストリーム及び生成ネットワークと識別ネットワークとを含む敵対的生成ネットワーク設定から、増強オーディオデータを生成する機器のシステムにより実行されてもよい。機器はデコーダであってよい。
上述の方法は、ダイナミックレンジの縮小されたドメインで低ビットレートオーディオビットストリームから増強オーディオデータを生成する機器により実行されてもよい。ここで、該機器は、低ビットレートオーディオビットストリームを受信する受信機と、受信した低ビットレートオーディオビットストリームをコア復号して、低ビットレートオーディオビットストリームに基づきダイナミックレンジの縮小された生オーディオデータを取得するデコーダと、ダイナミックレンジの縮小されたドメインで、ダイナミックレンジの縮小された生オーディオデータを増強する生成ネットワークと、を含んでよい。機器は、デマルチプレクサを更に含んでよい。機器は、伸張ユニットを更に含んでよい。
代替として又は追加で、機器は、ダイナミックレンジ縮小を入力オーディオデータに適用し、ダイナミックレンジの縮小されたオーディオデータを低ビットレートでビットストリーム内に符号化する機器のシステムの部分であってよい。
代替として又は追加で、上述の方法は、処理能力を有する装置で実行されると装置に上述の方法を実行させるよう適応される命令を備えるコンピュータ可読記憶媒体を含むそれぞれのコンピュータプログラムプロダクトにより実施されてよい。
代替として又は追加で、上述の方法は、メタデータを含んでよい。受信した低ビットレートオーディオビットストリームは、メタデータを含んでよく、方法は、受信した低ビットレートオーディオビットストリームを逆多重化するステップを更に含んでよい。生成ネットワークによりダイナミックレンジの縮小された生オーディオデータを増強するステップは、メタデータに基づいてよい。圧伸と関連して適用される場合、メタデータは、圧伸制御データの1つ以上のアイテムを含んでよい。圧伸は、通常、会話及び過渡的信号に利益を与え得る。一方で、各QMFタイムスロットを利得値により個々に変更するときの幾つかの定常信号の品質の劣化は、符号化中の不連続を生じ得る。これは、伸張デコーダにおいて、成形の伊豆のエンベロープに不連続を生じることがあり、可聴アーチファクトをもたらす。それぞれの圧伸制御データにより、圧伸を過渡的信号に対してオンに及び定常信号に対してオフに選択的に切り替えること、又は適切な場合には平均圧伸を適用することが可能である。平均圧伸は、本コンテキストでは、隣接活性圧伸フレームの利得に似たオーディオフレームへのコントラスト利得の適用を表す圧伸制御データは、符号化中に検出され、低ビットレートオーディオビットストリームを介してデコーダへと送信されてよい。圧伸制御データは、オーディオデータを符号化するために使用された1つ以上の圧伸モードの中の圧伸モードに関する情報を含んでよい。圧伸モードは、圧伸オンの圧伸モード、圧伸オフの圧伸モード、及び平均圧伸の圧伸モードを含んでよい。ダイナミックレンジの縮小された生オーディオデータを生成ネットワークにより増強するステップは、圧伸制御データの中で示される圧伸モードに依存してよい。圧伸モードが圧伸オフである場合、生成ネットワークによる増強は実行されなくてよい。
<縮小されたダイナミックレンジドメインにおける敵対的生成ネットワーク設定>
生成ネットワークは、縮小されたダイナミックレンジドメインにおけるダイナミックレンジの縮小された生オーディオデータを増強してもよい。増強により、低ビットレート符号化により導入される符号化アーチファクトは低減され、従って、ダイナミックレンジの縮小された生オーディオデータの品質は、元の符号化されていないダイナミックレンジの縮小されたオーディオデータと比べて、ダイナミックレンジの伸張の前に既に増強されている。
従って、生成ネットワークは、敵対的生成ネットワーク設定(GAN setting)においてダイナミックレンジの縮小されたドメインでトレーニングされた生成ネットワークであってよい。ダイナミックレンジの縮小されたドメインは、例えばAC-4圧伸ドメインであってよい。(AC-4圧伸におけるような)幾つかの場合には、ダイナミックレンジ縮小は、信号の時間的エンベロープの除去(又は抑制)と等価であってよい。従って、生成ネットワークは、信号から時間的エンベロープを除去した後のドメインでトレーニングされた生成ネットワークであってよい。更に、以下ではGAN設定が説明されるが、これは限定的意味で理解されるべきではないこと、及び他の生成モデルも考えられることに留意する。
既に上述のように、GAN設定は、通常、反復処理によりトレーニングされる、生成ネットワークG及び識別ネットワークDを含む。敵対的生成ネットワーク設定におけるトレーニングの間、生成ネットワークGは、元のダイナミックレンジの縮小されたオーディオデータxから導出された(コア符号化及びコア復号された)生のダイナミックレンジの縮小されたオーディオデータxに基づき、増強されたダイナミックレンジの縮小されたオーディオデータxを生成する。ダイナミックレンジ縮小は、圧伸動作を適用することにより、実行されてよい。圧伸動作は、AC-4コーデックのために策定されAC-4エンコーダで実行される圧伸動作であってよい。
また、この場合に、ランダムノイズベクトルzが、ダイナミックレンジの縮小された生オーディオデータxに加えて、生成ネットワークに入力されてよく、生成ネットワークにより、増強されたダイナミックレンジの縮小されたオーディオデータxを生成するステップは、ランダムノイズベクトルzに更に基づいてよい。ランダムノイズベクトルは、しかしながら、z=0に設定されてよい。これは、符号化アーチファクト低減のために、特にあまり低くないビットレートでは、ランダムノイズベクトルをz=0に設定することが最適であることが分かったからである。代替として、トレーニングは、ランダムノイズベクトルzの入力を有しないで実行されてよい。代替として又は追加で、メタデータが、生成ネットワークに入力されてよく、ダイナミックレンジの縮小された生オーディオデータxを増強するステップは、メタデータに更に基づいてよい。トレーニング中、増強されたダイナミックレンジの縮小されたオーディオデータxの生成は、従って、メタデータに基づき条件付きであってよい。メタデータは、増強制御データの1つ以上のアイテムを含んでよい。圧伸制御データは、オーディオデータを符号化するために使用された1つ以上の圧伸モードの中の圧伸モードに関する情報を含んでよい。圧伸モードは、圧伸オンの圧伸モード、圧伸オフの圧伸モード、及び平均圧伸の圧伸モードを含んでよい。生成ネットワークにより、増強されたダイナミックレンジの縮小されたオーディオデータを生成するステップは、圧伸制御データにより示される圧伸モードに依存してよい。ここで、トレーニング中に、生成ネットワークは、圧伸モードにより条件付けられてよい。圧伸モードが圧伸オフである場合、これは、入力生オーディオデータがダイナミックレンジ縮小されていないこと、生成ネットワークによる増強がこの場合に実行されていないことを示してよい。上述のように、圧伸制御データは、圧伸が過渡的信号に対してオンにされ、圧伸が定常信号に対してオフにされ、及び適切な場合に平均圧伸が適用されるように、圧伸を選択的に適用可能にするために、オーディオデータの符号化中に検出されてよい。
トレーニング中、生成ネットワークは、元のダイナミックレンジの縮小されたオーディオデータxと区別できない、増強されたダイナミックレンジの縮小されたオーディオデータxを出力しようとする。識別ネットワークは、生成された増強されたダイナミックレンジの縮小されたオーディオデータx及び元のダイナミックレンジの縮小されたデータxを一度に1つ供給され、入力データが増強されたダイナミックレンジの縮小されたオーディオデータxか元のダイナミックレンジの縮小されたデータxかを真/偽方法(fake/real manner)で判断する。ここで、識別ネットワークは、増強されたダイナミックレンジの縮小されたオーディオデータxから元のダイナミックレンジの縮小されたデータxを区別しようとする。反復処理の間、生成ネットワークは、次に、元のダイナミックレンジの縮小されたオーディオデータxと比べて益々良好な増強されたダイナミックレンジの縮小されたオーディオデータxを生成するために、自身のパラメータを調整する。そして、識別ネットワークは、増強されたダイナミックレンジの縮小されたオーディオデータxと元のダイナミックレンジの縮小されたデータxとの間で、より良好な判断を学習する。
留意すべきことに、識別ネットワークは、最終ステップで生成ネットワークをトレーニングするために、最初にトレーニングされてよい。識別ネットワークのトレーニング及び更新は、ダイナミックレンジの縮小されたドメインで実行されてもよい。識別ネットワークのトレーニング及び更新は、元のダイナミックレンジの縮小されたオーディオデータxに高いスコアを、及び増強されたダイナミックレンジの縮小されたオーディオデータxに低いスコアを割り当てる確率を最大化することを含んでよい。識別ネットワークのトレーニングにおける目標は、元のダイナミックレンジの縮小されたオーディオデータが真として認識され、一方で増強されたダイナミックレンジの縮小されたオーディオデータx(生成されたデータ)が偽として認識されることであってよい。識別ネットワークがトレーニングされ更新される間、生成ネットワークのパラメータは固定されたままでよい。
生成ネットワークのトレーニング及び更新は、元のダイナミックレンジの縮小されたオーディオデータxと生成され増強されたダイナミックレンジの縮小されたオーディオデータxとの間の差を最小化することを含んでよい。生成ネットワークのトレーニングにおける目標は、識別ネットワークが生成され増強されたダイナミックレンジの縮小されたオーディオデータxを真として認識することを達成することであってよい。
詳細には、敵対的生成ネットワーク設定における、ダイナミックレンジの縮小されたドメインにおける生成ネットワークGのトレーニングは、例えば以下を含んでよい。
元のオーディオデータxipは、ダイナミックレンジの縮小された元のオーディオデータxを取得するために、ダイナミックレンジ縮小を行われてよい。ダイナミックレンジ縮小は、圧伸動作、特にAC-4圧伸動作、その後のQMF(quadrature mirror filter)合成ステップを適用することにより実行されてよい。圧伸動作がQMFドメインで実行されるとき、後のQMF合成ステップが必要である。生成ネットワークGに入力する前に、ダイナミックレンジの縮小された元のオーディオデータxは、ダイナミックレンジの縮小された生オーディオデータxを取得するために、更にコア符号化及びコア復号されてよい。ダイナミックレンジの縮小された生オーディオデータx及びランダムノイズベクトルzは、次に、生成ネットワークGに入力される。入力に基づき、生成ネットワークGは、次に、ダイナミックレンジの縮小されたドメインで、増強されたダイナミックレンジの縮小されたオーディオデータxを生成する。ランダムノイズベクトルzは、z=0に設定されてよい。代替として、トレーニングは、ランダムノイズベクトルzの入力を有しないで実行されてよい。代替として又は追加で、生成ネットワークGは、増強されたダイナミックレンジの縮小されたオーディオデータxを修正するために、ダイナミックレンジの縮小された符号化オーディオ特徴空間における入力として、メタデータを用いてトレーニングされてよい。一度に1つ、ダイナミックレンジの縮小された生オーディオデータxが導出される元のダイナミックレンジの縮小されたデータx、及び生成された増強されたダイナミックレンジの縮小されたオーディオデータxが、識別ネットワークDに入力される。追加情報として、ダイナミックレンジの縮小された生オーディオデータxも、各時間に識別ネットワークDに入力されてよい。識別ネットワークDは、次に、入力データが増強されたダイナミックレンジの縮小されたオーディオデータxか(偽)元のダイナミックレンジの縮小されたデータxか(真)を判断する。
次のステップで、生成ネットワークGのパラメータは、次に、識別ネットワークDがもはや増強されたダイナミックレンジの縮小されたオーディオデータxを元のダイナミックレンジの縮小されたデータxから区別できなくなるまで、調整されてよい。これは、反復処理の中で行われてよい。
識別ネットワークによる判断は、次式(1)に従い、1つ以上の知覚的に動機付けされた目的関数に基づいてよい。
Figure 0007019096000004
インデックスLSは、最小二乗アプローチの組み込みを表す。更に、式(1)の第1項から分かるように、条件付き敵対的生成ネットワーク設定は、識別ネットワークへの追加情報として、コア復号されたダイナミックレンジの縮小された生オーディオデータxを入力することにより、適用されている。
しかしながら、特に、上述の式(1)の最後の項の導入により、より低い周波数が通常より多くのビット数で符号化されるので、反復処理の間、これらの周波数が混乱しない(disrupted)ことを保証できることが分かる。最後の項は、係数ラムダλによりスケーリングされる1ノルム距離(1-norm distance)である。ラムダの値は、生成ネットワークへの入力である適用及び/又は信号長に依存して10~100から選択されてよい。例えば、ラムダは、λ=100になるよう選択されてよい。
敵対的生成ネットワーク設定におけるダイナミックレンジの縮小されたドメインでの識別ネットワークDのトレーニングは、この場合には、生成ネットワークGのパラメータが固定されてよく、一方で識別ネットワークDのパラメータが変化されてよいことを除き、一度に1つ、増強されたダイナミックレンジの縮小されたオーディオデータx及び元のダイナミックレンジの縮小されたオーディオデータxを、ダイナミックレンジの縮小された生オーディオデータxと一緒に識別ネットワークDに入力することに応答して、生成ネットワークGのトレーニングについて上述したものと同じ一般的反復処理に従ってよい。識別ネットワークDのトレーニングは、識別ネットワークDが増強されたダイナミックレンジの縮小されたオーディオデータx*を偽として決定することを可能にする次式(2)により記述され得る。
Figure 0007019096000005
上述の場合、最小二乗アプローチ(LS)及び条件付き敵対的生成ネットワーク設定は、識別ネットワークへの追加情報として、コア復号されたダイナミックレンジの縮小された生オーディオデータxを入力することにより、適用されている。
最小二乗アプローチの他に、この場合には、他のトレーニング方法も、ダイナミックレンジの縮小されたドメインでの敵対的生成ネットワーク設定において、生成ネットワーク及び識別ネットワークをトレーニングするために使用されてよい。代替として又は追加で、例えば、所謂、ワッサースタイン(Wasserstein)アプローチが使用されてよい。この場合、最小二乗距離の代わりに、ワッサースタイン距離(Wasserstein Distance)としても知られているEMD(Earth Mover Distance)が使用されてよい。一般に、異なるトレーニング方法は、生成ネットワーク及び識別ネットワークをより安定化させる。しかしながら、適用されるトレーニング方法の種類は、以下に説明される生成ネットワークのアーキテクチャに影響を与えない。
<縮小ダイナミックレンジドメインでトレーニングされる生成ネットワークのアーキテクチャ>
生成ネットワークは、例えば、エンコーダ段及びデコーダ段を含んでよい。生成ネットワークのエンコーダ段及びデコーダ段は、完全に畳み込みであってよい。デコーダ段は、エンコーダ段をミラーリング(mirror)してよく、エンコーダ段及びデコーダ段は、それぞれ、各層L内にN個のフィルタを有するL個の層を含んでよい。Lは、自然数≧1であってよく、Nは自然数≧1であってよい。N個のフィルタのサイズ(カーネルサイズとしても知られている)は、制限されず、生成ネットワークによりダイナミックレンジの縮小された生オーディオデータの品質の増強の要件に従い選択されてよい。しかしながら、フィルタサイズは、L個の層の各々で同じであってよい。
ダイナミックレンジの縮小された生オーディオデータは、第1ステップで生成ネットワークに入力されてよい。第1エンコーダ層、層番号L=1は、フィルタサイズ31を有するN=16個のフィルタを含んでよい。第2エンコーダ層、層番号L=2は、フィルタサイズ31を有するN=32個のフィルタを含んでよい。後続のエンコーダ層、層番号L=11は、フィルタサイズ31を有するN=512個のフィルタを含んでよい。各層の中で、フィルタの数は増大してよい。フィルタの各々は、ストライド>1を有するエンコーダ層の各々に入力されるダイナミックレンジの縮小されたオーディオデータに対して作用してよい。フィルタの各々は、例えば、ストライド2を有するエンコーダ層の各々に入力されるダイナミックレンジの縮小されたオーディオデータに対して作用してよい。従って、係数2による学習可能なダウンサンプリングが実行されてよい。代替として、フィルタは、エンコーダ層の各々において、ストライド1で動作してもよく、その後に、(知られている信号処理におけるように)係数2によるダウンサンプリングが続く。代替として、例えば、フィルタの各々は、ストライド4を有するエンコーダ層の各々に入力されるダイナミックレンジの縮小されたオーディオデータに対して作用してよい。これは、生成ネットワーク内の層の全体数を半分にすることを可能にし得る。
生成ネットワークの少なくとも1つのエンコーダ層で及び少なくとも1つのデコーダ層で、活性化として非線形動作が追加で実行されてよい。非線形動作は、1つ以上のパラメータ正規化線形ユニット(parametric rectified linear unit (PReLU))、正規化線形ユニット(rectified linear unit (ReLU))、漏れのある正規化線形ユニット(leaky rectified linear unit (LReLU))、指数関数的線形ユニット(exponential linear unit (eLU))、及びスケーリングされた指数関数的線形ユニット(scaled exponential linear unit (SeLU))のうちの1つ以上を含んでよい。
それぞれのデコーダ層は、エンコーダ層をミラーリングしてよい。各層の中のフィルタの数、及び各層の中のフィルタの幅は、デコーダ段においてエンコーダ段におけるものと同じであってよいが、デコーダ段におけるオーディオ信号のアップサンプリングは、2つの選択的アプローチにより実行されてよい。分数ストライドの畳み込み(Fractionally-strided convolution)(転置畳み込み(transposed convolution)としても知られている)動作は、デコーダ段の層の中で使用されてよい。代替として、アップサンプリング係数2による畳み込み信号処理におけるようにアップサンプリング及び補間が実行された後に、デコーダ段の各層において、フィルタは、ストライド1を有する各層に入力されたオーディオデータに対して作用してよい。
更に、出力層(畳み込み層)は、次に、増強されたダイナミックレンジの縮小されたオーディオデータが最終ステップで出力される前に、デコーダ段の最後の層に続いてよい。出力層は、例えば、31のフィルタサイズを有するN=1個のフィルタを含んでよい。
出力層では、活性化は、少なくとも1つのエンコーダ層及び少なくとも1つのデコーダ層において実行される活性化と異なってよい。活性化は、例えば、tanh演算に基づいてよい。
エンコーダ段とデコーダ段との間で、オーディオデータは、増強されたダイナミックレンジの縮小されたオーディオデータを生成するために変更されてよい。変更は、ダイナミックレンジの縮小された符号化オーディオ特徴空間(ボトルネック層としても知られている)に基づいてよい。ランダムノイズベクトルzは、ダイナミックレンジの縮小されたドメインでオーディオを変更するために、ダイナミックレンジの縮小された符号化オーディオ特徴空間で使用されてよい。ダイナミックレンジの縮小された符号化オーディオ特徴空間における変更は、例えば、エンコーダ段における最後の層からの出力として、ランダムノイズベクトル(z)をダイナミックレンジの縮小された生オーディオデータのベクトル表現(c)と連結することにより行われてよい。ランダムノイズベクトルは、z=0に設定されてよい。これは、符号化アーチファクト低減のために、ランダムノイズベクトルをz=0に設定することが最適な結果を生成することが分かったからである。代替として又は追加で、メタデータは、この点で、増強されたダイナミックレンジの縮小されたオーディオデータを変更するために入力されてよい。ここで、増強オーディオデータの生成は、所与のメタデータに基づき条件付けされてよい。
スキップ接続(Skip connection)が、エンコーダ段及びデコーダ段の同類の層の間に存在してよい。ここで、上述のようなダイナミックレンジの縮小された符号化オーディオ特徴空間は、迂回されて情報の損失を防いでよい。スキップ接続は、連結及び信号追加のうちの1つ以上を用いて実施されてよい。スキップ接続の実施により、フィルタ出力の数は、「仮想的に」倍増されてよい。
生成ネットワークのアーキテクチャは、例えば、以下のように要約され得る(スキップ接続は省略される)。
入力:ダイナミックレンジの縮小された生オーディオデータ
エンコーダ層L=1:フィルタ数N=16、フィルタサイズ=31、活性化=PreLU
エンコーダ層L=2:フィルタ数N=32、フィルタサイズ=31、活性化=PreLU
エンコーダ層L=11:フィルタ数N=512、フィルタサイズ=31
エンコーダ層L=12:フィルタ数N=1024、フィルタサイズ=31
ダイナミックレンジの縮小された符号化オーディオ特徴空間
デコーダ層L=1:フィルタ数N=512、フィルタサイズ=31
デコーダ層L=10:フィルタ数N=32、フィルタサイズ=31、活性化=PreLU
デコーダ層L=11:フィルタ数N=16、フィルタサイズ=31、活性化=PreLU
出力層:フィルタ数N=1、フィルタサイズ=31、活性化=tanh
出力:増強オーディオデータ
用途に依存して、生成ネットワークのエンコーダ段内の及びデコーダ段内の層の数は、例えば、それぞれ縮小され又は拡大されてよい。通常、上述の生成ネットワークアーキテクチャは、Wavenet又はsampleRNNにおけるような複雑な動作が実行される必要がないので、ワンショットアーチファクト低減の可能性を提供する。
<縮小ダイナミックレンジドメインでトレーニングされる識別ネットワークのアーキテクチャ>
識別ネットワークのアーキテクチャは限定されないが、識別ネットワークのアーキテクチャは、上述の生成ネットワークのエンコーダ段と同じ1次元畳み込み構造に従ってよい。識別ネットワークアーキテクチャは、従って、生成ネットワークのエンコーダ段をミラーリングしてよい。識別ネットワークは、従ってL個の層を含んでよく、各層はN個のフィルタを含んでよい。Lは、自然数≧1であってよく、Nは自然数≧1であってよい。N個のフィルタのサイズは限定されず、識別ネットワークの要件に従い選択されてもよい。しかしながら、フィルタサイズは、L個の層の各々で同じであってよい。識別ネットワークのエンコーダ段のうちの少なくとも1つにおいて実行される非線形動作は、LeakyReLUを含んでよい。
エンコーダ段に従い、識別ネットワークは、出力層を含んでよい。出力層は、1のフィルタサイズを有するN=1個のフィルタを含んでよい。ここで、出力層のフィルタサイズは、エンコーダ層のフィルタサイズと異なってよい。出力層は、従って、隠れ活性化をダウンサンプリングしない1次元畳み込み層であってよい。これは、出力層の中のフィルタがストライド1により動作し得るが、識別ネットワークのエンコーダ段の全部の前の層がストライド2を使用してよいことを意味する。代替として、エンコーダ段の前の層の中のフィルタの各々は、ストライド4で動作してよい。これは、識別ネットワーク内の層の全体数を半分にすることを可能にし得る。
出力層における活性化は、エンコーダ層のうちの少なくとも1つにおける活性化と異なってよい。活性化はシグモイド(sigmoid)であってよい。しかしながら、最小二乗トレーニングアプローチが使用される場合、シグモイド活性化は必要なくてよく、従って任意である。
識別ネットワークのアーキテクチャは、例えば、以下のように例示的に要約され得る。
入力:増強されたダイナミックレンジの縮小されたオーディオデータ、又は元のダイナミックレンジの縮小されたオーディオデータ
エンコーダ層L=1:フィルタ数N=16、フィルタサイズ=31、活性化=LeakyReLU
エンコーダ層L=2:フィルタ数N=32、フィルタサイズ=31、活性化=LeakyReLU
エンコーダ層L=11:フィルタ数N=1024、フィルタサイズ=31、活性化=LeakyReLU
出力層:フィルタ数N=1、フィルタサイズ=1、任意的に活性化=sigmoid
出力(示されない):元のダイナミックレンジの縮小されたデータ及び生成ネットワークにより生成された増強されたダイナミックレンジの縮小されたオーディオデータに関連して、真/偽としての入力に対する判断
用途に依存して、識別ネットワークのエンコーダ段内の層の数は、例えば、それぞれ縮小され又は拡大されてよい。
<芸術的に制御されたオーディオ増強>
オーディオ符号化及びオーディオ増強は、今日それらがそうであるよりも更に関連するようになり得る。何故なら、将来、例えば、上述のような深層学習に基づくアプローチを実装しているデコーダは、元のオーディオ信号の増強バージョンのように聞こえ可能性のある元のオーディオ信号を推測する場合があるからである。例えば、帯域幅の拡張、又は復号された会話を強制的に後処理させる若しくは明確な会話として復号することを含み得る。同時に、結果は、「明らかに符号化された」誤って聞こえるものでない可能性があり、人間の話者ではなくシステムが誤りを生成したことを明確にすることなく、復号された会話信号の中で音素誤りが生じる可能性がある。これは、「より自然に聞こえるが、元と異なる」オーディオとして参照されてよい。
オーディオ増強は、芸術的意図を変更することがある。例えば、芸術家は、ポピュラー音楽の中に符号化ノイズ又は故意の帯域制限が存在することを望む場合がある。元の符号化されていないオーディオより良好な品質を生成する符号化システム(又は少なくともデコーダ)が存在し得る。これが望ましい場合があり得る。しかしながら、ごく最近、デコーダの出力がエンコーダの入力より「良好に聞こえる」可能性のあるケースが実証されている(例えば、会話及び拍手喝采)。
この状況では、本願明細書に記載の方法及び機器は、コンテンツ制作者に、及び増強オーディオ、特に深層学習に基づく増強オーディオを使用する全ての者に、利益を提供する。これらの方法及び機器は、特に、コーデックアーチファクトが最も気付かれ易い低ビットレートにおいて関連する。コンテンツ制作者は、デコーダが「より自然に聞こえるが、元と異なる」ようにオーディオ信号を増強することを可能にすることに同意する又は中止することを望み得る。具体的に、これは、AC-4マルチストリーム符号化で生じ得る。ビットストリームが複数のストリームを含み、各々が低ビットレートを有するブロードキャスト用途では、制作者は、低ビットレート符号化アーチファクトを低減するために、最低ビットレートストリームの増強メタデータに含まれる制御パラメータにより品質を最大化し得ることが可能であってよい。
一般に、増強メタデータは、例えば、例えば符号化品質、ビットストリームパラメータ、生オーディオデータが増強されるべきか否かに関する指示、及び圧伸制御データのうちの1つ以上を含む上述したメタデータと同様の方法で、デコーダによるオーディオ増強をガイドする(guide)エンコーダの生成したメタデータであってよい。増強メタデータは、例えば、それぞれの要件に依存して前述のメタデータのうちの1つ以上の代替として又はそれに追加で、エンコーダにより生成されてよく、符号化オーディオデータと一緒にビットストリームにより送信されてよい。幾つかの実装では、増強メタデータは、前述のメタデータに基づき生成されてよい。また、増強メタデータは、送信され及びデコーダ側で使用されるべき増強メタデータを生成するために、エンコーダ側で1回以上変更されてよいプリセット(候補増強メタデータ)に基づき生成されてよい。この処理は、以下に詳述するように、ユーザ相互作用を含んでよく、芸術的に制御される増強を可能にする。この目的で使用されるプリセットは、幾つかの実装では前述のメタデータに基づいてよい。
ここで、信号の大部分がビットレートの制約されたコーデックを介して配信されるので、任意の信号の一般的なオーディオ増強に対して、有意な利点が提供される。増強システムが、符号化の前にオーディオを増強する場合、低ビットレートコーデックが適用されると、増強の利点は失われる。コンテンツ制作者からの入力を有しないで、オーディオがデコーダにおいて増強される場合、増強は制作者の意図に従わない可能性がある。以下の表1はこの利点を明確化する。
表1:芸術的に制御されたオーディオ増強の利点
Figure 0007019096000006
従って、本願明細書に記載の方法及び機器は、特に深層学習を用いてオーディオを符号化し及び/又は増強するためのソリューションを提供する。これは、更に、コンテンツ制作者が1つ以上の復号モードのどれが利用可能かを符号化側で決定可能なとき、芸術的意図を保存できる。更に、コンテンツ制作者により選択された設定を、ビットストリーム内の増強メタデータパラメータとしてデコーダへ送信し、デコーダに、該デコーダが動作すべきモード及び該デコーダが適用すべき(生成)モデルに関して指示することが可能である。
理解を目的として、本願明細書に記載の方法及び機器は、以下のモードで使用されてよいことに留意する。
モード1:エンコーダは、コンテンツ制作者がデコーダ側増強を試聴することを可能にしてよい。その結果、彼又は彼女は、それぞれの増強を直接承認し又は拒否し及び変更して増強を承認してよい。この処理では、オーディオは符号化され、復号され、及び増強され、コンテンツ制作者は、増強オーディオを聴くことができる。彼又は彼女は、増強オーディオに対してイエス又はノーと言うことができる(及び種々の増強種類及び量に対してイエス又はノーと言うことができる)。このイエス又はノーは、(後述するモード2と対照的に)後の消費者による使用のためにオーディオコンテンツと一緒にデコーダへ配信される増強メタデータを生成するために使用されてよい。モード1は、コンテンツ制作者がオーディオを積極的に聴く必要があるので、最大で数分又は数時間の時間がかかることがある。勿論、モード1の自動化バージョンも考えられ、これは遙かに少ない時間しか要しない。モード1では、標準的にオーディオは、以下に詳述するようにライブブロードキャストを除き、消費者に配信されない。モード1では、オーディオを復号及び増強する目的は、試聴(又は自動評価)のためだけである。
モード2:(例えばNetflix又はBBCのような)配信者は、符号化オーディオコンテンツを送出してよい。配信者は、デコーダ側増強をガイドするためにモード1で生成された増強メタデータも含めてよい。試聴はモード1において増強メタデータを生成するステップの部分であったので、この符号化及び送信処理は、即時であってよく、試聴を含まなくてよい。符号化及び送信処理は、モード1と異なる日に生じてもよい。消費者のデコーダは、次に、符号化オーディオ及びモード1で生成された増強メタデータを受信し、オーディオを復号し、それを増強メタデータに従い増強する。これは、異なる日に生じてもよい。
ライブブロードキャスト(例えば、スポーツ、ニュース)では、コンテンツ制作者は、リアルタイムにライブに許容される増強を選択してよいことに留意する。これは、リアルタイムに送信される増強メタデータにも影響し得る。この場合、試聴で聴かれる信号は消費者に配信されるものと同じであってよいので、モード1及びモード2は同時に生じる。
以下では、添付の図面を参照して方法及び機器が更に詳細に説明される。ここで、図1、2、及び5は、エンコーダ側における増強メタデータの自動生成を表し、図3及び4は、コンテンツ制作者の試聴を更に表す。図6及び7は、デコーダ側を更に表す。図8は、上述のモード1に従うエンコーダ及びデコーダのシステムを表す。
以下では、用語:制作者、アーティスト、プロデューサ、及びユーザ(これは、制作者、アーティスト、又はプロデューサを表すと想定する)が同義的に使用され得ることに留意すべきである。
<デコーダ側において低ビットレート符号化オーディオデータのオーディオ増強を制御するための、増強メタデータの生成>
図1を参照すると、オーディオデータを低ビットレート符号化し、及びデコーダ側における低ビットレート符号化オーディオデータのオーディオ増強を制御するための増強メタデータを生成する方法の一例のフロー図が示される。ステップS101で、符号化オーディオデータを取得するために、元のオーディオデータがコア符号化される。元のオーディオデータは、低ビットレートで符号化されてよい。元のオーディオデータを符号化するために使用されるコーデックは限定されず、任意のコーデック、例えばOPUSコーデックが使用されてよい。
ステップS102で、増強メタデータが生成される。増強メタデータは、符号化オーディオデータがコア復号された後に、デコーダ側でオーディオ増強の種類及び/又は量を制御するために使用される。既に上述したように、増強メタデータは、例えば、例えば符号化品質、ビットストリームパラメータ、生オーディオデータが増強されるべきか否かに関する指示、及び圧伸制御データのうちの1つ以上を含む上述したメタデータと同様の方法で、デコーダによるオーディオ増強をガイドする(guide)ためにエンコーダにより生成されてよい。それぞれの要件に依存して、増強メタデータは、これらの他のメタデータの代替として又はそれに追加で生成されてよい。増強メタデータを生成するステップは、自動的に実行されてよい。代替として又は追加で、増強メタデータを生成するステップは、ユーザ相互作用(例えば、コンテンツ制作者の入力)を含んでよい。
ステップS103で、符号化オーディオデータ及び増強メタデータは、例えば、後に送信されるためにそれぞれの消費者のデコーダへ低ビットレートオーディオビットストリームを介して(モード1)、又は配信者へ(モード2)出力される。エンコーダ側で増強メタデータを生成するステップで、例えば、ユーザ(例えば、コンテンツ制作者)が、消費者へと配信されたときにデコーダ側におけるオーディオ増強の種類及び/又は量を制御することを可能にする制御パラメータを決定するようにすることが可能である。
図2の例を参照すると、符号化オーディオデータをコア復号した後に、デコーダ側で、オーディオ増強種類及び/又は量を制御するために使用される増強メタデータを生成する一例のフロー図が示される。一実施形態では、ステップS102の増強メタデータを生成するステップは、コア復号生オーディオデータを取得するために符号化オーディオデータをコア復号するステップS201を含んでよい。
従って、取得された生オーディオデータは、次にステップ202で、オーディオ増強部に入力されるオーディオデータのオーディオ増強の種類及び/又は量を制御するための候補増強メタデータに基づき、コア復号生オーディオデータを処理するために、オーディオ増強部に入力されてよい。候補増強メタデータは、送信され及びオーディオ増強をガイドするために復号側で使用されるべき増強メタデータを生成するために符号化側で依然として変更されてよいプリセットに対応すると言える。候補増強メタデータは、エンコーダにおいて直ちに実装され得る予め定められたプリセットであってよく、又はユーザ(例えば、コンテンツ制作者)により入力されたプリセットであってよい。幾つかの実装では、プリセットは、上述のメタデータに基づいてよい。候補増強メタデータの変更は、自動的に実行されてよい。代替として又は追加で、候補増強メタデータは、以下に詳述するように、ユーザ入力に基づき変更されてよい。
ステップS203で、増強オーディオデータは、次に、オーディオ増強部からの出力として取得される。一実施形態では、オーディオ増強部は生成ネットワークであってよい。生成ネットワーク自体は限定されない。生成ネットワークは、敵対的生成ネットワーク(GAN)設定においてトレーニングされた生成ネットワークであってよいが、他の生成モデルも考えられる。また、sampleRNN又はWavenetが考えられる。
ステップS204で、候補増強メタデータの適合性が、増強オーディオデータに基づき決定される。適合性は、例えば、増強オーディオデータを元のオーディオデータと比較して、例えば、符号化ノイズ又は帯域制限が配信されるか否かを決定することにより、決定されてよい。候補増強メタデータの適合性を決定するステップは、自動処理であってよく、つまり、それぞれのエンコーダにより自動的に実行されてよい。代替として又は追加で、候補増強メタデータの適合性を決定するステップは、ユーザが試聴するステップを含んでよい。従って、候補増強メタデータの適合性についてのユーザ(例えば、コンテンツ制作者)の判断は、以下に更に詳述するように可能であってよい。
この決定の結果に基づいて、ステップS205で、増強メタデータが生成される。言い換えると、候補増強メタデータが適切であると決定された場合、増強メタデータは、適切な候補増強メタデータに基づき生成される。
図3の例を参照すると、符号化オーディオデータをコア復号した後に、デコーダ側で、オーディオ増強種類及び/又は量を制御するために使用される増強メタデータを生成する更なる例が示される。
一実施形態では、ステップS204、つまり増強オーディオデータに基づき候補増強メタデータの適合性を決定するステップは、ステップS204a、つまり増強オーディオデータをユーザに提示し、該提示に応答してユーザから第1入力を受信するステップを含んでよい。ステップS205で、増強メタデータを生成するステップは、第1入力に基づいてよい。ユーザは、コンテンツ制作者であってよい。増強オーディオデータをコンテンツ制作者に提示する際に、コンテンツ制作者は、増強オーディオデータを聴き、増強オーディオデータが芸術的意図を反映するか否かについて決定する可能性を与えられる。
図4の例に示すように、一実施形態では、決定ブロックS204bのYES(許諾)/NO(拒否)に示すように、ユーザからの第1入力は、候補増強メタデータがユーザにより許諾されるか拒否されるかの指示を含んでよい。一実施形態では、ユーザが候補増強メタデータを拒否する場合、ステップS204cで、候補増強メタデータの変更を示す第2入力がユーザから受信されてよく、ステップS205における増強メタデータを生成するステップは、第2入力に基づいてよい。このような第2入力は、例えば、候補増強メタデータの異なるセット(例えば、異なるプリセット)で入力されるか、又は候補増強メタデータの現在のセットにおける変化(例えば、それぞれの増強制御データにより示され得るような増強種類及び/又は量の変更)に従い入力さてよい。代替として又は追加で、一実施形態では、ユーザが候補増強メタデータを拒否する場合、ステップS202~S205が繰り返されてよい。従って、ユーザ(例えば、コンテンツ制作者)は、例えば、反復処理の中で適切な結果を達成するために、それぞれの候補増強メタデータの適合性を繰り返し決定可能であってよい。言い換えると、コンテンツ制作者は、第2入力に応答して増強オーディオデータを繰り返し聴き、増強オーディオデータが芸術的意図を反映するか否かを決定する可能性を与えられ得る。ステップS205で、増強メタデータは、第2入力にも基づいてよい。
一実施形態では、増強メタデータは、増強制御データの1つ以上のアイテムを含んでよい。このような増強制御データは、それぞれのコア復号生オーディオデータの所望の増強種類及び/又は量を実行するようオーディオ増強部を制御するために復号側で使用されてよい。
一実施形態では、増強制御データは、1つ以上のオーディオ増強種類(コンテンツクリーンアップタイプ)に関する情報を含んでよく、1つ以上のオーディオ増強種類は、会話増強、音楽増強、及び拍手増強、のうちの1つ以上を含む。
従って、エンコーダ側における制作者の入力に従い、デコーダ側において適用され得る種々の形式の深層学習に基づく増強を、例えば、会話中心、音楽中心、等、つまり信号ソースのカテゴリに依存して、適用する一式の(生成)モデル(例えば、音楽のためのGANに基づくモデル、又は会話のためのsampleRNNに基づくモデル)を有することが可能である。オーディオ増強は短期間の間、コンテンツ固有である可能性があるので、制作者は、利用可能なオーディオ増強種類から選択し、それぞれ増強制御データを設定することにより、復号側でそれぞれのオーディオ増強部により使用されるべきオーディオ増強種類を示してもよい。
一実施形態では、増強制御データは、1つ以上のオーディオ増強種類のそれぞれの許容性に関する情報を更に含んでよい。
この文脈では、ユーザ(例えば、コンテンツ制作者)は、現在の又は将来の増強システムに、例えば、開発中の汎用増強部(例えば、会話、音楽、等)、又は特定の増強種類(例えば、会話、音楽、等)を選択し得る自動検出器の観点で、増強を実行すべきオーディオ種類を検出させることを同意又は中止できるにされてもよい。ここで、用語「許容性」は、後にオーディオ増強種類を実行するために、オーディオ種類を検出する許容性を含むとも言える。用語「許容性」は、「単に素晴らしいオプションに聞こえるようにする」ことを含むとも言える。この場合、オーディオ増強の全部の側面がデコーダにより選択されることが許容されてよい。この設定は「コーデックにより生成される傾向のあるアーチファクトの無い、最も自然に聞こえる、最高品質の知覚されるオーディオを生成することを目標とする」ことが、ユーザに開示されてよい。従って、ユーザ(例えば、コンテンツ制作者)がコーデックノイズを生成することを望む場合、彼又は彼女は、このようなセグメントの間、このモードを不活性化し得る。コーデックノイズを検出する自動システムは、このようなケースを検出し、関連するときに、増強を自動的に不活性化する(又は増強の不活性化を提案する)ためにも使用され得る。
代替として又は追加で、一実施形態では、増強制御データは、オーディオ増強量(許容されるコンテンツクリーンアップ量)に関する情報を更に含んでよい。
このような量は、「無し」から「多い」までの範囲を有してよい。言い換えると、このような設定は、オーディオ入力に無関係に専門的に生成されるオーディオコンテンツに対して(多い)、標準的なオーディオ符号化を使用する一般的方法でオーディオを符号化すること(無し)に対応してよい。このような設定は、ビットレートと共に変化することが許容されてもよく、ビットレートが減少すると規定値が増大する。
代替として又は追加で、一実施形態では、増強制御データは、デコーダ側において自動的に更新されたオーディオ増強部によりオーディオ増強が実行されるべきか否かについての許容性に関する情報を更に含んでよい。
深層学習増強は、能力の急速に向上している活発な研究及び将来の商品分野であるので、この設定は、ユーザ(例えば、コンテンツ制作者)が、ユーザが選択を行うときに視聴できるバージョンだけでなく、将来の増強バージョン(例えば、Dolby増強)を適用させることに同意する又は中止することを可能にする。
代替として又は追加で、ステップS202における候補増強メタデータに基づき、コア復号生オーディオデータを処理するステップは、1つ以上の所定のオーディオ増強モジュールを適用することにより実行されてよく、増強制御データは、同じ又は実質的に同じ種類の増強を達成する、デコーダ側にある1つ以上の異なる増強モジュールを使用することの許容性に関する情報を更に含んでよい。
従って、符号化側及び復号側の増強モジュールが異なる場合でも、同じ又は実質的に同じ種類の増強が達成されるので、オーディオ増強中に芸術的意図は保存できる。
図5の例を参照すると、上述の方法を実行するよう構成されるエンコーダの例が示される。エンコーダは、低ビットレートで元のオーディオデータをコア符号化して、符号化オーディオデータを取得するよう構成されるコアエンコーダ101を含んでよい。エンコーダ100は、符号化オーディオデータをコア復号した後に、デコーダ側で、オーディオ増強種類及び/又は量を制御するために使用される増強メタデータ102を生成するよう更に構成されてよい。既に上述したように、増強メタデータの生成は、自動的に実行されてよい。代替として又は追加で、増強メタデータの生成は、ユーザ入力を含んでよい。そして、エンコーダは、符号化オーディオデータ及び増強メタデータ(モード1に従い復号側におけるオーディオ増強を制御するために消費者に、又はモード2に従い分配者に後に配信される)を出力するよう構成される出力ユニット103を含んでよい。
代替として又は追加で、エンコーダは、図9に例示的に示したような上述の方法を実行するよう構成される1つ以上のプロセッサ401、402を含む装置400として実現されてよい。
代替として又は追加で、上述の方法は、処理能力を有する装置で実行されると装置に上述の方法を実行させるよう適応される命令を備えるコンピュータ可読記憶媒体を含むそれぞれのコンピュータプログラムプロダクトにより実施されてよい。
<増強メタデータに基づく、低ビットレート符号化オーディオデータからの増強オーディオデータの生成>
図6の例を参照すると、増強メタデータに基づき、低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法の一例が示される。ステップS301で、低ビットレートで符号化されたオーディオデータ及び増強メタデータが受信される。符号化オーディオデータ及び増強メタデータは、例えば、低ビットレートオーディオビットストリームとして受信されてよい。
低ビットレートオーディオビットストリームは、次に、例えば、符号化オーディオデータ及び増強メタデータに多重化されてよい。ここで、符号化オーディオデータは、コア復号するためにコアデコーダに提供され、増強メタデータは、オーディオ増強のためにオーディオ増強部に適用される。
ステップS303で、符号化オーディオデータはコア復号されて、コア復号生オーディオデータを取得する。該コア復号生オーディオデータは、次に、ステップS303で、増強メタデータに基づきコア復号生オーディオデータを処理するオーディオ増強部に入力される。ここで、オーディオ増強は、以上に詳述されたように増強メタデータに含まれる増強制御データの1つ以上のアイテムによりガイドされてよい。増強メタデータは、(自動的に及び/又はコンテンツ制作者の入力に基づき)芸術的意図を考慮して生成された可能性があるので、オーディオ増強部からの出力としてステップS304で取得されている増強オーディオデータは、芸術的意図を反映し保存してよい。ステップS305で、増強オーディオデータは、次に、例えば、聴者(消費者)に出力される。
一実施形態では、増強メタデータに基づく、コア復号生オーディオデータの処理は、増強メタデータに従い1つ以上のオーディオ増強モジュールを適用することにより実行されてよい。適用されるべきオーディオ増強モジュールは、以上に詳述されたように増強メタデータに含まれる増強制御データにより示されてよい。
代替として又は追加で、増強メタデータに基づく、コア復号生オーディオデータの処理は、以上に詳述されたようにそれぞれの許容性が増強制御データの中で示された場合、自動的に更新されたオーディオ増強部により実行されてよい。
オーディオ増強部の種類は限定されないが、一実施形態では、オーディオ増強部は生成ネットワークであってよい。生成ネットワーク自体は限定されない。生成ネットワークは、敵対的生成ネットワーク(GAN)設定においてトレーニングされた生成ネットワークであってよいが、他の生成モデルも考えられる。また、sampleRNN又はWavenetが考えられる。
図7の例を参照すると、増強メタデータに基づき、低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法を実行するよう構成されるデコーダの一例が示される。デコーダ300は、例えば低ビットレートオーディオビットストリームにより、低ビットレートで符号化されたオーディオデータ及び増強メタデータを受信するよう構成される受信機301を含んでよい。受信機301は、増強メタデータをオーディオ増強部303(破線により示される)に、及び符号化オーディオデータをコアデコーダ302に、提供するよう構成されてよい。低ビットレートオーディオビットストリームが受信される場合、受信機301は、受信した低ビットレートオーディオビットストリームを符号化オーディオデータ及び増強メタデータへと逆多重化するよう更に構成されてよい。代替として又は追加で、デコーダ300は、デマルチプレクサを含んでよい。上述のように、デコーダ300は、符号化オーディオデータをコア復号してコア復号生オーディオデータを取得するよう構成されるコアデコーダ302を含んでよい。コア復号生オーディオデータは、次に、オーディオ増強部303に入力されてよい。オーディオ増強部303は、増強メタデータに基づきコア復号生オーディオデータを処理して、増強オーディオデータを出力するよう構成される。オーディオ増強部303は、増強メタデータに従いコア復号生オーディオデータに適用されるべき1つ以上のオーディオ増強モジュールを含んでよい。オーディオ増強部の種類は限定されないが、一実施形態では、オーディオ増強部は生成ネットワークであってよい。生成ネットワーク自体は限定されない。生成ネットワークは、敵対的生成ネットワーク(GAN)設定においてトレーニングされた生成ネットワークであってよいが、他の生成モデルも考えられる。また、sampleRNN又はWavenetが考えられる。
代替として又は追加で、デコーダは、図9に例示的に示したような増強メタデータに基づき低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法を実行するよう構成される1つ以上のプロセッサを含む装置400として実現されてよい。
代替として又は追加で、上述の方法は、処理能力を有する装置で実行されると装置に上述の方法を実行させるよう適応される命令を備えるコンピュータ可読記憶媒体を含むそれぞれのコンピュータプログラムプロダクトにより実施されてよい。
図8の例を参照すると、上述の方法は、オーディオデータを低ビットレート符号化し、デコーダ側で低ビットレート符号化オーディオデータのオーディオ増強を制御するための増強メタデータを生成する方法を実行するよう構成されるエンコーダ、及び増強メタデータに基づき低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法を実行するよう構成されるそれぞれデコーダ、のシステムにより実施されてもよい。図8の例に示すように、増強メタデータは、エンコーダからデコーダへと、符号化オーディオデータのビットストリームにより送信される。
増強メタデータパラメータは、何らかの妥当な頻度、例えば、秒の妥当な分数、若しくは数フレームの時間境界分解能により、数秒~数時間程度のセグメントで更に更新されてよい。システムのインタフェースは、設定のリアルタイムのライブ切り替え、ファイル内の特定の時点における設定に対する変更、又はそれらの両者を可能にしてよい。
更に、ユーザ(例えば、コンテンツ制作者)がコンテンツの所与のピースについて増強メタデータパラメータを更新するためのクラウドストレージメカニズムが提供されてよい。これは、コンテンツアイテムにインデックスを提供し得るコーデック内で伝達されるIDAT(ID及びTiming)メタデータ情報と連係して機能してよい。
<解釈>
特に断りのない限り、以下の議論から明らかなように、本開示を通じて、「処理する(processing)」、「計算する(computing、calculating)」、「決定する(determining)」、「分析する(analyzing)」等のような用語を用いる議論は、コンピュータ又はコンピューティングシステム、又は物理的、例えば電子的な量として提示されるデータを操作し及び/又は物理的量として同様に提示される他のデータに変換する同様の電子コンピューティング装置の動作及び/又は処理を表す。
同様に、用語「プロセッサ」は、例えばレジスタ及び/又はメモリからの電子データを処理して、該電子データを例えばレジスタ及び/又はメモリに格納され得る他の電子データに変換する、任意の装置又は装置の部分を表してよい。「コンピュータ」又は「コンピューティング装置」若しくは「コンピューティングプラットフォーム」は、1つ以上のプロセッサを含んでよい。
本願明細書に記載した方法は、例示的な一実施形態では、プロセッサのうちの1つ以上により実行されると本願明細書に記載した方法のうちの少なくとも1つを実行する命令セットを含むコンピュータ可読(機械可読とも呼ばれる)コードを受け付ける1つ以上のプロセッサにより実行可能である。行われるべき動作を指定する(シーケンシャル又はその他の)命令セットを実行可能な任意のプロセッサが含まれる。従って、一例は、1つ以上のプロセッサを含む標準的な処理システムである。各プロセッサは、CPU、画像処理ユニット、及びプログラマブルDSPユニット、のうちの1つ以上を含んでよい。処理システムは、メインRAM及び/又は静的RAM及び/又はROMを含むメモリサブシステムを更に含んでよい。バスサブシステムは、コンポーネント間の通信のために含まれてよい。処理システムは、更に、ネットワークにより接続されたプロセッサを有する分散型処理システムであってよい。処理システムがディスプレイを必要とする場合、このようなディスプレイ、例えば液晶ディスプレイ(LCD)又は陰極線管(CRT)ディスプレイが含まれてよい。手動データ入力が必要とされる場合、処理システムは、キーボードのような英数字入力ユニット、マウスのようなポインティング制御装置、等のうちの1つ以上のような入力装置も含む。処理システムは、ディスクドライブユニットのような記憶システムも含んでよい。幾つかの構成における処理システムは、音声出力装置、及びネットワークインタフェース装置を含んでよい。メモリサブシステムは、従って、1つ以上のプロセッサにより実行されると本願明細書に記載の方法のうちの1つ以上を実行させる命令セットを含むコンピュータ可読コード(例えばソフトウェア)を運ぶコンピュータ可読担持媒体を含む。方法が幾つかの要素、例えば幾つかのステップを含むとき、特に断りのない限り、これらの要素の順序は示唆されないことに留意する。ソフトウェアは、ハードディスク内に存在してよく、又はlコンピュータシステムによる実行中に完全に又は部分的にRAM内に及び/又はプロセッサ内に存在してもよい。従って、メモリ及びプロセッサは、コンピュータ可読コードを運ぶコンピュータ可読媒体も構成する。更に、コンピュータ可読担持媒体は、コンピュータプログラムプロダクトを形成し又はそれに含まれてよい。
代替的な例示的な実施形態では、1つ以上のプロセッサは、独立型装置として動作し、又は接続され、例えばネットワーク接続された展開では他のプロセッサにネットワーク接続されてよく、1つ以上のプロセッサは、サーバ-ユーザネットワーク環境でサーバ又はユーザ装置の能力で、又はピアツーピア若しくは分散型ネットワーク環境でピア装置として動作してよい。1つ以上のプロセッサは、PC(personal computer)、タブレットPC、PDA(Personal Digital Assistant)、携帯電話機、ウェブ機器、ネットワークルータ、スイッチ若しくはブリッジ、又は機械により取られるべき動作を指定する(シーケンシャル又はその他の)命令セットを実行可能な任意の機械を形成してよい。
用語「機械」は、本願明細書に記載の方法のうちの任意の1つ以上を実行するための命令セット(又は複数のセット)を個別に又は共同で実行する機械の任意の集合を含むと考えられるべきである。
従って、本願明細書に記載の方法の各々の例示的な実施形態は、命令セット、例えば1つ以上のプロセッサ、例えばウェブサーバ構成の部分である1つ以上のプロセッサ上での実行のためであるコンピュータプログラムを運ぶコンピュータ可読担持媒体の形式である。従って、当業者により理解されるように、本開示の例示的な実施形態は、方法、専用機器のような機器、データ処理システムのような機器、又はコンピュータ可読担持媒体、例えばコンピュータプログラムプロダクト、として具現化されてよい。コンピュータ可読担持媒体は、1つ以上のプロセッサ上で実行されると該プロセッサ又は複数のプロセッサに方法を実施させる命令セットを含むコンピュータ可読コードを運ぶ。従って、本開示の態様は、方法、完全にハードウェアの例示的な実施形態、完全にソフトウェアの例示的な実施形態、又はソフトウェア及びハードウェアの態様を組み合わせた例示的な実施形態の形式を取り得る。更に、本開示は、媒体内に付言化されるコンピュータ可読プログラムコードを運ぶ担持媒体(例えば、コンピュータ可読記憶媒体上のコンピュータプログラムプロダクト)の形式を取ってよい。
ソフトウェアは、更に、ネットワークインタフェース装置により、ネットワークを介して送信され又は受信されてよい。担持媒体は、例示的な実施形態において信号媒体であるが、用語「担持媒体」は、1つ以上の命令セット格納する信号媒体又は複数の媒体(例えば、中央又は分散型データベース、及び/又は関連するキャッシュ及びサーバ)を含むと解釈されるべきである。用語「担持媒体」は、プロセッサのうちの1つ以上による実行のために命令セットを格納し、符号化し、又は運ぶ能力のある、及び1つ以上のプロセッサに本開示の方法のうちの任意の1つ以上を実行させる任意の媒体も含むと解釈されるべきである。担持媒体は、限定ではないが、不揮発性媒体、揮発性媒体、及び伝送媒体を含む多くの形式を取ってよい。不揮発性媒体は、例えば、光、磁気ディスク、又は光磁気ディスクを含む。揮発性媒体は、メインメモリのような動的メモリを含む。伝送媒体は、バスサブシステムを含むワイヤを含む、同軸ケーブル、銅線、光ファイバを含む。伝送媒体は、無線波及び赤外線データ通信の間に生成されるような、音響又は光波の形式も取りうる。例えば、用語「担持媒体」は、従って、限定ではないが、固体メモリ、光及び磁気媒体内に具現化されるコンピュータプロダクト、少なくとも1つのプロセッサ又は1つ以上のプロセッサにより検出可能であり実行されると方法を実施する命令セットを表す伝搬信号を運ぶ媒体、及び1つ以上のプロセッサのうちの少なくとも1つのプロセッサにより検出可能な伝搬信号を運び命令セットを表すネットワーク内の伝送媒体を含むと解釈されるべきである。
議論した方法のステップは、ストレージに格納された命令(コンピュータ可読コード)を実行する処理(例えば、コンピュータ)システムの適切なプロセッサ(又は複数のプロセッサ)により例示的な一実施形態において実行されることが理解される。また、本開示は任意の特定の実装又はプログラミング技術に限定されないこと、及び本開示は、本願明細書に記載の機能を実施するために任意の適切な技術を使用して実施されてよいことが理解される。本開示は、任意の特定のプログラミング言語又はオペレーティングシステムに限定されない。
本開示を通じて「一実施形態」、「幾つかの実施形態」又は「例示的な実施形態」への言及は、例示的な実施形態に関連して記載される特定の特徴、構造、又は特性が本開示の少なくとも1つの例示的な実施形態に含まれることを意味する。従って、本開示を通じて様々な場所における「例示的な一実施形態では」、「例示的な幾つかの実施形態では」又は「例示的な実施形態では」という語句の出現は、必ずしも全部が同じ例示的な実施形態を参照しない。更に、特定の特徴、構造、又は特性は、1つ以上の例示的な実施形態において、本開示から当業者に明らかなように、任意の適切な方法で組み合わされてよい。
本願明細書で使用されるとき、特に断りのない限り、共通のオブジェクトを説明するための序数「第1」、「第2」、「第3」などの使用は、単に、同様のオブジェクトの異なるインスタンスが言及されていることを示すものであり、説明されているオブジェクトが時間的に、空間的に、ランク付けにおいて、又は任意の他の方法で所与のシーケンスでなければならないことを意味しない。
以下の請求の範囲及び本願明細書に記載の説明では、用語:含む、有する、構成される、又は構成するのうちの任意の1つは、広義であり、それに続く要素/特徴を少なくとも含むが他を排除しないことを意味する。従って、用語:含むは、請求項中で使用されるとき、その後に列挙される手段又は要素又はステップに限定されると解釈されてはならない。例えば、表現の範囲:装置はA及びBを含む、は、装置が要素A及びBのみで構成されることに限定されるべきではない。用語:有するも、本願明細書で使用されるとき、広義であり、該用語に続く要素/特徴を少なくとも含むが他を排除しないことを意味する。従って、有するは、含むと同義語であり、含むを意味する。
理解されるべきことに、本開示の例示的な実施形態の上述の説明では、本開示の種々の特徴は、本開示を効率化する及び種々の本発明の態様のうちの1つ以上の理解を支援する目的で、時に単一の例示的な実施形態、図、又はその説明に一緒にグループ分けされる。しかしながら、本開示のこの方法は、請求の範囲が各請求項に明示的に記載されたよりも多くの特徴を必要とするという意図を反映していると解釈されてはならない。むしろ、以下の請求項が反映するように、本発明の態様は、単一の前述の開示された例示的な実施形態の全部の特徴よりも少数にある従って、説明に続く請求の範囲は、この説明に明示的に組み込まれ、各請求項は、本開示の個別の例示的な実施形態としてそれ自体独立である。
更に、本願明細書に記載した幾つかの例示的な実施形態は、他の例示的な実施形態に含まれる他の特徴ではなく幾つかの特徴を含むが、当業者により理解されるように、異なる例示的な実施形態の特徴の組合せは、本開示の範囲内にあることを意味し、異なる例示的な実施形態を形成する。例えば、以下の請求の範囲では、請求される例示的な実施形態のうちの何れかが、任意の組合せで使用できる。
本願明細書で提供される説明では、多数の特定の詳細事項が説明された。しかしながら、本開示の例示的な実施形態は、これらの特定の詳細事項を有しないで実施されてよいことが理解される。他の例では、よく知られた方法、構造、及び技術は、本発明の説明の理解を不明瞭にしないために、示されなかった。
従って、本開示のベストモードとして信じられるものが記載されたが、当業者は、他の及び更なる変更が、本開示の精神から逸脱することなく行われてよいこと、及び全てのそのような変化及び変更が本開示の範囲内にあると意図されることを理解するだろう。例えば、上述の任意の数式は、単に使用され得る手順の表現である。機能がブロック図に追加され又は削除されてよく、動作が機能ブロックの間で交互交換されてよい。ステップは本開示の範囲内に記載された方法に追加され又は削除されてよい。

Claims (26)

  1. オーディオデータの低ビットレート符号化、及びデコーダ側でデコーダにおいて低ビットレート符号化オーディオデータのオーディオ増強を制御するための増強メタデータの生成のための方法であって、
    (a)元のオーディオデータを低ビットレートでコア符号化して、符号化オーディオデータを取得するステップと、
    (b)エンコーダにおいて、前記符号化オーディオデータをコア復号した後に、前記デコーダにおいてオーディオ増強種類及び/又は量を制御するために前記デコーダへ送信されるべき増強メタデータを生成するステップと、
    (c)前記符号化オーディオデータ及び前記増強メタデータを前記デコーダへ出力するステップと、
    を含み、
    ステップ(b)において増強メタデータを生成するステップは、
    (i)前記符号化オーディオデータをコア復号して、コア復号生オーディオデータを取得するステップと、
    (ii)オーディオ増強部に入力されるオーディオデータの前記オーディオ増強種類及び/又は量を制御するための候補増強メタデータに基づき、前記コア復号生オーディオデータを処理するために、前記オーディオ増強部に前記コア復号生オーディオデータを入力するステップと、
    (iii)前記オーディオ増強部からの出力として、増強オーディオデータを取得するステップと、
    (iv)前記増強オーディオデータに基づき、前記候補増強メタデータの適合性を決定するステップと、
    (v)前記決定の結果に基づき、増強メタデータを生成するステップと、
    を含む、方法。
  2. ステップ(iv)において前記候補増強メタデータの前記適合性を決定するステップは、ユーザに前記増強オーディオデータを提示し、該提示に応答して前記ユーザから第1入力を受信するステップを含み、
    ステップ(v)において前記増強メタデータを生成するステップは、前記第1入力に基づく、請求項1に記載の方法。
  3. 前記ユーザからの前記第1入力は、前記候補増強メタデータが前記ユーザにより受け入れられるか又は拒否されるかの指示を含む、請求項2に記載の方法。
  4. 前記ユーザが前記候補増強メタデータを拒否する場合、前記候補増強メタデータの変更を示す第2入力が前記ユーザから受信され、ステップ(v)における前記増強メタデータを生成するステップは、前記第2入力に基づく、請求項3に記載の方法。
  5. 前記ユーザが前記候補増強メタデータを拒否する場合、ステップ(ii)~(v)が繰り返される、請求項3又は4に記載の方法。
  6. 前記増強メタデータは、増強制御データの1つ以上のアイテムを含む、請求項1~5のいずれか一項に記載の方法。
  7. 前記増強制御データは、1つ以上のオーディオ増強種類に関する情報を含み、前記1つ以上のオーディオ増強種類は、会話増強、音楽増強、及び拍手増強、のうちの1つ以上を含む、請求項6に記載の方法。
  8. 前記増強制御データは、前記1つ以上のオーディオ増強種類のそれぞれの許容性に関する情報を更に含む、請求項7に記載の方法。
  9. 前記増強制御データは、オーディオ増強量に関する情報を更に含む、請求項6~8のいずれか一項に記載の方法。
  10. 前記増強制御データは、前記デコーダ側において自動的に更新されたオーディオ増強部によりオーディオ増強が実行されるべきか否かについての許容性に関する情報を更に含む、請求項6~9のいずれか一項に記載の方法。
  11. ステップ(ii)における前記候補増強メタデータに基づき、前記コア復号生オーディオデータを処理するステップは、1つ以上の所定のオーディオ増強モジュールを適用することにより実行され、前記増強制御データは、同じ又は実質的に同じ種類の増強を達成する、デコーダ側にある1つ以上の異なる増強モジュールを使用することの許容性に関する情報を更に含む、請求項6~10のいずれか一項に記載の方法。
  12. 前記オーディオ増強部は敵対的生成ネットワーク設定においてトレーニングされた生成ネットワークである、請求項1~11のいずれか一項に記載の方法。
  13. 敵対的生成ネットワークにおけるトレーニングの間、前記生成ネットワークの出力として前記増強オーディオデータを取得するステップは、前記増強メタデータに基づき条件付けされる、請求項12に記載の方法。
  14. 前記増強メタデータは、少なくとも前記元のオーディオデータの符号化品質の指示を含む、請求項12又は13のいずれか一項に記載の方法。
  15. 前記増強メタデータは、1つ以上のビットストリームパラメータを含む、請求項12~14のいずれか一項に記載の方法。
  16. 前記1つ以上のビットストリームパラメータは、ビットレート、AACに基づくコーデック及びDolby AC-4コーデックに関連するスケーリング係数値、及びAACに基づくコーデックのブローバル利得、のうちの1つ以上を含む、請求項15に記載の方法。
  17. 前記ビットストリームパラメータは、前記生成ネットワークにおける元のオーディオデータの増強をガイドするために使用され、及び/又は前記ビットストリームパラメータは、前記コア復号生オーディオデータを前記生成ネットワークにより増強するか否かに関する指示を含む、請求項15又は16に記載の方法。
  18. 低ビットレート符号化オーディオデータの増強を制御する増強メタデータを生成するエンコーダであって、前記エンコーダは、請求項1~17のいずれか一項に記載の方法を実行するよう構成される1つ以上のプロセッサを含む、エンコーダ。
  19. デコーダにおいて、増強メタデータに基づき低ビットレート符号化オーディオデータから増強オーディオデータを生成する方法であって、前記方法は、
    (a)エンコーダから、低ビットレートで符号化されたオーディオデータと増強メタデータとを受信するステップと、
    (b)前記符号化オーディオデータをコア復号して、コア復号生オーディオデータを取得するステップと、
    (c)増強メタデータに基づき前記コア復号生オーディオデータを処理するために、前記コア復号生オーディオデータをオーディオ増強部に入力するステップと、
    (d)前記オーディオ増強部からの出力として、増強オーディオデータを取得するステップと、
    (e)前記増強オーディオデータを出力するステップであって、前記オーディオ増強部は、敵対的生成ネットワーク(GAN)設定においてトレーニングされた生成ネットワークである、ステップと、
    を含む方法。
  20. 前記増強メタデータに基づき、前記コア復号生オーディオデータを処理するステップは、前記増強メタデータに従い1つ以上のオーディオ増強モジュールを適用することにより実行される、請求項19に記載の方法。
  21. 前記敵対的生成ネットワークにおいてトレーニングする間、前記生成ネットワークの出力として前記増強オーディオデータを取得するステップは、前記増強メタデータに基づき条件付けされる、請求項19又は20に記載の方法。
  22. 前記増強メタデータは、少なくとも前記元のオーディオデータの符号化品質の指示を含む、請求項19~21のいずれか一項に記載の方法。
  23. 前記増強メタデータは、1つ以上のビットストリームパラメータを含む、請求項19~22のいずれか一項に記載の方法。
  24. 前記1つ以上のビットストリームパラメータは、ビットレート、AACに基づくコーデック及びDolby AC-4コーデックに関連するスケーリング係数値、及びAACに基づくコーデックに関連するグローバル利得、のうちの1つ以上を含む、請求項23に記載の方法。
  25. 増強メタデータに基づき低ビットレート符号化オーディオデータから増強オーディオデータを生成するデコーダであって、前記デコーダは、請求項19~24のいずれか一項に記載の方法を実行するよう構成される1つ以上のプロセッサを含む、デコーダ。
  26. 処理能力を有する装置で実行されると、装置に請求項1~17又は19~24のいずれか一項に記載の方法を実行させるよう適応されるプログラムを有するコンピュータ可読記憶媒体。
JP2021510118A 2018-08-30 2019-08-29 低ビットレート符号化オーディオの増強を制御する方法及び機器 Active JP7019096B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CNPCT/CN2018/103317 2018-08-30
CN2018103317 2018-08-30
US201862733409P 2018-09-19 2018-09-19
US62/733,409 2018-09-19
US201962850117P 2019-05-20 2019-05-20
US62/850,117 2019-05-20
PCT/US2019/048876 WO2020047298A1 (en) 2018-08-30 2019-08-29 Method and apparatus for controlling enhancement of low-bitrate coded audio

Publications (2)

Publication Number Publication Date
JP2021525905A JP2021525905A (ja) 2021-09-27
JP7019096B2 true JP7019096B2 (ja) 2022-02-14

Family

ID=67928936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021510118A Active JP7019096B2 (ja) 2018-08-30 2019-08-29 低ビットレート符号化オーディオの増強を制御する方法及び機器

Country Status (5)

Country Link
US (1) US11929085B2 (ja)
EP (1) EP3844749B1 (ja)
JP (1) JP7019096B2 (ja)
CN (1) CN112639968B (ja)
WO (1) WO2020047298A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021245015A1 (en) * 2020-06-01 2021-12-09 Dolby International Ab Method and apparatus for determining parameters of a generative neural network
CN111985643B (zh) * 2020-08-21 2023-12-01 腾讯音乐娱乐科技(深圳)有限公司 一种生成网络的训练方法、音频数据增强方法及相关装置
EP4196981A1 (en) * 2021-01-22 2023-06-21 Google LLC Trained generative model speech coding
EP4207192A4 (en) * 2021-02-18 2024-05-15 Samsung Electronics Co., Ltd. ELECTRONIC DEVICE AND ITS CONTROL METHOD
US11900902B2 (en) * 2021-04-12 2024-02-13 Adobe Inc. Deep encoder for performing audio processing
CN113380270B (zh) * 2021-05-07 2024-03-29 普联国际有限公司 一种音频音源分离方法、装置、存储介质及电子设备
CN113823296A (zh) * 2021-06-15 2021-12-21 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN113823298B (zh) * 2021-06-15 2024-04-16 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN114495958B (zh) * 2022-04-14 2022-07-05 齐鲁工业大学 一种基于时间建模生成对抗网络的语音增强系统
EP4375999A1 (en) * 2022-11-28 2024-05-29 GN Audio A/S Audio device with signal parameter-based processing, related methods and systems

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008505586A (ja) 2004-07-01 2008-02-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ情報の再生音量とダイナミックレンジに影響を与えるメタデータを修正する方法

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2776848B2 (ja) 1988-12-14 1998-07-16 株式会社日立製作所 雑音除去方法、それに用いるニューラルネットワークの学習方法
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
WO1999041844A1 (en) 1998-02-12 1999-08-19 Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. A neural network based method for exponent coding in a transform coder for high quality audio
US6408275B1 (en) * 1999-06-18 2002-06-18 Zarlink Semiconductor, Inc. Method of compressing and decompressing audio data using masking and shifting of audio sample bits
DE19957220A1 (de) 1999-11-27 2001-06-21 Alcatel Sa An den aktuellen Geräuschpegel adaptierte Geräuschunterdrückung
DE10030926A1 (de) 2000-06-24 2002-01-03 Alcatel Sa Störsignalabhängige adaptive Echounterdrückung
FI109393B (fi) * 2000-07-14 2002-07-15 Nokia Corp Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite
US6876966B1 (en) 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
US7225135B2 (en) * 2002-04-05 2007-05-29 Lectrosonics, Inc. Signal-predictive audio transmission system
US7787640B2 (en) * 2003-04-24 2010-08-31 Massachusetts Institute Of Technology System and method for spectral enhancement employing compression and expansion
WO2007014228A2 (en) * 2005-07-26 2007-02-01 Nms Communications Corporation Methods and apparatus for enhancing ringback tone quality during telephone communications
US7672842B2 (en) * 2006-07-26 2010-03-02 Mitsubishi Electric Research Laboratories, Inc. Method and system for FFT-based companding for automatic speech recognition
GB0704622D0 (en) 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US8892428B2 (en) 2010-01-14 2014-11-18 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus, encoding method, and decoding method for adjusting a spectrum amplitude
US9112989B2 (en) * 2010-04-08 2015-08-18 Qualcomm Incorporated System and method of smart audio logging for mobile devices
US8793557B2 (en) 2011-05-19 2014-07-29 Cambrige Silicon Radio Limited Method and apparatus for real-time multidimensional adaptation of an audio coding system
KR102003191B1 (ko) 2011-07-01 2019-07-24 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 오디오 신호 생성, 코딩 및 렌더링을 위한 시스템 및 방법
US9164724B2 (en) * 2011-08-26 2015-10-20 Dts Llc Audio adjustment system
US20130178961A1 (en) * 2012-01-05 2013-07-11 Microsoft Corporation Facilitating personal audio productions
JP6174129B2 (ja) * 2012-05-18 2017-08-02 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム
US9263060B2 (en) 2012-08-21 2016-02-16 Marian Mason Publishing Company, Llc Artificial neural network based system for classification of the emotional content of digital music
RU2676242C1 (ru) 2013-01-29 2018-12-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Декодер для формирования аудиосигнала с улучшенной частотной характеристикой, способ декодирования, кодер для формирования кодированного сигнала и способ кодирования с использованием компактной дополнительной информации для выбора
WO2014148844A1 (ko) 2013-03-21 2014-09-25 인텔렉추얼디스커버리 주식회사 단말 장치 및 그의 오디오 신호 출력 방법
MY197063A (en) 2013-04-05 2023-05-23 Dolby Int Ab Companding system and method to reduce quantization noise using advanced spectral extension
US9241044B2 (en) * 2013-08-28 2016-01-19 Hola Networks, Ltd. System and method for improving internet communication by using intermediate nodes
EP3503095A1 (en) * 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
US9317745B2 (en) * 2013-10-29 2016-04-19 Bank Of America Corporation Data lifting for exception processing
US20160191594A1 (en) 2014-12-24 2016-06-30 Intel Corporation Context aware streaming media technologies, devices, systems, and methods utilizing the same
CN105023580B (zh) 2015-06-25 2018-11-13 中国人民解放军理工大学 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
US9837086B2 (en) * 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US10339921B2 (en) 2015-09-24 2019-07-02 Google Llc Multichannel raw-waveform neural networks
CN105426439B (zh) * 2015-11-05 2022-07-05 腾讯科技(深圳)有限公司 一种元数据的处理方法和装置
BR112017024480A2 (pt) * 2016-02-17 2018-07-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. pós-processador, pré-processador, codificador de áudio, decodificador de áudio e métodos relacionados para aprimoramento do processamento transiente
US10235994B2 (en) 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
US9886949B2 (en) 2016-03-23 2018-02-06 Google Inc. Adaptive audio enhancement for multichannel speech recognition
US11080591B2 (en) 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US20180082679A1 (en) 2016-09-18 2018-03-22 Newvoicemedia, Ltd. Optimal human-machine conversations using emotion-enhanced natural speech using hierarchical neural networks and reinforcement learning
US10714118B2 (en) 2016-12-30 2020-07-14 Facebook, Inc. Audio compression using an artificial neural network
US10872598B2 (en) 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US10587880B2 (en) 2017-03-30 2020-03-10 Qualcomm Incorporated Zero block detection using adaptive rate model
KR20180111271A (ko) 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
WO2018199987A1 (en) 2017-04-28 2018-11-01 Hewlett-Packard Development Company, L.P. Audio tuning presets selection
US10127918B1 (en) 2017-05-03 2018-11-13 Amazon Technologies, Inc. Methods for reconstructing an audio signal
US10381020B2 (en) 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
EP3637272A4 (en) * 2017-06-26 2020-09-02 Shanghai Cambricon Information Technology Co., Ltd DATA-SHARING SYSTEM AND RELATED DATA-SHARING PROCESS
KR102002681B1 (ko) * 2017-06-27 2019-07-23 한양대학교 산학협력단 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법
US11270198B2 (en) 2017-07-31 2022-03-08 Syntiant Microcontroller interface for audio signal processing
US20190057694A1 (en) 2017-08-17 2019-02-21 Dolby International Ab Speech/Dialog Enhancement Controlled by Pupillometry
US10068557B1 (en) 2017-08-23 2018-09-04 Google Llc Generating music with deep neural networks
US10334357B2 (en) 2017-09-29 2019-06-25 Apple Inc. Machine learning based sound field analysis
US10854209B2 (en) * 2017-10-03 2020-12-01 Qualcomm Incorporated Multi-stream audio coding
US10839809B1 (en) * 2017-12-12 2020-11-17 Amazon Technologies, Inc. Online training with delayed feedback
AU2018100318A4 (en) 2018-03-14 2018-04-26 Li, Shuhan Mr A method of generating raw music audio based on dilated causal convolution network
EP3794473B1 (en) * 2018-08-06 2024-10-16 Google LLC Captcha automated assistant

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008505586A (ja) 2004-07-01 2008-02-21 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ情報の再生音量とダイナミックレンジに影響を与えるメタデータを修正する方法

Also Published As

Publication number Publication date
US11929085B2 (en) 2024-03-12
EP3844749B1 (en) 2023-12-27
CN112639968B (zh) 2024-10-01
WO2020047298A1 (en) 2020-03-05
JP2021525905A (ja) 2021-09-27
US20210327445A1 (en) 2021-10-21
CN112639968A (zh) 2021-04-09
EP3844749A1 (en) 2021-07-07

Similar Documents

Publication Publication Date Title
JP7019096B2 (ja) 低ビットレート符号化オーディオの増強を制御する方法及び機器
CA2705968C (en) A method and an apparatus for processing a signal
TWI480856B (zh) 音訊編解碼器中之雜訊產生技術
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
JP6439296B2 (ja) 復号装置および方法、並びにプログラム
CN110890101B (zh) 用于基于语音增强元数据进行解码的方法和设备
KR101657916B1 (ko) 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법
CA2865651C (en) Phase coherence control for harmonic signals in perceptual audio codecs
CN115867966A (zh) 用于确定生成神经网络的参数的方法和装置
JP5519230B2 (ja) オーディオエンコーダ及び音信号処理システム
US20230178084A1 (en) Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain
Zhan et al. Bandwidth extension for China AVS-M standard
EP2526546A1 (en) Method and device for determining a number of bits for encoding an audio signal
Herre et al. Perceptual audio coding
RU2823081C1 (ru) Способы и система для кодирования на основе формы сигналов аудиосигналов с помощью порождающей модели
Beack et al. An Efficient Time‐Frequency Representation for Parametric‐Based Audio Object Coding
CA3157876A1 (en) Methods and system for waveform coding of audio signals with a generative model
JP2023545197A (ja) オーディオ帯域幅検出およびオーディオコーデックにおけるオーディオ帯域幅切り替えのための方法およびデバイス
Herre et al. Perceptual audio coding of speech signals
van Schijndel ARDOR Final Report

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20210222

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210222

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220201

R150 Certificate of patent or registration of utility model

Ref document number: 7019096

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150