JP2024509100A - オーディオオブジェクト処理 - Google Patents

オーディオオブジェクト処理 Download PDF

Info

Publication number
JP2024509100A
JP2024509100A JP2023551713A JP2023551713A JP2024509100A JP 2024509100 A JP2024509100 A JP 2024509100A JP 2023551713 A JP2023551713 A JP 2023551713A JP 2023551713 A JP2023551713 A JP 2023551713A JP 2024509100 A JP2024509100 A JP 2024509100A
Authority
JP
Japan
Prior art keywords
reconstruction
rendering
audio
spatial audio
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023551713A
Other languages
English (en)
Inventor
ヨナス サムエルソン,レイフ
プルンハーゲン,ヘイコ
ヴィレモウス,ラーシュ
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2024509100A publication Critical patent/JP2024509100A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

オブジェクト再構成情報を修正するための方法であって、N個の空間オーディオオブジェクトのセットを取得するステップであって、各空間オーディオオブジェクトは、オーディオ信号および空間メタデータを含む、ステップと、N個の空間オーディオオブジェクトを表すオーディオプレゼンテーションを取得するステップと、オーディオプレゼンテーションからN個の空間オーディオオブジェクトを再構成するように構成されたオブジェクト再構成情報を取得するステップと、再構成情報をオーディオプレゼンテーションに適用してN個の再構成された空間オーディオオブジェクトのセットを形成するステップと、第1のレンダリング構成を使用して、N個の空間オーディオオブジェクトをレンダリングして第1のレンダリングされたプレゼンテーションを取得し、N個の再構成された空間オーディオオブジェクトをレンダリングして第2のレンダリングされたプレゼンテーションを取得するステップと、第1のレンダリングされたプレゼンテーションと第2のレンダリングされたプレゼンテーションとの間の差に基づいて再構成情報を修正し、それによって、修正された再構成情報を形成するステップとを含む方法。

Description

[関連出願の相互参照]
本出願は、以下の優先権出願の優先権を主張する:2021年2月25日に出願された米国仮出願第63/153,719号(参照:D21011USP1)(参照により本明細書に組み込まれる)。
[技術分野]
本開示は、オーディオオブジェクト処理に関し、特にオーディオオブジェクトの符号化および復号に関する。
没入型オーディオコンテンツのオブジェクトベース表現は、直感的なコンテンツ制作と、適切なレンダリングシステムを使用した幅広い再生構成にわたる最適な再生とを組み合わせた強力な手法である。オブジェクトベースのオーディオは、例えば、Dolby Atmosシステムの重要な要素である。オーディオオブジェクトは、実際のオーディオ信号と、オブジェクトの位置などの関連メタデータとを含む。オブジェクトベースのオーディオをコンシューマエンターテインメントデバイスに配信するためには、ブロードキャスト、ストリーミング、ダウンロード、または同様の送信シナリオを可能にする効率的な表現が必要とされる。この目的のために、空間コーディングおよびオブジェクト符号化のようなオブジェクトの様々な処理が行われる。
1つの具体的な符号化手法は、H. Purnhagen, T. Hirvonen, L. Villemoes, J. Samuelsson, J. Klejsa, “Immersive Audio Delivery Using Joint Object Coding”, in AES 140th Convention, Paris, FR, May 2016で議論されているようなジョイントオブジェクトコーディング(JOC)手法である。この例は、“Backwards-compatible object audio carriage using Enhanced AC-3”, ETSI TS 103 420 V1.1.1 (2016-07)におけるDolby Digital Plus(DD+)JOCシステムである。J. Breebaart, G. Cengarle, L. Lu, T. Mateos, H. Purnhagen, N. Tsingos, “Spatial Coding of Complex Object-Based Program Material,” J. Audio Eng. Soc., vol. 67, no. 7/8, pp. 486-497, July 2019で議論されているように、送信される必要があるオブジェクト数を減らすためにプリプロセッサとしてジョイントオブジェクトコーディングを空間コーディングと併用することができる。
JOCエンコーダでは、オブジェクトは、ダウンミックス信号、例えば、5.1サラウンド表現にレンダリングされ、JOCパラメータは、JOCデコーダがダウンミックス信号からオブジェクトを再構成することを可能にするように計算される。JOCエンコーダは、ダウンミックス信号、JOCパラメータ、およびオブジェクトメタデータをJOCデコーダに送信する。典型的には、オブジェクトベースのコンテンツは、ダウンミックス信号の数よりも多い数のオブジェクトを含み、よって、より効率的な送信を可能にする。さらに、ダウンミックス信号自体は、DD+のような知覚オーディオコーディングシステムを使用して効率的に送信可能である。典型的には、JOCパラメータは、オブジェクトがダウンミックス信号の線形結合としてどのように再構成されるかを制御し、JOCパラメータは、時間および周波数変動し、時間/周波数(T/F)タイルごとに送信される。所与のT/Fタイル内の所与のオブジェクトに関するJOCパラメータを計算するための一般的な初期手法は、最小平均二乗誤差(MMSE)の意味で最良の近似を達成することである。しかしながら、正確な再構成が可能でない場合、近似誤差は、再構成されたオブジェクトがより低いレベル(エネルギーまたは分散として測定される)を有することを意味する。知覚的により適切な近似を達成するために、再構成されたオブジェクトを、それが元のオブジェクトと同じレベル(すなわち、エネルギー)を有するようにブースト(すなわち、ゲイン)することが有利であり、このブーストは、JOCパラメータを適宜変更することによって達成され得る。
しかしながら、この手法では、再構成されたオブジェクトの完全な共分散行列が元のオブジェクトの共分散行列に一致することが保証されない。共分散行列の対角要素(すなわち、オブジェクトエネルギー)が正しく復元されることだけが保証される。多くの場合、再構成されたオブジェクト間の相関の増加を観察することができ、この結果、再構成されたオブジェクトが、例えば、7.1.4ラウドスピーカーシステムによる再生のためにレンダリングされるときに、レベルビルドアップ効果を生む。このビルドアップは、元のオブジェクトのレンダリングと比較したときに観察することができ、例えば、その影響を受けたコンテンツ内のオブジェクトの知覚されるラウドネスの増加として現れることがある。
本発明の目的は、オーディオオブジェクトの処理を改善することであり、それには、オブジェクト符号化におけるレベル損失およびレベルビルドアップのようなレベルエラーを回避することが含まれる。
本発明の第1の態様によれば、この目的および他の目的は、オブジェクト再構成情報を修正するための方法によって達成され、本方法は、N個の空間オーディオオブジェクトのセットを取得するステップであって、各空間オーディオオブジェクトは、オーディオ信号および空間メタデータを含む、ステップと、N個の空間オーディオオブジェクトを表すオーディオプレゼンテーションを取得するステップと、オーディオプレゼンテーションからN個の空間オーディオオブジェクトを再構成するように構成されたオブジェクト再構成情報を取得するステップと、再構成情報をオーディオプレゼンテーションに適用してN個の再構成された空間オーディオオブジェクトのセットを形成するステップと、第1のレンダリング構成を使用して、N個の空間オーディオオブジェクトをレンダリングして第1のレンダリングされたプレゼンテーションを取得し、N個の再構成された空間オーディオオブジェクトをレンダリングして第2のレンダリングされたプレゼンテーションを取得するステップと、第1のレンダリングされたプレゼンテーションと第2のレンダリングされたプレゼンテーションとの間の差に基づいて再構成情報を修正し、それによって、修正された再構成情報を形成するステップとを含む。
元のオブジェクトおよび処理されたオブジェクトのレンダリングされたプレゼンテーションをそれぞれ分析(比較)することによって、再構成情報を修正し、それによって、再構成されたオブジェクトのレンダリングを元のオブジェクトのレンダリングにさらに良好に対応させることができる。
いくつかの実施形態では、第1の態様による方法は、オーディオオブジェクト符号化に使用される。この場合、オーディオプレゼンテーションは、符号化されたオーディオ信号のセットに符号化されるM個のオーディオ信号のセットであり、符号化されたオーディオ信号および修正された再構成情報は、送信のためにビットストリームに組み合わされる。より具体的な例では、M個のオーディオ信号は、N個の空間オーディオオブジェクトのオーディオ信号のダウンミックスを表し、オブジェクト再構成情報は、M個のオーディオ信号からN個の空間オーディオオブジェクトを再構成するように構成された再構成パラメータのセットであり、修正された再構成情報は、修正された再構成パラメータのセットである。
これらの実施形態では、復号プロセスは、不変のままであってもよいが、ビットストリームで伝達される修正された再構成情報を使用することとなる。これは、例えば、修正されていない再構成パラメータがデコーダ側で使用された場合に発生するレベルエラーを軽減する。
本方法はさらに、第2のレンダリング構成を使用して、N個の空間オーディオオブジェクトをレンダリングして第3のレンダリングされたプレゼンテーションを生成し、N個の再構成された空間オーディオオブジェクトをレンダリングして第4のレンダリングされたプレゼンテーションを生成するステップと、第2のレンダリング構成に関連付けられたオブジェクト固有の修正ゲインの第2のセットを決定するステップと、符号化ビットストリーム中に、1)オブジェクト固有の修正ゲインの第1のセットおよび第2のセットの両方、および2)オブジェクト固有の修正ゲインの第1のセットと第2のセットとの比のうちの1つを含めるステップとを含み得る。
この手法では、符号化ビットストリームは、受信側のデコーダが、複数のレンダリング構成のうちの1つ、例えば、5.1.2または7.1.4に関連付けられた修正された再構成されたオブジェクトを取得することを可能にする情報を含む。
本発明の第2の態様によれば、この目的および他の目的は、ビットストリーム内の空間オーディオオブジェクトを復号するための方法によって達成され、本方法は、ビットストリームを復号して、M個のオーディオチャネルのセットと、M個のオーディオ信号からN個の空間オーディオオブジェクトのセットを再構成するよう構成された再構成パラメータのセットであって、再構成パラメータは、第1のレンダリング構成に関連付けられている、再構成パラメータのセットと、第2のレンダリング構成に関連付けられた修正ゲインとを取得するステップを含む。本方法はさらに、再生レンダリング構成を決定するステップと、再生レンダリング構成を決定したことに応答して、修正ゲインを再構成パラメータに適用して代替再構成パラメータを取得するステップと、代替再構成パラメータをM個のオーディオ信号に適用してN個の再構成された空間オーディオオブジェクトのセットを取得するステップとを含む。
例えば、再生レンダリング構成が第2のレンダリング構成に対応すると決定された場合、代替再構成パラメータが第2のレンダリング構成に関連付けられるように修正ゲインを適用することができる。
一例では、修正ゲインは、第1のレンダリング構成に関連付けられたオブジェクト固有の修正ゲインの第1のセットと、第2のレンダリング構成に関連付けられたオブジェクト固有の修正ゲインの第2のセットとを含み、修正ゲインを再構成パラメータに適用するステップは、修正ゲインの第1のセットを適用して第1のレンダリング構成との再構成パラメータの関連付けを除去するステップと、修正ゲインの第2のセットを適用して再構成パラメータを第2のレンダリング構成に関連付けるステップを含む。
別の例では、修正ゲインは、第1のレンダリング構成に関連付けられた第1のオブジェクト固有の修正ゲインh(n)と第2のレンダリング構成に関連付けられた第2のオブジェクト固有の修正ゲインh2(n)との比h(n)/h2(n)のセットを含む。
本発明のさらなる態様は、エンコーダに関連し、このエンコーダは、N個の空間オーディオオブジェクトのセットを受信し、N個の空間オーディオオブジェクトを表すM個のオーディオ信号のセットを生成するように構成されたダウンミックスレンダラと、M個のオーディオ信号からN個の空間オーディオオブジェクトを再構成するように構成されたオブジェクト再構成情報を取得するためのオブジェクトエンコーダと、再構成情報をM個のオーディオ信号に適用してN個の再構成された空間オーディオオブジェクトのセットを形成するためのオブジェクトデコーダと、第1のレンダリング構成を使用して、N個の空間オーディオオブジェクトをレンダリングして第1のレンダリングされたプレゼンテーションを取得し、N個の再構成された空間オーディオオブジェクトをレンダリングして第2のレンダリングされたプレゼンテーションを取得するように構成されたレンダラと、第1のレンダリングされたプレゼンテーションと第2のレンダリングされたプレゼンテーションとの間の差に基づいて再構成情報を修正し、それによって、修正された再構成情報を形成するためのモディファイアと、M個のオーディオ信号を符号化して、符号化されたオーディオ信号のセットにするように構成されたエンコーダと、符号化されたオーディオ信号および修正された再構成情報を、送信のためにビットストリームに組み合わせるためのマルチプレクサとを含む。
本発明のさらに別の態様は、デコーダに関し、このデコーダは、M個のオーディオチャネルのセットと、M個のオーディオ信号からN個の空間オーディオオブジェクトのセットを再構成するよう構成された再構成パラメータcmod(n,m)のセットであって、再構成パラメータは、第1のレンダリング構成に関連付けられている、再構成パラメータのセットと、第2のレンダリング構成に関連付けられた修正ゲインとを含むビットストリームを復号するためのデコーダを含む。デコーダは、決定された再生レンダリング構成に応答して、修正ゲインを再構成パラメータcmod(n,m)に適用して代替再構成パラメータcmod2(n,m)を取得するように構成された代替ユニットと、代替再構成パラメータcmod2(n,m)をM個のオーディオ信号に適用してN個の再構成された空間オーディオオブジェクトのセットを取得するためのオブジェクトデコーダとを含む。
さらなる態様は、コンピュータプロセッサ上で実行されたときに第1および第2の態様による方法を実行するように構成されたコンピュータプログラムコード部分を含むコンピュータプログラム製品を含む。
本発明は、本発明の現在好ましい実施形態を示す添付の図面を参照してより詳細に説明される。
本発明の第1の実装形態を示す。 本発明のさらなる実装形態を含む符号化システムを示す。 本発明のさらなる実装形態を含む復号システムを示す。 本発明の一実装形態による符号化プロセスのフローチャートである。 本発明の一実装形態による復号プロセスのフローチャートである。 本発明のさらに別の実装形態を含む符号化システムを示す。 本発明のさらに別の実装形態を含む復号システムを示す。 本発明のさらに別の実装形態を含む符号化システムを示す。 本発明のさらに別の実装形態を含む復号システムを示す。
以下の説明では明示的に言及されていないが、当業者は、すべての信号が典型的には時間(フレーム)および周波数(帯域)に分割され、したがって、処理が時間-周波数タイルで行われることを理解するであろう。表記を容易にするために、時間および周波数依存性は、説明から除外されている。
さらに、以下の開示では、「オブジェクト」、「オーディオオブジェクト」または「空間オーディオオブジェクト」は、オーディオ信号と、空間レンダリング情報を含む関連メタデータとを含むものとして理解されるべきである。
概要
前付け
レンダリング構成は、例えばオブジェクト位置のような空間オーディオオブジェクトについてのメタデータが与えられたときに、オブジェクト信号S(n)がレンダリング信号L(k)にどれだけ寄与するかを記述するレンダリングゲインg(k,n)を得るルールのセットである。レンダリング信号L(k),k=1,...,Kのセットは、オブジェクトS(n),n=1,...,Nのセットのレンダリングされた表現(rendered representation)と呼ばれるか、または簡潔に、オブジェクトのセットのレンディションと呼ばれる。元のオブジェクトS(n)、n=1,...,Nのセットのレンディションは、元のレンディション(original rendition)と呼ばれ、処理されたオブジェクトのセットのレンディションは、処理されたレンディション(processed rendition)と呼ばれる。同様に、修正された(レベルアラインされた)オブジェクトのセットのレンディションは、修正されたレンディション(modified rendition)と呼ばれる。
元のレンディションL(k),k=1,...,Kを計算することは、次式に基づいて表すことができる。
Figure 2024509100000002
これは、
Figure 2024509100000003
と書くことができ、またはより簡潔に、次のように書くことができる:
Figure 2024509100000004
同様に、処理されたオブジェクトSP(n)が与えられると、処理されたレンディションLP(k),k=1,...,Kを計算することは、
Figure 2024509100000005
のように表すことができ、またはより簡潔に、次のように表すことができる:
Figure 2024509100000006
レベルアライメント
レベルアライメントの目標は、元のオブジェクトおよび処理されたオブジェクトが与えられたときに、修正された処理されたオブジェクトから計算されたレンダリングされた表現(修正されたレンディション)が、元のオブジェクトからのレンダリングされた表現(元のレンディション)のレベルにできるだけ近いレンダリング信号レベルを示すように、修正されたオブジェクトを計算することである。
オブジェクトの特性をできるだけ維持しながらレベルアライメントを可能にするために、修正ゲインh(n)がオブジェクトに適用される。修正されたオブジェクトSM(n)は、
Figure 2024509100000007
と、関連する修正されたレンディション
Figure 2024509100000008
とに基づいて計算することができる。
以下では、修正ゲインh(n)を計算する方法が提示される。信号のエネルギーおよび信号間の相互相関は、これらの方法の一部として計算される。オブジェクトのエネルギーは、
Figure 2024509100000009
に基づいて計算することができ、ここで、tは、時間-周波数タイル内のすべての複素数値信号サンプルにわたるインデックスであり、バーは複素共役を示す。同様に、2つのオブジェクト間の複素数値相互相関は、
Figure 2024509100000010
に基づいて計算することができ、レンダリングされた信号のエネルギー||L(k)2||についても同様である。
MMSE法
まず、M平均二乗誤差
Figure 2024509100000011
を最小化するMSE法を提示する。MSEを最小にするゲインh(n)は、
Figure 2024509100000012
を満たし、これは、計算的に効率的な数値的方法で容易に解くことができる、N個の未知数h(n),n=1,...,Nを有するN個の連立一次方程式である。MMSE手法の特徴は、修正されたレンディションの総エネルギーが元のレンディションの総エネルギーを超えることができないことである。一方で、特に、処理されたオブジェクトが元のオブジェクトと著しく異なる場合には、エネルギーの大幅な損失が生じる可能性がある。さらに、これは、処理されたレンディションのエネルギーが元のレンディションのエネルギーにすでに等しい場合でも起こり得る。
後者の現象を回避する修正されたMMSE法は、予測ターゲットL(k)をf(k)LP(k)に置き換えることで得られ、ここで、f(k)は、所望の出力レベルを得ることを目的としたレンダリング信号アライメントゲインである。
ゲイン分配法
別の方法では、元のレンディションの信号エネルギー||L(k)||2および処理されたレンディションの信号エネルギー||LP(k)||2がそれぞれ計算され、レンダリング信号アライメントゲインf(k)が、次式に基づいて計算される。
Figure 2024509100000013
レンダリング信号アライメントゲインから、オブジェクト修正ゲインは、次式に基づいて計算することができる。
Figure 2024509100000014
言い換えると、修正ゲインh(n)は、アライメントゲインf(k)の加重和として計算され、ここで、任意の所与のnに対するすべてのkにわたる重みの和は1である。これは、修正ゲインを取得するための重み(重みはレンダリングゲインから決定される)に従ったアライメントゲインの分配として説明することができる。処理されたオブジェクトが無相関である場合、これらのゲインは、前のセクションで説明した修正されたMMSE法によって得られたものと全く同じである。
修正ゲインを計算するための代替例は、次式である:
Figure 2024509100000015
レンダリング信号kの偏差、すなわちf(k)≠1は、そのレンダリング信号に対するオブジェクトの寄与に比例してオブジェクトに影響を与えることが分かる。さらに、これらの式のはいずれも、オブジェクトが2つ以上のレンダリング信号にレンダリングされない場合、すなわち、レンダリングゲインg(k,n),k=1,...,Kのうちの多くても1つが各n=1,...,Nについて非ゼロであるとき、所望の効果||Lp(k)||2=||Lp(k)||2を達成する。これは、
Figure 2024509100000016
が、オブジェクト番号nがレンダリング信号kに属するための指標関数になるからである。これらすべてのオブジェクトは、共通のゲインf(k)によって修正される。一般的なケースでは、レンダリング信号アライメントゲインの分配は、その作用において局所化される。例えば、レンダリング信号のサブセットのみを調整する必要がある場合、このサブセットに存在しないオブジェクトは変更されない。
修正ゲインを、例えば、
Figure 2024509100000017
によって制限し、制限されたゲインを処理されたオブジェクトに適用することが有利である。0.51を下回らず、1.00を上回らないように修正ゲインを制限することは、修正ゲインがエンコーダにおいてJOCパラメータに適用され、次に、修正されたJOCパラメータが再量子化されなければならない場合に有利であり得る。
ポストゲイン調整
修正されたレンディションのエネルギー||LM(k)||2が監視され、それらがエネルギー||L(k)||2に十分に近くない場合、修正されたレンディションの総エネルギーが元のレンディションの総エネルギーに等しくなるように、すべてのオブジェクトについて同じである全体的なゲインgoverallが適用され得る、第2の処理ステップに利点があり得る。具体的には、
Figure 2024509100000018
である場合、全体的なゲイン
Figure 2024509100000019
が、修正されたオブジェクトに適用され、以下を得る:
Figure 2024509100000020
同様に、
Figure 2024509100000021
である場合、ゲイン
Figure 2024509100000022
が、修正されたオブジェクトに適用される。
多くの場合、しきい値は、元のレンダリング信号のエネルギー||L(k)||2の関数であり、例えば、以下である。
Figure 2024509100000023
修正されたレンディションのエネルギーの上記の監視およびしきい値の計算において、処理されたレンディションのエネルギー||Lp(k)||2を、元のレンディションのエネルギー||L(k)||2の代わりに使用することができる。それは無意味に見えるかもしれないが、ゲイン分配法は、オブジェクトのいくつかのセットについて、処理されたレンダリング信号エネルギーよりも、元のレンダリング信号エネルギーから乖離した修正されたレンダリング信号エネルギーを得ることができる。
再帰的ゲイン分配
いくつかの使用事例では、上記の処理を再帰的に行うことが有益であり得る。修正されたレンディションのエネルギー||LM(k)||2は、これらの量が以下に基づいて計算される再帰的プロセスでフィードバックされ得る。
Figure 2024509100000024
次の反復で、これらの量が計算される。
Figure 2024509100000025
オブジェクト符号化/復号の詳細
オーディオオブジェクトがビットストリームに含まれるように符号化される状況では、エンコーダにおいて修正ゲインが計算され、再生レンダリングが行われるデコーダ側に伝達され得る
一例では、元のオブジェクトは、ダウンミックス信号Y(m)のセットおよび再構成パラメータ
Figure 2024509100000026
のセットによって表され、これらのパラメータは、ビットストリームでデコーダに送信される。デコーダでは、処理された、または(ソースコーディング用語を使用して)再構成されたオブジェクトが
Figure 2024509100000027
ここで、Y(m),m=1,…,Mは、再構成パラメータとともにビットストリームにおいて送信されるダウンミックス信号である。元のオブジェクトのこの表現には固有の制限があるため、再生レンダリングは、高すぎるまたは低すぎるレベルを示すことがある。修正ゲインh(n)を処理されたオブジェクトに適用することによって、そのようなレベル偏差が低減される。修正ゲインは、
Figure 2024509100000028
に基づいて再構成パラメータを修正し、c(n,m)の代わりに修正された再構成パラメータcM(n,m)を送信することによって、処理されたオブジェクトに間接的に適用される。次いで、復号は以下を得る。
Figure 2024509100000029
公称レンダリング構成と再生レンダリング構成との間の不一致
レベル分析およびレベル修正で使用されるいわゆる公称レンダリング構成が再生レンダリング構成と異なる場合があり得る。例えば、デコーダ側の再生レンダリング構成は、符号化の時点では知られていないことがある。
多くの実際的なケースでは、実際に関連するレンダリング構成(例えば、5.1.2、5.1.4、7.1.4、9.1.6)について、本明細書で提示される方法は、レンダリング構成の違いに対してロバストである。7.1.4の公称レンダリング構成を用いて修正ゲインを計算することで、5.1.2、5.1.4および9.1.6のレンダリング構成に対してもロバストなレベル調整を提供する。
いくつかの公称レンダリング構成について修正ゲインを計算することが有益であり得る。
Figure 2024509100000030
一例として、J=4の場合、これらのレンダリング構成は、例えば、5.1.2、5.1.4、7.1.4、9.1.6とすることができ、h1(n),n=1,...,Nは、5.1.2のレンダリング構成に関連付けられた修正ゲインであり、h2(n),n=1,...,Nは、5.1.4に関連付けられた修正ゲインであり、以下同様である。修正ゲインh(n),n=1,...,Nの共通のセットは、これらのゲインのセットを組み合わせることによって計算することができる。この組み合わせは、例えば、加重和のように計算することができる。
Figure 2024509100000031
公称レンダリング構成と再生レンダリング構成との間に不一致があり、平均化方法が機能しない場合、修正ゲインは、処理されたオブジェクトまたは再構成パラメータとともに記憶/送信され得る。再生レンダリング構成が記憶された公称構成のいずれかと一致する場合、対応する修正ゲインを「ジャストインタイム」で適用することができる。依然として不一致がある場合、「最も近い」公称構成を使用することもできるし、公称構成の平均化を使用することもできる。
実用的な実装形態
図1は、N*個の元のオブジェクトS(n*)のセットを入力としてとり、N個の処理された(例えば、空間的に符号化または復号され、再構成された)オブジェクトSP(n)のセットを出力として生成するオブジェクトプロセッサ101を含むオーディオシステム100を示す。
オブジェクトメタデータ(別個には示されていない)を使用して、N*個の元のオブジェクトS(n*)およびN個の処理されたオブジェクトSP(n)は2つのレンダラ102、103によって公称再生構成(例えば7.1.4)にレンダリングされることができ、その結果、それぞれレンダリングされた表現L(k)およびLP(k)が得られる。レベルアナライザ104において両方のレンダリングされた表現のレベルを分析および比較することにより、処理されたオブジェクトSP(n)を入力として受け取り、修正されたオブジェクトSM(n)を出力として生成するオブジェクトモディファイア105を制御するための情報を引き出すことが可能である。レンダラ106は、修正されたオブジェクトをレンダリングして、レンダリングされたプレゼンテーションLM(k)を提供する。オブジェクト修正の目標は、修正されたオブジェクトSM(n)のレンダリングされた表現LM(k)を元のオブジェクトS(n)のレンダリングされた表現L(k)に近づけて、オブジェクトプロセッサ101によって導入され、処理されたオブジェクトSP(n)のレンダリングされた表現LP(k)について観察されるレベルエラーなどのあらゆるエラーを軽減することである。
オブジェクトプロセッサが空間コーダである場合、処理されたオブジェクトは、より少なくなる(N*>N)。典型的な空間コーディングプロセスでは、128個のオーディオオブジェクトが20個のオーディオオブジェクトにクラスタリングされる(N*=128,N=20)。
図1のオブジェクトプロセッサ101は、コーデックプロセスにおいて生じるエンコーダとデコーダとの組み合わせであってもよい。この場合、N*=Nである。図2a~図2bは、本発明の原理が例示的な符号化および復号(コーデック)プロセス200においてどのように実装され得るかを示す。コーデックは、例えば、Joint Object Coding (JOC)を有するDolby Digital Plus (DD+)コーデックに基づき得る。それはまた、アドバンストジョイントオブジェクトコーディング(A-JOC)をもつAC-4コーデックに基づいていてもよく、その場合、ダウンミックス信号の非相関されたバージョンからの寄与も考慮に入れられる。A-JOCエンコーダは、代替的に、ダウンミックスレンダラの代わりに空間コーダによって生成されたダウンミックスを使用してもよい。
エンコーダ側201(図2a)は、ダウンミックスレンダラ202と、ダウンミックスエンコーダ203と、オブジェクトエンコーダ204と、マルチプレクサ205とを含む。一例では、ブロック202、203、204、205は、DD+JOCエンコーダ内の対応するブロックと実質的に同等である。
図示された例では、エンコーダ201は、オブジェクトデコーダ206(例えば、JOCデコーダ)と、2つのレンダラ207、208とをさらに有する。オブジェクトデコーダは、処理されたオブジェクトSP(n)を生成するために、オブジェクトエンコーダ204からのオブジェクト再構成パラメータc(n,m)を使用して、ダウンミックスレンダラ202からのダウンミックスY(m)を復号するよう構成される。レンダラ207、208は、それぞれ、元のオブジェクトS(n)および処理されたオブジェクトSP(n)を受信し、選択された再生レンダリング構成、例えば、7.1.4構成を使用して、第1のレンダリングされたプレゼンテーションL(k)および第2のおよびレンダリングされたプレゼンテーションLP(k)を提供するためにオブジェクトメタデータ(別個に図示せず)を使用するように構成される。選択されたレンダリング構成は、「公称」レンダリング構成と呼ばれる。レベルアナライザ209は、各レンダラ207、208からレンダリングされたプレゼンテーションL(k)およびLP(k)を受信し、2つのレンダリングされたプレゼンテーション間の差を表すパラメータh(n)のセット(各オブジェクトに対して1つのパラメータ)を提供するように構成される。パラメータモディファイア210は、パラメータh(n)を受信し、再構成パラメータc(n,m)の修正を実行するように構成される。修正された再構成パラメータは、cmod(n,m)と呼ばれる。
デコーダ側211(図2b)は、デマルチプレクサ212と、ダウンミックスデコーダ213と、オブジェクトデコーダ214とを含む。一例では、ブロック212、213、214は、DD+ JOCデコーダ内の対応するブロックと実質的に同等である。デコーダ側211からの出力は、再生レンダラ221に提供される。
使用中、図3を参照すると、元のオブジェクトS(n)のセットが、まず、ダウンミックスレンダラ202においてレンダリングされて、ダウンミックス信号Y(m)が生成される(ステップS1)。典型的なエンコーダでは、ダウンミックスのために5.1構成が使用され、ダウンミックスレンダリングはオブジェクトメタデータ(図示せず)を使用する。元のオブジェクトS(n)およびダウンミックス信号Y(m)の両方は、再構成パラメータc(n,m)を計算するためにオブジェクトエンコーダ204によって使用される(ステップS2)。ダウンミックス信号はまた、ダウンミックスエンコーダ203によって符号化される(ステップS3)。
ステップS3と並行して、オブジェクトデコーダ206は、ダウンミックス信号Y(m)を入力としてとり、処理された(すなわち、再構成された)オブジェクトSP(n)を生成する(ステップS4)。次いで、元のオブジェクトS(n)および処理されたオブジェクトSP(n)の両方がレンダリングされ(ステップS5)、第1のレンダリングされた表現L(k)および第2のレンダリングされた表現LP(k)がそれぞれ得られる。次いで、両方のレンダリングされた表現が分析されて(ステップS6)、オブジェクト修正ゲインと呼ばれるパラメータh(n)のセットが計算される。ステップS7において、パラメータモディファイア210は、オブジェクト修正ゲインh(n)を再構成パラメータc(n,m)に適用して、修正された再構成パラメータcmod(n,m)を生成する。
ステップS8において、符号化されたダウンミックスは、マルチプレクサにおいて、修正された再構成パラメータcmod(n,m)およびオブジェクトメタデータ(図示せず)と組み合わされて、最終的なビットストリームが形成される。その後、このビットストリームがデコーダ211に送信される(ステップS9)。
デコーダ側では、ビットストリームがデマルチプレクサ212によって逆多重化され(ステップS11)、ダウンミックスデコーダ213によって復号されて、ダウンミックス信号Y(m)が取得される(ステップS12)。これらのダウンミックス信号Y(m)は、修正された再構成パラメータcmod(n,m)を使用して、オブジェクトデコーダ214によって処理されて、修正されたオブジェクトSM(n)が生成される(ステップS13)。
最後に、修正されたオブジェクトSM(n)は、ビットストリームで伝達されるオブジェクトメタデータ(図示せず)を使用する再生レンダラ221において、所望の再生構成(例えば、7.1.4ラウドスピーカ再生)のための表現LM(k)にレンダリングされる(ステップS14)。
図4a~図4bを参照すると、符号化側(図4a)はまた、N*個のオーディオオブジェクトの元のセットの低減(クラスタリング)を実行するように構成された空間コーダ231を含む。典型的な例では、128個の元のオーディオオブジェクトが、オブジェクトエンコーダプロセスに提供される前に20個のオブジェクトに空間的にコーディングされる。図示されるケースでは、図2a~図2bにおけるプロセスの代替として、第1のレンディションL(k)を取得するために、元のオーディオオブジェクトS(n*)(例えば、128個のオブジェクト)がレンダラ207によって使用される。
図5a~図5bは、本発明のさらに別の実装形態を示しており、ここでは、オブジェクト固有の修正ゲインの複数のセットh1(n),h2(n)が決定され、これらの修正ゲインの複数のセットに基づく変更パラメータのセットがデコーダ側に利用可能にされる。図示された例では、オブジェクト固有の修正ゲインの2つのセットのみが存在するが、当然ながら、任意の数が存在してもよい。
この実装形態では、エンコーダ側301(図5a)のレンダラ307、308は、複数のレンダリング構成に関連付けられた複数のレンディションを実行するように構成される。図示されたケースでは、2つのレンディションが提供される。これらは、例えば、7.1.4構成および9.1.6構成に関連付けられ得る。レベルアナライザ309は、レンディションの各対に対してレベル分析を行い、その結果、オブジェクト固有の修正ゲインの2つのセットh1(n)およびh2(n)が得られる。ゲインセットのうちの1つは、再構成パラメータc(n,m)を修正するためにパラメータモディファイアによって使用される。符号化されたダウンミックスY(m)および修正された再構成パラメータに加えて、ここでは、マルチプレクサ205には、修正ゲインの2つのセットh1(n)およびh2(n)に基づく変更パラメータものセットも提供されるので、これらの変更パラメータもビットストリームに含められる。
デコーダ311(図5b)は、図2bおよび図4bのデコーダ211と同様の要素を含む。これらの要素には、図5bにおいて同一の参照番号(212、213、214、221)が与えられている。デコーダ311はまた、修正された再構成パラメータの代替セットを取得するために、変更パラメータを元の再構成パラメータに適用するように構成された代替ブロック312を含む。修正された再構成パラメータのこの代替セットは、第2のレンダリング構成に対応し得る。代替ブロック312の動作はオプションであり、適切なロジックによって制御される。例えば、代替ブロック312の起動は、再生レンダラ221の構成の決定に基づくことができる。
図5bに示される第1の例では、変更パラメータは、オブジェクト固有の修正ゲインの2つのセットh1(n)およびh2(n)を含む。この場合、代替ブロック312は、以下の2つのユニットを含む:
1)再構成パラメータをそれらの元の「修正されていない」状態に戻すためにゲインの第1のセットh1(n)(の逆)を適用するように構成されたアンドゥユニット313、および
2)ここでは第2のレンダリング構成に対応する修正された再構成パラメータの代替セットを取得するために、「修正されていない」再構成パラメータにゲインの第2のセットh2(n)を適用するよう構成されたゲイン適用ユニット314。
図5Bの実装形態が3つの異なるオブジェクト復号オプションを提供することは明らかである。
1)修正された再構成パラメータcmod(n,m)を使用して、第1のレンダリング構成による改善されたレンダリングのために修正された再構成されたオブジェクトを提供する、
2)代替の修正された再構成パラメータを使用して、第2のレンダリング構成による改善されたレンダリングのために修正された再構成されたオブジェクトを提供する、
3)「修正されていない」再構成パラメータを使用して、修正なしに再構成されたオブジェクトを提供する。
別の例では、変更パラメータは、オブジェクト固有の修正ゲインの第2のセットh2(n)と第1のセットh1(n)との比h2(n)/h1(n)を含む。この場合、デコーダ側で、これらの比は、第1のレンダリング構成に対応する修正された再構成パラメータに適用されて、第2のレンダリング構成に対応する代替の修正された再構成パラメータへの変換を達成し得る。
この場合、次の2つの代替的な復号オプションがデコーダ側で利用可能である:
1)修正された再構成パラメータcmod(n,m)を使用して、第1のレンダリング構成による改善されたレンダリングのために修正された再構成されたオブジェクトを提供する、
2)代替の修正された再構成パラメータを使用して、第2のレンダリング構成による改善されたレンダリングのために修正された再構成されたオブジェクトを提供する。
しかしながら、この特定の例の特別な場合は、修正ゲインの第2のセットh2(n)がユニティゲイン、すなわち、修正なしの再構成パラメータ、に対応するよう設定されることができることである。言い換えると、ビットストリーム中の変更パラメータは、1/h1(n)となる。デコーダ側では、これらのゲインを適用することで、修正ゲインh1(n)が打ち消され、したがって、元の「修正されていない」再構成パラメータを提供する。
本明細書で説明した方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装され得るい。特定の構成要素は、デジタルシグナルプロセッサまたはマイクロプロセッサ上で実行されるソフトウェアとして実装され得る。他の構成要素は、ハードウェアとして、および/または特定用途向け集積回路として実装され得る。説明される方法およびシステムにおいて遭遇する信号は、ランダムアクセスメモリまたは光学記憶媒体などの媒体上に記憶され得る。それらは、無線ネットワーク、衛星ネットワーク、ワイヤレスネットワークまたはワイヤラインネットワーク、例えばインターネットなどのネットワークを介して転送され得る。本明細書で説明した方法およびシステムを利用する典型的なデバイスは、オーディオ信号を記憶および/またはレンダリングするために使用されるポータブル電子デバイスまたは他の消費者機器である。
特に明記しない限り、以下の説明から明らかなように、本開示の全体を通して、「処理する」、「計算する」、「算出する」、「決定する」、「分析する」などの用語を利用した説明は、電子的な量などの物理的な量として表されるデータを、物理量として同様に表される他のデータに操作および/または変換する、コンピュータハードウェアもしくはコンピューティングシステム、または同様の電子コンピューティングデバイスのアクションおよび/またはプロセスを指すことが理解される。
本発明の例示的な実施形態の上記の説明において、本発明の様々な特徴は、開示を合理化し、様々な発明の態様のうちの1つまたは複数の態様の理解を助ける目的で、単一の実施形態、図、またはその説明へと一緒にグループ化されることがあることを理解されたい。しかしながら、この開示の方法は、特許請求される発明が各請求項に明示的に記載されるよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、以下の特許請求の範囲が反映するように、発明の態様は、単一の前述の開示された実施形態のすべての特徴よりも少ない特徴にある。したがって、発明を実施するための形態に続く特許請求の範囲は、この発明を実施するための形態に明示的に組み込まれ、各請求項は、本発明の別個の実施形態として独立している。さらに、本明細書で説明されるいくつかの実施形態は、他の実施形態に含まれるいくつかの特徴は含むが、他の特徴は含まず、当業者によって理解されるように、異なる実施形態の特徴の組み合わせは、本発明の範囲内にあり、異なる実施形態を形成することを意味する。例えば、以下の特許請求の範囲では、特許請求される実施形態のいずれも、任意の組み合わせで使用することができる。
さらに、実施形態のうちのいくつかは、コンピュータシステムのプロセッサによって、または機能を実行する他の手段によって実装され得る方法または方法の要素の組合せとして本明細書で説明される。したがって、そのような方法または方法の要素を実行するために必要な命令を有するプロセッサは、方法または方法の要素を実行するための手段を形成する。方法がいくつかの要素、例えば、いくつかのステップを含むとき、特に明記されない限り、そのような要素の順序は示されないことに留意されたい。さらに、装置の実施形態の本明細書で説明される要素は、本発明を実施する目的で要素によって実行される機能を実行するための手段の一例である。本明細書に提供される説明では、多数の具体的な詳細が記載されている。しかしながら、本発明の実施形態は、これらの具体的な詳細なしに実施され得ることが理解される。他の事例では、この説明の理解を曖昧にしないために、周知の方法、構造および技法は詳細には示されていない。
したがって、本発明の特定の実施形態を説明してきたが、当業者であれば、本発明の趣旨から逸脱することなく、他のおよびさらなる修正がそれに対して行われ得ることを認識し、すべてのそのような変更および修正を本発明の範囲内に含まれるものとして主張することが意図される。例えば、他のオブジェクト符号化/復号技法が実装され得る。
本発明は、以下に列挙される例示的な実施形態(EEE)を含む。
EEE1.元のレンディションおよび処理されたレンディションのレベルをアラインする方法であって、
元のオブジェクトのセットを受信するステップと、
処理されたオブジェクトのセットを受信するステップと、
レンダリング構成を受信するステップであって、レンダリング構成は、元のオブジェクトのセットから元のレンダリング信号のセットへのマッピングを記述し、レンダリング構成はまた、処理されたオブジェクトのセットから処理されたレンダリング信号のセットへのマッピングを記述する、ステップと、
処理されたオーディオオブジェクトのセットを修正することによって、処理されたレンダリング信号のセットのレベルを元のレンダリング信号のセットのレベルにアラインするステップと
を含む方法。
EEE2.元のレンダリング信号のセットのレベルを計算するステップと、
処理されたレンダリング信号のセットのレベルを計算するステップと
をさらに含む、EEE1に記載の方法。
EEE3.元のオブジェクトのセットを元のレンダリング信号のセットにレンダリングするステップと、
処理されたオブジェクトのセットを処理されたレンダリング信号のセットにレンダリングするステップと、
元のレンダリング信号のセットのレベルを測定するステップと、
処理されたレンダリング信号のセットのレベルを測定するステップと
をさらに含む、EEE1に記載の方法。
EEE4.レベルをアラインすることは、
各オブジェクトについて、オブジェクト修正ゲインを計算し、オブジェクト修正ゲインを該オブジェクトに適用するステップ
を含む、EEE1に記載の方法。
EEE5.レンダリング信号のレベルをアラインする方法であって、
元のオブジェクトのセットを受信するステップと、
処理されたオブジェクトのセットを受信するステップと、
レンダリング構成を受信するステップであって、レンダリング構成は、元のオブジェクトのセットから元のレンダリング信号のセットへのマッピングを記述し、レンダリング構成はまた、処理されたオブジェクトのセットから処理されたレンダリング信号のセットへのマッピングを記述する、ステップと、
最適なオブジェクト修正ゲインのセットを計算するステップと
を含む方法。
EEE6.レンダリング信号のレベルをアラインする方法であって、
元のオブジェクトのセットを受信するステップと、
処理されたオブジェクトのセットを受信するステップと、
レンダリング構成を受信するステップであって、レンダリング構成は、元のオブジェクトのセットから元のレンダリング信号のセットへのマッピングを記述し、レンダリング構成はさらに、処理されたオブジェクトのセットから処理されたレンダリング信号のセットへのマッピングを記述する、ステップと、
元のレンダリング信号のセットのレベルを計算するステップと、
処理されたレンダリング信号のセットのレベルを計算するステップと、
レンダリング信号修正ゲインのセットを計算するステップと、
オブジェクト修正ゲインのセットへのレンダリング信号アライメントゲインのセットの分配と
を含む方法。
EEE7.オブジェクト修正ゲインのセットへのレンダリング信号アライメントゲインのセットのマッピングは:
レンダリング信号アライメントゲインの加重和として各オブジェクト修正ゲインを計算するステップ
を含む、EEE6に記載の方法。
EEE8.加重和における重さは、レンダリングゲインの関数である、EEE7に記載の方法。
EEE9.修正ゲインを、処理されたオブジェクトに適用して、修正されたオブジェクトを得る、EEE6に記載の方法。
EEE10.修正されたオブジェクトを修正されたレンダリング信号のセットにレンダリングするステップと、
修正されたレンダリング信号の総修正レベルを計算するステップと、
基準レンダリング信号のセットの総基準レベルを計算するステップと、
総修正レベルおよび総基準レベルから総修正ゲインを計算するステップと
をさらに含む、EEE9に記載の方法。
EEE11.処理されたオブジェクトを修正されたオブジェクトで置き換え、手順を繰り返すステップと
をさらに含む、EEE9に記載の方法。
EEE12.オブジェクト修正ゲインは、オーディオオブジェクト再構成パラメータの少なくとも1つのセット、例えば、JOCパラメータのセットに適用される、EEE4から11のいずれかに記載の方法。
EEE13.オブジェクト修正ゲインがエンコーダにおいて計算され、
オブジェクト修正ゲインを、エンコーダにおいて、オーディオオブジェクト再構成パラメータの少なくとも1つのセット、例えば、JOCパラメータのセットに適用して、修正されたJOCパラメータを得、
修正されたオーディオオブジェクト再構成パラメータは、エンコーダビットストリームにおけるオーディオオブジェクト再構成パラメータの少なくとも1つのセットを置き換える、
EEE4から11のいずれかに記載の方法。
EEE14.オブジェクト修正ゲインの複数のセットが、複数のレンダリング構成について計算され、
オブジェクト修正ゲインの複数のセットを組み合わせることによって、総オブジェクト修正ゲインのセットが計算される、
EEE4から13のいずれかに記載の方法。
EEE15.組み合わせが、オブジェクト修正ゲインのセットの加重平均によって行われる、EEE14に記載の方法。
EEE16.オブジェクト修正ゲインの複数のセットが、複数のレンダリング構成について計算され、
オブジェクト修正ゲインの複数のセットが、処理されたオブジェクトとともに記憶され、
オブジェクト修正ゲインの最良一致セットが、再生レンダリングの前に適用される、
EEE4から15のいずれかに記載の方法。
EEE17.符号化されたオーディオビットストリームを復号するための方法であって、
複数の復号されたオーディオ信号を取得するために、符号化されたオーディオビットストリームを復号するステップであって、複数の復号されたオーディオ信号は、複数のオーディオオブジェクト信号のマルチチャネルダウンミックスを含む、ステップと、
符号化されたオーディオビットストリームからオーディオオブジェクト再構成パラメータの複数のセットを抽出するステップであって、オーディオオブジェクト再構成パラメータの各セットは、異なるチャネル構成に対応する、ステップと、
再生レンダリング構成を決定するステップと、
決定された再生レンダリング構成に基づいて、オーディオオブジェクト再構成パラメータの複数のセットからオーディオオブジェクト再構成パラメータのセットを決定するステップと、
複数のオーディオオブジェクト信号の再構成を取得するために、決定されたオーディオオブジェクト再構成パラメータのセットを複数の復号されたオーディオ信号に適用するステップと
を含む方法。
EEE18.決定されたオーディオオブジェクト再構成パラメータのセットは、決定された再生レンダリング構成に対応するオーディオオブジェクト再構成パラメータのセットである、EEE17に記載の方法。
EEE19.オーディオオブジェクト再構成パラメータのセットのいずれもが、決定された再生レンダリング構成に一致するチャネル構成に対応しない場合、決定されたオーディオオブジェクト再構成パラメータのセットは、決定された再生レンダリング構成に最も近いチャネル構成に対応する、EEE17に記載の方法。
EEE20.オーディオオブジェクト再構成パラメータのセットのいずれもが、決定された再生レンダリング構成に一致しない場合、決定されたオーディオオブジェクト再構成パラメータのセットは、オーディオオブジェクト再構成パラメータのセットの平均に対応する、EEE17に記載の方法。
EEE21.平均は加重平均である、EEE20に記載の方法。
EEE22.符号化ビットストリームからオブジェクトメタデータを抽出するステップと、オブジェクトメタデータに応答して、複数のオーディオオブジェクト信号の再構成を、決定された再生レンダリング構成にレンダリングするステップとをさらに含む、EEE17から21のいずれか1つに記載の方法。
EEE23.符号化されたオーディオビットストリームを復号するための方法であって、
複数の復号されたオーディオ信号を取得するために、符号化されたオーディオビットストリームを復号するステップであって、複数の復号されたオーディオ信号は、複数のオーディオオブジェクト信号のマルチチャネルダウンミックスを含む、ステップと、
符号化されたオーディオビットストリームからオーディオオブジェクト再構成パラメータのセットを抽出するステップと、
複数のオーディオオブジェクト信号の再構成を取得するために、複数の復号されたオーディオ信号にオーディオオブジェクト再構成パラメータのセットを適用するステップと
を含み、
複数の再構成パラメータは、EEE13の方法にしたがって計算されたものである、
方法。
EEE24.符号化ビットストリームからオブジェクトメタデータを抽出するステップと、オブジェクトメタデータに応答して、複数のオーディオオブジェクト信号の再構成を再生レンダリング構成にレンダリングするステップとをさらに含む、EEE23に記載の方法。

Claims (17)

  1. オブジェクト再構成情報を修正するための方法であって、
    N個の空間オーディオオブジェクトのセットを取得するステップであって、各空間オーディオオブジェクトは、オーディオ信号および空間メタデータを含む、ステップと、
    前記N個の空間オーディオオブジェクトを表すオーディオプレゼンテーションを取得するステップと、
    前記オーディオプレゼンテーションから前記N個の空間オーディオオブジェクトを再構成するように構成されたオブジェクト再構成情報を取得するステップと、
    前記再構成情報を前記オーディオプレゼンテーションに適用してN個の再構成された空間オーディオオブジェクトのセットを形成するステップと、
    第1のレンダリング構成を使用して、前記N個の空間オーディオオブジェクトをレンダリングして第1のレンダリングされたプレゼンテーションを取得し、前記N個の再構成された空間オーディオオブジェクトをレンダリングして第2のレンダリングされたプレゼンテーションを取得するステップと、
    前記第1のレンダリングされたプレゼンテーションと前記第2のレンダリングされたプレゼンテーションとの間の差に基づいて前記再構成情報を修正し、それによって、修正された再構成情報を形成するステップと
    を含む方法。
  2. 前記N個の空間オーディオオブジェクトのセットは、L個の空間オーディオオブジェクトのセットを空間的にコーディングすることによって取得されており、ここで、L>Nであり、前記第1のレンダリングされたプレゼンテーションは、前記L個の空間オーディオオブジェクトをレンダリングすることによって取得される、請求項1に記載の方法。
  3. 前記オーディオプレゼンテーションは、M個のオーディオ信号のセットであり、前記方法は、
    前記M個のオーディオ信号を符号化して、符号化されたオーディオ信号のセットにするステップと、
    前記符号化されたオーディオ信号および前記修正された再構成情報を、送信のためにビットストリームに組み合わせるステップと
    をさらに含む、請求項1または2に記載の方法。
  4. 前記M個のオーディオ信号は、前記N個の空間オーディオオブジェクトの前記オーディオ信号のダウンミックスを表し、前記オブジェクト再構成情報は、前記M個のオーディオ信号から前記N個の空間オーディオオブジェクトを再構成するように構成された再構成パラメータc(n,m)のセットであり、前記修正された再構成情報は、修正された再構成パラメータcmod(n,m)のセットである、請求項3に記載の方法。
  5. 前記修正するステップは、前記第1のレンダリング構成に関連付けられたオブジェクト固有の修正ゲインh1(n)のセットを決定するステップを含み、前記オブジェクト固有の修正ゲインh1(n)は、前記オブジェクト再構成パラメータc(n,m)のセットに適用される、請求項4記載の方法。
  6. 前記オブジェクト固有の修正ゲインh1(n)は、
    前記第1のレンダリングされたプレゼンテーションの第1のレベルを決定することと、
    前記第2のレンダリングされたプレゼンテーションの第2のレベルを決定することと、
    前記第1のレベルと前記第2のレベルとの間の差に基づいてレベルアライメントゲインのセットを計算することと、
    前記レベルアライメントゲインの線形結合として前記オブジェクト固有の修正ゲインh1(n)を形成することと
    によって決定される、請求項5に記載の方法。
  7. 各オブジェクト固有の修正ゲインh1(n)を前記レベルアライメントゲインの加重和として計算するステップをさらに含み、前記加重和における重みは、任意選択で、前記第1のレンダリングされたプレゼンテーションおよび前記第2のレンダリングされたプレゼンテーションを生成するために使用されるレンダリングゲインの関数である、請求項6に記載の方法。
  8. 第2のレンダリング構成を使用して、前記N個の空間オーディオオブジェクトをレンダリングして第3のレンダリングされたプレゼンテーションを生成し、前記N個の再構成された空間オーディオオブジェクトをレンダリングして第4のレンダリングされたプレゼンテーションを生成するステップと、
    前記第2のレンダリング構成に関連付けられたオブジェクト固有の修正ゲインの第2のセットh2(n)を決定するステップと、
    前記符号化ビットストリーム中に、
    1)前記オブジェクト固有の修正ゲインの第1のセットh1(n)および第2のセットh2(n)の両方、および
    2)前記オブジェクト固有の修正ゲインの第2のセットと第1のセットとの比h2(n)/h1(n)
    のうちの1つを含めるステップと
    をさらに含む、請求項5から7のいずれか一項に記載の方法。
  9. ビットストリーム内の空間オーディオオブジェクトを復号するための復号方法であって、
    前記ビットストリームを復号して、
    M個のオーディオチャネルのセットと、
    前記M個のオーディオ信号からN個の空間オーディオオブジェクトのセットを再構成するよう構成された再構成パラメータcmod(n,m)のセットであって、前記再構成パラメータは、第1のレンダリング構成に関連付けられている、再構成パラメータのセットと、
    第2のレンダリング構成に関連付けられた変更パラメータと
    を取得するステップと、
    再生レンダリング構成を決定するステップと、
    前記再生レンダリング構成を決定したことに応答して、前記変更パラメータを前記再構成パラメータcmod(n,m)に適用して代替再構成パラメータcmod2(n,m)を取得するステップと、
    前記代替再構成パラメータcmod2(n,m)を前記M個のオーディオ信号に適用してN個の再構成された空間オーディオオブジェクトのセットを取得するステップと
    を含む復号方法。
  10. 前記再生レンダリング構成は、前記第2のレンダリング構成に対応するように決定され、前記代替再構成パラメータcmod2(n,m)が前記第2のレンダリング構成に関連付けられるように前記変更パラメータが適用される、請求項9に記載の復号方法。
  11. 前記代替再構成パラメータcmod2(n,m)が、前記再構成パラメータcmod(n,m)のセットと、前記変更パラメータの適用後の前記再構成パラメータcmod(n,m)のセットとの加重平均に対応するように、前記変更パラメータが部分的に適用される、請求項9に記載の復号方法。
  12. 前記変更パラメータは、前記第2のレンダリング構成に関連付けられた第2のオブジェクト固有の修正ゲインh2(n)と前記第1のレンダリング構成に関連付けられた第1のオブジェクト固有の修正ゲインh1(n)との比h2(n)/h1(n)のセットを含む、請求項9から11のいずれか一項に記載の復号方法。
  13. 前記変更パラメータは、前記第1のレンダリング構成に関連付けられたオブジェクト固有の修正ゲインの第1のセットh1(n)と、前記第2のレンダリング構成に関連付けられたオブジェクト固有の修正ゲインの第2のセットh2(n)とを含み、
    前記変更パラメータを前記再構成パラメータに適用する前記ステップは、
    前記修正ゲインの第1のセットを適用して前記第1のレンダリング構成との前記再構成パラメータの関連付けを除去するステップと、
    前記修正ゲインの第2のセットを適用して前記再構成パラメータを前記第2のレンダリング構成に関連付けるステップと
    とを含む、
    請求項9から11のいずれか一項に記載の復号方法。
  14. エンコーダであって、
    N個の空間オーディオオブジェクトのセットを受信し、前記N個の空間オーディオオブジェクトを表すM個のオーディオ信号のセットを生成するように構成されたダウンミックスレンダラと、
    前記M個のオーディオ信号から前記N個の空間オーディオオブジェクトを再構成するように構成されたオブジェクト再構成情報を取得するためのオブジェクトエンコーダと、
    前記再構成情報を前記M個のオーディオ信号に適用してN個の再構成された空間オーディオオブジェクトのセットを形成するためのオブジェクトデコーダと、
    第1のレンダリング構成を使用して、前記N個の空間オーディオオブジェクトをレンダリングして第1のレンダリングされたプレゼンテーションを取得し、前記N個の再構成された空間オーディオオブジェクトをレンダリングして第2のレンダリングされたプレゼンテーションを取得するように構成されたレンダラと、
    前記第1のレンダリングされたプレゼンテーションと前記第2のレンダリングされたプレゼンテーションとの間の差に基づいて前記再構成情報を修正し、それによって、修正された再構成情報を形成するステップするためのモディファイアと、
    前記M個のオーディオ信号を符号化して、符号化されたオーディオ信号のセットにするように構成されたエンコーダと、
    前記符号化されたオーディオ信号および前記修正された再構成情報を、送信のためにビットストリームに組み合わせるためのマルチプレクサと
    を含むエンコーダ。
  15. デコーダであって、
    M個のオーディオチャネルのセット
    前記M個のオーディオ信号からN個の空間オーディオオブジェクトのセットを再構成するよう構成された再構成パラメータcmod(n,m)のセットであって、前記再構成パラメータは、第1のレンダリング構成に関連付けられている、再構成パラメータのセットと、
    第2のレンダリング構成に関連付けられた修正ゲインと
    を含むビットストリームを復号するためのデコーダと、
    決定された再生レンダリング構成に応答して、前記修正ゲインを前記再構成パラメータcmod(n,m)に適用して代替再構成パラメータcmod2(n,m)を取得するように構成された代替ユニットと、
    前記代替再構成パラメータcmod2(n,m)を前記M個のオーディオ信号に適用してN個の再構成された空間オーディオオブジェクトのセットを取得するためのオブジェクトデコーダと
    を含むデコーダ。
  16. コンピュータプロセッサ上で実行されたときに、請求項1から8のいずれか一項に記載の方法を実行するように構成されたコンピュータプログラムコード部分を含むコンピュータプログラム製品。
  17. コンピュータプロセッサ上で実行されたときに、請求項9から13のいずれか一項に記載の方法を実行するように構成されたコンピュータプログラムコード部分を含むコンピュータプログラム製品。
JP2023551713A 2021-02-25 2022-02-09 オーディオオブジェクト処理 Pending JP2024509100A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163153719P 2021-02-25 2021-02-25
US63/153,719 2021-02-25
PCT/EP2022/053082 WO2022179848A2 (en) 2021-02-25 2022-02-09 Audio object processing

Publications (1)

Publication Number Publication Date
JP2024509100A true JP2024509100A (ja) 2024-02-29

Family

ID=80683100

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023551713A Pending JP2024509100A (ja) 2021-02-25 2022-02-09 オーディオオブジェクト処理

Country Status (4)

Country Link
EP (1) EP4298629A2 (ja)
JP (1) JP2024509100A (ja)
CN (1) CN116917986A (ja)
WO (1) WO2022179848A2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105229731B (zh) * 2013-05-24 2017-03-15 杜比国际公司 根据下混的音频场景的重构
CN106104679B (zh) * 2014-04-02 2019-11-26 杜比国际公司 利用沉浸式音频元数据中的元数据冗余

Also Published As

Publication number Publication date
WO2022179848A2 (en) 2022-09-01
CN116917986A (zh) 2023-10-20
WO2022179848A3 (en) 2023-01-05
EP4298629A2 (en) 2024-01-03

Similar Documents

Publication Publication Date Title
JP5185340B2 (ja) マルチチャネルオーディオ信号を表示するための装置と方法
JP6626581B2 (ja) 1つの広帯域アライメント・パラメータと複数の狭帯域アライメント・パラメータとを使用して、多チャネル信号を符号化又は復号化する装置及び方法
DE602005006424T2 (de) Stereokompatible mehrkanal-audiokodierung
AU2006233504B2 (en) Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
EP2028648B1 (en) Multi-channel audio encoding and decoding
JP4521032B2 (ja) 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
EP1400955B1 (en) Quantization and inverse quantization for audio signals
JP2019080347A (ja) パラメトリック・マルチチャネル・エンコードのための方法
US10818304B2 (en) Phase coherence control for harmonic signals in perceptual audio codecs
EP1808047A1 (en) Multichannel audio signal decoding using de-correlated signals
BRPI1009648B1 (pt) decodificador de sinal de áudio, método para decodificador um sinal de áudio e programa de computador com o uso de etapas de processamento de objeto de áudio em cascata
JP2011522472A (ja) パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ
WO2012098098A1 (en) Encoding and decoding of slot positions of events in an audio signal frame
JP5421367B2 (ja) 多重チャンネルオーディオデータの再構成
CN107077861B (zh) 音频编码器和解码器
US10482888B2 (en) Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
EP2690622B1 (en) Audio decoding device and audio decoding method
JP2024509100A (ja) オーディオオブジェクト処理
US20240135940A1 (en) Methods, apparatus and systems for level alignment for joint object coding
TWI458365B (zh) 用以產生電平參數之裝置及方法、用以產生多聲道表示之裝置及方法以及儲存參數表示之儲存媒體

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230828