JP6268286B2

JP6268286B2 - オーディオチャネル及びオーディオオブジェクトのためのオーディオ符号化及び復号化の概念

Info

Publication number: JP6268286B2
Application number: JP2016528435A
Authority: JP
Inventors: アダミ，アレキサンデル; ボルス，クリスチャン; ディック，サッシャ; エルテル，クリスチャン; フェーク，シモーネ; ヘルレ，ユルゲン; ヒルペルト，ヨハネス; ヘルツェル，アンドレアス; クラッツシュメール，ミヒャエル; ケッヒ，ファビアン; クンツ，アヒム; ムルタザ，アドリアン; プロクティース，ヤン; ジルツル，アンドレアス; シュテンツェル，ハンネ
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2013-07-22
Filing date: 2014-07-16
Publication date: 2018-01-24
Anticipated expiration: 2034-07-16
Also published as: RU2641481C2; TWI566235B; KR20160033769A; EP2830045A1; US20220101867A1; SG11201600476RA; EP3025329B1; MX2016000910A; RU2016105518A; US20190180764A1; KR101943590B1; AR097003A1; US20160133267A1; AU2014295269B2; WO2015010998A1; PT3025329T; US11227616B2; KR101979578B1; MX359159B; US10249311B2

Description

本発明はオーディオ符号化／復号化に関し、特に、空間オーディオ符号化及び空間オーディオオブジェクト符号化に関する。

空間オーディオ符号化ツールは当該技術において公知であり、例えばＭＰＥＧサラウンド標準で標準化されている。空間オーディオ符号化は、５個又は７個のチャネルなどのオリジナル入力チャネルから開始し、それらチャネルは再生設定におけるそれらの配置によって識別される。即ち、左チャネル、中央チャネル、右チャネル、左サラウンドチャネル、右サラウンドチャネル、及び低周波数強化チャネルである。空間オーディオ符号器は、典型的にはオリジナルチャネルから１つ以上のダウンミクスチャネルを導出し、加えて空間的キューに関連するパラメトリックデータを導出しており、その空間的キューにはチャネルコヒーレンス値におけるチャネル間レベル差(interchannel level differences)、チャネル間位相差(interchannel phase differences)、チャネル間時間差(interchannel time differences)などがある。１つ以上のダウンミクスチャネルは、空間的キューを示すパラメトリックサイド情報と一緒に空間オーディオ復号器へと伝送され、その復号器は、ダウンミクスチャネルとその関連するパラメトリックデータとを復号化して、オリジナル入力チャネルの近似されたバージョンである出力チャネルを最終的に取得する。出力設定におけるチャネルの配置は典型的には固定されており、例えば５．１フォーマット、７．１フォーマットなどである。

加えて、空間オーディオオブジェクト符号化ツールは、当該技術において公知であり、ＭＰＥＧＳＡＯＣ標準（ＳＡＯＣ＝空間オーディオオブジェクト符号化）において標準化されている。オリジナルチャネルから開始する空間オーディオ符号化とは対照的に、空間オーディオオブジェクト符号化はオーディオオブジェクトから開始し、それらオブジェクトはあるレンダリング再生設定に対して自動的に専用となる訳ではない。代わりに、再生シーン内におけるオーディオオブジェクトの配置には柔軟性があり、あるレンダリング情報を空間オーディオオブジェクト符号化・復号器へと入力することによりユーザーが決定することもできる。代替的又は追加的に、レンダリング情報、即ち再生設定におけるどの位置に、あるオーディオオブジェクトが典型的には時間にわたって配置されるべきかという情報は、追加的サイド情報又はメタデータとして伝送され得る。あるデータ圧縮を得るために幾つかのオーディオオブジェクトがＳＡＯＣ符号器によって符号化され、その符号器は、あるダウンミクス情報に従ってオブジェクトをダウンミクスすることで入力オブジェクトから１つ以上の転送チャネルを計算する。更に、ＳＡＯＣ符号器は、オブジェクトレベル差（ＯＬＤ）、オブジェクトコヒーレンス値などのオブジェクト間キューを表現しているパラメトリックサイド情報を計算する。ＳＡＣ（ＳＡＣ＝空間オーディオ符号化）においては、オブジェクト間のパラメトリックデータが個別の時間／周波数タイルについて計算される。即ち、例えば１０２４個又は２０４８個のサンプルを有するオーディオ信号のあるフレームについて、最終的に各フレーム及び各周波数帯域に対してパラメトリックデータが存在するように、２４個，３２個又は６４個などの周波数帯域が考慮される。一例として、あるオーディオピースが２０フレームを有し、各フレームが３２個の周波数帯域へと分割される場合、時間／周波数タイルの数は６４０個となる。

これまでのところ、低ビットレートで許容可能なオーディオ品質が得られるように、チャネル符号化を一方としオブジェクト符号化を他方としてそれらを組み合わせるような、柔軟性のある技術が存在していない。

本発明の目的は、オーディオ符号化及びオーディオ復号化についての改善された概念を提供することである。

この目的は、請求項１に記載のオーディオ符号器と、請求項８に記載のオーディオ復号器と、請求項２２に記載のオーディオ符号化方法と、請求項２３に記載のオーディオ復号化方法と、請求項２４に記載のコンピュータプログラムとによって達成される。

本発明は、柔軟性を有することを一方とし、良好なオーディオ品質で良好な圧縮効率を提供することを他方とする最適なシステムが、空間オーディオ符号化、即ちチャネルベースのオーディオ符号化と、空間オーディオオブジェクト符号化、即ちオブジェクトベースの符号化と、を組み合わせることによって達成されるという知見に基づいている。特に、オブジェクトとチャネルとをミキシングするためのミキサーを符号器側で既に準備することは、如何なるオブジェクト伝送も不要にすることが可能であり、又は伝送されるべきオブジェクトの個数を削減し得るので、特に低ビットレートのアプリケーションに対して良好な柔軟性を提供することになる。他方、オーディオ符号器が２つの異なるモードにおいて制御され得るように、柔軟性が要求される。即ち、一方のモードにおいては、オブジェクトがコア符号化される前にチャネルとミキシングされ、他方のモードにおいては、オブジェクトデータとチャネルデータとがそれらの間で何もミキシングされずに直接的にコア符号化される。

これにより、ユーザーが、一方で処理済みオブジェクト及びチャネルを符号器側で分離することが可能になり、その結果、増大するビットレートという代償を払うとは言え、復号器側において完全な柔軟性が得られる。他方で、ビットレートの要件がより厳しい場合には、本発明は既に、符号器側でミキシング／プレレンダリングを実行することを許可している。即ち、オーディオオブジェクトの一部又は全部が既にチャネルとミキシングされており、その結果、コア符号器はチャネルデータを符号化するだけであり、ダウンミックス形式又はパラメトリックなオブジェクト間データ形式のいずれかでオーディオオブジェクトデータを送信するために必要な如何なるビットも要求されない。

復号器側では、ユーザーは、同じオーディオ復号器が２つの異なるモードで操作を可能にしているという事実からも、高い柔軟性を得ることになる。即ち、第１モードでは、個々の又は別個のチャネル符号化とオブジェクト符号化とが実行され、復号器は、オブジェクトのレンダリング及びチャネルデータとのミキシングに対して完全な柔軟性を有する。他方、符号器側でミキシング／プレレンダリングが既に実行されている場合には、復号器は、中間的なオブジェクト処理が何もない状態で、後処理を実行するよう構成されている。しかし、その後処理は、他のモードでも、即ち、オブジェクトレンダリング／ミキシングが復号器側で実行される場合でも、データに対して適用できる。このように、本発明は、符号器側だけでなく復号器側においても、資源の多大な再利用を可能にするような処理作業の枠組みを可能にする。この後処理とは、目標とする再生レイアウトなどの最終的なチャネルシナリオを取得するための、ダウンミキシング及びバイノーラル化、又は任意の他の処理を指しても良い。

更に、非常に低いビットレート要件の場合には、本発明は、ユーザーに対してその低いビットレート要件に対応するために十分な柔軟性を提供する。即ち、符号器側でプレレンダリングすることにより、幾分かの柔軟性を代償とするとは言え、復号器側において非常に良好なオーディオ品質が取得可能となる。それは、符号器から復号器へとオブジェクトデータを全く提供しないことで節約されたビットが、チャネルデータをより良好に符号化するために使用できるという事実に起因するものであり、その良好な符号化は、十分なビットが使用可能な場合に、チャネルデータをより細かく量子化することや、品質を向上させるため又は符号化損失を低減するための任意の他の手段などによって可能になる。

本発明の好適な実施形態において、符号器はＳＡＯＣ符号器を更に含み、符号器に入力されたオブジェクトを符号化できるだけでなく、チャネルデータをＳＡＯＣ符号化して、更に低いビットレート要件においても良好なオーディオ品質を取得できるようにする。本発明の更なる実施形態は、バイノーラルレンダラー及び／又はフォーマット変換部を含む後処理機能を許可する。更に、復号器側の全体的な処理は、２２又は３２チャネルのラウドスピーカ設定などのような、多数個のラウドスピーカに対して既に実行されることが好ましい。しかし、次にフォーマット変換部が例えば５．１出力だけ、即ちチャネルの最大数よりも少数の再生レイアウトの出力が必要であると決定した場合、フォーマット変換部は、ＵＳＡＣ復号器又はＳＡＯＣ復号器のいずれか、又は両方の装置を制御して、最後にはフォーマット変換の中へとダウンミックスされるとは言え、復号化において如何なるチャネルも生成されないように、コア復号化操作及びＳＡＯＣ復号化操作を制限するのが望ましい。典型的には、アップミックス済みチャネルの生成はデコリレーション処理を必要とし、各デコリレーション処理はあるレベルのアーチファクトを導入してしまう。従って、コア復号器及び／又はＳＡＯＣ復号器を最終的に要求される出力フォーマットにより制御することで、この相互作用が存在しない状況と比較して、かなり大量の追加的なデコリレーション処理が節約される。その結果、オーディオ品質が向上するだけでなく、復号器の演算量が低減され、結局は電力消費も低減させることになり、この点は特に、本発明の符号器又は本発明の復号器を収容しているモバイル機器にとって有益である。しかしながら、本発明の符号器／復号器は、携帯電話、スマートホン、ノート型コンピュータ又はナビゲーション装置などのモバイル機器に導入され得るだけでなく、単純なデスクトップ・コンピュータや他の如何なる非モバイル器具にも使用され得る。

上述の構成、即ち幾つかのチャネルを生成しない構成は、最適とは言えない可能性もある。なぜなら、幾つかの情報（ダウンミックスされるであろうチャネル間のレベル差など）が失われる可能性があるからである。このレベル差情報は重要ではないかもしれないが、そのダウンミックスがアップミックス済みチャネルに対して異なるダウンミックス・ゲインを適用すれば、異なるダウンミックス出力信号をもたらす可能性もある。１つの改善された解決策は、アップミックスにおけるデコリレーションを単にスイッチオフすることであり、（パラメトリックＳＡＣにより信号伝達されたような）正確なレベル差を用いて全てのアップミックスチャネルを生成することである。この第２の解決策はより良好なオーディオ品質をもたらす一方で、上述の第１の解決策はより大きな演算量の低減をもたらす。

以下に、好ましい実施形態を添付の図面を参照しながら説明する。

符号器の第１実施形態を示す。復号器の第１実施形態を示す。符号器の第２実施形態を示す。復号器の第２実施形態を示す。符号器の第３実施形態を示す。復号器の第３実施形態を示す。本発明の実施形態に係る符号器／復号器が操作され得る、個別のモードを表すマップを示す。フォーマット変換部の具体的な構成を示す。バイノーラル変換部の具体的な構成を示す。コア復号器の具体的な構成を示す。クワッドチャネル要素（ＱＣＥ）を処理する符号器と対応するＱＣＥ復号器の具体的な構成を示す。

図１は、本発明の一実施形態に係る符号器を示す。この符号器は、オーディオ入力データ１０１を符号化してオーディオ出力データ５０１を取得するよう構成されている。この符号器は、ＣＨで示された複数のオーディオチャネルとＯＢＪで示された複数のオーディオオブジェクトとを受信する入力インターフェイスを備える。更に、図１に示すように、入力インターフェイス１００は、複数のオーディオオブジェクトＯＢＪの１つ以上に関連するメタデータを追加的に受信する。更に、この符号器は、複数のオブジェクトと複数のチャネルとをミキシングして複数のプレミクス済みチャネルを取得するミキサー２００を備え、各プレミクス済みチャネルは１つのチャネルのオーディオデータと少なくとも１つのオブジェクトのオーディオデータとを含む。

更に、この符号器は、コア符号器入力データをコア符号化するコア符号器３００と、複数のオーディオオブジェクトの１つ以上に関連するメタデータを圧縮するメタデータ圧縮部４００とを備える。更に、この符号器は、ミキサー、コア符号器及び／又は出力インターフェイス５００を複数の動作モードの１つで制御する、モード制御部６００を備え、第１モードでは、コア符号器は、入力インターフェイス１００により受信された複数のオーディオチャネル及び複数のオーディオオブジェクトを、ミキサーによる相互作用なしに、即ちミキサー２００による如何なるミキシングなしに、符号化するよう構成されている。しかし、ミキサー２００が活性化していた第２モードでは、コア符号器は、複数のミクス済みチャネル、即ちブロック２００により生成された出力を符号化する。後者の場合、それ以上のオブジェクトデータを符号化しないことが好ましい。代わりに、オーディオオブジェクトの位置を示すメタデータは、このメタデータによって示された通りにオブジェクトをチャネル上へとレンダリングするために、ミキサー２００によって既に使用されている。換言すれば、ミキサー２００は、複数のオーディオオブジェクトに関連するメタデータを使用してオーディオオブジェクトをプレレンダリングし、次に、プレレンダリング済みオーディオオブジェクトはチャネルとミキシングされて、ミキサーの出力においてミクス済みチャネルが得られる。この実施形態では、いずれのオブジェクトも必ずしも伝送される必要がなく、このことは、ブロック４００により出力される圧縮済みメタデータにも当てはまる。しかし、インターフェイス１００に入力された全てのオブジェクトがミキシングされる訳でなく、ある量のオブジェクトだけがミキシングされる場合には、ミキシングされない残りのオブジェクト及び関連するメタデータだけがコア符号化３００又はメタデータ圧縮部４００へとそれぞれ伝送される。

図３は、ＳＡＯＣ符号器８００を追加的に含む、符号器の更なる実施形態を示す。ＳＡＯＣ符号器８００は、空間オーディオオブジェクト符号器入力データから、１つ以上の転送チャネル及びパラメトリックデータを生成するよう構成されている。図３に示すように、空間オーディオオブジェクト符号器入力データは、プレレンダラー／ミキサーによって処理されなかったオブジェクトである。代替的に、個別のチャネル／オブジェクト符号化が活性化しているモード１におけるように、プレレンダラー／ミキサーが迂回されていた場合には、入力インターフェイス１００に入力された全てのオブジェクトはＳＡＯＣ符号器８００により符号化される。

更に、図３に示すように、コア符号器３００は、好ましくはＵＳＡＣ符号器、即ちＭＰＥＧ−ＵＳＡＣ標準（ＵＳＡＣ＝統合されたスピーチ及びオーディオ符号化）の中で定義されかつ標準化されているような符号器として構成される。図３に示す全体的な符号器の出力は、個別のデータタイプについてコンテナ状構造を有しているＭＰＥＧ４データストリームである。更に、メタデータは「ＯＡＭ」データとして示され、図１におけるメタデータ圧縮部４００は、圧縮済みＯＡＭデータを取得するＯＡＭ符号器４００に対応し、その圧縮済みＯＡＭデータはＵＳＡＣ符号器３００へ入力され、ＵＳＡＣ符号器３００は、図３に示すように、ＭＰ４出力データストリームを取得するための出力インターフェイスを追加的に含み、そのＭＰ４出力データストリームは符号化済みチャネル／オブジェクトデータだけでなく圧縮済みＯＡＭデータをも有する。

図５は符号器の更なる実施形態を示し、ここでは、図３とは対照的に、ＳＡＯＣ符号器はＳＡＯＣ符号化アルゴリズムを用いて、このモードにおいて活性化していないプレレンダラー／ミキサー２００により提供されたチャネルを符号化するか、又は代替的にプレレンダリング済みチャネル＋オブジェクトをＳＡＯＣ符号化するか、の何れかを実行するよう構成されている。従って、図５においては、ＳＡＯＣ符号器８００は３種類の異なる入力データ、即ち、プレレンダリング済みオブジェクトを持たないチャネル、チャネル及びプレレンダリング済みオブジェクト、又はオブジェクトのみ、に対して作動できる。更に、図５に追加的なＯＡＭ復号器４２０を設け、ＳＡＯＣ符号器８００がその処理のために復号器側と同じデータを使用できるように、即ち、オリジナルＯＡＭデータよりも寧ろ損失の多い圧縮により得られたデータを使用できるようにすることが好ましい。

図５の符号器は、複数の個別モードで作動できる。

図１の文脈の中で説明した第１モード及び第２モードに加え、図５の符号器は追加的に第３モードでも作動でき、そのモードでは、プレレンダラー／ミキサー２００が活性化していなかった場合、コア符号器が個別のオブジェクトから１つ以上の転送チャネルを生成する。代替的又は追加的に、この第３モードにおいて、図１のミキサー２００に対応するプレレンダラー／ミキサー２００が活性化していなかった場合、ＳＡＯＣ符号器８００はオリジナルチャネルから１つ以上の代替的又は追加的な転送チャネルを生成することができる。

最後に、符号器が第４モードで構成されている場合、ＳＡＯＣ符号器８００は、プレレンダラー／ミキサーによって生成されたチャネル＋プレレンダリング済みオブジェクトを符号化することができる。そのため、第４モードにおいては、最低ビットレートのアプリケーションが次のような事実により良好な品質を提供できる。つまり、チャネルとオブジェクトとが、個別のＳＡＯＣ転送チャネル及び図３と図５の中で「ＳＡＯＣ−ＳＩ」として示すような関連するサイド情報へと完全に変換されており、加えて、この第４モードではいずれの圧縮済みメタデータも伝送される必要がないからである。

図２は本発明の一実施形態に係る復号器を示す。この復号器は、入力として符号化済みオーディオデータ、即ち図１のデータ５０１を受信する。

この復号器は、メタデータ解凍部１４００と、コア復号器１３００と、オブジェクト処理部１２００と、モード制御部１６００と、後処理部１７００とを備える。

具体的には、この復号器は符号化済みオーディオデータを復号化するよう構成されており、入力インターフェイスは符号化済みオーディオデータを受信するよう構成されており、符号化済みオーディオデータは、あるモードにおける、複数の符号化済みチャネルと、複数の符号化済みオブジェクトと、複数のオブジェクトに関連する圧縮済みメタデータと、を含む。

更に、コア復号器１３００は複数の符号化済みチャネルと複数の符号化済みオブジェクトとを復号化するよう構成されており、追加的に、メタデータ解凍部は圧縮済みメタデータを解凍するよう構成されている。

更に、オブジェクト処理部１２００は、コア復号器１３００により生成された複数の復号化済みチャネルと複数の復号化済みオブジェクトとを、解凍済みメタデータを使用して処理し、復号化済みオブジェクトと復号化済みチャネルとを含む所定数の出力チャネルを得るよう構成されている。符号１２０５で示されたこれら出力チャネルは、次に後処理部１７００へと入力される。後処理部１７００は、幾つかの出力チャネル１２０５を、バイノーラル出力フォーマット又は５．１や７．１などの出力フォーマットのようなラウドスピーカ出力フォーマットであり得る、ある出力フォーマットへと変換するよう構成されている。

好ましくは、この復号器は、符号化済みデータを分析してモード指示を検出するよう構成された、モード制御部１６００を備える。従って、モード制御部１６００は図２の入力インターフェイス１１００に接続されている。しかし、代替的に、モード制御部が必ずしも存在する必要はない。代わりに、柔軟性のあるオーディオ復号器は、ユーザー入力や任意の他の制御のような、他の如何なる種類の制御データによってもプリセットされ得る。好ましくはモード制御部１６００により制御される図２の復号器は、その一方では、オブジェクト処理部を迂回して複数の復号化済みチャネルを後処理部１７００へと供給するよう構成される。これは、図１の符号器においてモード２が適用されていた場合のモード２、即ちプレレンダリング済みチャネルだけが受信される場合における作動である。代替的に、符号器においてモード１が適用されていた場合、即ち符号器が個別のチャネル／オブジェクト符号化を実行していた場合、オブジェクト処理部１２００は迂回されず、複数の復号化済みチャネルと複数の復号化済みオブジェクトとが、メタデータ解凍部１４００によって生成された解凍済みメタデータと一緒にオブジェクト処理部１２００へと供給される。

好ましくは、モード１又はモード２が適用されるべきかどうかの指示は符号化済みオーディオデータの中に含まれており、よって、モード制御部１６００がモード指示を検出するために符号化済みデータを分析する。符号化済みオーディオデータは符号化済みチャネルと符号化済みオブジェクトとを含むとモード指示が示すときには、モード１が使用され、他方、符号化済みオーディオデータはオーディオオブジェクトを何も含まない、即ち、図１の符号器のモード２によって得られたプレレンダリング済みチャネルだけを含むとモード指示が示すときには、モード２が適用される。

図４は、図２の復号器と比較した好適な実施形態を示し、図４の実施形態は図３のオーディオ符号器に対応する。図２の復号器構成に加えて、図４の復号器はＳＡＯＣ復号器１８００を含む。更に、図２のオブジェクト処理部１２００は、別個のオブジェクトレンダラー１２１０及びミキサー１２２０として構成されているが、モードに依存して、オブジェクトレンダラー１２１０の機能はＳＡＯＣ復号器１８００によっても実行され得る。

更に、後処理部１７００は、バイノーラルレンダラー１７１０又はフォーマット変換部１７２０として構成され得る。代替的に、図２のデータ１２０５の直接的な出力もまた、１７３０で示されるように構成され得る。従って、より小さなフォーマットが要求される場合には、柔軟性を持ち、かつ次に後処理するために、復号器内の処理は２２．２や３２などの最大数のチャネルに対して実行することが好ましい。しかしながら、５．１フォーマットのような小さなフォーマットだけが要求されることが正に最初から明白になる場合には、図２又は図６におけるショートカット１７２７で示すように、不要なアップミクス操作及び後続のダウンミクス操作を防止するための、ＳＡＯＣ復号器及び／又はＵＳＡＣ復号器に対するある制御を適用し得ることが望ましい。

本発明の好適な実施形態において、オブジェクト処理部１２００はＳＡＯＣ復号器１８００を含み、そのＳＡＯＣ復号器は、コア復号器により出力される１つ以上の転送チャネル及び関連するパラメトリックデータを復号化し、かつ解凍済みメタデータを使用して、複数のレンダリング済みオーディオオブジェクトを取得するよう構成されている。この目的で、ＯＡＭ出力がボックス１８００に接続されている。

更に、オブジェクト処理部１２００は、コア復号器により出力された復号化済みオブジェクトをレンダリングするよう構成されており、そのオブジェクトはＳＡＯＣ転送チャネルの中で符号化されたものではなく、オブジェクトレンダラー１２１０により示されるように、典型的には単一チャネル化された要素の中で個別に符号化されたものである。更に、復号器は、ミキサーの出力をラウドスピーカへと出力するための、出力１７３０に対応する出力インターフェイスを備える。

更なる実施形態において、オブジェクト処理部１２００は、符号化済みオーディオ信号又は符号化済みオーディオチャネルを表現している１つ以上の転送チャネル及び関連するパラメトリックサイド情報を復号化する、空間オーディオオブジェクト符号化・復号器１８００を含む。その空間オーディオオブジェクト符号化・復号器は、関連するパラメトリック情報及び解凍済みメタデータを、出力フォーマットを直接的にレンダリングするために使用可能な、例えばＳＡＯＣの初期バージョンで定義されているような、符号変換済みパラメトリックサイド情報へと符号変換するよう構成されている。後処理部１７００は、復号化済み転送チャネルと符号変換済みパラメトリックサイド情報とを使用して、出力フォーマットのオーディオチャネルを計算するよう構成されている。後処理部により実行される処理は、ＭＰＥＧサラウンド処理と類似していてもよく、又はＢＣＣ処理などのような他の如何なる処理であってもよい。

更なる一実施形態において、オブジェクト処理部１２００は、（コア復号器による）復号化済み転送チャネルとパラメトリックサイド情報とを使用して、出力フォーマットのためのチャネル信号を直接的にアップミクス及びレンダリングするよう構成された、空間オーディオオブジェクト符号化・復号器１８００を含む。

更にかつ重要なことに、図２のオブジェクト処理部１２００は、チャネルとミキシングされたプレレンダリング済みオブジェクトが存在する場合、即ち図１のミキサー２００が活性化していた場合、入力としてＵＳＡＣ復号器１３００により出力されたデータを直接的に受信する、ミキサー１２２０をさらに備える。加えて、ミキサー１２２０は、ＳＡＯＣ復号化を用いずにオブジェクトレンダリングを実行しているオブジェクトレンダラーからのデータを受信する。更にミキサーは、ＳＡＯＣ復号器出力データ、即ちＳＡＯＣレンダリング済みオブジェクトを受信する。

ミキサー１２２０は、出力インターフェイス１７３０とバイノーラルレンダラー１７１０とフォーマット変換部１７２０とに接続されている。バイノーラルレンダラー１７１０は、頭部関連伝達関数又はバイノーラル室内インパルス応答（ＢＲＩＲ）を使用して、出力チャネルを２つのバイノーラルチャネルへとレンダリングするよう構成されている。フォーマット変換部１７２０は、出力チャネルを、ミキサーの出力チャネル１２０５よりも少数のチャネルを有する出力フォーマットへと変換するよう構成されており、そのフォーマット変換部１７２０は、５．１スピーカなどのような再生レイアウトについての情報を必要とする。

図６の復号器は、図４の復号器とは以下の点で異なる。即ち、ＳＡＯＣ復号器は、レンダリング済みオブジェクトだけでなくレンダリング済みチャネルをも生成しており、このことは、図５の符号器が使用され、チャネル／プレレンダリング済みオブジェクトとＳＡＯＣ符号器８００の入力インターフェイスとの間の接続９００が活性化している場合であるという点である。

更に、ベクトル方式振幅パニング（ＶＢＡＰ）ステージ１８１０は、ＳＡＯＣ復号器から再生レイアウトについての情報を受信し、かつＳＡＯＣ復号器に対してレンダリング行列を出力するよう構成され、その結果、ＳＡＯＣ復号器が、ミキサーの更なる動作を必要とせずに、レンダリング済みチャネルを高度のチャネルフォーマット１２０５で、即ち３２個のラウドスピーカに提供できるようになる。

ＶＢＡＰブロックは、好適には復号化済みＯＡＭデータを受信してレンダリング行列を導出する。より一般的には、ＶＢＡＰブロックは、再生レイアウトの幾何学的情報だけでなく、入力信号がその再生レイアウト上にレンダリングされるべき位置の幾何学的情報をも要求することが好ましい。この幾何学的入力データは、オブジェクトについてのＯＡＭデータであってもよく、又は、ＳＡＯＣを用いて伝送されてきたチャネルについてのチャネル位置情報であってもよい。

しかしながら、ある特異な出力インターフェイスだけが要求される場合、ＶＢＡＰステージ１８１０は、例えば５．１出力についての必要なレンダリング行列を既に供給することができる。その場合、ＳＡＯＣ復号器１８００は、ＳＡＯＣ転送チャネルと関連するパラメトリックデータと解凍済みメタデータとから、直接的レンダリング、即ち、ミキサー１２２０の相互作用を何も受けずに要求された出力フォーマットへの直接的なレンダリングを実行する。しかしながら、モード間のあるミキシングが適用される場合、即ち、複数のチャネルがＳＡＯＣ符号化されているが全てのチャネルがＳＡＯＣ符号化されてはいない場合、複数のオブジェクトがＳＡＯＣ符号化されているが全てのオブジェクトがＳＡＯＣ符号化されてはいない場合、又は、プレレンダリング済みオブジェクトとチャネルとのある量だけがＳＡＯＣ復号化され、残りのチャネルがＳＡＯＣ処理されない場合には、ミキサーは、個別の入力部分からのデータ、即ちコア復号器１３００とオブジェクトレンダラー１２１０とＳＡＯＣ復号器１８００とからの直接的なデータを、結合するであろう。

次に、本発明の高度な柔軟性を有しかつ高度な品質のオーディオ符号器／復号器の概念を適用し得る、幾つかの符号器／復号器モードを示す図７について説明する。

第１符号化モードによれば、図１の符号器内のミキサー２００は迂回され、従って、図２の復号器内のオブジェクト処理部は迂回されない。

第２モードでは、図１内のミキサー２００は活性化しており、図２内のオブジェクト処理部は迂回される。

次に、第３符号化モードでは、図３のＳＡＯＣ符号器は活性化しているが、しかし、チャネル又はミキサーによって出力されたチャネルよりは寧ろ、オブジェクトをＳＡＯＣ符号化するだけである。従って、モード３では、図４に示された復号器側において、ＳＡＯＣ復号器がオブジェクトだけに対して活性化し、かつレンダリング済みオブジェクトを生成することが求められる。

図５に示された第４符号化モードにおいて、ＳＡＯＣ符号器は、プレレンダリング済みチャネルをＳＡＯＣ符号化するよう構成されており、即ち、ミキサーは第２モードと同様に活性化している。復号器側においては、プレレンダリング済みオブジェクトに対してＳＡＯＣ復号化が実行され、第２の符号化モードと同様に、オブジェクト処理部は迂回される。

更に、モード１〜４の如何なる混合でもあり得る第５の符号化モードが存在する。特に、図６内のミキサー１２２０がＵＳＡＣ復号器からチャネルを直接的に受信し、さらに、ＵＳＡＣ復号器からプレレンダリング済みオブジェクトを有するチャネルを受信する場合に、混合型符号化モードが存在するであろう。更に、この混合型符号化モードにおいて、オブジェクトは、好ましくはＵＳＡＣ復号器の単一のチャネル要素を使用して直接的に復号化される。この文脈において、オブジェクトレンダラー１２１０は、これらの復号化済みオブジェクトをレンダリングして、それらをミキサー１２２０へと出力するであろう。更に、複数のオブジェクトがＳＡＯＣ符号器によって追加的に符号化されており、ＳＡＯＣ技術によって符号化された複数のチャネルが存在する場合、ＳＡＯＣ復号器がレンダリング済みオブジェクト及び／又はレンダリング済みチャネルをミキサーへと出力するであろう。

ミキサー１２２０の各入力部は、次に、符号１２０５で示す３２個のような幾つかのチャネルを受信する少なくとも潜在能力を有する。つまり、基本的に、ミキサーは、ＵＳＡＣ復号器からの３２個のチャネルと、追加的にＵＳＡＣ復号器から３２個のプレレンダリング済み／ミクス済みチャネルと、追加的にオブジェクトレンダラーからの３２個の「チャネル」と、追加的にＳＡＯＣ復号器からの３２個の「チャネル」と、を受信することができ、ここで、ブロック１２１０及び１８００を一方とし、ブロック１２２０を他方とする間の各「チャネル」が、対応するオブジェクトの対応するラウドスピーカチャネル内における寄与を有しており、次に、ミキサー１２２０が、各ラウドスピーカチャネルのための個別の寄与を、ミキシング、即ち合計する。

本発明の好ましい実施形態において、符号化／復号化システムは、チャネル及びオブジェクト信号の符号化のためのＭＰＥＧ−ＤＵＳＡＣコーデックに基づいている。多量のオブジェクトを符号化する効率を高めるために、ＭＰＥＧ−ＳＡＯＣ技術が適応されてきた。３つのタイプのレンダラーが、オブジェクトをチャネルへとレンダリングし、チャネルをヘッドホンへとレンダリングし、又はチャネルを様々なラウドスピーカ設定へとレンダリングする作業を実行する。オブジェクト信号がＳＡＯＣを用いて明示的に伝送され又はパラメトリック的に符号化されている場合、対応するオブジェクトメタデータ情報は圧縮され、符号化済み出力データの中に多重化される。

一実施形態において、プレレンダラー／ミキサー２００が、符号化の前にチャネル＋オブジェクト入力シーンをチャネルシーンへと変換するために使用される。機能的には、それは図４又は図６に示された復号器側のオブジェクトレンダラー／ミキサーの結合と同じであり、図２のオブジェクト処理部１２００と同じである。オブジェクトのプレレンダリングにより、符号器入力における決定論的な信号エントロピーが保証され、これは同時に活性化しているオブジェクト信号の個数とは基本的に無関係である。オブジェクトのプレレンダリングにより、オブジェクトメタデータの伝送が不要となる。離散的なオブジェクト信号が、符号器が使用するよう構成されるチャネルレイアウトへとレンダリングされる。各チャネルに対するオブジェクトの重みは、関連するオブジェクトメタデータＯＡＭから矢印４０２で示すように得られる。

ラウドスピーカチャネル信号、離散的オブジェクト信号、オブジェクトダウンミックス信号、及びプレレンダリング済み信号のためのコア／符号器／復号器として、ＵＳＡＣ技術が好ましい。その技術は、多数の信号の符号化を、チャネル及びオブジェクトマッピング情報（入力チャネル及びオブジェクト割当の幾何学的及び意味論的情報）を作成することで行う。このマッピング情報は、図１０に示すように、入力チャネル及びオブジェクトが、どのようにＵＳＡＣチャネル要素へとマップされるかを記述するものであり、即ち、チャネルペア要素（ＣＰＥ）、単一チャネル要素（ＳＣＥ）、クワッドチャネル要素（ＱＣＥ）及び対応する情報が、コア符号器からコア復号器へと伝送される。ＳＡＯＣデータやオブジェクトメタデータのような全ての追加的なペイロードは、拡張要素を通じて伝達されており、符号器のレート制御において考慮されている。

オブジェクトの符号化は、レート／歪み要件とレンダラーに関する相互作用要件とに依存して、種々の方法で可能である。以下のようなオブジェクト符号化の派生形が可能である。
・プレレンダリング済みオブジェクト：オブジェクト信号は、符号化の前にプレレンダリングされて、２２．２チャネル信号へとミキシングされる。後続の符号化チェーンは２２．２チャネル信号を作る。
・離散的オブジェクト波形：オブジェクトはモノラル波形として符号器に供給される。符号器は単一チャネル要素ＳＣＥを使用して、チャネル信号に加えてオブジェクトをも伝送する。復号化されたオブジェクトが受信機側においてレンダリング及びミキシングされる。圧縮済みオブジェクトメタデータ情報も並んで受信機／レンダラーに対して伝送される。
・パラメトリック・オブジェクト波形：オブジェクト特性とそれらの相互関係が、ＳＡＯＣパラメータによって記述される。オブジェクト信号のダウンミックスがＵＳＡＣを用いて符号化される。パラメトリック情報も並んで伝送される。ダウンミックスチャネルの数は、オブジェクトの数と全体的なデータレートとに依存して選択される。圧縮済みオブジェクトメタデータ情報がＳＡＯＣレンダラーへと伝送される。

オブジェクト信号のためのＳＡＯＣ符号器及び復号器は、ＭＰＥＧＳＡＯＣ技術に基づいている。そのシステムは、幾つかのオーディオオブジェクトを、その個数より少数の伝送されたチャネルと追加的なパラメトリックデータ（ＯＬＤ，ＩＯＣ（オブジェクト間コヒーレンス），ＤＭＧ（ダウンミックス・ゲイン））とに基づいて、再生し、修正し、レンダリングすることができる。追加的なパラメトリックデータは、全てのオブジェクトを個別に伝送するために必要なデータレートよりも有意に低いデータレートを示し、符号化の効率を著しく向上させる。

ＳＡＯＣ符号器は、入力として、オブジェクト／チャネル信号をモノラル波形として受け取り、パラメトリック情報（３Ｄオーディオビットストリーム内へとパックされる）と、ＳＡＯＣ転送チャネル（単一チャネル要素を使用して符号化され伝送される）とを出力する。

ＳＡＯＣ復号器は、復号化されたＳＡＯＣ伝送チャネル及びパラメトリック情報からオブジェクト／チャネル信号を再生し、再生レイアウトと、解凍されたオブジェクトメタデータ情報と、任意ではあるがユーザー相互作用情報と、に基づいて出力オーディオシーンを生成する。

各オブジェクトについて、３Ｄ空間におけるそのオブジェクトの幾何学的位置及び音量を特定する関連するメタデータが、時間及び空間におけるオブジェクト特性の量子化により、効率的に符号化される。圧縮済みオブジェクトメタデータＯＡＭがサイド情報として受信機へと送信される。オブジェクトの音量は、各オーディオオブジェクトの空間的広がりについての情報及び／又はオーディオ信号の信号レベルについての情報を含み得る。

オブジェクトレンダラーは、圧縮済みオブジェクトメタデータを利用して、所与の再生フォーマットに従ってオブジェクト波形を生成する。各オブジェクトは、そのメタデータに従って、幾つかの出力チャネルへとレンダリングされる。このブロックの出力は、部分結果の合計からもたらされる。

チャネルベースのコンテンツと離散的／パラメトリック・オブジェクトとの両方が復号化されると、チャネルベースの波形とレンダリング済みオブジェクト波形とは、結果として得られる波形を出力する前に（又はそれらをバイノーラルレンダラーやラウドスピーカレンダラー・モジュールのような後処理モジュールへと供給する前に）ミキシングされる。

バイノーラルレンダラー・モジュールは、多チャネルオーディオ材料のバイノーラルダウンミックスを、各入力チャネルが１つの仮想音源によって表現されるように、生成する。その処理は、ＱＭＦ（直交ミラーフィルタバンク）ドメインでフレーム毎に実行される。

バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づいている。

図８は、フォーマット変換部１７２０の好適な実施形態を示す。ラウドスピーカレンダラー又はフォーマット変換部は、転送チャネル構成と所望の再生フォーマットとの間の変換を行う。このフォーマット変換部は、より少数の出力チャネルへの変換を実行、即ち、ダウンミックスを作成する。この目的で、好ましくはＱＭＦドメインで作動するダウンミキサー１７２２がミキサー出力信号１２０５を受信し、ラウドスピーカ信号を出力する。好ましくは、ダウンミキサー１７２２を構成する制御部１７２４が準備され、その制御部は、制御入力としてミキサー出力レイアウト、即ちそれに応じてデータ１２０５が決定されるレイアウトを受信し、さらに所望の再生レイアウトが、典型的には、図６で示すフォーマット変換ブロック１７２０へと入力されている。この情報に基づいて、制御部１７２４は、好ましくは自動的に、入力フォーマットと出力フォーマットとの所与の組合せのための最適なダウンミックス行列を生成し、これらの行列をダウンミキサーブロック１７２２の中でダウンミックス処理に適用する。フォーマット変換部は、標準的なラウドスピーカ構成だけでなく、非標準的なラウドスピーカ位置を有する変則的な構成をも可能にする。

図６の文脈において説明したように、ＳＡＯＣ復号器は、目標再生レイアウトへの後続のフォーマット変換ができるように、２２．２のような予め定義されたチャネルレイアウトへとレンダリングするよう設計されている。しかし代替的に、ＳＡＯＣ復号器は、「低パワー」のモードをサポートするよう構成されており、そのモードでは、ＳＡＯＣ復号器が後続のフォーマット変換なしに再生レイアウトへと直接的に復号化するよう構成されている。この構成においては、ＳＡＯＣ復号器１８００は、５．１ラウドスピーカ信号などのようなラウドスピーカ信号を直接的に出力し、そのＳＡＯＣ復号器１８００は、ダウンミックス情報を生成するためのベクトル方式振幅パニング又は任意の他の種類の処理が作動できるように、再生レイアウト情報とレンダリング行列とを要求する。

図９は、図６のバイノーラルレンダラー１７１０の更なる実施形態を示す。特に、モバイル機器にとって、バイノーラルレンダリングは、そのようなモバイル機器に取り付けられたヘッドホンのため、又は典型的に小型であるモバイル機器に直接取り付けられたラウドスピーカのために、必要となる。そのようなモバイル機器に対し、復号器及びレンダリングの複雑性を制限する制約が存在し得る。そのような処理シナリオにおけるデコリレーションを省略することに加え、ダウンミキサー１７１２を使用してある中間ダウンミックスへ、即ちより少数の出力チャネルへとまずダウンミックスし、その結果としてバイノーラル変換部１７１４にとってより少数の入力チャネルを得ることが望ましい。例示的に、２２．２チャネル材料がダウンミキサー１７１２により５．１中間ダウンミックスへとダウンミックスされてもよく、又は代替的に、中間ダウンミックスが、図６のＳＡＯＣ復号器１８００により、ある種の「ショートカット」モードにおいて直接的に計算されてもよい。その場合、バイノーラルレンダリングは、異なる位置にある５個の個別のチャネルをレンダリングするために、１０個のＨＲＴＦ（頭部関連伝達関数）又はＢＲＩＲ関数を適用するだけでよく、これは、２２．２の入力チャネルが既に直接的にレンダリングされていたと仮定した場合に４４個のＨＲＴＦ又はＢＲＩＲ関数を適用するのとは対照的である。特に、バイノーラルレンダリングのために必要な畳み込み演算は、大量の処理パワーを要求する。従って、この処理パワーを低減しながら、同時に許容可能なオーディオ品質を得ることは、モバイル機器にとって特に有益である。

好適には、制御ライン１７２７により示す「ショートカット」は、復号器１３００をより少数のチャネルを復号化するように制御すること、即ち、復号器内の完全なＯＴＴ処理ブロックをスキップし又はより少数のチャネルへフォーマット変換すること、を含み、図９に示すように、バイノーラルレンダリングはより少数のチャネルに対して実行される。同様の処理は、図６のライン１７２７で示すように、バイノーラル処理だけでなくあるフォーマット変換についても適用し得る。

更なる実施形態においては、処理ブロック間の効率的なインターフェイス化が必要となる。特に図６において、異なる処理ブロック間のオーディオ信号経路が示されている。ＳＢＲ（スペクトル帯域複製）が適用された場合、バイノーラルレンダラー１７１０とフォーマット変換部１７２０とＳＡＯＣ復号器１８００とＵＳＡＣ復号器１３００との全てが、ＱＭＦ又はハイブリッドＱＭＦドメインにおいて作動する。一実施形態によれば、これら全ての処理ブロックは、ＱＭＦ又はハイブリッドＱＭＦのインターフェイスを提供し、オーディオ信号が互いの間をＱＭＦドメインで効率よく行き交うことを可能にする。加えて、ミキサーモジュール及びオブジェクトレンダラー・モジュールも同様に、ＱＭＦドメイン又はハイブリッドＱＭＦドメインで作動するよう構成することが好ましい。結果として、別個のＱＭＦ又はハイブリッドＱＭＦ分析及び合成のステージを回避することができ、結果として相当な演算量の節約がもたらされ、その場合、符号１７３０で示すラウドスピーカ信号を生成するため、ブロック１７１０の出力におけるバイノーラルデータを生成するため、又はブロック１７２０の出力における再生レイアウトスピーカ信号を生成するために、１つの最終的なＱＭＦ合成ステージだけが必要となる。

次に、クワッドチャネル要素（ＱＣＥ）を説明するため、図１１を参照されたい。ＵＳＡＣ−ＭＰＥＧ標準において定義されたチャネルペア要素とは対照的に、クワッドチャネル要素は４つの入力チャネル９０を必要とし、符号化済みＱＣＥ要素９１を出力する。一実施形態において、２−１−２モードの２つのＭＰＥＧサラウンドボックス又は２つのＴＴＯ（ＴＴＯ＝２から１）ボックスからなる階層構造と、ＭＰＥＧＵＳＡＣ又はＭＰＥＧサラウンドに定義された追加的なジョイントステレオ符号化ツール（例えばＭＳ−ステレオなど）とが提供され、ＱＣＥ要素は、２つのジョイントステレオ符号化済みダウンミックスチャネルと、任意の２つのジョイントステレオ符号化済み残余チャネルと、加えて例えば２つのＴＴＯボックスから導出されたパラメトリックデータとを含む。復号器側においてはある構造が適用され、その構造では、２つのダウンミックスチャネル、及び任意の２つの残余チャネルのジョイントステレオ復号化が適用され、２つのＯＴＴボックスを持つ第２ステージにおいて、ダウンミックスと任意の残余チャネルとが４個の出力チャネルへとアップミックスされる。しかしながら、階層的な操作に代えて、１つのＱＣＥ符号器のための代替的な処理操作も適用され得る。このように、２つのチャネルからなるグループのジョイントチャネル符号化に加え、コア符号器／復号器は、４個のチャネルからなるグループのジョイントチャネル符号化も追加的に使用する。

更に、１２００ｋｂｐｓで妥協なしのフル帯域（１８ｋＨｚ）符号化を可能とするために、強化されたノイズ充填処理を実行することが好ましい。

符号器は、ダイナミックデータのためのレートバッファとして、１チャネル当たり最大6144ビットを使用して、「ビットリザーバ付き一定レート(constant rate with bit-reservoir)」の方式で作動されてきた。

ＳＡＯＣデータ又はオブジェクトメタデータなどの全ての追加的ペイロードは、拡張要素を通して受け渡され、符号器のレート制御の中で考慮されてきた。

３ＤオーディオコンテンツについてもＳＡＯＣ機能の利点を活かすため、ＭＰＥＧＳＡＯＣへの以下の拡張が実行されてきた。
・任意数のＳＡＯＣ転送チャネルへのダウンミックス
・多数のラウドスピーカ（２２．２まで）を有する出力構成への強化されたレンダリング

バイノーラルレンダラー・モジュールは、（ＬＦＥチャネルを除く）各入力チャネルが１つの仮想音源によって表現されるように、多チャネルオーディオ材料のバイノーラルダウンミックスを生成する。その処理は、ＱＭＦドメインでフレーム毎に実行される。

バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づいている。直接音と早期反射は、ＱＭＦドメインの高速畳み込みオントップを使用する疑似ＦＦＴドメインにおける畳み込み手法を介して、オーディオ材料へと刷り込まれる。

これまで装置の文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明をも表しており、１つのブロック又は装置が１つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全てが、例えばマイクロプロセッサ、プログラマブルコンピュータ、又は電子回路のようなハードウエア装置によって（又は使用して）実行されてもよい。幾つかの実施形態では、主要な方法ステップの１つ又はそれ以上がそのような装置によって実行されてもよい。

所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、例えばフレキシブルディスク，ＤＶＤ，ブルーレイ（商標），ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭ，フラッシュメモリなどのデジタル記憶媒体のような非一時的記憶媒体を使用して実行することができ、その記憶媒体は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する（又は協働可能である）。よって、このデジタル記憶媒体はコンピュータ読み取り可能である。

本発明に従う幾つかの実施形態は、上述した方法の１つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。

一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。

本発明の他の実施形態は、上述した方法の１つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。

換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明の他の実施形態は、上述した方法の１つを実行するために記録されたコンピュータプログラムを含む、データキャリア（又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体）である。データキャリア、デジタル記憶媒体、又は記録媒体は典型的には有形及び／又は非遷移的である。

よって、本発明方法の他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。

他の実施形態は、上述した方法の１つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。

他の実施形態は、上述した方法の１つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。

本発明にかかる更なる実施形態は、ここで説明した方法の１つを実行するためのコンピュータプログラムを受信器に対して（例えば電子的又は光学的に）転送するよう構成された装置又はシステムを含む。その受信器は、例えばコンピュータ、携帯機器、メモリ装置などであってもよい。この装置又はシステムは、例えばコンピュータプログラムを受信器へ転送するためのファイルサーバを備えていてもよい。

幾つかの実施形態においては、（例えば書換え可能ゲートアレイのような）プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の１つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。

上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。

Claims

オーディオ入力データ（１０１）を符号化してオーディオ出力データ（５０１）を取得するオーディオ符号器であって、
複数のオーディオチャネルと、複数のオーディオオブジェクトと、前記複数のオーディオオブジェクトの１つ以上に関連するメタデータとを受信するよう構成された入力インターフェイス（１００）と、
前記複数のオーディオオブジェクトと前記複数のオーディオチャネルとをミキシングして、複数のプレミクス済みオーディオチャネルを取得するよう構成されたミキサー（２００）であって、各プレミクス済みオーディオチャネルは１つのオーディオチャネルのオーディオデータと少なくとも１つのオーディオオブジェクトのオーディオデータとを含む、ミキサー（２００）と、
コア符号器入力データをコア符号化するよう構成されたコア符号器（３００）と、
前記複数のオーディオオブジェクトの１つ以上に関連する前記メタデータを圧縮するよう構成されたメタデータ圧縮部（４００）と、を備え、
前記オーディオ符号器は、前記コア符号器がコア符号器入力データとして前記入力インターフェイスにより受信された前記複数のオーディオチャネルと前記複数のオーディオオブジェクトとを符号化する第１モードと、前記コア符号器（３００）が前記コア符号器入力データとして前記ミキサー（２００）により生成された前記複数のプレミクス済みオーディオチャネルを受信して前記複数のプレミクス済みオーディオチャネルを符号化する第２モードとを含む、少なくとも２つのモードからなる１グループの１つのモードにおいて作動するよう構成されている、オーディオ符号器。
請求項１に記載のオーディオ符号器であって、
空間オーディオオブジェクト入力データから１つ以上の転送オーディオチャネルとパラメトリックデータとを生成する、空間オーディオオブジェクト符号器（８００）をさらに備え、
前記オーディオ符号器は、このオーディオ符号器が前記第１モード及び前記第２モードのいずれでも作動しない場合に、前記第１モード及び前記第２モードとは異なる第３モードで作動可能に構成され、
前記第３モードにおいて、前記コア符号器（３００）が前記空間オーディオオブジェクト入力データから導出された前記１つ以上の転送オーディオチャネルをコア符号化するよう構成され、前記空間オーディオオブジェクト入力データは前記複数のオーディオオブジェクト又は前記複数のオーディオチャネルを含む、オーディオ符号器。
請求項１に記載のオーディオ符号器であって、
空間オーディオオブジェクト入力データから１つ以上の転送オーディオチャネルとパラメトリックデータとを生成する、空間オーディオオブジェクト符号器（８００）をさらに備え、
前記オーディオ符号器は、このオーディオ符号器が前記第１モード及び前記第２モードのいずれでも作動しない場合に、前記第１モード及び前記第２モードとは異なる第４モードで作動可能に構成され、
前記第４モードにおいて、前記コア符号器が前記空間オーディオオブジェクト入力データとして前記プレミクス済みオーディオチャネルから前記空間オーディオオブジェクト符号器（８００）によって導出された転送オーディオチャネルをコア符号化するよう構成されている、オーディオ符号器。
請求項２に記載のオーディオ符号器であって、
前記オーディオ符号器は、このオーディオ符号器が前記第１モード、前記第２モード及び前記第３モードのいずれでも作動しない場合に、前記第１モード、前記第２モード及び前記第３モードとは異なる第４モードで作動可能に構成され、
前記第４モードにおいて、前記コア符号器が前記空間オーディオオブジェクト入力データとして前記プレミクス済みオーディオチャネルから前記空間オーディオオブジェクト符号器（８００）によって導出された転送オーディオチャネルをコア符号化するよう構成されている、オーディオ符号器。
請求項１乃至４のいずれか１項に記載のオーディオ符号器であって、
前記第１モードにおいて前記入力インターフェイス（１００）の出力を前記コア符号器（３００）の入力に接続し、前記第２モードにおいて前記入力インターフェイス（１００）の出力を前記ミキサー（２００）の入力に接続しかつ前記ミキサー（２００）の出力を前記コア符号器（３００）の入力に接続する、接続部と、
ユーザーインターフェイスから受信され、又は前記入力インターフェイスによって受信された前記オーディオ入力データ（１０１）から抽出される、モード指示に従って前記接続部を制御するモード制御部（６００）と、
をさらに備えるオーディオ符号器。
請求項４に記載のオーディオ符号器であって、
前記オーディオ出力データ（５０１）として出力信号を提供する出力インターフェイス（５００）をさらに備え、前記出力信号は、前記第１モードでは前記コア符号器（３００）の出力と圧縮済みメタデータとを含み、前記第２モードでは如何なるメタデータを持たずに前記コア符号器（３００）の出力を含み、前記第３モードでは前記コア符号器（３００）の出力とＳＡＯＣサイド情報と前記圧縮済みメタデータとを含み、前記第４モードでは前記コア符号器（３００）の出力とＳＡＯＣサイド情報とを含む、オーディオ符号器。
請求項１乃至６のいずれか１項に記載のオーディオ符号器であって、
前記ミキサー（２００）は、前記メタデータと前記複数のオーディオチャネルが関連している再生設定における各オーディオチャネルの位置の指示とを使用して、前記複数のオーディオオブジェクトをプレレンダリングするよう構成され、
前記ミキサー（２００）は、前記メタデータによって決定されているように、前記再生設定においてこの少なくとも２つのオーディオチャネル間に前記オーディオオブジェクトが配置されるべきとき、１つのオーディオオブジェクトを少なくとも２つのオーディオチャネルとミキシングするよう構成されている、オーディオ符号器。
請求項１乃至７のいずれか１項に記載のオーディオ符号器であって、
前記メタデータ圧縮部（４００）によって出力された圧縮済みメタデータを解凍するメタデータ解凍部（４２０）をさらに備え、
前記ミキサー（２００）は、解凍済みメタデータに従って前記複数のオーディオオブジェクトをミキシングするよう構成され、前記メタデータ圧縮部（４００）によって実行される圧縮操作は、量子化ステップを含むロスの多い圧縮操作である、オーディオ符号器。
符号化済みオーディオデータを復号化するオーディオ復号器であって、
符号化済みオーディオデータを受信するよう構成された入力インターフェイス（１１００）と、
前記符号化済みオーディオデータが複数の符号化済みオーディオチャネルと複数の符号化済みオーディオオブジェクトとを含むとき、前記複数の符号化済みオーディオチャネルと前記複数の符号化済みオーディオオブジェクトとを復号化して複数の復号化済みオーディオチャネルと複数の復号化済みオーディオオブジェクトとを取得し、前記符号化済みオーディオデータが符号化済みオーディオオブジェクトを含まないとき、前記複数の符号化済みオーディオチャネルを復号化して複数の復号化済みオーディオチャネルを取得するよう構成されたコア復号器（１３００）と、
前記符号化済みオーディオデータが前記複数の符号化済みオーディオオブジェクトに関連する圧縮済みメタデータを含むとき、前記圧縮済みメタデータを解凍して解凍済みメタデータを取得するよう構成されたメタデータ解凍部（１４００）と、
前記復号化済みオーディオオブジェクトを前記解凍済みメタデータを使用して処理し、前記復号化済みオーディオオブジェクト及び前記復号化済みオーディオチャネルからのオーディオデータを含む幾つかの出力オーディオチャネル（１２０５）を取得するよう構成された、オブジェクト処理部（１２００）と、
前記幾つかの出力オーディオチャネル（１２０５）を出力フォーマットへ変換する後処理部（１７００）と、を備え、
前記オーディオ復号器は、
前記符号化済みオーディオデータが符号化済みオーディオオブジェクトを含まないとき、前記オブジェクト処理部を迂回し、かつ複数の復号化済みオーディオチャネルを前記後処理部（１７００）へと供給するよう構成され、前記符号化済みオーディオデータが符号化済みオーディオチャネルと符号化済みオーディオオブジェクトとを含むとき、前記複数の復号化済みオーディオオブジェクトと前記複数の復号化済みオーディオチャネルとを前記オブジェクト処理部（１２００）へ供給するよう構成されている、オーディオ復号器。
請求項９に記載のオーディオ復号器であって、
前記後処理部（１７００）は、前記幾つかの出力オーディオチャネル（１２０５）を、バイノーラル表現又は前記出力オーディオチャネルの数よりも少数のオーディオチャネルを有する再生フォーマットへと変換するよう構成され、
前記オーディオ復号器は、ユーザーインターフェイスから導出され、又は前記入力インターフェイスによって受信された前記符号化済みオーディオデータから抽出される、制御入力に従って前記後処理部（１７００）を制御するよう構成されている、オーディオ復号器。
請求項９又は１０に記載のオーディオ復号器であって、
前記オブジェクト処理部は、
解凍済みメタデータを使用して復号化済みオーディオオブジェクトをレンダリングするオブジェクトレンダラーと、
レンダリング済みオーディオオブジェクトと復号化済みオーディオチャネルとをミキシングして前記幾つかの出力オーディオチャネル（１２０５）を得るミキサー（１２２０）と、を備えるオーディオ復号器。
請求項９乃至１１のいずれか１項に記載のオーディオ復号器であって、
前記オブジェクト処理部（１２００）は、符号化済みオーディオオブジェクトを表現している１つ以上の転送オーディオチャネルと関連するパラメトリックサイド情報とを復号化する、空間オーディオオブジェクト符号化復号器を備え、
前記空間オーディオオブジェクト符号化復号器は、前記オーディオオブジェクトの配置に関連するレンダリング情報に従って復号化済みオーディオオブジェクトをレンダリングし、かつ前記レンダリング済みオーディオオブジェクトと前記復号化済みオーディオチャネルとをミキシングして前記幾つかの出力オーディオチャネル（１２０５）を得るよう、前記オブジェクト処理部を制御するよう構成されている、オーディオ復号器。
請求項９乃至１１のいずれか１項に記載のオーディオ復号器であって、
前記オブジェクト処理部（１２００）は、符号化済みオーディオオブジェクトと符号化済みオーディオチャネルとを表現している１つ以上の転送オーディオチャネルと関連するパラメトリックサイド情報とを復号化する、空間オーディオオブジェクト符号化復号器（１８００）を備え、
前記空間オーディオオブジェクト符号化復号器は、前記１つ以上の転送オーディオチャネルと前記関連するパラメトリックサイド情報とを使用して前記符号化済みオーディオオブジェクトと前記符号化済みオーディオチャネルとを復号化して復号化済みオーディオオブジェクトと復号化済みオーディオチャネルとを得るよう構成され、前記オブジェクト処理部は、前記解凍済みメタデータを使用して前記復号化済みオーディオオブジェクトをレンダリングし、かつ前記復号化済みオーディオチャネルをレンダリング済みの復号化済みオーディオオブジェクトとミキシングして前記幾つかの出力オーディオチャネル（１２０５）を得るよう構成されている、オーディオ復号器。
請求項９乃至１１のいずれか１項に記載のオーディオ復号器であって、
前記オブジェクト処理部（１２００）は、符号化済みオーディオオブジェクトと符号化済みオーディオチャネルとを表現している１つ以上の転送オーディオチャネルと関連するパラメトリックサイド情報とを復号化し、復号化済み転送オーディオチャネルを取得する、空間オーディオオブジェクト符号化復号器（１８００）を備え、
前記空間オーディオオブジェクト符号化復号器は、前記関連するパラメトリックサイド情報と前記解凍済みメタデータとを、前記出力フォーマットへと直接的にレンダリングするために使用可能なトランスコード済みパラメトリックサイド情報へとトランスコードするよう構成され、前記後処理部（１７００）は、前記復号化済み転送オーディオチャネルと前記トランスコード済みパラメトリックサイド情報とを使用して、前記出力フォーマットのオーディオチャネルを計算するよう構成されているか、又は
前記空間オーディオオブジェクト符号化復号器は、前記復号化済み転送オーディオチャネルと前記パラメトリックサイド情報とを使用して、前記出力フォーマットのためにオーディオチャネル信号を直接的にアップミックスしかつレンダリングするよう構成されている、
オーディオ復号器。
請求項１１に記載のオーディオ復号器であって、
前記オブジェクト処理部（１２００）は、前記コア復号器（１３００）によって出力された１つ以上の転送オーディオチャネルと、関連するパラメトリックサイド情報と、解凍済みメタデータとを復号化し、複数のレンダリング済みオーディオオブジェクトを得る、空間オーディオオブジェクト符号化復号器を備え、
前記オブジェクト処理部（１２００）は、前記コア復号器（１３００）によって出力された復号化済みオーディオオブジェクトをレンダリングするよう構成され、
前記オブジェクト処理部（１２００）は、レンダリング済み復号化済みオーディオオブジェクトを復号化済みオーディオチャネルとミキシングするようさらに構成され、
前記オーディオ復号器は、前記ミキサー（１２２０）の出力をラウドスピーカへ出力するための出力インターフェイス（１７３０）をさらに含み、
前記後処理部は、
頭部関連伝達関数又はバイノーラルインパルス応答を使用して、前記出力オーディオチャネルを２つのバイノーラルオーディオチャネルへとレンダリングするバイノーラルレンダラーと、
再生レイアウトに関する情報を使用して、前記出力オーディオチャネルを前記ミキサー（１２２０）の出力オーディオチャネルよりも少数のオーディオチャネルを有する出力フォーマットへと変換するフォーマット変換部（１７２０）と、をさらに含む、
オーディオ復号器。
請求項９乃至１５のいずれか１項に記載のオーディオ復号器であって、
前記複数の符号化済みオーディオチャネル又は前記複数の符号化済みオーディオオブジェクトは、オーディオチャネルペア要素、単一のオーディオチャネル要素、低周波要素又はクワッドオーディオチャネル要素として符号化されており、１つのクワッドオーディオチャネル要素は４個のオリジナルオーディオチャネル又はオーディオオブジェクトを含み、
前記コア復号器（１３００）は、１つのオーディオチャネルペア要素、単一のオーディオチャネル要素、低周波要素又はクワッドオーディオチャネル要素を示す、前記符号化済みオーディオデータに含まれたサイド情報に従って、前記オーディオチャネルペア要素、単一のオーディオチャネル要素、低周波要素又はクワッドオーディオチャネル要素を復号化するよう構成されている、オーディオ復号器。
請求項９乃至１６のいずれか１項に記載のオーディオ復号器であって、
前記コア復号器（１３００）は、ノイズ充填操作を使用して、スペクトル帯域複製操作を使用せずに、全帯域復号化操作を適用するよう構成されている、オーディオ復号器。
請求項１５に記載のオーディオ復号器であって、
前記バイノーラルレンダラー（１７１０）、前記フォーマット変換部（１７２０）、前記ミキサー（１２２０）、前記空間オーディオオブジェクト符号化復号器（１８００）、前記コア復号器（１３００）、及び前記オブジェクトレンダラー（１２１０）を含む要素は、直交ミラーフィルタバンク（ＱＭＦ）ドメインで作動し、直交ミラーフィルタバンクドメインデータは、如何なる合成フィルタバンク及びそれに続く分析フィルタバンク処理を経ずに、前記要素の１つから他の１つへと伝送される、オーディオ復号器。
請求項９乃至１８のいずれか１項に記載のオーディオ復号器であって、
前記後処理部（１７００）は前記オブジェクト処理部（１２００）によって出力されたオーディオチャネルを、３つ以上のオーディオチャネルを有しかつ前記オブジェクト処理部（１２００）の出力オーディオチャネル（１２０５）の数より少ないオーディオチャネルを有するフォーマットへダウンミクスして、中間ダウンミクスを取得するよう構成され、
前記後処理部（１７００）は前記中間ダウンミクスのオーディオチャネルを２チャネルのバイノーラル出力信号へとバイノーラルレンダリングするよう構成されている、オーディオ復号器。
請求項９乃至１６のいずれか１項に記載のオーディオ復号器であって、
前記後処理部（１７００）は、
ダウンミックス行列を適用する制御されたダウンミキサー（１７２２）と、
前記オブジェクト処理部（１２００）の出力のチャネル構成に関する情報と所望の再生レイアウトに関する情報とを使用して特定のダウンミックス行列を決定する制御部（１７２４）と、を備える、
オーディオ復号器。
請求項９乃至２０のいずれか１項に記載のオーディオ復号器であって、
前記コア復号器（１３００）又は前記オブジェクト処理部（１２００）は制御可能であり、
前記後処理部（１７００）は、前記出力フォーマットに関する情報に従って前記コア復号器（１３００）又は前記オブジェクト処理部（１２００）を制御するよう構成され、
その制御は、
前記出力フォーマットの中で個別のオーディオチャネルとして発生しないオーディオオブジェクト又はオーディオチャネルのデコリレーション処理を負うようなレンダリングが低減又は省略されるように、行われるか、又は、
前記出力フォーマットの中で前記個別のオーディオチャネルとして発生しない前記オーディオオブジェクト又はオーディオチャネルに対する如何なるデコリレーション処理も活性化されていない場合を除き、前記出力フォーマットの中で前記個別のオーディオチャネルとして発生しないオーディオオブジェクト又はオーディオチャネルに対し、アップミックス又は復号化の操作が、あたかも前記オーディオオブジェクト又はオーディオチャネルが前記出力フォーマットの中で前記個別のオーディオチャネルとして発生するかのように実行されるように、行われる、オーディオ復号器。
請求項９乃至２１のいずれか１項に記載のオーディオ復号器であって、
前記コア復号器（１３００）は、単一オーディオチャネル要素に対して変換復号化とスペクトル帯域複製復号化とを実行するよう構成され、オーディオチャネルペア要素及びクワッドオーディオチャネル要素に対して変換復号化とパラメトリックステレオ復号化とスペクトル帯域複製復号化とを実行するよう構成されている、オーディオ復号器。
オーディオ入力データ（１０１）を符号化してオーディオ出力データ（５０１）を取得する方法であって、
複数のオーディオチャネルと、複数のオーディオオブジェクトと、前記複数のオーディオオブジェクトの１つ以上に関連するメタデータとを受信するステップ（１００）と、
前記複数のオーディオオブジェクトと前記複数のオーディオチャネルとをミキシングして、複数のプレミクス済みオーディオチャネルを取得するステップ（２００）であって、各プレミクス済みオーディオチャネルは１つのオーディオチャネルのオーディオデータと少なくとも１つのオーディオオブジェクトのオーディオデータとを含む、ステップ（２００）と、
コア符号化入力データをコア符号化するステップ（３００）と、
前記複数のオーディオオブジェクトの１つ以上に関連する前記メタデータを圧縮するステップ（４００）と、を備え、
前記符号化する方法は、前記コア符号化がコア符号化入力データとして受信された前記複数のオーディオチャネルと前記複数のオーディオオブジェクトとを符号化する第１モードと、前記コア符号化（３００）が前記コア符号化入力データとして前記複数のプレミクス済みオーディオチャネルを受信して前記複数のプレミクス済みオーディオチャネルをコア符号化する第２モードとを含む、少なくとも２つのモードからなる１グループの１つのモードにおいて作動する、方法。
符号化済みオーディオデータを復号化する方法であって、
前記符号化済みオーディオデータを受信するステップ（１１００）と、
前記符号化済みオーディオデータが複数の符号化済みオーディオチャネルと複数の符号化済みオーディオオブジェクトとを含むとき、前記複数の符号化済みオーディオチャネルと前記複数の符号化済みオーディオオブジェクトとをコア復号化して複数の復号化済みオーディオチャネルと複数の復号化済みオーディオオブジェクトとを取得し、前記符号化済みオーディオデータが符号化済みオーディオオブジェクトを含まないとき、前記複数の符号化済みオーディオチャネルをコア復号化して複数の復号化済みオーディオチャネルを取得するステップ（１３００）と、
前記符号化済みオーディオデータが前記複数の符号化済みオーディオオブジェクトに関連する圧縮済みメタデータを含むとき、前記圧縮済みメタデータを解凍して解凍済みメタデータを取得するステップ（１４００）と、
前記復号化済みオーディオオブジェクトを前記解凍済みメタデータを使用して処理し、前記復号化済みオーディオオブジェクト及び前記復号化済みオーディオチャネルからのオーディオデータを含む幾つかの出力オーディオチャネル（１２０５）を取得するステップ（１２００）と、
前記幾つかの出力オーディオチャネル（１２０５）を出力フォーマットへ変換するステップ（１７００）と、を備え、
前記符号化済みオーディオデータが符号化済みオーディオオブジェクトを含まないとき、前記複数の復号化済みオーディオオブジェクトを処理するステップ（１２００）が迂回され、かつ複数の復号化済みオーディオチャネルが前記変換するステップ（１７００）へと供給され、前記符号化済みオーディオデータが符号化済みオーディオチャネルと符号化済みオーディオオブジェクトとを含むとき、前記複数の復号化済みオーディオオブジェクトと前記複数の復号化済みオーディオチャネルとが前記復号化済みオーディオオブジェクトを処理するステップ（１２００）へと供給される、方法。
コンピュータ又はプロセッサ上で作動されたとき、請求項２３又は２４に記載の方法を実行するコンピュータプログラム。