JP5394931B2

JP5394931B2 - オブジェクトベースオーディオ信号の復号化方法及びその装置

Info

Publication number: JP5394931B2
Application number: JP2009538336A
Authority: JP
Inventors: ヨンユーン，スン; スクパン，ヒー; クークリー，ヒュン; スーキム，ドン; ヒュンリム，ジェ
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2006-11-24
Filing date: 2007-11-24
Publication date: 2014-01-22
Anticipated expiration: 2027-11-24
Also published as: KR20110002489A; MX2008012918A; EP2095364B1; RU2010140328A; BRPI0711094A2; JP2010511189A; RU2544789C2; CA2645911C; US20090210239A1; JP2010511190A; KR101055739B1; EP2095364A1; RU2010147691A; EP2095365A1; AU2007322487B2; WO2008063035A1; AU2007322488B2; MX2008012439A; CA2645863A1; ES2387692T3

Description

本発明は、オーディオ符号化及び復号化方法並びにその装置に関するもので、より詳細には、オブジェクトベースのオーディオ信号をグルーピングを通じて效率的に処理できるように符号化及び復号化できるオーディオ符号化及び復号化方法並びにその装置に関する。

一般に、オブジェクトベースのオーディオコーデック（object-based audio codec）は、各オブジェクト（object）信号から抽出した特定パラメータ及びオブジェクト信号の和を伝送し、これから再び各オブジェクト信号を復元した後、必要なチャネル数だけミキシングする方式を利用する。したがって、オブジェクト信号が多くなる場合、それぞれのオブジェクト信号をミキシングするのに必要な情報量もオブジェクト信号の数に比例して増加する。

ところで、互いに密接な相関性を持つオブジェクト信号の場合、各オブジェクト信号に対して類似なミキシング情報などを伝送することになるので、それらを一つのグループにまとめ、同一情報を一回のみ伝送することによって効率を高めることができる。

一般的な符号化及び復号化においても、多数のオブジェクト信号をまとめて一つのオブジェクト信号化することで類似な効果を奏することができるが、このような方法を使用する場合、オブジェクト信号の単位が大きくなる他、まとめる前の元のオブジェクト信号単位にミキシングすることも不可能である。

したがって、本発明の目的は、連関性を持つオブジェクトオーディオ信号を一つのグループにまとめてグループ別に処理し、これを用いて様々な再生モードの処理が可能なようにオーディオ信号を符号化及び復号化するオーディオ符号化及び復号化方法並びにその装置を提供することにある。

上記の目的を達成するための本発明によるオーディオ信号復号化方法は、少なくとも一つのミュージックオブジェクトがグルーピングされて符号化された第１オーディオ信号と、少なくとも二つのメインオブジェクトが段階的にグルーピングされて符号化された第２オーディオ信号と、前記第２オーディオ信号に対応するレジデュアル信号とを、オーディオ信号から抽出する段階と、前記第１及び第２オーディオ信号のうち少なくとも一つと、前記レジデュアル信号とを用いて第３オーディオ信号を生成する段階と、前記第３オーディオ信号を用いてマルチャネルオーディオ信号を生成する段階と、を含む。

一方、本発明によるオーディオ信号復号化装置は、少なくとも一つのミュージックオブジェクトがグルーピングされて符号化された第１オーディオ信号、少なくとも二つのメインオブジェクトが段階的にグルーピングされて符号化された第２オーディオ信号、及び前記第２オーディオ信号に対応するレジデュアル信号を、オーディオ信号から抽出し、前記第１及び第２オーディオ信号のうち少なくとも一つ及び前記レジデュアル信号を用いて第３オーディオ信号を生成するオブジェクトエンコーダと、前記第３オーディオ信号を用いてマルチャネルオーディオ信号を生成するマルチャネルデコーダと、を含む。

また、本発明によるオーディオ符号化方法は、少なくとも一つのミュージックオブジェクトがグルーピングされて符号化された第１オーディオ信号を生成する段階と、少なくとも二つのメインオブジェクトが段階的にグルーピングされて符号化された第２オーディオ信号と、前記第２オーディオ信号に対応するレジデュアル信号とを生成する段階と、前記第１及び第２オーディオ信号と前記レジデュアル信号を含むビットストリームを生成する段階と、を含む。

本発明によれば、少なくとも一つのミュージックオブジェクトがグルーピングされて符号化された第１オーディオ信号を生成するマルチャネルエンコーダと、少なくとも二つのメインオブジェクトが段階的にグルーピングされて符号化された第２オーディオ信号と、前記第２オーディオ信号に対応するレジデュアル信号とを生成するオブジェクトエンコーダと、前記第１及び第２オーディオ信号及び前記レジデュアル信号を含むビットストリームを生成するマルチプレクサと、を含むオーディオ復号化装置が提供される。

上記目的を達成するために、本発明では、上記方法をコンピュータで実行させるためのプログラムを記録したコンピュータにより読み取り可能な記録媒体を提供する。

本発明によれば、オブジェクトベースのオーディオ信号の符号化及び復号化の長所を活かしながら、連関性を持つオブジェクトオーディオ信号をグループ別にまとめて処理できる。これにより、符号化及び復号化過程で計算量及び符号化されるビットストリームの大きさなどにおいて効率を高めることができる。また、本発明は、ミュージックオブジェクトとボーカルオブジェクトなどにオブジェクト信号をグルーピングし、ソロモードやカラオケモードなどのような様々な再生モードの処理に有用に適用することができる。

本発明の第１実施例によるオーディオ符号化及び復号化装置のブロック図である。本発明の第２実施例によるオーディオ符号化及び復号化装置のブロック図である。音源、グループ、及びオブジェクト信号間の相関関係を示す図である。本発明の第３実施例によるオーディオ符号化及び復号化装置のブロック図である。メインオブジェクトとバックグラウンドオブジェクトを説明するための図である。メインオブジェクトとバックグラウンドオブジェクトを説明するための図である。符号化装置で生成するビットストリームの構成を説明するための図である。符号化装置で生成するビットストリームの構成を説明するための図である。本発明の第４実施例によるオーディオ符号化及び復号化装置のブロック図である。複数のメインオブジェクトを使用する場合を説明するための図である。本発明の第５実施例によるオーディオ符号化及び復号化装置のブロック図である。本発明の第６実施例によるオーディオ符号化及び復号化装置のブロック図である。本発明の第７実施例によるオーディオ符号化及び復号化装置のブロック図である。本発明の第８実施例によるオーディオ符号化及び復号化装置のブロック図である。本発明の第９実施例によるオーディオ符号化及び復号化装置のブロック図である。本発明の第１０実施例によるオーディオ符号化装置のブロック図である。

以下、添付の図面を参照しつつ、本発明についてより詳細に説明する。

図１は、本発明の第１実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ符号化及び復号化装置は、オブジェクトベース（object-based）のオーディオ信号に該当するオブジェクト信号をグルーピング（grouping）概念を適用して復号化及び符号化する。すなわち、連関性を持つ１個以上のオブジェクト信号を同じグループにまとめ、グループ単位に符号化及び復号化過程を行なう。

図１を参照すると、オブジェクトエンコーダ１１１を含むオーディオ符号化装置１１０と、オブジェクトデコーダ１２１及びミキサー／レンダラー（mixer/render）１２３を含むオーディオ復号化装置１２０が示されている。図示してはいないが、符号化装置１１０は、マルチプレクサ（multiplxer）などを含み、ダウンミックス信号及び付加情報を結合したビットストリームを生成し、復号化装置１２０は、デマルチプレクサ（demultiplexer）などを含み、受信したビットストリームからダウンミックス信号と付加情報を抽出することができる。このような構成は、下記する他の実施例による符号化及び復号化装置においても同様である。

符号化装置１１０は、Ｎ個のオブジェクト信号と、連関性を持つオブジェクト信号のグループ別の相対的な位置情報、大きさ情報、時間差情報などを含むグループ情報を受信する。符号化装置１１０は、連関性を持つオブジェクト信号をグルーピングした信号を符号化し、一つあるいはそれ以上のチャネルを持つオブジェクトベースのダウンミックス信号と、各オブジェクト信号から抽出した情報などが含まれる付加情報（side information）を生成する。

復号化装置１２０で、オブジェクトデコーダ１２１は、ダウンミックス信号と付加情報に基づいて、グルーピングに基づく符号化を行った信号を生成し、ミキサー／レンダラー１２３は、オブジェクトデコーダ１２１から出力される信号を、制御情報によってマルチチャネル空間上の特定位置に特定レベルで配置する。すなわち、復号化装置１２０は、グルーピングに基づく符号化を行った信号をオブジェクト単位に再び分解せずに、マルチチャネル信号を生成する。

このような構成により、時間による位置変化、大きさ変化、及び遅延変化などが類似しているオブジェクト信号をグルーピングして符号化することによって、伝送する情報量を減らすことができる。また、オブジェクト信号をグルーピングする場合、一つのグループに対して共通した付加情報を伝送できるので、同一グループに属した多数のオブジェクト信号に対する制御が簡単化する。

図２は、本発明の第２実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ信号復号化装置１４０は、オブジェクト抽出部１４３をさらに含む点が第１実施例と異なる。

すなわち、符号化装置１３０、オブジェクトデコーダ１４１、ミキサー／レンダラー１４５の機能及び構成は第１実施例で説明した通りである。ただし、復号化装置１４０がオブジェクト抽出部１４３をさらに含み、オブジェクト単位の分解が必要とされる場合、該当のオブジェクト信号の属するグループをオブジェクト単位に分解することができる。この場合、全てのグループに対してオブジェクト単位に分解を行なうのではなく、グループ単位にミキシングなどが不可能なグループに対してのみオブジェクト信号を抽出することができる。

図３は、音源、グループ（group）、及びオブジェクト信号間の相関関係を示す図である。図３に示すように、オブジェクト信号のグルーピングは、ビットストリームの大きさを減らすことができるように類似な性質を持つオブジェクト信号をまとめてなり、全てのオブジェクト信号は上位グループに属することとなる。

図４は、本発明の第３実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ符号化及び復号化装置では、コアダウンミックスチャネル（core downmix channel）の概念を用いる。

図４を参照すると、オーディオ符号化装置に属するオブジェクトエンコーダ１５１と、オブジェクトデコーダ１６１及びミキサー／レンダラー（mixer/render）１６３とを含むオーディオ復号化装置１６０が示されている。

オブジェクトエンコーダ１５１は、Ｎ（Ｎ＞１）個のオブジェクト信号を受信し、Ｍ個（１＜Ｍ＜Ｎ）のチャネルにダウンミックスした信号を生成する。復号化装置１６０において、オブジェクトデコーダ１６１は、Ｍ個のチャネルにダウンミックスした信号を再びＮ個のオブジェクト信号に復号化し、最終的にはミキサー／レンダラー（Mixer/Render）１６３はＬ（Ｌ≧１）個のチャネル信号を出力する。

この時、オブジェクトエンコーダ１５１が生成するＭ個のダウンミックスチャネル（downmix channel）は、Ｋ（Ｋ＜Ｍ）個のコアダウンミックスチャネル（core downmix channel）と（Ｍ−Ｋ）個のノンコアダウンミックスチャネル（non-core downmix channel）とで構成される。このようにダウンミックスチャネルを構成する理由は、オブジェクト信号によってその重要度を変えることができるためである。すなわち、一般的な符号化及び復号化方法では、オブジェクト信号に対する分解能が充分でないから、各オブジェクト信号別に他のオブジェクト信号の成分も含むことがある。したがって、このようにコアダウンミックスチャネルとノンコアダウンミックスチャネルとにダウンミックスチャネルを別に構成し、オブジェクト信号間の干渉を最小化することができる。

この場合、コアダウンミックスチャネルは、その処理方法においてノンコアダウンミックスチャネルと異なる処理方法を使用することができる。例えば、図４で、ミキサー／レンダラー１６３に入力される付加情報（side information）をコアダウンミックスチャネルにのみ定義することができる。すなわち、ミキサー／レンダラー１６３でノンコアダウンミックスチャネルから復号化されるオブジェクト信号は制御されず、コアダウンミックスチャネルから復号化されるオブジェクト信号のみ制御されうるように構成する。

他の例として、コアダウンミックスチャネルの場合、少ない数のオブジェクト信号でのみ構成し、これらオブジェクト信号に対して前述したグルーピング（grouping）を適用し、一つの制御情報で制御することができる。例えば、ボーカル（vocal）信号だけで別のコアダウンミックスチャネルを構成し、カラオケシステム（karaoke system）を構成することができる。また、ドラム（drum）などの信号のみをまとめて別のコアダウンミックスチャネルを構成し、ドラム信号などのような低周波信号の強度を精密に制御することができる。

一方、ミュージック（music）は、一般的にトラックなどの形態を有する様々なオーディオ信号をミキシングして生成する。例えば、ドラム、ギター、ピアノ、ボーカル（vocal）信号から構成されるミュージックの場合、ドラム、ギター、ピアノ、ボーカル信号をそれぞれオブジェクト信号とすることができる。この場合、特に重要なものと判断され、ユーザにより制御可能な全体オブジェクト信号の一つ、あるいは一つのオブジェクト信号のようにミキシングされて制御される複数のオブジェクト信号がをメインオブジェクト（main object）と定義することができる。また、全体オブジェクト信号のうち、メインオブジェクト以外のオブジェクト信号がミキシングされたものをバックグラウンドオブジェクト（background object）と定義することができる。このような定義によって、全体オブジェクトあるいはミュージックオブジェクトはメインオブジェクトとバックグラウンドオブジェクトとからなっているといえる。

図５及び図６は、メインオブジェクトとバックグラウンドオブジェクトを説明するための図である。図５の（ａ）に示すように、メインオブジェクトをボーカルサウンドとし、バックグラウンドオブジェクトをボーカルサウンド以外の全ての楽器音がミキシングされたものとする時、ミュージックオブジェクトを、ボーカルオブジェクトと、その他楽器音のミキシングされたバックグラウンドオブジェクトとから構成することができる。メインオブジェクトは、図５の（ｂ）に示すように、一つ以上が含まれても良い。

また、メインオブジェクトは複数のオブジェクト信号がミキシングされた形態であっても良い。例えば、図６に示すように、ボーカルとギター（guitar）サウンドとをミキシングしたものをメインオブジェクトとし、その他の楽器をバックグラウンドオブジェクトとすることができる。

ミュージックオブジェクトでメインオブジェクトとバックグラウンドオブジェクトを別に制御するためには、符号化装置で符号化されたビットストリームが、下記の図７に示す形態のうちいずれか一つの形態を持たなければならない。

図７の（ａ）は、符号化装置で生成したビットストリームがミュージックビットストリームとメインオブジェクトビットストリームとで構成されたケースを示す。ミュージックビットストリームは全てのオブジェクト信号がミキシングされた形態で、メインオブジェクトとバックグラウンドオブジェクトとを結合したものに対応するビットストリームを意味する。図７の（ｂ）は、ビットストリームがミュージックビットストリームとバックグラウンドオブジェクトビットストリームとで構成されたケースを示し、図７の（ｃ）は、ビットストリームがメインオブジェクトビットストリームとバックグラウンドオブジェクトビットストリームとから構成されたケースを示す。

図７で、ミュージックビットストリーム、メインオブジェクトビットストリーム、バックグラウンドオブジェクトビットストリームはそれぞれ同じ方式の符号化器と復号化器を用いて生成することを原則とする。しかし、メインオブジェクトをボーカルオブジェクトとする場合、ミュージックビットストリームはＭＰ３を用いて復号化及び符号化し、ボーカルオブジェクトビットストリームは、ＡＭＲ、ＱＣＥＬＰ、ＥＦＲ、ＥＶＲＣなどの音声コーデックを用いてビットストリームの容量を減らしながら符号化及び復号化することができる。すなわち、ミュージックオブジェクトとメインオブジェクト、あるいはメインオブジェクトとバックグラウンドオブジェクトなどの符号化及び復号化方法を異ならしめることができる。

図７の（ａ）の場合、ミュージックビットストリーム部分は一般的な符号化方法と同一にして構成する。そして、ＭＰ３やＡＡＣなどの符号化方法は、ビットストリーム後半部にａｎｃｉｌｌａｒｙ領域あるいはａｕｘｉｌｉａｒｙ領域などの付加情報を表示する部分を持つが、この部分にメインオブジェクトビットストリームを追加することができる。したがって、全体ビットストリームは、ミュージックオブジェクトが符号化された領域と、後続するメインオブジェクト領域とで構成される。この時、付加領域の先頭部に、メインオブジェクトが追加されたということを表す指示子（indicator）やフラグ（flag）などを追加し、復号化装置でメインオブジェクトが存在するか否かを判別できるようにする。

図７の（ｂ）の場合は（ａ）と基本的に同じ構成を有するが、上記の説明において、メインオブジェクトがバックグラウンドオブジェクトに代わる。

図７の（ｃ）の場合は、ビットストリームがメインオブジェクトとバックグラウンドオブジェクトビットストリームとで構成されたケースを示す。この場合、ミュージックオブジェクトは、メインオブジェクトとバックグラウンドオブジェクトとの和あるいはミキシングされたものからなる。このビットストリームの構成方法においては、バックグラウンドオブジェクトをまず格納し、補助領域にメインオブジェクトを格納することができる。あるいは、メインオブジェクトをまず格納し、補助領域にメインオブジェクトを格納しても良い。このような場合、前述した通り、付加領域の先頭部に付加領域の情報を知らせるために指示子を追加する。

図８は、メインオブジェクトが追加されたことを判別できるようにビットストリームを構成する方法を示す。第一の例は、ミュージックビットストリームが終わると、次のフレーム（frame）が始まるまで補助領域であることをあらかじめ定義するものであり、メインオブジェクトが符号化されたということを表示する指示子のみあれば足りる。

第二の例は、ミュージックビットストリームが終わった後、補助領域あるいはデータ領域が始まるという指示子を必要とする符号化方法であるが、これにより、メインオブジェクトを符号化するに当たり、補助領域開始を表す指示子やメインオブジェクトであるということを表示する指示子のような２つの指示子が要る。このようなビットストリームを復号化する際には、まず指示子を読んでデータの種類を判別し、以降、データ部分を読んで復号化を行なうようになる。

図９は、本発明の第４実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ符号化及び復号化装置は、ボーカルオブジェクトがメインオブジェクトとして追加されたビットストリームを符号化及び復号化する。

図９を参照すると、符号化装置に含まれるエンコーダ２１１は、ボーカルオブジェクトとミュージックオブジェクトを含む音楽信号を符号化する。エンコーダ２１１の例としてはＭＰ３、ＡＡＣ、ＷＭＡなどが挙げられる。エンコーダ２１１は、音楽信号の他にボーカルオブジェクトをメインオブジェクトとしてビットストリームに追加する。この時、エンコーダ２１１は、前述したように、ancillary領域やauxiliary領域などの付加情報を表示する部分にボーカルオブジェクトを追加し、ボーカルオブジェクトがさらに存在するということを符号化装置に知らせるための指示子等も追加する。

復号化装置２２０は、一般コーデックデコーダ２２１、ボーカルデコーダ２２３及びミキシング部２２５を含む。一般コーデックデコーダ２２１は、受信したビットストリームのうち、ミュージックビットストリーム部分を復号化する。この場合、メインオブジェクト領域は、単に付加領域あるいはデータ領域として認識され、復号化過程で使用されない。ボーカルデコーダ２２３は、受信したビットストリームのうち、ボーカルオブジェクト部分を復号化する。ミキシング部２２５は、一般コーデックデコーダ２２１とボーカルデコーダ２２３で復号化した信号をミキシングして出力する。

ボーカルオブジェクトがメインオブジェクトとして含まれたビットストリームを受信した場合、ボーカルデコーダ２２３を有しない符号化装置では、ミュージックビットストリームのみ復号化して出力するが、この場合にもミュージックストリーム内にボーカル信号が含まれるので一般的なオーディオ出力と同一である。また、復号化過程で、ビットストリーム中の指示子などを用いてボーカルオブジェクトが追加されているか否かを判断し、ボーカルオブジェクトの復号化が不可能な場合には、ボーカルオブジェクトをスキップ（skip）などを通じて無視し、復号化が可能な場合には復号化してミキシングに使用する。

一般コーデックデコーダ２２１は音楽再生のためのものであるから、一般的に多く使用されているオーディオ復号化を用いる。その例には、ＭＰ３、ＡＡＣ、ＨＥ−ＡＡＣ、ＷＭＡ、ＯｇｇＶｏｒｂｉｓなどがある。ボーカルデコーダ２２３は、一般コーデックデコーダ２２１と同じコーデックを使用したりあるいは異なるコーデックを使用することができる。例えば、ボーカルデコーダ２２３ではＥＶＲＣ、ＥＦＲ、ＡＭＲ、ＱＣＥＬＰなどの音声コーデックを使用することができ、この場合は、復号化のための演算量を減らすことができる。

また、ボーカルオブジェクトをモノ（mono）で構成した場合にビットレートを最も減らすことができるが、もしミュージックビットストリームがステレオチャネルで構成されており、左右チャネルでボーカル信号が異なるためにモノのみでは構成できない場合には、ボーカルオブジェクトもステレオで構成することができる。

本実施例による復号化装置２２０では、再生機器におけるボタンやメニュー操作などのようなユーザ制御命令によって、音楽のみ再生するモード、メインオブジェクトのみ再生するモード、及びミュージックとメインオブジェクトとを適切にミキシングして再生するモードのうちいずれか一つを選択して再生できる。

メインオブジェクトを無視して元の音楽のみを再生する場合は、既存の音楽再生のケースに該当する。ただし、ユーザ制御命令などによってミキシング可能なため、メインオブジェクトあるいはバックグラウンドオブジェクトの大きさなどを調節することができる。メインオブジェクトがボーカルオブジェクトである場合には、バックグラウンドミュージックに比べてボーカルのみを大きくしたり小さくすることができるということを意味する。

メインオブジェクトのみ再生する場合の例には、メインオブジェクトとしてボーカルオブジェクトや特別な一つの楽器を使用することが挙げられる。すなわち、バックグラウンドミュージック無しでボーカルのみを聞いたり、バックグラウンドミュージック無しで特定楽器音のみを聞く場合などを意味する。

音楽とメインオブジェクトを適切にミキシングして聞く場合とは、バックグラウンドミュージックに比べてボーカルのみ大きくしたり小さくすることを意味する。特に、ミュージックからボーカル成分を完全に除外する場合には、ボーカル成分が消え、カラオケ（karaoke）システムとして使用することができる。もし符号化装置でボーカルオブジェクトの位相（phase）をあらかじめ逆にして符号化した場合なら、復号化装置でミュージックオブジェクトにボーカルオブジェクトを加えることによってカラオケシステムを再生できる。

以上の過程では、ミュージックオブジェクトとメインオブジェクトをそれぞれ復号化した後にミキシングする例に挙げて説明したが、そのミキシング過程を復号化過程中に行っても良い。例えば、ＭＰ３、ＡＡＣなどＭＤＣＴ（修正離散コサイン変換）のような変換符号化（transform coding）系列ではミキシングをＭＤＣＴ係数に対して行ない、最終的に逆ＭＤＣＴ（inverse MDCT）を行なってＰＣＭ出力をすればいい。これにより、全体演算量を大幅に減らすことができる。また、ＭＤＣＴに限定されず、一般的な変換符号化系列の復号化器に対してその変換ドメインで係数をミキシングし復号化を行なういずれの種類をも含む。

そして、上記の例では、一つのメインオブジェクトを使用する場合として説明したが、複数のメインオブジェクトを使用しても良い。例えば、図１０に示すように、ボーカルをメインオブジェクト１、ギター（guitar）をメインオブジェクト２とすることができる。このような構成は、音楽からボーカルとギター以外のバックグラウンドオブジェクトのみを再生し、ボーカルとギターはユーザが直接演奏練習をする状況で非常に有用である。また、このビットストリームに対して、ミュージック、ミュージックからボーカルを除外したもの、ミュージックからギターを除外したもの、ミュージックからボーカルとギターを除外したもの等、様々な組合せとして再生可能である。

一方、本発明でボーカルビットストリームと表示されるチャネルは拡張可能である。例えば、ドラムビットストリーム（drum bitstream）を用いて、音楽の全体部分、音楽のドラムサウンド部分、音楽の全体部分からドラムサウンドのみを除外した部分の場合を再生することが可能である。また、ボーカルビットストリームとドラムビットストリームなど２個以上の追加ビットストリームを用いて、各部分別にミキシングを制御することが可能である。

そして、本実施例ではステレオ／モノ（stereo/mono）に挙げて説明したが、マルチチャネル（multi-channel）の場合にも拡張可能である。例えば、５．１チャネルビットストリームにボーカルオブジェクトやメインオブジェクトビットストリームなどを追加してビットストリームを構成し、再生時には元の音、ボーカルを除外した音、ボーカルのみある音のうちいずれか一つを再生することが可能である。

ミュージックと、ミュージックからボーカルを除外したもののみを支援し、ボーカル（メインオブジェクト）のみ再生するモードは支援しないように構成しても良い。これを、歌手がボーカルのみ再生されるのを希望しない場合に使用することができる。これを拡張し、ボーカルのみ支援する機能があるか否かを表示する識別子をビットストリームに含ませ、これを用いて再生範囲を決定する復号化器の構成が可能である。

図１１は、本発明の第５実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ符号化及び復号化装置ではレジデュアル信号を用いてカラオケシステムの具現が可能である。カラオケシステムに特化した時、前述したように、ミュージックオブジェクトをバックグラウンドオブジェクトとメインオブジェクトとに分けることができる。メインオブジェクトは、バックグラウンドオブジェクトと別に制御するためのオブジェクト信号を意味し、特にボーカルオブジェクト信号を指すことができる。バックグラウンドオブジェクトは、メインオブジェクト以外の全てのオブジェクト信号の和を意味する。

図１１を参照すると、符号化装置に含まれるエンコーダ２５１は、バックグラウンドオブジェクトとメインオブジェクトとが合わせられた状態で符号化する。符号化時に、ＡＡＣ、ＭＰ３等一般的なオーディオコーデックを使用することができる。この信号が復号化装置２６０で復号化されると、この復号化された信号はバックグラウンドオブジェクト信号とメインオブジェクト信号を両方とも含むようになる。この復号化された信号が元の復号信号であると仮定すると、この信号に対してカラオケシステムを適用するためには下記のような方法を使用することができる。

メインオブジェクトをレジデュアル（residual）信号の形態で全体ビットストリームに含み、これを復号化した後、元の復号信号から除外させる。この場合、第１デコーダ２６１は全体信号を復号化し、第２デコーダ２６３はレジデュアル信号を復号化し、g＝１に該当する。あるいは、メインオブジェクト信号に逆位相を与え、レジデュアル信号の形態で全体ビットストリームに含み、これを復号化した後、原本復号信号に加える。この場合は、g＝−１である。それぞれの場合に対してｇ値を調整すると、一種のスケーラブル（scalable）カラオケシステムが可能である。

例えば、ｇ＝−０．５あるいはｇ＝０．５とする場合、メインオブジェクトあるいはボーカルオブジェクトを完全に除去せずにレベル（level）調整のみすることになる。また、ｇを正の数またはｇを負の数にすると、ボーカルオブジェクトの大きさを調節する効果がある。もし元の復号信号を使用せずにレジデュアル信号のみを出力し、ボーカルのみ出力されるソロモードを支援することも可能である。

図１２は、本発明の第６実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ符号化及び復号化装置は、カラオケ信号出力及びボーカルモード出力のためのレジデュアル信号をそれぞれ異ならしめ、２個のレジデュアル信号を使用する。

図１２を参照すると、第１デコーダ２９１で復号化された元の復号信号は、オブジェクト分離部２９５でバックグラウンドオブジェクト信号とメインオブジェクト信号とに分けて出力される。実際にはバックグラウンドオブジェクトは、元のバックグラウンドオブジェクトに加えて若干のメインオブジェクト成分を含み、メインオブジェクトも元のメインオブジェクトに加えて若干のバックグラウンドオブジェクト成分を含むようになる。これは、元の復号信号からバックグラウンドオブジェクトとメインオブジェクト信号とを分ける過程が完壁でないからである。

特に、バックグラウンドオブジェクトに対して、バックグラウンドオブジェクト内に含まれたメインオブジェクト成分をあらかじめレジデュアル信号の形態で全体ビットストリームに含ませ、これを復号した後、バックグラウンドオブジェクトから除外することができる。この場合は、図１２でｇ＝１に該当する。あるいは、バックグラウンドオブジェクト内に含まれたメインオブジェクト成分に対して逆位相を与え、あらかじめレジデュアル信号の形態で全体ビットストリームに含ませ、これを復号した後、バックグラウンドオブジェクト信号に加えても良い。この場合は、図１２でｇ＝−１に該当する。それぞれの場合に対してｇ値を調節すると、第５実施例で説明した通り、スケーラブル（scalable）カラオケシステムが可能となる。

同様の方法でレジデュアル（residual）信号をメインオブジェクト信号に適用し、ｇ１値を調整してソロモードを支援することができる。ｇ１値はレジデュアル信号と元のオブジェクトの位相比較及びボーカルモード度合を考慮し、上述と同様に適用することができる。

図１３は、本発明の第７実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例では、前述した実施例でレジデュアル信号のビットレートをより減らすために下記のような方法を用いる。

メインオブジェクト信号がモノである時は、第１デコーダ３０１で復号化された元のステレオ（stereo）信号に対しステレオ−３チャネル（Stereo-to-Three channel）変換部３０５はステレオ−３チャネル変換を行なう。このステレオ−３チャネル変換は完壁でないため、その出力であるバックグラウンドオブジェクトは、バックグラウンドオブジェクト成分に加えて若干のメインオブジェクト成分を含み、他の出力であるメインオブジェクトもメインオブジェクト成分に加えて若干のバックグラウンドオブジェクト成分を含む。

続いて、全体ビットストリームのうちレジデュアル部分を第２デコーダ３０３で復号化（あるいは、デコーディング後にｑｍｆ変換あるいはｍｄｃｔ−ｔｏ−ｑｍｆ変換）を行ない、バックグラウンドオブジェクト信号及びメインオブジェクト信号に重み付け（weighting）をして合算すると、バックグラウンドオブジェクト成分とメインオブジェクト成分で構成された信号がそれぞれ得られる。

このような方法の長所は、ステレオ−３チャネル変換を通じてバックグラウンドオブジェクト信号とメインオブジェクト信号を一度区分したため、その信号中に含まれている他の成分、すなわち、バックグラウンドオブジェクト信号中に残っているメインオブジェクト成分とメインオブジェクト信号中に残っているバックグラウンドオブジェクト成分を除去するためのレジデュアル信号を、少ないビットレートを用いて構成できるという点である。

図１３を参照すると、バックグラウンドオブジェクト信号（ＢＳ）中のバックグラウンドオブジェクト成分をＢ、メインオブジェクト成分をｍとし、メインオブジェクト信号（ＭＳ）中のメインオブジェクト成分をＭ、バックグラウンドオブジェクト成分をｂとすれば、下記の式が成り立つ。

例えば、レジデュアル信号（Ｒ）をｂ−ｍで構成すると、最終カラオケ出力（ＫＯ）はｇ＝−１とし

となり、最終ソロモード出力（ＳＯ）はｇ１＝１とし

となる。レジデュアル信号の符号を上の式で変えることができる。すなわち、Ｒ＝ｍ−ｂ、ｇ＝−１及びｇ１＝１のようにすることができる。

ＢＳとＭＳの構成時に、ＫＯとＳＯの最終値がＢとｂ、Ｍとｍで構成するためのｇとｇ１の値を、Ｂ、ｍ、Ｍ、ｂの符号をどのように構成するかによって容易に計算することができる。上の場合に対してカラオケとソロとも元の信号から少し変わるが、カラオケ出力はソロ成分を含まないし、ソロ出力もカラオケ成分を含まないので、実際に使用可能な高音質信号出力が可能である。

そして、２つ以上のメインオブジェクトが存在する場合、２−３チャネル（Two-to-Three channel）変換及びレジデュアル信号加減が段階的に用いられることができる。

図１４は、本発明の第８実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ信号復号化装置３３０は、メインオブジェクト信号がステレオ信号である場合、元のステレオのそれぞれのチャネルに対してモノ−ステレオ（Mono-to-Stereo）変換を２回行なうという点で第７実施例と異なる。

このモノ−ステレオ変換も完壁でないゆえに、その出力であるバックグラウンドオブジェクト信号は、バックグラウンドオブジェクト成分に加えて若干のメインオブジェクト成分を含み、他の出力であるメインオブジェクト信号もメインオブジェクト成分に加えて若干のバックグラウンドオブジェクト成分を含む。したがって、全体ビットストリームのうちレジデュアル部分をデコーディング（あるいは、デコーディング後にｑｍｆ変換あるいはｍｄｃｔ−ｔｏ−ｑｍｆ変換）を行ない、その左右チャネル成分をバックグラウンドオブジェクト信号及びメインオブジェクト信号のそれぞれの左右チャネルに重み付けをして合算すると、バックグラウンドオブジェクト成分（ステレオ）とメインオブジェクト成分（ステレオ）で構成された信号をそれぞれ得ることができる。

ステレオバックグラウンドオブジェクトとステレオメインオブジェクトの左右成分の差を用いてステレオレジデュアル信号を生成する場合、図１４で、ｇ＝ｇ２＝−１、ｇ１＝ｇ３＝１にすることができる。また、前述したように、バックグラウンドオブジェクト信号、メインオブジェクト信号、レジデュアル信号の符号によってｇ、ｇ１、ｇ２、ｇ３の値を容易に計算することができる

一般的にメインオブジェクト信号はモノでもステレオでもあり得る。したがって、全体ビットストリーム中にメインオブジェクト信号がモノかステレオかを表すフラグ（ｆｌａｇ）を含ませ、このフラグを読むことによって、モノの時には図１３の第７実施例で説明した方法を用いて復号し、ステレオの時には図１４の第８実施例で説明した方法を用いて復号化すれば良い。

また、一つ以上のメインオブジェクトを含む場合には、それぞれのメインオブジェクトがモノかステレオかによって前述の方法を連続して使用する。この時、各方法の使用回数は、モノ／ステレオメインオブジェクトの数と同一である。例えば、メインオブジェクトが３であり、このうち、モノメインオブジェクトが２であり、ステレオメインオブジェクトが１である場合、第７実施例で説明した方法を２回使用し、図１４の第８実施例で説明した方法を１回使用することで、カラオケ信号を出力する。この時、第７実施例で説明した方法と第８実施例で説明した方法の使用順序をあらかじめ決定しておくことができる。例えば、モノメインオブジェクトに対して第７実施例で説明した方法を常にまず使用し、その後、ステレオメインオブジェクトに対して第８実施例で説明した方法を適用することが可能である。他の使用順序決定方法としては、全体ビットストリーム中に、第７実施例で説明した方法と第８実施例で説明した方法の適用順序を記述する記述子（descriptor）を含ませ、これによって選択的に適用することも可能である。

図１５は、本発明の第９実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ符号化及び復号化装置は、ミュージックオブジェクトあるいはバックグラウンドオブジェクトをマルチチャネルエンコーダを用いて生成する。

図１５を参照すると、マルチチャネルエンコーダ３５１、オブジェクトエンコーダ３５３、及びマルチプレクサ３５５を含むオーディオ符号化装置３５０と、デマルチプレクサ３６１、オブジェクトデコーダ３６３、及びマルチチャネルデコーダ３６９を含むオーディオ復号化装置３６０とが示されている。オブジェクトデコーダ３６３は、チャネルコンバータ３６５とミキサー３６７を含むことができる。

マルチチャネルエンコーダ３５１は、ミュージックオブジェクトをチャネルベースにダウンミックスした信号を生成し、ミュージックオブジェクトに関する情報を抽出してチャネルベースの第１オーディオパラメータ情報を生成する。オブジェクトエンコーダ３５３は、ボーカルオブジェクトとマルチチャネルエンコーダ３５１でダウンミックスした信号を、オブジェクトベースに符号化したダウンミックス信号、オブジェクトベースの第２オーディオパラメータ情報、そしてボーカルオブジェクトに対応するレジデュアル信号として生成する。マルチプレクサ３５５は、オブジェクトエンコーダ３５３で生成したダウンミックス信号と付加情報とを結合したビットストリームを生成する。この時、付加情報は、マルチチャネルエンコーダ３５１で生成した第１オーディオパラメータ、オブジェクトエンコーダ３５３で生成したレジデュアル信号及び第２オーディオパラメータなどを含む情報である。

オーディオ復号化装置３６０で、デマルチプレクサ３６１は、受信したビットストリームからダウンミックス信号と付加情報とを分離し、オブジェクトデコーダ３６３は、ミュージックオブジェクトがチャネルベースに符号化されたオーディオ信号と、ボーカルオブジェクトが符号化されたオーディオ信号とのうち少なくとも一つを用いて、ボーカル成分が調整されたオーディオ信号を生成する。オブジェクトデコーダ３６３はチャネルコンバータ３６５を含み、復号化過程でモノ−ステレオ変換、あるいは２−３（Two-to-Three）変換を行なうことができ、ミキサー３６７は、制御情報に含まれるミキシングパラメータなどを用いて特定オブジェクト信号のレベルや位置などを調節することができる。マルチチャネルデコーダ３６９は、オブジェクトデコーダ３６３で復号化されたオーディオ信号と付加情報などを用いてマルチチャネル信号を生成する。

オブジェクトデコーダ３６３は、入力される制御情報によって、ボーカル成分のないオーディオ信号を生成するカラオケモード、ボーカル成分のみを含むオーディオ信号を生成するソロモード、またはボーカル成分の含まれるオーディオ信号を生成する一般モードのうちのいずれかに対応するオーディオ信号を生成することができる。

図１６は、ボーカルオブジェクトが段階的に符号化される場合を説明するための図である。図１６を参照すると、本実施例による符号化装置３８０は、マルチチャネルエンコーダ３８１、第１乃至第３オブジェクトデコーダ３８３，３８５，３８７、及びマルチプレクサ３８９を含む。

マルチチャネルエンコーダ３８１の構成及び機能は、図１５で説明した通りであるが、本実施例では、第１乃至第３オブジェクトエンコーダ３８３，３８５，３８７がボーカルオブジェクトを段階的にグルーピングし、各グルーピング段階で生成したレジデュアル信号が、マルチプレクサ３８９で生成されるビットストリームに含まれるように構成されるという点が異なる。

このような過程により生成したビットストリームを復号化する場合、ビットストリームから抽出したレジデュアル信号を、ミュージックオブジェクトがグルーピングされて符号化されたオーディオ信号あるいはボーカルオブジェクトがグルーピングされて符号化されたオーディオ信号に段階的に適用し、ボーカル成分やその他所望のオブジェクト成分を調節した信号を生成することができる。

一方、上記の実施例で、元の復号信号とレジデュアル信号との和あるいは差、バックグラウンドオブジェクト信号あるいはメインオブジェクト信号とレジデュアル信号との和あるいは差が行なわれる所は特定ドメインに限定されない。例えば、この過程は、時間ドメイン（time domain）で行なわれても良く、ＭＤＣＴドメインのような一種の周波数ドメインで行なわれても良い。また、ＱＭＦサブバンドドメインやハイブリッド（hybrid）サブバンドドメインのようなサブバンドドメイン（subband domain）で行なわれても良い。特に周波数ドメインやサブバンドドメインで行なわれる場合は、レジデュアル成分を除くバンド（band）数を調節することによってスケーラブルカラオケ信号を生成することができる。例えば、元の復号信号のサブバンドの数が２０個の場合、レジデュアル信号のバンド数を２０とすれば完全なカラオケ信号を出力するようになり、低周波１０個のみカバーすれば低周波部分のみからボーカル成分がなくなり、高周波部分では残っている形態となる。後者の場合、音質は前者に比べて落ちるが、ビットレートを下げることができるという長所がある。

また、メインオブジェクトが一つでない場合には、複数個のレジデュアル信号を全体ビットストリームに含ませ、レジデュアル信号の和あるいは差を複数回行なうことができる。例えば、ボーカルとギターを２個のメインオブジェクトとし、これらのレジデュアル信号を全体ビットストリームに含める場合、全体信号に対してボーカル信号をまず除去し、続いてギター信号を除去する形態で両信号を除去したカラオケ信号を生成することができる。この場合、さらにはボーカルのみ除去されたカラオケ信号、ギターのみ除去されたカラオケ信号も生成可能である。なお、ボーカル信号のみ出力したりあるいはギター信号のみを出力することも可能である。

また、根本的に全体信号からボーカル信号のみを除去してカラオケ信号を生成するために、全体信号とボーカル信号はそれぞれ符号化されるが、符号化に用いられるコーデックの種類によって次の２つの区分が必要である。第一に、全体信号とボーカル信号に対して符号化コーデックは常に同一なものを使用する。この場合、全体信号及びボーカル信号に対して符号化コーデック（codec）の種類を判別できるような識別子をそれぞれのビットストリーム中に含めなければならなく、復号化器ではこの識別子を判断してコーデックの種類を識別し復号した後にボーカル成分を除去する過程を行なう。この過程で、上述したように和または差が用いられる。この識別子の情報としては、レジデュアル信号は元の復号信号と同一のコーデック（codec）を使用したか否か、レジデュアル信号の符号化時に使用したコーデック種類などが挙げられる。

また、全体信号とボーカル信号の符号化コーデックを異なるものとしても良い。例えば、ボーカル信号（すなわち、residual信号）は常に固定したコーデックを使用する。この場合、レジデュアル信号に対する識別子は不要であり、あらかじめ定められたコーデックのみを用いて復号化すればよい。ただし、この場合、全体信号からレジデュアル信号を除去する過程は、時間ドメイン（time domain）あるいはサブバンドドメイン（subband domain）のように両信号間のプロセシングが直ちにできるドメインに制限される。例えば、ｍｄｃｔのようなドメインでは一般的に両信号間のプロセシングが直ちに行なわれない。

そして、本発明を用いて、バックグラウンドオブジェクト信号のみで構成されたカラオケ信号を出力することができる。この信号に対して追加的なアップミックスプロセス（Upmix process）を行なって多チャネル信号を生成することができる。例えば、本発明により生成されたカラオケ信号にＭＰＥＧサラウンドをさらに適用すると、５．１チャネルカラオケ信号の生成が可能である。

また、上記の実施例では、ミュージックオブジェクトとメインオブジェクト、あるいはバックグラウンドオブジェクトとメインオブジェクトに対してフレーム中に同一数が存在する例に挙げて説明したが、異なる数にしても良い。例えば、ミュージックは毎フレーム存在し、メインオブジェクトは２フレームごとに存在することも可能である。この時は、メインオブジェクトを復号化してこれを２フレームに対して適用すればよい。

ミュージックとメインオブジェクトはそれぞれ異なるサンプリング周波数を持つことができる。例えば、ミュージックのサンプリング周波数が４４．１ｋＨｚで、メインオブジェクトのサンプリング周波数が２２．０５ｋＨｚであれば、メインオブジェクトのＭＤＣＴ係数を計算した後、ミュージックのＭＤＣＴ係数のうち、該当の領域に対してのみミキシングを行なうことができる。これは、カラオケシステムに対してボーカルが楽器音よりも周波数帯域が低いことに着目したもので、データ容量を減らしうるという長所がある。

そして、本発明は、プロセッサが読み取り可能な記録媒体にプロセッサが読み取り可能なコードとして具現可能である。プロセッサが読み取り可能な記録媒体は、プロセッサにより読み取り可能なデータが記憶される記録装置のいずれをも含む。プロセッサにより読み取り可能な記録媒体の例には、ＲＯＭ、ＲＡＭ、ＣＤ−ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ記憶装置などがあり、またインターネットを通じた伝送などのようなキャリアウェーブの形態で具現されるものも含む。またプロセッサが読み取り可能な記録媒体は、ネットワークで連結されたシステムに分散され、分散方式でプロセッサが読み取り可能なコードが格納されて実行されることができる。

また、以上では本発明の好適な実施例について図示及び説明したが、本発明は、上記の特定の実施例に限定されず、特許請求の範囲で請求する本発明の要旨を逸脱しない限度内で、当該発明の属する技術分野における通常の知識を持つ者にとっては様々な変形実施が可能であり、また、これらの変形実施はいずれも本発明に含まれるということは明らかである。

本発明は、オブジェクトベースのオーディオ信号の符号化及び復号化過程などに用いられ、連関性あるオブジェクト信号をグループ単位に処理し、カラオケモード、ソロモード、及び一般モードなどの再生モードを提供することができる。

Claims

ダウンミックス信号及びレジデュアル信号を受信する段階と、
前記レジデュアル信号を前記ダウンミックス信号に適用して第１オーディオ信号及び第２オーディオ信号を取得する段階と、
ミキシングパラメータを前記第１オーディオ信号及び前記第２オーディオ信号のうち少なくとも一つに適用して第３オーディオ信号を生成する段階と、
前記第３オーディオ信号を用いてマルチャネルオーディオ信号を生成する段階と、
を含み、
前記ダウンミックス信号はメインオブジェクト信号とバックグラウンドオブジェクト信号を含み、
前記第１オーディオ信号は前記メインオブジェクト信号と前記レジデュアル信号を用いて取得され、前記第２オーディオ信号は前記バックグラウンドオブジェクト信号と前記レジデュアル信号とを用いて取得され、
前記レジデュアル信号は、前記第１オーディオ信号及び前記第２オーディオ信号が前記ダウンミックス信号にダウンミックスされるときに生成され、
前記ミキシングパラメータは、前記第１オーディオ信号及び前記第２オーディオ信号のうち少なくとも一つに含まれる複数のオブジェクト信号のうち、少なくとも一つのオブジェクト信号のレベル又は位置を制御するものであり、
前記第３オーディオ信号は、前記第１オーディオ信号及び前記第２オーディオ信号のうち少なくとも一つのうちの、少なくとも一つの前記オブジェクト信号のレベル又は位置を制御して生成されることを特徴とするオーディオ復号化方法。
前記第１オーディオ信号及び前記第２オーディオ信号は、それぞれ互いに異なるコーデックを用いて符号化され、前記レジデュアル信号は前記メインオブジェクト信号に対応することを特徴とする、請求項１に記載のオーディオ復号化方法。
前記第１オーディオ信号及び前記第２オーディオ信号は、互いに異なるサンプリング周波数を用いて符号化されたことを特徴とする、請求項１に記載のオーディオ復号化方法。
前記ダウンミックス信号は、放送用信号から受信した信号であり、
前記バックグラウンドオブジェクト信号はカラオケオブジェクト信号を含み、
前記メインオブジェクト信号は第1メインオブジェクト成分と第１バックグラウンドオブジェクト成分を含み、前記カラオケオブジェクト信号は第２バックグラウンドオブジェクト成分と第２メインオブジェクト成分を含み、
前記レジデュアル信号は前記第１バックグラウンドオブジェクト成分と前記第２メインオブジェクト成分の差であり、
前記第１オーディオ信号は前記メインオブジェクト信号と前記レジデュアル信号を用いて取得され、前記第２オーディオ信号は前記カラオケオブジェクト信号と前記レジデュアル信号を用いて取得されることを特徴とする、請求項１に記載のオーディオ復号化方法。
前記第１オーディオ信号に対応する第１オーディオパラメータと、前記第２オーディオ信号に対応する第２オーディオパラメータとを受信する段階をさらに含むことを特徴とする、請求項１に記載のオーディオ復号化方法。
前記第３オーディオ信号は、前記第１オーディオパラメータ及び前記第２オーディオパラメータのうち少なくとも一つを用いて生成されることを特徴とする、請求項５に記載のオーディオ復号化方法。
ダウンミックス信号及びレジデュアル信号を受信するデマルチプレクサと、
前記レジデュアル信号を前記ダウンミックス信号に適用して第１オーディオ信号及び第２オーディオ信号を取得し、ミキシングパラメータを前記第１オーディオ信号及び前記第２オーディオ信号のうち少なくとも一つに適用して第３オーディオ信号を生成するオブジェクトデコーダと、
前記第３オーディオ信号を用いてマルチャネルオーディオ信号を生成するマルチャネルデコーダと、
を含み、
前記ダウンミックス信号はメインオブジェクト信号とバックグラウンドオブジェクト信号を含み、
前記第１オーディオ信号は前記メインオブジェクト信号と前記レジデュアル信号を用いて取得され、前記第２オーディオ信号は前記バックグラウンドオブジェクト信号と前記レジデュアル信号とを用いて取得され、
前記レジデュアル信号は、前記第１オーディオ信号及び前記第２オーディオ信号が前記ダウンミックス信号にダウンミックスされるときに生成され、
前記ミキシングパラメータは、前記第１オーディオ信号及び前記第２オーディオ信号のうち少なくとも一つに含まれる複数のオブジェクト信号のうち、少なくとも一つのオブジェクト信号のレベル又は位置を制御するものであり、
前記第３オーディオ信号は、前記第１オーディオ信号及び前記第２オーディオ信号のうち少なくとも一つのうちの、少なくとも一つの前記オブジェクト信号のレベル又は位置を制御して生成されることを特徴とするオーディオ復号化装置。
前記デマルチプレクサは、前記第１オーディオ信号に対応する第１オーディオパラメータと、前記第２オーディオ信号に対応する第２オーディオパラメータとを抽出することを特徴とする、請求項７に記載のオーディオ復号化装置。
前記第３オーディオ信号は、前記第１オーディオパラメータ及び前記第２オーディオパラメータのうち少なくとも一つを用いて生成されることを特徴とする、請求項８に記載のオーディオ復号化装置。
請求項１〜６のいずれか１項に記載の前記復号化方法をコンピュータに実行させるための記録されたステートメント及びインストラクションを含むコンピュータ読み取り可能な記録媒体。