JP2012198556A

JP2012198556A - オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置

Info

Publication number: JP2012198556A
Application number: JP2012120606A
Authority: JP
Inventors: Dong Soo Kim; スーキム，ドン; Hee Suk Pang; スクパン，ヒー; Jae-Hyun Lim; ヒュンリム，ジェ; Sung Yong Yoon; ヨンユーン，スン; Hyung-Kook Lee; クークリー，ヒュン
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2007-02-14
Filing date: 2012-05-28
Publication date: 2012-10-18
Anticipated expiration: 2028-02-14
Also published as: EP2111617A1; KR101049143B1; US20090326958A1; WO2008100100A1; EP2115739A4; KR101041825B1; US8271289B2; US9449601B2; TWI443647B; EP2111616A1; KR20090030323A; JP5291227B2; CA2645915A1; JP2010508545A; AU2008215230B2; US8204756B2; US20110202356A1; CA2645912A1; EP2111616B1; US20140297294A1

Abstract

【課題】オブジェクトベースのオーディオ信号を効率的に処理できるように符号化及び復号化するオーディオ符号化及び復号化方法とその装置を提供する。
【解決手段】相対オブジェクトエネルギー情報及び絶対オブジェクトエネルギー情報を含む少なくとも２つのエネルギー情報を獲得し、エネルギー情報を用いて、結合された絶対オブジェクトエネルギー情報及び結合された相対オブジェクトエネルギー情報を含む結合されたエネルギー情報を生成する。
【選択図】図２１

Description

本発明は、オブジェクトベースのオーディオ信号を効率的に処理できるように符号化及び復号化するオーディオ符号化及び復号化方法並びにその装置に関するものである。

一般に、マルチチャネルオーディオ符号化及び復号化では、マルチチャネルから構成された複数のチャネル信号を元来のチャネル数よりも小さい数のチャネルの信号にダウンミックスし、追加の付加情報を転送し、元来のチャネル数を持つマルチチャネル信号として再生する。

オブジェクトベースのオーディオ符号化及び復号化も、複数の音源をそれよりも小さい数の音源信号にダウンミックスし、追加の付加情報を転送することは、マルチチャネルオーディオ符号化及び復号化と同様である。ただし、オブジェクトベースのオーディオ符号化及び復号化では、オブジェクト信号をマルチチャネルオーディオ符号化においてチャネル信号に該当する信号と見なしてコーディングを行う。ここで、オブジェクト信号は、ある楽器の音や人の声などコーディングの対象となる信号を構成している基本的な要素のことを指す。

すなわち、マルチチャネルオーディオ符号化及び復号化では、コーディングしようとするチャネル信号をいくつの要素から構成されているかに関らず、チャネル信号間の情報のみに基づいてマルチチャネルオーディオコーディングを行うのに対し、オブジェクトベースのオーディオ符号化及び復号化では、かかるそれぞれのオブジェクト信号を独立したコーディングの対象と見なす。

本発明の目的は、多様な環境で適用可能なように効率的にオブジェクト信号を符号化及び復号化するオーディオ符号化及び復号化方法並びにその装置を提供することにある。

上記の目的を達成するための本発明によるオーディオ復号化方法は、相対オブジェクトエネルギー情報及び絶対オブジェクトエネルギー情報を含む少なくとも２つのエネルギー情報を獲得する段階と, 前記エネルギー情報を用いて、結合された絶対オブジェクトエネルギー情報及び結合された相対オブジェクトエネルギー情報を含む結合されたエネルギー情報を生成する段階と、を含む。

また、上記の目的を達成するための本発明によるオーディオ復号化方法は、オブジェクト符号化された第１オーディオ信号と第２オーディオ信号を受信する段階と、前記第１オーディオ信号に含まれた第１オブジェクトエネルギー情報と、前記第２オーディオ信号に含まれた第２オブジェクトエネルギー情報を用いて第３オブジェクトエネルギー情報を生成する段階と、前記第１及び第２オーディオ信号が結合され、前記第３オブジェクトエネルギー情報を含む第３オーディオ信号を生成する段階と、を含む。

また、上記の目的を達成するための本発明によるオーディオ符号化方法は、第１オーディオ信号から第１ダウンミックス信号と第１オブジェクト情報を抽出し、第２オーディオ信号から第２ダウンミックス信号と第２オブジェクト情報を抽出するデマルチプレクサと、前記第１及び第２オブジェクト情報が結合され、前記第１オブジェクト情報に含まれた第１オブジェクトエネルギー情報と、前記第２オブジェクト情報に含まれた第２オブジェクトエネルギー情報を用いて生成した第３オブジェクトエネルギー情報を含む第３オブジェクト情報と、前記第１及び第２ダウンミックス信号を結合した第３ダウンミックス信号とを生成するマルチポインタ制御部と、を含む。

そして、上記の目的を達成するために本発明では、上記方法をコンピュータで実行させるためのプログラムを記録した、コンピュータ読取可能記録媒体を提供する。

本発明によれば、多様な環境においてオブジェクトベースのオーディオ信号の符号化及び復号化の長所を最大限に活かしながら、各オブジェクトオーディオ信号別に効率的に音象を定位させることができるので、オブジェクトオーディオ信号の再生に際してより生き生きした現実感を提供することができる。

一般的なオブジェクトベースのオーディオ符号化／復号化装置を示すブロック図である。本発明の第１実施例によるオーディオ復号化装置を示すブロック図である。本発明の第２実施例によるオーディオ復号化装置を示すブロック図である。本発明の第３実施例によるオーディオ復号化装置を示すブロック図である。本発明の第３実施例によるオーディオ復号化装置で使用可能なＡＤＧモジュールを示すブロック図である。本発明の第４実施例によるオーディオ復号化装置を示すブロック図である。本発明の第５実施例によるオーディオ復号化装置を示すブロック図である。本発明の第６実施例によるオーディオ復号化装置を示すブロック図である。本発明の第７実施例によるオーディオ復号化装置を示すブロック図である。本発明の第８実施例によるオーディオ復号化装置を示すブロック図である。トランスコーダの動作を説明するための図である。トランスコーダの動作を説明するための図である。オブジェクト情報を構成する多様な方法を説明するための図である。オブジェクト情報を構成する多様な方法を説明するための図である。オブジェクト情報を構成する多様な方法を説明するための図である。オブジェクト情報を構成する多様な方法を説明するための図である。オブジェクト情報を結合する場合を説明するための図である。オブジェクト情報を結合する場合を説明するための図である。オブジェクト情報を結合する場合を説明するための図である。オブジェクト情報を結合する場合を説明するための図である。オブジェクト情報を結合する場合を説明するための図である。オブジェクト情報を結合する場合を説明するための図である。前処理過程を説明するための図である。前処理過程を説明するための図である。前処理過程を説明するための図である。前処理過程を説明するための図である。前処理過程を説明するための図である。複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。

以下、添付の図面を参照しつつ本発明をより詳細に説明する。

本発明によるオーディオ符号化及び復号化方法は基本的にオブジェクトベースのオーディオ信号の処理過程に適用されるが、これに限定されず、本発明による条件を満たす他の信号の処理過程にも適用可能である。

図１は、一般的なオブジェクトベースのオーディオ符号化及び復号化装置を示すブロック図である。一般的にオブジェクトベースのオーディオ符号化装置において入力信号は、マルチチャネル上のチャネルとは関わっておらず、それぞれ独立したオブジェクト信号に該当し、このような点で、入力信号がマルチチャネル上の各チャネル信号に該当するマルチチャネルオーディオ符号化装置と異なっている。例えば、マルチチャネルオーディオ符号化装置で入力信号は、５．１チャネル信号のフロントレフト信号やフロントライト信号などのようなチャネル信号となる。これに対し、オブジェクトベースのオーディオ符号化装置において入力信号となるオブジェクト信号は、通常、チャネル信号よりも小さい個体を指すもので、人の声またはバイオリンやピアノなどの楽器音などがそれに該当する。

図１を参照すると、オブジェクトベースのオーディオ符号化装置に含まれるオブジェクトエンコーダ１００と、オブジェクトベースの復号化装置に含まれるオブジェクトデコーダ１１１及びミキサー／レンダラー１１３が示されている。

オブジェクトエンコーダ１００は、Ｎ個のオブジェクト信号を受信し、１つあるいはそれ以上のチャネルを持つオブジェクトベースのダウンミックス信号と、各オブジェクトオーディオ信号から抽出した情報が含まれるオブジェクト情報とを生成する。この時、各オブジェクト信号から抽出した情報は、エネルギー差、位相差、相関値などに基づくものである。

オブジェクト情報には、チャネルベースのオーディオコーディングなのかオブジェクトベースのオーディオコーディングなのかを識別する識別子が含まれ、この値によってチャネルベースの復号化を行ったりあるいはオブジェクトベースの復号化を行うようにすることができる。また、オブジェクト情報には、オブジェクト信号に関する、エネルギー情報、グルーピング情報、無音区間情報、ダウンミックスゲイン情報、ディレー情報などが含まれうる。

オブジェクトエンコーダ１００で生成されたオブジェクト情報とダウンミックス信号は、一つのビットストリームに結合されて復号化装置に転送されうる。

オブジェクトデコーダ１１１は、オブジェクトベースのオーディオ符号化装置から転送されたダウンミックス信号とオブジェクト情報を用いて元来のオブジェクト信号と類似の性質を有するオブジェクト信号を再生する。この時、オブジェクトデコーダ１１１で生成されるオブジェクト信号は、マルチチャネル上の特定チャネルに配置されていない信号である。したがって、オブジェクトデコーダ１１１で生成されたオブジェクト信号はそれぞれ、ミキサー／レンダラー１１３に入力され、制御情報によってマルチチャネル空間上の特定位置に特定レベルで配置されて再生される。各オブジェクト信号に関する制御情報は時間によって変換可能であり、これにより、特定オブジェクト信号の音象が時間によって空間上の位置やそのレベルが変わることができる。

図２は、本発明の第１実施例によるオーディオ復号化装置を示すブロック図である。本実施例によるオーディオ復号化装置１２０は、制御情報の分析を通じて適応的デコーディングが可能なように構成される。

図２を参照すると、本実施例によるオーディオ信号復号化装置１２０は、オブジェクトデコーダ１２１、ミキサー／レンダラー１２３、及びパラメータコンバータ１２５を含む。図示してはいないが、復号化装置は、デマルチプレクサなどを含み、受信したビットストリームからダウンミックス信号とオブジェクト情報を抽出でき、以下に説明する他の実施例による復号化装置においても同様である。

オブジェクトデコーダ１２１は、ダウンミックス信号と、パラメータコンバータ１２５から伝達される変換されたオブジェクト情報を用いてオブジェクト信号を生成する。ミキサー／レンダラー１２３は、オブジェクトデコーダ１２１から出力される各オブジェクト信号を制御情報によってマルチチャネルの空間上の特定位置に特定レベルで配置する。パラメータコンバータ１２５は、オブジェクト情報に制御情報を結合させて生成した変換されたオブジェクト情報をオブジェクトデコーダ１２１に伝達する。

このような構成により、オブジェクトデコーダ１２１で、変換されたオブジェクト情報に結合された制御情報を分析し、適応的復号化が可能になる。

例えば、制御情報によって、オブジェクト１信号とオブジェクト２信号がマルチチャネル空間上で同じ位置に同じレベルに設定される場合、一般的な復号化装置ではオブジェクト１信号とオブジェクト２信号がそれぞれ個別にデコーディングされた後、ミキシング／レンダリング過程で制御情報に合うようにマルチチャネル空間上に配列される。しかし、本実施例によるオーディオ復号化装置１２０でオブジェクトデコーダ１２１は、変換されたオブジェクト情報に結合された制御情報から、オブジェクト１信号とオブジェクト２信号がまるで一つの音源かのように同じレベルで同じ位置に設定されていることがわかる。これにより、オブジェクトデコーダ１２１は、オブジェクト１信号とオブジェクト２信号をそれぞれ別個にデコーディングせずに一つの音源のようにデコーディングすることができる。

このようにオブジェクト１信号とオブジェクト２信号を一つの音源のように復号化し、復号化過程の複雑性を減らすことができる。また、ミキシング／レンダリング過程においても処理すべき音源が減るので、同様に複雑性を減らすことができる。このようなオーディオ復号化装置１２０は、オブジェクト信号の数が最終出力チャネル数よりも多いので、確率的に複数のオブジェクト信号が同じ空間上に配置される場合に効果的に使われることができる。

他の例として、オーディオ復号化装置１２０は、オブジェクト１信号とオブジェクト２信号がマルチチャネル空間上で同じ位置に配置されるが、オブジェクト１信号とオブジェクト２信号のレベルが同一でなく、いずれか一方が他方よりも大きい場合にも使われることができる。この場合にも、オブジェクト１信号とオブジェクト２信号を個別にデコーディングした後にミキサー／レンダラー１２３の入力として転送する代わりに、オブジェクト１信号とオブジェクト２信号のレベルが調整された状態でこれら両者を一つの信号のようにデコーディングすることとなる。この時、オブジェクトデコーダ１２１は、変換されたオブジェクト情報に結合された制御情報から、オブジェクト１信号とオブジェクト２信号に対するエネルギーレベル差に関する情報を得ることができるので、この情報に基づいて両信号をデコーディングすることができる。これにより、オブジェクト１信号とオブジェクト２信号はそれぞれのレベルが調整された状態で一つの音源のように復号化が可能になる。

さらに他の例として、オブジェクトデコーダ１２１が制御情報によって、各オブジェクト信号のレベルを調整するようにすることができる。すなわち、オブジェクトデコーダ１２１で制御情報によって、各オブジェクト信号がレベル調整された状態でデコーディングが行われるようにする。この場合、ミキサー／レンダラー１２３では位置とレベルを両方とも調整する代わりに、レベル調整無しで各オブジェクト信号のマルチチャネル空間上の位置に対してのみ配置作業をすれば良い。したがって、制御情報によるレベル調整段階をオブジェクトデコーダ１２１のデコーディング過程で行い、オブジェクト信号に対して追加的なレベル調整をすることなく直ちに位置配置が可能なので、複雑性を減らすことができる。

このように本実施例によるオーディオ復号化装置１２０は、制御情報の分析を通じてオブジェクトデコーダ１２１が適応的にデコーディングを行うことができるので、デコーディング過程とミキシング／レンダリング過程の複雑性を減らすという効果が得られる。また、前述した様々な例で説明した方法は組み合わせて同時に用いても良い。

図３は、本発明の第２実施例によるオーディオ信号復号化装置のブロック図である。図３を参照すると、本実施例によるオーディオ信号復号化装置１３０は、オブジェクトデコーダ１３１と、ミキサー／レンダラー１３３とを含む。本実施例によるオーディオ信号復号化装置１３０は、オブジェクト情報がオブジェクトデコーダ１３１の他にミキサー／レンダラー１３３にも伝達されるのに特徴がある。

このような構成により、オブジェクト信号中に無音区間が存在する場合に、効率的にデコーディング作業を行うことができる。例えば、オブジェクト２〜４信号までは楽器音が演奏され、オブジェクト１信号が無音区間、すなわち伴奏区間に該当する。また、信号の時間帯別に特定オブジェクト信号が無音区間である場合が存在する。このような場合、各オブジェクト信号の無音区間に関する情報がオブジェクト情報に含まれて転送されうる。この時、オブジェクトデコーダ１３１は、特定オブジェクト信号が無音区間に該当する場合、その特定オブジェクト信号をデコーディングしない方式によって復号化過程の複雑性を最小化する。

また、ミキサー／レンダラー１３３には、無音に該当するオブジェクトの信号が‘０’値で伝達される。しかし、このような無音信号、すなわち‘０’となっている信号に対してもミキサー／レンダラー１３３は一つの信号と見なし、ミキシング／レンダリング作業を行うのが一般的である。

しかし、本実施例によるオーディオ復号化装置１３０は、個々のオブジェクト信号の無音区間に関する情報が含まれているオブジェクト情報がミキサー／レンダラー１３３にも伝達され、特定オブジェクト信号が無音区間である場合、そのオブジェクト信号に対してミキシングやレンダリング作業が行われないように構成されうる。

図４は、本発明の第３実施例によるオーディオ復号化装置を示すブロック図である。本実施例によるオーディオ復号化装置は、オブジェクトデコーダとミキサー／レンダラーの代わりにマルチチャネルデコーダを使用し、各オブジェクト信号がマルチチャネル空間上で配置完了し、デコーディングされるように構成される。

図４を参照すると、本実施例によるオーディオ復号化装置１４０は、マルチチャネルデコーダ１４１及びパラメータコンバータ１４５を含む。マルチチャネルデコーダ１４１は、ダウンミックス信号とパラメータコンバータ１４５から伝達されるチャネルベースのパラメータ情報である空間パラメータとを用いて、マルチチャネル空間上に配置完了したマルチチャネル信号を出力する。パラメータコンバータ１４５では、オブジェクト情報及び制御情報を用いて空間パラメータを生成する。すなわち、オブジェクト情報と、プレイバック setup及びミキシング情報などが含まれた制御情報とを取り込み、これに基づいてマルチチャネルデコーダ１４１で使用可能な空間パラメータを生成する。これは、各ＯＴＴ（Ｏｎｅ−Ｔｏ−Ｔｗｏ）ボックスあるいはＴＴＴ（Ｔｗｏ−Ｔｏ−Ｔｈｒｅｅ）ボックスに該当する空間データへの変換を意味する。

このような構成により、オブジェクトベースのデコーディング及びミキシング／レンダリング過程がマルチチャネルデコーディング過程により完了する他、中間段階としてそれぞれのオブジェクト信号を生成する過程が省かれ、複雑性を減らす効果が得られる。

例えば、１０個のオブジェクト信号があり、最終再生チャネルは５．１チャネルスピーカー再生システムである場合、一般的なオブジェクトベースオーディオ復号化装置では、ダウンミックス信号とオブジェクト情報を用いて１０個のオブジェクトのそれぞれに対してデコーディングされた信号を生成する。そして、１０個のオブジェクト信号とミキシング／レンダリング情報を用いてミキサー／レンダラーでは５．１チャネルスピーカー環境に合わせて各オブジェクト信号をマルチチャネル上の特定位置に配置し、最終的に５．１チャネル信号を生成する。このように、最終５．１チャネル信号のために中間段階で１０個のオブジェクト信号のそれぞれを生成しなければならないという非効率性があり、この非効率性は、最終再生チャネル数とオブジェクト信号の数との差が大きいほどより増大する。

しかし、本実施例によるオーディオ復号化装置１４０を用いてデコーディングする場合、オブジェクト情報と制御情報を用いて５．１チャネル出力構成に合う空間パラメータを生成する。そして、空間パラメータとダウンミックス信号をマルチチャネルデコーダ１４１に入力し、５．１チャネル信号を出力する。すなわち、最終出力チャネルが５．１チャネルである場合、中間段階である１０個の信号を生成する過程無しで直接ダウンミックス信号から５．１チャネル信号を生成する構造であるから、一般的な方法に比べて効率的である。

したがって、本実施例によるオーディオ信号復号化装置１４０は、エンコーダから転送されたオブジェクト情報と制御情報の分析を通じて各ＯＴＴ、ＴＴＴボックスの空間パラメータを計算するのに必要な計算量が、全てのオブジェクト信号のそれぞれをデコーディングした後にミキサー／レンダラーを経由するのに必要な計算量よりも少ない場合に効率的である。

また、本実施例によるオーディオ信号復号化装置１４０は、オブジェクト情報と制御情報の分析を通じて、マルチチャネルデコーダで使われる空間パラメータを生成するモジュールのみを追加するだけで、既存のマルチチャネルデコーダをそのまま使用してオブジェクトベースのオーディオ復号化装置を具現でき、既存のマルチチャネルデコーダと互換性を維持できるという長所がある。また、一般的なマルチチャネルデコーダ等に在るエンベロープシェーピング、ＳＴＰ（Ｓｕｂ−ｂａｎｄＴｅｍｐｏｒａｌＰｒｏｃｅｓｓｉｎｇ）ツール、デコリレータなどの既存ツールを変形せずに使用して音質を向上させることができる。これらの点は、既存のマルチチャネルデコーディングが持っている長所をいずれもオブジェクト復号化過程でも使用可能であるということを意味している。

そして、パラメータコンバータ１４５から出力されてマルチチャネルデコーダ１４１に転送される空間パラメータは、データが最小限に圧縮されて転送に好適な形態であっても良く、一般的なマルチチャネルエンコーダから転送される形態、すなわちハフマンデコーディング、パイロットデコーディングなどの過程を経て実際マルチチャネルデコーダの各モジュールに入力されるべき圧縮されていない空間パラメータの形態で出力されても良い。前者の場合のように出力される場合、該当の空間パラメータ情報を遠隔地に在る他のマルチチャネルデコーダに転送するのに有利である。後者の場合、マルチチャネルデコーダで圧縮された空間パラメータを実際デコーディング作業に使われる実際空間パラメータに再び変換しなくて済むという長所がある。

一方、オブジェクト情報と制御情報の分析を通じて空間パラメータを構成する上でディレーが発生しうる。この場合、ダウンミックス信号とディレーを合わせる過程が必要である。このために、ダウンミックス信号に追加的なバッファーを置いてダウンミックス信号とビットストリーム間のディレーを合わせる方法と、オブジェクト情報と制御情報から得られた空間パラメータに追加的なバッファーを置いてディレーを合わせる方法がある。しかし、これらの方法は追加的なバッファーを置かなければならないという不具合がある。この点に鑑み、オブジェクト情報自体を、ディレーを考慮してダウンミックス信号よりも早く送る方法も可能である。この場合、制御情報と結合して生成された空間パラメータは、追加的なディレーを補正することなく適用可能である。

また、各オブジェクト信号が相対的レベルの差を有する場合、制御情報により与えられる各オブジェクト信号の相対的大きさは、ダウンミックス信号を直接補正するＡＤＧ（ＡｒｂｉｔｒａｒｙＤｏｗｎｍｉｘＧａｉｎｓ）によって決定し、オブジェクト信号の空間上の特定位置への割当は、ＣＬＤ（ＣｈａｎｎｅｌＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅ）、ＩＣＣ（ＩｎｔｅｒＣｈａｎｎｅｌＣｏｒｒｅｌａｔｉｏｎ）、ＣＰＣ（ＣｈａｎｎｅｌＰｒｅｄｉｃｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ）などの空間パラメータによって行うことが可能である。

例えば、オブジェクト１信号が制御情報によって空間上の特定の位置に配置されると同時に他のオブジェクト信号に比べて相対的にレベルが大きくなった状態で配置される場合、一般的にマルチチャネルベースのデコーダは、転送された空間パラメータを用いてダウンミックス信号のパラメータバンド別相対的エネルギー差を求めた後、これに基づいて転送されたダウンミックス信号を出力チャネル別に分ける方式を用いている。このようなマルチチャネルデコーダは、ある特定の楽器や特定の音がダウンミックス信号自体において他の信号に比べて相対的に小さいレベルあるいは大きいレベルで含まれている場合、これを最終マルチチャネル出力において該当の特定信号の大きさのみを増加または減少させる方法を持っていない。すなわち、マルチチャネルデコーダは基本的な概念そのものが、転送されたダウンミックス信号を出力チャネルにそれぞれ分けて分配する形式であるがため、ダウンミックス信号自体に小さい音として含まれている信号を、出力信号において相対的に増加させたり、ダウンミックス信号自体に大きい音として含まれている信号を出力信号において相対的に減少させるという役割を果たし難い。

したがって、オブジェクトエンコーダで生成されたダウンミックス信号を用いて、制御情報で要求する各オブジェクト信号の空間上の特定の位置に割り当てることは容易であるが、特定オブジェクト信号の大きさを増減させる場合にはより特別な方法が必要とされる。これは、オブジェクトエンコーダで生成されたダウンミックス信号をそのまま使用する場合、ダウンミックス信号中に含まれている特定オブジェクト信号の音を減少させることが難しいためである。

したがって、本実施例では、このような場合において制御情報によるオブジェクト信号の相対的大きさ変化を適用する方法として、図５に示すように、ＡＤＧモジュール１４７を使用することができる。このＡＤＧモジュール１４７はマルチチャネルデコーダ１４１内に設置されても良く、マルチチャネルデコーダ１４１とは別に設置されても良い。

ＡＤＧモジュール１４７を使用する場合、オブジェクトエンコーダから転送されたダウンミックス信号において特定オブジェクト信号の相対的大きさを減らしたり増やしたりすることが可能になり、ＡＤＧモジュール１４７によって変換されたダウンミックス信号をもってマルチチャネルデコーディングを行うことが可能である。

ＡＤＧモジュール１４７を使用してダウンミックス信号を変化させ、オブジェクト信号の相対的大きさを調節する方法を用いる場合、オブジェクトデコーディングを既存のマルチチャネルデコーダを用いて行うことができるという長所がある。オブジェクトエンコーダで生成されたダウンミックス信号がモノ、ステレオ、または３チャネル以上の信号である場合にもＡＤＧモジュール１４７を適用することが可能であり、ダウンミックス信号が２チャネル以上である場合、大きさを調整しようとするオブジェクト信号がダウンミックスの特定チャネルにのみ存在すると、ＡＤＧモジュール１４７を特定ダウンミックスチャネルにのみ適用することも可能である。この全ての場合に既存のマルチチャネルデコーダの構成を変えることなく適用可能である。

また、最終出力がマルチチャネルスピーカー再生ではなくバイノーラル再生の場合にも同一に適用可能であり、この場合にも、オブジェクト信号間の相対的大きさ変化はＡＤＧモジュール１４７を用いて調節可能である。

この他にも、ＡＤＧモジュール１４７を使用してオブジェクト信号の相対的大きさを修正する方法を用いずに、各パラメータ値を用いて信号を生成する過程でオブジェクト信号間の相対的大きさを適用するゲイン値を適用させることも可能である。この場合、既存のマルチチャネルデコーダにおいてこのようなゲイン値を追加させるための若干の変形が必要である。しかし、既存のマルチチャネルデコーダの修正が必要である以外は、ＡＤＧを計算し補正する方法を用いずにデコーディング過程中にゲイン値を追加する方法で大きさを調整することができるので、相対的に複雑性が低減するという長所がある。

このように、ＡＤＧモジュール１４７の適用は、単にオブジェクト信号のレベル調整だけでなく、特定オブジェクト信号のスペクトラム情報の変形が可能な場合にこれに対する適用ツールとしても用いられることができる。すなわち、特定オブジェクト信号のレベルを増加させたり減少させる場合にＡＤＧモジュール１４７が使われると共に、特定オブジェクト信号のスペクトラム情報の変形、すなわち特定オブジェクトの低音部を増やしたり高音部を増やしたりするようなスペクトラム情報の変形もＡＤＧモジュール１４７を用いて行うことができる。もちろん、このようなスペクトラム情報の変形は、既存マルチチャネルデコーダでＡＤＧモジュール１４７を使用せずには不可能な過程である。

図６は、本発明の第４実施例によるオーディオ復号化装置を示すブロック図である。本実施例による復号化装置は、前述した実施例と略同様であり、ただし、バイノーラル出力の場合を追加した点に特徴がある。

図６を参照すると、本実施例によるオーディオ信号復号化装置１５０は、マルチチャネルバイノーラルデコーダ１５１、第１パラメータコンバータ１５７、及び第２パラメータコンバータ１５９を含む。

第２パラメータコンバータ１５９は、エンコーダで生成されたオブジェクト情報と制御情報を分析して空間パラメータを生成する。第１パラメータコンバータ１５７は空間パラメータに再びＨＲＴＦパラメータなどの３Ｄ情報を追加し、仮想３Ｄパラメータを生成する。マルチチャネルバイノーラルデコーダ１５１は、ダウンミックス信号に仮想３Ｄパラメータを適用してバイノーラル信号を生成する。

この時、第１パラメータコンバータ１５７と第２パラメータコンバータ１５９を結合し、オブジェクト情報と制御情報及び３Ｄ情報を受信してバイノーラルパラメータを生成する統合されたパラメータコンバータ１５５としても良い。

もし、一般的な方法により、１０個のオブジェクト信号が含まれたダウンミックス信号を、ヘッドホン再生などのためのバイノーラル信号とするためには、まず、オブジェクトデコーダでダウンミックス信号とオブジェクト情報から１０個のオブジェクト信号のそれぞれに対してデコーディングされた信号を生成する。生成した信号と制御情報を用いてミキサー／レンダラーでは５チャネルスピーカー環境に合うように各オブジェクト信号をマルチチャネル上の特定位置に配置し、５チャネルスピーカーを通じて再生される５チャネル信号を生成する。そして、この信号に対して各チャネル別３Ｄ情報などを適用し、最終的に２チャネル出力を生成することとなる。これは、最終２チャネル信号を生成するために、１０個のオブジェクト信号を再生し、これらを再び５チャネル信号に変換した後に最終２チャネル信号を生成するという点で非効率的である。

これに対して、本実施例による復号化装置１５０は、オブジェクト信号からヘッドホン再生などのためのバイノーラル信号を直接生成することができる。また、本実施例による復号化装置１５０は、オブジェクト情報と制御情報を分析して空間パラメータを生成し、バイノーラル出力の場合にも既存のマルチチャネルバイノーラルデコーダをそのまま使用することができるという長所がある。そして、オブジェクト情報と制御情報、ＨＲＴＦパラメータを入力としてバイノーラルパラメータを生成する統合されたパラメータコンバータを用いる場合、複雑性をさらに減らすことができるという長所がある。この場合にも同様に、マルチチャネルバイノーラルデコーダを再使用できるという長所がある。

図７は、本発明の第５実施例によるオーディオ復号化装置を示すブロック図である。図７を参照すると、本実施例によるオーディオ復号化装置１６０は、前処理部１６１、マルチチャネルデコーダ１６３、及びパラメータコンバータ１６５を含む。

パラメータコンバータ１６５は、マルチチャネルデコーダ１６３で使用される空間パラメータと前処理部１６１で使用されるパラメータとを生成する。前処理部１６１は、ダウンミックス信号に対する前処理過程を行い、前処理過程の行われた信号はマルチチャネルデコーダ１６３に伝達され、デコーディング過程が行われる。マルチチャネルデコーダ１６３から出力される信号は、ステレオ、バイノーラルステレオ、マルチチャネル信号を含む。前処理部１６１で行われる前処理過程には、フィルタリングなどを用いたダウンミックス信号の時間あるいは周波数ドメインでの修正や変換などが含まれうる。

また、オーディオ復号化装置１６０に入力されるダウンミックス信号がステレオ信号の場合、このダウンミックス信号は、マルチチャネルデコーダ１６３の入力として転送される前に、前処理部１６１でダウンミックス前処理過程をたどらなければならない。なぜなら、マルチチャネルデコーダ１６３は、ステレオダウンミックス信号を受けてマルチチャネル信号をデコーディングする過程においてダウンミックス信号の左チャネルに位置している信号をマルチチャネルの右側チャネルにマッピングすることができないためである。したがって、ステレオダウンミックスのうち左チャネルに属しているオブジェクト信号の位置を右方向に変更させようとする場合、ステレオダウンミックスチャネルに前処理過程を行ってからマルチチャネルデコーダ１６３に入力させなければならない。

このようなステレオダウンミックス信号の前処理過程は、オブジェクト情報と制御情報から前処理に関する情報を求めた後、この情報を用いて行うことができる。

図８は、本発明の第６実施例によるオーディオ復号化装置を示すブロック図である。図８を参照すると、本実施例によるオーディオ復号化装置１７０は、マルチチャネルデコーダ１７１、後処理部１７３、及びパラメータコンバータ１７５を含む。

パラメータコンバータ１７５は、マルチチャネルデコーダ１７１で使われる空間パラメータと後処理部１７３で使われるパラメータとを生成する。後処理部１７３は、マルチチャネルデコーダ１７１の出力信号に後処理過程を行う。マルチチャネルデコーダ１７３から出力される信号は、ステレオ、バイノーラルステレオ、マルチチャネル信号を含む。

後処理部１７３で行われる後処理過程には、フィルタリングなどを用いて出力信号のチャネル別あるいは全てのチャネルに対して修正及び変換を行うことなどが含まれる。後処理部１７３の特定の例としては、オブジェクト情報内に特定オブジェクト信号の基本周波数値などを表示し、これを用いて後処理過程で基本周波数の倍音成分のみを除去することが挙げられる。マルチチャネル復号化方法だけでは、充分な性能のカラオケシステムを具現し難いかもしれないが、ボーカルオブジェクト信号に対して基本周波数情報を含み、その倍音成分を後処理過程で消すと、高い性能のカラオケシステム具現が可能となる。この技術を、音声の他、特定オブジェクト信号に適用すると特定楽器のみを消すことが可能になる。また、オブジェクト信号の基本周波数情報を用いて特定倍音成分のみを増幅することができる。このように、後処理パラメータは、マルチチャネルデコーダで適用不可能なオブジェクト信号の残響効果挿入、ノイズ追加、低音部補強などの様々なエフェクト適用を可能にする。

そして、後処理部１７３は、ダウンミックス信号に追加的なエフェクト処理をしたり、ダウンミックス信号にエフェクト処理した信号をマルチチャネルデコーダ１７１の出力信号に加える作業を行うことができる。特定オブジェクト信号のスペクトラムを変更したり、ダウンミックス信号全体に変形を加える必要がある場合、後処理部１７３は、該当の作業をダウンミックス信号自体に加える。残響などのように、ダウンミックス信号に直接処理し、処理された信号をマルチチャネルデコーダ１７１に転送することが適切でない場合、このような処理をマルチチャネルデコーダ１７１に伝達されるダウンミックス信号に適用せずに、処理された信号をマルチチャネルデコーダ１７１の出力に加える方式で処理しても良い。

図９は、本発明の第７実施例によるオーディオ復号化装置を示すブロック図である。図９を参照すると、本実施例によるオーディオ復号化装置１８０は、前処理部１８１、マルチチャネルデコーダ１８３、後処理部１８５、及びパラメータコンバータ１８７を含む。すなわち、本実施例によるオーディオ復号化装置１８０は、マルチチャネルデコーダ１８３の前段に前処理部１８１が配置され、マルチチャネルデコーダ１８３の後段に後処理部１８５が配置されるように構成される。

前処理部１８１は、図７で説明したのと同様に適用されうる。また、後処理部１８５を、後処理過程が適用された後に対応するエフェクトが適用された信号をマルチチャネルデコーダ１８５の出力に加えて最終信号を得るのに使用しても良い。この場合、後処理部１８５は、信号を加える役割のみを果たす。また、エフェクト適用がどちらで行われるかによってエフェクトパラメータは前処理部１８１と後処理部１８５のうち、該当の過程が行われる一方に伝達される。また、ダウンミックス信号にエフェクトを適用してマルチチャネルデコーダ１８３の出力に加える過程と、マルチチャネルデコーダ１８５の出力信号にエフェクトを適用する過程が同時に行われうる。

一方、図７及び図９で提案された前処理部は、ダウンミックス信号を使用者の制御情報によってレンダリングする役割を果たすことができる。また、前処理部は、単純なオブジェクト信号の方向情報によるレンダリング過程だけでなく、オブジェクト信号のレベルを増加または減少させる過程、オブジェクト信号のスペクトラムに変形を加える過程も行うことができる。この場合、前述したＡＤＧモジュールで可能な処理を前処理部で行うことも可能である。

このような場合、前処理部ではオブジェクト信号の方向情報によるレンダリング過程と、オブジェクト信号のレベル調整、オブジェクト信号のスペクトラム情報変形などの過程を同時に行うことができる。また、これらの過程は、適切に分けられ、一部は前処理部で行い、一部はＡＤＧモジュールを用いて行うことができる。例えば、オブジェクト信号のスペクトラム変形の場合、ＡＤＧモジュールで使われる量子化レベル間隔及びパラメータバンド間隔を用いて行うことが適切でない場合がある。この場合、オブジェクト信号のスペクトラム修正は、前処理過程で周波数別に細かいスペクトラム変形を行い、ＡＤＧモジュールでは各オブジェクト信号のレベル調整を行うことによってなされうる。

図１０は、本発明の第８実施例によるオーディオ復号化装置を示すブロック図である。図１０を参照すると、本実施例によるオーディオ復号化装置２００は、レンダリングマトリクス生成部２０１、トランスコーダ２０３、マルチチャネルデコーダ２０５、前処理部２０７、エフェクトプロセッサ２０８、及び加算器２０９を含む。

レンダリングマトリクス生成部２０１は、オブジェクト信号の空間上での位置に関する情報と、オブジェクト信号のレベル大きさに関するプレイバック情報などを表現するレンダリングマトリクスを生成し、トランスコーダ２０３に伝達する。また、レンダリングマトリクス生成部２０１は、オブジェクト信号の空間上での位置に関する情報によって適切なＨＲＴＦ係数などのような３Ｄ情報を生成して伝達する。この時、ＨＲＴＦとは、任意の位置を持つ音源から出る音波と耳の鼓膜に到達する音波間の伝達関数を意味し、音源の方位と高度によってその値が異なってくる。方向性のない信号を特定方向のＨＲＴＦでフィルタリングすると、人にはあたかも特定方向から声が聞こえるかのように感じられる。

レンダリングマトリクス生成部２０１が入力として受けるオブジェクト位置とプレイバック構成情報は、最終使用者が任意の組合せで入力し、時変可能な情報である。

トランスコーダ２０３は、オブジェクトベースのオブジェクト情報とレンダリングマトリクス情報、３Ｄ情報などを用いてチャネルベースの付加情報を生成してマルチチャネルデコーダ２０５に伝達し、マルチチャネルデコーダ２０５で使用される３Ｄ情報を伝達する。すなわち、トランスコーダ２０３は、Ｎ個のオブジェクト信号に対するオブジェクトベースパラメータ情報から変換されたＭ個のチャネルに対するチャネルベースの付加情報と、各オブジェクト信号に適用された３Ｄ情報とを分離してマルチチャネルデコーダ２０５に転送する。

マルチチャネルデコーダ２０５は、ダウンミックス信号とトランスコーダ２０３から出力されるチャネルベースの付加情報とを用いてマルチチャネルオーディオ信号を生成し、３Ｄ情報を用いて３Ｄレンダリングを行い、３Ｄベースのマルチチャネル信号を出力することができる。また、図示してはいないが、レンダリングマトリクス生成部２０１内に３Ｄ情報データベースが備えられる。

トランスコーダ２０３は、ダウンミックス信号をマルチチャネルデコーダ２０５に入力する前に前処理作業が必要な場合、これに関する情報を前処理部２０７に伝達する。トランスコーダ２０３に入力されるオブジェクト情報には各オブジェクト信号に関する情報が含まれており、レンダリングマトリクスには各オブジェクト信号の空間上の位置及びレベル情報が含まれている。トランスコーダ２０３はこれら２つの情報を利用すると各オブジェクト信号が最終的にミキシングされて再生されるチャネルに関する情報が得られ、このようにミキシングされて再生されるためにマルチチャネルデコーダ２０５に転送されなければならないチャネルベースの付加情報を算出し、マルチチャネルデコーダ２０５に転送する。

トランスコーダ２０３から出力されるチャネルベースの付加情報と３Ｄ情報はそれぞれ、フレームインデックスを含むことができる。これにより、マルチチャネルデコーダ２０５では、フレームインデックスを用いて、チャネルベースの付加情報と３Ｄ情報を同期させ、ビットストリームの特定フレームに３Ｄ情報を適用することができる。このようにフレームインデックスを用いて、３Ｄ情報が時間の経過と共に更新される場合、チャネルベースの付加情報で時間上のどの位置に適用されるかを決定することができる。すなわち、マルチチャネルデコーダ２０５でチャネルベースの付加情報と更新される３Ｄ情報を時間同期化するため、トランスコーダ２０３でチャネルベースの付加情報と３Ｄ情報にフレームインデックスを含める。

前処理部２０７は、受信したダウンミックス信号をマルチチャネルデコーダ２０５に入力する前に、必要な作業がある場合、それに対する作業を行う。すなわち、前述したように、ステレオダウンミックス信号では、左チャネルに属したオブジェクト信号を右チャネルで再生しようとする場合などにおいて該当の作業がマルチチャネルデコーダ２０５で不可能なので、ダウンミックス信号に対して該当のオブジェクト信号の位置変換作業などを行う。このような作業に関する情報はトランスコーダ２０５から受信する。該当の作業を経たダウンミックス信号はマルチチャネルデコーダ２０５に伝達される。

エフェクトプロセッサ２０８と加算器２０９は、ダウンミックス信号に追加的なエフェクト処理をしたり、ダウンミックス信号にエフェクト処理した信号をマルチチャネルデコーダ２０５の出力信号に加える作業を行うことができる。エフェクトプロセッサ２０８は、特定オブジェクト信号のスペクトラムを変更したり、ダウンミックス信号全体に変形を加える必要がある場合、かかる作業をダウンミックス信号自体に適用することができる。また、残響などのように、ダウンミックス信号に直接処理し、処理されたダウンミックス信号をマルチチャネルデコーダ２０５に転送することが適切でない場合、該当の処理をマルチチャネルデコーダ２０５に伝達されるダウンミックス信号に適用せずに、処理された信号をマルチチャネルデコーダ２０５の出力に加える方式で処理することができる。

このような構成で、レンダリングマトリクス生成部２０１で生成するレンダリングマトリクスについてより詳細に説明すると、下記の通りである。

レンダリングマトリクスは、オブジェクト信号の位置とプレイバック構成に関する情報を表現するマトリクスである。すなわち、オブジェクト信号の個数がＮで、最終再生チャネルの個数がＭの場合、レンダリングマトリクスはＮ個のオブジェクト信号がＭ個のチャネルにどのようにマッピングされるかに関する情報を含む。このような情報を、下記のように様々な方法を用いてレンダリングマトリクスとして表現できる。

第一の方法は、Ｎ個のオブジェクト信号をＭ個のチャネルにマッピングする場合、Ｎ＊Ｍマトリクスで表現する。この場合、Ｎ行はそれぞれのオブジェクト信号に該当し、Ｍ列は各チャネルに該当する。特定オブジェクト信号に該当する行のＭ列には、該当のオブジェクト信号が各チャネルに割り当てられる比率を表記する。この比率を表記する方法は、実数で表現しても良く、整数で表現しても良い。

オブジェクト信号が各チャネルに割り当てられる比率を実数で表現する場合、特定行のＭ列の値を全部合算した値が１の場合、オブジェクト信号のレベル変化はないものと見なす。また、この値が１よりも小さい場合は該当のオブジェクト信号のレベルを減らした場合と、１よりも大きい場合はレベルを増加させた場合と見なす。もちろん、レベル変化のないケースに該当する基準値１は、他の値で表示しても良い。レベル変化の範囲は±１２ｄＢなどのような値でその範囲が限定されうる。例えば、レベル変化のない場合の基準値を１にした場合、１．５は＋１２ｄＢに該当し、０．５は−１２ｄＢに該当するもので表現し、０．５〜１．５の値は−１２ｄＢ〜＋１２ｄＢの値で線形的に対応させることが可能である。

オブジェクト信号が各チャネルに割り当てられる比率を整数で表現する場合、オブジェクト信号のレベルが変わっていない場合、該オブジェクト信号に該当する行のＭ列を全部合算した値を１０または２０、３０あるいは１００等の定められた値で定義することとなる。Ｍ列の和が定められた値よりも小さい場合、当該オブジェクト信号のレベルを減少させたことに該当し、和が定められた値よりも大きい場合、オブジェクト信号のレベルを増加させたことに該当する。この場合にもレベル変化の範囲は±１２ｄＢなどのような値でその範囲が限定されうる。また、この場合、該当のレベル変化範囲内で表示できるレベル変化の差の間隔が定められうる。例えば、数値１の増減を２ｄＢの変化と表現することができる。オブジェクト信号のレベルが変わっていない場合、該オブジェクト信号に該当する行のＭ列を全部合算した値が２０の場合を取り上げて説明すると、２３は＋６ｄＢを表現し、１５は−１０ｄＢを表現することができる。

レンダリングマトリクスをＮ＊Ｍマトリクスで表現する場合、オブジェクト信号が６個で、再生チャネルが５個である場合を挙げると、この時に表現されるレンダリングマトリクスは６＊５行列となる。各チャネルに割り当てられるオブジェクト信号の比率を整数で表現し、オブジェクト信号のレベル変化がない場合の和が１０の場合と、この値の１の増減が２ｄＢ増減を表す場合、任意のレンダリングマトリクスを表現すると、下記の式１のようになる。この時チャネルを表現する５列の順序はＬｆ、Ｒｆ、Ｃ、Ｌｓ、Ｒｓであると仮定する。

上記の式１のように表現されるレンダリングマトリクスから、オブジェクト１信号に該当する１行の５列の値（３，１，２，２，２）を参照するとオブジェクト１信号が５チャネル上にどんな割合で分配されたかがわかる。この５列のうち１番目の列が３と最も大きく、５列の和が１０であることから、オブジェクト１信号はＬｆ方向に位置が定められ、全体的なオブジェクト信号のレベルには変化が無いことがわかる。同様に、オブジェクト２信号に該当する値である（２，４，３，１，２）を参照すると、最も大きい値がＲｆに位置していて、オブジェクト２信号の方向がＲｆ側に位置していることがわかり、５列の和が１２と、オブジェクト２信号のレベルが元来よりも４ｄＢ大きくなったことがわかる。同様に、オブジェクト３信号の場合、該当する値が（０，０，１２，０，０）と、Ｃにのみ成分が存在し、全体的に４ｄＢ大きくなったことがわかる。オブジェクト５信号の場合、（２，２，２，２，２）と全チャネルに均一に分布しており、レベルの大きさには変化が無いことがわかる。

レンダリングマトリクスで表現する第二の方法は、前述したように、オブジェクト信号のレベル変化の有無は、オブジェクト信号に該当する行に在る全ての列の値を合算した値から求めることができるが、このような構造を若干変更し、上のＮ＊Ｍマトリクスで表現されたものに１列を追加し、Ｎ＊（Ｍ＋１）マトリクスで表現する。この時、各行の１番目のＭ列は、Ｍチャネルにオブジェクト信号がどのように分布するかを、上記第一の方法と略同様な方法で表現する。Ｍ＋１にオブジェクト信号のレベルを表現する方式は、第一の方法でＭ列の和の値で表現する方法と同じ方法で表現可能である。

このようにオブジェクト信号のチャネル上の分布とレベル変化を同時に表示する場合とは違い、オブジェクト信号のチャネル上の分布とレベル変化を別個に表示する場合、以降オブジェクト信号のレベル変化のみを計算する必要がある場合、追加的な計算無しでレベル変化情報を得ることができる。また、このような第二の方法は、第一の方法とは表現する方式が違うだけで、表現の内容には違いがないので、第一の方法で表現されたレンダリングマトリクスをこのような形式に変換したりその反対に変換したりすることが可能であり、このような変形に追加的に必要な情報はない。

レンダリングマトリクスで表現する第三の方法は、Ｎ個のオブジェクト信号をＭ個のチャネルにマッピングする場合に、Ｎ＊２マトリクスで表現する。この場合、１番目の列は、オブジェクト信号が位置する空間上の位置に対する角度を表示し、２番目の列は、オブジェクト信号のレベル変化を表示することができる。角度表示の場合、フロントを０度と仮定し、反時計回り方向にオブジェクト位置の角度を表現することができる。角度表示は０〜３６０度の値とすることができる。この時、角度表現は、１度間隔あるいは３度間隔などの間隔レベルをおいて行うことができる。特定の方向が存在せず、全チャネルに均一に分布するオブジェクト信号では、特定値を割り当てて方向を表示する値に特定値を表示する場合には、全チャネルに均一に分布するということを意味するように設定することができる。

このような方法は、２次元上の方向の他、上下の方向を表示しようとする場合、Ｎ＊２マトリクスに列を一つ追加してＮ＊３マトリクスで表現し、２番目の列を上下の方向に関する情報を表現するのに使用することができる。最後の列に表示されるオブジェクト信号のレベル変化は、第一の方法と同様に、実数あるいは整数で表現が可能であり、その変化のレベル間隔及び範囲も、第一の方法で説明したような方法を用いれば良い。

もし、オブジェクトデコーダの最終再生モードがバイノーラルステレオである場合、レンダリングマトリクス生成部２０１でオブジェクト信号の位置によって、該当の位置に対応する３Ｄ情報あるいは該３Ｄ情報に対応するインデックスを伝達することができる。３Ｄ情報インデックスを伝達する場合、トランスコーダ２０３は、伝達されたインデックスに対応する３Ｄ情報を保有していなければならない。また、各オブジェクト信号の位置に対応する３Ｄ情報を転送することによって、トランスコーダ２０３では各オブジェクト信号の位置に対応する３Ｄ情報とレンダリングマトリクス、そしてオブジェクト情報から、マルチチャネルデコーダ２０５で使われる特定３Ｄ情報を計算することができる。もちろん、インデックスを伝達せずに、レンダリングマトリクス生成部で計算された３Ｄ情報を直接伝達しても良い。

前述したレンダリングマトリクスと３Ｄ情報は、最終使用者がオブジェクト位置とプレイバック構成情報を実時間で変更することによって適応的に実時間変更され、トランスコーダ２０３に転送される。この時、レンダリングマトリクスと３Ｄ情報は一定の時間間隔をおいて情報の変化の有無及び以前の情報と対比して変化した情報のみを転送しても良い。例えば０．５秒間隔で１回ずつ情報変化有無及び情報変化時に変化した情報転送をする場合が挙げられる。この時、時間間隔は任意に定めることができる。設定された時間間隔をおいて転送された情報をトランスコーダ２０３で使用する場合、情報の変化が起きた区間では、以前の情報と変化した情報を用いて必要な情報を生成できる。

情報転送の方法も、オブジェクト位置とプレイバック構成が変わらない場合、最初にレンダリングマトリクスと３Ｄ情報を一度転送した後、それ以上該当の情報を転送せずに、変化の無いことを表示する情報のみを転送できる。情報の変化がある場合には、変化があることを表示する情報の転送後に、変化されたレンダリングマトリクスと３Ｄ情報を転送する方法を使用することができる。情報の変化を表示する方法の場合にも、レンダリングマトリクスと３Ｄ情報のそれぞれに対して情報変化の有無を表示する方法と、これら両者の変化を一つの代表値で表示した後、変化が起きた場合に追加的にレンダリングマトリクスと３Ｄ情報のいずれの情報に変化が起きたかを表現する方法が可能である。この方法を使用する場合、変化が長い間起こらない場合に、変化が起きていないことを表示する方法がより簡単になる。

上記の式１のレンダリングマトリクスに１列を追加し、この列にはオブジェクトの上下方向に関する情報を含めることができる。この場合、該当の情報は、−９０度〜＋９０度までの値を表現することとなる。このようなオブジェクト信号の上下方向に関する情報が追加的な行列の列に含まれることは、第一の方法だけでなく第二及び第三の方法のケースに該当するレンダリングマトリクスにも適用することができる。この情報の場合、実際マルチチャネルデコーダのノーマルデコーディングモードでは使用されず、マルチチャネルデコーダがバイノーラルモードで動作する場合に追加的な３Ｄ情報適用を通じて具現可能である。このようなオブジェクト信号の上下方向に関する情報は、このようにレンダリングマトリクスに含まれて転送されても良いが、レンダリングマトリクスに含まれずに、３Ｄ情報と一緒に転送される方式で転送されても良い。このような上下方向に関する情報は、チャネルベースの付加情報には影響を及ぼさず、バイノーラルモードでデコーディングする時に３Ｄ情報に適用されることとなる。

一方、オブジェクト信号の空間上の位置とレベル調整に関する情報は、レンダリングマトリクスで表現可能であるだけでなく、オブジェクト信号のスペクトラム上に変化を与えることもできる。例えば、特定オブジェクト信号に対する低音部強化、あるいは高音部強化のような変化を与えることができる。この場合、これに関する情報は、マルチチャネルコーデックで使われるＡＤＧと類似の形態で各パラメータバンドのレベル変化として表示して転送されうる。このようなオブジェクト信号のスペクトラム変更は、ダウンミックス前処理過程で処理可能である。このようなオブジェクト信号のスペクトラム上の変化を最終使用者が制御する場合、これに関する情報は、例えばスペクトラムマトリクスなどのような形態としてレンダリングマトリクスとは別個に転送されうる。この場合、レンダリングマトリクスの行はオブジェクト信号の個数分だけ、列はパラメータ個数分だけ構成された行列が使用されることができ、行列の係数は、各パラメータバンドのレベル調整に関する情報を表すことができる。

次に、トランスコーダ２０３の動作過程について詳細に説明する。トランスコーダ２０３は、オブジェクトベースのオブジェクト情報、レンダリングマトリクス情報及び３Ｄ情報を用いて、マルチチャネルデコーダ２０５で使われるチャネルベースの付加情報を生成して伝達し、マルチチャネルデコーダ２０５で使用される３Ｄ情報を伝達する。また、ダウンミックス信号をマルチチャネルデコーダ２０５に入力する前に前処理過程が必要な場合、これに関する情報を伝達する。

トランスコーダ２０３が入力として受信するオブジェクトベースのオブジェクト情報には、各オブジェクト信号がダウンミックス信号にどのように含まれているかを表現する情報が入っている。各オブジェクト信号がダウンミックス信号にどのように含まれているかを表現する方法には、マルチチャネルコーデックで既に使用されているＯＴＴ（Ｏｎｅ−ｔｏ−Ｔｗｏ）ボックス及びＴＴＴ（Ｔｗｏ−ｔｏ−Ｔｈｒｅｅ）ボックスなどを用いてＣＬＤ、ＩＣＣ、ＣＰＣ等の情報を通じて表現する方法があり得る。このような情報を通じて、各オブジェクト信号に関する情報をどのように表現可能かについてオブジェクトエンコーダで可能な方法を説明すると、オブジェクト情報にオブジェクト信号に関する情報がどんな方法で含まれるかがわかる。

一般に、マルチチャネルコーデックにおけるＴＴＴボックスは、Ｌ、Ｃ、Ｒ信号をＬ、Ｒ信号にダウンミックスしたり、逆にアップミックスするのに使われる。これはＣ信号がＬ、Ｒ信号の成分を一部ずつ持っているケースに該当する。しかし、オブジェクト信号間のダウンミックスとアップミックスの場合、オブジェクト信号間にこのような特徴を持っている場合はほとんど存在しない。したがって、オブジェクトコーディングのアップミックスとダウンミックス時にはほとんどＯＴＴボックスのみが使われる場合が多い。もちろん、マルチチャネルコーデックにおいて、ＣがＬ、Ｒの成分ではなく独立した信号を含んでいる場合にも問題なくＴＴＴボックスの使用が可能なので、オブジェクトコーディングアップミックスとダウンミックス時にＴＴＴボックスの使用も可能である。

このような場合の例として、オブジェクト信号が合計６個存在し、モノダウンミックス信号である場合が考えられる。この場合、図１１に示すように、ＯＴＴボックスを通じて６個のオブジェクト信号をダウンミックス信号に変換し、オブジェクト信号に関する情報を求めることが可能である。

図１１に示す構造で、一つのダウンミックス信号と総数５個のＯＴＴボックスから得られるＣＬＤ、ＩＣＣ等の情報で６個のオブジェクト信号に関する情報を表現できる。また、オブジェクトコーディングではこのような構造の自由な変更が可能である。すなわち、図１１で、ＯＴＴボックス１（２１１）には６個のオブジェクト信号のうち任意の二つのオブジェクト信号を入力することができる。また、ＯＴＴボックスとＯＴＴボックスが階層的に連結される構造もまた自由な変更が可能であり、オブジェクト情報にはこのようなＯＴＴボックスの階層的に連結される構造に関する情報と各オブジェクト信号が入力として入る位置に関する情報が含まれる。任意のツリー構造の場合、マルチチャネルコーデックで使用する任意のツリー構造を表現する方法をそのまま使用することも可能である。また、各オブジェクト信号の入力位置に関する情報は様々な方法を用いて表現できる。

オブジェクト情報には各オブジェクト信号の無音区間、すなわち、特定オブジェクトの信号がない場合に対して情報を表示することも可能である。この場合、ツリー構造が時間の変化に適応して変わることができる。例えば、図１１で、オブジェクト１信号が無音区間である場合、ＯＴＴボックス１（２１１）への情報は必要でなく、オブジェクト２信号に該当する信号がＯＴＴボックス４（２１７）に入力されると見なすことができる。このように、場合によって毎度ツリー構造を変更し、これに関する情報をオブジェクト情報に含めることができる。

また、類似の方法として、特定オブジェクト信号が無音状態にあり、そのオブジェクト信号がダウンミックスされるＯＴＴボックスに対して、ＯＴＴボックスの使用有無に関する情報が存在し、この情報によって当該ボックスのキューが存在したり存在しない方法を使用することができる。このように、特定オブジェクト信号の無音区間に関する情報を適用する場合、オブジェクト情報で実際に使われないＯＴＴ、ＴＴＴボックスに関する情報を減らすことができるという長所がある。また、ツリー構造を変更する場合にも、最初に定められたツリー構造で特定オブジェクト信号が無音区間に該当する場合、該当オブジェクト信号が無音となることによって機能がオン／オフされるボックスがどれかを類推できる。したがって、毎度変更されたツリー構造全体に対して情報を送らず、特定オブジェクト信号が無音であるという情報だけでもデコーダではツリー構造のどの部分に修正が加えられるべきかがわかるので、無音区間有無に関する情報は最小限に低減され、オブジェクト信号に対するキューは効率的に転送されうる。

図１２は、各オブジェクト信号がダウンミックス信号にどのように含まれているかを説明するための図である。図１２を参照すると、図１１でマルチチャネルコーディングのＯＴＴボックス構造をそのまま使用したこととは違い、それを若干変形した構造を示している。この構造では、一つのボックスに複数のオブジェクト信号が入力され、一つのダウンミックス信号を生成する。この場合、各オブジェクト信号に関する情報は、全体エネルギーに対する各オブジェクト信号のエネルギーの比で表現することが可能である。しかし、オブジェクト信号数が多くなると、各オブジェクト信号のエネルギーに比べて全体エネルギーの大きさが大きくなり、各オブジェクト信号に関する情報であるエネルギーの比が小さい値のみからなることができる。これを補正するため、全体エネルギーに対する各オブジェクト信号のエネルギー比を表示せずに、特定パラメータバンド内でエネルギーの最も大きいオブジェクト信号を捜し、残りのオブジェクト信号のエネルギーを最もエネルギーの大きいオブジェクト信号のエネルギーに対する割合で表す方法を適用することができる。このような方法を用いる場合、該当のパラメータバンド内で最も大きいエネルギーを持つオブジェクト信号に関する情報と、該オブジェクト信号が持つエネルギーの絶対値を知ると、残りのオブジェクト信号のエネルギーの大きさがわかる。

特定パラメータバンド内で最も大きいエネルギーを持つオブジェクト信号のエネルギーの大きさは、ＭＣＵ（ＭｕｌｔｉｐｏｉｎｔＣｏｎｔｒｏｌＵｎｉｔ）のように複数のビットストリームを一つのビットストリームに併合する場合には必須の情報となる。しかし、ビットストリームを併合しない場合、最も大きいエネルギーを持つオブジェクト信号と比較した残りのオブジェクト信号のエネルギーの大きさの比が与えられると、最も大きいエネルギーを持つオブジェクト信号の絶対的エネルギーの大きさは計算を通じて抽出することができる。

例えば、特定パラメータに含まれたオブジェクト信号がＡ、Ｂ、Ｃ、Ｄの４個と仮定し、この中で最も大きいエネルギーを持つオブジェクト信号をＡとする。オブジェクトＡのエネルギーとＢ、Ｃ、Ｄとのエネルギーの大きさの比をそれぞれａ、ｂ、ｃとし、オブジェクトＡの絶対的エネルギーの大きさをＥ_Aとし、該当のパラメータバンドのエネルギーをＥ_Pとすれば、下記のような式が成り立つ。

上記の式２から、最も大きいエネルギーを持つオブジェクト信号のエネルギーの絶対的大きさは、それに関する情報が与えられなくても他の情報を用いて計算できることがわかる。したがって、ＭＣＵを経てビットストリームが結合される場合でない限り、最も大きいエネルギーを持つオブジェクト信号のエネルギーの絶対的大きさは、ビットストリームに含めて転送しなくても良い。ビットストリームにはこのような情報が含まれているか否かをヘッダに表示する方法を用いてビットストリーム全体の大きさを低減することができる。

しかし、ＭＣＵを経てビットストリームが結合される場合、最も大きいエネルギーを持つオブジェクト信号のエネルギーの大きさ値に関する情報が必要とされる。この場合、ダウンミックス信号の実際エネルギーの大きさと最も大きいエネルギーを持つオブジェクト信号と残りのオブジェクト信号との比から求められる各オブジェクト信号のエネルギーの和が、実際ダウンミックス信号のエネルギーの大きさと異なってくる場合が発生する。すなわち、ダウンミックス信号のエネルギーの大きさは１００であるが、各オブジェクト信号のエネルギーの大きさを計算して合算した結果が９８あるいは１０３等と、１００でない値として計算される場合がある。これは、各エネルギーの絶対値、エネルギーの大きさの比が量子化された状態でこれを再び脱量子化したのち計算することによる不一致に起因する。この場合、各オブジェクト信号のエネルギーの大きさとして計算された最終値にこの差を補正する係数を乗算しなければならない。ダウンミックス信号のエネルギーがＸであるが、各オブジェクト信号のエネルギーを計算して合算した値がＹである場合、各オブジェクト信号を計算する部分にＸ／Ｙを乗算しなければならいない。このような不一致を考慮しない場合、量子化エラーが各パラメータバンド及び毎フレームに含まれ、信号の歪みが生じうる。

したがって、パラメータバンドで最も大きいエネルギーを持つオブジェクト信号のエネルギーの絶対値がどのオブジェクト信号に該当するかを表示する情報が必要である。これを表示するための情報は、特定ビットを用いて表現できるが、この情報を表示するために必要なビット数は、総オブジェクト信号の数が幾つかによって変わりうる。すなわち、オブジェクト信号数が少ないと最も大きいエネルギーを持つオブジェクト信号を表現するのに使われるビット数も減り、オブジェクト信号の数が多いとこれを表現するビット数も増えることとなる。このとき、あらかじめ定められた規則によって該当のビット数を定めても良く、あるいは、何ビットを使用すべきかを表す他の情報を必要としても良い。

また、マルチチャネルコーデックのＯＴＴ、ＴＴＴボックスに使われるＣＬＤ、ＩＣＣ、ＣＰＣ値を表現する時、その絶対値ではなく時間差、周波数差、パイロットコーディングなどの方法を通じて情報量を減らすことと同様に、各パラメータバンド別に最も大きいエネルギーを持つオブジェクトに関する情報も上記のような方法を用いて表示することができる。

また、最も大きいエネルギーを持つオブジェクト信号を表現するのに最適化されたハフマンテーブルを使用することも可能である。この場合、パラメータバンド内での最も大きいエネルギーを持つオブジェクト信号がどれかを表示する情報の他にも、最も大きいエネルギーを持つオブジェクト信号と比較した相対エネルギーを表示するオブジェクト信号の順序に関する情報も必要である。例えば、オブジェクト信号が１、２、３、４、５の５個が存在すると仮定する。特定パラメータで最も大きいエネルギーを持つオブジェクト信号を３番オブジェクト信号とする場合、このオブジェクト信号に関する情報を表示し、相対的なエネルギーの比を表示する方法としては、下記のようなものが考えられる。

その第１の方法は、最も大きいエネルギーを持つオブジェクト信号に関する情報以降に、１番オブジェクト信号から順次にエネルギーの比を表示する方法であり、第２の方法は、最も大きいエネルギーを持つオブジェクト信号に関する情報以降に、該当のオブジェクト信号以降のオブジェクトから循環的な順序でオブジェクト信号のエネルギーの比を表示する方法である。もちろん、このようなオブジェクト信号間の順序に関する情報は、ファイルヘッダにあるいは一定フレームごとに１回ずつ転送されてオブジェクト信号の表示順序を知らせる情報に基づく。マルチチャネルコーデックでＯＴＴボックス番号によって各チャネルに該当する信号のＣＬＤ、ＩＣＣなどを推論するのと同様に、オブジェクトビットストリーム上には各オブジェクト信号とビットストリーム上の情報がどのようにマッチングされるかを表現する情報が必要である。

マルチチャネルコーデックの場合、ＯＴＴあるいはＴＴＴボックスのナンバーによって各チャネルに該当する信号に関する情報が何であるかがわかる。オブジェクトベースのオーディオ符号化でも、上記の方法のようにオブジェクト信号がＮ個ある場合、該当のオブジェクト信号を表示するために１番からＮ番までの番号を割り当てる方法を用いることができる。しかし、オブジェクトベースのオーディオ符号化では、該当のオブジェクト信号をオブジェクトデコーダ上で使用者が制御する場合が発生するが、この場合、使用者はオブジェクト信号のナンバリングだけでなく、該当番号に該当するオブジェクト信号がどのオブジェクト信号かに関する説明も必要である。例えば、１番オブジェクト信号は女性ボーカルに該当し、２番オブジェクト信号はピアノに該当するなどという情報が必要であるが、これに関する情報もビットストリームのヘッダにメタデータなどとして含まれて伝達されうる。このためには、オブジェクト信号に関する説明をテキストのようなフォーマットで自由に表示できる方法を用いたり、コードテーブルのような方法を用いてあらかじめ定められたオブジェクト信号区分方法によるコードワードを使って表現しても良い。

また、オブジェクト信号間の相関情報が必要な場合もあるが、この場合にも、相関値は、エネルギーの最も大きいオブジェクト信号を基準にしてその他のオブジェクト信号に対する相関値を表現する方法を用いることができる。この時、マルチチャネルコーデックで全てのＯＴＴボックスに一つのＩＣＣ値を使用したのと同様に、全てのオブジェクト信号に一つの相関値を指定することも可能である。

ステレオオブジェクト信号の場合、ステレオチャネルで表現されるオブジェクト信号の左、右信号に対するエネルギー比率、相関情報などが必要である。ステレオオブジェクト信号の左、右エネルギーに対する比率は、前述した各チャネルの特定パラメータバンドで最も大きいエネルギーを持つオブジェクト信号に対する残りのオブジェクト信号の比率、そして最も大きいエネルギーを持つオブジェクト信号の絶対的エネルギー値に関する情報から得ることができる。例えば、特定パラメータバンドで各チャネルで最も大きいエネルギーを持つオブジェクト信号のエネルギー絶対値をそれぞれＡ、Ｂとし、これに比例したステレオオブジェクトの相対的エネルギー比率に関する情報をそれぞれｘ、ｙとすれば、ステレオオブジェクト信号の左、右チャネルに含まれたエネルギーの値はＡ＊ｘ、Ｂ＊ｙとして求められる。したがって、この値を使用すると、ステレオオブジェクト信号の左右チャネル間のエネルギー比率が計算できる。

上の情報は、オブジェクト信号はモノであるが、ダウンミックス信号がステレオであり、このステレオダウンミックス信号にモノオブジェクト信号がステレオダウンミックスチャネル両側に全て含まれて転送される場合にも使われうる。この場合、モノオブジェクト信号がステレオダウンミックス信号の両チャネルに含まれたエネルギーの比に関する情報、相関に関する情報が必要であり、これはステレオオブジェクトに必要な情報と同一である。モノオブジェクトをステレオダウンミックス信号の両チャネルに含める場合、多くの場合において相関値が１の信号、すなわち、Ｌ、Ｒ両側にレベルの差のみが存在する信号が含まれる。この場合、両信号間の相関は、パラメータ全域にわたって１である場合が存在する。このような場合、データ量を減らすため、該当の相関はパラメータ全域がいずれも１であることを表示する情報を用いて追加的な情報を減らすことができる。このような情報を使用する場合、パラメータバンド全体に対して相関値が１であることを毎パラメータバンドごとに表示せずに、全体パラメータに該当する相関値を一つの値で表示すれば良い。

また、複数のオブジェクト信号を一つのダウンミックス信号に結合すべくオブジェクト信号を加える場合、クリッピングが発生する場合がある。これを防止するため、ダウンミックス信号に特定値を乗じ、ダウンミックス信号の最大値がクリッピング限界を超えないようにするゲイン値が必要である。このゲイン値は、時間によって変わりうる。したがって、この場合、各ダウンミックスチャネルに乗じられるゲイン値に関する情報が必要である。ダウンミックス信号がステレオダウンミックスである場合、このようなクリッピング防止のためのゲイン値は、Ｌ、Ｒそれぞれ独立して存在することとなる。これらの値はそれぞれを独立的に表示して転送することができる。転送されるデータ量を減らすべくゲイン値をそれぞれ独立して転送せずに、ゲイン値の和と比に変形して転送しても良い。このように転送する場合、ゲイン値を別に転送する時よりもダイナミックレンジを減らすことができ、データ転送量を低減させることができる。

また、追加的にデータ転送量を減らす目的で、オブジェクト信号を一つのダウンミックス信号にする時、クリッピングが起きたか否かを表示するビットを備え、該当のビットが、クリッピングがおきたことを知らせる時にのみゲイン値を転送し、該当のビットが、クリッピングがおきていないことを知らせる場合にはゲイン値に関する情報を転送しない方法を使用することも可能である。このようなクリッピングに関する情報は、複数のビットストリームを結合する場合においてダウンミックス信号を結合する場合にもクリッピング防止のために必要である。この時、複数のダウンミックス信号が結合される場合にクリッピング防止のためのゲイン値の逆数だけがダウンミックス信号の和に乗算される。

図１３〜図１６は、オブジェクトベースのオブジェクト情報を構成する多様な方法を説明するための図である。これは、特定オブジェクトの信号がモノ、ステレオだけでなく、マルチチャネルである場合にも適用可能である。

図１３は、マルチチャネルオブジェクト信号を、オブジェクトエンコーダ２２１を通じてダウンミックス信号とオブジェクト情報を生成した後、ダウンミックス信号は他のオブジェクト信号と共に再びオブジェクトエンコーダ２２３を経由するように構成されている。マックス２２５はオブジェクトデコーダ２２１，２２３で生成したオブジェクト情報を併合する作業を行う。

図１４は、ＭＣＵで複数のビットストリームを結合する方法と同様にして、マルチチャネルオブジェクト信号で一つのビットストリームを生成し、残りのオブジェクト信号を用いてビットストリームを生成した後、これらを再び一つの結合されたビットストリームとして生成する形態を示している。

図１５は、マルチチャネルオブジェクトをまず、マルチチャネルエンコーダ２４１でダウンミックス信号とチャネルベースの付加情報として生成する。マルチチャネルエンコーダ２４１から出力されたダウンミックス信号は、残りのオブジェクト信号が入力として入るオブジェクトエンコーダ２４３に一つの独立したオブジェクト信号のように入力される。オブジェクトエンコーダ２４３ではこのダウンミックス信号と残りのオブジェクト信号を用いてオブジェクトビットストリームを生成する。マックス２４５では、マルチチャネルエンコーダ２４１から出力されるチャネルベースの付加情報とオブジェクトエンコーダ２４３から出力されるオブジェクト情報を結合して出力する。

図１６は、マルチチャネルオブジェクトをマルチチャネルエンコーダ２５３に通過させ、残りのオブジェクト信号はオブジェクトエンコーダ２５１を通過させた後、これら両ダウンミックス信号を再びオブジェクトエンコーダ２５５に通過させる構造を示している。ここで、マックス２５７は、二つのオブジェクトエンコーダ２５１，２５５で生成されたオブジェクト情報とマルチチャネルエンコーダ２５３で生成されたチャネルベースの付加情報とを結合させる。

次いで、テレコンファレンスなどでオブジェクトベースのオーディオ符号化が用いられる場合、一つのオブジェクトビットストリームともう一つのオブジェクトビットストリームとが結合され、結合されたビットストリームを生成しなければならない場合について説明する。

図１７は、二つのオブジェクトビットストリームが結合される場合を示している。図１７を参照すると、二つのオブジェクトビットストリームが一つのオブジェクトビットストリームに結合される場合、それぞれのオブジェクトビットストリーム中のＯＴＴボックスに該当するＣＬＤ、ＩＣＣ等の情報を修正する必要がない。ただし、二つのオブジェクトビットストリームに属する二つのダウンミックス信号をダウンミックスする過程で追加のＯＴＴボックスが１つ使われ、かつ、この追加されたＯＴＴボックスによりＣＬＤ、ＩＣＣ情報が追加される。

この場合、既存のそれぞれのオブジェクトビットストリームでツリー構成情報を表現する部分が、２つのビットストリームが結合されながら、統合されたツリー構成情報に変換されなければならない。結局、２オブジェクトビットストリームが結合されながら追加的な構成情報に対する修正と、各ボックスに対するインデクシングなどの修正と、追加されるＯＴＴボックスでの情報計算、２つのダウンミックス信号の再ダウンミックス等の追加作業が必要となるだけで、既存のオブジェクトビットストリームに含まれたオブジェクト信号に関する情報自体を修正する必要はない。これにより、２つのビットストリームを一つのビットストリームに結合する簡単な方法を提供する。

また、図１７で、２つのダウンミックス信号を再びダウンミックスせずに２チャネルダウンミックス信号として持つ場合、すなわち、図１７で、ＯＴＴボックス１１を省く場合、追加的なＯＴＴボックスに対する計算無しで２つのビットストリームを結合することができる。

図１８は、ダウンミックス信号がステレオである場合、独立したオブジェクトビットストリーム間の結合を示す図である。図１８を参照すると、２つ以上の独立したオブジェクトビットストリームを一つの統合されたオブジェクトビットストリームとする場合、それぞれのオブジェクトビットストリームで使われたパラメータバンドの個数が互いに異なる場合が発生しうる。この場合、統合されたパラメータバンドの個数に統合することが必要である。一般的には、２つのオブジェクトビットストリームのうちパラメータバンドの個数が少ない側を、パラメータバンドの個数が多い側に合わせてマッピングする。

マッピングする方法は、各パラメータバンド間のマッピングに対するテーブルを持っており、これによってマッピングを行うことが一般的である。この場合、パラメータバンド拡張によるマッピング方法は簡単な線形的数式によって行うことができる。

マッピング時に複数のバンドが重なる区間では、重なった区間だけの割合でパラメータ値を混ぜる方法を用いることとなる。低複雑度が優先される場合、パラメータバンドの統合は、２つのオブジェクトビットストリームのうち、パラメータバンドの個数が多い側をパラメータバンドの個数が少ない側に合わせてマッピングする場合も可能である。この場合にも、パラメータのマッピングは、上記の場合と同じ方法で行う。

前述した２つ以上の独立したオブジェクトビットストリームを一つの統合されたオブジェクトビットストリームとする場合、既存のオブジェクトビットストリームがそれぞれ持っているパラメータを再計算することなく結合可能である。しかし、ダウンミックス信号を結合する場合、このダウンミックス信号に関するパラメータを再びＱＭＦ／ハイブリッド分析を通じて計算する必要がある。このようなダウンミックス信号に関するパラメータの計算に必要な計算量が相対的に大きく、このため、オブジェクトビットストリームを統合する時に再計算が必要でないという長所がやや薄れてしまう。既存のオブジェクトビットストリーム間の統合の場合にも再計算無しで統合可能なので、ダウンミックス信号間の再ダウンミックス時にもＱＭＦ／ハイブリッド分析／合成過程を行わずにパラメータを抽出できる方法が必要である。このような過程は、オブジェクトビットストリーム上にあらかじめ各ダウンミックス信号のパラメータバンド別エネルギーに関する情報を含めておく方法で解決可能である。この場合、ダウンミックス信号の再ダウンミックス時にパラメータ計算に必要なＱＭＦ／ハイブリッド分析／合成過程無しで、オブジェクトビットストリーム上に含まれているパラメータバンド別エネルギー情報から簡単にＣＬＤのような値を計算することができる。このようなエネルギー情報は、該当のパラメータの全体エネルギー値を表示しても良く、前述したように該当のパラメータで最も大きいエネルギーを持つオブジェクトのエネルギー絶対値を表示しても良い。ＩＣＣのような情報の場合、ダウンミックス信号の時間ドメイン上で求められるＩＣＣ値を全体パラメータに使用する簡単化した方法を使用しても良く、パラメータバンド数よりも少ないバンドで簡単な分析過程を経た後、それに対してＩＣＣ値を求める方法も可能である。

このような場合、複数のダウンミックス信号を再ダウンミックスする過程で信号のクリッピングがおきる可能性がある。したがって、ダウンミックス信号のレベルを減少させて再ダウンミックス時にクリッピングがおきないようにする過程が必要である。このようなクリッピング防止のために信号のレベルを減少させる場合において、該当のレベル調整に関する情報がオブジェクトビットストリームに必要となる。このようなレベル調整に関する情報は、フレーム別に適用可能であり、クリッピングがおきるフレームに対してのみ該当のレベル調整情報を持っており、デコーディング時にこれを逆に適用すると元来の信号のエネルギーレベルを求めることができる。このようなクリッピング防止のための情報を計算する過程は時間ドメイン上で可能なので、ＱＭＦ／ハイブリッド合成／分析を行わなくても良い。

複数のオブジェクトビットストリームを一つのオブジェクトビットストリームに結合することは、図１２のような構造でも可能である。これを図１９に示す。

図１９は、Ｂｏｘ１（２６１）を通じて生成された独立した第１オブジェクトビットストリーム１と、Ｂｏｘ２（２６３）を通じて生成されたオブジェクトビットストリーム２とを、Ｂｏｘ３（２６５）を通じて結合された一つのオブジェクトビットストリーム３として生成する場合を示している。この場合、ビットストリーム１とビットストリーム２に含まれた情報が、前述した特定パラメータバンド内の最も大きいエネルギーを持つオブジェクト信号のエネルギー絶対値と、これと比較した残りのオブジェクト信号の相対的エネルギー比率、Ｂｏｘ１（２６１）とＢｏｘ２（２６３）におけるダウンミックス信号に乗算されたゲイン値に関する情報などである場合、Ｂｏｘ３（２６５）では追加的なオブジェクトパラメータを計算したり抽出する過程無しで入力として入る複数のオブジェクトビットストリームを単純に併合する過程のみが必要となる。

また、Ｂｏｘ３（２６５）に入力として入る複数のダウンミックス信号はＰＣＭ信号に変換した後、単純に加算して一つのダウンミックス信号とする過程のみが必要である。この時、Ｂｏｘ３（２６５）に入力される複数のダウンミックス信号を一つのダウンミックスとして結合する過程でクリッピングがおきる場合がある。したがって、クリッピングを防止するためには追加的にダウンミックス信号にゲイン値を乗じる過程が必要である。この場合、ゲイン値は併合されたオブジェクトパラメータに含まれて転送される。

複数のオブジェクトビットストリームを一つのオブジェクトビットストリームに結合する場合についてより詳細に説明すると、下記の通りである。図１９の例を挙げると、ＳＩＤＥＩＮＦＯＡの特定パラメータには最も大きいエネルギーを持つオブジェクト信号に関する情報とそのエネルギーの大きさの値、この値と比較した他のオブジェクト信号のエネルギー比に関する値などが含まれており、ＳＩＤＥＩＮＦＯＢにも同じ種類の情報が含まれている。この場合、２つのビットストリームを結合して一つのビットストリームとして構成する方法には、下記のような方法が適用可能である。

第一の方法は、２つのビットストリームを追加的な計算によって統合せずに、単純に一つのビットストリーム内に並列式に配置することである。この場合、図２０に示すように、デコーダでは、転送されてきたビットストリーム内に複数のビットストリームが並列式に存在していることを知らせるビット情報に基づいて当該ビットストリームを分析することとなる。

図２０に示すように、一つに結合されたビットストリームを表示する場合、ＭＣＵのように複数のオブジェクトビットストリームを一つのビットストリームに併合する所では単純に複数個のビットストリームが存在するという情報、いくつのビットストリームが結合されたかに関する情報、及び併合される前のビットストリームの位置を区分するビット情報以降に、併合される前の別個のビットストリームを単純に配置すればよい。この場合、デコーダでは、転送されてきたオブジェクトビットストリームが複数のビットストリームが結合されたものかは情報分析によってわかる。この場合、複数のビットストリームを併合するにおいて単純な識別子に該当する情報を加える作業以外には他の付加的な作業をする必要がないという長所がある。しかし、これに関する情報を一定のフレームごとにヘッダに含めなければならないという負担が存在し、デコーダでは毎度転送されてきたビットストリームが最初から一つに生成されたビットストリームなのか、複数個のビットストリームが併合されたビットストリームなのかを判断しなければならない。

上の方法の代案としては、デコーダが複数のビットストリームが一つのビットストリームに併合されたものかが確認できないように若干の計算を通じてビットストリームを併合する方法がある。この場合を図２１に示す。

図２１を参照すると、Ａ、Ｂの最も大きいオブジェクト信号のエネルギーの大きさを比較した後、そのうちより大きいオブジェクト信号を併合されたストリームでエネルギーの最も大きいオブジェクト信号と定める。このオブジェクト信号が含まれていたビットストリームに含まれたオブジェクト信号のエネルギー比はそのまま使用し、他のビットストリームに含まれたオブジェクト信号のエネルギーはＡ、Ｂの最も大きいエネルギーの比だけを乗じて再び計算をする。この場合、パラメータバンド内で最も大きいエネルギーを持つオブジェクト信号と残りのオブジェクト信号間のエネルギーの大きさの比を再び計算しなければならないが、複雑度はあまり高くない。デコーダでは、転送されてきたオブジェクトビットストリームが複数のビットストリームが併合されたビットストリームなのか否かが確認できないので、一般的な方法を使用してデコーディングできるという長所がある。

もし、ダウンミックス信号がステレオである場合にも２つのオブジェクトビットストリームの結合は、モノダウンミックス信号のオブジェクトビットストリームの結合におけると類似の方式で可能であり、このような結合は、既存にそれぞれのオブジェクトビットストリームが持っていたオブジェクト信号に関する情報を再び計算せずに使用することができるという点から、簡単な結合方法であることがわかる。このようにオブジェクトビットストリームの構造は、最初にオブジェクト信号をダウンミックスするツリー構造に関する情報が置かれた後、各ツリーの枝に該当するボックスから得られたオブジェクト信号の情報が続く形態で構成されうる。

以上のオブジェクトビットストリームでは、特定オブジェクト信号１つがダウンミックスチャネルのたった一箇所に存在する場合について説明した。すなわち、ダウンミックス信号がステレオである場合であり、特定オブジェクトの信号がステレオダウンミックス信号の両側に存在する場合についての説明がさらに必要である。このような場合は主として、オブジェクトオーディオ符号化の下位互換性に対する条件でダウンミックス信号のみを既存のステレオ再生機で再生する場合を考慮することによって発生する。すなわち、一般的なステレオ信号の場合、一つのオブジェクト信号が一方のチャネルにのみ存在するのではなく両チャネルに存在する場合が大部分である。この場合、該当するダウンミックス信号を生成するときにおいてオブジェクトビットストリームを生成する方法は、下記の通りである。

図２２は、複数のオブジェクト信号をミキシングしてステレオダウンミックス信号を生成する方法を説明するための図である。図２２には、４個のオブジェクト信号がミキシングされて、Ｌ、Ｒのステレオ信号としてダウンミックスされる過程が示されている。

このような場合、特定オブジェクト信号がダウンミックスチャネルのＬ、Ｒ両側に含まれていることがわかる。特定オブジェクト信号がＬ、Ｒ両側チャネルに分配される過程は、次の通りである。図２２で、オブジェクト１信号は、ＬとＲにａ：ｂの割合で分配して入力されている。これを数式にすると、下記の通りである。

上記のような式から、各オブジェクト信号がＬ、Ｒに分配された比率がわかると、特定オブジェクト信号がＬ、Ｒ両方に含まれた場合にも、Ｌ、Ｒにオブジェクト信号がどんな割合で含まれているかがわかる。すなわち、オブジェクト信号がステレオダウンミックスチャネルの両側に含まれた場合、これに対する比、すなわち、上の式でａ、ｂ値に関する情報が追加的に必要である。以降、Ｌ、Ｒの各チャネルにＯＴＴボックスによるダウンミックスを通じてＣＬＤ、ＩＣＣ等のオブジェクトに関する情報を計算することは、図２３に示されている。

図２３に示すように、ダウンミックスを進行しながら各ＯＴＴボックスで得られたＣＬＤ、ＩＣＣ情報と、前述したＬ、Ｒに分配されたオブジェクト信号の分配比率に関する情報を持っていると、以降最終使用者がオブジェクト位置、プレイバック構成情報を変化させる場合にこれに対して適応的に変化されるマルチチャネルビットストリームを計算することができる。また、ダウンミックス前処理過程でステレオダウンミックス信号に変形を加えなければならない場合、その変形情報を求めて前処理部に伝達することも可能である。言い換えると、オブジェクト信号の分配比率、すなわち、上記の式３におけるａ、ｂの値がない場合、ステレオオブジェクト信号の場合、マルチチャネルビットストリームを計算する方法や、ダウンミックス前処理部で処理しなければならない情報を求める方法がない。上記のａ、ｂの比率を表現する方法は、ａ、ｂのそれぞれの値に対して表現する方法と、ａとｂの比率を一つのｄＢ値で表現する方法などが可能である。

上述した場合、すなわち、オブジェクト信号がステレオダウンミックス信号の全てに含まれている場合には、該当の信号のチャネル間の分配比率に関する情報が必要である。この時、この情報は、前述したように該当のオブジェクト信号の単純なチャネル間のレベルの比率であっても良いが、より複雑な場合、周波数バンド別にその比率が異なって適用されうる。この場合には前述した比率ａ、ｂに関する情報が周波数バンド別にそれぞれ与えられなければならない。また、このような情報が後で適用される場合においても該当のオブジェクト信号のチャネル間の情報を使用する場合、各パラメータバンド別に与えられた比率情報を使用しなければならない。また、より複雑なダウンミックス過程を経た場合、すなわち、一つのオブジェクト信号がダウンミックスされたチャネル両側に含まれ、バンド別にＩＣＣ値に変化を与えてダウンミックスされた場合、これに関する情報も追加的に必要である。これは、最終的にレンダリングされたオブジェクト出力信号をデコーディングする過程で必須となる。また、このような方法は、前述したオブジェクトの全ての可能な構造に適用可能である。

次に、前処理過程について、図２４〜図２７を参照して詳細に説明する。オブジェクトデコーダに入力されるダウンミックス信号がステレオ信号である場合、このダウンミックス信号はオブジェクトデコーダ内のマルチチャネルデコーダの入力として入る前に前処理過程を経なければならない。その理由は、前述したように、マルチチャネルデコーダは、ステレオダウンミックス信号を受けてマルチチャネル信号をデコーディングする過程で、ダウンミックス信号の左チャネルに位置した信号をマルチチャネルの右側チャネルにマッピングすることができないためである。したがって、最終使用者がステレオダウンミックスのうち左チャネルに属しているオブジェクト信号の位置を右方向に変更させようとする場合、ステレオダウンミックスチャネルに対して前処理過程を行ってからマルチチャネルデコーダに入力させなければならない。

このようなステレオダウンミックス信号の前処理過程は、オブジェクトビットストリームとレンダリングマトリクスから前処理情報を求めた後、この情報を用いてステレオ信号に適切な処理をすることで完了する。ここでは、オブジェクトビットストリームとレンダリングマトリクスから前処理情報を求め、これをステレオダウンミックス信号に適用する方法について説明する。

図２４は、オブジェクト１〜４の総４個のオブジェクト信号がステレオダウンミックスとして構成される過程を示している。図２４を参照すると、オブジェクト１信号とオブジェクト２信号の場合、それぞれａ：ｂ、ｃ：ｄの割合で分割されてＬ、Ｒチャネルに含まれており、オブジェクト３信号はＬチャネルにのみ、オブジェクト４はＲチャネルにのみ含まれている。これらのオブジェクト信号のそれぞれはＯＴＴボックスを経由しながらＣＬＤ、ＩＣＣ等の情報を生成し、ダウンミックス信号となる。

このような場合、最終使用者がオブジェクト信号の位置とレベル調整値を設定し、上記の式１のような形式のレンダリングマトリクスを得たとする。ここでは最終再生チャネルが５チャネルである場合を挙げると、そのレンダリングマトリクスの例は、下記の式４で示される。

上記の式４で表現したレンダリングマトリクスを、上記のレンダリングマトリクスの説明方法によって説明すると、次の通りである。一応、レンダリングマトリクスの値は整数値を使用するフォーマットで表現され、各行の５列の和は１００になる時に該当のオブジェクト信号のレベル変化がないと仮定した。また、この和が１増えたり減ったりする度に該当のオブジェクト信号のレベルが１ｄＢずつ増減することを表現することとし、５列の順序が表すチャネルの位置はＦＬ、ＦＲ、Ｃ、ＲＬ、ＲＲとする。

オブジェクト１信号の場合について説明すると、レンダリングマトリクスで表現されるオブジェクト１信号のチャネル間の分布は［３０１０２０３０１０］で表現される。これら係数の和が１００であるので、オブジェクト１信号は、レベル変化はなく、単に空間上の位置のみ変化されることがわかる。これを左側と右側の２方向に分けると、Ｌｅｆｔ＝３０＋３０＋２０＊０．５＝７０、Ｒｉｇｈｔ＝１０＋１０＋２０＊０．５＝３０で表現される。すなわち、レンダリングマトリクスは、オブジェクト１信号に対してレベルは変化せずに、左側に７０％、右側に３０％分布させるという情報を知らせる。和が１００より小さいか大きい場合、これはオブジェクト信号レベルの変化を意味し、これはダウンミックス信号の前処理過程で処理しても良く、チャネルベースの付加情報にＡＤＧ形態に変換して転送しても良い。

ダウンミックス信号の前処理を行うためには、ダウンミックス信号をＱＭＦ／ハイブリッド変換を経た信号に、各ＯＴＴボックスでパラメータを抽出する時のパラメータバンド別に信号の分布比を計算した後、これをレンダリングマトリクスの設定に合うように再分布させなければならない。このような再分布方法には様々な方法がある。

第一の再分布方法は、左側、右側の各チャネル別にＯＴＴボックスのＣＬＤ、ＩＣＣなどを用いて左側、右側の信号のそれぞれに対して、マルチチャネルコーデックでＯＴＴボックスを含む場合に各信号をデコーディングするのと同様にして各オブジェクト信号をデコーディングする。このように左側、右側の信号のそれぞれに対してデコーディングを行うと、各信号に含まれていたオブジェクト信号を求めることができる。この時、計算量を減らすべくＩＣＣは用いずに、ＣＬＤのみを用いてデコーディングをすることができる。特定オブジェクト信号が左側、右側の両側に含まれている場合、該当のオブジェクト信号が左側、右側にどんな割合で含まれているかは、前述したように、該当の情報からわかる。

このようにして求められた信号を、レンダリングマトリクスから分かる左側、右側の信号比率に合うように、レンダリングマトリクスの比率よりも多く含まれている側の信号からその分だけを引いた後、これを他の側のチャネルオブジェクト信号に加える作業を行うことで、各オブジェクト信号の分配が完了する。このように分配が完了した信号を再びＯＴＴボックスなどを通じて各チャネル別にダウンミックスをすることで、ダウンミックス前処理過程が完了する。直前のチャネル別オブジェクト信号のダウンミックスを通じてＯＴＴボックスのＣＬＤ、ＩＣＣなどは再計算される。このような方法はマルチチャネルデコーディングで使用した方法を再使用可能であるという長所はあるが、各チャネルに対してオブジェクト信号数だけの信号をデコーディングし、これを再分配した後にチャネル別にダウンミックス過程を行わなければならない。

第２の再分布方法は、左側、右側チャネルのそれぞれの信号において全てのオブジェクト信号をそれぞれデコーディングせずに、一度で左側のダウンミックス信号のうち右側のダウンミックス信号側に移されなければならない部分、右側のダウンミックス信号のうち左側のダウンミックス信号側に移されなければならない部分を構成する方法が可能である。これを簡単に表示すると、図２５のようになる。図２５では、図２４のようにダウンミックスされた信号の例でダウンミックス前処理する状況を仮定した。

同図において、Ｌ信号において左側に残るようになる信号Ｌ＿Ｌと右側に加えられなければならない信号Ｌ＿Ｒを求める方法は次の通りであり、これは、Ｒ信号においてＲ＿ＬとＲ＿Ｒ信号を求める方法にも同様に適用される。まず、Ｌ、Ｒ信号においてオブジェクト信号がどのような比率となっているかを知らなければならない。これは、上記の式２におけるａ、ｂ値に該当するものである。式２では、オブジェクト１信号がＬとＲにａ：ｂの割合で分配されていることが示されている。ここにレンダリングマトリクスから求められるＬ’とＲ’におけるオブジェクト１に対する比率を求めることができる。式３の例では、この比率が７：３として得られることがわかる。ここで、これら２つの情報、すなわち、オブジェクト１信号のＬ、Ｒの比率ａ：ｂとＬ’、Ｒ’の比率７：３とを比較すると、オブジェクト１信号がＬ、ＲからＬ’、Ｒ’の割合に変わるためにはＬ、Ｒ信号のいずれかからどれほどの比率を抽出して残りの一方に加えられるべきかに関する値を得ることができる。

このような方法を用いると、オブジェクト２、３、４信号に対してもそれぞれ、Ｌ、Ｒ信号のどちらの成分をどれほど抽出して残りの他方に加えるべきかに関する情報を求めることができる。これは、図２５でＬから抽出されてＲ’側に加えるＬ＿Ｒと、Ｒから抽出されてＬ’側に加えられるＲ＿Ｌに対する比率に関する情報を計算したことに該当する。この情報と一緒にＬ、Ｒ各チャネルのＯＴＴボックスのＣＬＤ、ＩＣＣ情報を用いると、各パラメータバンド別にどんな割合でＬの信号をＬ＿Ｌの信号とＬ＿Ｒの信号とに分割する場合にオブジェクト１、２、３、４信号に対して所望の比率のままに分割された信号が得られるかに対する最終比率値を求めることができる。

以上ではＬをＬ＿ＬとＬ＿Ｒとに分ける時にエネルギーの比率をどのように分割するかについて説明した。ここに加えて、Ｌ＿ＬとＬ＿Ｒ間のＩＣＣ値も決定しなければならない。これもまた、パラメータバンド別にＬ信号に対するＯＴＴボックスのＩＣＣ情報から求めることができる。すなわち、既存ＯＴＴボックスでオブジェクト間のＩＣＣ値がわかるので、Ｌ＿ＬとＬ＿Ｒでオブジェクト間の比率を通じて最終ＩＣＣ値を求めることが可能になる。これにより、ＬをＬ＿Ｌ、Ｌ＿Ｒ信号に、またＲをＲ＿Ｌ、Ｒ＿Ｒ信号に分けた後、この信号に対してＬ＿ＬとＲ＿Ｌ、Ｌ＿ＲとＲ＿Ｒを合算し、最終的にダウンミックス前処理が完了したＬ’とＲ’得ることができる。

上記した第２の方法について具体的な数字を挙げて説明すると、次の通りである。まず、ダウンミックス信号であるＬとＲは、図２４のような過程によって得られるとしよう。また、オブジェクト１信号は、Ｌ、Ｒに１：２の割合で含まれており、オブジェクト２信号は２：３の割合で含まれているとする。また、オブジェクト３信号はＬにのみ含まれていて１：０の割合で表現でき、同様にオブジェクト４信号はＲにのみ含まれていて０:１の割合で表現できるとする。図２５からわかるように、各チャネルでオブジェクト信号がＯＴＴボックスを経てダウンミックスされ、ＣＬＤ、ＩＣＣなどの情報を得ることとなる。

レンダリングマトリクスの例は式４に示した。これは、上記の式３で用いた例と同一である。該当のレンダリングマトリクスには最終使用者が設定したオブジェクト信号の位置ｎに関する情報が入っており、また、これを通じてダウンミックス前処理過程で得られるＬ’、Ｒ’に関する情報を求めることができる。レンダリングマトリクスの構成とこれを解析する方法については、上記の式３で説明した通りである。

レンダリングマトリクスを通じて得られる、オブジェクト１〜４信号のＬ’、Ｒ’に分布される比率は、下記の式５のように計算される。

Ｌ、Ｒ信号に分布されていたオブジェクト１〜４信号の比率は前述した通りであり、下記の式６で表現される。

上記の式５で、オブジェクト３のＬ’、Ｒ'比率の和は１１０、オブジェクト４のＬ’、Ｒ’比率の和は９５であり、これは、オブジェクト３は２５だけのレベルが大きくなるということを、オブジェクト４は５だけのレベルが小さくなるということを意味する。このＬ’、Ｒ’比率の和が１００であるとレベルの変化が無いことを意味し、１増加したり減少することが該当のオブジェクトのレベルが１ｄＢ増加または減少するということを意味する場合、オブジェクト３信号は、１０ｄＢレベル増加したことを、オブジェクト４信号は５ｄＢレベル減少したことを意味することとなる。

上記の式５及び６に表現したオブジェクト１〜４信号に対するＬ、Ｒでの比率とレンダリングマトリクスを経た後に得られるＬ’、Ｒ’での比率とを比較しやくするため、比率の和が１００となるように再び表現すると、下記の式７のようになる。

上記の式７から、ダウンミックス前処理前後に各オブジェクトが左側、右側にどんな分布とされているか、このような結果を得るためにダウンミックス信号の左側、右側信号においてどのオブジェクト信号がどちらにどれだけ再分配されるべきかが容易にわかる。例えば、オブジェクト２信号の場合、４０：６０から３０：７０へと比率が変わったが、これはダウンミックス前処理を通じてＬ側のオブジェクト２信号の成分４０から１０がＲ側へと移動しなければならないということを意味する。これは、Ｌに含まれているオブジェクト２の成分の２５％（１０／４０＊１００）がＲ側に移動しなければならないということを意味する。これについて再び整理すると、下記の式８の通りである。

式８を参照して図２５のＬ＿Ｌ、Ｌ＿Ｒ、Ｒ＿Ｌ、Ｒ＿Ｒを表現すると、下記の式９のようになる。Ｌ信号に対して特定パラメタでオブジェクト１〜３信号が占める比をＬに対して示すと、下記の式９のようになる。式の複雑度を減らすためにパラメータ表示はしない。

上記の式９で、各オブジェクト信号の値をＯＴＴボックスのＣＬＤを用いてＬ、Ｒに対する比で表現すると、下記の式１０のようになる。ちなみに、下記の式１０の値は、パラメータバンド別に表現されなければならないが、式の複雑性を避けるためにパラメータ表示はしないものとする。ここで、ＣＬＤは離脱量子化された値を意味するとする。

図２５で、各パーシング部で用いられるＣＬＤは、下記の式１１で求められ、式１０に代入すると具体的な値が得られる。

このような方式で、図２５においてＬからＬ＿Ｌ、Ｌ＿Ｒ信号を生成するパーシング部に用いられるＣＬＤとＩＣＣを求めることができ、同様に、ＲからＲ＿Ｌ、Ｒ＿Ｒ信号を生成するためのＣＬＤとＩＣＣを求めることができる。これを用いて各信号を生成した後、同図のように、Ｌ＿ＬとＲ＿Ｌとを合算し、Ｌ＿ＲとＲ＿Ｒと合算することで、ダウンミックス前処理されたステレオ信号が得られる。最終再生チャネルがステレオである場合には、ダウンミックス前処理が完了したＬ’、Ｒ’信号を出力として用いることができる。この場合、特定オブジェクト信号のレベルが増加または減少した場合に対してはまだ処理されていないので、この処理ができるモジュールを選択的に追加することができる。該モジュールの機能は、マルチチャネルデコーディングでＡＤＧが行う処理過程と同一である。また、追加的にこのようなオブジェクト信号のレベル処理を、前述したダウンミックス前処理過程内に追加することも可能である。この場合にも、レベル処理方法はＡＤＧ処理方法と同一である。

図２５は、図２６のような方法で表現しても良い。図２６では、図２５とは違い、リミックスされた出力Ｌ’、Ｒ’信号の相関値を合わせるためのデコリレーション作業が第１及び第２パーシング部で行われずに、Ｌ’あるいはＲ’信号の出力に適用されている。Ｐｒｅ＿Ｌ’とＰｒｅ＿Ｒ’の信号はＬ、Ｒ間のエネルギーレベル差が補正された信号を意味する。このうちいずれか一方の信号にデコリレータを適用した後、ミキシング過程を通じて相関値に該当する信号を生成する。

前述したダウンミックス前処理を経たステレオ信号は、マルチチャネルデコーダに入力される。最終使用者が設定したオブジェクト位置とプレイバック構成に合うマルチチャネル出力を生成するためには、ダウンミックス前処理の出力信号と共にマルチチャネルデコーディングのためのチャネルベースの付加情報が必要である。このようなチャネルベースの付加情報を求める方法を、上記の例について説明すると、次の通りである。ダウンミックス前処理を経て出力された信号Ｌ’、Ｒ’がマルチチャネルデコーダの入力信号として入力されるので、この信号に対して式５を参照して再び整理すると、下記の式１２のようになる。

また、上記の式２のレンダリングマトリクスで各チャネルに対するオブジェクト信号の分布を式で表示すると、下記の式１３のようになり、Ｌ’、Ｒ’が５．１チャネルに拡張される構造は、図２７に示す。

図２７で、各ＴＴＴボックスとＯＴＴボックスのパラメータを計算しなければならない。この場合にも、パラメータの計算はパラメータバンド別に行われる。以降の式においてもパラメータバンドの表示がされていなければならないが、式の簡単化のためにパラメータバンド表示は省略する。ＴＴＴ、ＯＴＴボックスのパラメータ計算式は、パラメータバンド単位に行われることに留意されたい。

図２７で、ＴＴＴボックスはエネルギーベースモードと予測モードの２種類のモードに使われうる。エネルギーベースモードで動作する場合には２個のＣＬＤが必要であり、予測モードに使われる場合には２個のＣＰＣと１個のＩＣＣが必要である。

エネルギーベースモードの場合、ＣＬＤを求めるためには、図２７でＬ"、Ｒ"、Ｃのエネルギー比率を知らなければならない。これは、式６、１０、１３を通じて求めることができる。Ｌ"のエネルギーを求める方法は式１４に示されており、Ｒ"、Ｃに対しても同一式を適用すれば良い。

上記の式１４と同一の方法でＲ"、Ｃに対してもエネルギーを求めることができる。このようにして求めたＬ"、Ｒ"、Ｃのエネルギーを用いてエネルギーベースモードにおけるＴＴＴボックスに使われるＣＬＤ値を求めることができ、これは、式１５で示される。

上記の式１４では式１０における値が使われた。この時、オブジェクト１、２の各信号に対して代入された値は、式１０で左チャネルに対する値が使われた。これと同じ方法で、式１０で右チャネルに対する値を代入して計算することもできる。これから推論できる点は、図２６で右チャネルのＯＴＴ３、ＯＴＴ４のＣＬＤ、ＩＣＣの値をＯＴＴ１、ＯＴＴ２のＣＬＤ、ＩＣＣ値から計算できるという事実である。これは全てのオブジェクト信号のツリー構造に適用可能なわけではなく、特殊なケースに該当する。この場合、オブジェクトビットストリームに含まれて転送されてくる情報をＯＴＴボックスのそれぞれに転送しても良く、一部のＯＴＴボックスにのみ転送した後、転送しなかったボックスに関する情報は計算を通じて得ても良いということを意味する。

上記と類似の方式として、ＯＴＴボックスＡ、Ｂ、Ｃに対してもＣＬＤ、ＩＣＣパラメータを計算することができ、計算されたマルチチャネルパラメータをマルチチャネルデコーダの入力として伝達し、マルチチャネルデコーディングを行うと、最終ユーザーの所望するオブジェクト位置とプレイバック構成に合うようにレンダリングが完了したマルチチャネル信号が得られる。

上記のマルチチャネルパラメータには、オブジェクト信号レベルに変化がある場合、該当のレベルがダウンミックス前処理で調整されなかったとき、マルチチャネルパラメータにＡＤＧ形態で含まれて転送され、マルチチャネルデコーディング過程上でオブジェクト信号のレベルを修正する。上記の例においてレベル補正がダウンミックス前処理過程で調整されなかった場合にＡＤＧ値を計算する方法は、下記の通りである。

上記の例で、オブジェクト信号のレベル調整は、レンダリングマトリクスによってオブジェクト３信号に対して１０ｄＢ大きくなり、オブジェクト４信号に対して５ｄＢ小さくなるように設定された。これはＡＤＧが適用されるＬ’、Ｒ’信号に対しては、Ｌ’信号でオブジェクト３信号が５ｄＢ大きくなり、オブジェクト４信号に対して２．５ｄＢ小さくなるように設定され、Ｌ’信号でオブジェクト３が５ｄＢ大きくなり、オブジェクト４に対して２．５ｄＢ小さくなるように設定された。Ｌ’信号でオブジェクト３、４のレベル調整がなされる以前と以降の比率を計算すると、下記の式１６のようになる。

この式１６に上記の式１０の値を代入することによって値を求めることができる。Ｒ信号に対しても同じ方法でＡＤＧ適用前後のエネルギーの比を求めることができる。このようにして求められた値は、オブジェクト信号のレベル調整前後における該当のパラメータバンドのエネルギー変化の比率であるから、これを通じてＡＤＧ値を求めることができる。ＡＤＧ値は、次の式１７で求められる。

このようにして求められたＡＤＧ値は、マルチチャネルデコーディングのＡＤＧ量子化テーブルによって量子化されて転送される。また、マルチチャネルデコーディングのＡＤＧテーブルを使用する場合よりもさらに精密な調整が必要な場合、該当の情報をＡＤＧの形態で転送し、マルチチャネルデコーダに適用せずにダウンミックス前処理部で行うことも可能である。

一方、オブジェクトビットストリームでオブジェクト信号を表現する時に使用したパラメータバンドと、マルチチャネルデコーダで使われるパラメータバンドの個数及びバンド間の間隔が異なる場合がありうる。この場合、オブジェクトのパラメータバンドからマルチチャネルデコーダのパラメータバンドにマッピングする方法が必要である。このとき、線形的なマッピング方法を使用する。線形的なマッピングとは、例えばオブジェクトの特定パラメータバンドの領域がマルチチャネルデコーダの特定パラメータバンドの２箇所にわたっている場合、２箇所に含まれている領域の比率でオブジェクトのパラメータを分割して適用することを意味する。これは、オブジェクトの複数のパラメータバンドがマルチチャネルデコーディングの特定パラメータの１箇所に含まれた場合、これらオブジェクトパラメータの平均値を適用することを意味する。また、既にマルチチャネル標準に含まれているバンド間のマッピングテーブルを使用しても良い。

テレコンファレンスの場合においてオブジェクトコーディングを使用する状況を取り上げると、オブジェクト信号には多数の話し手の音声が該当し、オブジェクトデコーダではこれらのオブジェクト信号のそれぞれに該当する音声を特定スピーカーから再生することとなる。このように同時に多数の話し手が話をする場合、各話し手の信号を正確に区分し、それぞれのスピーカーに特定の話し手に該当する人の音声が配置されるようにデコーディングすることは難しい。この場合、オブジェクト信号に該当する話し手をそれぞれ異なるスピーカーに配置するようにする、すなわち、レンダリングする過程が、むしろダウンミックス信号よりも認識度が悪くなる程度の音質歪みを引き起こすという恐れがある。このような歪みを防止するため、一人が話をしているのか、同時に数人が話をしているのかを表す情報を含めることができる。このような情報によって、多数の話し手が同時に話す場合、敢えてそれぞれのオブジェクト信号を特定スピーカーに配置させるデコーディング作業をすることによって音質の歪みを誘発させずに、むしろダウンミックス信号に近い程度とほとんどデコーディングをしない信号が各スピーカーに出力されるようにトランスコーダのチャネルベースビットストリームを調整する方法が可能である。

例えば、ａ、ｂ、ｃ、ｄ、ｅと５人の話し手に該当するオブジェクト信号があり、これらをそれぞれＡ、Ｂ、Ｃ、Ｄ、Ｅというスピーカーに配置されるようにデコーディングする場合が考えられる。もしａ、ｂ、ｃの３人の話し手が同時に話す場合、ダウンミックス信号はａ、ｂ、ｃの３人の話し手の音声がダウンミックスされて含まれている。この場合、一般的なオブジェクトデコーディング過程は次の通りである。まず、ａ、ｂ、ｃの音声が含まれたダウンミックス信号でａ、ｂ、ｃの音声に該当する部分に関する情報をマルチチャネルビットストリームに構成し、Ａスピーカーからａの音声が出力され、Ｂスピーカーからはｂの音声が出力され、ｃスピーカーからはｃの音声のみ出力されるようにデコーディングが行われる。しかし、このようにする場合、各スピーカーからは該当の音声信号が歪んだ状態で出力され、むしろダウンミックス信号の場合よりも認識率が低下し、話し手間の音声が完璧に分離されないという不都合がある。このような場合、ａ、ｂ、ｃが同時に話しているという情報がＳＡＯＣビットストリーム上に含まれて伝達されると、トランスコーダではＡ、Ｂ、Ｃスピーカーから該当のダウンミックス信号がそのまま出力されるようにマルチチャネルビットストリームを生成する。これにより、信号の歪みが防止される。

多数の人が同時に話す場合、実際にも特定の一人が話す声のみを聞くことはできないので、人々の声をそれぞれ分離して所望の位置に出力させて歪みを発生させることより、ダウンミックス信号をそのまま出力することがより実際の環境に近いといえよう。この場合、トランスコーダで、同時に話している人々に該当するスピーカーにダウンミックス信号がそのまま出力されるようにマルチチャネルビットストリームを生成しても良いが、該当のスピーカーに該当する話し手の音声が歪みを発生させないような範囲で相対的にやや大きく出力されるようにマルチチャネルビットストリームを生成しても良い。

また、オブジェクトビットストリームに複数の話し手が同時に話をしているか否かを表示して伝達せずに、オブジェクトエンコーダでこれを勘案してオブジェクトビットストリームを変形して伝達することも可能である。この場合、オブジェクトデコーダでは普段のとおりにデコーディングをするが、複数の話し手が話している場合、複数の話し手に該当するスピーカーの出力がダウンミックス信号、あるいは、対応するスピーカーに該当する話し手の音声が歪みの生じないような範囲でやや大きくなった信号がデコーディングされて出力されることとなる。

次に、マルチチャネルデコーダに伝達されるＨＴＲＦなどのような３Ｄ情報について説明する。

オブジェクトデコーダがバイノーラルモードで再生される場合、オブジェクトデコーダ内に含まれたマルチチャネルデコーダがバイノーラルモードで作動する。この時、最終使用者が各オブジェクト信号を空間上に位置させた情報に基づいて最適化されたＨＲＴＦなどのような３Ｄ情報が、マルチチャネルデコーダに転送される。

このときに転送される３Ｄ情報を求める方法を、オブジェクト信号２個が任意の位置１、２に位置している場合を例に挙げて説明する。このような場合、位置１、位置２に該当する３Ｄ情報は、レンダリングマトリクス生成部あるいはトランスコーダに含まれている。レンダリングマトリクス生成部に３Ｄ情報が含まれている場合、該当のオブジェクト信号が位置している位置に該当する３Ｄ情報をトランスコーダ側に転送する。３Ｄ情報がトランスコーダに含まれている場合、レンダリングマトリクス生成部は単に該当のオブジェクト信号が位置している位置に関する情報、すなわち、どの位置に該当の３Ｄ情報を使用すべきかに関するインデックス情報のみをトランスコーダに転送する。

このようにオブジェクト信号が２個あり、該当の位置に関する３Ｄ情報がある場合、バイノーラル信号は下記の式１８から得られる。

マルチチャネルバイノーラルデコーダでは、５．１チャネルスピーカー再生を仮定した状態で、５個のスピーカー位置に関する３Ｄ情報を用いてバイノーラルサウンドをデコーディングする。これを理論的な式で表すと、下記の式１９のようになる。

式１８と式１９からオブジェクト１信号の左チャネルに対する部分のみを別に分離すると、下記の式２０で表現できる。同様に、オブジェクト１の信号の右チャネルに対する部分と、オブジェクト２信号の左側、右側チャネルに対する部分も、式２０で表現できる。

例えば、オブジェクト１信号とオブジェクト２信号の全体エネルギーの比率をａ：ｂとする。また、オブジェクト１信号がＦＬチャネルに含まれた比率をｃ、オブジェクト２信号がＦＬチャネルに含まれた比率をｄとすれば、ＦＬでオブジェクト１信号とオブジェクト２信号が占めている比率はａｃ：ｂｄとなる。この場合、ＦＬのＨＲＴＦは下記の式２１から得られる。

上記のような方法によってマルチチャネルバイノーラルデコーダに使われる３Ｄ情報を求めることができる。このようにして求められた３Ｄ情報を用いてバイノーラルデコーディングを行う場合、マルチチャネルデコーディングにおいて５個のスピーカー位置に固定されている３Ｄ情報を使用する時よりも、実際オブジェクト信号が位置している所に該当する３Ｄ情報を使用することができるため、より実感溢れるバイノーラル信号を再生することができる。

このようにオブジェクト信号の空間上に位置している所に該当する３Ｄ情報からマルチチャネルバイノーラルデコーダに使われる３Ｄ情報を計算する方法は、上記のようなエネルギー比率に関する情報のみを用いて行っても良いが、各オブジェクト信号間のＩＣＣ情報に基づいて各オブジェクト位置に該当する３Ｄ情報を加算する時に、適切なデコリレーション過程を経て加算する方法を追加しても良い。

次に、エフェクトプロセシングは、ダウンミックス前処理中に含めて処理する場合と、エフェクト結果をマルチチャネルデコーダ出力に加える場合とに分けることができる。ダウンミックス前処理中に含める場合において、特定オブジェクト信号に対するエフェクトを処理しようとする場合、前述したようにダウンミックス前処理においてＬ信号をＬ＿Ｌ、Ｌ＿Ｒ信号に分け、Ｒ信号をＲ＿Ｌ、Ｒ＿Ｒ信号に分ける過程に加えて、エフェクト処理を希望する信号を別個に抽出しなければならない。これは次の方法で処理可能である。

第一に、Ｌ、Ｒ信号から該当のオブジェクト信号を抽出し、これを除くオブジェクト信号に対してＬ＿Ｌ、Ｌ＿Ｒ、Ｒ＿Ｌ、Ｒ＿Ｒ信号を生成した後、別に抽出したオブジェクト信号に対してエフェクト処理をし、続いて、この信号はレンダリングマトリクスの情報によって左側、右側の信号に分け、左側信号はＬ＿Ｌ、Ｒ＿Ｌ信号にさらに加え、右側信号はＬ＿Ｒ、Ｒ＿Ｒ信号にさらに加える方法がある。

第二に、Ｌ’、Ｒ’信号を生成した後、この信号からエフェクト処理しようとするオブジェクト信号の成分を抽出した後、エフェクト処理後に再び加える方法がある。

エフェクトプロセシングの場合、特定オブジェクト信号のスペクトラム形態を変えても良い。例えば、特定オブジェクト信号に対して全体レベル調整だけでなく、高音成分を増やしたり、低音成分を増やしたりしたい時、該当のスペクトラム領域に対してのみレベル調整を行うことが可能である。このような処理をする場合、スペクトラムの値が変形されたパラメータバンドの場合、オブジェクトビットストリームを通じて受け取ったオブジェクト信号の情報を修正する必要がある。例えば、特定オブジェクト信号の低音成分を増やしたと仮定する場合、該オブジェクト信号の低音領域のエネルギーが大きくなるため、これに関する情報がオブジェクトビットストリームを通じて受け取ったものと異なってくる。これを修正するため、オブジェクトビットストリーム自体で当該オブジェクト信号に関する情報を修正する方法を使用することができる。また、スペクトラム変化に関する情報をトランスコーダで受信してマルチチャネルビットストリームを生成するとき、この変化を適用してマルチチャネルビットストリームを生成する方法も可能である。

図２８〜図３３は、複数のオブジェクト情報と複数のダウンミックス信号を一つのオブジェクト情報とダウンミックス信号に結合する場合を説明するための図である。テレコンファレンスなどでは、複数のオブジェクト情報と複数のダウンミックス信号を、一つのオブジェクト情報とダウンミックス信号に結合しなければならない状況が発生し、このような場合、下記の事項を考慮しなければならない。

まず、図２８は、オブジェクト符号化されたビットストリームの一例を示す。図２８に示すように、オブジェクト符号化されたビットストリームは、ダウンミックス信号とオブジェクト情報が互いに時間的に整合されている。したがって、このようなビットストリームは、オブジェクトデコーダで追加の考慮事項無しでデコーディング過程を行うことができる。しかし、複数のビットストリームを一つのビットストリームに結合する場合、状況によってはダウンミックス信号とオブジェクト情報間の時間的整合を補正しなければならない場合が発生することができる。

図２９は、オブジェクト符号化されたビットストリームが結合される最も簡単な場合の例を示している。図２８の表示方法と同様に、四角形の上に付した数字１、２、３はフレーム番号を示し、四角形の上段はオブジェクト情報を、下段はダウンミックス信号を示す。そして、２つのオブジェクト符号化されたビットストリームはそれぞれＢＳ１とＢＳ２で示す。

図２９を参照すると、ダウンミックス信号を一つに結合するためにはまず、圧縮コーデックで圧縮されているダウンミックス信号をＰＣＭ（Ｐｕｌｓｃｏｄｅｍｏｄｕｌａｔｉｏｎ）信号に変換し、これを時間ドメイン上でダウンミックスした後、再び圧縮コーデック形式に変換する過程を行うこととなる。この過程で図２９の（ｂ）に示すように、ディレーｄが発生する。したがって、一つに結合されたビットストリームをデコーディングする場合にダウンミックス信号とオブジェクト情報との時間的整列に留意しなければならない。

このような状況の発生時に、総ディレー値がわかるとそのディレー分だけを補正しなければならない。このようなディレーはダウンミックスに使われる圧縮コーデックによってそれぞれ異なり、したがって、オブジェクト情報などに該当のディレー値を表示できるビットを割り当てることによって様々なディレー値を表示すると良い。

図３０は、複数のビットストリームを一つのビットストリームに結合する場合においてそれぞれのビットストリームに使われたダウンミックス信号のコーデックが互いに異なるか、オブジェクト情報の構成が互いに異なることから、それぞれ異なるディレーが発生する場合を挙げている。

図３０では、ＢＳ１とＢＳ２に使われたコーデックの種類または付加情報の構成が異なる場合、ダウンミックス信号を結合するためにダウンミックス信号を時間ドメイン信号に変換し、これを再び一つの圧縮コーデックで変換するときに発生する総ディレーが互いに異なる場合である。この場合、ＢＳ１とＢＳ２間の互いに異なるディレーを考慮せずに結合する場合、ダウンミックス信号間に、またダウンミックス信号とオブジェクト情報間の時間的整列に問題が発生することとなる。

これを解決する方法として、図３１に示す方法を使用することができる。

図３１を参照すると、ＢＳ１でダウンミックス信号に発生するディレーｄ１に付加的なディレーを加え、総ディレーがＢＳ２で発生するディレーｄ２と同じ値になるように調整する例が示されている。このようにディレーを調整すると、ＢＳ１をＢＳ２と結合する方法は、図３０で示す方法と同一になる。すなわち、一つに結合すべきビットストリームが複数である場合、最も大きいディレーが発生するビットストリームを基準にして最終ディレー値を定めればよい。

一般的に複数のビットストリームを一つに結合する場合でないとディレー値は０となるので、ディレー有無を表示するビット情報を含めた後、この情報が、ディレーがあることを表示すると、以降具体的なディレー値を表示するビット情報を読むようにすることによってディレー表示に使われるビットを最小化することができる。

図３２には、ディレー差を補正する他の方法を示す。図３２で、ＢＳ１で発生するディレーｄ１を基準にして時間的整列をする方法を示している。２番目のフレームを取り上げると、このフレームに該当するＢＳ１のオブジェクト情報は２番目のフレームに該当するオブジェクト情報をそのまま使用することができる。これに対し、ＢＳ２のオブジェクト情報は、１番目のフレームに該当するオブジェクト情報と２番目のフレームに該当するオブジェクト情報がいずれも含まれている。したがって、当該フレームにおいて、ＢＳ２に該当するオブジェクト情報は、ＢＳ２の１番目のフレームのオブジェクト情報と２番目のフレームのオブジェクト情報に対して該当の区間を占める比率による平均化を行う方法あるいは補間を行う方法を通じて得ることができる。こうすると、図３２の（ｂ）で、点線で表示した各区間に該当するＢＳ１、ＢＳ２のオブジェクト情報を得ることができ、これらのオブジェクト情報を一つのオブジェクト情報に結合するには、図２９で使用した方法をそのまま用いれば良い。ダウンミックス信号の場合は、ディレーがそれぞれ異なる状態で追加的なディレー補正を行わずに一つのダウンミックス信号に結合する。この場合、結合されたビットストリームに含まれるディレー情報はｄ１に該当する情報が保存される。

図３３には、上述したディレー差を補正するさらに他の方法を示す。図３３は、ＢＳ２で発生するディレーｄ２を基準にして時間的整列をする方法を示している。１番目のフレームを取り上げると、このフレームに該当するＢＳ２のオブジェクト情報は、１番目のフレームに該当するオブジェクト情報をそのまま使用することができる。これに対し、ＢＳ１のオブジェクト情報は１番目のフレームに該当するオブジェクト情報と２番目のフレームに該当するオブジェクト情報がいずれも含まれている。したがって、２番目のフレームにおいて、ＢＳ１に該当するオブジェクト情報は、ＢＳ１の１番目のフレームのオブジェクト情報と２番目のフレームのオブジェクト情報に対して当該区間を占める比率による平均化を行う方法あるいは補間を行う方法を通じて得ることができる。こうすると、図３３の右図、つまり（ｂ）に点線で表示した各区間に該当するＢＳ１、ＢＳ２のオブジェクト情報を得ることができ、これらのオブジェクト情報を一つのオブジェクト情報に結合するには、図２９で使用した方法とすれば良い。ダウンミックス信号の場合、ディレーがそれぞれ異なる状態で追加的なディレー補正を行わずに一つのダウンミックス信号に結合する。この場合、結合されたビットストリームに含まれるディレー情報はｄ２に該当する情報が保存される。

以上の如く、複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合、各オブジェクト符号化されたビットストリームに含まれているダウンミックス信号を一つのダウンミックス信号に結合する過程が必要である。この場合、様々な圧縮コーデックによるダウンミックス信号を一つのダウンミックス信号に結合するためには、圧縮されている信号をＰＣＭ信号あるいは特定周波数ドメイン上の信号に変換し、該当のドメインでダウンミックス信号を結合し、また特定圧縮コーデックで信号を変換する過程が要求される。この時、圧縮コーデックがどんな種類かによって、ダウンミックス信号がＰＣＭ段階で結合されるか、特定周波数ドメインなどで結合されるかによって様々なディレーが発生することとなる。このようなディレーは、最終に結合されたビットストリームをデコーディングするデコーダではその具体的な値が予測できない。したがって、該当のディレーはビットストリーム上に含まれて伝達されなければならない。このディレーは、ＰＣＭ信号上でのディレーサンプル数を表現しても良く、特定周波数ドメイン上でのディレーサンプル数を表現しても良い。

一方、本発明は、プロセッサ読取可能記録媒体にプロセッサが読取りできるコードとして実現することが可能である。プロセッサ読取可能記録媒体は、プロセッサにより読取り可能なデータが記憶される全ての種類の記録装置を含む。プロセッサ読取可能記録媒体の例には、ＲＯＭ、ＲＡＭ、ＣＤ-ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ記憶装置などがあり、また、インターネットを介した転送などのようなキャリアウェーブの形態で実現されることも含む。また、プロセッサ読取可能記録媒体はネットワークで連結されたシステムに分散され、分散方式でプロセッサが読取りできるコードが記憶され実行されうる。

以上では具体的な実施例を示して本発明を説明してきたが、本発明は、具体例に限定されず、特許請求の範囲で請求する本発明の要旨を逸脱しない限度内で、当該発明が属する技術分野における通常の知識を持つ者が様々に変更して実施できるということは明らかであり、このような変更は本発明の技術的思想や展望から別個のものとして理解されてはならない。

Claims

相対オブジェクトエネルギー情報及び絶対オブジェクトエネルギー情報を含む少なくとも２つのエネルギー情報を獲得する段階と、
前記エネルギー情報を用いて、結合された絶対オブジェクトエネルギー情報及び結合された相対オブジェクトエネルギー情報を含む結合されたエネルギー情報を生成する段階と、
を含むことを特徴とするオーディオ復号化方法。
前記絶対エネルギー情報が、最大オブジェクトエネルギーレベルを含むことを特徴とする、請求項１に記載のオーディオ復号化方法。
前記相対オブジェクトエネルギー情報が、最大オブジェクトエネルギーレベルと各オブジェクトエネルギーレベルとの比であることを特徴とする、請求項２に記載のオーディオ復号化方法。
前記結合されたエネルギー情報を生成する段階で、前記結合された絶対オブジェクトエネルギー情報を算出し、前記結合された絶対オブジェクトエネルギー情報に基づいて前記結合された相対オブジェクトエネルギー情報を生成することを特徴とする、請求項１に記載のオーディオ復号化方法。
オブジェクト符号化された第１オーディオ信号と第２オーディオ信号を受信する段階と、
前記第１オーディオ信号に含まれた第１オブジェクトエネルギー情報と、前記第２オーディオ信号に含まれた第２オブジェクトエネルギー情報を用いて第３オブジェクトエネルギー情報を生成する段階と、
前記第１及び第２オーディオ信号が結合され、前記第３オブジェクトエネルギー情報を含む第３オーディオ信号を生成する段階と、
を含むことを特徴とするオーディオ復号化方法。
前記第３オブジェクト付加情報とレンダリング制御情報を用いてチャネルベースの付加情報を生成する段階と、
前記第３ダウンミックス信号と前記チャネルベースの付加情報を用いてマルチャネルオーディオ信号を生成する段階と、
をさらに含むことを特徴とする、請求項５に記載のオーディオ復号化方法。
前記第３エネルギー情報が、オブジェクトレベル情報及び絶対オブジェクトエネルギー情報のうちの少なくとも１つを含むことを特徴とする、請求項５に記載のオーディオ復号化方法。
前記第３オーディオ信号が、前記絶対オブジェクトエネルギー情報を転送するか否かを表すフラグ情報を含むことを特徴とする、請求項７に記載のオーディオ復号化方法。
第１オーディオ信号から第１ダウンミックス信号と第１オブジェクト情報を抽出し、第２オーディオ信号から第２ダウンミックス信号と第２オブジェクト情報を抽出するデマルチプレクサと、
前記第１及び第２オブジェクト情報が結合され、前記第１オブジェクト情報に含まれた第１オブジェクトエネルギー情報と、前記第２オブジェクト情報に含まれた第２オブジェクトエネルギー情報を用いて生成した第３オブジェクトエネルギー情報を含む第３オブジェクト情報と、前記第１及び第２ダウンミックス信号を結合した第３ダウンミックス信号とを生成するマルチポインタ制御部と、
を含むことを特徴とするオーディオ復号化装置。
前記第３オブジェクト情報とレンダリング制御情報を用いてチャネルベースの付加情報を生成するトランスコーダと、
前記第３ダウンミックス信号と前記チャネルベースの付加情報を用いてマルチャネルオーディオ信号を生成するマルチャネルデコーダと、
をさらに含むことを特徴とする、請求項９に記載のオーディオ復号化装置。
前記第３エネルギー情報が、オブジェクトレベル情報及び絶対オブジェクトエネルギー情報のうち少なくとも１つを含むことを特徴とする、請求項９に記載のオーディオ復号化装置。
前記マルチポインタ制御部が、前記第１及び第２エネルギー情報をレベル調整情報に基づいて調節したエネルギー情報を用いて前記第３エネルギー情報を生成することを特徴とする、請求項９に記載のオーディオ復号化装置。
相対オブジェクトエネルギー情報と絶対オブジェクトエネルギー情報を含む少なくとも２つのエネルギー情報を獲得する段階と、
前記エネルギー情報を用いて、結合された絶対オブジェクトエネルギー情報及び結合された相対オブジェクトエネルギー情報を含む結合されたエネルギー情報を生成する段階と、を含むオーディオ復号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサ読取可能記録媒体。
オブジェクト符号化された第１オーディオ信号と第２オーディオ信号を受信する段階と、
前記第１オーディオ信号に含まれた第１オブジェクトエネルギー情報と、前記第２オーディオ信号に含まれた第２オブジェクトエネルギー情報を用いて第３オブジェクトエネルギー情報を生成する段階と、
前記第１及び第２オーディオ信号が結合され、前記第３オブジェクトエネルギー情報を含む第３オーディオ信号を生成する段階と、を含むオーディオ復号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサ読取可能記録媒体。
前記第３オブジェクト付加情報とレンダリング制御情報を用いてチャネルベースの付加情報を生成する段階と、
前記第１及び第２ダウンミックス信号を結合した第３ダウンミックス信号と前記チャネルベースの付加情報を用いてマルチャネルオーディオ信号を生成する段階と、をさらに含むことを特徴とする請求項１４に記載のプロセッサで実行させるためのプログラムを記録したプロセッサ読取可能記録媒体。