JP2010508545A

JP2010508545A - オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置

Info

Publication number: JP2010508545A
Application number: JP2009534511A
Authority: JP
Inventors: スーキム，ドン; スクパン，ヒー; ヒュンリム，ジェ; ヨンユーン，スン; クークリー，ヒュン
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2007-02-14
Filing date: 2008-02-14
Publication date: 2010-03-18
Anticipated expiration: 2028-02-14
Also published as: US20140297294A1; US8271289B2; EP2111617B1; AU2008215230B2; TW200847136A; JP2010506232A; US8417531B2; EP2111617A1; TWI396187B; JP5232795B2; CA2645913A1; US8756066B2; EP2111616B1; CA2645915C; WO2008100099A1; AU2008215230A1; JP2012198556A; KR20090082339A; MX2008013078A; EP2111617A4

Abstract

オブジェクトベースのオーディオ信号を效率的に処理できるように符号化及び復号化するオーディオ符号化及び復号化方法とその装置を提供する。
オーディオ復号化方法は、少なくとも２つのダウンミックスチャネル信号を含むダウンミックス信号とオブジェクトベースの付加情報を受信し、オブジェクトベースの付加情報から利得情報を抽出し、利得情報に基づいてチャネル別にダウンミックスチャネル信号を変更する変更情報を生成し、変更情報をダウンミックスチャネル信号に適用してダウンミックス信号を変更する。

Description

本発明は、オブジェクトベースのオーディオ信号を效率的に処理できるように符号化及び復号化するオーディオ符号化及び復号化方法並びにその装置に関するものである。

一般に、マルチチャネルオーディオ符号化及び復号化では、マルチチャネル信号から構成された複数のチャネル信号を元のチャネル数よりも小さい数のチャネル信号にダウンミックス（ｄｏｗｎｍｉｘ）し、元のチャネル信号に関する付加情報を伝送し、元のチャネル数を持つマルチチャネル信号が再生される。

オブジェクトベースのオーディオ符号化及び復号化も、複数の音源をそれよりも小さい数の音源信号にダウンミックスし、元の音源に関する付加情報を伝送する点で、マルチチャネルオーディオ符号化及び復号化と同様である。ただし、オブジェクトベースのオーディオ符号化及び復号化では、オブジェクト信号をマルチチャネルオーディオ符号化においてチャネル信号に該当する信号と見なしてコーディングを行う。ここで、オブジェクト信号は、チャネル信号の基本的な要素（例えば、ある楽器の音や人の声）のことを指す。

すなわち、マルチチャネルオーディオ符号化及び復号化では、コーディングしようとするチャネル信号がいくつの要素で構成されているに関らず、チャネル信号間の情報のみに基づいてマルチチャネルオーディオコーディングを行うのに対し、オブジェクトベースのオーディオ符号化及び復号化では、オブジェクト信号をコーディングの対象と見なす。

本発明の目的は、オーディオ信号が多様な環境で適用可能なようにオーディオ信号を符号化又は復号化することができるオーディオ符号化及び復号化方法並びにその装置を提供することにある。

上記の目的を達成するための本発明によるオーディオ復号化方法は、少なくとも２つのダウンミックスチャネル信号を含むダウンミックス信号と、オブジェクトベースの付加情報を受信する段階と、前記オブジェクトベースの付加情報から抽出したゲイン情報に基づいて、前記ダウンミックス信号をチャネル別に変更する変更情報を生成する段階と、前記変更情報を前記ダウンミックスチャネル信号に適用して前記ダウンミックスチャネル信号を変更する段階と、を含む。

また、上記の目的を達成するための本発明によるオーディオ符号化方法は、オブジェクト信号をダウンミックスして少なくとも２つのダウンミックスチャネル信号を含むダウンミックス信号を生成する段階と、前記オブジェクト信号に関するオブジェクト関連情報を抽出し、前記オブジェクト関連情報に基づいてオブジェクトベースの付加情報を生成する段階と、前記ダウンミックスチャネル信号をチャネル別に変更するゲイン情報を前記オブジェクトベースの付加情報に挿入する段階と、を含む。

入力オーディオ信号から、少なくとも２つのダウンミックスチャネル信号を含むダウンミックス信号と、オブジェクトベースの付加情報と、を抽出するデマルチプレクサと、
前記オブジェクトベースの付加情報から抽出したゲイン情報に基づいて、前記ダウンミックスチャネル信号をチャネル別に変更する変更情報を生成し、前記変更情報を前記ダウンミックスチャネル信号を適用して前記ダウンミックスチャネル信号をチャネル別に変更するトランスコーダと、
を含むことを特徴とするオーディオ復号化装置。

少なくとも２つのダウンミックスチャネル信号を含むダウンミックス信号と、オブジェクトベースの付加情報を受信する段階と、
前記オブジェクトベースの付加情報から抽出したゲイン情報に基づいて、前記ダウンミックス信号をチャネル別に変更する変更情報を生成する段階と、
前記変更情報を前記ダウンミックスチャネル信号に適用してダウンミックス信号を変更する段階と、を含むオーディオ復号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。

オブジェクト信号をダウンミックスして少なくとも２つのダウンミックスチャネル信号を含むダウンミックス信号を生成する段階と、
前記オブジェクト信号に関するオブジェクト関連情報を抽出し、前記オブジェクト関連情報に基づいてオブジェクトベースの付加情報を生成する段階と、
前記ダウンミックスチャネル信号をチャネル別に変更するゲイン情報を前記オブジェクトベースの付加情報に挿入する段階と、を含むオーディオ符号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。

一般的なオブジェクトベースのオーディオ符号化／復号化装置を示すブロック図である。本発明の第１実施例によるオーディオ復号化装置を示すブロック図である。本発明の第２実施例によるオーディオ復号化装置を示すブロック図である。本発明の第３実施例によるオーディオ復号化装置を示すブロック図である。本発明の第３実施例によるオーディオ復号化装置で使用可能なＡＤＧモジュールを示すブロック図である。本発明の第４実施例によるオーディオ復号化装置を示すブロック図である。本発明の第５実施例によるオーディオ復号化装置を示すブロック図である。本発明の第６実施例によるオーディオ復号化装置を示すブロック図である。本発明の第７実施例によるオーディオ復号化装置を示すブロック図である。本発明の第８実施例によるオーディオ復号化装置を示すブロック図である。トランスコーダの動作を説明するための図である。トランスコーダの動作を説明するための図である。付加情報を構成する多様な方法を説明するための図である。付加情報を構成する多様な方法を説明するための図である。付加情報を構成する多様な方法を説明するための図である。付加情報を構成する多様な方法を説明するための図である。付加情報を結合する場合を説明するための図である。付加情報を結合する場合を説明するための図である。付加情報を結合する場合を説明するための図である。付加情報を結合する場合を説明するための図である。付加情報を結合する場合を説明するための図である。付加情報を結合する場合を説明するための図である。前処理過程を説明するための図である。前処理過程を説明するための図である。前処理過程を説明するための図である。前処理過程を説明するための図である。前処理過程を説明するための図である。複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。

以下、添付の図面を参照しつつ本発明をより詳細に説明する。

本発明によるオーディオ符号化及び復号化方法は基本的にオブジェクトベースのオーディオ信号の処理過程に適用されるが、これに限定されず、本発明による条件を満たす他の信号の処理過程にも適用可能である。

図１は、一般的なオブジェクトベースのオーディオ符号化及び復号化装置を示すブロック図である。一般的にオブジェクトベースのオーディオ符号化装置において入力信号は、マルチチャネル上のチャネルとは関わっておらず、それぞれ独立したオブジェクト信号に該当し、このような点で、オブジェクトベースのオーディオ符号化装置は、入力信号がマルチチャネル上の各チャネル信号に該当するマルチチャネルオーディオ符号化装置と異なっている。例えば、マルチチャネルオーディオ符号化装置で入力信号は、５．１チャネル信号のフロントレフト（ｆｒｏｎｔｌｅｆｔ）信号やフロントライト（ｆｒｏｎｔｒｉｇｈｔ）信号などのようなチャネル信号となる。これに対し、オブジェクトベースのオーディオ符号化装置において入力信号となるオブジェクト信号は、通常、チャネル信号よりも小さい構成要素を指すもので、人の声またはバイオリンやピアノなどの楽器音などがそれに該当する。

図１を参照すると、オブジェクトベースのオーディオ符号化／復号化システムは、オブジェクトベースのオーディオ符号化装置及びオブジェクトベースのオーディオ復号化装置を含む。オブジェクトベースのオーディオ符号化装置は、オブジェクトエンコーダ１００を含み、オブジェクトベースの復号化装置に含まれるオブジェクトデコーダ１１１及びミキサー／レンダラー１１３を含む。

オブジェクトエンコーダ１００は、Ｎ個のオブジェクト信号を受信し、１つあるいはそれ以上のチャネルを持つオブジェクトベースのダウンミックス信号と、各オブジェクトオーディオ信号から抽出した情報が含まれる付加情報とを生成する。付加情報とオブジェクトベースのダウンミックス信号を、一つのビットストリームに結合し、オブジェクトベースの復号化装置に転送する。

付加情報には、チャネルベースのオーディオコーディングなのかオブジェクトベースのオーディオコーディングなのかを識別する識別子（ｆｌａｇ）が含まれ、この値によってチャネルベースの復号化を行ったりあるいはオブジェクトベースの復号化を行うようにすることができる。また、付加情報には、オブジェクト信号に関する、エネルギー情報、グルーピング情報、無音区間情報、ダウンミックスゲイン情報、遅延（ｄｅｌａｙ）情報などを含むことができる。

付加情報とオブジェクトベースのダウンミックス信号を、一つのビットストリームに結合し、復号化装置に転送することができる。

オブジェクトデコーダ１１１は、オブジェクトベースのオーディオ符号化装置から転送されたダウンミックス信号とオブジェクト情報を用いてＮ個のオブジェクト信号と類似な性質を有するオブジェクト信号を再生する。この時、オブジェクトデコーダ１１１で生成されるオブジェクト信号は、マルチチャネル上の特定チャネルに配置されていない信号である。したがって、オブジェクトデコーダ１１１で生成されたオブジェクト信号はそれぞれ、ミキサー／レンダラー１１３に入力され、制御情報（ｃｏｎｔｒｏｌｉｎｆｏｒｍａｔｉｏｎ）によってマルチチャネル空間上の特定位置に特定レベルで配置されて再生される。各オブジェクト信号に関する制御情報は時間変化することができ、これにより、オブジェクトデコーダ１１１で生成されたオブジェクト信号の空間上の位置やそのレベルを変えることができる。

図２は、本発明の第１実施例によるオーディオ復号化装置を示すブロック図である。本実施例によるオーディオ復号化装置１２０は、制御情報の分析を通じて適応的デコーディングが可能なように構成される。

図２を参照すると、本実施例によるオーディオ信号復号化装置１２０は、オブジェクトデコーダ１２１、ミキサー／レンダラー１２３、及びパラメータコンバータ１２５を含む。図示していないが、復号化装置は、デマルチプレクサ（ｄｅｍｕｌｔｉｐｌｅｘｅｒ）などを含み、受信したビットストリームからダウンミックス信号とオブジェクト情報を抽出でき、以下に説明する他の実施例による復号化装置においても同様である。

オブジェクトデコーダ１２１は、ダウンミックス信号と、パラメータコンバータ１２５から伝達される変更された付加情報を用いて複数のオブジェクト信号を生成する。ミキサー／レンダラー１２３は、オブジェクトデコーダ１２１から出力される各オブジェクト信号を制御情報によってマルチチャネルの空間上の特定位置に特定レベルで配置する。パラメータコンバータ１２５は、付加情報に制御情報を結合することによって、変更された付加情報を生成し、変更された付加情報をオブジェクトデコーダ１２１に伝達する。

このような構成により、オブジェクトデコーダ１２１で、変更されたオブジェクト情報の制御情報を分析し、適応的復号化が可能になる。

例えば、制御情報によって、第１オブジェクト信号と第２オブジェクト信号がマルチチャネル空間上で同じ位置に同遅延ベルに設定される場合、一般的な復号化装置では、第１オブジェクト信号と第２オブジェクト信号がそれぞれ個別にデコーディングされた後、ミキシング／レンダリング過程で制御情報に合うようにマルチチャネル空間上に配列される。しかし、本実施例によるオーディオ復号化装置１２０では、オブジェクトデコーダ１２１は、変更されたオブジェクト情報の制御情報から、第１オブジェクト信号と第２オブジェクト信号がまるで一つの音源かのように同遅延ベルで同じ位置に設定されていることがわかる。これにより、オブジェクトデコーダ１２１は、第１オブジェクト信号と第２オブジェクト信号をそれぞれ別個にデコーディングせずに一つの音源のようにデコーディングすることができる。

このように第１オブジェクト信号と第２オブジェクト信号を一つの音源のように復号化し、復号化過程の複雑さを減らすことができる。また、ミキシング／レンダリング過程においても処理すべき音源が減るので、同様に複雑さを減らすことができる。このようなオーディオ復号化装置１２０は、オブジェクト信号の数が最終出力チャネル数よりも多いので、確率的に複数のオブジェクト信号が同じ空間上に配置される場合に效果的に使われることができる。

他の例として、オーディオ復号化装置１２０は、第１オブジェクト信号と第２オブジェクト信号がマルチチャネル空間上で同じ位置に配置されるが、第１オブジェクト信号と第２オブジェクト信号のレベルが同一でなく、いずれか一方が他方よりも大きい場合にも使われることができる。この場合にも、第１オブジェクト信号と第２オブジェクト信号を個別にデコーディングした後にミキサー／レンダラー１２３の入力として転送する代わりに、第１オブジェクト信号と第２オブジェクト信号のレベルが調整された状態でこれら両者を一つの信号のようにデコーディングすることとなる。この時、オブジェクトデコーダ１２１は、変更されたオブジェクト情報に結合された制御情報から、第１オブジェクト信号と第２オブジェクト信号に対するエネルギーレベル差に関する情報を得ることができるので、この情報に基づいて両信号をデコーディングすることができる。これにより、第１オブジェクト信号と第２オブジェクト信号はそれぞれのレベルが調整された状態で一つの音源のように復号化が可能になる。

さらに他の例として、オブジェクトデコーダ１２１は、制御情報によって各オブジェクト信号のレベルを調整するようにすることができる。すなわち、オブジェクトデコーダ１２１で制御情報によって、各オブジェクト信号がレベル調整された状態でデコーディングが行われるようにする。この場合、ミキサー／レンダラー１２３では位置とレベルを両方とも調整する代わりに、レベル調整無しで各オブジェクト信号のマルチチャネル空間上の位置に対してのみ配置作業をすれば良い。したがって、制御情報によるレベル調整段階をオブジェクトデコーダ１２１のデコーディング過程で行い、オブジェクト信号に対して追加的なレベル調整をすることなく直ちに位置配置が可能なので、複雑さを減らすことができる。

このように本実施例によるオーディオ復号化装置１２０は、制御情報の分析を通じてオブジェクトデコーダ１２１が適応的にデコーディングを行うことができるので、デコーディング過程とミキシング／レンダリング過程の複雑さを減らすという効果が得られる。また、前述した様々な例で説明した方法は組み合わせて同時に用いても良い。

図３は、本発明の第２実施例によるオーディオ信号復号化装置のブロック図である。図３を参照すると、本実施例によるオーディオ信号復号化装置１３０は、オブジェクトデコーダ１３１と、ミキサー／レンダラー１３３とを含む。本実施例によるオーディオ信号復号化装置１３０は、オブジェクト情報がオブジェクトデコーダ１３１の他にミキサー／レンダラー１３３にも伝達されるのに特徴がある。

このような構成により、オブジェクト信号中に無音区間が存在する場合に、效率的にデコーディング作業を行うことができる。例えば、第２、第３及び第４オブジェクト信号までは楽器音が演奏され、第１オブジェクト信号が無音区間、すなわち伴奏区間に該当することができる。また、信号の時間帯別に特定オブジェクト信号が無音区間である場合が存在する。このような場合、各オブジェクト信号の無音区間に関する情報を付加情報に含んで転送することができる。この時、オブジェクトデコーダ１３１は、特定オブジェクト信号が無音区間に該当する場合、その特定オブジェクト信号をデコーディングしないことによって復号化過程の複雑さを最小化する。

また、ミキサー／レンダラー１３３には、無音に該当するオブジェクトの信号が‘０’値で伝達される。しかし、このような無音信号、すなわち‘０’となっている信号に対してもミキサー／レンダラー１３３は一つの信号と見なし、ミキシング／レンダリング作業を行うのが一般的である。

しかし、本実施例によるオーディオ復号化装置１３０は、個々のオブジェクト信号の無音区間に関する情報が含まれているオブジェクト情報をミキサー／レンダラー１３３にも伝達し、特定オブジェクト信号が無音区間である場合、オーディオ復号化装置１３０を、そのオブジェクト信号に対してミキシングやレンダリング作業が行われないように構成することができる。

図４は、本発明の第３実施例によるオーディオ復号化装置を示すブロック図である。本実施例によるオーディオ復号化装置は、オブジェクトデコーダとミキサー／レンダラーの代わりにマルチチャネルデコーダを使用し、各オブジェクト信号がマルチチャネル空間上で配置完了し、デコーディングされるように構成される。

図４を参照すると、本実施例によるオーディオ復号化装置１４０は、マルチチャネルデコーダ１４１及びパラメータコンバータ１４５を含む。マルチチャネルデコーダ１４１は、ダウンミックス信号とパラメータコンバータ１４５から伝達されるチャネルベースのパラメータ情報である空間パラメータ（ｓｐａｔｉａｌｐａｒａｍｅｔｅｒ）とを用いて、マルチチャネル空間上に配置完了したマルチチャネル信号を出力する。パラメータコンバータ１４５では、付加情報及び制御情報を用いて空間パラメータを生成する。すなわち、付加情報と、プレイバックセットアップ（playback setup）情報及びミキシング情報などが含まれた制御情報とを取り込み、これに基づいてマルチチャネルデコーダ１４１で使用可能な空間パラメータを生成する。これは、各ＯＴＴ（Ｏｎｅ−Ｔｏ−Ｔｗｏ）ボックスあるいはＴＴＴ（Ｔｗｏ−Ｔｏ−Ｔｈｒｅｅ）ボックスに該当する空間データへの変換を意味する。

このような構成により、オブジェクトベースのデコーディング及びミキシング／レンダリング過程がマルチチャネルデコーディング過程により完了し、中間段階としてそれぞれのオブジェクト信号を復号化する過程が省かれ、複雑さを減らす効果が得られる。

例えば、１０個のオブジェクト信号があり、最終再生チャネルは５．１チャネルスピーカー再生システムである場合、一般的なオブジェクトベースオーディオ復号化装置では、ダウンミックス信号と付加情報を用いて１０個のオブジェクトのそれぞれに対してデコーディングされた信号を生成する。そして、１０個のオブジェクト信号とミキシング／レンダリング情報を用いて、ミキサー／レンダラーでは、５．１チャネルスピーカー環境に合わせて各オブジェクト信号をマルチチャネル上の特定位置に配置し、最終的に５．１チャネル信号を生成する。このように、最終５．１チャネル信号のために中間段階で１０個のオブジェクト信号のそれぞれを生成するのは非効率であり、この問題は、最終再生チャネル数とオブジェクト信号の数との差が大きいほどより増大する。

しかし、本実施例によるオーディオ復号化装置１４０を用いてデコーディングする場合、付加情報と制御情報を用いて５．１チャネル出力構成に合う空間パラメータを生成する。そして、空間パラメータとダウンミックス信号をマルチチャネルデコーダ１４１に入力し、５．１チャネル信号を出力する。すなわち、最終出力チャネルが５．１チャネルである場合、中間段階である１０個の信号を生成する過程無しで直接ダウンミックス信号から５．１チャネル信号を生成するので、一般的な方法に比べて効率的である。

オーディオ信号復号化装置１４０は、エンコーダから転送されたオブジェクト情報と制御情報の分析を通じて各ＯＴＴ、ＴＴＴボックスの空間パラメータを計算するのに必要な計算量が全てのオブジェクト信号のそれぞれをデコーディングした後にミキサー／レンダラーを経由するのに必要な計算量よりも少ない場合に効率的である。

また、本実施例によるオーディオ信号復号化装置１４０は、付加情報と制御情報の分析を通じて空間パラメータを生成するモジュールを典型的なマルチチャネルオーディオ復号化装置に追加するだけで具現でき、典型的なマルチチャネルデコーダと互換性を維持できるという長所がある。また、オーディオ復号化装置１４０は、ｅｎｖｅｌｏｐｓｈａｐｉｎｇ、ＳＴＰ（Ｓｕｂ−ｂａｎｄＴｅｍｐｏｒａｌＰｒｏｃｅｓｓｉｎｇ）ツール、デコリレータ（ｄｅｃｏｒｒｅｌａｔｏｒ）などの典型的なオーディオ復号化装置の既存ツールを使用して音質を向上させることができる。これらの点は、典型的なマルチチャネルデコーディングが持っている長所をいずれもオブジェクト復号化過程でも使用可能であるということを意味している。

そして、パラメータコンバータ１４５から出力されてマルチチャネルデコーダ１４１に転送される空間パラメータ情報は、転送に適切となるように圧縮されても良く、典型的なマルチチャネルエンコーダから転送される形態、すなわちハフマンデコーディング（Ｈｕｆｆｍａｎｄｅｃｏｄｉｎｇ）、パイロット（Ｐｉｌｏｔ）デコーディングなどの過程を経て、圧縮されていない空間パラメータの形態で各モジュールに転送されても良い。前者の場合、該当の空間パラメータ情報を遠隔地に在る他のマルチチャネルデコーダに転送するのに有利である。後者の場合、マルチチャネルデコーダで圧縮された空間パラメータをデコーディング作業に使われる空間パラメータに再び変換しなくて済むという長所がある。

一方、付加情報と制御情報の分析を通じて空間パラメータを構成する上で遅延（ｄｅｌａｙ）が発生することがある。遅延を補償するために、ダウンミックス信号に追加的なバッファー（ｂｕｆｆｅｒ）を置いてダウンミックス信号とビットストリーム間の遅延を補償する方法と、オブジェクト情報と制御情報から得られた空間パラメータに追加的なバッファーを置いて遅延を補償する方法がある。しかし、これらの方法は追加のバッファーを置かなければならないという不具合がある。この点に鑑み、付加情報自体を遅延を考慮してダウンミックス信号の前に送る方法も可能である。この場合、制御情報と結合して生成された空間パラメータは、追加的な遅延を補償することなく適用可能である。

また、各オブジェクト信号が異なるレベル（ｌｅｖｅｌ）を有する場合、制御情報により与えられる各オブジェクト信号の相対的大きさは、ダウンミックス信号を直接補正するＡＤＧ（ＡｒｂｉｔｒａｒｙＤｏｗｎｍｉｘＧａｉｎｓ）によって決定し、オブジェクト信号の空間上の特定位置への割当は、ＣＬＤ（ＣｈａｎｎｅｌＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅ）、ＩＣＣ（ＩｎｔｅｒＣｈａｎｎｅｌＣｏｒｒｅｌａｔｉｏｎ）、ＣＰＣ（ＣｈａｎｎｅｌＰｒｅｄｉｃｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ）などの空間パラメータによって行うことが可能である。

例えば、第１オブジェクト信号が制御情報によって空間上の特定の位置に配置されると同時に他のオブジェクト信号に比べてレベルが大きくなった状態で配置される場合、典型的なマルチチャネルベースのデコーダは、転送された空間パラメータを用いてダウンミックス信号のチャネルのエネルギー差を計算した後、計算に基づいてダウンミックス信号を複数の出力チャネルに分割する。このようなマルチチャネルデコーダは、ダウンミックス信号の特定の音の音量のみを増加または減少させることができない。すなわち、典型的なマルチチャネルデコーダは転送されたダウンミックス信号を出力チャネルにそれぞれ分けて分配する形式であるがため、ダウンミックス信号自体に小さい音として含まれている信号を増加させたり、ダウンミックス信号自体に大きい音として含まれている信号を減少させるという役割を果たし難い。

したがって、オブジェクトエンコーダで生成されたダウンミックス信号を用いて、制御情報で要求する各オブジェクト信号の空間上の特定の位置に割り当てることは容易であるが、特定オブジェクト信号の大きさを増減させる場合には更に特別な方法が必要とされる。これは、オブジェクトエンコーダで生成されたダウンミックス信号をそのまま使用する場合、ダウンミックス信号中に含まれている特定オブジェクト信号の音を減少させることが難しいためである。

したがって、本実施例では、このような場合において制御情報によるオブジェクト信号の相対的大きさを変化させる方法として、図５に示すように、ＡＤＧモジュール１４７を使用することができる。このＡＤＧモジュール１４７はマルチチャネルデコーダ１４１内に設置されても良く、マルチチャネルデコーダ１４１とは別に設置されても良い。

ＡＤＧモジュール１４７を使用する場合、オブジェクトエンコーダから転送されたダウンミックス信号において特定オブジェクト信号の相対的大きさを増減することが可能になり、ＡＤＧモジュール１４７によって変換されたダウンミックス信号をもってマルチチャネルデコーディングを行うことが可能である。

ＡＤＧモジュール１４７を使用してダウンミックス信号を変化させ、オブジェクト信号の相対的大きさを調節する方法を用いる場合、オブジェクトデコーディングを典型的なマルチチャネルデコーダを用いて行うことができるという長所がある。オブジェクトエンコーダで生成されたダウンミックス信号がモノ、ステレオ、または３チャネル以上の信号である場合にもＡＤＧモジュール１４７を適用することが可能であり、ダウンミックス信号が２チャネル以上である場合、大きさを調整しようとするオブジェクト信号がダウンミックスの特定チャネルにのみ存在すると、ＡＤＧモジュール１４７を特定ダウンミックスチャネルにのみ適用することも可能である。全ての場合に典型的なマルチチャネルデコーダの構成を変えることなく適用可能である。

また、最終出力信号がマルチチャネルスピーカー（ｓｐｅａｋｅｒ）再生ではなくバイノーラル（ｂｉｎａｕｒａｌ）再生の場合にも同一に適用可能であり、この場合にも、オブジェクト信号間の相対的な大きさをＡＤＧモジュール１４７を用いて調節可能である。

ＡＤＧモジュール１４７を使用する代わりに、各パラメータ値を用いて信号を生成する過程でオブジェクト信号間の相対的大きさを適用するゲイン（ｇａｉｎ）値を適用させることも可能である。この場合、典型的なマルチチャネルデコーダにおいてこのようなゲイン値を追加させるための若干の変形が必要である。しかし、典型的なマルチチャネルデコーダの修正が必要である以外は、ＡＤＧを計算し補正する方法を用いずにデコーディング過程中にゲイン値を追加する方法で大きさを調整することができるので、復号化の複雑さが低減するという長所がある。

このように、ＡＤＧモジュール１４７を、単にオブジェクト信号のレベル調整だけでなく、特定オブジェクト信号のスペクトル情報の変形が可能な場合にこれに対する適用ツールとしても用いることができる。すなわち、特定オブジェクト信号のレベルを増加させたり減少させる場合にＡＤＧモジュール１４７が使われると共に、特定オブジェクト信号のスペクトル情報の変形、すなわち特定オブジェクトの低音部を増やしたり高音部を増やしたりするようなスペクトル情報の変形もＡＤＧモジュール１４７を用いて行うことができる。もちろん、このようなスペクトル情報の変形は、典型的なマルチチャネルデコーダでＡＤＧモジュール１４７を使用せずには不可能な過程である。

図６は、本発明の第４実施例によるオーディオ復号化装置を示すブロック図である。本実施例による復号化装置は、前述した実施例と略同一であるが、バイノーラル出力の場合を追加した点に特徴がある。

図６を参照すると、本実施例によるオーディオ信号復号化装置１５０は、マルチチャネルバイノーラルデコーダ１５１、第１パラメータコンバータ１５７、及び第２パラメータコンバータ１５９を含む。

第２パラメータコンバータ１５９は、エンコーダで生成された付加情報と制御情報を分析して空間パラメータを生成する。第１パラメータコンバータ１５７は空間パラメータに再びＨＲＴＦパラメータなどの３Ｄ情報を追加し、仮想（ｖｉｒｔｕａｌ）３Ｄパラメータを生成する。マルチチャネルバイノーラルデコーダ１５１は、ダウンミックス信号に仮想３Ｄパラメータを適用してバイノーラル信号を生成する。

この時、第１パラメータコンバータ１５７と第２パラメータコンバータ１５９を結合し、付加情報と制御情報及び３Ｄ情報を受信してバイノーラルパラメータを生成する統合されたパラメータコンバータ１５５としても良い。

もし、一般的な方法により、１０個のオブジェクト信号が含まれたダウンミックス信号を、ヘッドホン再生などのためのバイノーラル信号とするためには、まず、オブジェクトデコーダでダウンミックス信号と付加情報から１０個のオブジェクト信号のそれぞれに対してデコーディングされた信号を生成する。生成した信号と制御情報を用いてミキサー／レンダラーでは５チャネルスピーカー環境に合うように各オブジェクト信号をマルチチャネル上の特定位置に配置し、５チャネルスピーカーを通じて再生される５チャネル信号を生成する。そして、この信号に対して各チャネル別３Ｄ情報などを適用し、最終的に２チャネル出力を生成することとなる。これは、最終２チャネル信号を生成するために、１０個のオブジェクト信号を再生し、これらを再び５チャネル信号に変換した後に最終２チャネル信号を生成するという点で非効率的である。

これに対して、本実施例による復号化装置１５０は、オブジェクト信号からヘッドホン再生などのためのバイノーラル信号を直接生成することができる。また、本実施例による復号化装置１５０は、付加情報と制御情報を分析して空間パラメータを生成し、バイノーラル出力の場合にも典型的なマルチチャネルバイノーラルデコーダをそのまま使用することができるという長所がある。そして、付加情報と制御情報、ＨＲＴＦパラメータを入力としてバイノーラルパラメータを生成する統合されたパラメータコンバータを用いる場合、複雑さをさらに減らすことができるという長所がある。この場合にも同様に、マルチチャネルバイノーラルデコーダを再使用できるという長所がある。

図７は、本発明の第５実施例によるオーディオ復号化装置を示すブロック図である。図７を参照すると、本実施例によるオーディオ復号化装置１６０は、前処理部１６１、マルチチャネルデコーダ１６３、及びパラメータコンバータ１６５を含む。

パラメータコンバータ１６５は、マルチチャネルデコーダ１６３で使用される空間パラメータと前処理部１６１で使用されるパラメータとを生成する。前処理部１６１は、ダウンミックス信号に対する前処理過程を行い、前処理過程の行われた信号はマルチチャネルデコーダ１６３に伝達され、デコーディング過程が行われる。マルチチャネルデコーダ１６３から出力される信号は、ステレオ、バイノーラルステレオ、マルチチャネル信号を含む。前処理部１６１で行われる前処理過程には、フィルタリングなどを用いたダウンミックス信号の時間あるいは周波数ドメインでの修正や変換などを含むことができる。

また、オーディオ復号化装置１６０に入力されるダウンミックス信号がステレオ信号の場合、このダウンミックス信号は、マルチチャネルデコーダ１６３の入力として転送される前に、前処理部１６１でダウンミックス前処理（ｐｒｅ−ｐｒｏｃｅｓｓｉｎｇ）過程を経なければならない。その理由は、マルチチャネルデコーダ１６３は、ステレオダウンミックス信号を受けてマルチチャネル信号をデコーディングする過程においてダウンミックス信号の左チャネルに位置している信号をマルチチャネルの右側チャネルにマッピングすることができないためである。したがって、ステレオダウンミックスのうち左チャネルに属しているオブジェクト信号の位置を右方向に変更しようとする場合、ステレオダウンミックス信号を前処理部１６１によって前処理過程を行い、前処理されたステレオダウンミックス信号をマルチチャネルデコーダ１６３に入力する必要がある。

このようなステレオダウンミックス信号の前処理過程は、付加情報と制御情報から前処理に関する情報を求めた後、この情報を用いて行うことができる。

図８は、本発明の第６実施例によるオーディオ復号化装置を示すブロック図である。図８を参照すると、本実施例によるオーディオ復号化装置１７０は、マルチチャネルデコーダ１７１、後処理部１７３、及びパラメータコンバータ１７５を含む。

パラメータコンバータ１７５は、マルチチャネルデコーダ１７１で使われる空間パラメータと後処理部１７３で使われるパラメータとを生成する。後処理部１７３は、マルチチャネルデコーダ１７１の出力信号に後処理過程を行う。マルチチャネルデコーダ１７３から出力される信号は、ステレオ、バイノーラルステレオ、マルチチャネル信号を含む。

後処理部１７３で行われる後処理過程には、フィルタリングなどを用いて出力信号の各チャネル又は全てのチャネルに対して修正及び変換を行うことなどが含まれる。後処理部１７３の特定の例としては、オブジェクト情報内に特定オブジェクト信号の基本周波数値などを表示し、これを用いて後処理過程で基本周波数の高調波成分のみを除去することが挙げられる。マルチチャネル復号化方法だけでは、充分な性能のカラオケシステムを具現し難いかもしれないが、ボーカル（ｖｏｃａｌ）オブジェクト信号に対して基本周波数情報を含み、その高調波成分を後処理過程で消すと、高い性能のカラオケシステム具現が可能となる。この技術を、音声の他、特定オブジェクト信号に適用すると特定楽器のみを消すことが可能になる。また、オブジェクト信号の基本周波数情報を用いて特定高調波成分のみを増幅することができる。このように、後処理パラメータは、マルチチャネルデコーダで適用不可能なオブジェクト信号の残響効果挿入、ノイズ追加、低音部補強などの様々なエフェクト（ｅｆｆｅｃｔ）の適用を可能にする。

そして、後処理部１７３は、ダウンミックス信号に追加のエフェクト（ｅｆｆｅｃｔ）処理をしたり、ダウンミックス信号にエフェクト処理した信号をマルチチャネルデコーダ１７１の出力信号に加える作業を行うことができる。特定オブジェクト信号のスペクトルを変更したり、ダウンミックス信号全体に変形を加える必要がある場合、後処理部１７３は、該当の作業をダウンミックス信号自体に加える。残響などのように、ダウンミックス信号に直接処理し、処理された信号をマルチチャネルデコーダ１７１に転送することが適切でない場合、このような処理をマルチチャネルデコーダ１７１に伝達されるダウンミックス信号に適用せずに、処理された信号をマルチチャネルデコーダ１７１の出力に加える方式で処理しても良い。

図９は、本発明の第７実施例によるオーディオ復号化装置を示すブロック図である。図９を参照すると、本実施例によるオーディオ復号化装置１８０は、前処理部１８１、マルチチャネルデコーダ１８３、後処理部１８５、及びパラメータコンバータ１８７を含む。すなわち、本実施例によるオーディオ復号化装置１８０は、マルチチャネルデコーダ１８３の前段に前処理部１８１が配置され、マルチチャネルデコーダ１８３の後段に後処理部１８５が配置されるように構成される。

前処理部１８１を、図７で説明したのと同様に適用することができる。また、後処理部１８５を、後処理過程が適用された後に対応するエフェクトが適用された信号をマルチチャネルデコーダ１８５の出力に加えて最終信号を得るのに使用しても良い。この場合、後処理部１８５は、信号を加える役割のみを果たす。また、エフェクトの適用がどちらで行われるかによってエフェクトパラメータは前処理部１８１と後処理部１８５のうち、該当の過程が行われる方に伝達される。また、ダウンミックス信号にエフェクトを適用してマルチチャネルデコーダ１８３の出力に加える過程と、マルチチャネルデコーダ１８５の出力信号にエフェクトを適用する過程を同時に行うことができる。

一方、図７及び図９で提案された前処理部は、ダウンミックス信号をユーザの制御情報によってレンダリングする役割を果たすことができる。また、前処理部は、単純なオブジェクト信号の方向情報によるレンダリング過程だけでなく、オブジェクト信号のレベルを増加または減少させる過程、オブジェクト信号のスペクトルに変更を加える過程も行うことができる。この場合、前述したＡＤＧモジュールで可能な処理を前処理部で行うことも可能である。

このような場合、前処理部では、オブジェクト信号の方向情報によるレンダリング過程と、オブジェクト信号のレベル調整、オブジェクト信号のスペクトル情報変更などの過程を同時に行うことができる。また、これらの過程は、適切に分けられ、一部は前処理部で行い、一部はＡＤＧモジュールを用いて行うことができる。例えば、オブジェクト信号のスペクトル変更の場合、ＡＤＧモジュールで使われる量子化レベル（ｑｕａｎｔｉｚａｔｉｏｎｌｅｖｅｌ）間隔及びパラメータバンド間隔を用いて行うことが適切でない場合がある。この場合、オブジェクト信号のスペクトル変更を、前処理過程で周波数別に細かいスペクトル変更を行い、ＡＤＧモジュールでは各オブジェクト信号のレベル調整を行うことによって行うことができる。

図１０は、本発明の第８実施例によるオーディオ復号化装置を示すブロック図である。図１０を参照すると、本実施例によるオーディオ復号化装置２００は、レンダリングマトリクス生成部２０１、トランスコーダ２０３、マルチチャネルデコーダ２０５、前処理部２０７、エフェクトプロセッサ２０８、及び加算器２０９を含む。

レンダリングマトリクス生成部２０１は、オブジェクト信号の空間上での位置に関する情報と、オブジェクト信号のレベルの大きさに関するプレイバック（ｐｌａｙｂａｃｋ）情報などを表現するレンダリングマトリクスを生成し、トランスコーダ２０３に伝達する。また、レンダリングマトリクス生成部２０１は、オブジェクト信号の空間上での位置に関する情報によって適切なＨＲＴＦ係数などのような３Ｄ情報を生成して伝達する。この時、ＨＲＴＦとは、任意の位置を持つ音源から出る音波と耳の鼓膜に到達する音波間の伝達関数（ｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）を意味し、音源の方位と高度によってその値が異なってくる。方向性のない信号を特定方向のＨＲＴＦでフィルタリングすると、人にはあたかも特定方向から声が聞こえるかのように感じられる。

レンダリングマトリクス生成部２０１が入力として受けるオブジェクト位置とプレイバック（ｐｌａｙｂａｃｋ）構成情報は、エンドユーザが任意の組合せで入力し、時間変化が可能な情報である。

トランスコーダ２０３は、オブジェクトベースのオブジェクト情報とレンダリングマトリクス情報、３Ｄ情報などを用いてチャネルベースの付加情報（ｃｈａｎｎｅｌ−ｂａｓｅｄｓｉｄｅｉｎｆｏｒｍａｔｉｏｎ）を生成してマルチチャネルデコーダ２０５に伝達し、マルチチャネルデコーダ２０５で使用される３Ｄ情報を伝達する。すなわち、トランスコーダ２０３は、Ｎ個のオブジェクト信号に対するオブジェクトベースパラメータ情報から変換されたＭ個のチャネルに対するチャネルベースの付加情報と、各オブジェクト信号に適用された３Ｄ情報とを分離してマルチチャネルデコーダ２０５に転送する。

マルチチャネルデコーダ２０５は、ダウンミックス信号とトランスコーダ２０３から出力されるチャネルベースの付加情報とを用いてマルチチャネルオーディオ信号を生成し、３Ｄ情報を用いて３Ｄレンダリングを行い、３Ｄベースのマルチチャネル信号を出力することができる。また、図示してはいないが、レンダリングマトリクス生成部２０１内に３Ｄ情報データベースを備えることができる。

ダウンミックス信号をマルチチャネルデコーダ２０５に入力する前に前処理作業が必要な場合、トランスコーダ２０３は、前処理に関する情報を前処理部２０７に伝達する。トランスコーダ２０３に入力されるオブジェクトベースの付加情報には各オブジェクト信号に関する情報が含まれており、レンダリングマトリクスには各オブジェクト信号の空間上の位置及びレベル情報が含まれている。トランスコーダ２０３はこれら２つの情報を利用すると各オブジェクト信号が最終的にミキシングされて再生されるチャネルに関する情報が得られ、このようにミキシングされて再生されるためにマルチチャネルデコーダ２０５に転送されなければならないチャネルベースの付加情報を算出し、マルチチャネルデコーダ２０５に転送する。

トランスコーダ２０３から出力されるチャネルベースの付加情報と３Ｄ情報はそれぞれ、フレームインデックス（ｆｒａｍｅｉｎｄｅｘ）を含むことができる。これにより、マルチチャネルデコーダ２０５では、フレームインデックスを用いて、チャネルベースの付加情報と３Ｄ情報を同期させ、ビットストリームの特定フレームに３Ｄ情報を適用することができる。このようにフレームインデックスを用いて、３Ｄ情報が時間の経過と共に更新される場合、チャネルベースの付加情報で時間上のどの位置に適用されるかを決定することができる。すなわち、マルチチャネルデコーダ２０５でチャネルベースの付加情報と更新される３Ｄ情報を同期させるため、トランスコーダ２０３でチャネルベースの付加情報と３Ｄ情報にフレームインデックスを含める。

前処理部２０７は、受信したダウンミックス信号をマルチチャネルデコーダ２０５に入力する前に、必要な作業がある場合、それに対する作業を行う。すなわち、前述したように、ステレオダウンミックス信号では、左チャネルに属したオブジェクト信号を右チャネルで再生しようとする場合などにおいて該当の作業がマルチチャネルデコーダ２０５で不可能なので、ダウンミックス信号に対して該当のオブジェクト信号の位置変換作業などを行う。このような作業に関する情報をトランスコーダ２０５から受信する。該当の作業を経たダウンミックス信号はマルチチャネルデコーダ２０５に伝達される。

エフェクトプロセッサ２０８と加算器２０９は、ダウンミックス信号に追加のエフェクト処理をしたり、ダウンミックス信号にエフェクト処理した信号をマルチチャネルデコーダ２０５の出力信号に加える作業を行うことができる。エフェクトプロセッサ２０８は、特定オブジェクト信号のスペクトルを変更したり、ダウンミックス信号全体に変更を加える必要がある場合、かかる作業をダウンミックス信号自体に適用することができる。また、残響などのように、ダウンミックス信号に直接処理し、処理されたダウンミックス信号をマルチチャネルデコーダ２０５に転送することが適切でない場合、該当の処理をマルチチャネルデコーダ２０５に伝達されるダウンミックス信号に適用せずに、処理された信号をマルチチャネルデコーダ２０５の出力に加える方式で処理することができる。

レンダリングマトリクス生成部２０１で生成するレンダリングマトリクスについてより詳細に説明すると、下記の通りである。

レンダリングマトリクスは、オブジェクト信号の位置とプレイバック（ｐｌａｙｂａｃｋ）構成に関する情報を表現するマトリクスである。すなわち、オブジェクト信号の個数がＮで、最終再生チャネルの個数がＭの場合、レンダリングマトリクスはＮ個のオブジェクト信号がＭ個のチャネルにどのようにマッピングされるかに関する情報を含む。このような情報を、下記のように様々な方法を用いてレンダリングマトリクスとして表現できる。

第一の方法は、Ｎ個のオブジェクト信号をＭ個のチャネルにマッピングする場合、Ｎ＊Ｍマトリクスで表現する。この場合、Ｎ行はそれぞれのオブジェクト信号に該当し、Ｍ列は各チャネルに該当する。特定オブジェクト信号に該当する行のＭ列には、該当のオブジェクト信号が各チャネルに割り当てられる比率を表記する。この比率を表記する方法は、実数で表現しても良く、整数で表現しても良い。

オブジェクト信号が各チャネルに割り当てられる比率を実数で表現する場合、特定行のＭ列の値を全部合算した値が１の場合、オブジェクト信号のレベル変化はないと見なす。また、この値が１よりも小さい場合は該当のオブジェクト信号のレベルを減らした場合と見なし、１よりも大きい場合はレベルを増加させた場合と見なす。もちろん、レベル変化のないケースに該当する基準値１は、他の値で表示しても良い。レベル変化の範囲は±１２ｄＢなどのような値でその範囲を限定することができる。例えば、レベル変化のない場合の基準値を１にした場合、１．５は＋１２ｄＢに該当し、０．５は−１２ｄＢに該当するもので表現し、０．５〜１．５の値は−１２ｄＢ〜＋１２ｄＢの値で線形的に対応させることが可能である。

オブジェクト信号が各チャネルに割り当てられる比率を整数で表現する場合、オブジェクト信号のレベルが変わっていない場合、該オブジェクト信号に該当する行のＭ列を全部合算した値を１０または２０、３０あるいは１００等の定められた値で定義することとなる。Ｍ列の和が定められた値よりも小さい場合、当該オブジェクト信号のレベルを減少させたことに該当し、和が定められた値よりも大きい場合、オブジェクト信号のレベルを増加させたことに該当する。この場合にもレベル変化の範囲は±１２ｄＢなどのような値でその範囲を限定することができる。また、この場合、該当のレベル変化範囲内で表示できるレベル変化の差の間隔を定めることができる。例えば、数字１の増減を２ｄＢの変化と表現することができる。オブジェクト信号のレベルが変わっていない場合、該オブジェクト信号に該当する行のＭ列を全部合算した値が２０の場合を取り上げて説明すると、２３は＋６ｄＢを表現し、１５は−１０ｄＢを表現することができる。

レンダリングマトリクスをＮ＊Ｍマトリクスで表現する場合、オブジェクト信号が６個であり、再生チャネルが５個である場合を挙げると、この時に表現されるレンダリングマトリクスは６＊５行列となる。各チャネルに割り当てられるオブジェクト信号の比率を整数で表現し、オブジェクト信号のレベル変化がない場合の和が１０の場合と、この値の１の増減が２ｄＢ増減を表す場合、任意のレンダリングマトリクスを表現すると、下記の式１のようになる。この時チャネルを表現する５列ま順序はＬｆ、Ｒｆ、Ｃ、Ｌｓ、Ｒｓであると仮定する。

上記の式１のように表現されるレンダリングマトリクスから、第１オブジェクト信号に該当する１行の５列の値（３，１，２，２，２）を参照すると、第１オブジェクト信号が５チャネル上にどんな割合で分配されたかがわかる。この５列のうち１番目の列が３と最も大きく、５列の和が１０であることから、第１オブジェクト信号はＬｆ方向に位置が定められ、全体的なオブジェクト信号のレベルには変化が無いことがわかる。同様に、第２オブジェクト信号に該当する値である（２，４，３，１，２）を参照すると、最も大きい値がＲｆに位置していて、第２オブジェクト信号の方向がＲｆ側に位置していることがわかり、５列の和が１２と、第２オブジェクト信号のレベルが４ｄＢ大きくなったことがわかる。同様に、第３オブジェクト信号の場合、該当する値が（０，０，１２，０，０）であり、Ｃにのみ成分が存在し、全体的に４ｄＢ大きくなったことがわかる。第５オブジェクト信号の場合、（２，２，２，２，２）と全チャネルに均一に分布しており、レベルの大きさには変化が無いことがわかる。

レンダリングマトリクスで表現する第二の方法は、前述したように、オブジェクト信号のレベル変化の有無を、オブジェクト信号に該当する行に在る全ての列の値を合算した値から求めることができるが、このような構造を若干変更し、上のＮ＊Ｍマトリクスで表現されたものに１列を追加し、Ｎ＊（Ｍ＋１）マトリクスで表現する。この時、各行の１番目のＭ列は、Ｍチャネルにオブジェクト信号がどのように分布するかを、上記第一の方法と略同様な方法で表現する。Ｍ＋１にオブジェクト信号のレベルを表現する方式は、第一の方法でＭ列の和の値で表現する方法と同じ方法で表現可能である。

このようにオブジェクト信号のチャネル上の分布とレベル変化を同時に表示する場合とは違い、オブジェクト信号のチャネル上の分布とレベル変化を別個に表示する場合、以降オブジェクト信号のレベル変化のみを計算する必要がある場合、追加の計算無しでレベル変化情報を得ることができる。また、このような第二の方法は、第一の方法とは表現する方式が違うだけで、表現の内容には違いがないので、第一の方法で表現されたレンダリングマトリクスをこのような形式に変換したりその反対に変換したりすることが可能であり、このような変換に追加的に必要な情報はない。

レンダリングマトリクスで表現する第三の方法は、Ｎ個のオブジェクト信号をＭ個のチャネルにマッピングする場合にＮ＊２マトリクスで表現する。この場合、１番目の列は、オブジェクト信号が位置する空間上の位置に対する角度を表し、２番目の列は、オブジェクト信号のレベル変化を表すことができる。角度表示の場合、フロント（ｆｒｏｎｔ）を０度と仮定し、反時計回りにオブジェクト位置の角度を表することができる。角度表示は０〜３６０度の値とすることができる。この時、角度表現は、１度間隔あるいは３度間隔などの間隔レベルをおいて行うことができる。特定の方向が存在せず、全チャネルに均一に分布するオブジェクト信号では、特定値を割り当てて方向を表示する値に特定値を表する場合には、全チャネルに均一に分布するということを意味するように設定することができる。

このような方法は、２次元上の方向の他に上下の方向を表示しようとする場合、Ｎ＊２マトリクスに列を一つ追加してＮ＊３マトリクスで表現し、２番目の列を上下の方向に関する情報を表現するのに使用することができる。最後の列に表されるオブジェクト信号のレベル変化は、第一の方法と同様に、実数あるいは整数で表現が可能であり、その変化のレベル間隔及び範囲も、第一の方法で説明したような方法を用いれば良い。

オブジェクトデコーダの最終再生モードがバイノーラルステレオである場合、レンダリングマトリクス生成部２０１は、オブジェクト信号の位置に対応する３Ｄ情報あるいは該３Ｄ情報に対応するインデックス（ｉｎｄｅｘ）を伝達することができる。３Ｄ情報インデックスを伝達する場合、トランスコーダ２０３は、伝達されたインデックスに対応する３Ｄ情報を保有していなければならない。また、各オブジェクト信号の位置に対応する３Ｄ情報を転送することによって、トランスコーダ２０３は、各オブジェクト信号の位置に対応する３Ｄ情報、レンダリングマトリクス、及びオブジェクト情報から、マルチチャネルデコーダ２０５で使われる特定の３Ｄ情報を計算することができる。もちろん、インデックスを伝達せずに、レンダリングマトリクス生成部で計算された３Ｄ情報を直接伝達しても良い。

前述したレンダリングマトリクスと３Ｄ情報は、エンドユーザがオブジェクト位置とプレイバック（ｐｌａｙｂａｃｋ）構成情報を実時間で変更することによって適応的に実時間変更され、トランスコーダ２０３に転送される。この時、レンダリングマトリクスと３Ｄ情報情報は一定の時間間隔をおいて情報の変化の有無及び以前の情報と対比して変化した情報のみを転送しても良い。例えば０．５秒間隔で１回ずつ情報変化の有無及び情報変化時に変化された情報転送をする場合が挙げられる。この時、時間間隔を任意に定めることができる。設定された時間間隔をおいて転送された情報をトランスコーダ２０３で使用する場合、情報の変化が起きた区間では、以前の情報と変化された情報を用いて必要な情報を生成できる。

情報転送の方法も、オブジェクト位置とプレイバック（ｐｌａｙｂａｃｋ）構成が変わらない場合、最初にレンダリングマトリクスと３Ｄ情報を一度転送した後、それ以上該当の情報を転送せずに、変化の無いことを表す情報のみを転送できる。情報の変化がある場合には、変化があることを表示する情報の転送後に、変化されたレンダリングマトリクスと３Ｄ情報を転送する方法を用いることができる。情報の変化を表す方法の場合にも、レンダリングマトリクスと３Ｄ情報のそれぞれに対して情報変化の有無を表す方法と、これら両者の変化を一つの代表値で表した後、変化が起きた場合に追加的にレンダリングマトリクスと３Ｄ情報のいずれの情報に変化が起きたかを表現する方法が可能である。この方法を使用する場合、変化が長い間起こらない場合に、変化が起きていないことを表す方法をより簡単にすることができる。

上記の式１のレンダリングマトリクスに１列を追加し、この列にはオブジェクトの上下方向に関する情報を含めることができる。この場合、該当の情報は、−９０度〜＋９０度までの値を表現することとなる。このようなオブジェクト信号の上下方向に関する情報が追加的な行列の列に含まれることは、第一の方法だけでなく第二及び第三の方法のケースに該当するレンダリングマトリクスにも適用することができる。この情報の場合、実際マルチチャネルデコーダのノーマルデコーディングモードでは使用されず、マルチチャネルデコーダがバイノーラルモードで動作する場合に追加的な３Ｄ情報を適用することによって具現可能である。このようなオブジェクト信号の上下方向に関する情報を、このようにレンダリングマトリクスに含めて転送しても良いが、レンダリングマトリクスに含めずに、３Ｄ情報と一緒に転送される方式で転送しても良い。このような上下方向に関する情報は、チャネルベースの付加情報には影響を及ぼさなく、バイノーラルモードでデコーディングする時に３Ｄ情報に適用されることとなる。

一方、オブジェクト信号の空間上の位置とレベル調整に関する情報は、レンダリングマトリクスで表現可能であるだけでなく、オブジェクト信号のスペクトル上に変化を与えることもできる。例えば、特定オブジェクト信号に対する低音部強化、あるいは高音部強化のような変化を与えることができる。この場合、これに関する情報を、マルチチャネルコーデックで使われるＡＤＧと類似な形態で各パラメータバンドのレベル変化として表示して転送することができる。このようなオブジェクト信号のスペクトル変更は、ダウンミックス前処理過程で可能である。このようなオブジェクト信号のスペクトル上の変化をエンドユーザが制御する場合、これに関する情報を、例えばスペクトルマトリクス（ｓｐｅｃｔｒｕｍｍａｔｒｉｘ）などのような形態としてレンダリングマトリクスとは別個に転送することができる。この場合、レンダリングマトリクスの行を、オブジェクト信号の個数分だけ使用することができ、レンダリングマトリクスの列を、パラメータ個数分だけ構成された行列が使用することができ、行列の係数は、各パラメータバンドのレベル調整に関する情報を表すことができる。

次に、トランスコーダ２０３の動作過程について詳細に説明する。トランスコーダ２０３は、オブジェクトベースのオブジェクト情報、レンダリングマトリクス情報及び３Ｄ情報を用いて、マルチチャネルデコーダ２０５で使われるチャネルベースの付加情報を生成して伝達し、マルチチャネルデコーダ２０５で使用される３Ｄ情報を伝達する。また、ダウンミックス信号をマルチチャネルデコーダ２０５に入力する前に前処理過程が必要な場合、これに関する情報を伝達する。

トランスコーダ２０３が入力として受信するオブジェクトベースの付加情報には、各オブジェクト信号がダウンミックス信号にどのように含まれているかを表す情報が入っている。各オブジェクト信号がダウンミックス信号にどのように含まれているかを表す方法には、マルチチャネルコーデック（Ｃｏｄｅｃ）で既に使用されているＯＴＴ（Ｏｎｅ−ｔｏ−Ｔｗｏ）ボックス及びＴＴＴ（Ｔｗｏ−ｔｏ−Ｔｈｒｅｅ）ボックスなどを用いてＣＬＤ、ＩＣＣ、ＣＰＣ等の情報を通じて表す方法がある。このような情報を通じて、各オブジェクト信号に関する情報をどのように表現可能かについてオブジェクトエンコーダで可能な方法を説明すると、オブジェクト情報にオブジェクト信号に関する情報がどんな方法で含まれるかがわかる。

一般に、マルチチャネルコーデックにおけるＴＴＴボックスは、Ｌ、Ｃ、Ｒ信号をＬ、Ｒ信号にダウンミックスしたり、逆にアップミックス（ｕｐｍｉｘ）するのに使われる。これはＣ信号がＬ、Ｒ信号の成分を一部ずつ持っているケースに該当する。しかし、オブジェクト信号間のダウンミックスとアップミックスの場合、オブジェクト信号間にこのような特徴を持っている場合はほとんど存在しない。したがって、オブジェクトコーディングのアップミックスとダウンミックス時にはほとんどＯＴＴボックスのみが使われる場合が多い。もちろん、マルチチャネルコーデックにおいて、ＣがＬ、Ｒの成分ではなく独立した信号を含んでいる場合にも問題なくＴＴＴボックスの使用が可能なので、オブジェクトコーディングアップミックスとダウンミックス時にＴＴＴボックスの使用も可能である。

このような場合の例として、オブジェクト信号が合計６個存在し、モノダウンミックス信号である場合が考えられる。この場合、図１１に示すように、ＯＴＴボックスを通じて６個のオブジェクト信号をダウンミックス信号に変換し、オブジェクト信号に関する情報を求めることが可能である。

図１１に示す構造で、一つのダウンミックス信号と合計５個のＯＴＴボックスから得られるＣＬＤ、ＩＣＣ等の情報で６個のオブジェクト信号に関する情報を表現できる。また、オブジェクトコーディングではこのような構造の自由な変更が可能である。すなわち、図１１で、ＯＴＴボックス１（２１１）には、６個のオブジェクト信号のうち任意の二つのオブジェクト信号を入力することができる。また、ＯＴＴボックスとＯＴＴボックスが階層的に連結される構造も自由な変更が可能であり、オブジェクト情報にはこのようなＯＴＴボックスの階層的に連結される構造に関する情報と各オブジェクト信号が入力として入る位置に関する情報が含まれる。任意のツリー構造の場合、マルチチャネルコーデックで使用する任意のツリー構造を表現する方法をそのまま使用することも可能である。また、各オブジェクト信号の入力位置に関する情報は様々な方法を用いて表現できる。

付加情報には各オブジェクト信号の無音区間、すなわち、特定オブジェクトの信号がない場合に対して情報を表示することも可能である。この場合、ツリー構造が時間の変化によって適応的に変わることができる。例えば、図１１で、第１オブジェクト信号が無音区間である場合、ＯＴＴボックス１（２１１）への情報は必要でなく、第２オブジェクト信号に該当する信号がＯＴＴボックス４（２１７）に入力されると見なすことができる。このように、場合によって毎回ツリー構造を変更し、これに関する情報をオブジェクト情報に含めることができる。

また、類似な方法として、特定オブジェクト信号が無音状態にあり、そのオブジェクト信号がダウンミックスされるＯＴＴボックスに対して、ＯＴＴボックスの使用の有無に関する情報が存在し、この情報によって当該ボックスのキュー（ｃｕｅ）が存在したり存在しない方法を使用することができる。このように、特定オブジェクト信号の無音区間に関する情報を適用する場合、オブジェクト情報で実際に使われないＯＴＴ、ＴＴＴボックスに関する情報を減らすことができるという長所がある。また、ツリー（ｔｒｅｅ）構造を変更する場合にも、最初に定められたツリー構造で特定オブジェクト信号が無音区間に該当する場合、該当オブジェクト信号が無音となることによって機能がＯｎ／Ｏｆｆされるボックスがどれかを類推できる。したがって、毎回変更されたツリー構造全体に対して情報を送らず、特定オブジェクト信号が無音であるという情報だけでもデコーダではツリー構造のどの部分に修正が加えられるべきかがわかるので、無音区間有無に関する情報は最小限に低減され、オブジェクト信号に対するキューを效率的に転送することができる。

図１２は、各オブジェクト信号がダウンミックス信号にどのように含まれているかを説明するための図である。図１２を参照すると、図１１でマルチチャネルコーディングのＯＴＴボックス構造をそのまま使用したこととは違い、それを若干変形した構造を示している。この構造では、一つのボックスに複数のオブジェクト信号が入力され、一つのダウンミックス信号を生成する。この場合、各オブジェクト信号に関する情報は、全体エネルギーに対する各オブジェクト信号のエネルギーの比で表現することが可能である。しかし、オブジェクト信号数が多くなると、各オブジェクト信号のエネルギーに比べて全体エネルギーの大きさが大きくなり、各オブジェクト信号に関する情報であるエネルギーの比が小さい値のみからなることがある。これを補正するため、全体エネルギーに対する各オブジェクト信号のエネルギー比を表示せずに、特定パラメータバンド内でエネルギーの最も大きいオブジェクト信号を探索し、残りのオブジェクト信号のエネルギーを最もエネルギーの大きいオブジェクト信号のエネルギーに対する割合で表す方法を適用することができる。このような方法を用いる場合、該当のパラメータバンド内で最も大きいエネルギーを持つオブジェクト信号に関する情報と、該オブジェクト信号が持つエネルギーの絶対値を知ると、残りのオブジェクト信号のエネルギーの大きさがわかる。

特定パラメータバンド内で最も大きいエネルギーを持つオブジェクト信号のエネルギーレベルは、ＭＣＵ（ＭｕｌｔｉｐｏｉｎｔＣｏｎｔｒｏｌＵｎｉｔ）のように複数のビットストリームを一つのビットストリームに併合する場合には必須の情報となる。しかし、ビットストリームを併合しない場合、最も大きいエネルギーを持つオブジェクト信号と比較した残りのオブジェクト信号のエネルギー大きさの比が与えられると、最も大きいエネルギーを持つオブジェクト信号のエネルギーレベルの絶対値を、計算を通じて抽出することができる。

例えば、特定パラメータに含まれたオブジェクト信号がＡ、Ｂ、Ｃ、Ｄの４個と仮定し、この中で最も大きいエネルギーを持つオブジェクト信号をＡとする。オブジェクトＡのエネルギーとＢ、Ｃ、Ｄとのエネルギー大きさの比をそれぞれａ、ｂ、ｃとし、オブジェクトＡのエネルギーレベルの絶対値をＥ_Aとし、該当のパラメータバンドのエネルギーをＥ_Pとすれば、下記のような式が成り立つ。

上記の式２から、最も大きいエネルギーを持つオブジェクト信号のエネルギーレベルの絶対値は、それに関する情報が与えられなくても他の情報を用いて計算できることがわかる。したがって、ＭＣＵを経てビットストリームが結合される場合でない限り、最も大きいエネルギーを持つオブジェクト信号のエネルギーレベルの絶対値を、ビットストリームに含めて転送しなくても良い。ビットストリームにはこのような情報が含まれているか否かをヘッダ（ｈｅａｄｅｒ）に表示する方法を用いて全体ビットストリームの大きさを低減することができる。

しかし、ＭＣＵを経てビットストリームが結合される場合、最も大きいエネルギーを持つオブジェクト信号のエネルギーレベル値に関する情報が必要とされる。この場合、ダウンミックス信号の実際のエネルギー大きさと最も大きいエネルギーを持つオブジェクト信号と残りのオブジェクト信号との比から求められる各オブジェクト信号のエネルギーの和が、実際ダウンミックス信号のエネルギーレベルと異なってくる場合が発生する。すなわち、ダウンミックス信号のエネルギーレベルは１００であるが、各オブジェクト信号のエネルギーレベルを計算して合算した結果が９８あるいは１０３等と、１００でない値として計算される場合がある。これは、各エネルギーの絶対値とエネルギーレベルの比が量子化された状態でこれを逆量子化（ｄｅｑｕａｎｔｉｚａｔｉｏｎ）したのち計算することによる不一致に起因する。この場合、各オブジェクト信号のエネルギーレベルとして計算された最終値にこの差を補正する係数を乗算しなければならない。ダウンミックス信号のエネルギーがＸであるが、各オブジェクト信号のエネルギーを計算して合算した値がＹである場合、各オブジェクト信号を計算する部分にＸ／Ｙを乗算しなければならいない。このような不一致を考慮しない場合、量子化エラーが各パラメータバンド及び毎フレームに含まれ、信号の歪みが生じることができる。

したがって、パラメータバンドで最も大きいエネルギーを持つオブジェクト信号のエネルギーの絶対値がどのオブジェクト信号に該当するかを表示する情報が必要である。これを表示するための情報は、特定ビットを用いて表現できるが、この情報を表示するために必要なビット数は、オブジェクト信号の総数が幾つかによって変わることができる。すなわち、オブジェクト信号数が少ないと最も大きいエネルギーの絶対値を持つオブジェクト信号を表現するのに使われるビット数も減り、オブジェクト信号の数が多いとこれを表現するビット数も増えることとなる。このとき、あらかじめ定められた規則によって該当のビット数を定めても良く、あるいは、何ビットを使用すべきかを表す他の情報を必要としても良い。

また、マルチチャネルコーデックのＯＴＴ、ＴＴＴボックスに使われるＣＬＤ、ＩＣＣ、ＣＰＣ値を表現する時、その絶対値ではなく時間差（ｔｉｍｅｄｉｆｆｅｒｅｎｔｉａｌ）、周波数差（ｆｒｅｑｕｅｎｃｙｄｉｆｆｅｒｅｎｔｉａｌ）、パイロットコーディング（ｐｉｌｏｔｃｏｄｉｎｇ）などの方法を通じて情報量を減らすことと同様に、パラメータバンド別に最も大きいエネルギーの絶対値を持つオブジェクトに関する情報も上記のような方法を用いて表示することができる。

また、最も大きいエネルギーの絶対値を持つオブジェクト信号を表現するのに最適化されたハフマンテーブル（ｈｕｆｆｍａｎｔａｂｌｅ）を使用することも可能である。この場合、パラメータバンド内での最も大きいエネルギーの絶対値を持つオブジェクト信号がどれかを表示する情報の他にも、最も大きいエネルギーの絶対値を持つオブジェクト信号と比較した相対エネルギーを表示するオブジェクト信号の順序に関する情報も必要である。例えば、オブジェクト信号が１、２、３、４、５の５個が存在すると仮定する。特定パラメータで最も大きいエネルギーを持つオブジェクト信号を第３オブジェクト信号とする場合、このオブジェクト信号に関する情報を表示し、相対的なエネルギーの比を表示する方法としては、下記のようなものが考えられる。

その第１の方法は、最も大きいエネルギーを持つオブジェクト信号に関する情報以降に、第１オブジェクト信号から順次にエネルギーの比を表示する方法であり、第２の方法は、最も大きいエネルギーを持つオブジェクト信号に関する情報以降に、該当のオブジェクト信号以降のオブジェクトから循環的な順序でオブジェクト信号のエネルギーの比を表示する方法である。もちろん、このようなオブジェクト信号間の順序に関する情報は、ファイルヘッダにあるいは一定フレームごとに１回ずつ転送されてオブジェクト信号の表示順序を知らせる情報に基づく。マルチチャネルコーデックでＯＴＴボックス番号によって各チャネルに該当する信号のＣＬＤ、ＩＣＣなどを推論するのと同様に、オブジェクトビットストリーム上には各オブジェクト信号とビットストリーム上の情報がどのようにマッチングされるかを表現する情報が必要である。

マルチチャネルコーデックの場合、ＯＴＴあるいはＴＴＴボックスのナンバーによって各チャネルに該当する信号に関する情報が何であるかがわかる。オブジェクトベースのオーディオ符号化でも、上記の方法のようにオブジェクト信号がＮ個ある場合、該当のオブジェクト信号を表示するために１番からＮ番までの番号を割り当てる方法を用いることができる。しかし、オブジェクトベースのオーディオ符号化では、該当のオブジェクト信号をオブジェクトデコーダ上でユーザが制御する場合が発生するが、この場合、ユーザはオブジェクト信号のナンバリングだけでなく、該当番号に該当するオブジェクト信号がどのオブジェクト信号かに関する説明も必要である。例えば、第１オブジェクト信号は女性ボーカルに該当し、第２オブジェクト信号はピアノに該当するなどという情報が必要であるが、これに関する情報もビットストリームのヘッダにメタデータなどとして含めて伝達することができる。このためには、オブジェクト信号に関する説明をテキスト（ｔｅｘｔ）のようなフォーマット（ｆｏｒｍａｔ）で自由に表示できる方法を用いたり、コードテーブル（ｃｏｄｅｔａｂｌｅ）のような方法を用いてあらかじめ定められたオブジェクト信号区分方法によるコードワード（ｃｏｄｅｗｏｒｄ）を使って表現しても良い。

また、オブジェクト信号間の相関情報が必要な場合もあるが、この場合にも、相関値は、エネルギーの最も大きいオブジェクト信号を基準にしてその他のオブジェクト信号に対する相関値を表現する方法を用いることができる。この時、マルチチャネルコーデックで全てのＯＴＴボックスに一つのＩＣＣ値を使用したのと同様に、全てのオブジェクト信号に一つの相関値を指定することも可能である。

オブジェクト信号がステレオオブジェクト信号の場合、ステレオチャネルで表現されるオブジェクト信号の左、右信号に対するエネルギー比率、相関情報などが必要である。ステレオオブジェクト信号の左、右エネルギーに対する比率は、前述した各チャネルの特定パラメータバンドで最も大きいエネルギーを持つオブジェクト信号に対する残りのオブジェクト信号の比率、そして最も大きいエネルギーを持つオブジェクト信号の絶対的エネルギー値に関する情報から得ることができる。例えば、特定パラメータバンドで各チャネルで最も大きいエネルギーを持つオブジェクト信号のエネルギーレベルの絶対値をそれぞれＡ、Ｂとし、これに比例したステレオオブジェクトの相対的エネルギー比率に関する情報をそれぞれｘ、ｙとすれば、ステレオオブジェクト信号の左、右チャネルに含まれたエネルギーの値はＡ＊ｘ、Ｂ＊ｙとして求められる。したがって、この値を使用すると、ステレオオブジェクト信号の左右チャネル間のエネルギー比率が計算できる。

上記情報は、オブジェクト信号はモノ（ｍｏｎｏ）であるが、ダウンミックス信号がステレオであり、このステレオダウンミックス信号にモノオブジェクト信号がステレオダウンミックスチャネルの両側に全て含めて転送する場合にも使うことができる。この場合、モノオブジェクト信号がステレオダウンミックス信号の両チャネルに含まれたエネルギーの比に関する情報、相関に関する情報が必要であり、これはステレオオブジェクトに必要な情報と同一である。モノオブジェクトをステレオダウンミックス信号の両チャネルに含める場合、多くの場合において相関値が１の信号、すなわち、Ｌ、Ｒ両側にレベルの差のみが存在する信号が含まれる。この場合、両信号間の相関は、パラメータ全域にわたって１である場合が存在する。このような場合、データ量を減らすため、該当の相関はパラメータ全域がいずれも１であることを表示する情報を用いて追加的な情報を減らすことができる。このような情報を使用する場合、パラメータバンド全体に対して相関値が１であることを毎パラメータバンドごとに表示せずに、全体パラメータに該当する相関値を一つの値で表示すれば良い。

また、複数のオブジェクト信号を一つのダウンミックス信号に結合すべくオブジェクト信号を加える場合、クリッピング（ｃｌｉｐｐｉｎｇ）が発生する場合がある。これを防止するため、ダウンミックス信号に特定値を乗じ、ダウンミックス信号の最大値がクリッピング限界を超えないようにするゲイン（ｇａｉｎ）値が必要である。このゲイン値は、時間によって変わることができる。したがって、この場合、各ダウンミックスチャネルに乗じられるゲイン値に関する情報が必要である。ダウンミックス信号がステレオダウンミックスである場合、このようなクリッピング防止のためのゲイン値は、Ｌ、Ｒそれぞれ独立して存在することとなる。これらの値をそれぞれを独立して表示して転送することができる。転送されるデータ量を減らすべくゲイン値をそれぞれ独立して転送せずに、ゲイン値の和と比に変形して転送しても良い。このように転送する場合、ゲイン値を別に転送する時よりもダイナミックレンジ（ｄｙｎａｍｉｃｒａｎｇｅ）を減らすことができ、データ転送量を低減させることができる。

また、データ転送量を更に減らす目的で、オブジェクト信号を一つのダウンミックス信号にする時、クリッピングが起きたか否かを表示するビットを備え、該当のビットがクリッピングが起きたことを知らせる時にのみゲイン値を転送し、該当のビットがクリッピングが起きていないことを知らせる場合にはゲイン値に関する情報を転送しない方法を使用することも可能である。このようなクリッピングに関する情報は、複数のビットストリームを構成する場合においてダウンミックス信号を結合する場合にもクリッピング防止のために必要である。この時、複数のダウンミックス信号が結合される場合にクリッピング防止のためのゲイン値の逆数だけがダウンミックス信号の和に乗算される。

図１３〜図１６は、オブジェクトベースのオブジェクト情報を構成する多様な方法を説明するための図である。これは、特定オブジェクトの信号がモノ、ステレオだけでなく、マルチチャネルである場合にも適用可能である。

図１３を参照すると、マルチチャネルオブジェクト信号をオブジェクトエンコーダ２２１を通じてダウンミックス信号とオブジェクト情報を生成した後、ダウンミックス信号は他のオブジェクト信号と共に再びオブジェクトエンコーダ２２３を経由するように構成されている。マルチプレクサ２２５はオブジェクトデコーダ２２１，２２３で生成した付加情報を併合する作業を行う。

図１４は、ＭＣＵで複数のビットストリームを結合する方法と同様にして、マルチチャネルオブジェクト信号で一つのビットストリームを生成し、残りのオブジェクト信号を用いてビットストリームを生成した後、これらを再び一つの結合されたビットストリームとして生成する形態を示している。

図１５を参照すると、マルチチャネルオブジェクトをまず、マルチチャネルエンコーダ２４１でダウンミックス信号とチャネルベースの付加情報として生成する。マルチチャネルエンコーダ２４１から出力されたダウンミックス信号は、残りのオブジェクト信号が入力として入るオブジェクトエンコーダ２４３に一つの独立したオブジェクト信号のように入力される。オブジェクトエンコーダ２４３では、このダウンミックス信号と残りのオブジェクト信号を用いてオブジェクトビットストリームを生成する。マルチプレクサ２４５では、マルチチャネルエンコーダ２４１から出力されるチャネルベースの付加情報とオブジェクトエンコーダ２４３から出力されるオブジェクト情報を結合して出力する。

図１６は、マルチチャネルオブジェクトをマルチチャネルエンコーダ２５３に通過させ、残りのオブジェクト信号はオブジェクトエンコーダ２５１を通過させた後、これら両ダウンミックス信号を再びオブジェクトエンコーダ２５５に通過させる構造を示している。ここで、マックス２５７は、二つのオブジェクトエンコーダ２５１，２５５で生成されたオブジェクト情報とマルチチャネルエンコーダ２５３で生成されたチャネルベースの付加情報とを結合させる。

次いで、テレコンファレンス（Ｔｅｌｅｃｏｎｆｅｒｅｎｃｅ）などでオブジェクトベースのオーディオ符号化が用いられる場合、一つのオブジェクトビットストリームともう一つのオブジェクトビットストリームとが結合され、結合されたビットストリームを生成しなければならない場合について説明する。

図１７は、二つのオブジェクトビットストリームが結合される場合を示している。図１７を参照すると、二つのオブジェクトビットストリームが一つのオブジェクトビットストリームに結合される場合、それぞれのオブジェクトビットストリーム中のＯＴＴボックスに該当するＣＬＤ、ＩＣＣ等の情報を修正する必要がない。ただし、二つのオブジェクトビットストリームに属する二つのダウンミックス信号をダウンミックスする過程で追加のＯＴＴボックスが１つ使われ、かつ、この追加されたＯＴＴボックスによりＣＬＤ、ＩＣＣ情報が追加される。

この場合、既存のそれぞれのオブジェクトビットストリームでツリー構成情報を表現する部分が、２つのビットストリームが結合されながら、統合されたツリー構成情報に変換されなければならない。結局、２オブジェクトビットストリームが結合されながら追加的な構成情報に対する修正と、各ボックスに対するインデクシングなどの修正と、追加されるＯＴＴボックスでの情報計算と、２つのダウンミックス信号の再ダウンミックス等の追加作業としか必要とせず、既存のオブジェクトビットストリームに含まれたオブジェクト信号に関する情報自体を修正する必要はない。これにより、２つのビットストリームを一つのビットストリームに結合する簡単な方法を提供する。

また、図１７で、２つのダウンミックス信号を再びダウンミックスせずに２チャネルダウンミックス信号として持つ場合、すなわち、図１７で、ＯＴＴボックス１１を省く場合、追加的なＯＴＴボックスに対する計算をすることなく２つのビットストリームを結合することができる。

図１８は、ダウンミックス信号がステレオである場合、独立したオブジェクトビットストリーム間の結合を示す図である。図１８を参照すると、２つ以上の独立したオブジェクトビットストリームを一つの統合されたオブジェクトビットストリームとする場合、それぞれのオブジェクトビットストリームで使われたパラメータバンドの個数が互いに異なる場合が発生することがある。この場合、統合されたパラメータバンドの個数に統合することが必要である。一般的には、２つのオブジェクトビットストリームのうちパラメータバンドの個数が少ない側を、パラメータバンドの個数が多い側に合わせてマッピングする。

マッピングする方法は、各パラメータバンド間のマッピングに対するテーブルを持っており、これによってマッピングを行うことが一般的である。この場合、パラメータバンド拡張によるマッピング方法は簡単な線形的数式によって行うことができる。

マッピング時に複数のバンドが重なる区間では、重なった区間だけの割合でパラメータ値を混ぜる方法を用いることとなる。複雑さが少ないこと（Ｌｏｗｃｏｍｐｌｅｘｉｔｙ）が優先される場合、パラメータバンドの統合は、２つのオブジェクトビットストリームのうち、パラメータバンドの個数が多い側をパラメータバンドの個数が少ない側に合わせてマッピングすることも可能である。この場合にも、パラメータのマッピングは、上記の場合と同じ方法で行う。

前述した２つ以上の独立したオブジェクトビットストリームを一つの統合されたオブジェクトビットストリームとする場合、既存のオブジェクトビットストリームがそれぞれ持っているパラメータを再計算することなく結合可能である。しかし、ダウンミックス信号を結合する場合、このダウンミックス信号に関するパラメータを再びＱＭＦ／ハイブリッド分析（ＱＭＦ／Ｈｙｂｒｉｄｅａｎａｌｙｓｉｓ）を通じて計算する必要がある。このようなダウンミックス信号に関するパラメータの計算に必要な計算量が相対的に大きく、このため、オブジェクトビットストリームを統合する時に再計算が必要でないという長所がやや薄れてしまう。既存のオブジェクトビットストリーム間の統合の場合にも再計算することなく統合可能なので、ダウンミックス信号間の再ダウンミックス時にもＱＭＦ／ハイブリッド分析／合成（ＱＭＦ／Ｈｙｂｒｉｄａｎａｌｙｓｉｓ／ｓｙｎｔｈｅｓｉｓ）過程を行わずにパラメータを抽出できる方法が必要である。このような過程は、オブジェクトビットストリーム上にあらかじめ各ダウンミックス信号のパラメータバンド別エネルギーに関する情報を含めておく方法で解決可能である。この場合、ダウンミックス信号の再ダウンミックス時にパラメータ計算に必要なＱＭＦ／ハイブリッド分析／合成過程無しで、オブジェクトビットストリーム上に含まれているパラメータバンド別エネルギー情報から簡単にＣＬＤのような値を計算することができる。このようなエネルギー情報は、該当のパラメータの全体エネルギー値を表示しても良く、前述したように該当のパラメータで最も大きいエネルギーレベルを持つオブジェクトのエネルギーレベルの絶対値を表示しても良い。ＩＣＣのような情報の場合、ダウンミックス信号の時間ドメイン上で求められるＩＣＣ値を全体パラメータに使用する簡単化した方法を使用しても良く、パラメータバンド数よりも少ないバンドで簡単な分析過程を経た後、それに対してＩＣＣ値を求める方法も可能である。

このような場合、複数のダウンミックス信号を再ダウンミックスする過程で信号のクリッピングが起きる可能性がある。したがって、ダウンミックス信号のレベルを減少させて再ダウンミックス時にクリッピングが起きないようにする過程が必要である。このようなクリッピング防止のために信号のレベルを減少させる場合において、該当のレベル調整に関する情報がオブジェクトビットストリームに必要となる。このようなレベル調整に関する情報は、フレーム別に適用可能であり、クリッピングが起きるフレームに対してのみ該当のレベル調整情報を持っており、デコーディング時にこれを逆に適用すると元の信号のエネルギーレベルを求めることができる。このようなクリッピング防止のための情報を計算する過程は時間ドメイン上で可能なので、ＱＭＦ／ハイブリッド合成／分析を行わなくても良い。

複数のオブジェクトビットストリームを一つのオブジェクトビットストリームに結合することは、図１２のような構造でも可能である。これを図１９に示す。

図１９は、Ｂｏｘ１（２６１）を通じて生成された独立した第１オブジェクトビットストリームと、Ｂｏｘ２（２６３）を通じて生成された第２オブジェクトビットストリームとを、Ｂｏｘ３（２６５）を通じて結合された第３オブジェクトビットストリームとして生成する場合を示している。この場合、第１ビットストリームと第２ビットストリームに含まれた情報が、前述した特定パラメータバンド内の最も大きいエネルギーを持つオブジェクト信号のエネルギーレベルの絶対値と、これと比較した残りのオブジェクト信号の相対的エネルギー比率、Ｂｏｘ１（２６１）とＢｏｘ２（２６３）におけるダウンミックス信号に乗算されたゲイン値に関する情報などである場合、Ｂｏｘ３（２６５）では追加的なオブジェクトパラメータを計算したり抽出する過程無しで入力として入る複数のオブジェクトビットストリームを単純に併合する過程のみが必要となる。

また、Ｂｏｘ３（２６５）に入力として入る複数のダウンミックス信号をＰＣＭ信号に変換した後、単純和で一つのダウンミックス信号とする過程しか必要としない。この時、Ｂｏｘ３（２６５）に入力される複数のダウンミックス信号を一つのダウンミックスとして結合する過程でクリッピングが起きる場合がある。したがって、クリッピングを防止するためには追加的にダウンミックス信号にゲイン値を乗じる過程が必要である。この場合、ゲイン値は併合されたオブジェクトパラメータに含まれて転送される。

複数のオブジェクトビットストリームを一つのオブジェクトビットストリームに結合する場合についてより詳細に説明すると、下記の通りである。図１９の例を挙げると、ＳＩＤＥＩＮＦＯＡの特定パラメータには最も大きいエネルギーを持つオブジェクト信号に関する情報とそのエネルギー大きさの値、この値と比較した他のオブジェクト信号のエネルギー比に関する値などが含まれており、ＳＩＤＥＩＮＦＯＢにも同じ種類の情報が含まれている。この場合、２つのビットストリームを結合して一つのビットストリームとして構成する方法には、下記のような方法が適用可能である。

第一の方法は、２つのビットストリームを追加的な計算によって統合せずに、単純に一つのビットストリーム内に並列式で配置することである。この場合、図２０に示すように、デコーダでは、転送されてきたビットストリーム内に複数のビットストリームが並列式で存在していることを知らせるビット情報に基づいて当該ビットストリームを分析することとなる。

図２０に示すように、一つに結合されたビットストリームを表示する場合、ＭＣＵのように複数のオブジェクトビットストリームを一つのビットストリームに併合する所では単純に複数個のビットストリームが存在するという情報、いくつのビットストリームが結合されたかに関する情報、及び併合される前のビットストリームの位置を区分するビット情報以降に、併合される前の別個のビットストリームを単純に配置すればよい。この場合、デコーダでは、転送されてきたオブジェクトビットストリームが複数のビットストリームが結合されたものかは情報分析によってわかる。この場合、複数のビットストリームを併合する際に単純な識別子に該当する情報を加える作業以外には他の付加的な作業をする必要がないという長所がある。しかし、これに関する情報を一定のフレームごとにヘッダに含めなければならないという負担が存在し、デコーダでは毎度転送されてきたビットストリームが最初から一つに生成されたビットストリームなのか、複数個のビットストリームが併合されたビットストリームなのかを判断しなければならない。

上の方法の代案としては、デコーダが複数のビットストリームが一つのビットストリームに併合されたものかが確認できないように若干の計算を通じてビットストリームを併合する方法がある。この場合を図２１に示す。

図２１を参照すると、Ａ、Ｂの最も大きいオブジェクト信号のエネルギーレベルを比較した後、エネルギーレベルの大きい方のオブジェクト信号を併合されたストリーム（ｓｔｒｅａｍ）でエネルギーレベルの最も大きいオブジェクト信号と定める。このオブジェクト信号が含まれていたビットストリームに含まれたオブジェクト信号のエネルギー比はそのまま使用し、他のビットストリームに含まれたオブジェクト信号のエネルギーはＡ、Ｂの最も大きいエネルギーの比だけを乗じて再び計算をする。この場合、パラメータバンド内で最も大きいエネルギーを持つオブジェクト信号と残りのオブジェクト信号間のエネルギーレベルの比を再び計算しなければならないが、複雑さはあまり高くない。デコーダでは、転送されてきたオブジェクトビットストリームが複数のビットストリームが併合されたビットストリームなのか否かが確認できないので、一般的な方法を使用してデコーディングできるという長所がある。

ダウンミックス信号がステレオである場合にも、２つのオブジェクトビットストリームの結合は、モノダウンミックス信号のオブジェクトビットストリームの結合における場合と類似な方式で可能であり、このような結合は、それぞれのオブジェクトビットストリームが持っていたオブジェクト信号に関する情報を再び計算せずに使用することができるという点から、簡単な結合方法であることがわかる。このように、オブジェクトビットストリームの構造を、最初にオブジェクト信号をダウンミックスするツリー構造に関する情報が置かれた後、各ツリーの枝に該当するボックスから得られたオブジェクト信号の情報が続く形態で構成することができる。

以上のオブジェクトビットストリームでは、特定のオブジェクト信号がダウンミックスチャネルのたった一箇所に存在する場合について説明した。すなわち、ダウンミックス信号がステレオである場合であり、特定オブジェクトの信号がステレオダウンミックス信号の両側ともに存在する場合についての説明がさらに必要である。こういう場合は主として、オブジェクトオーディオ符号化の下位互換性（ｂａｃｋｗａｒｄｃｏｍｐａｔｉｂｉｌｉｙ）に対する条件でダウンミックス信号のみを典型的なステレオ再生機で再生する場合を考慮することによって発生する。すなわち、一般的なステレオ信号の場合、一つのオブジェクト信号が一方のチャネルにのみ存在するのではなく両チャネルともに存在する場合が一般的である。この場合、該当するダウンミックス信号を生成するときにオブジェクトビットストリームを生成する方法は、下記の通りである。

図２２は、複数のオブジェクト信号をミキシングしてステレオダウンミックス信号を生成する方法を説明するための図である。図２２には、４個のオブジェクト信号がミキシングされて、Ｌ、Ｒのステレオ信号としてダウンミックスされる過程が示されている。

このような場合、特定のオブジェクト信号がダウンミックスチャネルのＬ、Ｒ両側ともに含まれていることがわかる。特定のオブジェクト信号がＬ、Ｒ両側チャネルに分配される過程は、次の通りである。図２２で、第１オブジェクト信号は、ＬとＲにａ：ｂの割合で分配して入力されている。これを数式にすると、下記の通りである。

上記のような式から、各オブジェクト信号がＬ、Ｒに分配された比率がわかると、特定のオブジェクト信号がＬ、Ｒ両方ともに含まれた場合にも、Ｌ、Ｒにオブジェクト信号がどんな割合で含まれているかがわかる。すなわち、オブジェクト信号がステレオダウンミックスチャネルの両側ともに含まれた場合、これに対する比、すなわち、上の式でａ、ｂ値に関する情報が追加的に必要である。以降、Ｌ、Ｒの各チャネルにＯＴＴボックスによるダウンミックスを通じてＣＬＤ、ＩＣＣ等のオブジェクトに関する情報を計算することは、図２３に示されている。

図２３に示すように、ダウンミックスを進行しながら各ＯＴＴボックスで得られたＣＬＤ、ＩＣＣ情報と、前述したＬ、Ｒに分配されたオブジェクト信号の分配比率に関する情報を持っていると、以後、エンドユーザがオブジェクト位置、プレイバック（ｐｌａｙｂａｃｋ）構成情報を変化させる場合にこれに対して適応的に変化されるマルチチャネルビットストリームを計算することができる。また、ダウンミックス前処理過程でステレオダウンミックス信号に変形を加えなければならない場合、その変形情報を求めて前処理部に伝達することも可能である。言い換えると、設けられた複数のオブジェクト信号の各々のチャネル分配比率情報がない場合、マルチチャネルビットストリームを計算する方法や、ダウンミックス前処理部で処理しなければならない情報を求める方法がない。オブジェクト信号のチャネル分配比率情報を、二つの整数又はスカラー（単位：ｄＢ）で表すことができる。

上述した場合、すなわち、オブジェクト信号がステレオダウンミックス信号の全てに含まれている場合には、該当の信号のチャネル間の分配比率に関する情報が必要である。この時、この情報は、前述したように該当のオブジェクト信号の単純なチャネル間のレベルの比率であっても良いが、より複雑な場合、周波数バンド別にその比率を異なって適用することができる。この場合には前述した比率ａ、ｂに関する情報が周波数バンド別にそれぞれ与えられなければならない。また、このような情報が後で適用される場合においても該当のオブジェクト信号のチャネル間の情報を使用する場合、パラメータバンド別に与えられた比率情報を使用しなければならない。また、より複雑なダウンミックス過程を経た場合、すなわち、一つのオブジェクト信号がダウンミックスされたチャネル両側に含まれ、バンド別にＩＣＣ値に変化を与えてダウンミックスされた場合、これに関する情報も追加的に必要である。これは、最終的にレンダリングされたオブジェクト出力信号をデコーディングする過程で必須となる。また、このような方法は、前述したオブジェクトの全ての可能な構造に適用可能である。

次に、前処理（Ｐｒｅ−ｐｒｏｃｅｓｉｎｇ）過程について、図２４〜図２７を参照して詳細に説明する。オブジェクトデコーダに入力されるダウンミックス信号がステレオ信号である場合、このダウンミックス信号はオブジェクトデコーダ内のマルチチャネルデコーダの入力として入る前に前処理過程を経なければならない。その理由は、前述したように、マルチチャネルデコーダは、ステレオダウンミックス信号を受けてマルチチャネル信号をデコーディングする過程で、ダウンミックス信号の左チャネルに位置した信号をマルチチャネルの右チャネルにマッピングすることができないためである。したがって、エンドユーザがステレオダウンミックスのうち左チャネルに属しているオブジェクト信号の位置を右方向に変更しようとする場合、ステレオダウンミックスチャネルに対して前処理過程を行ってからマルチチャネルデコーダに入力しなければならない。

このようなステレオダウンミックス信号の前処理過程は、オブジェクトビットストリームとレンダリングマトリクスから前処理情報を求めた後、この情報を用いてステレオ信号に適切な処理をすることで完了する。ここでは、オブジェクトビットストリームとレンダリングマトリクスから前処理情報を求め、これをステレオダウンミックス信号に適用する方法について説明する。

図２４は、第１〜４オブジェクトの合計４個のオブジェクト信号がステレオダウンミックスとして構成される過程を示している。図２４を参照すると、第１オブジェクト信号と第２オブジェクト信号の場合、それぞれａ：ｂ、ｃ：ｄの割合で分割されてＬ、Ｒチャネルに含まれており、第３オブジェクト信号はＬチャネルにのみ、第４オブジェクト信号はＲチャネルにのみ含まれている。これらのオブジェクト信号のそれぞれはＯＴＴボックスを経由しながらＣＬＤ、ＩＣＣ等の情報を生成し、ダウンミックス信号となる。

このような場合、エンドユーザがオブジェクト信号の位置とレベル調整値を設定し、上記の数式１のような形式のレンダリングマトリクスを得たと仮定する。ここでは最終再生チャネルが５チャネルである場合を挙げると、そのレンダリングマトリクスの例は、下記の式４で示される。

上記の数式４で表現したレンダリングマトリクスを上記のレンダリングマトリクスの説明方法によって説明すると、次の通りである。レンダリングマトリクスの値は整数値を使用するフォーマットで表現され、各行の５列の和は１００になる時に該当のオブジェクト信号のレベル変化がないと仮定した。また、この和が１増えたり減る度に該当のオブジェクト信号のレベルが１ｄＢずつ増減することを表現することとし、５列の順序が表すチャネルの位置はＦＬ、ＦＲ、Ｃ、ＲＬ、ＲＲとする。

第１オブジェクト信号の場合について説明すると、レンダリングマトリクスで表現される第１オブジェクト信号のチャネル間の分布は［３０１０２０３０１０］で表現される。これら係数の和が１００であるので、第１オブジェクト信号はレベル変化はなく、単に空間上の位置のみ変化されることがわかる。これを左側と右側の２方向に分けると、Ｌｅｆｔ＝３０＋３０＋２０＊０．５＝７０、Ｒｉｇｈｔ＝１０＋１０＋２０＊０．５＝３０で表現される。すなわち、レンダリングマトリクスは、第１オブジェクト信号に対してレベルは変化せずに、左側に７０％、右側に３０％分布させるという情報を知らせる。和が１００より小さいか大きい場合、これはオブジェクト信号レベルの変化を意味し、これはダウンミックス信号の前処理過程で処理しても良く、チャネルベースの付加情報にＡＤＧ形態に変換して転送しても良い。

ダウンミックス信号の前処理を行うためには、ダウンミックス信号にＱＭＦ／ハイブリッド変換を行った信号からパラメータを抽出する時のパラメータバンド別に信号の分布比を計算した後、これをレンダリングマトリクスの設定に合うように再分布させなければならない。このような再分布方法には様々な方法がある。

第一の再分布方法は、左側、右側の各チャネル別にＯＴＴボックスのＣＬＤ、ＩＣＣなどを用いて左側、右側の信号のそれぞれに対して、マルチチャネルコーデックでＯＴＴボックスを含む場合に各信号をデコーディングするのと同様にして各オブジェクト信号をデコーディングする。このように左側、右側の信号のそれぞれに対してデコーディングを行うと、各信号に含まれていたオブジェクト信号を求めることができる。この時、計算量を減らすために、ＩＣＣは用いずにＣＬＤのみを用いてデコーディングをすることができる。特定のオブジェクト信号が左側と右側の両側ともに含まれている場合、該当のオブジェクト信号が左側及び右側にどんな割合で含まれているかは、前述したように、該当の情報からわかる。

このようにして求められた信号を、レンダリングマトリクスから分かる左側及び右側の信号比率に合うように、レンダリングマトリクスの比率よりも多く含まれている側の信号からその分だけを引いた後、これを他の側のチャネルオブジェクト信号に加える作業を行うことで、各オブジェクト信号の分配が完了する。このように分配が完了した信号を再びＯＴＴボックスなどを通じて各チャネル別にダウンミックスをすることで、ダウンミックス前処理過程が完了する。直前のチャネル別オブジェクト信号のダウンミックスを通じてＯＴＴボックスのＣＬＤ、ＩＣＣなどは再計算される。このような方法はマルチチャネルデコーディングで使用した方法を再使用可能であるという長所はあるが、各チャネルに対してオブジェクト信号数だけの信号をデコーディングし、これを再分配した後にチャネル別にダウンミックス過程を行わなければならない。

第２の再分布方法は、左側及び右側チャネルのそれぞれの信号において全てのオブジェクト信号をそれぞれデコーディングせずに、一度で左側のダウンミックス信号のうち右側のダウンミックス信号側に移されなければならない部分及び右側のダウンミックス信号のうち左側のダウンミックス信号側に移されなければならない部分を構成する方法が可能である。これを簡単に表示すると、図２５のようになる。図２５では、図２４のようにダウンミックスされた信号の例でダウンミックス前処理する状況を仮定した。

同図において、Ｌ信号において左側に残るようになる信号Ｌ＿Ｌと右側に加えられなければならない信号Ｌ＿Ｒを求める方法は次の通りであり、これは、Ｒ信号においてＲ＿ＬとＲ＿Ｒ信号を求める方法にも同様に適用される。まず、Ｌ、Ｒ信号においてオブジェクト信号がどのような比率となっているかを知らなければならない。これは、上記の式２におけるａ、ｂ値に該当するものである。式２では、第１オブジェクト信号がＬとＲにａ：ｂの割合で分配されていることが示されている。ここにレンダリングマトリクスから求められるＬ’とＲ’におけるオブジェクト１に対する比率を求めることができる。式３の例では、この比率が７：３として得られることがわかる。ここで、これら２つの情報、すなわち、第１オブジェクト信号のＬ、Ｒの比率ａ：ｂとＬ’、Ｒ’の比率７：３とを比較すると、第１オブジェクト信号がＬ、ＲからＬ’、Ｒ’の割合に変わるためにはＬ、Ｒ信号のいずれかからどれほどの比率を抽出して残りの一方に加えられるべきかに関する値を得ることができる。

このような方法を用いると、第２、第３及び第４オブジェクト信号に対してもそれぞれ、Ｌ、Ｒ信号のどちらの成分をどれほど抽出して残りの他方に加えるべきかに関する情報を求めることができる。これは、図２５でＬから抽出されてＲ’側に加えるＬ＿Ｒと、Ｒから抽出されてＬ’側に加えられるＲ＿Ｌに対する比率に関する情報を計算したことに該当する。この情報と一緒にＬ、Ｒ各チャネルのＯＴＴボックスのＣＬＤ、ＩＣＣ情報を用いると、各パラメータバンド別にどんな割合でＬの信号をＬ＿Ｌの信号とＬ＿Ｒの信号とに分割する場合に第１、第２、第３及び第４オブジェクト信号に対して所望の比率のままに分割された信号が得られるかに対する最終比率値を求めることができる。

以上ではＬをＬ＿ＬとＬ＿Ｒとに分ける時にエネルギーの比率をどのように分割するかについて説明した。ここに加えて、Ｌ＿ＬとＬ＿Ｒ間のＩＣＣ値も決定しなければならない。これもまた、パラメータバンド別にＬ信号に対するＯＴＴボックスのＩＣＣ情報から求めることができる。すなわち、既存ＯＴＴボックスでオブジェクト間のＩＣＣ値がわかるので、Ｌ＿ＬとＬ＿Ｒでオブジェクト間の比率を通じて最終ＩＣＣ値を求めることが可能になる。これにより、ＬをＬ＿Ｌ、Ｌ＿Ｒ信号に、またＲをＲ＿Ｌ、Ｒ＿Ｒ信号に分けた後、この信号に対してＬ＿ＬとＲ＿Ｌ、Ｌ＿ＲとＲ＿Ｒを合算し、最終的にダウンミックス前処理が完了したＬ’とＲ’を得ることができる。

上記した第２の方法について具体的な数字を挙げて説明すると、次の通りである。まず、ダウンミックス信号であるＬとＲが図２４のような過程によって得られるとする。また、第１オブジェクト信号は、Ｌ、Ｒに１：２の割合で含まれており、第２オブジェクト信号は２：３の割合で含まれているとする。また、第３オブジェクト信号はＬにのみ含まれていて１：０の割合で表現でき、同様に第４オブジェクト信号はＲにのみ含まれていて０:１の割合で表現できるとする。図２５からわかるように、各チャネルでオブジェクト信号がＯＴＴボックスを経てダウンミックスされ、ＣＬＤ、ＩＣＣなどの情報を得ることとなる。

レンダリングマトリクスの例は式４に示した。これは、上記の式３で用いた例と同一である。該当のレンダリングマトリクスにはエンドユーザが設定したオブジェクト信号の位置ｎに関する情報が入っており、また、これを通じてダウンミックス前処理過程で得られるＬ’、Ｒ’に関する情報を求めることができる。レンダリングマトリクスの構成とこれを解析する方法については、上記の式３で説明した通りである。

レンダリングマトリクスを通じて得られる、第１、第２、第３及び第４オブジェクト信号のＬ’、Ｒ’に分布される比率は、下記の式５のように計算される。

Ｌ、Ｒ信号に分布されていた第１、第２、第３及び第４オブジェクト信号の比率は前述した通りであり、下記の式６で表現される。

上記の式５で、オブジェクト３のＬ’、Ｒ'比率の和は１１０であり、オブジェクト４のＬ’、Ｒ’比率の和は９５であり、これは、オブジェクト３は２５だけのレベルが大きくなるということを意味し、オブジェクト４は５だけのレベルが小さくなるということを意味する。このＬ’、Ｒ’比率の和が１００であるとレベルの変化がないことを意味し、１増加したり減少することが該当のオブジェクトのレベルが１ｄＢ増加または減少するということを意味する場合、第３オブジェクト信号は、１０ｄＢレベル増加したことを意味し、第４オブジェクト信号は５ｄＢレベル減少したことを意味することとなる。

上記の式５及び６に表現した第１、第２、第３及び第４オブジェクト信号に対するＬ、Ｒでの比率とレンダリングマトリクスを経た後に得られるＬ’、Ｒ’での比率とを比較しやくするため、比率の和が１００となるように再び表現すると、下記の式７のようになる。

上記の式７から、ダウンミックス前処理前後に各オブジェクトが左側及び右側にどんな分布とされているか、このような結果を得るためにダウンミックス信号の左側及び右側信号においてどのオブジェクト信号がどちらにどれだけ再分配されるべきかが容易にわかる。例えば、第２オブジェクト信号の場合、４０：６０から３０：７０へと比率が変わり、これは、ダウンミックス前処理を通じてＬ側の第２オブジェクト信号の成分４０のうち１０がＲ側へと移動しなければならないということを意味する。これは、Ｌに含まれているオブジェクト２の成分の２５％（１０／４０＊１００）がＲ側に移動しなければならないということを意味する。これについて再び整理すると、下記の式８の通りである。

式８を参照して図２５のＬ＿Ｌ、Ｌ＿Ｒ、Ｒ＿Ｌ、Ｒ＿Ｒを表現すると、下記の式９のようになる。Ｌ信号に対して特定パラメータで第１、第２及び第３オブジェクト信号が占める比をＬに対して示すと、下記の式９のようになる。式の複雑さを減らすためにパラメータ表示はしない。

上記の式９で、各オブジェクト信号の値をＯＴＴボックスのＣＬＤを用いてＬ、Ｒに対する比で表現すると、下記の式１０のようになる。ちなみに、下記の式１０の値は、パラメータバンド別に表現されなければならないが、式の複雑さを避けるためにパラメータ表示はしないものとする。ここで、ＣＬＤは逆量子化された値を意味するとする。

図２５で、各パーシング部で用いられるＣＬＤは、下記の式１１で求められ、式１０に代入すると具体的な値が得られる。

このような方式で、図２５においてＬからＬ＿Ｌ、Ｌ＿Ｒ信号を生成するパーシング部に用いられるＣＬＤとＩＣＣを求めることができ、同様に、ＲからＲ＿Ｌ、Ｒ＿Ｒ信号を生成するためのＣＬＤとＩＣＣを求めることができる。これを用いて各信号を生成した後、同図のように、Ｌ＿ＬとＲ＿Ｌとを合算し、Ｌ＿ＲとＲ＿Ｒと合算することで、ダウンミックス前処理されたステレオ信号が得られる。最終再生チャネルがステレオである場合には、ダウンミックス前処理が完了したＬ’、Ｒ’信号を出力として用いることができる。この場合、特定オブジェクト信号のレベルが増加または減少した場合に対してはまだ処理されていないので、この処理ができるモジュールを選択的に追加することができる。該モジュールの機能は、マルチチャネルデコーディングでＡＤＧが行う処理過程と同一である。また、追加的にこのようなオブジェクト信号のレベル処理を、前述したダウンミックス前処理過程内に追加することも可能である。この場合にも、レベル処理方法はＡＤＧ処理方法と同一である。

図２５は、図２６のような方法で表現されても良い。図２６では、図２５とは違い、リミックスされた出力Ｌ’、Ｒ’信号の相関値を合わせるためのデコリレーション作業が第１及び第２パーシング部で行われずに、Ｌ’あるいはＲ’信号の出力（ｏｕｔｐｕｔ）に適用されている。Ｐｒｅ＿Ｌ’とＰｒｅ＿Ｒ’の信号はＬ、Ｒ間のエネルギーレベル差が補正された信号を意味する。このうちいずれか一方の信号にデコリレータを適用した後、ミキシング過程を通じて相関値に該当する信号を生成する。

前述したダウンミックス前処理を経たステレオ信号は、マルチチャネルデコーダに入力される。エンドユーザが設定したオブジェクト位置とプレイバック（ｐｌａｙｂａｃｋ）構成に合うマルチチャネル出力を生成するためには、ダウンミックス前処理の出力信号と共にマルチチャネルデコーディングのためのチャネルベースの付加情報が必要である。このようなチャネルベースの付加情報を求める方法を、上記の例について説明すると、次の通りである。ダウンミックス前処理を経て出力された信号Ｌ’、Ｒ’がマルチチャネルデコーダの入力信号として入力されるので、この信号に対して式５を参照して再び整理すると、下記の式１２のようになる。

また、上記の式２のレンダリングマトリクスで各チャネルに対するオブジェクト信号の分布を式で表示すると、下記の式１３のようになり、Ｌ’、Ｒ’が５．１チャネルに拡張される構造を図２７に示す。

図２７で、各ＴＴＴボックスとＯＴＴボックスのパラメータを計算しなければならない。この場合にも、パラメータの計算はパラメータバンド別に行われる。以降の式においてもパラメータバンドの表示がされていなければならないが、式の簡単化のためにパラメータバンド表示は省略する。ＴＴＴ、ＯＴＴボックスのパラメータ計算式は、パラメータバンド単位に行われることに留意されたい。

図２７で、ＴＴＴボックスはエネルギーベースモード（Ｅｎｅｒｇｙｂａｓｅｄｍｏｄｅ）と予測モード（ｐｒｅｄｉｃｔｉｏｎｍｏｄｅ）の２種類のモードを使うことができる。エネルギーベースモードで動作する場合には２個のＣＬＤが必要であり、予測モード（ｐｒｅｄｉｃｔｉｏｎｍｏｄｅ）を使う場合には２個のＣＰＣと１個のＩＣＣが必要である。

エネルギーベースモードの場合、ＣＬＤを求めるためには、図２７でＬ"、Ｒ"、Ｃのエネルギー比率を知らなければならない。これは、式６、１０、１３を通じて求めることができる。Ｌ"のエネルギーを求める方法は式１４に示されており、Ｒ"、Ｃに対しても同一式を適用すれば良い。

上記の式１４と同一の方法でＲ"、Ｃに対してもエネルギーを求めることができる。このようにして求めたＬ"、Ｒ"、Ｃのエネルギーを用いてエネルギーベースモードにおけるＴＴＴボックスに使われるＣＬＤ値を求めることができ、これは、式１５で示される。

上記の式１４では式１０における値が使われた。この時、第１及び第２オブジェクト信号に対して代入された値は、式１０で左チャネルに対する値が使われた。これと同じ方法で、式１０で右チャネルに対する値を代入して計算することもできる。これから推論できる点は、図２６で右チャネルのＯＴＴ３、ＯＴＴ４のＣＬＤ、ＩＣＣの値をＯＴＴ１、ＯＴＴ２のＣＬＤ、ＩＣＣ値から計算できるという事実である。これは全てのオブジェクト信号のツリー構造に適用可能なわけではなく、特殊なケースに該当する。この場合、オブジェクトビットストリームに含まれて転送されてくる情報をＯＴＴボックスのそれぞれに転送しても良く、一部のＯＴＴボックスにのみ転送した後、転送しなかったボックスに関する情報は計算を通じて得ても良いということを意味する。

上記と類似な方式として、ＯＴＴボックスＡ、Ｂ、Ｃに対してもＣＬＤ、ＩＣＣパラメータを計算することができ、計算されたマルチチャネルパラメータをマルチチャネルデコーダの入力として伝達し、マルチチャネルデコーディングを行うと、エンドユーザーの所望するオブジェクト位置とプレイバック（ｐｌａｙｂａｃｋ）構成に合うようにレンダリングが完了したマルチチャネル信号が得られる。

上記のマルチチャネルパラメータには、オブジェクト信号レベルに変化がある場合、該当のレベルがダウンミックス前処理で調整されなかったとき、マルチチャネルパラメータにＡＤＧ形態で含まれて転送され、マルチチャネルデコーディング過程上でオブジェクト信号のレベルを修正する。上記の例においてレベル補正がダウンミックス前処理過程で調整されなかった場合にＡＤＧ値を計算する方法は、下記の通りである。

上記の例で、オブジェクト信号のレベル調整は、レンダリングマトリクスによって第３オブジェクト信号に対して１０ｄＢ大きくなり、第４オブジェクト信号に対して５ｄＢ小さくなるように設定された。これはＡＤＧが適用されるＬ’、Ｒ’信号に対しては、Ｌ’信号で第３オブジェクト信号が５ｄＢ大きくなり、第４オブジェクト信号に対して２．５ｄＢ小さくなるように設定されたし、Ｌ’信号でオブジェクト３が５ｄＢ大きくなり、オブジェクト４に対して２．５ｄＢ小さくなるように設定された。Ｌ’信号で第３及び第４オブジェクトのレベル調整がなされる以前と以降の比率を計算すると、下記の式１６のようになる。

この式１６に上記の式１０の値を代入することによって値を求めることができる。Ｒ信号に対しても同じ方法でＡＤＧ適用前後のエネルギーの比を求めることができる。このようにして求められた値は、オブジェクト信号のレベル調整前後における該当のパラメータバンドのエネルギー変化の比率であるから、これを通じてＡＤＧ値を求めることができる。ＡＤＧ値は、次の式１７で求められる。

このようにして求められたＡＤＧ値は、マルチチャネルデコーディングのＡＤＧ量子化テーブルによって量子化されて転送される。また、マルチチャネルデコーディングのＡＤＧテーブルを使用する場合よりもさらに精密な調整が必要な場合、該当の情報をＡＤＧの形態で転送し、マルチまだデコーダに適用せずにダウンミックス前処理部で行うことも可能である。

一方、オブジェクトビットストリームでオブジェクト信号を表現する時に使用したパラメータバンドと、マルチチャネルデコーダで使われるパラメータバンドの個数及びバンド間の間隔が異なる場合がありうる。この場合、オブジェクトのパラメータバンドからマルチチャネルデコーダのパラメータバンドにマッピングする方法が必要である。このとき、線形的なマッピング方法を使用する。線形的なマッピングとは、例えば、オブジェクトの特定パラメータバンドの領域がマルチチャネルデコーダの特定パラメータバンドの２箇所にわたっている場合、２箇所に含まれている領域の比率でオブジェクトのパラメータを分割して適用することを意味する。これは、オブジェクトの複数のパラメータバンドがマルチチャネルデコーディングの特定パラメータの１箇所に含まれた場合、これらオブジェクトパラメータの平均値を適用することを意味する。また、既にマルチチャネル標準に含まれているバンド間のマッピングテーブルを使用しても良い。

テレコンファレンスの場合においてオブジェクトコーディングを使用する状況を取り上げると、オブジェクト信号には多数の話し手の音声が該当し、オブジェクトデコーダではこれらのオブジェクト信号のそれぞれに該当する音声を特定スピーカーから再生することとなる。このように同時に多数の話し手が話をする場合、各話し手の信号を正確に区分し、それぞれのスピーカーに特定の話し手に該当する人の音声が配置されるようにデコーディングすることは難しい。この場合、オブジェクト信号に該当する話し手をそれぞれ異なるスピーカーに配置するようにする、すなわち、レンダリングする過程がダウンミックス信号よりも認識度が悪くなる程度の音質歪みを引き起こすという恐れがある。このような歪みを防止するため、一人が話をしているのか、同時に数人が話をしているのかを表す情報を含めることができる。このような情報によって、多数の話し手が同時に話す場合、敢えてそれぞれのオブジェクト信号を特定スピーカーに配置させるデコーディング作業をすることによって音質の歪みを誘発させずに、ダウンミックス信号とほぼ同様なデコーディングをしない信号が各スピーカーに出力されるようにトランスコーダのチャネルベースビットストリームを調整する方法が可能である。

例えば、ａ、ｂ、ｃ、ｄ、ｅと5人の話し手に該当するオブジェクト信号があり、これらをそれぞれＡ、Ｂ、Ｃ、Ｄ、Ｅというスピーカーに配置されるようにデコーディングする場合が考えられる。もしａ、ｂ、ｃの３人の話し手が同時に話す場合、ダウンミックス信号にはａ、ｂ、ｃの３人の話し手の音声がダウンミックスされて含まれている。この場合、一般的なオブジェクトデコーディング過程は次の通りである。まず、ａ、ｂ、ｃの音声が含まれたダウンミックス信号でａ、ｂ、ｃの音声に該当する部分に関する情報をマルチチャネルビットストリームに構成し、Ａスピーカーからａの音声が出力され、Ｂスピーカーからはｂの音声が出力され、ｃスピーカーからはｃの音声のみ出力されるようにデコーディングが行われる。しかし、このようにする場合、各スピーカーからは該当の音声信号が歪まれた状態で出力され、むしろダウンミックス信号の場合よりも認識率が低下し、話し手間の音声が完壁に分離されないという不都合がある。このような場合、ａ、ｂ、ｃが同時に話しているという情報がＳＡＯＣビットストリーム上に含まれて伝達されると、トランスコーダではＡ、Ｂ、Ｃスピーカーから該当のダウンミックス信号がそのまま出力されるようにマルチチャネルビットストリームを生成する。これにより、信号の歪みが防止される。

多数の人が同時に話す場合、実際にも特定の一人が話す声のみを聞くことはできないので、人々の声をそれぞれ分離して所望の位置に出力させて歪みを発生させることにより、ダウンミックス信号をそのまま出力することがより実際の環境に近いといえよう。この場合、トランスコーダで、同時に話している人々に該当するスピーカーにダウンミックス信号がそのまま出力されるようにマルチチャネルビットストリームを生成しても良いが、該当のスピーカーに該当する話し手の音声が歪みを発生させないような範囲で相対的にやや大きく出力されるようにマルチチャネルビットストリームを生成しても良い。

また、オブジェクトビットストリームに複数の話し手が同時に話をしているか否かを表示して伝達せずに、オブジェクトエンコーダでこれを勘案してオブジェクトビットストリームを変形して伝達することも可能である。この場合、オブジェクトデコーダでは普段のとおりにデコーディングをするが、複数の話し手が話している場合、複数の話し手に該当するスピーカーの出力がダウンミックス信号、あるいは、対応するスピーカーに該当する話し手の音声が歪みの生じないような範囲でやや大きくなった信号がデコーディングされて出力されることとなる。

次に、マルチチャネルデコーダに伝達されるＨＴＲＦなどのような３Ｄ情報について説明する。

オブジェクトデコーダがバイノーラルモードで再生される場合、オブジェクトデコーダ内に含まれたマルチチャネルデコーダがバイノーラルモードで作動する。この時、エンドユーザが各オブジェクト信号を空間上に位置させた情報に基づいて最適化されたＨＲＴＦのような３Ｄ情報が、マルチチャネルデコーダに転送される。

このときに転送される３Ｄ情報を求める方法を、２個のオブジェクト信号が任意の位置１、２に位置している場合を挙げて説明する。このような場合、位置１、位置２に該当する３Ｄ情報は、レンダリングマトリクス生成部あるいはトランスコーダに含まれている。レンダリングマトリクス生成部に３Ｄ情報が含まれている場合、該当のオブジェクト信号が位置している位置に該当する３Ｄ情報をトランスコーダ側に転送する。３Ｄ情報がトランスコーダに含まれている場合、レンダリングマトリクス生成部は単に該当のオブジェクト信号が位置している位置に関する情報、すなわち、どの位置に該当の３Ｄ情報を使用すべきかに関するインデックス情報のみをトランスコーダに転送する。

このようにオブジェクト信号が２個あり、該当の位置に関する３Ｄ情報がある場合、バイノーラル信号は下記の式１８から得られる。

マルチチャネルバイノーラルデコーダでは、５．１スピーカー再生を仮定した状態で、５個のスピーカー位置に関する３Ｄ情報を用いてバイノーラルサウンドをデコーディングする。これを理論的な式にすれば、下記の式１９のようになる。

式１８と式１９から第１オブジェクト信号の左チャネルに対する部分のみを別に分離すると、下記の式２０で表現できる。同様に、第１オブジェクト信号の右チャネルに対する部分と、第２オブジェクト信号の左側及び右側チャネルに対する部分も、式２０で表現できる。

例えば、第１オブジェクト信号と第２オブジェクト信号の全体エネルギーの比率をａ：ｂとしする。また、第１オブジェクト信号がＦＬチャネルに含まれた比率をｃとし、第２オブジェクト信号がＦＬチャネルに含まれた比率をｄとすれば、ＦＬで第１オブジェクト信号と第２オブジェクト信号が占めている比率はａｃ：ｂｄとなる。この場合、ＦＬのＨＲＴＦは下記の式２１から得られる。

上記のような方法によってマルチチャネルバイノーラルデコーダに使われる３Ｄ情報を求めることができる。このようにして求められた３Ｄ情報を用いてバイノーラルデコーディングを行う場合、マルチチャネルデコーディングにおいて５個のスピーカー位置に固定されている３Ｄ情報を使用する時よりも、実際オブジェクト信号が位置している所に該当する３Ｄ情報を使用することができるから、より実感溢れるバイノーラル信号を再生することができる。

このようにオブジェクト信号の空間上に位置している所に該当する３Ｄ情報からマルチチャネルバイノーラルデコーダに使われる３Ｄ情報を計算する方法は、上記のようなエネルギー比率に関する情報のみを用いて行っても良いが、各オブジェクト信号間のＩＣＣ情報に基づいて各オブジェクト位置に該当する３Ｄ情報を加算する時に、適切なデコリレーション過程を経て加算する方法を追加しても良い。

次に、エフェクトプロセシング（Ｅｆｆｅｃｔｐｒｏｃｅｓｓｉｎｇ）は、ダウンミックス前処理中に含めて処理する場合と、エフェクト結果をマルチチャネルデコーダ出力に加える場合とに分けることができる。ダウンミックス前処理中に含める場合において、特定オブジェクト信号に対するエフェクトを処理しようとする場合、前述したようにダウンミックス前処理においてＬ信号をＬ＿Ｌ、Ｌ＿Ｒ信号に分け、Ｒ信号をＲ＿Ｌ、Ｒ＿Ｒ信号に分ける過程に加えて、エフェクト処理を希望する信号を別個に抽出しなければならない。これは次の方法で処理可能である。

第一に、Ｌ、Ｒ信号から該当のオブジェクト信号を抽出し、これを除くオブジェクト信号に対してＬ＿Ｌ、Ｌ＿Ｒ、Ｒ＿Ｌ、Ｒ＿Ｒ信号を生成した後、別に抽出したオブジェクト信号に対してエフェクト処理をし、続いて、この信号はレンダリングマトリクスの情報によって左側及び右側の信号に分け、左側信号をＬ＿Ｌ、Ｒ＿Ｌ信号にさらに加え、右側信号をＬ＿Ｒ、Ｒ＿Ｒ信号にさらに加える方法がある。

第二に、Ｌ’、Ｒ’信号を生成した後、この信号からエフェクト処理しようとするオブジェクト信号の成分を抽出した後、エフェクト処理後に再び加える方法がある。

エフェクトプロセシングの場合、特定オブジェクト信号のスペクトル形態を変えても良い。例えば、特定オブジェクト信号に対して全体レベル調整だけでなく、高音成分を増やしたり、低音成分を増やしたりしたい時、該当のスペクトル領域に対してのみレベル調整を行うことが可能である。このような処理をする場合、スペクトルの値が変形されたパラメータバンドの場合、オブジェクトビットストリームを通じて受け取ったオブジェクト信号の情報を修正する必要がある。例えば、特定オブジェクト信号の低音成分を増やしたと仮定する場合、該オブジェクト信号の低音領域のエネルギーが大きくなったので、これに関する情報がオブジェクトビットストリームを通じて受け取ったものと異なってくる。これを修正するため、オブジェクトビットストリーム自体で当該オブジェクト信号に関する情報を修正する方法を用いることができる。また、スペクトル変化に関する情報をトランスコーダで受信してマルチチャネルビットストリームを生成するとき、この変化を適用してマルチチャネルビットストリームを生成する方法も可能である。

図２８〜図３３は、複数のオブジェクトベースの付加情報と複数のダウンミックス信号を一つの付加情報とダウンミックス信号に結合する場合を説明するための図である。テレコンファレンスなどでは、複数のオブジェクトベースの付加情報と複数のダウンミックス信号を、一つの付加情報とダウンミックス信号に結合しなければならない状況が発生し、このような場合、下記の事項を考慮しなければならない。

まず、図２８は、オブジェクト符号化されたビットストリームの一例を示す。図２８に示すように、オブジェクト符号化されたビットストリームは、ダウンミックス信号と付加情報が互い時間整合（ｔｉｍｅａｌｉｇｎ）されている。したがって、このようなビットストリームは、オブジェクトデコーダで追加の考慮事項なしでデコーディング過程を行うことができる。しかし、複数のビットストリームを一つのビットストリームに結合する場合、状況によってはダウンミックス信号とオブジェクト情報間の時間整合を補正しなければならない場合が発生することができる。

図２９は、オブジェクト符号化されたビットストリームが結合される最も簡単な場合の例を示している。図２８の表示方法と同様に、四角形の上に付した数字１、２、３はフレーム番号を示し、四角形の上段は付加情報を、下段はダウンミックス信号を示す。そして、２つのオブジェクト符号化されたビットストリームはそれぞれＢＳ１とＢＳ２で示す。

図２９を参照すると、ダウンミックス信号を一つに結合するためにはまず、圧縮コーデックで圧縮されているダウンミックス信号をＰＣＭ（Ｐｕｌｓｃｏｄｅｍｏｄｕｌａｔｉｏｎ）信号に変換し、これを時間ドメイン上でダウンミックスした後、再び圧縮コーデック形式に変換する過程を行うこととなる。この過程で図２９の（ｂ）に示すように、遅延ｄが発生する。したがって、一つに結合されたビットストリームをデコーディングする場合にダウンミックス信号とオブジェクト情報との時間整合に留意しなければならない。

このような状況の発生時に、総遅延値がわかるとその遅延分だけを補正しなければならない。このような遅延はダウンミックスに使われる圧縮コーデックによってそれぞれ異なり、したがって、オブジェクト情報などに該当の遅延値を表示できるビットを割り当てることによって様々な遅延値を表示すると良い。

図３０は、複数のビットストリームを一つのビットストリームに結合する場合においてそれぞれのビットストリームに使われたダウンミックス信号のコーデックが互いに異なるか、オブジェクト情報の構成が互いに異なることから、それぞれ異なる遅延が発生する場合を挙げている。

図３０では、ＢＳ１とＢＳ２に使われたコーデックの種類または付加情報の構成が異なる場合、ダウンミックス信号を結合するためにダウンミックス信号を時間ドメイン信号に変換し、これを再び一つの圧縮コーデックで変換するときに発生する総遅延が互いに異なる場合である。この場合、ＢＳ１とＢＳ２間の互いに異なる遅延を考慮せずに結合する場合、ダウンミックス信号間に、またダウンミックス信号と付加情報間の時間整合に問題が発生することとなる。

これを解決する方法として、図３１に示す方法を使用することができる。

図３１を参照すると、ＢＳ１でダウンミックス信号に発生する遅延ｄ１に付加的な遅延（ａｄｄｉｔｉｏｎａｌｄｅｌａｙ）を加え、総遅延がＢＳ２で発生する遅延ｄ２と同じ値になるように調整する例が示されている。このように遅延を調整すると、ＢＳ１をＢＳ２と結合する方法は、図３０で示す方法と同一になる。すなわち、一つに結合すべきビットストリームが複数である場合、最も大きい遅延が発生するビットストリームを基準にして最終遅延値を定めればよい。

一般的に複数のビットストリームを一つに結合する場合でないと遅延値は０となるので、遅延の有無を表示するビット情報を含めた後、この情報が遅延があることを表示すると、以降具体的な遅延値を表示するビット情報を読むようにすることによって遅延表示に使われるビットを最小化することができる。

図３２には、遅延差を補正する他の方法を示す。図３２で、ＢＳ１で発生する遅延ｄ１を基準にして時間整合する方法を示している。２番目のフレームを取り上げると、このフレームに該当するＢＳ１の付加情報は２番目のフレームに該当する付加情報をそのまま使用することができる。これに対し、ＢＳ２の付加情報は、１番目のフレームに該当する付加情報と２番目のフレームに該当する付加情報がいずれも含まれている。したがって、当該フレームにおいて、ＢＳ２に該当する付加情報は、ＢＳ２の１番目のフレームの付加情報と２番目のフレームの付加情報に対して該当の区間を占める比率による平均化（ａｖｅｒａｇｉｎｇ）を行う方法あるいは補間（ｉｎｔｅｒｐｏｌａｔｉｏｎ）を行う方法を通じて得ることができる。こうすると、図３２の（ｂ）で点線で表示した各区間に該当するＢＳ１、ＢＳ２の付加情報を得ることができ、これらの付加情報を一つの付加情報に結合することは、図２９で使用した方法をそのまま用いれば良い。ダウンミックス信号の場合は、遅延がそれぞれ異なる状態で追加的な遅延補正を行わずに一つのダウンミックス信号に結合する。この場合、結合されたビットストリームに含まれる遅延情報はｄ１に該当する情報が保存される。

図３３には、上述した遅延差を補正するさらに他の方法を示す。図３３は、ＢＳ２で発生する遅延ｄ２を基準にして時間整合をする方法を示している。１番目のフレームを取り上げると、このフレームに該当するＢＳ２の付加情報は、１番目のフレームに該当する付加情報をそのまま使用することができる。これに対し、ＢＳ１の付加情報は１番目のフレームに該当する付加情報と２番目のフレームに該当する付加情報がいずれも含まれている。したがって、２番目のフレームにおいて、ＢＳ１に該当する付加情報は、ＢＳ１の１番目フレームの付加情報と２番目のフレームの付加情報に対して当該区間を占める比率による平均化（ａｖｅｒａｇｉｎｇ）を行う方法あるいは補間（ｉｎｔｅｒｐｏｌａｔｉｏｎ）を行う方法を通じて得ることができる。こうすると、図３３の右図、つまり（ｂ）に点線で表示した各区間に該当するＢＳ１、ＢＳ２の付加情報を得ることができ、これらの付加情報を一つの付加情報に結合することは、図２９で使用した方法とすれば良い。ダウンミックス信号の場合、遅延がそれぞれ異なる状態で追加的な遅延補正を行わずに一つのダウンミックス信号に結合する。この場合、結合されたビットストリームに含まれる遅延情報はｄ２に該当する情報が保存される。

以上の如く、複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合、各オブジェクト符号化されたビットストリームに含まれているダウンミックス信号を一つのダウンミックス信号に結合する過程が必要である。この場合、様々な圧縮コーデックによるダウンミックス信号を一つのダウンミックス信号に結合するためには、圧縮されている信号をＰＣＭ信号あるいは特定周波数ドメイン上の信号に変換し、該当のドメインでダウンミックス信号を結合し、また特定圧縮コーデックで信号を変換する過程が要求される。この時、圧縮コーデックがどんな種類かによって、ダウンミックス信号がＰＣＭ段階で結合されるか、特定周波数ドメインなどで結合されるかによってて様々な遅延が発生することとなる。このような遅延は、最終に結合されたビットストリームをデコーディングするデコーダではその具体的な値が予測できない。したがって、該当の遅延はビットストリーム上に含まれて伝達されなければならない。この遅延は、ＰＣＭ信号上での遅延サンプル数を表現しても良く、特定周波数ドメイン上での遅延サンプル数を表現しても良い。

一方、本発明は、プロセッサが読取りできる記録媒体にプロセッサが読取りできるコードとして具現することが可能である。プロセッサが読取りできる記録媒体は、プロセッサにより読取り可能なデータが記憶される全ての種類の記録装置を含む。プロセッサが読取りできる記録媒体の例には、ＲＯＭ、ＲＡＭ、ＣＤ-ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ記憶装置などがあり、また、インターネットを介した転送などのような搬送波の形態で具現されることも含む。また、プロセッサが読取りできる記録媒体はネットワークで連結されたシステムに分散され、分散方式でプロセッサが読取りできるコードが記憶され実行されることができる。

以上では具体的な実施例に挙げて本発明を説明してきたが、本発明は、具体例に限定されず、特許請求の範囲で請求する本発明の要旨を逸脱しない限度内で、当該発明が属する技術分野における通常の知識を持つ者が様々に変形実施できるということは明らかであり、このような変形実施は本発明の技術的思想や展望から個別的なものとして理解されてはいけない。

Claims

少なくとも２つのチャネルを含むダウンミックス信号とオブジェクト情報を受信する段階と、
ダウンミックスパラメータを含むオブジェクト情報を受信する段階と、
前記ダウンミックスパラメータに基づいて、オブジェクト信号の変換とダウンミックスに用いられた加重情報を生成する段階と、
を含むことを特徴とするオーディオ復号化方法。
少なくとも２つのダウンミックスチャネル信号を含むダウンミックス信号と、オブジェクトベースの付加情報を受信する段階と、
前記オブジェクトベースの付加情報から抽出したゲイン情報に基づいて、前記ダウンミックス信号をチャネル別に変更する変更情報を生成する段階と、
前記変更情報を前記ダウンミックスチャネル信号に適用して前記ダウンミックスチャネル信号を変更する段階と、
を含むことを特徴とするオーディオ復号化方法。
前記オブジェクトベースの付加情報と、レンダリング制御情報を用いてチャネルベースの付加情報を生成する段階をさらに含むことを特徴とする、請求項２に記載のオーディオ復号化方法。
前記チャネルベースの付加情報と前記変更されたダウンミックス信号を用いてマルチチャネルオーディオ信号を生成する段階をさらに含むことを特徴とする、請求項３に記載のオーディオ復号化方法。
前記オブジェクトベースの付加情報が、前記ダウンミックスゲイン情報が前記オブジェクトベースの付加情報に含まれるか否かを表すフラッグ情報を含むことを特徴とする、請求項２に記載のオーディオ復号化方法。
オブジェクト信号をダウンミックスして少なくとも２つのダウンミックスチャネル信号を含むダウンミックス信号を生成する段階と、
前記オブジェクト信号に関するオブジェクト関連情報を抽出し、前記オブジェクト関連情報に基づいてオブジェクトベースの付加情報を生成する段階と、
前記ダウンミックスチャネル信号をチャネル別に変更するゲイン情報を前記オブジェクトベースの付加情報に挿入する段階と、
を含むことを特徴とするオーディオ符号化方法。
前記ダウンミックス信号、及び前記ゲイン情報が挿入されたオブジェクトベースの付加情報を結合したビットストリームを生成する段階をさらに含むことを特徴とする、請求項６に記載のオーディオ符号化方法。
前記ビットストリームには、前記ゲイン情報を転送するか否かを表すフラグ情報が含まれることを特徴とする、請求項７に記載のオーディオ復号化方法。
入力オーディオ信号から、少なくとも２つのダウンミックスチャネル信号を含むダウンミックス信号と、オブジェクトベースの付加情報と、を抽出するデマルチプレクサと、
前記オブジェクトベースの付加情報から抽出したゲイン情報に基づいて、前記ダウンミックスチャネル信号をチャネル別に変更する変更情報を生成し、前記変更情報を前記ダウンミックスチャネル信号を適用して前記ダウンミックスチャネル信号をチャネル別に変更するトランスコーダと、
を含むことを特徴とするオーディオ復号化装置。
前記トランスコーダが、前記オブジェクトベースの付加情報及びレンダリング制御情報を用いて、チャネルベースの付加情報を生成することを特徴とする、請求項９に記載のオーディオ復号化装置。
前記変更されたダウンミックス信号と前記チャネルベースの付加情報を用いてマルチチャネルオーディオ信号を生成するマルチチャネルデコーダをさらに含むことを特徴とする、請求項１０に記載のオーディオ復号化装置。
請求項１に記載の方法をプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。
少なくとも２つのダウンミックスチャネル信号を含むダウンミックス信号と、オブジェクトベースの付加情報を受信する段階と、
前記オブジェクトベースの付加情報から抽出したゲイン情報に基づいて、前記ダウンミックス信号をチャネル別に変更する変更情報を生成する段階と、
前記変更情報を前記ダウンミックスチャネル信号に適用してダウンミックス信号を変更する段階と、を含むオーディオ復号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。
前記オブジェクトベースの付加情報と、レンダリング制御情報を用いてチャネルベースの付加情報を生成する段階と、
前記チャネルベースの付加情報と前記変更されたダウンミックス信号を用いてマルチチャネルオーディオ信号を生成する段階と、をさらに含むことを特徴とする請求項１３に記載のプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。
オブジェクト信号をダウンミックスして少なくとも２つのダウンミックスチャネル信号を含むダウンミックス信号を生成する段階と、
前記オブジェクト信号に関するオブジェクト関連情報を抽出し、前記オブジェクト関連情報に基づいてオブジェクトベースの付加情報を生成する段階と、
前記ダウンミックスチャネル信号をチャネル別に変更するゲイン情報を前記オブジェクトベースの付加情報に挿入する段階と、を含むオーディオ符号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。
前記ダウンミックス信号、及び前記ゲイン情報が挿入されたオブジェクトベースの付加情報を結合したビットストリームを生成する段階をさらに含むことを特徴とする請求項１５に記載のプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。