JP2010515099A

JP2010515099A - 情報ビットストリーム変換を含む多様なチャネルで構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法

Info

Publication number: JP2010515099A
Application number: JP2009543949A
Authority: JP
Inventors: バク、スン‐クウォン; ソ、ジョン‐イル; リー、テ‐ジン; リー、ヨン‐ジュ; ジャン、テ‐ヤン; ホン、ジン‐ウー; キム、ジン‐ウン; カン、キョン‐オク
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2006-12-27
Filing date: 2007-12-27
Publication date: 2010-05-06
Anticipated expiration: 2027-12-27
Also published as: JP5752722B2; CN101632118A; US9257127B2; JP5941610B2; EP2097895A1; US8370164B2; JP5694279B2; CN103137132A; KR20080063155A; KR20130007526A; WO2008078973A1; EP2595148A3; EP2595148A2; EP2595151A2; CN103137130A; EP2595152A2; JP2013127634A; KR101395254B1; KR20100045960A; KR20130007527A

Abstract

多様なチャネルを有するマルチオブジェクトオーディオ信号を符号化および復号化し、従来のＳＡＣビットストリームとの下位互換性を提供する多様なチャネルで構成されたマルチオブジェクトオーディオ信号符号化および復号化装置、並びに方法を提供する。前記符号化装置に入力されるオーディオオブジェクト信号を空間キュー基盤で符号化し、前記符号化されたオーディオオブジェクト信号に対するレンダリング情報を生成するオーディオオブジェクト符号化手段を含み、前記レンダリング情報は、前記オーディオオブジェクト信号に対する空間キュー情報、前記オーディオオブジェクト信号のチャネル情報、および前記オーディオオブジェクト信号の識別情報を含む符号化装置を提供する。

Description

本発明は、多様なチャネルで構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法に関し、より詳細には、付加情報ビットストリームを変換し、変換された付加情報ビットストリームを利用して所望の出力信号、すなわち多様なチャネルを有するマルチオブジェクトオーディオ信号を復元する付加情報ビットストリーム変換を含む多様なチャネルで構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法に関する。

ここで、多様なチャネルを有するマルチオブジェクトオーディオ信号とは、マルチオブジェクトオーディオ信号であって、各々のオーディオオブジェクトが互いに異るチャネル（例えば、モノ、ステレオ、５．１チャネル）で構成されたオーディオを信号を意味する。

本発明は、情報通信部および情報通信研究振興院のＩＴ次世代核心技術開発事業の一環として行われた研究から導出されたものである。［課題管理番号：２００５−Ｓ−４０３−０２、課題名：知能型統合情報放送（ＳｍａＲＴＶ）技術（ＤｅｖｅｌｏｐｍｅｎｔｏｆＳｕｐｅｒ−ｉｎｔｅｌｌｉｇｅｎｔＭｕｌｔｉｍｅｄｉａＡｎｙｔｉｍｅ−ａｎｙｗｈｅｒｅＲｅａｌｉｓｔｉｃＴＶ（ＳｍａｒＴＶ）Ｔｅｃｈｎｏｌｏｇｙ）］

従来のオーディオ符号化／復号化技術によれば、ユーザは、オーディオコンテンツを受動的に聴取するしかできなかった。従って、ユーザの必要に応じて互いに異るチャネルで構成された各オーディオオブジェクトを制御し、１つのオーディオコンテンツを多様な方法で組み合わせることによって、多様なオーディオオブジェクトを消費することができる多様なチャネルで構成された複数のオーディオオブジェクト別の符号化および復号化装置、並びに方法が要求される。
これと関連して、従来のＳＡＣ（ＳｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇ）は、マルチチャネルオーディオ信号をダウンミックスされたモノまたはステレオ信号で表現、伝送および復元する技術であって、低いビット率でも高品質のマルチチャネルオーディオ信号を伝送することができる。

しかし、従来のＳＡＣはマルチチャネルの信号を、１つのオーディオオブジェクトに対してのみ符号化および復号化が可能な技術であるため、マルチチャネル及びマルチオブジェクトオーディオ信号、例えば、モノ、ステレオ、および５．１チャネルで構成された多様なオブジェクトのオーディオ信号を符号化／復号化することができないという問題がある。

また、従来のバイノーラルキューコーディング（ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ、ＢＣＣ）は、マルチオブジェクトオーディオ信号を符号化／復号化することができる。しかし、オーディオオブジェクトのチャネルは、モノチャネルに限定されることから、モノチャネルを含む多様なチャネルで構成されたマルチオブジェクトオーディオ信号を符号化／復号化することができない。

整理すれば、従来技術は、単一チャネルで構成されたマルチオブジェクトオーディオ信号またはマルチチャネルの単一オブジェクトオーディオ信号に対してのみ符号化／復号化を行なうことができるため、多様なチャネルで構成されたマルチオブジェクトオーディオ信号に対しては符号化／復号化を行なうことができない。したがって、従来のオーディオ符号化／復号化技術によれば、ユーザはオーディオコンテンツを受動的に聴取するほかなかった。

したがって、ユーザの必要に応じて、互いに異るチャネルで構成された複数のオーディオオブジェクト各々を制御し、１つのオーディオコンテンツを多様な方法で組み合わせることによって、多様なオーディオオブジェクトを消費できる多様なチャネルで構成された複数のオーディオオブジェクト別の符号化および復号化装置、並びに方法が要求される。

また、マルチオブジェクトオーディオ符号化器から生成された付加情報ビットストリームを、従来のＳＡＣ符号化／復号化器の付加情報ビットストリームと下位互換性を提供するために、マルチオブジェクトオーディオビットストリームと従来のＳＡＣビットストリームとの間を変換することができる変換装置および方法が要求される。

前述したように、互いに異るチャネルで構成された複数のオーディオオブジェクト各々を制御し、１つのオーディオコンテンツを多様な方法で組み合わせることのできる多様なチャネルのマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法であって、前記マルチオブジェクトオーディオ符号化および復号化装置、並びに方法は、従来のＳＡＣビットストリームとの下位互換性を提供するためのビットストリーム変換が可能な多様なチャネルのマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法が要求される。

本発明は前述した要求に応じるために提案されたものであって、その目的は、多様なチャネルを有するマルチオブジェクトオーディオ信号を符号化および復号化し、従来のＳＡＣビットストリームとの下位互換性を提供する多様なチャネルで構成されたマルチオブジェクトオーディオ信号符号化および復号化装置、並びに方法を提供することにある。

前述した目的を達成するための本発明は、マルチオブジェクトオーディオ信号の符号化装置であって、前記符号化装置に入力されるオーディオオブジェクト信号を空間キュー基盤で符号化し、前記符号化されたオーディオオブジェクト信号に対するレンダリング情報を生成するオーディオオブジェクト符号化手段を含み、前記レンダリング情報は、前記オーディオオブジェクト信号に対する空間キュー情報、前記オーディオオブジェクト信号のチャネル情報、および前記オーディオオブジェクト信号の識別情報を含む符号化装置を提供する。

また、前述した目的を達成するための本発明は、マルチオブジェクトオーディオ信号を復号化するためのレンダリング情報を生成するトランスコーディング装置であって、符号化されたオーディオオブジェクト信号に対するオブジェクト制御情報および再生情報に基づいて、前記符号化されたオーディオオブジェクト信号に対するパワー利得情報および出力位置情報を含むレンダリング情報を生成する第１行列手段と、前記第１行列手段によって生成されたレンダリング情報および符号化装置から入力される前記符号化されたオーディオオブジェクト信号に対するレンダリング情報に基づいて、復号化装置から出力されるオーディオ信号に対する空間キュー情報を生成するレンダリング手段と、を備えるトランスコーディング装置を提供する。

また、前述した目的を達成するための本発明は、マルチチャネルオーディオ信号およびマルチオブジェクトオーディオ信号を復号化するためのレンダリング情報を生成するトランスコーディング装置であって、符号化装置から入力される符号化されたオーディオ信号に対するレンダリング情報から符号化されたオーディオオブジェクト信号に対するレンダリング情報、およびマルチチャネルオーディオ信号に対するレンダリング情報を分離するパーシング手段と、符号化されたオーディオオブジェクト信号に対するオブジェクト制御情報および再生情報に基づいて、前記符号化されたオーディオオブジェクト信号に対するパワー利得情報および出力位置情報を含むレンダリング情報を生成する第１行列手段と、前記パーシング手段によって分離された符号化されたマルチチャネルオーディオ信号に対するレンダリング情報に基づいて、前記マルチチャネルオーディオ信号に対するチャネル別のパワー利得情報を含むレンダリング情報を生成する第２行列手段と、前記第１行列手段によって生成されたレンダリング情報、前記第２行列手段によって生成されたレンダリング情報、および前記パーシング手段によって分離された符号化されたオーディオオブジェクト信号に対するレンダリング情報に基づいて、復号化装置から出力されるオーディオ信号に対する空間キュー情報を生成するレンダリング手段と、を備えるトランスコーディング装置を提供する。

また、前述した目的を達成するための本発明は、マルチオブジェクトオーディオ信号の符号化方法であって、入力されるオーディオオブジェクト信号を空間キュー基盤で符号化し、前記符号化されたオーディオオブジェクト信号に対するレンダリング情報を生成するオーディオオブジェクト符号化ステップを含み、前記レンダリング情報は、前記オーディオオブジェクト信号に対する空間キュー情報、前記オーディオオブジェクト信号のチャネル情報、および前記オーディオオブジェクト信号の識別情報を含む符号化方法を提供する。

また、前述した目的を達成するための本発明は、マルチオブジェクトオーディオ信号を復号化するためのレンダリング情報を生成するトランスコーディング方法であって、符号化されたオーディオオブジェクト信号に対するオブジェクト制御情報および再生情報に基づいて、前記符号化されたオーディオオブジェクト信号に対するパワー利得情報および出力位置情報を含むレンダリング情報を生成する第１行列ステップと、前記第１行列ステップによって生成されたレンダリング情報および符号化ステップから入力される前記符号化されたオーディオオブジェクト信号に対するレンダリング情報に基づいて、復号化ステップから出力されるオーディオ信号に対する空間キュー情報を生成するレンダリングステップと、を含むトランスコーディング方法を提供する。

また、前述した目的を達成するための本発明は、マルチチャネルオーディオ信号およびマルチオブジェクトオーディオ信号を復号化するためのレンダリング情報を生成するトランスコーディング方法であって、符号化ステップから入力される符号化されたオーディオ信号に対するレンダリング情報から符号化されたオーディオオブジェクト信号に対するレンダリング情報、およびマルチチャネルオーディオ信号に対するレンダリング情報を分離するパーシングステップと、符号化されたオーディオオブジェクト信号に対するオブジェクト制御情報および再生情報に基づいて、前記符号化されたオーディオオブジェクト信号に対するパワー利得情報および出力位置情報を含むレンダリング情報を生成する第１行列ステップと、前記パーシングステップによって分離された符号化されたマルチチャネルオーディオ信号に対するレンダリング情報に基づいて、前記マルチチャネルオーディオ信号に対するチャネル別のパワー利得情報を含むレンダリング情報を生成する第２行列ステップと、前記第１行列ステップによって生成されたレンダリング情報、前記第２行列ステップによって生成されたレンダリング情報、および前記パーシングステップによって分離された符号化されたオーディオオブジェクト信号に対するレンダリング情報に基づいて、復号化ステップから出力されるオーディオ信号に対する空間キュー情報を生成するレンダリングステップと、を含むトランスコーディング方法を提供する。

本発明は、付加情報ビットストリームが可能な多様なチャネルを有するマルチオブジェクトオーディオ信号の符号化および復号化装置、並びに方法を提供することによって、多様なチャネルを有するマルチオブジェクトオーディオコンテンツを効率よく符号化および復号化し、ユーザの必要に応じて能動的にオーディオコンテンツを消費することができ、従来に利用されるビットストリームと下位互換性を提供することによって、従来における符号化および復号化装置との互換性を提供することができる。

本発明の実施形態に係るマルチオブジェクトオーディオ符号化器およびマルチオブジェクト復号化器を示すブロック図である。本発明の実施形態に係るマルチオブジェクトオーディオ符号化器およびマルチオブジェクト復号化器を示すブロック図である。本発明の実施形態に係る図２のトランスコーダ１０３を示すブロック図である。本発明の実施形態に係る図２のビットストリームフォーマッタ２０５から生成される代表ＳＡＯＣ（ｓｐａｔｉａｌａｕｄｉｏｏｂｊｅｃｔｃｏｄｉｎｇ）ビットストリームを示す図である。本発明の他の実施形態に係る図２の代表ＳＡＯＣビットストリームを示す図である。本発明の他の実施形態に係る図２のトランスコーダ１０３を示すブロック図である。図２におけるマルチオブジェクトオーディオ符号化器および復号化器にオーディオオブジェクト除去部７０１が追加的に備えられた場合を示すブロック図である。図２におけるＳＡＣコーダ２０１およびＳＡＣデコーダ１０５をＭＰＥＧサラウンドコーダおよびデコーダに代替した場合を示すブロック図である。

前述した目的、特徴および長所は、添付の図面と関連した次の詳細な説明を介して更に明確になるのであろう。以下、添付の図面に基づいて本発明に係る好ましい一実施形態を詳細に説明する。

図１は、本発明に係るマルチオブジェクトオーディオ符号化器およびマルチオブジェクト復号化器を示すブロック図である。

図１に示すように、本発明は、ＳＡＯＣ（ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ）コーダ１０１、トランスコーダ１０３、およびＳＡＣ（ＳｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇ）デコーダ１０５を備える。

空間オーディオオブジェクトコーディング（ＳＡＯＣ：ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ）方式によれば、コーダに入力される信号はオーディオオブジェクトとして符号化される。ここで、各オーディオオブジェクトは、デコーダによって復元され、独立的に再生されない。しかし、所望のオーディオ場面を構成するためにオーディオオブジェクトに対する情報がレンダリングされ、多様なチャネルを有するマルチオブジェクトオーディオ信号が出力される。したがって、ＳＡＣデコーダは、所望のオーディオ場面を獲得するために入力されるオーディオオブジェクトに対する情報をレンダリングできる装置を要求する。

前記ＳＡＯＣコーダ１０１は、空間キュー基盤のコーダであって、入力オーディオ信号をオーディオオブジェクトとして符号化する。ここで、前記ＳＡＯＣコーダ１０１に入力されるオーディオオブジェクトはモノまたはステレオ信号である。

前記ＳＡＯＣコーダ１０１は、入力される１つ以上のオーディオオブジェクトからダウンミックス信号を出力し、空間キューおよび付加情報（ｓｉｄｅｉｎｆｏｒｍａｔｉｏｎ）を抽出することによりＳＡＯＣビットストリームを生成する。ここで、出力されるダウンミックス信号はモノまたはステレオ信号である。前記ＳＡＯＣコーダ１０１は「異質なレイアウトＳＡＯＣ」または「Ｆａｌｌｅｒ」技法に基づいて入力されるオーディオオブジェクト信号を分析する。

前記抽出されたＳＡＯＣビットストリームは空間キューおよび付加情報を含み、前記付加情報は入力オーディオオブジェクトの空間情報を含む。前記空間キューは、一般的に周波数領域のサブバンド単位で分析されて抽出される。

ここで、空間キュー（ｓｐａｔｉａｌｃｕｅ）とは、オーディオ信号を符号化および復号化する過程で利用される情報である。空間キューは、周波数領域から抽出され、入力される２つの信号の大きさの差、遅延差、相関性などの情報を含む。例えば、空間キューは、オーディオ信号のパワー利得情報を表すオーディオ信号間のレベル差（ＣｈａｎｎｅｌＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅ、ＣＬＤ）、オーディオ信号間のエネルギー比（Ｉｎｔｅｒ−ＣｈａｎｎｅｌＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅ、ＩＣＬＤ）、オーディオ信号間の時間差（ＩｎｔｅｒＣｈａｎｎｅｌＴｉｍｅＤｉｆｆｅｒｅｎｃｅ、ＩＣＴＤ）、オーディオ信号間の相関性情報を表すオーディオ信号間の相関性（ＩｎｔｅｒＣｈａｎｎｅｌＣｏｒｒｅｌａｔｉｏｎ、ＩＣＣ）、および仮想音源位置情報（ＶｉｒｔｕａｌＳｏｕｒｃｅＬｏｃａｔｉｏｎＩｎｆｏｒｍａｔｉｏｎ）を含むが、これらの例に限定されない。

また、前記付加情報は、空間キューおよびオーディオ信号の復元、制御のための情報が含まれる。前記付加情報はヘッダー情報を含む。前記ヘッダー情報は、多様なチャネルで構成されたマルチオブジェクトオーディオ信号の復元および再生のための情報を含み、オーディオオブジェクトに対するチャネル情報および該当オーディオオブジェクトのＩＤを定義することによって、モノ、ステレオ、マルチチャネルのオーディオオブジェクトに対する復号化情報を提供することができる。例えば、符号化された特定オーディオオブジェクトがモノオーディオ信号であるかステレオオーディオ信号であるかを区分することができるよう各オブジェクトのＩＤおよび情報が定義され得る。前記ヘッダー情報は、一実施形態としてＳＡＣ（ＳｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇ）ヘッダー情報、オーディオオブジェクト情報、およびプリセット（ｐｒｅｓｅｔ）情報を含むことができる。

前記トランスコーダ１０３は、ＳＡＯＣコーダ１０１に入力されるオーディオオブジェクトに対するレンダリングを行い、外部から入力される制御信号、すなわちオブジェクト別の音響情報および再生環境情報を利用して前記ＳＡＯＣコーダ１０１から抽出されたＳＡＯＣビットストリームをＳＡＣビットストリームに変換する。

すなわち、前記トランスコーダ１０３は、ＳＡＯＣコーダ１０１に入力されるオーディオオブジェクトを多様なチャネルのマルチオブジェクトオーディオ信号に復元するために抽出されたＳＡＯＣビットストリームを利用してレンダリングする。付加情報を利用したレンダリングは、パラメータ領域で行なうことができる。

また、前記トランスコーダ１０３は、ＳＡＯＣビットストリームをＳＡＣビットストリームに変換する。まず、前記トランスコーダ１０３は、ＳＡＯＣビットストリームから入力オーディオオブジェクトの情報を獲得し、入力オーディオオブジェクトの情報を所望のオーディオ場面に対応されるようレンダリングする。

前記レンダリング過程において、前記トランスコーダ１０３は、所望のオーディオ場面に対応する空間情報を予測し、前記予測された空間情報を変換してＳＡＣ付加情報ビットストリームとして出力する。

前記トランスコーダ１０３に対しては、以下の図３で詳細に説明する。

前記ＳＡＣデコーダ１０５は、空間キュー基盤のマルチチャネルオーディオデコーダであって、前記トランスコーダ１０３から出力されるＳＡＣビットストリームを利用し、前記ＳＡＯＣコーダ１０１から出力されるダウンミックス信号をオブジェクト別のオーディオ信号に復元し、多様なチャネルのマルチオブジェクトオーディオ信号に復元する。前記ＳＡＣデコーダ１０５は、ＭＰＥＧ（ＭｏｖｉｎｇＰｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）サラウンド復号化器、ＢＣＣ（ｂｉｎａｕｒａｌｃｕｅｃｏｄｉｎｇ）復号化器などで代替され得る。

図２は、本発明に係るマルチオブジェクトオーディオ符号化器および復号化器を示す更なる一実施形態の構成図であって、入力信号が多様なチャネルを有するマルチオブジェクトオーディオ信号である場合を示す。

同図は、図１に示したように、本発明はＳＡＯＣコーダ１０１、トランスコーダ１０３、ＳＡＣデコーダ１０５、ＳＡＣコーダ２０１、プリセットＡＳＩ（ａｕｄｉｏｓｃｅｎｅｉｎｆｏｒｍａｔｉｏｎ）部２０３、およびビットストリームフォーマッタ２０５を備える。

前記ＳＡＯＣコーダ１０１がモノまたはステレオのオーディオオブジェクトのみをサポートする場合、前記ＳＡＣコーダ２０１は、入力されるマルチチャネルオーディオ信号から１つのオーディオオブジェクトを出力する。前記出力された１つのオーディオオブジェクトは、ダウンミックスされたモノまたはステレオ信号である。また前記ＳＡＣコーダ２０１は、空間キューおよび付加情報を抽出してＳＡＣビットストリームを生成する。

前記ＳＡＯＣコーダ１０１は、前記ＳＡＣコーダ２０１から出力される１つのオーディオオブジェクトを備える１つ以上のオーディオオブジェクトから代表ダウンミックス信号を出力し、空間キューおよび付加情報を抽出してＳＡＯＣビットストリームを生成する。

前記プリセットＡＳＩ部２０３は、外部から入力される制御信号、すなわちオブジェクト別の音響情報および再生環境情報をプリセット−ＡＳＩ（Ｐｒｅｓｅｔ−ＡｕｄｉｏＳｃｅｎｅＩｎｆｏｒｍａｔｉｏｎ）情報で構成し、前記プリセット−ＡＳＩ情報を含むプリセットＡＳＩビットストリームを生成する。前記プリセット−ＡＳＩ情報に対しては、以下図４で詳細に説明する。

前記ビットストリームフォーマッタ２０５は、前記ＳＡＯＣコーダ１０１によって生成されたＳＡＯＣビットストリーム、前記ＳＡＣコーダ２０１によって生成されたＳＡＣビットストリーム、および前記プリセットＡＳＩ部２０３によって生成されたプリセットＡＳＩビットストリームを利用し、代表ＳＡＯＣビットストリームを生成する。

前記トランスコーダ１０３は、ＳＡＯＣコーダ１０１に入力されるオーディオオブジェクトに対するレンダリングを行い、外部から入力されるオブジェクト別の音響情報および再生環境情報を利用して前記ビットストリームフォーマッタ２０５によって生成された代表ＳＡＯＣビットストリームを代表ＳＡＣビットストリームに変換する。前記トランスコーダ１０３は、前記ＳＡＣデコーダ１０５に含まれて前記のような役割を行なうことができる。

前記ＳＡＣデコーダ１０５は、前記トランスコーダ１０３から出力されるＳＡＣビットストリームを利用し、前記ＳＡＯＣコーダ１０１から出力されるダウンミックス信号を多様なチャネルのマルチオブジェクトオーディオ信号に復元する。前記ＳＡＣデコーダ１０５は、ＭＰＥＧサラウンド復号化器、ＢＣＣ復号化器などで代替され得る。

図３は、図２におけるトランスコーダ１０３を示す一実施形態の詳細な構造図である。

同図に示すように、トランスコーダ１０３は、パーシング部３０１、レンダリング部３０３、第２行列部３１１、および第１行列部３１３を備え、代表ＳＡＯＣビットストリームを代表ＳＡＣビットストリームに変換する。

図１では、前記トランスコーダ１０３は、ＳＡＯＣビットストリームをＳＡＣビットストリームに変換する。

前記パーシング部３０１は、前記ビットストリームフォーマッタ２０５から生成された代表ＳＡＯＣビットストリーム、または図１のＳＡＯＣコーダ１０１から生成されたＳＡＯＣビットストリームをパーシングし、前記代表ＳＡＯＣビットストリームに含まれたＳＡＯＣビットストリームおよびＳＡＣビットストリームを分離する。また、前記パーシング部３０１は、前記分離したＳＡＯＣビットストリームからＳＡＯＣコーダ１０１に入力されるオーディオオブジェクトの個数に対する情報を抽出する。ここで、図１のＳＡＯＣコーダ１０１から生成されたＳＡＯＣビットストリームをパーシングする場合、ＳＡＣビットストリームが存在しないことから、分離する必要がない。

前記第２行列部３１１は、前記パーシング部３０１によって分離したＳＡＣビットストリームを利用して第２行列を生成する。前記第２行列は、ＳＡＣコーダ２０１に入力されるマルチチャネルオーディオ信号に対する行列式である。もし、前記代表ＳＡＯＣビットストリームにＳＡＣビットストリームが含まれていない場合、すなわち、図１のＳＡＯＣコーダ１０１から生成されたＳＡＯＣビットストリームをパーシングする場合、前記第２行列部３１１は不要である。

第２行列は、ＳＡＣコーダ２０１に入力されるマルチチャネルオーディオ信号のパワー利得値に対するものであって、下記の数式１のとおりである。

一般的に、１つのフレームをサブバンドに分割して解釈することがＳＡＣの基本分析過程である。

ここで、ｕ^ｂ _ＳＡＣ（ｋ）はＳＡＣコーダ２０１から出力されるダウンミックス信号であって、ｋは周波数係数インデックスであり、ｂはサブバンドインデックスである。ｗ^ｂ _ｃｈ−ｉは前記ＳＡＣビットストリームから獲得できるマルチチャネル信号の空間キュー情報であって、ｉ番目チャネル信号（１≦ｉ≦Ｍ）の周波数情報を復元するために利用される。したがって、ｗ^ｂ _ｃｈ−ｉは周波数係数の大きさ情報や位相情報として表現され得る。したがって、数式１の右側の項目を参照すれば、Ｙ^ｂ _ＳＡＣ（ｋ）は数式１の結果であって、ＳＡＣデコーダ１０５から出力されるマルチチャネルオーディオ信号を表す。

前記ｕ^ｂ _ＳＡＣ（ｋ）およびｗ^ｂ _ｃｈ−ｉはベクトルであり、ｕ^ｂ _ＳＡＣ（ｋ）の前置行列次元（ＴｒａｎｓｐｏｓｅＭａｔｒｉｘＤｉｍｅｎｓｉｏｎ）がｗ^ｂ _ｃｈ−ｉの次元となる。例えば、下記の数式２のように定義され得る。ここで、ＳＡＣコーダ２０１から出力されるダウンミックス信号は、モノまたはステレオであるため、ｍは１または２である。

前記のように、ｗ^ｂ _ｃｈ−ｉはＳＡＣビットストリームに含まれた空間キュー情報である。

ｗ^ｂ _ｃｈ−ｉが各チャネルのサブバンドでのパワー利得を表す場合、ｗ^ｂ _ｃｈ−ｉはチャネルレベル差空間キュー（ＣｈａｎｎｅｌＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅ、ＣＬＤ）から予測されることができる。ｗ^ｂ _ｃｈ−ｉが周波数係数の位相差を補償するための係数として利用される場合、ｗ^ｂ _ｃｈ−ｉはチャネル時間差空間キュー（ＣｈａｎｎｅｌＴｉｍｅＤｉｆｆｅｒｅｎｃｅ）または相関性空間キュー（Ｉｎｔｅｒ−ＣｈａｎｎｅｌＣｏｈｅｒｅｎｃｅ）から予測されることができる。

以下、例示的にｗ^ｂ _ｃｈ−ｉが周波数係数の位相差を補償するための係数として利用される場合を基準にして説明する。

ＳＡＣコーダ２０１から出力されるダウンミックス信号との行列演算によって出力信号Ｙ^ｂ _ＳＡＣ（ｋ）が生成されるよう、数式１の第２行列は、各チャネル別のパワー利得値を表現し、前記ダウンミックス信号のベクトルの次元に逆にならなければならない。

前記第２行列部３１１が数式１および数式２を満足する第２行列を生成すれば、前記レンダリング部３０３は、前記生成された第２行列を前記第１行列部３１３の出力と結合する。

前記第１行列部３１３は、制御信号（例えば、オブジェクト制御情報、再生システム情報）を利用し、前記ＳＡＯＣコーダ１０１に入力される１つ以上のオーディオオブジェクトを所望の出力、すなわち多様なチャネルのマルチオブジェクトオーディオ信号でマッピングさせるための第１行列を生成する。

前記ＳＡＯＣコーダ１０１に入力されたオーディオオブジェクトの個数がＮの場合、ＳＡＣコーダ２０１から出力されるダウンミックス信号も１つのオーディオオブジェクトとして見なされ、入力されるＮ個のオーディオオブジェクトに含まれる。このような場合、ＳＡＣコーダ２０１から出力されるダウンミックス信号を除去した各オーディオオブジェクトは、第１行列を利用してＳＡＣデコーダ１０５から出力されるチャネルでマッピングされ得る。

ＳＡＣデコーダ１０５から出力されるチャネルの個数をＭとするとき、第１行列は下記の条件を満足することができる。

ここで、ｗ^ｂ _ｏｊ−ｉは、オーディオオブジェクトｉのサブバンド信号（１≦ｉ≦Ｎ−１）の情報を表すベクトルであって、前記ＳＡＯＣビットストリームから獲得できる空間キュー情報である。もし、オーディオオブジェクトｉがステレオであればｗ^ｂ _ｏｊ−ｉは２×１行列のベクトルである。Ｐ^ｂ _ｉｊは、ｊ番目オーディオオブジェクトがｉ番目出力チャネルにマッピングされるためのパワー利得情報または位相情報を表す第１行列の要素ベクトルであって、外部から入力されたり、初期値で設定された制御情報（例えば、オブジェクト制御情報、再生システム情報）から獲得できる。

前記数式３の条件に適合する第１行列は、前記レンダリング部３０３に伝送され、前記数式３は前記レンダリング部３０３で演算される。

数式３の演算子および演算過程は下記の数式４および数式５で詳細に説明する。

ここで、入力されるオーディオオブジェクトがモノおよびステレオである場合、ｍは２となる。

例えば、入力されるオーディオオブジェクトの個数がＹであり、ｍ＝２であり、出力されるチャネルの個数がＭの場合、第１行列の次元は、Ｍ×Ｙとなり、Ｙ個のＰ^ｂ _ｉ，ｊは２×１行列で構成される。ここで、ＳＡＣコーダ２０１から出力されるオーディオオブジェクトが含まれる場合、Ｙ＝Ｙ−１と見なされる。前記数式３の演算結果、出力されるチャネルのパワー利得ベクトルで構成された行列が表現されるべきである。前記表現されたベクトルの次元はＭ×２であって、出力されるチャネル個数Ｍおよび入力されるオーディオオブジェクトのレイアウトである２を反映する。

再度、図３の説明に戻って、前記レンダリング部３０３は、前記第１行列部３１３および第２行列部３１１から第１行列および第２行列が伝送される。前記レンダリング部３０３は、前記パーシング部３０１によって分離されたＳＡＯＣビットストリームから獲得される各オーディオオブジェクトの空間キュー情報ｗ^ｂ _ｃｈ−ｊを獲得し、第１行列および第２行列を利用して算出された出力ベクトルを結合して所望の空間キュー情報を獲得し、前記所望の空間キュー情報を含む代表ＳＡＣビットストリームを生成する。ここで、所望の空間キューとは、ユーザが前記ＳＡＣデコーダ１０５からの出力を所望する出力マルチチャネルオーディオ信号と関連した空間キューを意味する。

前記第１行列および第２行列に基づいて、所望の空間キュー情報を獲得するための演算は下記の数式６のとおりである。

ここで、Ｐ_Ｎは第１行列を生成するとき考慮しない事項であって、ＳＡＣコーダ２０１から出力されるオーディオオブジェクトのパワーと、ＳＡＯＣコーダ１０１に直接入力されるオーディオオブジェクトのパワーとの和の比を表す。

前記Ｐ_Ｎは数式７のように表すことができる。

したがって、ｗ^ｂ _ｃｈ−ｊが出力されるチャネルのパワーであれば、オーディオオブジェクトがレンダリングされた後、各チャネルのパワー比はＷ^ｂ _{ｍｏｄｉｆｉｅｄ}として表す。Ｗ^ｂ _{ｍｏｄｉｆｉｅｄ}から所望の空間キューパラメータを新たに抽出することができる。例えば、ｃｈ＿２とｃｈ＿１との間のＣＬＤパラメータを抽出すれば、下記の数式８のとおりである。

もし、伝送されるダウンミックス信号がモノ信号であれば、ＣＬＤパラメータは下記の数式９のとおりである。

出力されるチャネルのパワー比は、空間キューパラメータであるＣＬＤで表現することができ、隣接したチャネル間の空間キューパラメータは与えられたＷ^ｂ _{ｍｏｄｉｆｉｅｄ}情報から多様な組合せの形態で示すことができる。前記レンダリング部３０３は、Ｗ^ｂ _{ｍｏｄｉｆｉｅｄ}から抽出された空間キュー（例えば、ＣＬＤパラメータ）をＨｕｆｆｍａｎコーディング方式などを利用してＳＡＣビットストリームを生成する。

前記レンダリング部３０３により生成されたＳＡＣビットストリームに含まれる空間キューは、デコーダの特性に応じて分析および抽出される方法が異なる。
例えば、ＢＣＣデコーダの場合、１つのチャネルを基準として前記数式８を利用してＮ−１個のＣＬＤパラメータを抽出することができる。また、ＭＰＥＧサラウンドデコーダの場合、ＭＰＥＧサラウンドのチャネル別の比較順に応じてＣＬＤパラメータを抽出することができる。

整理すれば、前記パーシング部３０１は、ＳＡＣビットストリームおよびＳＡＯＣビットストリームを分離し、前記第２行列部３１１は、前記パーシング部３０１によって分離されたＳＡＣビットストリームおよびＳＡＣデコーダ１０５から出力されるマルチチャネルオーディオ信号を利用して下記の数式１に基づいて第２行列を生成し、前記第１行列部３１３は、制御信号に対応される第１行列を生成する。前記パーシング部３０１によって分離されたＳＡＯＣビットストリームは前記レンダリング部３０３に伝送され、前記レンダリング部３０３は、伝送されたＳＡＯＣビットストリームからオブジェクトの情報を獲得して第１行列と演算し、前記演算結果を第２行列と結合して前記Ｗ^ｂ _{ｍｏｄｉｆｉｅｄ}を生成し、生成されたＷ^ｂ _{ｍｏｄｉｆｉｅｄ}から空間キューを抽出して代表ＳＡＣビットストリームを生成する。すなわち、生成されたＷ^ｂ _{ｍｏｄｉｆｉｅｄ}から空間キューが所望の空間キューとなる。前記代表ＳＡＣビットストリームは、ＭＰＥＧサラウンドデコーダまたはＢＣＣデコーダの特性に応じて適切に変換されたビットストリームであって、多様なチャネルを有するマルチオブジェクト信号に復元されることができる。

図４は、図２のビットストリームフォーマッタ２０５から生成される代表ＳＡＯＣビットストリームを示す一実施形態の構造図である。

同図に示すように、ビットストリームフォーマッタ２０５によって生成された代表ＳＡＯＣビットストリームは、前記ＳＡＯＣコーダ１０１によって生成されたＳＡＯＣビットストリームと、前記ＳＡＣコーダ２０１によって生成されたＳＡＣビットストリームとを結合して生成され、前記代表ＳＡＯＣビットストリームは、前記プリセットＡＳＩ部２０３によって生成されたプリセット−ＡＳＩビットストリームを含む。前記プリセット−ＡＳＩビットストリームは下記の図５で詳細に説明する。

前記ＳＡＯＣビットストリームとＳＡＣビットストリームとを結合する方法は、第１に、各々のビットストリームを直接的にＭＵＸさせて１つのビットストリームを生成する方法であって、代表ＳＡＯＣビットストリームでＳＡＯＣビットストリームおよびＳＡＣビットストリームが直列的に接続する４０１。

第２に、ＳＡＯＣ補助データ（ａｎｃｉｌｌａｒｙｄａｔａ）領域が存在する場合、前記補助領域にＳＡＣビットストリーム情報を含ませて１つのビットストリームを生成する方法であって、代表ＳＡＯＣビットストリームでＳＡＯＣビットストリームおよび補助データ領域が直列的に接続され、前記補助データ領域はＳＡＣビットストリームを含む４０３。

第３に、前記ＳＡＯＣビットストリームおよびＳＡＣビットストリームのうち、類似の空間キューを符号化した領域を同じビットストリームで表現する方法であって、例えば、代表ＳＡＯＣビットストリームのヘッダー情報領域には、ＳＡＯＣビットストリームヘッダー情報およびＳＡＣビットストリームヘッダー情報が含まれ、代表ＳＡＯＣビットストリームの任意の領域各々には、特定のＣＬＤと関連したＳＡＯＣビットストリームおよびＳＡＣビットストリームが含まれる４０５。

図５は、図２の代表ＳＡＯＣビットストリームを示す更なる一実施形態の構成図であって、前記代表ＳＡＯＣビットストリームが複数のプリセット−ＡＳＩ情報を含む場合を示す。

同図に示すように、代表ＳＡＯＣビットストリームは、プリセット−ＡＳＩ領域を含む。前記プリセット−ＡＳＩ領域は複数のプリセット−ＡＳＩを含み、前記プリセット−ＡＳＩ情報は、オーディオオブジェクトの制御情報およびレイアウト情報などを含む。

前記トランスコーダ１０３を利用してオーディオオブジェクトをレンダリングする場合、各オーディオオブジェクトの位置情報および制御情報、出力される再生スピーカーレイアウト情報が入力されなければならない。前記制御情報および再生スピーカーレイアウト情報が入力されない場合、トランスコーダ１０３において各オーディオオブジェクトの制御情報およびレイアウト情報は基本値として設定される。

基本値として設定された制御情報およびレイアウト情報を利用したり、入力されたオーディオオブジェクト制御情報およびレイアウト情報は、代表ＳＡＯＣビットストリームまたは代表ＳＡＣビットストリームの付加情報またはヘッダー情報に含まれる。前記制御情報は２種類に表現され得る。第１に、各オーディオオブジェクトに対する制御情報（位置およびレベル）およびスピーカーのレイアウト情報を直接的に表現したり、第２に、制御情報およびスピーカーのレイアウト情報を第１行列の形態で表現し、前記第１行列部３１３の第１行列の代わりに利用され得る。

プリセット−ＡＳＩ情報とは、オーディオオブジェクト制御情報およびスピーカーのレイアウト情報を表す。すなわち、スピーカーのレイアウト情報およびスピーカーのレイアウト情報に適合するオーディオ場面を構成するための各オーディオオブジェクトの位置およびレベル情報などを含む。

前記パーシング部３０１によって抽出されたプリセット−ＡＳＩ情報を代表ＳＡＣビットストリームに伝送するために、前記したように、前記プリセット−ＡＳＩ情報は直接的に表現されたり、第１行列の形態で表現される。

プリセット−ＡＳＩ情報が直接的に表現される場合、プリセット−ＡＳＩ情報は、再生システムのレイアウト（モノ／ステレオ／マルチャネル）、オーディオオブジェクトＩＤ、オーディオオブジェクトレイアウト（モノまたはステレオ）、オーディオオブジェクト位置、方位（Ａｚｉｍｕｔｈ、０ｄｅｇｒｅｅ〜３６０ｄｅｇｒｅｅ）、ステレオ再生時高低（Ｅｌｅｖａｔｉｏｎ、−５０ｄｅｇｒｅｅ〜９０ｄｅｇｒｅｅ）、オーディオオブジェクトレベル情報（−５０ｄＢ〜５０ｄＢ）を含むことができる。

プリセット−ＡＳＩ情報が第１行列の形態で表現される場合、前記プリセット−ＡＳＩ情報を反映した数式３のＰ行列を構成し、前記Ｐ行列をレンダリング部３０３に伝送する。前記Ｐ行列は、各オーディオオブジェクトが出力されるチャネルにマッピングされるためのパワー利得情報または位相情報を要素ベクトルとして含む。

前記プリセット−ＡＳＩ情報は、入力される同一のオーディオオブジェクトに対して、所望の再生シナリオに対応される様々なオーディオ場面を定義することができる。例えば、ステレオまたはマルチチャネル（５．１、７．１）再生システムに要求されるプリセット−ＡＳＩ情報がコンテンツ製作者および再生サービスの目的に適合するよう追加的に伝送され得る。

図６は、図２のトランスコーダ１０３を示す更なる一実施形態の構成図であって、外部から入力される制御信号がない場合を示す。

同図に示すように、トランスコーダ１０３は、パーシング部３０１およびレンダリング部３０３を備える。前記トランスコーダ１０３は、第２行列部３１１、第１行列部３１３、プリセット−ＡＳＩ抽出部６０１、および行列判断部６０３からの助けを受け得る。

前記したように、トランスコーダ１０３に外部から入力される制御信号がない場合、プリセット−ＡＳＩ情報を活用する場合である。

前記パーシング部３０１は、前記代表ＳＡＯＣビットストリームに含まれたＳＡＯＣビットストリームとＳＡＣビットストリームとを分離し、前記代表ＳＡＯＣビットストリームに含まれたプリセット−ＡＳＩビットストリームをパーシングしてプリセット−ＡＳＩ抽出部６０１に伝送する。

前記プリセット−ＡＳＩ抽出部６０１は、パーシングされたプリセット−ＡＳＩビットストリームからデフォルト（ｄｅｆａｕｌｔ）プリセット−ＡＳＩを出力するが、もし、プリセット−ＡＳＩに対する分離（ｓｅｌｅｃｔｉｏｎ）要請がある場合、分離要請されたプリセット−ＡＳＩを出力する。

前記行列判断部６０３は、前記プリセット−ＡＳＩ抽出部６０１により出力されたプリセット−ＡＳＩが分離されたプリセット−ＡＳＩの場合、分離されたプリセット−ＡＳＩが第１行列の形態であるか判断する。分離したプリセット−ＡＳＩが情報を直接的に表現した場合、前記第１行列部３１３に伝送され、前記第１行列部３１３は、前記プリセット−ＡＳＩ情報を利用して第１行列を生成する。分離したプリセット−ＡＳＩが第１行列である場合、レンダリング部３０３に直接入力される信号として利用される。

図７は、図２のマルチオブジェクトオーディオ符号化器および復号化器にオーディオオブジェクト除去部７０１が追加的に備えられた場合を示す一実施形態の構造図である。

同図に示すように、オーディオオブジェクト除去部７０１は、前記ＳＡＯＣコーダ１０１によって生成された代表ダウンミックス信号から任意のオーディオオブジェクトを除去するために利用される。前記オーディオオブジェクト除去部７０１は、前記ＳＡＯＣコーダ１０１によって生成された代表ダウンミックス信号および前記トランスコーダ１０３から代表ＳＡＯＣビットストリーム情報を受信し、任意のオーディオオブジェクトを除去する。前記オーディオオブジェクト除去部７０１に伝送される代表ＳＡＯＣビットストリーム情報は、例えばレンダリング部３０３により提供され得る。

例えば、前記ＳＡＣコーダ２０１のダウンミックス信号であるオーディオオブジェクト（ＯＢＪＥＣＴ＃Ｎ）のみを前記ＳＡＣデコーダ１０５の入力信号として利用しようとする場合を説明する。

前記ＳＡＯＣコーダ１０１は、入力される各々のオーディオオブジェクトのパワー大きさをサブバンド別に抽出してＣＬＤ値で抽出し、前記ＣＬＤ値を含むＳＡＯＣビットストリームを生成する。任意のサブバンドｍに対するパワー情報は、次のように獲得することができる。

Ｐ_ｍ ^{ｏｂｊｅｃｔ＃１}、Ｐ_ｍ ^{ｏｂｊｅｃｔ＃２}、・・・Ｐ_ｍ ^{ｏｂｊｅｃｔ＃Ｎ}
ここで、Ｐ_ｍ ^{ｏｂｊｅｃｔ＃Ｎ}は、ＳＡＯＣコーダ１０１によって出力される代表ダウンミックス信号のｍ番目バンドのパワー大きさである。したがって、オーディオオブジェクト除去部７０１に入力される代表ダウンミックス信号をｕ（ｎ）とし、前記代表ダウンミックス信号を周波数領域に変換したものをＵ（ｆ）とし、オーディオオブジェクト除去部７０１の出力信号、すなわち前記ＳＡＣデコーダ１０５の入力信号をＵ^{ｍｏｄｉｆｉｅｄ}（ｆ）とすれば、Ｕ^{ｍｏｄｉｆｉｅｄ}（ｆ）は、前記ＳＡＣコーダ２０１のダウンミックス信号のオーディオオブジェクト（ＯＢＪＥＣＴ＃Ｎ）と対応し、下記の数式１０のように表すことができる。

ここで、Ａ（ｍ）は、ｍ番目のサブバンドの周波数領域で境界を示し、δは、レベルの大きさを調整するための任意の定数値であり、Ｕ（ｆ）は、モノまたはステレオである。

以下、Ｕ（ｆ）がモノである場合を説明する。ただ、Ｕ（ｆ）がステレオである場合、Ｕ（ｆ）が左／右チャネルに分離して処理されること以外はモノの場合と同一である。

前記Ｕ^{ｍｏｄｉｆｉｅｄ}（ｆ）は、前記ＳＡＣコーダ２０１のダウンミックス信号のオーディオオブジェクト（ＯＢＪＥＣＴ＃Ｎ）と同一に見られる。したがって、前記ＳＡＣデコーダ１０５に入力される代表ＳＡＣビットストリームは、前記代表ＳＡＯＣビットストリームから前記ＳＡＯＣビットストリームが除外されたビットストリームであって、ＳＡＣコーダ２０１から出力されるＳＡＣビットストリームと同一に利用することができる。すなわち、前記ＳＡＣデコーダ１０５は、ＯＢＪＥＣＴ＃Ｎを受信し、Ｍ個のマルチチャネル信号に復元できる。しかし、全体信号のレベルは、トランスコーダ１０３のレンダリング部３０３により調整されたり、または数式１０に任意の定数値を乗算してＯＢＪＥＣＴ＃Ｎの信号レベルを調整することによって調整できる。

一方、一実施形態において、前記ＳＡＣコーダ２０１のダウンミックス信号のオーディオオブジェクト（ＯＢＪＥＣＴ＃Ｎ）のみを前記ＳＡＣデコーダ１０５の入力信号から除去する場合について説明する。前記数式１０は、下記の数式１１のように示される。

したがって、前記ＳＡＣデコーダ１０５に入力される代表ＳＡＣビットストリームは、前記代表ＳＡＯＣビットストリームからＳＡＣコーダ２０１の前記ＳＡＣビットストリームが除外されたビットストリームであって、レンダリング部３０３の第２行列に対する出力がないこととみられる。すなわち、前記トランスコーダ１０３は、代表ＳＡＯＣビットストリーム部をパーシングし、ＯＢＪＥＣＴ＃Ｎに関する情報を除去した残りのオーディオオブジェクト情報のみをレンダリングして代表ＳＡＣビットストリームを生成する。

したがって、ＯＢＪＥＣＴ＃Ｎに該当するパワー利得情報、相関性情報などを代表ＳＡＣビットストリームに含まない。前記数式１１は数式１０と同様に、δはレベルの大きさを調整するための任意の定数値であって、全体の出力信号レベルを調整することができる。

前記オーディオオブジェクト除去部７０１は代表ダウンミックス信号からオーディオオブジェクトを除去し、除去命令はトランスコーダ１０３に入力される制御信号によって決定される。前記オーディオオブジェクト除去部７０１は、時間領域信号および周波数領域信号のすべてが適用可能である。また、前記代表ダウンミックス信号をサブバンドで分割するためにＤＦＴ（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）またはＱＭＦ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒｂａｎｋ）を利用することができる。

トランスコーダ１０３のレンダリング部３０３は、ＳＡＯＣビットストリームまたはＳＡＣビットストリームを除去してＳＡＣデコーダ１０５に伝送し、前記オーディオオブジェクト除去部７０１は、前記ＳＡＣデコーダ１０５に伝送されるビットストリームに対応されるようオーディオオブジェクトを適切に除去する。

前記トランスコーダ１０３がＳＡＣデコーダ１０５に含まれる場合、前記トランスコーダ１０３から出力される代表ＳＡＣビットストリームは、付加の変換過程なしでＳＡＣデコーダ１０５に伝送され得る。ここで、付加の変換過程とは、量子化やＨｕｆｆｍａｎコーディング方法のような一般的なコーディング過程を意味する。

また、ＳＡＯＣコーダ１０１がＳＡＣコーダ２０１と接続しないものと見なし、ＳＡＣコーダ２０１の出力オーディオオブジェクトを除去したＳＡＯＣコーダ１０１に入力されるオーディオオブジェクト、すなわちＯＢＪＥＣＴ＃１〜ＯＢＪＥＣＴ＃Ｎ−１のみを制御して復元することができる。

図８は、図２のＳＡＣコーダ２０１およびＳＡＣデコーダ１０５をＭＰＥＧサラウンドコーダおよびデコーダに代替した場合を示す一実施形態の構造図である。

同図に示すように、ＳＡＣコーダ２０１はＭＰＥＧサラウンドコーダ（ＭＰＳコーダ）８０１に、ＳＡＣデコーダ１０５はＭＰＥＧサラウンドデコーダ（ＭＰＳデコーダ）８０５に代替される。また、前記ＳＡＯＣコーダ１０１から出力される代表ダウンミックス信号がステレオである場合、追加的に信号処理部８０３が要求される。

前記ＭＰＳコーダ８０１は、図２のＳＡＣコーダ２０１と同一の役割を行なう。すなわち、前記ＭＰＳコーダ８０１は、入力されるマルチチャネルオーディオ信号から１つのオーディオオブジェクトを出力し、空間キューおよび付加情報を抽出してＭＰＳビットストリームを生成する。前記出力された１つのオーディオオブジェクトは、ダウンミックスされたモノまたはステレオ信号である。

また、前記ＭＰＳデコーダ８０５は、図２のＳＡＣデコーダ８０５と同一の役割を行なう。すなわち、前記ＭＰＳデコーダ８０５は、前記トランスコーダ１０３から出力されるＳＡＣビットストリームを利用し、前記ＳＡＯＣコーダ１０１から出力されるダウンミックス信号または信号処理部８０３から出力される代表再ダウンミックス信号を多様なチャネルのマルチオブジェクトオーディオ信号に復元する。

一方、前記信号処理部８０５は、前記ＳＡＯＣコーダ１０１から出力されるダウンミックス信号がステレオである場合、すなわち前記ＭＰＳデコーダ８０５がステレオ信号を処理する場合、ＭＰＳデコーダ８０５がステレオ信号の左／右処理に制約されるために要求される。

前記数式２は、一般的なＳＡＣデコーダでダウンミックス信号がＭ個に一般化された場合を示す。ダウンミックス信号がステレオである場合、復元される出力チャネル１に対する数式２は下記の数式１２のとおりである。

ここで、出力チャネルのベクトルは、すべてのダウンミックス信号に対して適用可能すべきであるが、現在ＭＰＳデコーダ８０５では不可能である。前記ＭＰＳデコーダ８０５は、下記の数式１３のように、行列値が０に制限されるためである。

すなわち、出力チャネル１の復元において、ｕ^ｂ _２（ｋ）要素が反映されないので、前記数式３、数式４、数式５によって生成されたＷ^ｂ _{ｃｈ_２}が適用されない。したがって、ステレオ以上のレイアウトを有する信号に対して流動的な位置選定（ｆｌｅｘｉｂｌｅｐｏｓｉｔｉｏｎｉｎｇ）が不可能である。すなわち、ステレオ信号の左側信号および右側信号の相互間に自由なレンダリングが不可能である。

しかし、前記信号処理部８０３を利用して前記ＳＡＯＣコーダ１０１から出力される代表ダウンミックス信号を再度ダウンミックスし、代表再ダウンミックス信号として出力する。前記信号処理部８０３の処理過程は、下記の数式１４のとおりである。

前記ＳＡＯＣコーダ１０１から出力される代表ダウンミックス信号がステレオである場合、前記信号処理部８０３の出力信号は、下記の数式１５のとおりである。

ここで、ｙ^ｂ _{ｃｈ_Ｌ}（ｋ）及びｙ^ｂ _{ｃｈ_Ｒ}（ｋ）は、前記信号処理部８０３により出力される信号であって、前記ＭＰＳデコーダ８０５に入力される。ｙ^ｂ _{ｃｈ_Ｌ}（ｋ）およびｙ^ｂ _{ｃｈ_Ｒ}（ｋ）は、数式１５のように左側信号および右側信号のレンダリングがすべて反映された信号であるため、前記ＭＰＳデコーダ８０５が前記数式１３のように制限されても、前記ＭＰＳデコーダ８０５は、左側信号および右側信号が自由にレンダリングされた信号を出力することができる。

例えば、前記Ｗ^ｂ _Ｌ、Ｗ^ｂ _ＲがＭＰＳデコーダ８０５により５チャネルに復元される場合、前記〔数１４〕においてＷ^ｂ _Ｌ、Ｗ^ｂ _Ｒは次のように表現され得る。

前記したように、ＭＰＥＧサラウンドの制約によってＭＰＳデコーダ８０５がステレオ信号の処理が困難な場合、前記信号処理部８０３は、前記トランスコーダ１０３から伝送されたオブジェクト位置情報を利用し、再度ダウンミックスして代表再ダウンミックス信号を出力する。前記信号処理部８０３に伝送されるオブジェクト位置情報は、例えばレンダリング部３０３により提供され得る。ここで、レンダリング部３０３は、前述で説明したものと類似した方式で前記代表ＳＡＯＣビットストリームに基づいて前記ＳＡＯＣコーダ１０１およびＭＰＳコーダ８０１に入力されるオーディオ信号に対し、ＭＰＳデコーダ８０５により出力されるオーディオ信号の左側信号および右側信号の各々に対する空間キュー情報が含まれた代表ＭＰＳビットストリームを生成することができる。

前記ＭＰＳデコーダ８０５は、前記信号処理部８０５とともに動作することによって、図２のＳＡＣデコーダ２０５と同一の役割を行なうことができる。

前記ＭＰＳデコーダ８０５は、前記信号処理部８０３から出力された代表再ダウンミックス信号を所望の出力、すなわち多様なチャネルを有するマルチオブジェクト信号に復元する。

前記図２のＳＡＣデコーダ２０５または前記信号処理部８０５とともに動作する前記ＭＰＳデコーダ８０５の復号化方法は、マルチチャネルマルチオブジェクトダウンミックス信号およびマルチチャネルマルチオブジェクト付加情報（ｓｉｄｅｉｎｆｏｒｍａｔｉｏｎ）信号を受信するステップと、前記マルチチャネルマルチオブジェクトダウンミックス信号をマルチチャネルダウンミックス信号に変換するステップと、前記マルチチャネルマルチオブジェクト付加情報信号をマルチチャネル付加情報信号に変換するステップと、前記変換されたマルチチャネルダウンミックス信号およびマルチチャネル付加情報信号を利用してオーディオ信号を合成するステップとを含む。

前記マルチチャネルダウンミックス信号の変換ステップは、前記マルチチャネルマルチオブジェクト付加情報信号から獲得されるオブジェクト関連情報を利用し、前記マルチチャネルマルチオブジェクトダウンミックス信号からオブジェクト情報を除去するステップを含む。前記マルチチャネルダウンミックス信号の変換ステップは、前記マルチチャネルマルチオブジェクト付加情報信号から獲得されるオブジェクト関連情報を利用し、前記マルチチャネルマルチオブジェクトダウンミックス信号からオブジェクト情報を制御するステップを含む。

ここで、前記マルチチャネルダウンミックス信号の変換ステップを含む復号化方法は、前記オブジェクト関連情報はオブジェクト制御情報によって制御され得る。ここで、前記オブジェクト関連情報は、復号化システム情報によって制御され得る。

以上で説明された本発明に係る符号化および復号化過程は装置の観点で説明したが、前記装置に備えられた各装置的な構成要素は、プロセス的構成要素に代替され得、この場合、本発明に係る符号化および復号化過程は、方法の観点で理解されることができることは自明である。

前述のような本発明の方法は、プログラムで具現され、コンピュータで読出し可能な形態で記録媒体（ＣＤ−ＲＯＭ、ＲＡＭ、ＲＯＭ、フロッピーディスク、ハードディスク、光磁気ディスクなど）に保存され得る。このような過程は、本発明が属する技術分野における通常の知識を有する者が容易に実施できるため、これ以上詳細に説明しない。

以上で説明した本発明は、前述した実施形態および添付の図面によって限定されるのでなく、本発明の技術的な思想から脱離しない範囲内で様々な置換、変形、および変更が可能であることが、本発明が属する技術分野における通常の知識を有する者にとって明白であろう。

Claims

マルチオブジェクトオーディオ信号の符号化装置であって、
前記符号化装置に入力されるオーディオオブジェクト信号を空間キューに基づいて符号化し、前記符号化されたオーディオオブジェクト信号に対するレンダリング情報を生成するオーディオオブジェクト符号化手段を備え、
前記レンダリング情報は、前記オーディオオブジェクト信号に対する空間キュー情報、前記オーディオオブジェクト信号のチャネル情報、および前記オーディオオブジェクト信号の識別情報を含むことを特徴とする符号化装置。
前記符号化装置に入力されるマルチチャネルオーディオ信号をオーディオオブジェクト信号に変換し、前記マルチチャネルオーディオ信号に対するレンダリング情報を生成するオーディオチャネル符号化手段と、
前記符号化装置に入力される制御信号に基づいて、前記オーディオオブジェクト信号の音響情報および再生情報を含むプリセット情報を生成するプリセット音響場面生成手段と、
前記オーディオオブジェクト符号化手段から出力されるレンダリング情報、前記オーディオチャネル符号化手段から出力されるレンダリング情報、および前記プリセット情報を含む代表ビットストリームを生成する代表ビットストリーム生成手段と、
をさらに備え、
前記オーディオチャネル符号化手段から出力されるレンダリング情報は、前記マルチチャネルオーディオ信号に対する空間キュー情報、前記マルチチャネルオーディオ信号のチャネル情報、および前記マルチチャネルオーディオ信号の識別情報を含むことを特徴とする請求項１に記載の符号化装置。
前記オーディオチャネル符号化手段は、ＭＰＥＧ（ＭｏｖｉｎｇＰｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）サラウンドコーダであることを特徴とする請求項２に記載の符号化装置。
マルチオブジェクトオーディオ信号を復号化するためのレンダリング情報を生成するトランスコーディング装置であって、
符号化されたオーディオオブジェクト信号に対するオブジェクト制御情報および再生情報に基づいて、前記符号化されたオーディオオブジェクト信号に対するパワー利得情報および出力位置情報を含むレンダリング情報を生成する第１行列手段と、
前記第１行列手段によって生成されたレンダリング情報および符号化装置から入力される前記符号化されたオーディオオブジェクト信号に対するレンダリング情報に基づいて、復号化装置から出力されるオーディオ信号に対する空間キュー情報を生成するレンダリング手段と、
を備えることを特徴とするトランスコーディング装置。
前記レンダリング手段は、前記符号化されたオーディオオブジェクト信号のうちの所定オーディオオブジェクト信号に対する空間キュー情報を除いた、前記復号化装置から出力されるオーディオオブジェクト信号に対する空間キュー情報を生成し、
前記トランスコーディング装置は、前記符号化されたオーディオ信号のうちから前記所定オーディオオブジェクト信号を除去するオーディオオブジェクト除去手段をさらに備えることを特徴とする請求項４に記載のトランスコーディング装置。
マルチチャネルオーディオ信号およびマルチオブジェクトオーディオ信号を復号化するためのレンダリング情報を生成するトランスコーディング装置であって、
符号化装置から入力される符号化されたオーディオ信号に対するレンダリング情報から符号化されたオーディオオブジェクト信号に対するレンダリング情報、およびマルチチャネルオーディオ信号に対するレンダリング情報を分離するパーシング手段と、
符号化されたオーディオオブジェクト信号に対するオブジェクト制御情報および再生情報に基づいて、前記符号化されたオーディオオブジェクト信号に対するパワー利得情報および出力位置情報を含むレンダリング情報を生成する第１行列手段と、
前記パーシング手段によって分離された符号化されたマルチチャネルオーディオ信号に対するレンダリング情報に基づいて、前記マルチチャネルオーディオ信号に対するチャネル別のパワー利得情報を含むレンダリング情報を生成する第２行列手段と、
前記第１行列手段によって生成されたレンダリング情報、前記第２行列手段によって生成されたレンダリング情報、および前記パーシング手段によって分離された符号化されたオーディオオブジェクト信号に対するレンダリング情報に基づいて、復号化装置から出力されるオーディオ信号に対する空間キュー情報を生成するレンダリング手段と、
を備えることを特徴とするトランスコーディング装置。
前記第１行列手段の符号化されたオーディオオブジェクト信号に対するオブジェクト制御情報および再生情報は、前記符号化装置から入力されるプリセット情報であって前記オーディオオブジェクト信号の音響情報および再生情報を含むプリセット情報であり、
前記パーシング手段は、符号化装置から入力される符号化されたオーディオ信号に対するレンダリング情報から前記プリセット情報をさらに分離することを特徴とする請求項６に記載のトランスコーディング装置。
前記レンダリング手段は、前記符号化されたオーディオ信号のうちの所定オーディオ信号に対する空間キュー情報を除いた、前記復号化装置から出力されるオーディオ信号に対する空間キュー情報を生成し、
前記トランスコーディング装置は、前記符号化されたオーディオ信号のうちから前記所定オーディオ信号に対するオーディオオブジェクト信号を除去するオーディオオブジェクト除去手段をさらに備えることを特徴とする請求項６に記載のトランスコーディング装置。
前記レンダリング手段は、前記復号化装置から出力されるオーディオ信号に対する空間キュー情報であって、ＭＰＥＧサラウンドコーダを備える符号化装置によって符号化されたオーディオ信号の左側信号および右側信号の各々に対する空間キュー情報を生成し、
前記トランスコーディング装置は、ＭＰＥＧ（ＭｏｖｉｎｇＰｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）サラウンドコーダを備える符号化装置によって符号化されたオーディオ信号が左側信号情報および右側信号情報を含むよう前記符号化されたオーディオ信号を変換する信号処理手段をさらに含むことを特徴とする請求項６に記載のトランスコーディング装置。
マルチオブジェクトオーディオ信号の符号化方法であって、
入力されるオーディオオブジェクト信号を空間キューに基づいて符号化し、前記符号化されたオーディオオブジェクト信号に対するレンダリング情報を生成するステップを備え、
前記レンダリング情報は、前記オーディオオブジェクト信号に対する空間キュー情報、前記オーディオオブジェクト信号のチャネル情報、および前記オーディオオブジェクト信号の識別情報を含むことを特徴とする符号化方法。
入力されるマルチチャネルオーディオ信号をオーディオオブジェクト信号に変換し、前記マルチチャネルオーディオ信号に対するレンダリング情報を生成するステップと、
入力される制御信号に基づいて、前記オーディオオブジェクト信号の音響情報および再生情報を含むプリセット情報を生成するステップと、
前記オーディオオブジェクト符号化ステップから出力されるレンダリング情報、前記オーディオチャネル符号化ステップから出力されるレンダリング情報、および前記プリセット情報を含む代表ビットストリームを生成するステップと、をさらに備え、
前記オーディオチャネル符号化ステップから出力されるレンダリング情報は、
前記マルチチャネルオーディオ信号に対する空間キュー情報、前記マルチチャネルオーディオ信号のチャネル情報、および前記マルチチャネルオーディオ信号の識別情報を含むことを特徴とする請求項１０に記載の符号化方法。
前記入力されるマルチチャネルオーディオ信号をオーディオオブジェクト信号に変換し、前記マルチチャネルオーディオ信号に対するレンダリング情報を生成するステップは、ＭＰＥＧサラウンドコーダで行われることを特徴とする請求項１１に記載の符号化方法。
マルチオブジェクトオーディオ信号を復号化するためのレンダリング情報を生成するトランスコーディング方法であって、
符号化されたオーディオオブジェクト信号に対するオブジェクト制御情報および再生情報に基づいて、前記符号化されたオーディオオブジェクト信号に対するパワー利得情報および出力位置情報を含むレンダリング情報を生成するステップと、
前記レンダリング情報生成ステップにおいて生成されたレンダリング情報および符号化後に入力される前記符号化されたオーディオオブジェクト信号に対するレンダリング情報に基づいて、復号化後に出力されるオーディオ信号に対する空間キュー情報を生成するステップと、
を含むことを特徴とするトランスコーディング方法。
前記空間キュー情報を生成するステップにおいて、前記符号化されたオーディオオブジェクト信号のうちの所定オーディオオブジェクト信号に対する空間キュー情報を除外いた、前記復号化後に出力されるオーディオオブジェクト信号に対する空間キュー情報を生成し、
前記トランスコーディング方法は、前記符号化されたオーディオ信号のうちから前記所定オーディオオブジェクト信号を除去するステップをさらに備えることを特徴とする請求項１３に記載のトランスコーディング方法。
マルチチャネルオーディオ信号およびマルチオブジェクトオーディオ信号を復号化するためのレンダリング情報を生成するトランスコーディング方法であって、
符号化後に入力される符号化されたオーディオ信号に対するレンダリング情報から符号化されたオーディオオブジェクト信号に対するレンダリング情報、およびマルチチャネルオーディオ信号に対するレンダリング情報を分離するステップと、
符号化されたオーディオオブジェクト信号に対するオブジェクト制御情報および再生情報に基づいて、前記符号化されたオーディオオブジェクト信号に対するパワー利得情報および出力位置情報を含むレンダリング情報を生成するステップと、
前記レンダリング情報分離ステップにおいて分離された符号化されたマルチチャネルオーディオ信号に対するレンダリング情報に基づいて、前記マルチチャネルオーディオ信号に対するチャネル別のパワー利得情報を含むレンダリング情報を生成するステップと、
前記レンダリング情報生成ステップにおいて生成されたレンダリング情報、前記マルチチャネルオーディオ信号に対するチャネル別のパワー利得情報を含むレンダリング情報を生成するステップにおいて生成されたレンダリング情報、および前記レンダリング情報分離ステップにおいて分離された符号化されたオーディオオブジェクト信号に対するレンダリング情報に基づいて、復号化後に出力されるオーディオ信号に対する空間キュー情報を生成するステップと、
を含むことを特徴とするトランスコーディング方法。
前記前記符号化されたオーディオオブジェクト信号に対するパワー利得情報および出力位置情報を含むレンダリング情報を生成するステップでは、符号化されたオーディオオブジェクト信号に対するオブジェクト制御情報および再生情報は、前記符号化後に入力され、前記オーディオオブジェクト信号の音響情報および再生情報を含むプリセット情報であり、
前記レンダリング情報分離ステップは、符号化後に入力される符号化されたオーディオ信号に対するレンダリング情報から前記プリセット情報を分離するステップをさらに備えることを特徴とする請求項１５に記載のトランスコーディング方法。
前記空間キュー情報を生成するテップにおいて、前記符号化されたオーディオ信号のうちの所定オーディオ信号に対する空間キュー情報を除外いた、前記復号化ステップから出力されるオーディオ信号に対する空間キュー情報を生成し、
前記トランスコーディング方法は、前記符号化されたオーディオ信号のうちから前記所定オーディオ信号に対するオーディオオブジェクト信号を除去するステップをさらに含むことを特徴とする請求項１５に記載のトランスコーディング方法。
前記復号化後に出力されるオーディオ信号に対する空間キュー情報を生成するステップにおいて、ＭＰＥＧ（ＭｏｖｉｎｇＰｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）サラウンドコーダを備える符号化されたオーディオ信号の左側信号および右側信号各々に対する空間キュー情報が、前記復号化後に出力されるオーディオ信号に対する空間キュー情報として生成され、
前記トランスコーディング方法は、ＭＰＥＧサラウンドコーダを含む符号化されたオーディオ信号が左側信号情報および右側信号情報を含むよう前記符号化されたオーディオ信号を変換するステップをさらに含むことを特徴とする請求項１５に記載のトランスコーディング方法。
マルチオブジェクトオーディオ信号の復号化方法であって、
マルチチャネルマルチオブジェクトダウンミックス信号およびマルチチャネルマルチオブジェクト付加情報（ｓｉｄｅｉｎｆｏｒｍａｔｉｏｎ）信号を受信するステップと、
前記マルチチャネルマルチオブジェクトダウンミックス信号をマルチチャネルダウンミックス信号に変換するステップと、
前記マルチチャネルマルチオブジェクト付加情報信号をマルチチャネル付加情報信号に変換するステップと、
前記変換されたマルチチャネルダウンミックス信号およびマルチチャネル付加情報信号を利用してオーディオ信号を合成するステップと、
を含むことを特徴とするマルチチャネルマルチオブジェクトオーディオの復号化方法。
前記マルチチャネルダウンミックス信号の変換ステップは、前記マルチチャネルマルチオブジェクト付加情報信号から獲得されるオブジェクト関連情報を利用し、前記マルチチャネルマルチオブジェクトダウンミックス信号からオブジェクト情報を除去するステップを含むことを特徴とする請求項１９に記載のマルチチャネルマルチオブジェクトオーディオの復号化方法。
前記オブジェクト関連情報は、オブジェクト制御情報によって制御されることを特徴とする請求項２０に記載のマルチチャネルマルチオブジェクトオーディオの復号化方法。
前記オブジェクト関連情報は、復号化システム情報によって制御されることを特徴とする請求項２０に記載のマルチチャネルマルチオブジェクトオーディオの復号化方法。
前記マルチチャネルダウンミックス信号の変換ステップは、前記マルチチャネルマルチオブジェクト付加情報信号から獲得されるオブジェクト関連情報を利用し、前記マルチチャネルマルチオブジェクトダウンミックス信号からオブジェクト情報を制御するステップを含むことを特徴とする請求項１９に記載のマルチチャネルマルチオブジェクトオーディオの復号化方法。