JP5220840B2

JP5220840B2 - マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法

Info

Publication number: JP5220840B2
Application number: JP2010502011A
Authority: JP
Inventors: バク、スン‐クウォン; ソ、ジョン‐イル; リー、テ‐ジン; ジャン、テ‐ヤン; カン、キョン‐オク; ホン、ジン‐ウー; キム、ジン‐ウン
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 2007-03-30
Filing date: 2008-03-31
Publication date: 2013-06-26
Anticipated expiration: 2028-03-31
Also published as: EP3712888A2; WO2008120933A1; CN101689368B; EP3712888B1; CN101689368A; US20100121647A1; US20140100856A1; KR101422745B1; EP2143101B1; EP2143101A1; KR20080089308A; EP3712888A3; US8639498B2; JP2010525378A; EP2143101A4; US9257128B2

Description

本発明はマルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコードデコードに関し、より詳細にマルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコードおよびデコード装置、ならびに方法に関するものである。

ここで、マルチチャネルで構成されたマルチオブジェクトオーディオ信号とは、マルチオブジェクトオーディオ信号であって、それぞれのオーディオオブジェクト信号が多様なチャネル（例えば、モノチャネル、ステレオチャネル、５．１チャネル）で構成された信号を意味する。

従来のオーディオエンコードおよびデコード技術によれば、多様なチャネルで構成されたマルチマルチオーディオオブジェクトがユーザの必要により多様に組合わすことができず、したがって１つのオーディオコンテンツが多様な形態で消費することができない。結局、ユーザはオーディオコンテンツを受動的にのみ消費可能である。

従来技術であるＳＡＣ（ＳｐａｔｉａｌＡｕｄｉｏＣｏｄｉｎｇ）技術によれば、マルチチャネルオーディオ信号はダウンミックスされたモノチャネルまたはステレオチャネル信号と空間キュー（ｓｐａｔｉａｌｃｕｅ）情報でエンコーディングされ、低いビット率でも高品質のマルチャンネル信号が伝送される。ＳＡＣ技術によれば、オーディオ信号はサブバンド別に分析され、各サブバンドに対応する空間キュー情報に基づいて、前記ダウンミックスされたモノチャネルまたはステレオチャネル信号から本来のマルチチャネルオーディオ信号が復元される。前記空間キュー情報は、デコードの過程で原信号の復元のための情報を含み、ＳＡＣデコード装置で再生するオーディオ信号の音質を決定する。ＭＰＥＧは、ＭＰＥＧＳｕｒｒｏｕｎｄ（ＭＰＳ）という名称でＳＡＣ技術に対する標準化を進めておりＣＬＤ（ＣｈａｎｎｅｌＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅ）を空間キューとして活用する。

ＳＡＣによれば、マルチチャネルオーディオ信号であって、１個オーディオオブジェクトに対してのみエンコードおよびデコードが可能であるため、マルチチャネルで構成されたマルチオブジェクトオーディオ信号、例えば、モノチャネル、ステレオチャネルおよび５．１チャネルで構成された多様なオブジェクトのオーディオ信号をエンコードおよびデコードすることができない。

また他の従来技術であるバイノーラルキューコーディング（ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ、ＢＣＣ）技術によれば、モノチャネルでのみ構成されたマルチオブジェクトオーディオ信号がエンコードおよびデコードが可能であるため、モノチャネル以外のマルチチャネルで構成されたマルチオブジェクトオーディオ信号をエンコードおよびデコードすることができない。

整理すれば、従来技術によれば、モノチャネルで構成されたマルチオブジェクトオーディオ信号またはマルチチャネルで構成された単一オブジェクトオーディオ信号に対してのみエンコードおよびデコードが可能で、マルチチャネルで構成されたマルチオブジェクトオーディオ信号をエンコードおよびデコードすることができない。したがって従来技術によれば、多様なチャネルで構成されたマルチオーディオオブジェクトがユーザの必要により多様に組合せることができず、したがって１つのオーディオコンテンツを多様な形態で消費することができない。結局、ユーザはオーディオコンテンツを受動的にのみ消費可能である。

したがって、１つのオーディオコンテンツを構成するマルチチャネルで構成されたマルチオブジェクトオーディオ信号がユーザの必要に応じて制御されることによって、１つのオーディオコンテンツが多様な形態で消費し得る、マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコードおよびデコード装置、並びに方法が要求される。

本発明は、前記要求に応じるために提案されたもので、マルチチャネルで構成されたマルチオブジェクトオーディオ信号をエンコードおよびデコードする装置、並びに方法を提供するのを目的でする。

前記目的を達成するための本発明は、オーディオエンコード装置において、マルチチャネルで構成されたオーディオ信号をダウンミックスし、前記マルチチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第１レンダリング情報を生成するマルチチャネルエンコード手段と、マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記マルチチャネルエンコード手段によってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第２レンダリング情報を生成するマルチオブジェクトエンコード手段を備えるものの、前記マルチオブジェクトエンコード手段は、前記マルチチャネルエンコード手段が制限を受けるコーデックスキームには制限を受けずに前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成するオーディオエンコード装置を提供する。

また、前記目的を達成するための本発明は、オーディオエンコード装置において、マルチチャネルで構成されたオーディオ信号をダウンミックスし、前記マルチチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第１レンダリング情報を生成するマルチチャネルエンコード手段と、マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記マルチチャネルエンコード手段によってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第２レンダリング情報を生成する第１マルチオブジェクトエンコード手段と、マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記第１マルチオブジェクトエンコード手段によってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第３レンダリング情報を生成する第２マルチオブジェクトエンコード手段を備えるものの、前記第２マルチオブジェクトエンコード手段は、前記マルチチャネルエンコード手段および第１マルチオブジェクトエンコード手段が制限を受けるコーデックスキームには制限を受けずに前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成するオーディオエンコード装置を提供する。

また、前記目的を達成するための本発明は、前記オーディオエンコード装置によってエンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング装置において、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を含むオブジェクト制御情報に基づいて、前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックス手段と、前記第１レンダリング情報に基づいて、前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックス手段と、前記第２レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換手段と、前記第１マトリックス手段によって生成されたレンダリング情報、前記第２マトリックス手段によって生成されたレンダリング情報、および前記サブバンド変換手段によって変換されたレンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリング手段を備えるトランスコーディング装置を提供する。

また、前記目的を達成するための本発明は、前記オーディオエンコード装置によって、エンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング装置において、前記第４レンダリング情報から所定のプリセットＡＳＩ情報を抽出するプリセットＡＳＩ抽出手段と、前記プリセットＡＳＩ抽出手段によって抽出された所定のプリセットＡＳＩ情報であって、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を直接的に表現するオブジェクト制御情報に基づいて、前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックス手段と、
前記第１レンダリング情報に基づいて、前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックス手段と、前記第２レンダリング情報を、前記コーデックスキームによるレンダリング情報に変換するサブバンド変換手段と、前記プリセットＡＳＩ抽出手段によって抽出された所定のプリセットＡＳＩ情報および前記第１マトリックス手段によって生成されたレンダリング情報のうち何れかの１つと、前記第２マトリックス手段によって生成されたレンダリング情報と、前記サブバンド変換手段によって変換されたレンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリング手段を備えるトランスコーディング装置を提供する。

また、前記目的を達成するための本発明は、前記オーディオエンコード装置によってエンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング装置において、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を含むオブジェクト制御情報に基づいて、前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックス手段と、前記第１レンダリング情報に基づいて、前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックス手段と、前記第３レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換手段と、前記第１マトリックス手段によって生成されたレンダリング情報、前記第２マトリックス手段によって生成されたレンダリング情報、前記サブバンド変換手段によって変換されたレンダリング情報および前記第２レンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリング手段を備えるトランスコーディング装置を提供する。

また、前記目的を達成するための本発明は、前記オーディオエンコード装置によってエンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング装置において、前記第５レンダリング情報から所定のプリセットＡＳＩ情報を抽出するプリセットＡＳＩ抽出手段と、前記プリセットＡＳＩ抽出手段によって抽出された所定のプリセットＡＳＩ情報であって、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を直接的に表現するオブジェクト制御情報に基づいて、前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックス手段と、前記第１レンダリング情報に基づいて、前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックス手段と、前記第３レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換手段と、前記プリセットＡＳＩ抽出手段によって抽出された所定のプリセットＡＳＩ情報および前記第１マトリックス手段によって生成されたレンダリング情報のうち何れかの１つと、前記第２マトリックス手段によって生成されたレンダリング情報と、前記サブバンド変換手段によって変換されたレンダリング情報と、前記第２レンダリング情報に基づいて、前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリング手段を備えるトランスコーディング装置を提供する。

また、前記目的を達成するための本発明は、オーディオデコード装置において、マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するレンダリング情報からマルチオブジェクトで構成されたオーディオ信号に対する空間キューを備えるマルチオブジェクト信号のレンダリング情報と、前記マルチオブジェクトで構成されたオーディオ信号のシーン情報を分離するパーシング手段と、前記マルチオブジェクト信号のレンダリング情報に基づいて前記マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するダウンミックス信号のうちでマルチチャネルで構成されたオーディオ信号に対するオーディオオブジェクト信号をハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）して修正されたダウンミックス信号を出力する信号処理手段と、前記シーン情報に基づいて前記修正されたダウンミックス信号をミキシングしてオーディオ信号を復元するミキシング手段を備えるオーディオデコード装置を提供する。

また、前記目的を達成するための本発明は、オーディオデコード装置において、マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するレンダリング情報からマルチチャネルで構成されたオーディオ信号に対する空間キューを備えるマルチチャネル信号のレンダリング情報と、マルチオブジェクトで構成されたオーディオ信号に対する空間キューを備えるマルチオブジェクト信号のレンダリング情報と、前記マルチオブジェクトで構成されたオーディオ信号のシーン情報を分離するパーシング手段と、前記マルチオブジェクト信号のレンダリング情報に基づいて、前記マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するダウンミックス信号のうちで少なくとも何れか１つのオーディオオブジェクト信号をハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）して修正されたダウンミックス信号、および前記ハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）されたオーディオオブジェクト信号を生成する信号処理手段と、前記修正されたダウンミックス信号をミキシングしてマルチチャネルオーディオ信号を復元するチャネルデコード手段と、前記シーン情報に基づいて、前記修正されたダウンミックス信号と信号処理手段によって生成されたオーディオオブジェクト信号をミキシングするミキシング手段を備えるオーディオデコード装置を提供する。

また、前記目的を達成するための本発明は、オーディオエンコード方法において、マルチチャネルで構成されたオーディオ信号をダウンミックスし、前記マルチチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第１レンダリング情報を生成するマルチオブジェクトエンコードステップと、マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記マルチオブジェクトエンコードステップによってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第２レンダリング情報を生成するマルチオブジェクトエンコードステップを備えるものの、前記マルチオブジェクトエンコードステップは、前記マルチオブジェクトエンコードステップが制限を受けるコーデックスキームには制限を受けずに前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成するオーディオエンコード方法を提供する。

また、前記目的を達成するための本発明は、オーディオエンコード方法において、マルチチャネルで構成されたオーディオ信号をダウンミックスし、前記マルチチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第１レンダリング情報を生成するマルチオブジェクトエンコードステップと、マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記マルチオブジェクトエンコードステップによってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第２レンダリング情報を生成する第１マルチオブジェクトエンコードステップと、マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記第１マルチオブジェクトエンコードステップによってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第３レンダリング情報を生成する第２マルチオブジェクトエンコードステップを備えるものの、前記第２マルチオブジェクトエンコードステップは前記マルチオブジェクトエンコードステップおよび第１マルチオブジェクトエンコードステップが制限を受けるコーデックスキームには制限を受けず前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成するオーディオエンコード方法を提供する。

また、前記目的を達成するための本発明は、前記オーディオエンコード方法によってエンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング方法において、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を含むオブジェクト制御情報に基づいて前記エンコーディングされたオーディオ信号がオーディオデコード方法の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックスステップと、前記第１レンダリング情報に基づいて前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックスステップと、前記第２レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記第１マトリックスステップによって生成されたレンダリング情報、前記第２マトリックスステップによって生成されたレンダリング情報、および前記サブバンド変換ステップによって、変換されたレンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップを備えるトランスコーディング方法を提供する。

また、前記目的を達成するための本発明は、前記オーディオエンコード方法によって、エンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング方法において、前記第４レンダリング情報から所定のプリセットＡＳＩ情報を抽出するプリセットＡＳＩ抽出ステップと、前記プリセットＡＳＩ抽出ステップによって抽出された所定のプリセットＡＳＩ情報であって、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を直接的に表現するオブジェクト制御情報に基づいて前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックスステップと、前記第１レンダリング情報に基づいて前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックスステップと、前記第２レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記プリセットＡＳＩ抽出ステップによって抽出された所定のプリセットＡＳＩ情報および前記第１マトリックスステップによって生成されたレンダリング情報のうち何れかの１つと、前記第２マトリックスステップによって生成されたレンダリング情報と、前記サブバンド変換ステップによって変換されたレンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップを備えるトランスコーディング方法を提供する。

また、前記目的を達成するための本発明は、前記オーディオエンコード方法によって、エンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング方法において、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を含むオブジェクト制御情報に基づいて前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックスステップと、前記第１レンダリング情報に基づいて前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックスステップと、前記第３レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記第１マトリックスステップによって生成されたレンダリング情報、前記第２マトリックスステップによって生成されたレンダリング情報、前記サブバンド変換ステップによって変換されたレンダリング情報および前記第２レンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップを備えるトランスコーディング方法を提供する。

また、前記目的を達成するための本発明は、前記オーディオエンコード方法によってエンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング方法において、前記第５レンダリング情報から所定のプリセットＡＳＩ情報を抽出するプリセットＡＳＩ抽出ステップと、前記プリセットＡＳＩ抽出ステップによって抽出された所定のプリセットＡＳＩ情報であって、前記エンコーディングされたオーディオ信号の位置およびレベル情報および出力レイアウト情報を直接的に表現するオブジェクト制御情報に基づいて前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックスステップと、前記第１レンダリング情報に基づいて前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックスステップと、前記第３レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記プリセットＡＳＩ抽出ステップによって抽出された所定のプリセットＡＳＩ情報および前記第１マトリックスステップによって生成されたレンダリング情報のうち何れかの１つと、前記第２マトリックスステップによって生成されたレンダリング情報と、前記サブバンド変換ステップによって変換されたレンダリング情報と、前記第２レンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップを備えるトランスコーディング方法を提供する。

また、前記目的を達成するための本発明は、オーディオデコード方法において、マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するレンダリング情報からマルチオブジェクトで構成されたオーディオ信号に対する空間キューを備えるマルチオブジェクト信号のレンダリング情報と、前記マルチオブジェクトで構成されたオーディオ信号のシーン情報を分離するパーシングステップと、前記マルチオブジェクト信号のレンダリング情報に基づいて前記マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するダウンミックス信号のうちでマルチチャネルで構成されたオーディオ信号に対するオーディオオブジェクト信号をハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）して修正されたダウンミックス信号を出力する信号処理ステップと、前記シーン情報に基づいて前記修正されたダウンミックス信号をミキシングしてオーディオ信号を復元するミキシングステップを備えるオーディオデコード方法を提供する。

また、前記目的を達成するための本発明は、オーディオデコード方法において、マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するレンダリング情報からマルチチャネルで構成されたオーディオ信号に対する空間キューを備えるマルチチャネル信号のレンダリング情報と、マルチオブジェクトで構成されたオーディオ信号に対する空間キューを備えるマルチオブジェクト信号のレンダリング情報と、前記マルチオブジェクトで構成されたオーディオ信号のシーン情報を分離するパーシングステップと、前記マルチオブジェクト信号のレンダリング情報に基づいて、前記マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するダウンミックス信号のうちで少なくとも何れか１つのオーディオオブジェクト信号をハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）して修正されたダウンミックス信号、および前記ハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）されたオーディオオブジェクト信号を生成する信号処理ステップと、前記修正されたダウンミックス信号をミキシングしてマルチチャネルオーディオ信号を復元するチャネルデコードステップと、前記シーン情報に基づいて前記修正されたダウンミックス信号と信号処理ステップによって生成されたオーディオオブジェクト信号をミキシングするミキシングステップを備えるオーディオデコード方法を提供する。

また、前記目的を達成するための本発明は、マルチチャネルオーディオ信号およびマルチオブジェクトオーディオ信号の入力を受けることができる入力部と、前記入力されたオーディオ信号をダウンミックス信号およびレンダリング情報で符号化する符号化部を備え、前記レンダリング情報は、マルチチャネル符号化付加情報およびマルチオブジェクト符号化付加情報を含むオーディオ符号化装置を提供する。

また、前記目的を達成するための本発明は、ダウンミックス信号および付加情報信号を備えるオーディオ符号化信号の入力を受けるステップと、前記付加情報信号からマルチオブジェクト付加情報およびマルチチャネル付加情報を抽出するステップと、前記マルチオブジェクト付加情報に基づいて、前記ダウンミックス信号をマルチチャネルダウンミックス信号に変換するステップと、前記マルチチャネルダウンミックス信号および前記マルチチャネル付加情報を利用して、マルチチャネルオーディオ信号を復号化するステップと、前記復号化されたオーディオ信号を合成するステップを備えるオーディオ復号化方法を提供する。

本発明によれば、マルチチャネルで構成されたマルチオブジェクトオーディオ信号がユーザ必要に応じて多様にエンコードおよびデコードされることによって、ユーザの必要に応じて能動的にオーディオコンテンツを消費することができる。

本発明によるオーディオエンコード装置およびデコード装置を示す一実施形態構造図である。ビットストリームフォーマッタ１０５から生成される代表ビットストリームを示す一実施形態構造図である。図２のトランスコーダを示す一実施形態詳細構造図である。サブバンド変換部の前記追加サブバンドに対応する空間キューパラメータをＳＡＣスキームが制限するサブバンドに対応するように変換させる過程を説明する図である。本発明の他の日実施形態によるＳＡＯＣエンコーダおよびビットストリームフォーマッタを示す構造図である。本発明の他の実施形態によるトランスコーダを示す詳細構成図として、図５のＳＡＯＣエンコーダおよびビットストリームフォーマッタに適合するトランスコーダを示す詳細構造図である。本発明の他の実施形態によるオーディオデコード装置の構成図である。図７のミキサーを示す一実施形態詳細構造図である。本発明の一実施形態としてＣＰＰを適用して、オーディオ信号を望む位置にマッピングさせる方法を説明するための図である。ビットストリームフォーマッタ１０５から出力される代表ビットストリームを示すまた他の一実施形態構成図であって、前記代表ビットストリームがプリセットＡＳＩ情報を含む一実施形態構造図である。本発明の他の実施形態によるトランスコーダを示す詳細構成図であって、第１マトリックス部で直接入力されるオブジェクト制御情報および再生システム情報の代わりにプリセットＡＳＩ情報が活用される一実施形態構造図である。図３のトランスコーダを示す図であって、ＳＡＣスキームに制限されないサブバンド情報または追加的な情報が含まれた代表ビットストリームがトランスコーダで処理される過程を示す概念図である。

発明の実施のための具体的な内容

以下の内容は単に本発明の原理を例示する。したがって当業者はたとえ本明細書に明確に説明されたり図示されなくとも本発明の原理を具現して本発明の概念と範囲に含まれた多様な装置を発明できるものである。また、本明細書に列挙されたすべての条件付き用語および実施形態は原則的に、本発明の概念が理解されるようにするための目的にのみ明確に意図され、このように特別に列挙された実施形態および状態に制限的でないものと理解されなければならない。また、本発明の原理、観点および実施形態だけでなく、特定実施形態を列挙するすべての詳細な説明は、このような事項の構造的および機能的均等物を備えるように意図されるものと理解されなければならない。またこのような均等物は現在公知された均等物だけでなく将来に開発される均等物すなわち構造と関係がなく同一の機能を遂行するように発明されたすべての素子を備えるものと理解されなければならない。したがって、例えば、本明細書のブロック図は本発明の原理を具体化する例示的な回路の概念的な観点を表すものと理解されなければならない。これと類似に、すべてのフローチャート、状態変換図、擬似コードなどはコンピュータが判読可能な媒体に実質的に表すことができ、コンピュータまたはプロセッサが明確に図示されたのか可否を問わずコンピュータまたはプロセッサによって、遂行される多様なプロセスを表すものと理解されなければならない。プロセッサまたはこれと類似の概念と表示された機能ブロックを備える図に示された多様な素子の機能は専用ハードウェアだけでなく適切なソフトウェアと関連し、ソフトウェアを実行する能力を有するハードウェアの使用に提供され得る。プロセッサによって提供される時、前記機能は単一専用プロセッサ、単一共有プロセッサまたは複数の個別的プロセッサによって提供されることができ、これらのうち１部は共有可能である。またプロセッサ、制御がまたはこれと類似の概念で提示される用語の明確な使用はソフトウェアを実行する能力を有したハードウェアを排他的に引用し、解釈されてはならず、制限なくデジタル信号プロセッサ（ＤＳＰ）ハードウェア、ソフトウェアを保存するためのロム（ＲＯＭ）、ラム（ＲＡＭ）および非揮発性メモリを暗示的に備えるものと理解されなければならない。周知慣用の他のハードウェアも含まれ得る。類似して図に示されたスイッチは概念的にのみ提示されることもある。このようなスイッチの作用はプログラムロジックまたは専用ロジックによって、プログラム制御および専用ロジックの相互作用を介したり手動で行われ得るものと理解されなければならない。特定の技術は本明細書のより詳細な理解として設計者によって選択されることができる。

本明細書の請求範囲で、詳細な説明に記載された機能を行うための手段と表現された構成要素は例えば前記機能を行う回路素子の組合せまたはファームウェア／マイクロコードなどを備えるすべての形式のソフトウェアを備える機能を行うすべての方法を備えるものと意図され、前記機能を行うように前記ソフトウェアを実行するための適切な回路と結合される。このような請求範囲によって定義される本発明は多様に列挙された手段によって提供される機能が結合され請求項が要求する方式と結合されるため、前記機能を提供することができるいかなる手段も本明細書から把握されるものと、均等なものと理解されなければならない。

上述した目的、特徴および長所は添付された図と関連した後の詳細な説明によって明確になるだろう。本発明を説明することにおいて、関連した公知技術に対する具体的な説明が本発明の要旨を不必要に曖昧にすると判断される場合、その詳細な説明を省略する。

以下、添付された図を参照して、本発明による好ましい実施例を詳細に説明する。

図１は、本発明によるオーディオエンコード装置およびデコード装置を示す一実施形態構造図である。

図１に図示したように、本発明の一実施形態によるオーディオエンコード装置はＳＡＯＣ（ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ）エンコーダ１０１、ＳＡＣエンコーダ１０３、ビットストリームフォーマッタ１０５およびプリセットＡＳＩ（プリセットＡｕｄｉｏＳｃｅｎｅＩｎｆｏｒｍａｔｉｏｎ、プリセットオーディオシーン情報）部１１３を備える。

ＳＡＯＣエンコーダ１０１は、ＳＡＣ技術を基盤とする空間キュー基盤のエンコーダであって、モノチャネルまたはステレオチャネルで構成されたマルチオーディオオブジェクトをモノチャネルまたはステレオチャネルで構成された１つの信号にダウンミックスする。エンコーディングされたマルチオーディオオブジェクトはデコード装置で各々独立的に復元されるのではなく、前記オーディオオブジェクトに対するレンダリング情報によって所望のオーディオシーンで復元される。したがって、オーディオデコード装置は、所望のオーディオシーンのために、オーディオオブジェクトをレンダリングすることができる構成が要求される。ここで、レンダリングは、オーディオ信号が出力される位置およびレベルなどを決定し、出力オーディオ信号を生成することを意味する。

ＳＡＯＣ技術は、パラメータ基盤のマルチオブジェクトコーディング技術であって、Ｍ（＜Ｎ）個チャネルを構成するオーディオ信号にＮ個オーディオオブジェクトを伝送するように設計されたものである。このようなダウンミックス信号とともに、原オブジェクト信号の再生性（ｒｅ−ｃｒｅａｔｉｏｎ）および操作（ｍａｎｉｐｕｌａｔｉｏｎ）のためのオブジェクトパラメータが伝送される。前記オブジェクトパラメータは、オブジェクト間のレベル差情報、オブジェクトの絶対エネルギー情報、オブジェクト間の相関性情報であり得る。ＳＡＯＣ技術によれば、伝送されたＭ（＜Ｎ）個チャネル信号と、空間キュー情報および付加情報が含まれたＳＡＯＣビットストリームに基づいて、Ｎ個オーディオオブジェクトが再生成（ｒｅ−ｃｒｅａｔｉｎｇ）、修正（ｍｏｄｉｆｙｉｎｇ）およびレンダリング可能である。前記Ｍ個チャネル信号は、モノチャネルまたはステレオチャネル信号であり得る。前記Ｎ個オーディオオブジェクトもモノチャネルまたはステレオチャネル信号であることもあり、ＭＰＳマルチチャネルオブジェクトであることもある。ＳＡＯＣエンコーダは入力されたオブジェクト信号をダウンミックスする一方、前記オブジェクトパラメータを抽出する。ＳＡＯＣデコーダは、所定個数の再生チャネルに合うようにダウンミックス信号からオブジェクト信号を再構成およびレンダリングする。各オブジェクトの再構成レベルおよびパーシング位置を備えるレンダリング情報はユーザから入力され得る。出力されるサウンドシーンはステレオチャネルから５．１チャネルなどのマルチチャネルまで多様で、入力オブジェクト信号の個数およびダウンミックスチャネルの個数から独立的である。

ＳＡＯＣエンコーダ１０１は、直接入力されたり後述されるＳＡＣエンコーダ１０３から出力されるオーディオオブジェクトをダウンミックスし、代表ダウンミックス信号を出力する。一方、ＳＡＯＣエンコーダ１０１は、入力されたオーディオオブジェクトに対する空間キュー情報および付加情報が含まれたＳＡＯＣビットストリームを出力する。ここで、前記ＳＡＯＣエンコーダ１０１は「異質なレイアウトＳＡＯＣ」または「Ｆａｌｌｅｒ」技法を利用して入力されるオーディオオブジェクト信号を分析することができる。

本明細書で言及される空間キュー情報は、一般的に周波数領域のサブバンド単位で分析されて抽出される。本発明の一実施形態として活用可能な空間キューに対する定義は次の通りである。

ＣＬＤ［Ｃｈａｎｎｅｌ（ＡｕｄｉｏＳｉｇｎａｌ）ＬｅｖｅｌＤｉｆｆｅｒｅｎｃｅ］：入力オーディオ信号間レベル差
ＩＣＣ［ＩｎｔｅｒＣｈａｎｎｅｌＣｏｒｒｅｌａｔｉｏｎ］：入力オーディオ信号間相関性
ＣＴＤ［Ｃｈａｎｎｅｌ（ＡｕｄｉｏＳｉｇｎａｌ）ＴｉｍｅＤｉｆｆｅｒｅｎｃｅ］：入力オーディオ信号間時間差
ＣＰＣ［ＣｈａｎｎｅｌＰｒｅｄｉｃｔｉｏｎＣｏｅｆｆｉｃｉｅｎｔ］：入力オーディオ信号のダウンミックス比率
すなわち、ＣＬＤは、オーディオ信号のパワーゲイン情報、ＩＣＣはオーディオ信号間の相関性情報、ＣＴＤはオーディオ信号間の時間差情報、ＣＰＣはオーディオ信号がダウンミックスされる時、ダウンミックスゲイン情報を示す。

空間キューの主要な役割は、空間画像（ｓｐａｔｉａｌｉｍａｇｅ）、すなわちサウンドシーン（ｓｏｕｎｄｓｃｅｎｅ）を維持するものである。したがって、空間キューによってサウンドシーンが構成され得る。オーディオ信号の再生環境を考慮する時、前記空間キューのうちで最も多い情報を占めている空間キューはＣＬＤであって、ＣＬＤだけでも基本的な出力信号を生成することができる。したがって以下では本発明の一実施形態としてＣＬＤを中心にして説明されるものである。しかし、本発明がＣＬＤにのみ限定されず、多様な空間キューと関連した実施形態が存在し得ることは本発明が属す技術分野で通常の知識を有する者に明白である。したがって本発明はＣＬＤに限定されないものと理解されなければならない。

前記付加情報は、ＳＡＯＣエンコーダ１０１に入力されるオーディオオブジェクトの復元および制御のための空間情報を含む。また前記付加情報は、各入力オーディオオブジェクトに対する識別情報を定義する。また前記付加情報は、例えばモノチャネル、ステレオチャネル、またはマルチチャネルなど各入力オーディオオブジェクトのチャネル情報を定義する。前記付加情報は、一実施形態としてヘッダ情報、オーディオオブジェクト情報、プリセット（ｐｒｅｓｅｔ）情報および後述されるオブジェクト除去のために必要な制御情報を含むことができる。

一方、ＳＡＯＣエンコーダ１０１は、後述されるように、ＳＡＣスキーム（ｓｃｈｅｍｅ）が制限するサブバンドの個数よりさらに多数のサブバンドすなわち追加サブバンドに基づいて、空間キューパラメータを生成することができる。ＳＡＯＣエンコーダ１０１は、下記［数式１３］に応じて最も有力な（ｄｏｍｉｎａｎｔ）パワーを有するサブバンドのインデックスＰｗ＿ｉｎｄｘ（ｂ）を算出する。この点に対しては後述される。前記サブバンドのインデックスＰｗ＿ｉｎｄｘ（ｂ）は、前記ＳＡＯＣビットストリームに含まれ得る。

本明細書で言及されるＳＡＣスキームまたはＳＡＣエンコードおよびデコードスキームまたはＳＡＣコーデックスキームは、ＳＡＣエンコーダ１０３が入力されたマルチチャネルオーディオ信号に対する空間キュー情報の生成のために従わなければならない条件である。ＳＡＣスキームの代表的な例として、空間キュー生成のためのサブバンド個数である。

ＳＡＣエンコーダ１０３は、マルチチャネルオーディオ信号をモノチャネルまたはステレオチャネルでダウンミックスして、１つのオーディオオブジェクトを生成する。一方、ＳＯＣエンコーダ１０３は、入力されたマルチチャネルオーディオ信号に対する空間キュー情報および付加情報が含まれたＳＡＣビットストリームを出力する。

ＳＡＣエンコーダ１０３は、一実施形態としてＢＣＣ（ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ）エンコーダ、ＭＰＥＧＳｕｒｒｏｕｎｄ（ＭＰＳ）エンコーダであり得る。

ＳＡＣエンコーダ１０３から出力されるオーディオオブジェクト信号は、ＳＡＯＣエンコーダ１０１に入力される。ここで、ＳＡＯＣエンコーダ１０１に直接入力されるオーディオオブジェクトとは異なり、ＳＡＣエンコーダ１０３からＳＡＯＣエンコーダ１０１に入力されるオーディオオブジェクトはバックグランドシーンオブジェクト（ＢａｃｋｇｒｏｕｎｄＳｃｅｎｅＯｂｊｅｃｔ）でありうる。バックグランドシーンオブジェクト信号すなわちマルチチャネルで構成されたオーディオ信号であって、ＳＡＣエンコーダ１０３によって、１つのオーディオオブジェクトでダウンミックスされた信号はすでに所定のオーディオシーンあるいはコンテンツ製作意図に応じて多数のオーディオオブジェクトが反映されたＭＲ（ＭｕｓｉｃＲｅｃｏｒｄｅｄ）バージョンの信号であり得る。

プリセットＡＳＩ部１１３は、外部から入力される制御信号、すなわちオブジェクト制御情報をプリセットＡＳＩ情報で構成して、前記プリセットＡＳＩ情報を含むプリセットＡＳＩビットストリームを生成する。前記プリセットＡＳＩ情報に対しては図１０および図１１で詳細に説明される。

ビットストリームフォーマッタ１０５は、ＳＡＯＣエンコーダ１０１から出力されるＳＡＯＣビットストリームと、ＳＡＣエンコーダ１０３から出力されるＳＡＣビットストリームと、プリセットＡＳＩ部１１３から出力されるプリセットＡＳＩビットストリームを結合して、代表ビットストリームを生成する。

図２はビットストリームフォーマッタ１０５から生成される代表ビットストリームを示す一実施形態構造図である。

図２に図示したように、ビットストリームフォーマッタ１０５は、ＳＡＯＣエンコーダ１０１によって生成されたＳＡＯＣビットストリームおよびＳＡＣエンコーダ１０３によって生成されたＳＡＣビットストリームに基づいて、代表ビットストリームを生成する。

本発明によれば、代表ビットストリームの構造は例えば以下で説明される３つ形態であり得る。前記代表ビットストリームの１番目に最初可能な構造（２０１）は、ＳＡＯＣビットストリームとＳＡＣビットストリームが直列的に接続される構造である。前記代表ビットストリームの２番目に可能な構造（２０３）として、ＳＡＯＣビットストリームの補助データ（ａｎｃｉｌｌａｒｙｄａｔａ）領域にＳＡＣビットストリームが含まれる構造である。前記代表ビットストリームの３番目に可能な構造（２０５）として、ＳＡＯＣビットストリームおよびＳＡＣビットストリーム各々に含まれた類似データ領域がグループ化される構造である。例えば、前記３番目可能な構造の代表ビットストリームはヘッダ領域にＳＡＯＣビットストリームヘッダおよびＳＡＣビットストリームヘッダを含み、特定ＣＬＤと関連してグループ化されたＳＡＯＣビットストリームの情報とＳＡＣビットストリームの情報を含む。

一方、ＳＡＯＣビットストリームヘッダには次の表１で定義される制御可能なオーディオオブジェクト識別情報、サブバンド情報および追加空間キュー識別情報が含まれる。ここで、制御可能なオーディオオブジェクトは、ＳＡＣスキームに制限されないサブバンド情報または追加的な情報によって分析されたオーディオオブジェクトを意味する。

たとえ本明細書では、代表ビットストリームの可能な構造として３個の実施形態が開示されたが、本発明が前記３個の実施形態にのみに限定されるものではなく、多様な形態でＳＡＯＣビットストリームおよびＳＡＣビットストリームが結合され得るということは、本発明が属す技術分野で通常の知識を有する者に自明である。したがって本発明は、前記３個の実施形態に限定されないものと理解されなければならない。

一方、前記代表ビットストリームは、前記プリセットＡＳＩ部１１３によって生成されたプリセットＡＳＩビットストリームを備えることができる。

図１０はビットストリームフォーマッタ１０５から出力される代表ビットストリームを示すまた他の一実施形態構成図であって、前記代表ビットストリームがプリセットＡＳＩ情報を含む一実施形態構造図である。

図１０に示したように、代表ビットストリームはプリセットＡＳＩ領域を備える。前記プリセットＡＳＩ領域は、基本（ｄｅｆａｕｌｔ）プリセットＡＳＩ情報が含まれた複数のプリセットＡＳＩ情報を含み、前記プリセットＡＳＩ情報は各オーディオオブジェクトの位置およびレベル情報および出力レイアウト情報を含むオブジェクト制御情報を含む。すなわち、プリセットＡＳＩ情報は、出力スピーカのレイアウト情報およびスピーカのレイアウト情報に適合するオーディオシーンを構成するための各オーディオオブジェクトの位置およびレベル情報を示す。前記基本（ｄｅｆａｕｌｔ）プリセットＡＳＩ情報は、基本出力のためのシーン情報である。

トランスコーダ１０７は、前記オブジェクト制御情報を利用してオーディオオブジェクトをレンダリングする。一方、前記オブジェクト制御情報は、所定の基本値、例えば前記基本（ｄｅｆａｕｌｔ）プリセットＡＳＩ情報として設定され得る。

前記オブジェクト制御情報は、代表ビットストリームの付加情報またはヘッダ情報に含まれる。前記オブジェクト制御情報は２種の形態で表現可能である。最初に各オーディオオブジェクトの位置、レベル情報および出力レイアウト情報が直接的に表現されたり、二番目に、各オーディオオブジェクトの位置、レベル情報および出力レイアウト情報が後述される第１マトリックス（ＭａｔｒｉｘＩ）形態として表現され、後述される第１マトリックス部１１１３の第１マトリックスの代わりに利用され得る。

プリセットＡＳＩ情報に含まれたオブジェクト制御情報が直接的に表現される場合、プリセットＡＳＩ情報は、モノチャネルまたはステレオチャネルまたはマルチチャネルなど再生システムのレイアウト情報、オーディオオブジェクトＩＤ、オーディオオブジェクトレイアウト情報であって、モノチャネルまたはステレオチャネル情報、オーディオオブジェクト位置、例えば０ｄｅｇｒｅｅ〜３６０ｄｅｇｒｅｅと表現される方位（Ａｚｉｍｕｔｈ）、例えば−５０ｄｅｇｒｅｅ〜９０ｄｅｇｒｅｅと表現されるステレオ再生時高低（Ｅｌｅｖａｔｉｏｎ）、例えば−５０ｄＢ〜５０ｄＢと表現されるオーディオオブジェクトレベル情報を含むことができる。

プリセットＡＳＩ情報に含まれたオブジェクト制御情報が第１マトリックス（ＭａｔｒｉｘＩ）形態と表現される場合、前記プリセットＡＳＩ情報が反映された下記［数式６］のＰマトリックスがレンダリング部１１０３に伝送される。前記第１マトリックス（ＭａｔｒｉｘＩ）は各オーディオオブジェクトが出力されるチャネルにマッピングされるためのパワーゲイン情報または位相情報を要素ベクターに備える。

前記プリセットＡＳＩ情報は、オーディオオブジェクトに対して所望の再生シナリオに対応される多様なオーディオシーンを定義することができる。例えば、ステレオまたは５．１チャネルまたは７．１チャネルなどマルチチャネル再生システムが要求するプリセットＡＳＩ情報がコンテンツ製作者の意図および再生サービスの目的に合うように定義され得る。

改めて図１を参照すれば、ＳＡＣエンコーダ１０３から出力されるＳＡＣビットストリームは、マルチチャネルオーディオ信号に対する空間キュー情報を含んでおり、ＳＡＣエンコードおよびデコードスキームに従属的である。例えば、後述されるＳＡＣデコーダ１１１がＭＰＥＧＳｕｒｒｏｕｎｄ（ＭＰＳ）デコーダとして２８個のサブバンドを有するならば、ＳＡＣエンコーダ１０３も２８個のサブバンド単位で空間キューを生成しなければならない。例えばＳＡＣエンコーダ１０３は、入力オーディオ信号の第１チャネル信号（Ｃｈａｎｎｅｌ１）と第２チャネル信号（Ｃｈａｎｎｅｌ２）をフレーム単位で周波数領域に変換して前記変換された周波数領域信号を固定されたサブバンド単位で分析して空間キューを生成する。空間キューの一例であるＣＬＤは、次の［数式１］によって生成される。

ここで、Ｓは、サブバンド個数、ｂはサブバンドインデックス、ｋは周波数係数、Ａ（ｂ）はｂ番目サブバンドの周波数領域の境界である。前記［数式１］の分子項と分母項は相互変えて定義され得る。一般的にＭＰＥＧＳｕｒｒｏｕｎｄ（ＭＰＳ）スキームによれば、１つのオーディオ信号フレームは、固定された個数のサブバンドすなわち２０個または２８個のサブバンド単位で分析され、空間キューが生成される。

しかしＳＡＯＣエンコーダ１０１は、ＳＡＣスキームから自由でありえ、ＳＡＯＣエンコーダ１０１によってＳＡＣスキームに制限されず分析されたオーディオオブジェクトの空間キューは、ＳＡＣスキームに応じて分析されたオーディオオブジェクトの空間キューより多い情報、例えば、より多いサブバンド情報またはＳＡＣスキームに制約されない追加的な情報を含むことができる。

前記ＳＡＣスキームに制限されないサブバンド情報または追加的な情報は後述される信号処理部１０９において効果的に利用される。信号処理部１０９がＳＡＯＣエンコーダ１０１から出力される代表ダウンミックス信号において、ＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号のオブジェクトＮだけを除外してすべて除去したり、前記オブジェクトＮだけを除去する過程すなわち、信号処理部１０９が代表ダウンミックス信号から所定オーディオオブジェクト成分を除去する過程で前記ＳＡＣスキームに制限されないサブバンド情報または追加的な情報によって、オーディオオブジェクトの分解能力がＳＡＣスキームによる分解能力以上に向上する。

結局、前記ＳＡＣスキームに制限されないサブバンド情報または追加的な情報によって所定のオーディオオブジェクトの除去能力をより向上させることができる。

オーディオオブジェクトの除去能力が向上すればハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）すなわち代表ダウンミックス信号からのオーディオオブジェクトのより精巧で清潔な除去が可能である。

すなわち、ＳＡＯＣエンコーダ１０１は、オーディオオブジェクトの分解能力向上によるオーディオオブジェクトのより精巧で清潔な除去のためにＳＡＣエンコーダ１０３およびＳＡＣデコーダ１１１が制限を受けるＳＡＣスキームに制限を受けず、さらに多いサブバンドに対する空間キュー、すなわちさらに高い解像度のサブバンドに対する空間キュー、および追加空間キューを生成することができる。ＳＡＯＣエンコーダ１０１は、ＳＡＣエンコーダ１０３が制限を受ける固定されたサブバンド個数に制限を受ける必要がない。したがって、ＳＡＯＣエンコーダ１０１によってＳＡＣスキームに制限を受けず生成された空間キューに対するオーディオオブジェクトはより多い付加情報を含むため、ハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）が可能である。

後述されるように、信号処理部１０９は、次の［数式２］によって、ＳＡＯＣエンコーダ１０１から出力される代表ダウンミックス信号において、ＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号のオブジェクトＮだけを除外してすべて除去したり、次の［数式３］によって、ＳＡＯＣエンコーダ１０１から出力される代表ダウンミックス信号において、ＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号のオブジェクトＮだけを除去して、修正された代表ダウンミックス信号を出力する。

上述されたように、ＳＡＯＣエンコーダ１０１は、信号処理部１０９のハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）のために、ＳＡＣスキームに制限されないサブバンド情報または追加的な情報を生成する。例えばＳＡＯＣエンコーダ１０１は、ＳＡＣスキームが制限する２８個より多くの数のサブバンド単位でオーディオ信号を分析して空間キューを生成することができる。この場合、ＳＡＯＣエンコーダ１０１によって生成され前記代表ビットストリームに含まれる空間キューのサブバンドパラメータはＳＡＣスキームに応じて例えば２８個のサブバンドパラメータだけを有するＳＡＣデコーダ１１１によって処理されるように変換され、このような変換は後述されるトランスコーダ１０７によって行われる。

すなわち、本発明によればハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）のためＳＡＯＣエンコーダ１０１とチャネル信号復元のためＳＡＣエンコーダ１０３は、各自の目的のためにマルチチャネルで構成されたマルチオブジェクトオーディオ信号を分析して空間キュー情報を生成する。

一方、本発明の一実施形態によるオーディオデコード装置は、トランスコーダ１０７、信号処理部１０９およびＳＡＣデコーダ１１１を備える。本明細書全般にわたって、トランスコーダと信号処理部がデコーダとともにオーディオデコード装置を構成するものと記載されているが、トランスコーダと信号処理部が必ず物理的にデコーダとともに１つの装置で構成される必要はないという点は当業者に自明である。

ＳＡＣデコーダ１１１は、空間キュー基盤のマルチチャネルオーディオデコーダであって、トランスコーダ１０７から出力される修正された代表ビットストリームに基づいて、信号処理部１０９から出力される修正された代表ダウンミックス信号をオブジェクト別オーディオ信号に復元し、マルチチャネルで構成されたマルチオブジェクトオーディオ信号に復元する。

ＳＡＣデコーダ１１１は一例としてＭＰＥＧＳｕｒｒｏｕｎｄ（ＭＰＳ）デコーダ、ＢＣＣデコーダであり得る。

信号処理部１０９は、ＳＡＯＣエンコーダ１０１から出力される代表ダウンミックス信号および後述するパーシング部３０１、６０１、７０７、１１０１から出力されるＳＡＯＣビットストリーム情報に基づいて、代表ダウンミックス信号に含まれたオーディオオブジェクトのうち一部を除去し、修正された代表ダウンミックス信号を出力する。

例えば、信号処理部１０９は、次の[数２]にしたがって、ＳＡＯＣエンコーダ１０１から出力される代表ダウンミックス信号でＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号であるオブジェクトＮのみを除いてすべて除去し、修正された代表ダウンミックス信号を出力する。

ここで、Ｕ（Ｆ）は、ＳＡＯＣエンコーダ１０１から出力される代表ダウンミックス信号が周波数領域に変換された信号であって、モノチャネル信号、Ｕ^{ｍｏｄｉｆｉｅｄ（ｆ）}は、前記修正された代表ダウンミックス信号であって、前記周波数領域の代表ダウンミックス信号でＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号であるオブジェクトＮのみを除いた残りのオブジェクトが除去された信号、Ａ（ｂ）は、ｂ番目のサブバンドの周波数領域での境界、δは、レベル大きさを調整するための任意の定数値であって、信号処理部１０９の外部から入力される制御信号に含まれる値、Ｐ_ｂ ^{Ｏｂｊｅｃｔ＃ｉ}は、ＳＡＯＣエンコーダ１０１から出力される代表ダウンミックス信号に含まれたi番目のオブジェクトのｂ番目のサブバンドのパワーである。ＳＡＯＣエンコーダ１０１から出力される代表ダウンミックス信号に含まれたＮ番目のオブジェクトは、ＳＡＣエンコーダ１０３から出力されるオーディオオブジェクトに対応する。

Ｕ（Ｆ）がステレオチャネル信号である場合には、代表ダウンミックス信号が左右チャネルに分離されて処理される。

前記[数２]にしたがって、信号処理部１０９から出力される修正された代表ダウンミックス信号Ｕ^{ｍｏｄｉｆｉｅｄ（ｆ）}は、ＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号であるオブジェクトＮに対応する。すなわち、前記[数２]にしたがって、信号処理部１０９から出力される修正された代表ダウンミックス信号は、ＳＡＣエンコーダ１０５から出力されるダウンミックス信号として取り扱われ得る。したがって、ＳＡＣデコーダ１１１は、修正された代表ダウンミックス信号でＭ個のマルチチャネル信号を復元する。

この場合、後述するトランスコーダ１０７は、ビットストリームフォーマッタ１０５から出力される代表ビットストリームでＳＡＯＣエンコーダ１０１から出力されるＳＡＯＣビットストリームを除いた残りのオーディオオブジェクト情報、すなわち、ＳＡＣエンコーダ１０５から出力されるＳＡＣビットストリームのみを処理し、修正された代表ビットストリームを生成する。したがって、ＳＡＯＣエンコーダ１０１に直接入力されたオーディオオブジェクト信号に該当するパワーゲイン情報、相関性情報などは、修正された代表ビットストリームに含まれない。

ここで、全体信号のレベルは、後述するトランスコーダ１０７のレンダリング部３０３によって調整されるか、または前記[数２]の定数δによって調整される。

一方、信号処理部１０９は、次の[数３]にしたがって、ＳＡＯＣエンコーダ１０１から出力される代表ダウンミックス信号でＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号であるオブジェクトＮのみを除去し、修正された代表ダウンミックス信号を出力する。

前記[数３]にしたがって、信号処理部１０９から出力される修正された代表ダウンミックス信号Ｕ^{ｍｏｄｉｆｉｅｄ（ｆ）}は、ＳＡＯＣエンコーダ１０１から出力される代表ダウンミックス信号Ｕ（Ｆ）でＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号であるオブジェクトＮのみが除外された信号である。

この場合、後述するトランスコーダ１０７は、ビットストリームフォーマッタ１０５から出力される代表ビットストリームでＳＡＣエンコーダ１０５から出力されるＳＡＣビットストリームを除いた残りのオーディオオブジェクト情報のみを処理し、修正された代表ビットストリームを生成する。したがって、ＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号であるオブジェクトＮに該当するパワーゲイン情報、相関性情報などは、修正された代表ビットストリームに含まれない。

ここで、全体信号のレベルは、後述するトランスコーダ１０７のレンダリング部３０３によって調整されるか、または前記[数３]の定数δによって調整される。

信号処理部１０９は、前述した周波数領域信号のみならず、時間領域信号も処理することができることは自明である。信号処理部１０９は、前記代表ダウンミックス信号をサブバンドで分割するために、ＤＦＴ（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）またはＱＭＦ（ＱｕａｄｒａｔｕｒｅＭｉｒｒｏｒＦｉｌｔｅｒｂａｎｋ）を用いることができる。

トランスコーダ１０７は、ＳＡＯＣエンコーダ１０１からＳＡＣデコーダ１１１に伝達されるオーディオオブジェクトに対するレンダリングを行い、外部から入力される制御信号であるオブジェクト制御情報および再生システム情報に基づいて、ビットストリームフォーマッタ１０５から生成される代表ビットストリームを変換する。

トランスコーダ１０７は、ＳＡＣデコーダ１１１に伝達されるオーディオオブジェクトをマルチチャネルで構成されたマルチオブジェクトオーディオ信号に復元するために、ビットストリームフォーマッタ１０５から出力される代表ビットストリームに基づいて、レンダリング情報を生成する。トランスコーダ１０７は、代表ビットストリームに含まれたオーディオオブジェクト情報に基づいて、ＳＡＣデコーダ１１１に伝達されるオーディオオブジェクトが所望のオーディオシーンに対応するようにレンダリングする。前記レンダリングの過程において、トランスコーダ１０７は所望のオーディオシーンに対応する空間情報を予測し、前記予測された空間情報を変換して、修正された代表ビットストリームの付加情報として生成する。

また、トランスコーダ１０７は、ビットストリームフォーマッタ１０５から出力される代表ビットストリームをＳＡＣデコーダ１１１が取り扱えるビットストリームに変換する。

そして、トランスコーダ１０７は、信号処理部１０９によって除去されるオブジェクトに対応する情報をビットストリームフォーマッタ１０５から出力される代表ビットストリームから除外させる。

図３は、図２のトランスコーダ１０７を示した一実施形態の詳細構成図である。

同図に示すように、トランスコーダ１０７は、パーシング部３０１、レンダリング部３０３、サブバンド変換部３０５、第２マトリックス部３１１、および第１マトリックス部３１３を備える。

パーシング部３０１は、ビットストリームフォーマッタ１０５から出力される代表ビットストリームをパーシングし、前記代表ビットストリームから、ＳＡＯＣエンコーダ１０１によって生成されたＳＡＯＣビットストリームおよびＳＡＣエンコーダ１０３によって生成されたＳＡＣビットストリームを分離する。また、パーシング部３０１は、前記分離されたＳＡＯＣビットストリームからＳＡＯＣエンコーダ１０１に入力されたオーディオオブジェクトの個数に関する情報を抽出する。

第２マトリックス部３１１は、パーシング部３０１によって分離されたＳＡＣビットストリームに基づいて、第２マトリックス（Ｍａｔｒｉｘ II）を生成する。前記第２マトリックス（Ｍａｔｒｉｘ II）は、ＳＡＣエンコーダ１０３の入力信号、すなわち、マルチチャネルオーディオ信号に対するマトリックス式である。第２マトリックス（Ｍａｔｒｉｘ II）は、ＳＡＣエンコーダ１０３の入力信号であるマルチチャネルオーディオ信号のパワーゲイン値に関するものであって、下記の[数４]のとおりである。

ＳＡＣエンコーダ１０３から出力されるダウンミックス信号、すなわち、ＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号であるオブジェクトＮとのマトリックス演算を介してＳＡＣデコーダ１１１から出力されるマルチチャネルオーディオ信号

が生成され得るように、[数４]の第２マトリックス（Ｍａｔｒｉｘ II）は各チャネル別のパワーゲイン値を表現し、前記ダウンミックス信号、すなわち、ＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号であるオブジェクトＮの逆の次元を有しなければならない。

第２マトリックス部３１１によって生成された前記[数４]の第２マトリックス（Ｍａｔｒｉｘ II）は、レンダリング部３０３によって第１マトリックス部３１３の出力と結合される。

第１マトリックス部３１３は、外部から入力される制御信号（例えば、オブジェクト制御情報、再生システム情報）に基づいて、ＳＡＣデコーダ１１１に伝達されるオーディオオブジェクトを所望の出力、すなわち、マルチチャネルで構成されたマルチオブジェクトオーディオ信号にマッピングさせるための第１マトリックス（Ｍａｔｒｉｘ I）を生成する。下記の[数６]の第１マトリックス（Ｍａｔｒｉｘ I）を構成する要素ベクター

は、j番目のオーディオオブジェクト（１≦ｊ≦Ｎ−１）がＳＡＣデコーダ１１１のi番目の出力チャネル（１≦ｉ≦Ｍ）にマッピングされるためのパワーゲイン情報または位相情報を示し、外部から入力されたり初期値で設定された制御情報（例えば、オブジェクト制御情報、再生システム情報）から獲得可能である。

第１マトリックス部３１３によって生成された[数６]の第１マトリックス（Ｍａｔｒｉｘ I）は、レンダリング部３０３によって下記の[数６]にしたがって演算される。ＳＡＯＣエンコーダ１０１のＮ個の入力オーディオオブジェクトでＮ番目のオーディオオブジェクトは、ＳＡＣエンコーダ１０３から出力されるダウンミックス信号であり、残りは、ＳＡＯＣエンコーダ１０１に直接入力される。この場合、ＳＡＣエンコーダ１０３から出力されるダウンミックス信号、すなわち、ＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号であるオブジェクトＮを除いた各オーディオオブジェクトは、第１マトリックス（Ｍａｔｒｉｘ I）によってＳＡＣデコーダ１１１のＭ個の出力チャネルにマッピングされ得る。レンダリング部３０３は、下記の[数６]にしたがって、ＳＡＣデコーダ１１１の出力チャネルのパワーゲインベクター

で構成されたマトリックスを算出する。

ここで、Ｐ_Ｎは、ＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号であるオブジェクトＮのパワーとＳＡＯＣエンコーダ１０１に直接入力されるＮ−１個のオーディオオブジェクトのパワー合計の比であって、下記の[数１０]で定義される。

例えば、ＳＡＣデコーダ１１１に伝達されるオーディオ信号がステレオチャネル信号であれば、第１チャネル信号Ｃｈ１と第２チャネル信号Ｃｈ２との間のＣＬＤパラメータは、下記の[数１１]にしたがって生成される。

一方、ＳＡＣデコーダ１１１に伝達されるオーディオ信号がモノチャネル信号であれば、ＣＬＤパラメータは、下記の[数１２]にしたがって算出される。

レンダリング部３０３によって生成された、修正された代表ビットストリームに含まれる空間キューは、デコーダの特性に応じて分析および抽出される方法が変わる。例えば、ＢＣＣデコーダの場合、１つのチャネルを基準として、前記[数１１]を利用してＮ−１個のＣＬＤパラメータを抽出することができる。

また、ＭＰＥＧＳｕｒｒｏｕｎｄデコーダの場合、ＭＰＥＧＳｕｒｒｏｕｎｄのチャネル別の比較順序にしたがってＣＬＤパラメータを抽出することができる。

まとめると、パーシング部３０１は、ビットストリームフォーマッタ１０５から出力される代表ビットストリームから、ＳＡＯＣエンコーダ１０１によって生成されたＳＡＯＣビットストリームおよびＳＡＣエンコーダ１０３によって生成されたＳＡＣビットストリームを分離する。第２マトリックス部３１１は、前記分離されたＳＡＣビットストリームに基づいて、前記[数４]にしたがって第２マトリックス（Ｍａｔｒｉｘ II）を生成する。第１マトリックス部３１３は、制御信号に相応する第１マトリックス（Ｍａｔｒｉｘ I）を生成する。レンダリング部３０３は、前記分離されたＳＡＯＣビットストリームであって、後述するサブバンド変換部３０５によって変換されたＳＡＯＣビットストリーム、すなわち、ＳＡＣスキームによるＳＡＯＣビットストリームおよび第１マトリックス（Ｍａｔｒｉｘ I）に基づいて、前記[数６]にしたがってＳＡＣデコーダ１１１の出力チャネルのパワーゲインベクター

で構成されたマトリックスを算出する。また、レンダリング部３０３は、前記[数６]にしたがって算出したマトリックスと、前記[数４]にしたがって算出された第２マトリックス（Ｍａｔｒｉｘ II）とに基づいて、前記[数９]にしたがって所望の空間キュー情報

を算出する。そして、レンダリング部３０３は、

から抽出された空間キューパラメータ、例えば、前記[数１１]および[数１２]のＣＬＤパラメータに基づいて修正された代表ビットストリームを生成する。前記修正された代表ビットストリームは、デコーダの特性に応じて適切に変換されたビットストリームであって、マルチチャネルで構成されたマルチオブジェクト信号に復元されることができる。

前述したように、ＳＡＯＣエンコーダ１０１は、ＳＡＣエンコーダ１０３およびＳＡＣデコーダ１１１を制限するＳＡＣスキームの制限を受けずに、さらに多いサブバンドに対する空間キュー、すなわち、さらに高い解像度のサブバンドに対する空間キューおよび追加空間キューを生成することができる。例えば、ＳＡＯＣエンコーダ１０１は、ＭＰＥＧＳｕｒｒｏｕｎｄスキームによってＳＡＣエンコーダ１０３およびＳＡＣデコーダ１１１を制限するサブバンド個数である２８個より多い数のサブバンド単位に分析して空間キューを生成することができる。

ＳＡＯＣエンコーダ１０１が、ＳＡＣスキームが制限するサブバンド個数よりさらに多い数のサブバンド単位、すなわち、追加サブバンド単位で空間キューパラメータを生成した場合、ＳＡＣスキームによるＳＡＣデコーダ１１１のデコードのために、トランスコーダ１０７は、前記追加サブバンドに対応する空間キューパラメータをＳＡＣスキームが制限するサブバンドに対応するように変換させる。このような変換がサブバンド変換部３０５によって行われる。

図４は、サブバンド変換部３０５の前記追加サブバンドに対応する空間キューパラメータを、ＳＡＣスキームが制限するサブバンドに対応するように変換させる過程を説明する概念図である。

ＳＡＣスキームの制限によるサブバンドのうちｂ番目のサブバンドと、ＳＡＯＣエンコーダ１０１による前記追加サブバンドとしてＬ個の追加サブバンドとが互いに対応する関係である場合、サブバンド変換部３０５は、前記Ｌ個の追加サブバンドに対する空間キューパラメータを１個の空間キューパラメータに変換して、前記ｂ番目のサブバンドに対応させる。前記Ｌ個の追加サブバンドに対する空間キューパラメータを１個の空間キューパラメータに変換する一実施形態として、ＳＡＯＣエンコーダ１０１によるＳＡＯＣビットストリームから抽出された、前記Ｌ個の追加サブバンドに対するＣＬＤパラメータを１個のＣＬＤパラメータに変換する場合、前記Ｌ個の追加サブバンドのうち最も有力な（ｄｏｍｉｎａｎｔ）パワーを有するサブバンドに対するＣＬＤパラメータを選択し、前記選択されたＣＬＤパラメータをＳＡＣスキームの制限による前記ｂ番目のサブバンドに対応させる。ＳＡＯＣエンコーダ１０１は、下記の[数１３]にしたがって最も有力な（ｄｏｍｉｎａｎｔ）パワーを有するサブバンドのインデックスＰｗ＿ｉｎｄｘ（ｂ）を算出して、前記ＳＡＯＣビットストリームに含ませる。

以上で説明したように、サブバンド変換部３０５は、パーシング部３０１から出力されたＳＡＯＣビットストリーム、すなわち、ＳＡＯＣエンコーダ１０１によってＳＡＣスキームが制限するサブバンド個数よりさらに多い数のサブバンド単位、すなわち、追加サブバンド単位で生成された空間キューパラメータが含まれたＳＡＯＣビットストリームを、ＳＡＣスキームによるＳＡＯＣビットストリームに変換し、レンダリング部３０３は、サブバンド変換部３０５によって変換されたＳＡＯＣビットストリーム、すなわち、ＳＡＣスキームによるＳＡＯＣビットストリームおよび第１マトリックス（Ｍａｔｒｉｘ I）に基づいて、前記[数６]にしたがってＳＡＣデコーダ１１１の出力チャネルのパワーゲインベクター

で構成されたマトリックスを算出する。

以上では、ＳＡＯＣエンコーダ１０１によってＳＡＣスキームが制限するサブバンド個数よりさらに多い数のサブバンド単位、すなわち、追加サブバンド単位で生成された空間キューパラメータがＳＡＯＣビットストリームに含まれる実施形態が説明されたが、このような本発明の思想は、ＳＡＣスキームにすれば利用されない空間キュー情報が、追加的にＳＡＯＣビットストリームに含まれる場合にも適用され得る。

例えば、ＳＡＯＣエンコーダ１０１は、信号処理部１０９のハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）のために、ＩＰＤ（ＩｎｔｅｒｎａｕｒａｌＰｈａｓｅＤｉｆｆｅｒｅｎｃｅ）、ＯＰＤ（ＯｖｅｒａｌｌＰｈａｓｅＤｉｆｆｅｒｅｎｃｅ）を、空間キュー情報を位相情報として生成してＳＡＯＣビットストリームに含ませることができ、このような追加情報は、オーディオオブジェクトの分解能力を向上させる。したがって、信号処理部１０９は、代表ダウンミックス信号からのオーディオオブジェクトのより精巧かつきれいな除去が可能である。ここで、ＩＰＤは、２つの入力オーディオ信号間のサブバンドにおける位相差、ＯＰＤは、代表ダウンミックス信号と入力オーディオ信号との間のサブバンド位相差を示す。

一方、前記追加情報は、ＳＡＣスキームによるＳＡＯＣビットストリーム生成のために、サブバンド変換部３０５によって除去される。

図１２は、図３のトランスコーダを示す図であって、ＳＡＣスキームに制限されないサブバンド情報または追加的な情報が含まれた代表ビットストリームがトランスコーダ１０７で処理される過程を示す概念図である。説明の便宜のために、第１マトリックス部３１３および第２マトリックス部３１１は図示しなかった。

図１２に示すように、パーシング部３０１に入力される代表ビットストリームは、ＳＡＯＣエンコーダ１０１によって生成されたＳＡＯＣビットストリームを備え、ＳＡＯＣエンコーダ１０１によって生成されたＳＡＯＣビットストリームは、追加的な空間キュー情報であって、以上で説明されたサブバンドインデックスＰｗ＿ｉｎｄｘ（ｂ）、ＩＴＤなど、ＳＡＣスキームの制限を受けない空間キュー情報を含む。パーシング部３０１は、前記代表ビットストリームからＳＡＣエンコーダ１０３によって生成されたＳＡＣビットストリームを第２マトリックス部３１１に出力する一方、ＳＡＯＣエンコーダ１０１によって生成されたＳＡＯＣビットストリームをサブバンド変換部３０５に出力する。サブバンド変換部３０５は、ＳＡＯＣエンコーダ１０１によって生成されたＳＡＯＣビットストリーム、すなわち、追加的な空間キュー情報であって、前記サブバンドインデックスＰｗ＿ｉｎｄｘ（ｂ）、ＩＴＤなど、ＳＡＣスキームの制限を受けない空間キュー情報が含まれたＳＡＯＣビットストリームを、ＳＡＣスキームによるＳＡＯＣビットストリームに変換して、レンダリング部３０３に出力するようになる。したがって、レンダリング部３０３から出力される修正された代表ビットストリームは、ＳＡＣスキームによるビットストリームであるため、ＳＡＣデコーダ１１１で処理され得る。

図５は、本発明の他の一実施形態に係るＳＡＯＣエンコーダおよびビットストリームフォーマッタを示した構成図である。

図１のＳＡＯＣエンコーダ１０１およびビットストリームフォーマッタ１０５は、各々図５のＳＡＯＣエンコーダ５０１およびビットストリームフォーマッタ５０５に代替され得る。この場合、ＳＡＯＣエンコーダ５０１は、２個のＳＡＯＣビットストリームを生成する。１個は、ＳＡＣスキームに制限されないＳＡＯＣビットストリームであり、残りの１個は、ＳＡＣスキームによるＳＡＯＣビットストリームである。前記ＳＡＣスキームの制限を受けないＳＡＯＣビットストリームは、図１のＳＡＯＣエンコーダ１０１から出力されるＳＡＯＣビットストリームと同様に、追加的な空間キュー情報であって、以上で説明されたサブバンドインデックスＰｗ＿ｉｎｄｘ（ｂ）、ＩＴＤなど、ＳＡＣスキームの制限を受けない空間キュー情報を含む。

ＳＡＯＣエンコーダ５０１は、第１エンコード部５０７および第２エンコード部５０９を備える。第１エンコード部５０７は、ＳＡＯＣエンコーダ５０１に入力されるＮ個のオーディオオブジェクトのうち[Ｎ−Ｃ]個のオーディオオブジェクトをダウンミックスする一方、前記[Ｎ−Ｃ]個のオーディオオブジェクトに対する空間キュー情報および付加情報が含まれたＳＡＯＣビットストリーム情報であって、前記ＳＡＣスキームによるＳＡＯＣビットストリームを生成する。第２エンコード部は、ＳＡＯＣエンコーダ５０１に入力されるＮ個のオーディオオブジェクトのうち残りのＣ個のオーディオオブジェクトおよび第１エンコード部５０７から出力されるダウンミックス信号をダウンミックスして、前記代表ダウンミックス信号を出力する一方、前記残りのＣ個のオーディオオブジェクトおよび第１エンコード部５０７から出力されるダウンミックス信号に対する空間キュー情報および付加情報が含まれたＳＡＯＣビットストリームであって、前記ＳＡＣスキームの制限を受けないＳＡＯＣビットストリームを生成する。

ビットストリームフォーマッタ５０５は、ＳＡＯＣエンコーダ１０１から出力される２個のＳＡＯＣビットストリームと、ＳＡＣエンコーダ１０３から出力されるＳＡＣビットストリームと、プリセットＡＳＩ部１１３から出力されるプリセットＡＳＩビットストリームを結合して代表ビットストリームを生成する。ビットストリームフォーマッタ５０５から出力される代表ビットストリームは、例えば、図２および図１０に示された実施形態でありうる。

図６は、本発明の他の実施形態に係るトランスコーダを示した詳細構成図であって、図５のＳＡＯＣエンコーダ５０１およびビットストリームフォーマッタ５０５に適したトランスコーダを示す。

同図のトランスコーダは、基本的に図３のトランスコーダと同じ動作を行う。

ただし、パーシング部６０１がビットストリームフォーマッタ１０５から出力される代表ビットストリームでＳＡＯＣエンコーダ５０１によって生成された２個のＳＡＯＣビットストリームを分離する。１個は、ＳＡＣスキームに制限されないＳＡＯＣビットストリームであり、残りの１個は、ＳＡＣスキームによるＳＡＯＣビットストリームである。前記ＳＡＣスキームによるＳＡＯＣビットストリームは、レンダリング部６０３によって直接用いられる。一方、前記ＳＡＣスキームの制限を受けないＳＡＯＣビットストリームは、信号処理部１０９で用いられる一方、サブバンド変換部６０５によってＳＡＣスキームによるＳＡＯＣビットストリームに変換される。

前述したように、前記ＳＡＣスキームの制限を受けないＳＡＯＣビットストリームは、ＳＡＯＣエンコーダ５０１によって生成される情報であって、ＳＡＣスキームに制限されないサブバンド情報または追加的な情報を含む。このような追加情報は、オーディオオブジェクトの分解能力を向上させる。したがって、信号処理部１０９は、代表ダウンミックス信号からのオーディオオブジェクトのさらに精巧かつきれいな除去が可能である。すなわち、ＳＡＣスキームに制限されないサブバンド情報または追加的な情報に対するオーディオオブジェクトは、より多くの付加情報を含むため、信号処理部１０９によるハイサープレッションが可能である。

一方、前述したように、ＳＡＣスキームの制限を受けないＳＡＯＣビットストリームは、ＳＡＣスキームによって、例えば２８個のサブバンドパラメータのみを有するＳＡＣデコーダ１１１によって処理され得るように、サブバンド変換部６０５によって変換される。例えば、前記追加情報は、ＳＡＣスキームによるＳＡＯＣビットストリーム生成のために、サブバンド変換部６０５によって除去される。

図１１は、本発明の他の実施形態に係るトランスコーダを示した詳細構成図であって、第１マトリックス部に直接入力されるオブジェクト制御情報および再生システム情報の代わりに、プリセットＡＳＩ情報が活用される一実施形態の構成図である。

同図のトランスコーダに含まれたレンダリング部１１０３、サブバンド変換部１１０５、第２マトリックス部１１１１、および第１マトリックス部１１１３は、基本的に図３または図６のトランスコーダに含まれたレンダリング部３０３、６０３、サブバンド変換部３０５、６０５、第２マトリックス部３１１、６１１、および第１マトリックス部３１３、６１３と同じ動作を行う。

ただし、パーシング部１１０１に入力される代表ビットストリームは、図１０において説明されたプリセットＡＳＩビットストリームがさらに含まれる。パーシング部１１０１は、ビットストリームフォーマッタ１０５、５０５から出力される代表ビットストリームをパーシングして、前記代表ビットストリームから、ＳＡＯＣエンコーダ１０１、５０１によって生成されたＳＡＯＣビットストリームおよびＳＡＣエンコーダ１０３によって生成されたＳＡＣビットストリームを分離する。また、パーシング部１１０１は、前記代表ビットストリームからプリセットＡＳＩビットストリームをパーシングしてプリセットＡＳＩ抽出部１１１７に伝送する。

プリセットＡＳＩ抽出部１１１７は、パーシング部１１０１から抽出されたプリセットＡＳＩビットストリームから基本（ｄｅｆａｕｌｔ）プリセットＡＳＩ情報、すなわち、基本出力のためのシーン情報を抽出する。一方、プリセットＡＳＩ抽出部１１１７は、外部から入力されるプリセットＡＳＩ選択（ｓｅｌｅｃｔｉｏｎ）要求に応じて、パーシング部１１０１から抽出されたプリセットＡＳＩビットストリームから選択要求されたプリセットＡＳＩ情報を抽出することができる。

マトリックス判断部１１１９は、プリセットＡＳＩ抽出部１１１７によって抽出されたプリセットＡＳＩ情報がプリセットＡＳＩ選択（ｓｅｌｅｃｔｉｏｎ）要求に応じて選択されたプリセットＡＳＩ情報である場合、前記選択されたプリセットＡＳＩ情報が第１マトリックス（Ｍａｔｒｉｘ I）の形態であるかを判断する。前記選択されたプリセットＡＳＩ情報が第１マトリックス（Ｍａｔｒｉｘ I）の形態ではなく、各オーディオオブジェクトの位置およびレベル情報並びに出力レイアウト情報を直接的に表現する場合、マトリックス判断部１１１９は、前記選択されたプリセットＡＳＩ情報を第１マトリックス部１１１３に伝送し、第１マトリックス部１１１３は、マトリックス判断部１１１９から伝送されたプリセットＡＳＩ情報を利用して第１マトリックス（Ｍａｔｒｉｘ I）を生成する。前記選択されたプリセットＡＳＩ情報が第１マトリックス（Ｍａｔｒｉｘ I）の形態である場合、マトリックス判断部１１１９は、第１マトリックス部１１１３をバイパスして、前記選択されたプリセットＡＳＩ情報をレンダリング部１１０３に伝送し、レンダリング部１１０３は、マトリックス判断部１１１９から伝送されたプリセットＡＳＩ情報を利用する。前述したように、レンダリング部１１０３は、前記[数６]にしたがって算出したマトリックスと前記[数４]にしたがって算出された第２マトリックス（Ｍａｔｒｉｘ II）とに基づいて、前記[数９]にしたがって所望の空間キュー情報

を算出する。そして、レンダリング部３０３は、

から抽出された空間キューパラメータ、例えば、前記[数１１]および[数１２]のＣＬＤパラメータに基づいて、修正された代表ビットストリームを生成する。

図７は、本発明の他の実施形態に係るオーディオデコード装置の構成図である。

同図に示すように、本発明の他の実施形態に係るオーディオデコード装置は、パーシング部７０７、信号処理部７０９、ＳＡＣデコーダ７１１、およびミキサー７０１を備える。同図のオーディオデコード装置によれば、信号処理部１０９がＳＡＯＣエンコーダ１０１、５０１から出力される代表ダウンミックス信号からオーディオオブジェクトを除去する場合に、ミキサー７０１によってオーディオオブジェクトの音像定位が行われる。

同図のオーディオデコード装置は、図３のオーディオデコード装置とは異なり、トランスコーダ１０７がパーシング部７０７に代替され、ミキサー７０１がさらに備えられる。

パーシング部７０７は、ビットストリームフォーマッタ１０５、５０５から出力される代表ビットストリームをパーシングして、前記代表ビットストリームから、ＳＡＯＣエンコーダ１０１、５０１によって生成されたＳＡＯＣビットストリームおよびＳＡＣエンコーダ１０３によって生成されたＳＡＣビットストリームを分離する。ＳＡＣエンコーダ１０３がＭＰＳエンコーダである場合に、前記ＳＡＣビットストリームは、ＭＰＳビットストリームである。また、パーシング部７０７は、ＳＡＯＣエンコーダ１０１、５０１に入力されたオーディオオブジェクトであって、後述するように、信号処理部７０９からミキサー７０１に伝達される制御可能なオブジェクトの位置情報、すなわち、シーン情報を前記分離されたＳＡＯＣビットストリームから抽出してミキサー７０１に伝達する。

信号処理部７０９は、ＳＡＯＣエンコーダ１０１から出力される代表ダウンミックス信号およびパーシング部３０１から出力されるＳＡＯＣビットストリーム情報に基づいて、代表ダウンミックス信号に含まれたオーディオオブジェクトのうち一部を除去し、修正された代表ダウンミックス信号を出力する。例えば、信号処理部１０９は、前記[数２]にしたがって、ＳＡＯＣエンコーダ１０１、５０１から出力される代表ダウンミックス信号でＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号であるオブジェクトＮのみを除いてすべて除去し、修正された代表ダウンミックス信号を出力したり、前記[数３]にしたがって、ＳＡＯＣエンコーダ１０１、５０１から出力される代表ダウンミックス信号でＳＡＣエンコーダ１０５から出力されるオーディオオブジェクト信号であるオブジェクトＮのみを除去し、修正された代表ダウンミックス信号を出力するという点が先に説明された。図７では、オーディオ信号オブジェクトのうち制御可能なオブジェクト信号であるオブジェクト１のみを除いてすべて除去し、修正された代表ダウンミックス信号を出力したり、オブジェクト１のみを除去し、修正された代表ダウンミックス信号を出力する実施形態が示される。オブジェクト１のみを除いてすべて除去し、修正された代表ダウンミックス信号を出力する場合には、オブジェクト１の成分が別途に抽出される必要がない。オブジェクト１のみを除去し、修正された代表ダウンミックス信号を出力する場合、信号処理部７０９は、下記の[数２１]にしたがって代表ダウンミックス信号からオブジェクト１の成分を抽出する。

ここで、Ｏｂｊｅｃｔ＃１（ｎ）は、代表ダウンミックス信号に含まれたオブジェクト１の成分、Ｄｏｗｎｍｉｘｓｉｇｎａｌｓ（ｎ）は、代表ダウンミックス信号、ＭｏｄｉｆｉｅｄＤｏｗｎｍｉｘｓｉｇｎａｌｓ（ｎ）は、修正された代表ダウンミックス信号、ｎは、時間領域におけるサンプルインデックス（ｔｉｍｅ−ｄｏｍａｉｎｓａｍｐｌｅｉｎｄｅｘ）である。

また、信号処理部７０９は、パラメータを直接制御して、代表ダウンミックス信号からオブジェクト１の成分を抽出することができる。例えば、信号処理部７０９は、下記の[数２２]にしたがって算出されたゲイン（ｇａｉｎ）パラメータに基づいて、代表ダウンミックス信号からオブジェクト１の成分を抽出することができる。

ここで、Ｇ_{Ｏｂｊｅｃｔ＃１}は、代表ダウンミックス信号に含まれたオブジェクト１のゲイン（ｇａｉｎ）、Ｇ_{ＭｏｄｉｆｉｅｄＤｏｗｎｍｉｘｓｉｇｎａｌｓ}は、修正された代表ダウンミックス信号のゲイン（ｇａｉｎ）である。

ＳＡＣデコーダ７１１は、図１のＳＡＣデコーダ１１１と同じ機能を行う。ＳＡＣデコーダ７１１は、一実施形態であって、ＭＰＳデコーダである。ＳＡＣデコーダ７１１は、パーシング部３０１から出力されるＳＡＣビットストリームを用いて、信号処理部７０９から出力される修正された代表ダウンミックス信号をマルチチャネルの信号に復元する。

ミキサー７０１は、信号処理部１０９から出力される制御可能なオブジェクト信号、すなわち、図７の実施形態では、オブジェクト１およびＳＡＣデコーダ７１１から出力されるマルチチャネルの信号をミキシングして出力する。ここで、ミキサー７０１は、パーシング部７０７から出力される信号であって、前記制御可能なオブジェクト信号の位置情報、すなわち、シーン情報に基づいて、前記制御可能なオブジェクトの出力チャネルを決定する。

図８は、図７のミキサーを示す一実施形態の詳細構成図である。

同図に示すように、ミキサー７０１は、ＳＡＣデコーダ７１１から出力されるＭ個のチャネル信号に対応するゲイン（ｇａｉｎ）ｇ１ないしｇＭを制御可能なオブジェクト信号であるオブジェクト１に乗算した後、前記Ｍ個チャネル信号に合算することにより、制御可能なオブジェクト信号をマルチチャネル信号にミキシングする。例えば、前記オブジェクト１をチャネル１信号に位置させようとすれば、ｇ１＝１とし、残りの係数はすべて０とする。また、他の例として、前記オブジェクト１をチャネル１信号とチャネル２信号との間に位置させようとすれば、

とし、残りの係数はすべて０とする。制御可能なオブジェクト信号をチャネル信号のうち特定信号間に位置させようとすれば、一般的なパニング法（ｐａｎｎｉｎｇｌａｗ）にしたがって、各ゲイン値を調整する。

信号処理部７０９がオブジェクト１のみを除いてすべて除去し、修正された代表ダウンミックス信号を出力する場合には、ＳＡＣデコーダ７１１は、修正された代表ダウンミックスに対する処理を行わないこともある。その代わりに、ミキサー７０１は、信号処理部７０９から出力される制御可能なオブジェクト信号であるオブジェクト１に前記ｇ１ないしｇＭを乗算してミキシングする。例えば、前記オブジェクト１をチャネル１信号に位置させようとすれば、ｇ１＝１とし、残りの係数はすべて０とする。さらに他の例として、前記オブジェクト１をチャネル１信号とチャネル２信号との間に位置させようとすれば、

とし、残りの係数はすべて０とする。制御可能なオブジェクト信号をチャネル信号のうち特定信号間に位置させようとすれば、一般的なパニング法にしたがって、各ゲイン値を調整する。もし、前記オブジェクト１がステレオチャネルオブジェクト信号である場合には、ｇ１＝ｇ２＝１とし、残りの係数をすべて０とすることにより、前記オブジェクト１がステレオチャネル信号で出力され得る。

パニングは、出力チャネル信号間に、例えば、前記制御可能なオブジェクト信号を位置させる過程を意味する。

入力オーディオ信号を出力オーディオ信号の間にマッピングさせる方法の一般化された一実施形態は、パニング法が適用されたマッピング方法である。パニング法には、サインパニング法（ＳｉｎｅＰａｎｎｉｎｇｌａｗ）、タンジェントパニング法（ＴａｎｇｅｎｔＰａｎｎｉｎｇｌａｗ）、およびコンスタントパワーパニング法（ＣｏｎｓｔａｎｔＰｏｗｅｒＰａｎｎｉｎｇｌａｗ、ＣＰＰｌａｗ）があり、いずれの方法でもパニング法を介して達成する目的は同一である。

以下では、本発明の一実施形態としてＣＰＰを適用し、オーディオ信号を所望の位置にマッピングさせる方法について説明するが、本発明がＣＰＰに限定されるものではなく、様々なパニング法と関連した実施形態が存在し得ることは、本発明の属する技術分野における通常の知識を有した者にとって明白である。したがって、本発明は、ＣＰＰに限定されないものと理解されなければならない。

本発明の一実施形態によれば、すべてのマルチオブジェクトまたはマルチチャネルオーディオ信号は、与えられたパニング角度に対してＣＰＰによってパニングされる。

ここで、α＝ｃｏｓ（θ）、β＝ｓｉｎ（θ）である。

これをさらに具体的に表現すれば、次の[数２４]のとおりである。

α、β値は、適用するパニング法によって変わることができる。α、β値は、任意のアパーチャーに符合するように、入力オーディオ信号のパワーゲインを出力オーディオ信号の仮想位置にマッピングさせることにより算出される。

以上で説明された本発明に係るエンコード、トランスコーディング、およびデコード過程は、装置の観点で説明されたが、前記装置に含まれた各装置的構成要素は、プロセス的構成要素に代替され得るし、この場合、本発明に係るエンコード、トランスコーディング、およびデコード過程は、方法の観点で理解され得るということは自明である。

例えば、図１または図５のＳＡＯＣエンコーダ１０１、５０１、ＳＡＣエンコーダ１０３、ビットストリームフォーマッタ１０５、５０５、およびプリセットＡＳＩ部１１３で構成されたオーディオエンコード装置は、複数のチャネルで構成されたオーディオ信号をダウンミックスし、前記複数のチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第１レンダリング情報を生成するマルチチャネルエンコードステップと、複数のオブジェクトで構成されたオーディオ信号（前記複数のオブジェクトで構成されたオーディオ信号は、前記マルチチャネルエンコードステップによってダウンミックスされた信号を含む）をダウンミックスし、前記複数のオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、
前記生成された空間キューを備える第２レンダリング情報を生成するマルチオブジェクトエンコードステップとを含み、前記マルチオブジェクトエンコードステップは、前記マルチチャネルエンコードステップを制限するコーデックスキームの制限を受けずに、前記複数のオブジェクトで構成されたオーディオ信号に対する空間キューを生成するオーディオエンコード方法を行うことができる。

そして、前記オーディオエンコード装置は、複数のチャネルで構成されたオーディオ信号をダウンミックスし、前記複数のチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第１レンダリング情報を生成するマルチチャネルエンコードステップと、複数のオブジェクトで構成されたオーディオ信号（前記複数のオブジェクトで構成されたオーディオ信号は、前記マルチチャネルエンコードステップによってダウンミックスされた信号を含む）をダウンミックスし、前記複数のオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第２レンダリング情報を生成する第１マルチオブジェクトエンコードステップと、複数のオブジェクトで構成されたオーディオ信号（前記複数のオブジェクトで構成されたオーディオ信号は、前記第１マルチオブジェクトエンコードステップによってダウンミックスされた信号を含む）をダウンミックスし、前記複数のオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第３レンダリング情報を生成する第２マルチオブジェクトエンコードステップとを含み、前記第２マルチオブジェクトエンコードステップは、前記マルチチャネルエンコードステップおよび第１マルチオブジェクトエンコードステップを制限するコーデックスキームの制限を受けずに、前記複数のオブジェクトで構成されたオーディオ信号に対する空間キューを生成するオーディオエンコード方法を行うことができる。

また、図３、図６、および図１１のパーシング部３０１、６０１、１１０１、レンダリング部３０３、６０３、１１０３、サブバンド変換部３０５、６０５、１１０５、第２マトリックス部３１１、６１１、１１１１、および第１マトリックス部３１３、６１３、１１１３、プリセットＡＳＩ抽出部１１１７、およびマトリックス判断部１１１９で構成されたトランスコーダは、前記エンコードされたオーディオ信号の位置およびレベル情報並びに出力レイアウト情報を含むオブジェクト制御情報に基づいて、前記エンコードされたオーディオ信号がオーディオデコード方法の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックスステップと、前記第１レンダリング情報に基づいて、前記複数のチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックスステップと、前記第２レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記第１マトリックスステップによって生成されたレンダリング情報、前記第２マトリックスステップによって生成されたレンダリング情報、および前記サブバンド変換ステップによって変換されたレンダリング情報とに基づいて、前記エンコードされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップとを含むトランスコーディング方法を行うことができる。

また、前記トランスコーダは、前記第４レンダリング情報から所定のプリセットＡＳＩ情報を抽出するプリセットＡＳＩ抽出ステップと、前記プリセットＡＳＩ抽出ステップによって抽出された所定のプリセットＡＳＩ情報であって、前記エンコードされたオーディオ信号の位置およびレベル情報並びに出力レイアウト情報を直接的に表現するオブジェクト制御情報に基づいて、前記エンコードされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックスステップと、前記第１レンダリング情報に基づいて、前記複数のチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックスステップと、前記第２レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記プリセットＡＳＩ抽出ステップによって抽出された所定のプリセットＡＳＩ情報および前記第１マトリックスステップによって生成されたレンダリング情報のいずれか１つと、前記第２マトリックスステップによって生成されたレンダリング情報と、前記サブバンド変換ステップによって変換されたレンダリング情報に基づいて、前記エンコードされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップとを含むトランスコーディング方法を行うことができる。

また、前記トランスコーダは、前記エンコードされたオーディオ信号の位置およびレベル情報並びに出力レイアウト情報を含むオブジェクト制御情報に基づいて、前記エンコードされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックスステップと、前記第１レンダリング情報に基づいて、前記複数のチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックスステップと、前記第３レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記第１マトリックスステップによって生成されたレンダリング情報、前記第２マトリックスステップによって生成されたレンダリング情報、前記サブバンド変換ステップによって変換されたレンダリング情報、および前記第２レンダリング情報に基づいて、前記エンコードされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップとを含むトランスコーディング方法を行うことができる。

なお、前記トランスコーダは、前記第５レンダリング情報から所定のプリセットＡＳＩ情報を抽出するプリセットＡＳＩ抽出ステップと、前記プリセットＡＳＩ抽出ステップによって抽出された所定のプリセットＡＳＩ情報であって、前記エンコードされたオーディオ信号の位置およびレベル情報並びに出力レイアウト情報を直接的に表現するオブジェクト制御情報に基づいて、前記エンコードされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックスステップと、前記第１レンダリング情報に基づいて、前記複数のチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックスステップと、前記第３レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記プリセットＡＳＩ抽出ステップによって抽出された所定のプリセットＡＳＩ情報および前記第１マトリックスステップによって生成されたレンダリング情報のいずれか１つと、前記第２マトリックスステップによって生成されたレンダリング情報と、前記サブバンド変換ステップによって変換されたレンダリング情報と、前記第２レンダリング情報とに基づいて、前記エンコードされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップとを含むトランスコーディング方法を行うことができる。

また、図１または図７のパーシング部７０７、信号処理部７０９、ＳＡＣデコーダ７１１、およびミキサー７０１で構成されたデコード装置は、複数のチャネルで構成されたマルチオブジェクトオーディオ信号に対するレンダリング情報から、複数のオブジェクトで構成されたオーディオ信号に対する空間キューを備えるマルチオブジェクト信号のレンダリング情報と、前記複数のオブジェクトで構成されたオーディオ信号のシーン情報とを分離するパーシングステップと、前記マルチオブジェクト信号のレンダリング情報に基づいて、前記複数のチャネルで構成されたマルチオブジェクトオーディオ信号に対するダウンミックス信号のうち複数のチャネルで構成されたオーディオ信号に対するオーディオオブジェクト信号をハイサープレッションして、修正されたダウンミックス信号を出力する信号処理ステップと、前記シーン情報に基づいて、前記修正されたダウンミックス信号をミキシングしてオーディオ信号を復元するミキシングステップとを含むオーディオデコード方法を行うことができる。

さらに、前記デコード装置は、複数のチャネルで構成されたマルチオブジェクトオーディオ信号に対するレンダリング情報から複数のチャネルで構成されたオーディオ信号に対する空間キューを備えるマルチチャネル信号のレンダリング情報と、マルチオブジェクトで構成されたオーディオ信号に対する空間キューを備えるマルチオブジェクト信号のレンダリング情報と、前記マルチオブジェクトで構成されたオーディオ信号のシーン情報を分離するパーシングステップと、前記マルチオブジェクト信号のレンダリング情報に基づいて、前記マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するダウンミックス信号のうち少なくともいずれか１つのオーディオオブジェクト信号をハイサープレッションして修正されたダウンミックス信号および前記ハイサープレッションされたオーディオオブジェクト信号を生成する信号処理ステップと、前記修正されたダウンミックス信号をミキシングしてマルチチャネルオーディオ信号を復元するチャネルデコードステップと、前記シーン情報に基づいて、前記修正されたダウンミックス信号および信号処理ステップによって生成されたオーディオオブジェクト信号をミキシングするミキシングステップとを含むオーディオデコード方法を行うことができる。

さらに、前記デコード装置は、ダウンミックス信号および付加情報信号を含むオーディオ符号化信号を受信するステップと、前記付加情報信号からマルチオブジェクト付加情報およびマルチチャネル付加情報を抽出するステップと、前記マルチオブジェクト付加情報に基づいて、前記ダウンミックス信号をマルチチャネルダウンミックス信号に変換するステップと、前記マルチチャネルダウンミックス信号および前記マルチチャネル付加情報を利用してマルチチャネルオーディオ信号を復号化するステップと、前記復号化されたオーディオ信号を合成するステップとを含むオーディオ復号化方法を行うことができる。

上述したような本発明の方法は、プログラムで実現されてコンピュータ読み取り可能な記録媒体（ＣＤ−ＲＯＭ、ＲＡＭ、ＲＯＭ、フロッピーディスク、ハードディスク、光磁気ディスクなど）に格納されることができる。

以上で説明した本発明は、前述の実施形態及び添付された図面によって限定されるものではなく、本発明の技術的思想を逸脱しない範囲内で様々な置換、変形及び変更が可能であるということが、本発明の属する技術分野における通常の知識を有した者にとって明白であるだろう。

Claims

オーディオエンコード装置において、
マルチチャネルで構成されたオーディオ信号をダウンミックスし、前記マルチチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第１レンダリング情報を生成するマルチチャネルエンコード手段と、
マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記マルチチャネルエンコード手段によってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第２レンダリング情報を生成するマルチオブジェクトエンコード手段を備えるものの、
前記マルチオブジェクトエンコード手段は
前記マルチチャネルエンコード手段が制限を受けるコーデックスキームには制限を受けずに前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成する
オーディオエンコード装置。
前記マルチオブジェクトエンコード手段は、
前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューであって、前記マルチチャネルエンコード手段が、前記コーデックスキームによって制限を受けるサブバンド、および前記コーデックスキームによって制限を受けるサブバンドのうち、少なくとも何れか１つのサブバンドに対応する追加的な下位サブバンドに対する空間キューを生成することを特徴とする請求項１に記載のオーディオエンコード装置。
前記マルチオブジェクトエンコード手段は、
前記追加的な下位サブバンドのうちで前記コーデックスキームによって制限を受ける何れか１つのサブバンドに対する空間キューと最も類似した空間キューに対応する下位サブバンドのインデックス情報を前記第２レンダリング情報に含めることを特徴とする請求項２に記載のオーディオエンコード装置。
前記マルチオブジェクトエンコード手段は、
前記マルチチャネルエンコード手段が前記コーデックスキームによって制限を受ける空間キュー以外の空間キューであって、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成することを特徴とする請求項１に記載のオーディオエンコード装置。
オーディオエンコード装置において、
マルチチャネルで構成されたオーディオ信号をダウンミックスし、前記マルチチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第１レンダリング情報を生成するマルチチャネルエンコード手段と、
マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記マルチチャネルエンコード手段によってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第２レンダリング情報を生成する第１マルチオブジェクトエンコード手段と、
マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記第１マルチオブジェクトエンコード手段によって、ダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第３レンダリング情報を生成する第２マルチオブジェクトエンコード手段を備えるものの、
前記第２マルチオブジェクトエンコード手段は、
前記マルチチャネルエンコード手段および第１マルチオブジェクトエンコード手段が制限を受けるコーデックスキームには制限を受けずに前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成することを特徴とするオーディオエンコード装置。
前記第２マルチオブジェクトエンコード手段は、
前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューであって、前記マルチチャネルエンコード手段および第１マルチオブジェクトエンコード手段が、前記コーデックスキームによって制限を受けるサブバンドおよび前記コーデックスキームによって制限を受けるサブバンドのうちで少なくとも何れか１つのサブバンドに対応する追加的な下位サブバンドに対する空間キューを生成することを特徴とする請求項５に記載のオーディオエンコード装置。
前記第２マルチオブジェクトエンコード手段は、
前記追加的な下位サブバンドのうちで前記コーデックスキームによって制限を受ける何れか１つのサブバンドに対する空間キューと最も類似の空間キューに対応する下位サブバンドのインデックス情報を前記第３レンダリング情報に含めることを特徴とする請求項６に記載のオーディオエンコード装置。
前記第２マルチオブジェクトエンコード手段は、
前記マルチチャネルエンコード手段および第１マルチオブジェクトエンコード手段が、前記コーデックスキームによって制限を受ける空間キュー以外の空間キューであって、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成することを特徴とする請求項５に記載のオーディオエンコード装置。
エンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング装置において、
前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を含むオブジェクト制御情報に基づいて、前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックス手段と、
前記エンコーディングされたオーディオ信号に含まれたマルチチャネルで構成されたオーディオ信号に対する空間キューが含まれた第１レンダリング情報に基づいて、前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックス手段と、
前記エンコーディングされたオーディオ信号に含まれたマルチオブジェクトで構成されたオーディオ信号に対する空間キューが含まれた第２レンダリング情報−前記第２レンダリング情報は前記第１レンダリング情報が制限を受けるコーデックスキームに制限を受けずに生成された空間キューを備える−を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換手段と、
前記第１マトリックス手段によって生成されたレンダリング情報、前記第２マトリックス手段によって生成されたレンダリング情報、および前記サブバンド変換手段によって変換されたレンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリング手段を備えることを特徴とするトランスコーディング装置。
前記第２レンダリング情報は、
オーディオオブジェクト信号に対する空間キューであって、前記コーデックスキームによって制限を受けるサブバンド、および前記コーデックスキームによって制限を受けるサブバンドのうちで少なくとも何れか１つのサブバンドに対応する追加的な下位サブバンドに対する空間キューを備えることを特徴とする請求項９に記載のトランスコーディング装置。
前記第２レンダリング情報は、
前記追加的な下位サブバンドのうちで前記コーデックスキームによって制限を受ける何れか１つのサブバンドに対する空間キューと最も類似の空間キューに対応する下位サブバンドのインデックス情報をさらに含み、
前記サブバンド変換手段は
前記インデックス情報に基づいて、前記コーデックスキームによって制限を受ける何れか１つのサブバンドに対する空間キューをインデックスに対応する下位サブバンドに対する空間キューに変えることを特徴とする請求項１０に記載のトランスコーディング装置。
前記サブバンド変換手段は、
前記コーデックスキームによって制限を受ける何れか１つのサブバンドに対する空間キューを前記追加的な下位サブバンドのうちで一番小さい絶対値の空間キューに変えることを特徴とする請求項１０に記載のトランスコーディング装置。
前記第２レンダリング情報は、
前記コーデックスキームによって制限を受ける空間キュー以外の空間キューであって、前記オーディオオブジェクト信号に対する空間キューを備えることを特徴とする請求項９に記載のトランスコーディング装置。
前記サブバンド変換手段は
前記コーデックスキームによって制限を受ける空間キュー以外の空間キューを除去することを特徴とする請求項１３に記載のトランスコーディング装置。
前記トランスコーディング装置は、
前記第２レンダリング情報に基づいて、前記エンコーディングされたオーディオ信号に含まれたマルチオーディオオブジェクト信号のうち少なくとも何れかの１つをハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）し、修正されたダウンミックス信号を出力する信号処理手段をさらに備えることを特徴とする請求項９に記載のトランスコーディング装置。
エンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング装置において、
前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を含むオブジェクト制御情報に基づいて、前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第１マトリックス手段と、
第１レンダリング情報に基づいて、マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第２マトリックス手段と、
第３レンダリング情報をコーデックスキームによるレンダリング情報に変換するサブバンド変換手段と、
前記第１マトリックス手段によって生成されたレンダリング情報、前記第２マトリックス手段によって生成されたレンダリング情報、前記サブバンド変換手段によって変換されたレンダリング情報および第２レンダリング情報に基づいて、前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリング手段を備えるものの、
前記第１レンダリング情報は、前記エンコーディングされたオーディオ信号に含まれたマルチチャネルで構成されたオーディオ信号に対する空間キューを含み、
前記第２レンダリング情報は、前記第１レンダリング情報に対応するオーディオ信号を備えるマルチオブジェクトで構成されたオーディオ信号に対する空間キューを含み、
前記第３レンダリング情報は、前記第２レンダリング情報に対応するオーディオ信号を備えるマルチオブジェクトで構成されたオーディオ信号に対する空間キューであって、前記第１レンダリング情報および前記第２レンダリング情報が制限を受けるコーデックスキームには制限を受けずに生成された空間キューを備えることを特徴とするトランスコーディング装置。
前記第３レンダリング情報は、
オーディオオブジェクト信号に対する空間キューであって、前記コーデックスキームによって制限を受けるサブバンド、および前記コーデックスキームによって制限を受けるサブバンド中で少なくとも何れか１つのサブバンドに対応する追加的な下位サブバンドに対する空間キューを備えることを特徴とする請求項１６に記載のトランスコーディング装置。
前記第３レンダリング情報は、
前記追加的な下位サブバンドのうちで前記コーデックスキームによって制限を受ける何れか１つのサブバンドに対する空間キューと最も類似の空間キューに対応する下位サブバンドのインデックス情報をさらに含み、
前記サブバンド変換手段は
前記インデックス情報に基づいて、前記コーデックスキームによって制限を受ける何れか１つのサブバンドに対する空間キューをインデックスに対応する下位サブバンドに対する空間キューに変えることを特徴とする請求項１７に記載のトランスコーディング装置。
前記サブバンド変換手段は、
前記コーデックスキームによって制限を受ける何れか１つのサブバンドに対する空間キューを前記追加的な下位サブバンドのうちで一番小さい絶対値の空間キューに変えることを特徴とする請求項１７に記載のトランスコーディング装置。
前記第３レンダリング情報は、
前記コーデックスキームによって制限を受ける空間キュー以外の空間キューであって、オーディオオブジェクト信号に対する空間キューを備えることを特徴とする請求項１６に記載のトランスコーディング装置。
前記サブバンド変換手段は、
前記コーデックスキームによって制限を受ける空間キュー以外の空間キューを除去することを特徴とする請求項２０に記載のトランスコーディング装置。
前記トランスコーディング装置は、
前記第３レンダリング情報に基づいて、第２マルチオブジェクトエンコード手段から出力されるダウンミックス信号に含まれたマルチオーディオオブジェクト信号のうち少なくとも何れかの１つをハイサープレッション（ｈｉｇｈｓｕｐｐｒｅｓｓｉｏｎ）し、修正されたダウンミックス信号を出力する信号処理手段をさらに備えることを特徴とする請求項１６に記載のトランスコーディング装置。