JP5243556B2

JP5243556B2 - オーディオ信号の処理方法及び装置

Info

Publication number: JP5243556B2
Application number: JP2010541398A
Authority: JP
Inventors: オー，ヒェン−オ; ウォンジュン，ヤン
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2008-01-01
Filing date: 2008-12-31
Publication date: 2013-07-24
Anticipated expiration: 2028-12-31
Also published as: CA2710560C; JP2011509591A; US9514758B2; EP2232487B1; US20140161261A1; JP2011509590A; US8670576B2; CA2710560A1; EP2232487A4; KR20100086003A; CN101911182A; EP2232486B1; US20100296656A1; KR101221916B1; CN101911181A; US8654994B2; US20100284551A1; WO2009084917A1; AU2008344073B2; KR101221917B1

Description

本発明は、オーディオ信号の処理方法及び装置に関するものである。本発明は、広範囲のアプリケーションに適するが、特に、デジタル媒体及び放送信号などを介して受信されたオーディオ信号を処理することに適する。

一般に、複数のオブジェクトをモノ又はステレオ信号にダウンミックスする過程において、それぞれのオブジェクト信号から各パラメータが抽出される。これらの各パラメータはデコーダで使用されるが、それぞれのオブジェクトのパニング（ｐａｎｎｉｎｇ）とゲインはユーザの選択により制御可能である。

しかしながら、それぞれのオブジェクト信号を制御するためには、ダウンミックスに含まれているそれぞれのソースが適切にポジショニング又はパニングされなければならない。

また、チャネル向け（oriented）デコーディング方式に従い下位互換性を提供するためには、オブジェクトパラメータはアップミキシングのためのマルチチャネルパラメータに変換されなければならない。

従って、本発明は、オーディオ信号処理装置及びその方法に向けられ、関連技術の制限や不利点による１つ以上の問題を実質的に取り除く。

本発明は、前記のような問題を解決するためになされたもので、その目的は、オブジェクトのゲインとパニングをコントロールし、モノ信号、ステレオ信号及びマルチチャネル信号を出力することができるオーディオ信号処理方法及び装置を提供することにある。

本発明の更に他の目的は、マルチチャネルデコーダの複雑な方法を実行することなく、ダウンミックス信号からモノ信号及びステレオ信号を出力することができるオーディオ信号処理方法及び装置を提供することにある。

本発明の更に他の目的は、ボーカルや背景音楽のゲインを大幅に調節する場合も、音質のひずみを発生させないオーディオ信号処理方法及び装置を提供することにある。

本発明の更なる特性と利点は、以下の記載で説明され、当該記載から一部が明らかとなり、又は本発明の実施により知ることができる。本発明の目的とその他の利点は、明細書、特許請求の範囲、図面で特に示される構成により、実現され、及び達成される。

前記のような目的を達成するために、本発明に係るオーディオ信号処理方法は、一つ以上のオブジェクト信号を含むダウンミックス信号と前記ダウンミックス信号を生成する過程で抽出されたオブジェクト情報を受信し、前記オブジェクト信号をコントロールするためのミックス情報を受信し、出力モードに応じて、前記オブジェクト情報及び前記ミックス情報を用いてダウンミックス処理情報（processing information）及びマルチチャネル情報のうち一つを生成し、前記ダウンミックス処理情報が生成された場合、前記ダウンミックス処理情報を前記ダウンミックス信号に適用して出力信号を生成することを含み、前記ダウンミックス信号及び前記出力信号はモノ信号に該当し、前記マルチチャネル情報は、前記ダウンミックス信号を複数のチャネル信号にアップミキシングするための情報に該当する。

本発明によれば、前記ダウンミックス信号及び前記出力信号は、時間ドメインの信号に該当する。

本発明によれば、前記出力信号を生成することは、前記ダウンミックス信号を分解（ｄｅｃｏｍｐｏｓｉｎｇ）することによりサブバンド信号を生成し、前記ダウンミックス処理情報を用いて前記サブバンド信号を処理し、前記サブバンド信号を合成することによって前記出力信号を生成することを有する。

本発明によれば、前記出力信号は、前記ダウンミックス信号がデコリレート（decorrelating）された信号を含むことができる。

本発明によれば、前記マルチチャネル情報が生成された場合、前記マルチチャネル情報を用いて前記ダウンミックス信号をアップミキシングし、複数のチャネル信号を生成することをさらに含むことができる。

本発明によれば、前記出力モードは、スピーカーチャネルの数によって決定されたもので、前記スピーカーチャネルの数は、装置情報及び前記ミックス情報のうち一つに基づいている。

本発明によれば、前記ミックス情報は、オブジェクト位置情報、オブジェクトゲイン情報及び再生環境（playback configuration）情報のうち一つ以上に基づいて生成されたものである。

本発明の更に他の側面によれば、一つ以上のオブジェクト信号を含む時間ドメインのダウンミックス信号及び前記ダウンミックス信号を生成する過程で抽出されたオブジェクト情報を受信するデマルチプレクサ（demultiplexer）と、出力モードに応じて、前記オブジェクト信号をコントロールするためのミックス情報及び前記オブジェクト情報を用いてダウンミックス処理情報及びマルチチャネル情報のうち一つを生成する情報生成ユニットと、前記ダウンミックス処理情報が生成された場合、前記ダウンミックス処理情報を前記ダウンミックス信号に適用して出力信号を生成するダウンミックス処理ユニットと、を含み、前記ダウンミックス信号及び前記出力信号はモノ信号に該当し、前記マルチチャネル情報は、前記ダウンミックス信号を複数のチャネル信号にアップミキシングするための情報に該当するオーディオ信号処理装置が提供される。

本発明によれば、前記ダウンミックス処理ユニットは、前記ダウンミックス信号を分解してサブバンド信号を生成するサブバンド分解ユニットと、前記ダウンミックス処理情報を用いて前記サブバンド信号を処理するＭ２Ｍ処理ユニットと、前記サブバンド信号を合成することによって前記出力信号を生成するサブバンド合成ユニットと、を含むことができる。

本発明の更に他の側面によれば、一つ以上のオブジェクト信号を含むダウンミックス信号と前記ダウンミックス信号を生成する過程で抽出されたオブジェクト情報を受信し、前記オブジェクト信号をコントロールするためのミックス情報を受信し、出力モードに応じて、前記オブジェクト情報及び前記ミックス情報を用いてダウンミックス処理情報及びマルチチャネル情報のうち一つを生成し、前記ダウンミックス処理情報が生成された場合、前記ダウンミックス処理情報を前記ダウンミックス信号に適用して出力信号を生成することを含み、前記ダウンミックス信号はモノ信号に該当し、前記出力信号は、前記ダウンミックス信号にデコリレータを適用して生成されたステレオ信号に該当し、前記マルチチャネル情報は、前記ダウンミックス信号をマルチチャネル信号にアップミキシングするための情報に該当するオーディオ信号処理方法が提供される。

本発明によれば、前記出力信号を生成するのは、前記ダウンミックス信号を分解してサブバンド信号を生成し、前記ダウンミックス処理情報を用いて前記サブバンド信号を処理することによって二つのサブバンド信号を生成し、前記二つのサブバンド信号をそれぞれ合成することによって前記出力信号を生成することを含むことができる。

本発明によれば、前記二つのサブバンド信号を生成することは、前記サブバンド信号をデコリレートすることによって、デコリレートされた信号を生成し、前記ダウンミックス処理情報を用いて前記デコリレートされた信号及び前記サブバンド信号を処理することによって、前記二つのサブバンド信号を生成することを有する。

本発明によれば、前記ダウンミックス処理情報は、バイノーラル（binaural）パラメータを含み、前記出力信号は、バイノーラル信号に該当する。

本発明の更に他の側面によれば、一つ以上のオブジェクト信号を含むダウンミックス信号及び前記ダウンミックス信号を生成する過程で抽出されたオブジェクト情報を受信するデマルチプレクサと、出力モードに応じて、前記オブジェクト信号をコントロールするためのミックス情報及び前記オブジェクト情報を用いて、ダウンミックス処理情報及びマルチチャネル情報のうち一つを生成する情報生成ユニットと、前記ダウンミックス処理情報が生成された場合、前記ダウンミックス処理情報を前記ダウンミックス信号に適用して出力信号を生成するダウンミックス処理ユニットと、を含み、前記ダウンミックス信号はモノ信号に該当し、前記出力信号は、前記ダウンミックス信号にデコリレータを適用して生成されたステレオ信号に該当し、前記マルチチャネル情報は、前記ダウンミックス信号をマルチチャネル信号にアップミキシングするための情報に該当するオーディオ信号処理装置が提供される。

本発明の更に他の側面によれば、一つ以上のオブジェクト信号を含むダウンミックス信号と前記ダウンミックス信号を生成する過程で抽出されたオブジェクト情報を受信し、モード選択情報を含み、前記オブジェクト信号をコントロールするためのミックス情報を受信し、前記モード選択情報に基づいて、前記ダウンミックス信号をバイパスしたり、前記ダウンミックス信号からバックグラウンドオブジェクト及び一つ以上の独立オブジェクトを抽出し、前記ダウンミックス信号がバイパスされた場合、前記オブジェクト情報及び前記ミックス情報を用いてマルチチャネル情報を生成することを含み、前記ダウンミックス信号はモノ信号に該当し、前記モード選択情報は、一般モード、前記バックグラウンドオブジェクトを制御するためのモード及び前記一つ以上の独立オブジェクトを制御するためのモードを含む各モードのうちいずれのモードに該当するかに関する情報を含むオーディオ信号処理方法が提供される。

本発明によれば、改良（enhanced）オブジェクト情報を受信することをさらに含み、前記一つ以上の独立オブジェクトは、前記改良オブジェクト情報を用いて前記ダウンミックス信号から抽出されるものである。

本発明によれば、前記改良オブジェクト情報は残余信号に該当する。

本発明によれば、前記一つ以上の独立オブジェクトはオブジェクトベースの信号に該当し、前記バックグラウンドオブジェクトはモノ信号に該当する。

本発明によれば、前記ステレオ出力信号は、前記モード選択モードが前記一般モードに該当する場合に生成され、前記バックグラウンドオブジェクト及び前記一つ以上の独立オブジェクトは、前記モード選択モードが前記バックグラウンドオブジェクトを制御するためのモード又は前記一つ以上の独立オブジェクトを制御するためのモードである場合に抽出される。

本発明によれば、前記バックグラウンドオブジェクト及び前記一つ以上の独立オブジェクトが前記ダウンミックス信号から抽出される場合、前記バックグラウンドオブジェクトをコントロールするための第１のマルチチャネル情報及び前記一つ以上の独立オブジェクトをコントロールするための第２のマルチチャネル情報のうち一つ以上を生成することをさらに含むことができる。

本発明の更に他の側面によれば、一つ以上のオブジェクト信号を含むダウンミックス信号及び前記ダウンミックス信号を生成する過程で抽出されたオブジェクト情報を受信するデマルチプレクサと、前記オブジェクト信号をコントロールするためのミックス情報に含まれるモード選択情報に基づいて、前記ダウンミックス信号をバイパスしたり、前記ダウンミックス信号からバックグラウンドオブジェクト及び一つ以上の独立オブジェクトを抽出するオブジェクトトランスコーダ（transcoder）と、前記ダウンミックス信号がバイパスされた場合、前記オブジェクト情報及び前記ミックス情報を用いてマルチチャネル情報を生成するマルチチャネルデコーダと、を含み、前記ダウンミックス信号はモノ信号に該当し、前記出力信号は、前記ダウンミックス信号にデコリレータを適用して生成されたステレオ信号に該当し、前記モード選択情報は、一般モード、前記バックグラウンドオブジェクトを制御するためのモード及び前記一つ以上の独立オブジェクトを制御するためのモードを含む各モードのうちいずれのモードに該当するかに関する情報を含むことができる。

本発明の更に他の側面によれば、一つ以上のオブジェクト信号を含むダウンミックス信号と前記ダウンミックス信号を生成する過程で抽出されたオブジェクト情報を受信し、モード選択情報を含み、前記オブジェクト信号をコントロールするためのミックス情報を受信し、前記モード選択情報に基づいて、前記ダウンミックス信号を用いてステレオ出力信号を生成したり、前記ダウンミックス信号からバックグラウンドオブジェクト及び一つ以上の独立オブジェクトを抽出することを含み、前記ダウンミックス信号はモノ信号に該当し、前記ステレオ出力信号は、前記ダウンミックス信号がデコリレートされた信号を含む時間ドメインの信号に該当し、前記モード選択情報は、一般モード、前記バックグラウンドオブジェクトを制御するためのモード及び前記一つ以上の独立オブジェクトを制御するためのモードを含む各モードのうちいずれのモードに該当するかに関する情報を含むオーディオ信号処理方法が提供される。

本発明によれば、改良オブジェクト情報を受信することをさらに含み、前記一つ以上の独立オブジェクトは、前記改良オブジェクト情報を用いて前記ダウンミックス信号から抽出されるものである。

本発明の更に他の側面によれば、一つ以上のオブジェクト信号を含むダウンミックス信号及び前記ダウンミックス信号を生成する過程で抽出されたオブジェクト情報を受信するデマルチプレクサと、前記オブジェクト信号をコントロールするためのミックス情報に含まれたモード選択情報に基づいて、前記ダウンミックス信号を用いてステレオ出力信号を生成したり、前記ダウンミックス信号からバックグラウンドオブジェクト及び一つ以上の独立オブジェクトを抽出するオブジェクトトランスコーダと、を含み、前記ダウンミックス信号はモノ信号に該当し、前記ステレオ出力信号は、前記ダウンミックス信号がデコリレートされた信号を含む時間ドメインの信号に該当し、前記モード選択情報は、一般モード、前記バックグラウンドオブジェクトを制御するためのモード及び前記一つ以上の独立オブジェクトを制御するためのモードを含む各モードのうちいずれのモードに該当するかに関する情報を含むオーディオ信号処理装置が提供される。

当然のことであるが、前記の一般的な記載、及び以下の詳細な記載の両方は、典型的なもの、説明的なものであり、請求項に記載される本発明の更なる説明を提供することを目的とする。

本発明は、次のような効果と利点を提供する。

まず、オブジェクトのゲインとパニングを制限なしにコントロールすることができる。

第二に、ユーザの選択に基づいてオブジェクトのゲインとパニングをコントロールすることができる。

第三に、出力モードがモノ又はステレオである場合、マルチチャネルデコーダの複雑な方法を実行せずに出力信号を生成できるので、具現が容易であり、複雑度を低下させることができる。

第四に、モバイルデバイスのように１〜２個のスピーカのみが備えられた場合、マルチチャネルデコーダに対応するコーデックなしで、ダウンミックス信号のオブジェクトのゲインとパニングをコントロールすることができる。

第五に、ボーカルや背景音楽のうち一つを完全に抑圧する場合も、ゲイン調整による音質のひずみを防止することができる。

第六に、ボーカルなどのような独立オブジェクトが二つ以上である場合（ステレオチャネル又は幾つかのボーカル信号）、ゲイン調整による音質のひずみを防止することができる。

本発明の更なる理解を提供するために添付され、組み込まれ、及び本明細書の一部を構成する図面は、本発明の実施例を説明し、明細書と共に、本発明の原理を説明する。

モノ信号／ステレオ信号を生成するための本発明の実施例に係るオーディオ信号処理装置の構成図である。図１に示したダウンミックス処理ユニットの細部構成図の第１の例である。図１に示したダウンミックス処理ユニットの細部構成図の第２の例である。バイノーラル信号を生成するための本発明の一実施例に係るオーディオ信号処理装置の構成図である。図４のダウンミックス処理ユニットの細部構成図である。バイノーラル信号を生成するための本発明の他の実施例に係るオーディオ信号処理装置の構成図である。独立オブジェクトを制御するための本発明の一実施例に係るオーディオ信号処理装置の構成図である。独立オブジェクトを制御するための本発明の他の実施例に係るオーディオ信号処理装置の構成図である。改良オブジェクト処理のための本発明の第１の実施例に係るオーディオ信号処理装置の構成図である。改良オブジェクト処理のための本発明の第２の実施例に係るオーディオ信号処理装置の構成図である。改良オブジェクト処理のための本発明の第３の実施例に係るオーディオ信号処理装置の構成図である。改良オブジェクト処理のための本発明の第３の実施例に係るオーディオ信号処理装置の構成図である。

以下、添付の図面を参照して本発明の好適な実施例を詳細に説明する。本明細書及び特許請求の範囲に使用された用語や単語は、通常的又は辞典的な意味に限定して解釈してはならず、発明者が自身の発明を最も最善の方法で説明するために用語の概念を適切に定義することができるとの原則に立脚し、本発明の技術的思想に符合する意味と概念に解釈しなければならない。したがって、本明細書に記載された実施例と図面に示した構成は、本発明の最も好適な一実施例に過ぎないもので、本発明の技術的思想を全て代弁するものではないので、本出願時点において、これらに取って代わる多様な均等物と変形例があり得ることを理解しなければならない。

特に、本明細書において、情報とは、値、パラメータ、係数、成分などを総称する用語であって、場合によっては異なった意味に解釈されるが、本発明がこれに限定されることはない。

特に、オブジェクトは、オブジェクトベース信号及びチャネルベース信号を含む概念であるが、場合によっては、オブジェクトベース信号のみを称することができる。

本発明は、モノダウンミックス信号が受信された場合、モノダウンミックス信号を処理するための多様なプロセスについて説明する。まず、モノダウンミックス信号から、場合によってモノ信号／ステレオ信号又はマルチチャネル信号を生成する方式について図１〜図３を参照しながら説明する。その後、モノダウンミックス信号（又はステレオダウンミックス信号）からバイノーラル信号を生成する方式について図４〜図６を参照しながら説明する。モノダウンミックスに含まれている独立オブジェクト信号（又はモノバックグラウンド信号）を制御するための方式の多様な実施例について図７〜図１２を参照しながら説明する。

１．モノ信号／ステレオ信号の生成
図１は、モノ信号／ステレオ信号を生成するための本発明の実施例に係るオーディオ信号処理装置の構成を示す図である。

図１を参照すれば、まず、本発明の実施例に係るオーディオ信号処理装置１００は、デマルチプレクサ１１０、情報生成ユニット１２０及びダウンミックス処理ユニット１３０を含み、マルチチャネルデコーダ１４０をさらに含むことができる。

デマルチプレクサ１１０は、ビットストリームを介してオブジェクト情報（ＯＩ）を受信する。オブジェクト情報（ＯＩ）は、ダウンミックス信号内に含まれている各オブジェクトに関する情報であって、オブジェクトレベル情報、オブジェクト相関情報などを含むことができる。前記オブジェクト情報（ＯＩ）は、オブジェクト特性を示すパラメータであるオブジェクトパラメータ（ＯＰ）を含むことができる。

前記ビットストリームはダウンミックス信号（ＤＭＸ）をさらに含み、デマルチプレクサ１１０は、このビットストリームからダウンミックス信号（ＤＭＸ）をさらに抽出することもできる。ダウンミックス信号（ＤＭＸ）は、一つ以上のオブジェクト信号がダウンミックスされた信号であって、時間ドメインの信号に該当する。ダウンミックス信号（ＤＭＸ）はモノ信号又はステレオ信号であるが、本実施例ではモノ信号である場合について説明する。

情報生成ユニット１２０は、デマルチプレクサ１１０からオブジェクト情報（ＯＩ）を受信し、ユーザインターフェースからミックス情報（ＭＸＩ）を受信し、ユーザインターフェース又は装置から出力モード情報（ＯＭ）を受信する。さらに、頭部伝達関数（head-related transfer function: HRTF）ＤＢからＨＲＴＦパラメータを受信することもできる。

ミックス情報（ＭＸＩ）は、オブジェクト位置情報、オブジェクトゲイン情報及び再生環境情報などに基づいて生成された情報であって、オブジェクト位置情報は、ユーザが各オブジェクトの位置又はパニングを制御するために入力した情報であって、オブジェクトゲイン情報は、ユーザが各オブジェクトのゲインを制御するために入力した情報である。特に、オブジェクト位置情報及びオブジェクトゲイン情報は、各プリセットモードから選択された一つであるが、プリセットモードは、時間の処理において、オブジェクトの特定ゲイン及び特定位置をプリセットするための値である。プリセットモード情報は、他の装置から受信された値であるか、装置に格納されている値である。一方、一つ以上のプリセットモード（例えば、プリセットモードを使用しない、プリセットモード１、プリセットモード２など）のうち一つを選択するのは、ユーザ入力によって決定される。

再生環境情報は、スピーカーの数、スピーカーの位置、周囲（ambient）情報（スピーカーの仮想位置）などを含む情報であって、ユーザから入力されたり、予め格納されていたり、他の装置から受信される。

出力モード情報（ＯＭ）は、出力モードに関する情報であって、例えば、何個の信号で出力するかに関する情報を含むことができる。何個の信号で出力するかに関する情報は、モノ出力モード、ステレオ出力モード、マルチチャネル出力モードなどのうち一つに該当する情報である。一方、出力モード情報（ＯＭ）は、前記ミックス情報（ＭＸＩ）のスピーカーの数と同一であるが、予め格納されている場合、装置情報に基づいたもので、ユーザから入力された場合、ユーザインプット情報に基づいたものである。このとき、ユーザインプット情報は、前記ミックス情報（ＭＸＩ）に含まれる。

情報生成ユニット１２０は、出力モードに応じて、オブジェクト情報（ＯＩ）及びミックス情報（ＭＸＩ）を用いてダウンミックス処理情報（ＤＰＩ）及びマルチチャネル情報（ＭＩ）のうち一つを生成する。ここで、出力モードは、上述した出力モード情報（ＯＭ）に基づいたものである。出力モードがモノ出力又はステレオ信号である場合、ダウンミックス処理情報（ＤＰＩ）を生成し、出力モードがマルチチャネル出力である場合、マルチチャネル情報（ＭＩ）を生成する。ここで、ダウンミックス処理情報（ＤＰＩ）は、ダウンミックス信号（ＤＭＸ）を処理するための情報であって、これについては後ほどで具体的に説明する。ここで、マルチチャネル情報（ＭＩ）は、ダウンミックス信号（ＤＭＸ）をアップミキシングするための情報であって、チャネルレベル情報、チャネル相関情報などを含むことができる。

出力モードがモノ出力又はステレオ出力である場合、ダウンミックス処理情報（ＤＰＩ）のみを生成する理由は、ダウンミックス処理ユニット１３０で時間ドメインのモノ信号又はステレオ信号を生成できるためである。一方、出力モードがマルチチャネル出力である場合、マルチチャネル情報（ＭＩ）を生成する理由は、入力信号がモノ信号である場合、マルチチャネルデコーダ１４０でマルチチャネル信号を生成できるためである。

ダウンミックス処理ユニット１３０は、ダウンミックス処理情報（ＤＰＩ）及びモノダウンミックス（ＤＭＸ）を用いてモノ出力信号又はステレオ出力信号を生成する。ここで、ダウンミックス処理情報（ＤＰＩ）は、ダウンミックス信号（ＤＭＸ）を処理するための情報であって、ダウンミックス信号に含まれている各オブジェクトのゲイン及び／又はパニングを制御するための情報である。

一方、モノ出力信号又はステレオ出力信号は、時間ドメインの信号に該当するもので、ＰＣＭ信号である。モノ出力信号の場合、ダウンミックス処理ユニット１３０の細部構成を後ほどで図２を参照しながら説明し、ステレオ出力信号の場合、ダウンミックス処理ユニット１３０の細部構成を図３を参照しながら説明する。

さらに、ダウンミックス処理情報（ＤＰＩ）は、バイノーラルパラメータを含むことができるが、バイノーラルパラメータは、３Ｄ効果のためのパラメータであって、情報生成ユニット１２０でオブジェクト情報（ＯＩ）、ミックス情報（ＭＸＩ）及びＨＲＴＦパラメータを用いて生成された情報である。ダウンミックス処理情報（ＤＰＩ）がバイノーラルパラメータを含む場合、ダウンミックス処理ユニット１３０はバイノーラル信号を出力することができる。バイノーラル信号の生成のための実施例は、後ほどで図４〜図６を参照しながら具体的に説明する。

モノダウンミックス信号でなく、ステレオダウンミックス信号が受信された場合（図示せず）、時間ドメインの出力信号を生成するより、ダウンミックス信号のクロストークのみを変形するための処理を行い、処理されたダウンミックス信号は再びマルチチャネルデコーダ１４０で処理されることも可能であるが、本発明がこれに限定されることはない。

マルチチャネルデコーダ１４０は、出力モードがマルチチャネル出力モードであるとき、マルチチャネル情報（ＭＩ）を用いてダウンミックス（ＤＭＸ）をアップミキシングし、マルチチャネル信号を生成する。マルチチャネルデコーダ１４０は、ＭＰＥＧサラウンド（ＩＳＯ／ＩＥＣ２３００３―１）の標準によって具現されるが、本発明がこれに限定されることはない。

図２は、図１に示したダウンミックス処理ユニットの細部構成図の第１の例として、モノ出力信号を生成するための実施例であって、図３は、図１に示したダウンミックス処理ユニットの細部構成図の第２の例として、ステレオ出力信号を生成するための実施例である。

まず、図２を参照すれば、ダウンミックス処理ユニット１３０Ａは、サブバンド分解ユニット１３２Ａ、Ｍ２Ｍ処理ユニット１３４Ａ、サブバンド合成ユニット１３６Ａを含み、モノダウンミックス信号からモノ出力信号を生成する。

サブバンド分解ユニット１３２Ａは、モノダウンミックス信号（ＤＭＸ）を分解してサブバンド信号を生成する。サブバンド分解ユニット１３２Ａは、ハイブリッドフィルタバンクで具現され、サブバンド信号は、ハイブリッドＱＭＦドメインの信号に該当する。Ｍ２Ｍ処理ユニット１３４Ａは、ダウンミックス処理情報（ＤＰＩ）を用いてサブバンド信号を処理する。Ｍ２Ｍはｍｏｎｏ―ｔｏ―ｍｏｎｏの略字である。ここで、Ｍ２Ｍ処理ユニット１３４Ａは、サブバンド信号を処理するためにデコリレータを用いることができる。サブバンド合成ユニット１３６Ａは、処理されたサブバンド信号を合成し、時間ドメインのモノ出力信号を生成する。サブバンド合成ユニット１３６Ａは、ハイブリッドフィルタバンクで具現される。

図３を参照すれば、ダウンミックス処理ユニット１３０Ｂは、サブバンド分解ユニット１３２Ｂ、Ｍ２Ｓ処理ユニット１３４Ｂ、第１のサブバンド合成ユニット１３６Ｂ、第２のサブバンド合成ユニット１３８Ｂを含み、モノダウンミックス信号を受信し、ステレオ出力を生成する。

サブバンド分解ユニット１３２Ｂは、図２のサブバンド分解ユニット１３２Ａと同様に、モノダウンミックス信号（ＤＭＸ）を分解し、サブバンド信号を生成する。サブバンド分解ユニット１３２Ｂも、ハイブリッドフィルタバンクで具現される。

Ｍ２Ｓ処理ユニット１３４Ｂは、ダウンミックス処理情報（ＤＰＩ）及びデコリレータ１３５Ｂを用いてサブバンド信号を処理し、二つのサブバンド信号（第１のサブバンド信号及び第２のサブバンド信号）を生成する。Ｍ２Ｓはｍｏｎｏ―ｔｏ―ｓｔｅｒｅｏの略字である。デコリレータ１３５Ｂが用いられれば、左右のチャネルの相関性を低下させることによって、ステレオ効果を高めることができる。

一方、デコリレータ１３５Ｂは、サブバンド分解ユニット１３２Ｂから入力されたサブバンド信号を第１のサブバンド信号とし、この第１のサブバンド信号をデコリレートした信号を第２のサブバンド信号として出力できるが、本発明がこれに限定されることはない。

第１のサブバンド合成ユニット１３６Ｂが第１のサブバンド信号を合成し、第２のサブバンド合成ユニット１３８Ｂが第２のサブバンド信号を合成することによって、時間ドメインのステレオ出力信号を生成する。

以上、モノダウンミックスが入力される場合、ダウンミックス処理ユニットを介してモノ出力／ステレオ出力が行われる実施例について説明した。以下、バイノーラル信号を生成することについて説明する。

２．バイノーラル信号の生成
図４は、バイノーラル信号を生成するための本発明の一実施例に係るオーディオ信号処理装置の構成を示す図で、図５は、図４のダウンミックス処理ユニットの細部構成図である。図６は、バイノーラル信号を生成するための本発明の他の実施例に係るオーディオ信号処理装置の構成を示す図である。

すなわち、図４及び図５を参照しながらバイノーラル信号の生成のための一実施例について説明し、図６を参照しながらバイノーラル信号の生成のための他の実施例について説明する。

まず、図４を参照すれば、オーディオ信号処理装置２００は、デマルチプレクサ２１０、情報生成ユニット２２０、ダウンミックス処理ユニット２３０を含む。ここで、デマルチプレクサ２１０は、図１を参照して説明したデマルチプレクサ１１０と同様に、ビットストリームからオブジェクト情報（ＯＩ）を抽出し、ダウンミックス（ＤＭＸ）も抽出することができる。ここで、ダウンミックス信号は、モノ信号又はステレオ信号である。

情報生成ユニット２２０は、オブジェクト情報（ＯＩ）、ミックス情報（ＭＸＩ）、ＨＲＴＦ情報を用いてバイノーラルパラメータを含むダウンミックス処理情報を生成する。ここで、ＨＲＴＦ情報は、ＨＲＴＦＤＢから抽出された情報である。バイノーラルパラメータは、仮想３Ｄ効果を出すためのパラメータである。

そして、ダウンミックス処理ユニット２３０は、バイノーラルパラメータを含むダウンミックス処理情報（ＤＰＩ）を用いてバイノーラル信号を出力する。ダウンミックス処理ユニット２３０の具体的な細部構成は、図５を参照しながら説明する。

図５を参照すれば、ダウンミックス処理ユニット２３０Ａは、サブバンド分解ユニット２３２Ａ、バイノーラル処理ユニット２３４Ａ、サブバンド合成ユニット２３６Ａを含む。サブバンド分解ユニット２３２Ａは、ダウンミックス信号を分解し、一つ又は二つのサブバンド信号を生成する。バイノーラル処理ユニット２３４Ａは、バイノーラルパラメータを含むダウンミックス処理情報（ＤＰＩ）を用いて一つ又は二つのサブバンド信号を処理する。サブバンド合成ユニット２３６Ａは、一つ又は二つのサブバンド信号を合成し、時間ドメインのバイノーラル出力信号を生成する。

図６を参照すれば、オーディオ信号処理装置３００は、デマルチプレクサ３１０、情報生成ユニット３２０を含み、マルチチャネルデコーダ３３０をさらに含むことができる。

デマルチプレクサ３１０は、ビットストリームからオブジェクト情報（ＯＩ）を抽出し、ダウンミックス信号（ＤＭＸ）をさらに抽出することができる。情報生成ユニット３２０は、オブジェクト情報（ＯＩ）及びミックス情報（ＭＸＩ）を用いてマルチチャネル情報（ＭＩ）を生成する。ここで、マルチチャネル情報（ＭＩ）は、ダウンミックス信号（ＤＭＸ）をアップミキシングするための情報であって、チャネルレベル情報、チャネル相関情報のような空間パラメータを含む。また、情報生成ユニット３２０は、ＨＲＴＦＤＢから抽出されたＨＲＴＦパラメータを用いてバイノーラルパラメータを生成する。バイノーラルパラメータは、３Ｄ効果を与えるためのパラメータであって、ＨＲＴＦパラメータ自体でもある。また、バイノーラルパラメータは、時変する値であって、ダイナミックな特性を有することができる。

ダウンミックス信号がモノ信号である場合、マルチチャネル情報（ＭＩ）はゲイン情報（ＡＤＧ）をさらに含むことができる。ゲイン情報（ＡＤＧ）は、ダウンミックスゲインを調整するためのパラメータであって、特定オブジェクトに対するゲインを制御するための用途で使用することができる。バイノーラル出力の場合、オブジェクトに対するパニングだけでなく、アップサンプリング又はダウンサンプリングが必要であるので、ゲイン情報（ＡＤＧ）を使用することが望ましい。マルチチャネルデコーダ３３０がＭＰＳサラウンド標準に従い、マルチチャネル情報（ＭＩ）をＭＰＥＧサラウンドシンタックスによって構成しなければならない場合、‘ｂｓＡｒｂｉｔｒａｒｙＤｏｗｎｍｉｘ＝１’にセッティングしてゲイン情報（ＡＤＧ）を使用することができる。

ダウンミックス信号がステレオチャネル信号である場合、オーディオ信号装置３００は、ステレオダウンミックス信号の左右のチャネルのリパニング（ｒｅ―ｐａｎｎｉｎｇ）のためのダウンミックス処理ユニット（図示せず）をさらに含むことができる。しかし、バイノーラルレンダリングにおいては、ＨＲＴＦパラメータの選択によって左右のチャネルのクロスターム（ｃｒｏｓｓ―ｔｅｒｍ）を生成できるので、ダウンミックス処理ユニット（図示せず）での動作が必ず必要ではない。ダウンミックス信号がステレオで、マルチチャネル情報（ＭＩ）がＭＰＳサラウンド規格に従う場合、５―２―５コンフィギュレーションモードにセッティングされ、左側フロントチャネル及び右側フロントチャネルのみをバイパスして出力する形態であることが望ましい。また、伝送されるバイノーラルパラメータは、残りの値がいずれも０である状態で左側フロントチャネル及び右側フロントチャネルから左側出力及び右側出力への経路（合計４個のパラメータセット）のみが有効な値を有するように伝送される。

マルチチャネルデコーダ３３０は、マルチチャネル情報（ＭＩ）及びバイノーラルパラメータを用いてダウンミックス信号からバイノーラル出力を生成する。具体的に、マルチチャネル情報に含まれた空間パラメータ及びバイノーラルパラメータの組み合わせをダウンミックス信号に適用し、バイノーラル出力を生成することができる。

このように、バイノーラル出力を生成するための各実施例によれば、第１の実施例のようにダウンミックス処理ユニットを介して直接バイノーラル出力を生成する場合、マルチチャネルデコーダの複雑な方法を実行する必要がないので、複雑度を低下させることができる。また、第２の実施例のようにマルチチャネルデコーダを使用する場合、マルチチャネルデコーダの機能を用いることができる。

３．独立オブジェクトの制御（カラオケモード／アカペラモード）
以下、モノダウンミックスを受信し、独立オブジェクト又はバックグラウンドオブジェクトを制御する技術について説明する。

図７は、独立オブジェクトを制御するための本発明の一実施例に係るオーディオ信号処理装置の構成図で、図８は、独立オブジェクトを制御するための本発明の他の実施例に係るオーディオ信号処理装置の構成図である。

まず、図７を参照すれば、オーディオ信号エンコーディング装置４００のマルチチャネルデコーダ４１０が複数のチャネル信号を受信し、モノダウンミックス（ＤＭＸｍ）及びマルチチャネルビットストリームを生成する。ここで、複数のチャネル信号は、マルチチャネルバックグラウンドオブジェクト（Ｍｕｌｔｉ―ｃｈａｎｎｅｌＢａｃｋｇｒｏｕｎｄＯｂｊｅｃｔｓ: ＭＢＯ）である。

マルチチャネルバックグラウンドオブジェクト（ＭＢＯ）は、例えば、背景音楽を構成する複数の楽器信号を含むことができるが、何個のソース信号（例えば、楽器信号）が含まれているかを知ることができなく、ソース信号別にコントロールすることもできない。ここで、バックグラウンドオブジェクトは、ステレオチャネルにダウンミックスされることも可能であるが、本発明では、モノ信号にダウンミックスされたバックグラウンドオブジェクトのみについて説明する。

オブジェクトエンコーダ４１０は、モノバックグラウンドオブジェクト（ＤＭＸｍ）及び一つ以上のオブジェクト信号（ｏｂｊ_N）をダウンミックスしてモノダウンミックス（ＤＭＸ）を生成し、オブジェクト情報ビットストリームを生成する。ここで、一つ以上のオブジェクト信号（又はオブジェクトベース信号）は、独立オブジェクトであって、フォアグラウンドオブジェクト（ＦＧＯ）（ＦｏｒｅＧｒｏｕｎｄＯｂｊｅｃｔ）とも称する。例えば、バックグラウンドオブジェクトが伴奏音楽であれば、独立オブジェクト（ＦＧＯ）はリードボーカル信号に該当する。もちろん、独立オブジェクトが二つである場合、歌手１のボーカル信号、歌手２のボーカル信号にそれぞれ対応することができる。オブジェクトエンコーダ４１０は、残余（residual）情報をさらに生成することができる。

オブジェクトエンコーダ４１０は、モノバックグラウンドオブジェクト（ＤＭＸｍ）及びオブジェクト信号（ｏｂｊ_N）（すなわち、独立オブジェクト）をダウンミックスする過程で残余を生成することができる。この残余は、デコーダでダウンミックス信号から独立オブジェクト（又はバックグラウンドオブジェクト）を抽出するのに用いられる。

オーディオ信号デコーディング装置５００のオブジェクトトランスコーダ５１０は、ミックス情報（ＭＸＩ）に含まれたモード選択情報（ＭＳＩ）にしたがって、改良オブジェクト情報（例えば、残余）を用いてダウンミックス（ＤＭＸ）から一つ以上の独立オブジェクト又はバックグラウンドオブジェクトを抽出する。

モード選択情報（ＭＳＩ）は、バックグラウンドオブジェクト及び一つ以上の独立オブジェクトを制御するためのモードが選択されたかどうかに対する情報を含む。さらに、モード選択情報（ＭＳＩ）は、一般モード、バックグラウンドオブジェクトを制御するためのモード、一つ以上の独立オブジェクトを制御するためのモードを含む各モードのうちいずれのモードに該当するかに関する情報を含むことができる。例えば、バックグラウンドオブジェクトを制御するためのモードは、バックグラウンドオブジェクトが背景音楽である場合、アカペラモード（又はソロモード）に該当する。例えば、一つ以上の独立オブジェクトを制御するためのモードは、独立オブジェクトがボーカルである場合、カラオケモードに該当する。言い換えれば、モード選択情報は、一般モード、アカペラモード、カラオケモードのうち一つを選択するかに関する情報であって、アカペラモード又はカラオケモードである場合、ゲイン調整に対する情報をさらに含むことができる。すなわち、モード選択情報（ＭＳＩ）がアカペラモード又はカラオケモードである場合、ダウンミックス（ＤＭＸ）から一つ以上の独立オブジェクト又はバックグラウンドオブジェクトを抽出し、一般モードである場合、ダウンミックス信号をバイパスすることができる。

独立オブジェクトが抽出された場合、オブジェクトトランスコーダ５１０は、オブジェクト情報（ＯＩ）及びミックス情報（ＭＸＩ）などを用いて一つ以上の独立オブジェクト及びバックグラウンドオブジェクトをミキシングし、ミキシングされたモノダウンミックスを生成する。ここで、オブジェクト情報（ＯＩ）は、オブジェクト情報ビットストリームから抽出された情報であって、上述した情報と同一である。ここで、ミックス情報（ＭＸＩ）は、オブジェクトゲイン及び／又はパニングを調整するための情報である。

一方、オブジェクトトランスコーダ５１０は、マルチチャネルビットストリーム及び／又はオブジェクト情報ビットストリームを用いてマルチチャネル情報（ＭＩ）を生成する。マルチチャネル情報（ＭＩ）は、バックグラウンドオブジェクト又は一つ以上の独立オブジェクトを制御するためのものであるが、このとき、バックグラウンドオブジェクトをコントロールするための第１のマルチチャネル情報及び一つ以上の独立オブジェクトをコントロールするための第２のマルチチャネル情報のうち一つ以上を含むことができる。

マルチチャネルデコーダ５２０は、マルチチャネル情報（ＭＩ）を用いてミキシングされたモノダウンミックス又はバイパスされたモノダウンミックスから出力信号を生成する。

図８は、独立オブジェクト生成のための他の実施例である。

図８を参照すれば、オーディオ信号処理装置６００は、モノダウンミックス（ＤＭＸ）を受信し、ダウンミックス処理ユニット６１０、マルチチャネルデコーダ６２０、ＯＴＮモジュール６３０及びレンダリングユニット６４０を含む。

オーディオ信号処理装置６００は、モード選択情報（ＭＳＩ）にしたがって、ダウンミックス信号をＯＴＮモジュール６３０に入力するかどうかを決定する。ここで、モード選択情報は、既に図７を参照して説明したモード選択情報と同一である。

モード選択情報によって、現在のモードがバックグラウンドオブジェクト（ＭＢＯ）又は一つ以上の独立オブジェクト（ＦＧＯ）を制御するためのモードである場合、ダウンミックス信号がＯＴＮモジュール６３０に入力されるようにする。その一方、モード選択情報にしたがって、現在のモードが一般モードである場合、ダウンミックス信号をバイパスし、出力モードに応じてダウンミックス処理ユニット６１０又はマルチチャネルデコーダ６２０にダウンミックス信号が入力されるようにする。ここでの出力モードは、既に図１を参照して説明した出力モード情報（ＯＭ）と同一であって、出力スピーカーの数である。

モノ／ステレオ／バイノーラル出力モードである場合、ダウンミックス処理ユニット６１０によってダウンミックスが処理されるが、このとき、ダウンミックス処理ユニット６１０は、図１〜図３を参照して説明したダウンミックス処理ユニット１３０、１３０Ａ、１３０Ｂと同一の役割を果たす構成要素である。

一方、出力モードがマルチチャネルモードである場合、マルチチャネルデコーダ６２０は、モノダウンミックス（ＤＭＸ）からマルチチャネル出力を生成する。このとき、マルチチャネルデコーダも、既に図１を参照して説明したマルチチャネルデコーダ１４０と同一の役割を果たす構成要素である。

一方、モード選択情報（ＭＳＩ）にしたがって、モノダウンミックス信号がＯＴＮモジュール６３０に入力された場合、ＯＴＮモジュール６３０は、ダウンミックス信号からモノバックグラウンドオブジェクト（ＭＢＯ）及び一つ以上の独立オブジェクト信号（ＦＧＯ）を抽出する。ＯＴＮはｏｎｅ―ｔｏ―ｎの略字である。独立オブジェクト信号が１個である場合、ＯＴＴ（Ｏｎｅ―Ｔｏ―Ｔｗｏ）構造になり、独立オブジェクト信号が２個である場合、ＯＴＴ（Ｏｎｅ―Ｔｏ―Ｔｈｒｅｅ）構造になり、独立オブジェクトの信号がＮ−1である場合、ＯＴＮ構造になる。

一方、ＯＴＮモジュール６３０は、オブジェクト情報（ＯＩ）及び改良オブジェクト情報（ＥＯＩ）を用いることができる。ここで、改良オブジェクト情報（ＥＯＩ）は、バックグラウンドオブジェクト及び独立オブジェクトをダウンミックスする過程で生成された残余信号である。

一方、レンダリングユニット６４０は、ミックス情報（ＭＸＩ）を用いて、バックグラウンドオブジェクト（ＭＢＯ）及び独立オブジェクト（ＦＧＯ）をレンダリングすることによって出力チャネル信号を生成する。ここで、ミックス情報（ＭＸＩ）は、バックグラウンドオブジェクトを制御するための情報又は／及び独立オブジェクトを制御するための情報を含む。一方、オブジェクト情報（ＯＩ）及びミックス情報（ＭＸＩ）に基づいたマルチチャネル情報（ＭＩ）が生成されるが、この場合、前記出力チャネル信号は、マルチチャネルデコーダ（図示せず）に入力され、前記マルチチャネル情報に基づいてアップミキシングされることもある。

図９は、改良オブジェクト処理のための本発明の第１の実施例に係るオーディオ信号処理装置の構成を示す図で、図１０は、改良オブジェクト処理のための本発明の第２の実施例に係るオーディオ信号処理装置の構成を示す図で、図１１及び図１２は、改良オブジェクト処理のための本発明の第３の実施例に係るオーディオ信号処理装置の構成を示す図である。

第１の実施例は、モノダウンミックス及びモノオブジェクトに関するもので、第２の実施例は、モノダウンミックス及びステレオオブジェクトに関するもので、第３の実施例は、第１の実施例の場合及び第２実施例の場合をいずれもカバーする実施例である。

まず、図９を参照すれば、オーディオ信号エンコーディング装置７００Ａの改良オブジェクト情報エンコーダ７１０は、モノ信号であるミックスされたオーディオ信号及びオブジェクト信号（ｏｂｊ＿ｘ₁）から改良オブジェクト情報（ＥＯＰ＿ｘ₁）を生成する。このとき、二つの信号を用いて一つの信号を生成するので、改良オブジェクト情報エンコーダ７１０は、ＯＴＴ（Ｏｎｅ―Ｔｏ―Ｔｗｏ）エンコーディングモジュールで具現される。ここで、改良オブジェクト情報（ＥＯＰ＿ｘ₁）は残余信号である。また、改良オブジェクト情報エンコーダ７１０は、ＯＴＴモジュールに対応するオブジェクト情報（ＯＰ＿ｘ₁）を生成する。

オーディオ信号デコーディング装置８００Ａの改良オブジェクト情報デコーダ８１０は、改良オブジェクト情報（ＥＯＰ＿ｘ₁）及びミックスされたオーディオ信号を用いて付加的なリミックスデータに対応する出力信号（ｏｂｊ＿ｘ₁’）を生成する。

図１０を参照すれば、オーディオ信号エンコーディング装置７００Ｂは、第１の改良オブジェクト情報エンコーダ７１０Ｂ及び第２の改良オブジェクト情報エンコーダ７２０Ｂを含み、オーディオ信号デコーディング装置８００Ｂは、第１の改良オブジェクト情報デコーダ８１０Ｂ及び第２の改良オブジェクト情報デコーダ８２０Ｂを含む。

第１の改良オブジェクト情報エンコーダ７１０Ｂは、二つのオブジェクト信号（ｏｂｊ＿ｘ₁、ｏｂｊ＿ｘ₂）を結合し、結合オブジェクト及び第１の改良オブジェクト情報（ＥＯＰ＿Ｌ１）を生成する。二つのオブジェクト信号は、ステレオオブジェクト信号、すなわち、オブジェクトの左側チャネル信号及びオブジェクトの右側チャネル信号である。結合オブジェクトを生成する過程で、第１のオブジェクト情報（ＯＰ＿Ｌ１）が生成される。

第２の改良オブジェクト情報エンコーダ７２０Ｂは、モノ信号であるミックスされたオーディオ信号及び結合オブジェクトを用いて第２の改良オブジェクト情報（ＥＯＰ＿Ｌ０）及び第２のオブジェクト情報（ＯＰ＿Ｌ０）を生成する。

このように二つの段階の過程を通して最終的な信号を生成するが、第１の改良オブジェクト情報エンコーダ７１０Ｂ及び第２の改良オブジェクト情報エンコーダ７２０Ｂは、二つの信号から一つの信号を生成するので、それぞれＯＴＴ（Ｏｎｅ―Ｔｏ―Ｔｗｏ）モジュールとして具現される。

オーディオ信号デコーディング装置８００Ｂは、オーディオ信号エンコーディング装置７００Ｂで行われた過程と反対の過程を行う。

すなわち、第２の改良オブジェクト情報デコーダ８１０Ｂは、第２の改良オブジェクト情報（ＥＯＰ＿Ｌ０）及びミックスされたオーディオ信号を用いて結合オブジェクトを生成する。このとき、オーディオ信号がさらに抽出される。

そして、第１の改良オブジェクト情報デコーダ８２０Ｂは、第１の改良オブジェクト情報（ＥＯＰ＿Ｌ１）を用いて結合オブジェクトから付加的なリミックスデータである二つのオブジェクト（ｏｂｊ＿ｘ₁’、ｏｂｊ＿ｘ₂’）を生成する。

図１１及び図１２は、第１の実施例及び第２の実施例が結合された形態である。図１１を参照すれば、マルチチャネルエンコーダ７０５Ｃの５―１―５ツリー構造又は５―２―５ツリー構造の動作有無によって改良オブジェクトがモノ又はステレオに変化する場合、ダウンミックス信号がモノ信号／ステレオ信号に変化する場合がいずれも表現されたものである。

図１１及び図１２に示すように、改良オブジェクトがモノ信号である場合、第１の改良オブジェクト情報エンコーダ７１０Ｃ及び第１の改良情報デコーダ８２０Ｃが動作しない。各構成要素の機能は、図１０を参照して説明した同一名称の構成要素と同一である。

一方、ダウンミックス信号がモノである場合、第２の改良オブジェクト情報エンコーダ７２０Ｃ及び第２の改良オブジェクト情報デコーダ８１０ＣがそれぞれＯＴＴエンコーダ／デコーダとして動作することが望ましく、ダウンミックス信号がステレオである場合、それぞれＴＴＴエンコーダ／デコーダとして動作することができる。

本発明に係るオーディオ信号処理方法は、コンピュータ読み取り可能なコードとして記録媒体に格納されるプログラムに搭載することができる。また、本発明に係るデータ構造を有するマルチメディアデータもコンピュータ読み取り可能な記録媒体に格納される。前記コンピュータ読み取り可能な記録媒体は、コンピュータシステムによって読まれるデータが格納されるあらゆる種類の格納装置を含む。コンピュータ読み取り可能な記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ―ＲＯＭ、磁気テープ、フロッピー（登録商標）ディスク、光データ格納装置などがあり、キャリアウェーブ（例えば、インターネットを介した伝送）の形態で具現されることも含む。また、前記エンコーディング方法によって生成されたビットストリームは、コンピュータ読み取り可能な記録媒体に格納されたり、有無線通信網を用いて伝送される。

以上のように、本発明は、限定された実施例と図面によって説明されたが、本発明がこれによって限定されることはなく、本発明の属する技術分野で通常の知識を有する者によって本発明の技術思想と下記に記載される特許請求の範囲の均等範囲内で多様な修正及び変形が可能であることは当然である。

本発明は、オーディオ信号をエンコーディング及びデコーディングすることに適用できる。

Claims

少なくとも１つのオブジェクト信号を含むダウンミックス信号、及び該ダウンミックス信号が生成される時に抽出されたオブジェクト情報を受信するステップと、
前記オブジェクト信号を制御するためのミックス情報を受信するステップであって、該ミックス情報は、一般モード、カラオケモード、及びソロモードを含むモードの１つを示すモード選択情報を含むステップと、
を有するオーディオ信号処理方法であって、
前記モード選択情報が前記一般モードを示すとき、
マルチチャネルオーディオ信号のチャネル数に従い、前記オブジェクト情報及び前記ミックス情報を用いてマルチチャネル情報を生成し、及び、
前記マルチチャネル情報を前記ダウンミックス信号に適用することにより、前記マルチチャネルオーディオ信号を生成し、
前記モード選択情報が前記カラオケモード又はソロモードを示すとき、
前記ダウンミックス信号からバックグラウンドオブジェクト及び少なくとも１つの独立オブジェクトを抽出し、
前記ミックス情報を用いて、前記バックグラウンドオブジェクト及び少なくとも１つの独立オブジェクトをレンダリングすることにより出力チャネル信号を生成し、及び、
前記マルチチャネル情報に基づき、前記出力チャネル信号をマルチチャネルオーディオ信号にアップミキシングし、
前記ダウンミックス信号はモノ信号に該当する、オーディオ信号処理方法。
改良オブジェクト情報を受信するステップをさらに有し、前記少なくとも１つの独立オブジェクトは、該改良オブジェクト情報を用いて前記ダウンミックス信号から抽出される、請求項１に記載のオーディオ信号処理方法。
前記改良オブジェクト情報は残余信号に該当する、請求項２に記載のオーディオ信号処理方法。
前記少なくとも１つの独立オブジェクトはオブジェクトベース信号に該当し、前記バックグラウンドオブジェクトはモノ信号に該当する、請求項１に記載のオーディオ信号処理方法。
少なくとも１つのオブジェクト信号を含むダウンミックス信号、該ダウンミックス信号が生成される時に抽出されたオブジェクト情報、並びに一般モード、カラオケモード、及びソロモードを含むモードの１つを示すモード選択情報を含むミックス情報を受信するデマルチプレクサと、
前記モード選択情報が前記一般モードを示すとき、マルチチャネルオーディオ信号のチャネル数に従い、前記オブジェクト情報及び前記ミックス情報を用いてマルチチャネル情報を生成し、及び、
前記モード選択情報が前記カラオケモード又はソロモードを示すとき、前記ダウンミックス信号からバックグラウンドオブジェクト及び少なくとも１つの独立オブジェクトを抽出し、前記ミックス情報を用いて、前記バックグラウンドオブジェクト及び少なくとも１つの独立オブジェクトをレンダリングすることにより出力チャネル信号を生成するオブジェクトトランスコーダと、
前記マルチチャネル情報を前記ダウンミックス信号又は前記出力信号の１つに適用することにより、前記マルチチャネルオーディオ信号を生成するマルチチャネルデコーダと、
を有し、
前記ダウンミックス信号はモノ信号に該当する、オーディオ信号処理装置。
前記デマルチプレクサは、改良オブジェクト情報をさらに受信し、前記少なくとも１つの独立オブジェクトは、該改良オブジェクト情報を用いて前記ダウンミックス信号から抽出される、請求項５に記載のオーディオ信号処理装置。
前記改良オブジェクト情報は残余信号に該当する、請求項６に記載のオーディオ信号処理装置。
前記少なくとも１つの独立オブジェクトはオブジェクトベース信号に該当し、前記バックグラウンドオブジェクトはモノ信号に該当する、請求項５に記載のオーディオ信号処理装置。
オーディオ信号を処理する方法を実行するために提供されるプログラムを記録したコンピュータ読み取り可能な記録媒体であって、該方法は、
少なくとも１つのオブジェクト信号を含むダウンミックス信号、及び該ダウンミックス信号が生成される時に抽出されたオブジェクト情報を受信するステップと、
前記オブジェクト信号を制御するためのミックス情報を受信するステップであって、該ミックス情報は、一般モード、カラオケモード、及びソロモードを含むモードの１つを示すモード選択情報を含むステップと、
を有し、
前記モード選択情報が前記一般モードを示すとき、
マルチチャネルオーディオ信号のチャネル数に従い、前記オブジェクト情報及び前記ミックス情報を用いてマルチチャネル情報を生成し、及び、
前記マルチチャネル情報を前記ダウンミックス信号に適用することにより、前記マルチチャネルオーディオ信号を生成し、
前記モード選択情報が前記カラオケモード又はソロモードを示すとき、
前記ダウンミックス信号からバックグラウンドオブジェクト及び少なくとも１つの独立オブジェクトを抽出し、
前記ミックス情報を用いて、前記バックグラウンドオブジェクト及び少なくとも１つの独立オブジェクトをレンダリングすることにより出力チャネル信号を生成し、及び、
前記マルチチャネル情報に基づき、前記出力チャネル信号をマルチチャネルオーディオ信号にアップミキシングし、
前記ダウンミックス信号はモノ信号に該当する、コンピュータ読み取り可能な記録媒体。