JP2017514422A

JP2017514422A - 音響信号のレンダリング方法、その装置及びコンピュータ可読記録媒体

Info

Publication number: JP2017514422A
Application number: JP2017505030A
Authority: JP
Inventors: ジョン，サン−ベ
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-04-11
Filing date: 2015-04-13
Publication date: 2017-06-01
Anticipated expiration: 2035-04-13
Also published as: KR20160145646A; KR20220062131A; RU2698775C1; US20200252736A1; AU2018208751B2; WO2015156654A1; MX357942B; US11245998B2; CN110610712B; RU2676415C1; US20220132259A1; AU2018208751A1; US11785407B2; KR20210114558A; KR102392773B1; JP6383089B2; AU2015244473A1; BR112016023716B1; EP3131313A4; US20170034639A1

Abstract

高度音響信号を含む多チャネルオーディオ信号を、水平面レイアウト環境で再生するための方法に係り、レンダリングタイプによってレンダリングパラメータを獲得し、ダウンミックスマトリックスを構成することにより、仮想レンダリング適用に不適な音響信号についても、効果的なレンダリング性能を得ることができる。該音響信号をレンダリングする方法は、複数個の出力チャネルに変換される複数個の入力チャネルを含むマルチチャネル信号を受信する段階、マルチチャネル信号の特徴から決定されたパラメータに基づいて、高度レンダリングのためのレンダリングタイプを決定する段階、及び少なくとも１つの高さ入力チャネルを、決定されたレンダリングタイプによってレンダリングする段階を含み、パラメータは、マルチチャネル信号のビットストリームに含まれる。

Description

本発明は、音響信号をレンダリングする方法及びその装置に係り、さらに詳細には、マルチチャネル信号を、レンダリングタイプによってダウンミキシングするレンダリング方法及びその装置に関する。

映像処理技術及び音響処理技術の発達により、高画質・高音質のコンテンツが量産されている。高画質・高音質のコンテンツを要求したユーザは、臨場感ある映像及び音響を望み、それにより、立体映像及び立体音響に対する研究が活発に進められている。

立体音響とは、音の高低、音色だけではなく、水平及び垂直を含んだ三次元方向や距離感まで再生して臨場感を有するようにし、音源が発生させた空間に位置していない聴取者に、方向感、距離感及び空間感を知覚させる空間情報を付加した音響を意味する。

仮想レンダリング技術を利用すれば、２２．２チャネルのようなチャネル信号を、５．１チャネルにレンダリングする場合、二次元出力チャネルを介して三次元立体音響を再生することができる。

仮想レンダリング技術を利用すれば、２２．２チャネルのようなチャネル信号を、５．１チャネルにレンダリングする場合、二次元出力チャネルを介して三次元立体音響を再生することができるが、信号の特性によって、仮想レンダリング適用に不適な場合が発生する。

本発明が解決しようとする課題は、立体音響再生方法及びその装置に係り、高度音響信号を含む多チャネルオーディオ信号を、水平面レイアウト環境で再生するための方法に係り、レンダリングタイプによってレンダリングパラメータを獲得し、ダウンミックスマトリックスを構成することである。

前記目的を達成するための本発明の代表的な構成は、次の通りである。

前記技術的課題を解決するための本発明の一実施形態による音響信号をレンダリングする方法は、複数個の出力チャネルに変換される複数個の入力チャネルを含むマルチチャネル信号を受信する段階と、マルチチャネル信号の特徴から決定されたパラメータに基づいて、高度レンダリングのためのレンダリングタイプを決定する段階と、少なくとも１つの高さ入力チャネルを、決定されたレンダリングタイプによってレンダリングする段階と、を含み、該パラメータは、マルチチャネル信号のビットストリームに含まれる。

仮想レンダリング技術を利用すれば、２２．２チャネルのようなチャネル信号を、５．１チャネルにレンダリングする場合、二次元出力チャネルを介して、三次元立体音響を再生することができるが、信号の特性によって、仮想レンダリング適用に不適な場合が発生する。

本発明は、高度音響信号を含む多チャネルオーディオ信号を、水平面レイアウト環境で再生するための方法に係り、レンダリングタイプによってレンダリングパラメータを獲得し、ダウンミックスマトリックスを構成することにより、仮想レンダリング適用に不適な音響信号についても、効果的なレンダリング性能を得ることができる。

一実施形態による立体音響再生装置の内部構造を示すブロック図である。一実施形態による立体音響再生装置の構成のうち、デコーダ及び立体音響レンダラの構成を示すブロック図である。一実施形態による、複数個の入力チャネルが複数個の出力チャネルにダウンミックスされる場合の各チャネルのレイアウトに係わる図面である。一実施形態によるレンダラフォーマット変換器の主要構成部を示したブロック図である。一実施形態による、レンダリングタイプ決定パラメータに基づいて、レンダリングタイプ及びダウンミックスマトリックスを選択する選択部の構成を示した図面である。一実施形態によるレンダリングタイプ決定パラメータに基づいて、レンダリングタイプ構成を決定するシンタックス（syntax）を示す図面である。一実施形態による、音響信号をレンダリングする方法のフローチャートである。一実施形態によるレンダリングタイプに基づいて、音響信号をレンダリングする方法のフローチャートである。他の一実施形態による、レンダリングタイプに基づいて、音響信号をレンダリングする方法のフローチャートである。

本発明の他の実施形態によれば、マルチチャネル信号は、コアデコーダによって復号される信号である。

本発明のさらに他の実施形態によれば、レンダリングタイプを決定する段階は、マルチチャネル信号のフレームごとにレンダリングタイプを決定する。

本発明のさらに他の実施形態によれば、レンダリングする段階は、高さ入力チャネルに、決定されたレンダリングタイプによって獲得される、互いに異なるダウンミックスマトリックス（downmix matrix）を適用する。

本発明のさらに他の実施形態によれば、出力信号を仮想レンダリング出力するか否かということを判断する段階をさらに含み、判断結果出力信号が仮想レンダリング出力ではない場合、レンダリングタイプを決定する段階は、高度レンダリングを行わないようにレンダリングタイプを決定する。

本発明のさらに他の実施形態によれば、レンダリングする段階は、空間音色フィルタリングを行う段階を含み、決定されたレンダリングタイプが三次元レンダリングタイプであるならば、空間位置パンニングを行い、決定されたレンダリングタイプが二次元レンダリングタイプであるならば、一般パンニングを行う段階を含む。

本発明のさらに他の実施形態によれば、空間音色フィルタリングを行う段階は、頭部伝達関数（ＨＲＴＦ：head related transfer function）に基づいて音色を補正する。

本発明のさらに他の実施形態によれば、空間位置パンニングを行う段階は、マルチチャネル信号をパンニングしてオーバーヘッド音像を生成する。

本発明のさらに他の実施形態によれば、一般パンニングを行う段階は、水平角に基づいて、前記マルチチャネル信号をパンニングして水平面上の音像を生成する。

本発明のさらに他の実施形態によれば、該パラメータは、オーディオシーン（audio scene）の属性に基づいて決定される。

本発明のさらに他の実施形態によれば、オーディオシーンの属性は、入力音響信号のチャネル相関度（correlation）、及び音響信号の帯域幅のうち少なくとも一つを含む。

本発明のさらに他の実施形態によれば、該パラメータは、エンコーダで生成される。

前記技術的課題を解決するための本発明の一実施形態による音響信号をレンダリングする装置は、複数個の出力チャネルに変換される複数個の入力チャネルを含むマルチチャネル信号を受信する受信部と、マルチチャネル信号の特徴から決定されたパラメータに基づいて、高度レンダリングのためのレンダリングタイプを決定する決定部と、少なくとも１つの高さ入力チャネルを、決定されたレンダリングタイプによってレンダリングするレンダリング部と、を含み、該パラメータは、マルチチャネル信号のビットストリームに含まれる。

本発明の他の実施形態によれば、該装置は、コアデコーダをさらに含み、該マルチチャネル信号は、コアデコーダによって復号される。

本発明のさらに他の実施形態によれば、該決定部は、マルチチャネル信号のフレームごとにレンダリングタイプを決定する。

本発明のさらに他の実施形態によれば、該レンダリング部は、高さ入力チャネルに、決定されたレンダリングタイプによって獲得される、互いに異なるダウンミックスマトリックスを適用する。

本発明のさらに他の実施形態によれば、出力信号を仮想レンダリング出力するか否かということを判断する判断部をさらに含み、判断結果、出力信号を仮想レンダリング出力しない場合、該決定部は、高度レンダリングを行わないようにレンダリングタイプを決定する。

本発明のさらに他の実施形態によれば、レンダラは、空間音色フィルタリングを行い、決定されたレンダリングタイプが三次元レンダリングタイプであるならば、空間位置パンニングをさらに行い、決定されたレンダリングタイプが二次元レンダリングタイプであるならば、一般パンニングをさらに行う。

本発明のさらに他の実施形態によれば、空間音色フィルタリングは、ＨＲＴＦに基づいて音色を補正する。

本発明のさらに他の実施形態によれば、空間位置パンニングは、マルチチャネル信号をパンニングしてオーバーヘッド音像を生成する。

本発明のさらに他の実施形態によれば、一般パンニングは、水平角に基づいて、前記マルチチャネル信号をパンニングして水平面上の音像を生成する。

本発明のさらに他の実施形態によれば、該パラメータは、オーディオシーンの属性に基づいて決定される。

本発明のさらに他の実施形態によれば、オーディオシーンの属性は、入力音響信号のチャネル相関度、及び音響信号の帯域幅のうち少なくとも一つを含む。

一方、本発明の一実施形態によれば、前述の方法を実行するためのプログラムを記録したコンピュータで読み取り可能な記録媒体を提供する。

それ以外にも、本発明を具現するための他の方法、他のシステム、及び前記方法を実行するためのコンピュータプログラムを記録するコンピュータ可読記録媒体がさらに提供される。

以下で説明する本発明に係わる詳細な説明は、本発明が実施される特定実施形態を例示として図示する添付図面を参照する。かような実施形態は、当業者が本発明の実施に十分なほど詳細に説明される。本発明の多様な実施形態は、互いに異なるが、相互排他的である必要はないということが理解されなければならない。

例えば、本明細書に記載されている特定の形状、構造及び特性は、本発明の精神及び範囲を外れずに、一実施形態から他の実施形態に変更されても具現される。また、それぞれの実施形態内の個別構成要素の位置または配置も、本発明の精神及び範囲を外れずに変更されるということが理解されなければならない。従って、後述する詳細な説明は、限定的な意味として行われるのではなく、本発明の範囲は、特許請求の範囲の請求項が請求する範囲、及びそれと均等な全ての範囲を包括するものであると受容されなければならない。

図面において、類似の参照符号は、多くの側面にわたって、同一であるか、あるいは類似した構成要素を示す。そして、図面において、本発明を明確に説明するために、説明と関係ない部分は省略し、明細書全体を通じて、類似した部分については、類似した図面符号を付した。

以下では、本発明が属する技術分野で当業者において、本発明の実施が容易になるように、本発明の多くの実施形態について、添付された図面を参照し、詳細に説明することにする。しかし、本発明は、さまざまに異なる形態に具現され、ここで説明する実施形態に限定されるものではない。

明細書全体で、ある部分が他の部分と「連結」されているとするとき、それは、「直接連結」されている場合だけではなく、その中間に他の素子を挟み、「電気的に連結」されている場合も含む。また、ある部分がある構成要素を「含み」とするとき、それは、特別に反対になる記載がない限り、他の構成要素を除くものではなく、他の構成要素をさらに含んでもよいということを意味する。

以下、添付された図面を参照し、本発明について詳細に説明する。

図１は、一実施による立体音響再生装置の内部構造を示すブロック図である。

一実施形態による立体音響再生装置１００は、複数個の入力チャネルが再生される複数個の出力チャネルにミキシングされたマルチチャネル音響信号を出力することができる。このとき、出力チャネルの個数が入力チャネルの個数よりさらに少なければ、入力チャネルは、出力チャネル個数に合わせてダウンミキシングされる。

立体音響とは、音の高低、音色だけではなく、方向や距離感まで再生して臨場感を有するようにし、音源が発生させた空間に位置していない聴取者に、方向感、距離感及び空間感を知覚させる空間情報を付加した音響を意味する。

以下の説明において、音響信号の出力チャネルは、音響が出力されるスピーカの個数を意味する。出力チャネル数が多いほど、音響が出力されるスピーカの個数が多くなる。一実施形態による立体音響再生装置１００は、入力チャネル数が多いマルチチャネル音響信号が、出力チャネル数が少ない環境で出力されて再生されるように、マルチチャネル音響入力信号を、再生される出力チャネルにレンダリングしてミキシングすることができる。このとき、マルチチャネル音響信号は、高度音響（elevated sound）を出力することができるチャネルを含んでもよい。

高度音響を出力することができるチャネルは、高度感を感じることができるように、聴取者の頭上に位置したスピーカを介して、音響信号を出力することができるチャネルを意味する。水平面チャネルは、聴取者と水平面に位置したスピーカを介して、音響信号を出力することができるチャネルを意味する。

前述の出力チャネル数が少ない環境は、高度音響を出力することができる出力チャネルを含まず、水平面上に配置されたスピーカを介して音響を出力することができる環境を意味する。

また、以下の説明において、水平面チャネル（horizontal channel）は、水平面上に配置されたスピーカを介して出力される音響信号を含むチャネルを意味する。オーバーヘッドチャネルは、水平面ではない高度上に配置され、高度音を出力することができるスピーカを介して出力される音響信号を含むチャネルを意味する。

図１を参照すれば、一実施形態による立体音響再生装置１００は、オーディオコア１１０、レンダラ１２０、ミキサ１３０及び後処理部１４０を含んでもよい。

一実施形態による立体音響再生装置１００は、マルチチャネル入力音響信号をレンダリングしてミキシングし、再生される出力チャネルに出力することができる。例えば、マルチチャネル入力音響信号は、２２．２チャネル信号であり、再生される出力チャネルは、５．１チャネルまたは７．１チャネルでもある。立体音響再生装置１００は、マルチチャネル入力音響信号の各チャネルを対応させる出力チャネルを決定することによってレンダリングを行い、再生されるチャネルと対応した各チャネルの信号を合わせて最終信号として出力することにより、レンダリングされた音響信号をミキシングすることができる。

エンコーディングされた音響信号は、オーディオコア１１０に、ビットストリーム形態で入力され、オーディオコア１１０は、音響信号がエンコーディングされた方式に適するデコーダツールを選択し、入力された音響信号をデコーディングする。オーディオコア１１０は、コアデコーダのような意味にも混用される。

レンダラ１２０は、マルチチャネル入力音響信号を、チャネル及び周波数によって、マルチチャネル出力チャネルにレンダリングすることができる。レンダラ１２０は、マルチチャネル音響信号に対して、オーバーヘッドチャネルと水平面チャネルとによる信号を、それぞれ３Ｄ（dimensional）レンダリング及び２Ｄ（dimensional）レンダリングすることができる。レンダラの構成、及び具体的レンダリング方法については、以下図２でさらに詳細に説明する。

ミキサ１３０は、レンダラ１２０によって水平チャネルと対応した各チャネルの信号を合わせ、最終信号として出力することができる。ミキサ１３０は、所定区間別に、各チャネルの信号をミキシングすることができる。例えば、ミキサ１３０は、１フレーム別に各チャネルの信号をミキシングすることができる。

一実施形態によるミキサ１３０は、再生される各チャネルにレンダリングされた信号のパワー値に基づいて、ミキシングすることができる。言い換えれば、ミキサ１３０は、再生される各チャネルにレンダリングされた信号のパワー値に基づいて、最終信号の振幅、または最終信号に適用されるゲイン（gain）を決定することができる。

後処理部１４０は、ミキサ１３０の出力信号を、各再生装置（スピーカまたはヘッドフォンなど）に合わせ、マルチバンド信号に対する動的範囲制御及びbinauralizingなどを行う。後処理部１４０で出力された出力音響信号は、スピーカなどの装置を介して出力され、出力音響信号は、各構成部の処理によって、２Ｄまたは３Ｄで再生される。

図１に図示された一実施形態の一立体音響再生装置１００は、オーディオデコーダの構成を中心に図示されており、付随的な構成は省略されている。

図２は、一実施形態による立体音響再生装置の構成のうち、デコーダ及び立体音響レンダラの構成を示すブロック図である。図２を参照すれば、一実施形態による立体音響再生装置１００は、デコーダ１１０及び立体音響レンダラ１２０の構成を中心に図示されており、それ以外の構成は省略されている。

立体音響再生装置に入力された音響信号は、エンコーディングされた信号であり、ビットストリームの形態で入力される。デコーダ１１０は、入力音響信号を、音響信号がエンコーディングされた方式に適するデコーダツールを選択し、入力された音響信号をデコーディングし、デコーディングされた音響信号を立体音響レンダラ１２０に伝達する。

高度レンダリングを行えば、水平面チャネルだけで構成された５．１チャネルレイアウトによっても、仮想の立体（３Ｄ）高度音像を得ることができる。かような高度レンダリングアルゴリズムは、空間音色フィルタリング過程と空間位置パンニング過程とを含む。

立体音響レンダラ１２０は、フィルタ係数とパンニング係数とを獲得して更新する初期化部１２１、及びフィルタリングとパンニングとを行うレンダリング部１２３から構成される。

レンダリング部１２３は、デコーダから伝達された音響信号に対して、フィルタリング及びパンニングを行う。空間音色フィルタリング１２３１は、音の位置に係わる情報を処理し、レンダリングされた音響信号が所望位置で再生されるようにし、空間位置パンニング１２３２は、音の音色に係わる情報を処理し、レンダリングされた音響信号が、所望位置に適する音色を有するようにする。

空間音色フィルタリング１２３１は、ＨＲＴＦ（head related transfer function、頭伝達関数）モデリングに基づいた音色を補正するように設計され、入力チャネルが出力チャネルに伝播される経路差を反映させる。例えば、１〜１０ｋＨｚの周波数帯域信号については、エネルギーを増幅し、それ以外の周波数帯域については、エネルギーを低下させるように補正することにより、さらに自然な音色を有するようにすることができる。

空間位置パンニング１２３２は、マルチチャネルパンニングを介して、オーバーヘッド音像を提供するように設計される。それぞれの入力チャネルには、互いに異なるパンニング係数（ゲイン）が適用される。空間位置パンニングを行えば、オーバーヘッド音像を得ることができるが、チャネル間類似度が高くなり、全体オーディオシーン（scene）の相関度を上昇させる。相関度がない（highly uncorrelated）オーディオシーンに対して仮想レンダリングを行う場合、レンダリング品質が劣化される現象を防止するために、オーディオシーンの特性に基づいて、レンダリングタイプを決定するようにする。

または、音響信号の制作時、音響信号制作者（創作者）の意図によって、レンダリングタイプを決定することができる。かような場合、制作者が、音響信号に対して、手動（manual）で当該音響信号のレンダリングタイプに係わる情報を決定することができ、音響信号にレンダリングタイプを決定するパラメータを含めることができる。

例えば、エンコーダでエンコーディングされたデータフレームに、レンダリングタイプを決定するパラメータであるrendering３ＤTypeのような付加情報を生成し、デコーダに伝送する。デコーダにおいては、rendering３ＤType情報を確認し、rendering３ＤTypeが３Ｄレンダリングタイプを示るものであるならば、空間音色フィルタリング及び空間位置パンニングを行うようにし、２Ｄレンダリングタイプを示すものであるならば、空間音色フィルタリング及び一般パンニングを行うようにする。

このとき、一般パンニングは、入力音響信号の高度角情報は考慮せず、水平角情報に基づいて、マルチチャネル信号をパンニングする。かような一般パンニングを経た音響信号は、高度感を有する音像を提供しないので、水平面上の二次元音像がユーザに伝達される。

３Ｄレンダリングに適用される空間位置パンニングは、周波数別に互いに異なるパンニング係数を有することができる。

このとき、フィルタリングを行うためのフィルタ係数、及びパンニングを行うためのパンニング係数は、初期化部１２１から伝達される。初期化部１２１は、高度レンダリングパラメータ獲得部１２１１及び高度レンダリングパラメータ更新部１２１２から構成される。

高度レンダリングパラメータ獲得部１２１１は、出力チャネル、すなわち、ラウドスピーカの構成及び配置を利用して、高度レンダリングパラメータの初期値を獲得する。このとき、高度レンダリングパラメータの初期値は、標準レイアウトによる出力チャネルの構成、及び高度レンダリング設定による入力チャネルの構成に基づいて、高度レンダリングパラメータの初期値を算出するか、あるいは入力／出力チャネル間のマッピング関係によって、既保存の初期値を読み取る。高度レンダリングパラメータは、空間音色フィルタリング１２３１で利用するためのフィルタ係数、または空間位置パンニング１２３２で利用するためのパンニング係数を含んでもよい。

しかし、前述のように、高度レンダリングのための高度設定値が、入力チャネルの設定と偏差が存在することがある。かような場合、固定された高度設定値を利用すれば、本来の入力立体音響信号を、入力チャネルと構成が異なる出力チャネルを介して、さらに類似して立体的に再生する仮想レンダリングの目的を達成し難い。

一例として、高度感が過度に高い場合、音像が狭くて音質が劣化される現象が発生し、高度感が過度に低い場合、仮想レンダリングの効果を感じ難いという問題が発生する。従って、ユーザの設定によるか、あるいは入力チャネルに適する仮想レンダリング程度によって、高度感を調節することが必要である。

高度レンダリングパラメータ更新部１２１２は、高度レンダリングパラメータ獲得部１２１１で獲得した高度レンダリングパラメータの初期値を、入力チャネルの高度情報またはユーザ設定高度に基づいて、高度レンダリングパラメータを更新する。このとき、もし出力チャネルのスピーカレイアウトが、標準レイアウトと比較して偏差が存在するのであれば、それによる影響を補正するための過程が追加される。このときの出力チャネル偏差は、高度角差または方位角差による偏差情報を含んでもよい。

初期化部１２１で獲得及び更新された高度レンダリングパラメータを利用して、レンダリング部１２３において、フィルタリング及びパンニングを終えた出力音響信号は、各出力チャネルに対応するスピーカを介して再生される。

図３は、一実施形態による、複数個の入力チャネルが複数個の出力チャネルにダウンミックスされる場合の各チャネルのレイアウトに係わる図面である。

図３は、一実施形態による、複数個の入力チャネルが、複数個の出力チャネルにダウンミックスされる場合の各チャネルのレイアウトに係わる図面である。

三次元映像のように、実際と同一であるか、あるいはさらに誇張された現場感及び没入感を提供するために、三次元立体映像と共に、三次元立体音響を提供するための技術が開発されている。立体音響は、音響信号自体が音の高低及び空間感を有する音響を意味するものであり、かような立体音響を再生するためには、最小２個以上のラウドスピーカ、すなわち、出力チャネルが必要である。また、ＨＲＴＦを利用するバイノーラル（binaural）立体音響を除いては、音の高低感、距離感及び空間感をさらに正確に再現するために、多数の出力チャネルを必要とする。

従って、２チャネル出力を有するステレオシステムに続き、５．１チャネルシステム、Auro ３Ｄシステム、Holman １０．２チャネルシステム、ＥＴＲＩ／Samsung １０．２チャネルシステム、ＮＨＫ２２．２チャネルシステムなど多様なマルチチャネルシステムが提案されて開発されている。

図３は、２２．２チャネルの立体音響信号を、５．１チャネルの出力システムで再生する場合について説明するための図面である。

５．１チャネルシステムは、５チャネルサラウンドマルチチャネルサウンドシステムの一般的な名称であり、家庭のホームシアター及び劇場用サウンドシステムで最も普遍的に普及されて使用されているシステムである。全ての５．１チャネルは、ＦＬ（front left）チャネル、Ｃ（center）チャネル、ＦＲ（front right）チャネル、ＳＬ（surround left）チャネル及びＳＲ（surround right）チャネルを含む。図３から分かるように、５．１チャネルの出力は、いずれも同じ平面上に存在するために、物理的には、二次元システムに該当し、５．１チャネルシステムで三次元立体音響信号を再生するためには、再生される信号に立体感を付与するためのレンダリング過程を経ければならない。

５．１チャネルシステムは、映画だけではなく、ＤＶＤ（digital versatile disc）映像、ＤＶＤ音響、ＳＡＣＤ（super audio compact disc）またはデジタル放送に至るまで多様な分野で広く使用されている。しかし、５．１チャネルシステムが、たとえステレオシステムに比べ、向上した空間感を提供するとしても、２２．２チャネルのような多チャネルオーディオ表現方式より広い聴取空間の形成において、さまざまな制約がある。特に、仮想レンダリングを行う場合、スイートスポットが狭く形成され、一般レンダリングを行う場合、高度角（elevation angle）を有する垂直音像の提供が不可能であるために、劇場のように広い聴取空間には不適である。

ＮＨＫで提案した２２．２チャネルシステムは、図３のように、３層の出力チャネルからなる。アッパレイヤ（upper layer）３１０は、ＶＯＧ（voice of god）チャネル、Ｔ０チャネル、Ｔ１８０チャネル、ＴＬ４５チャネル、ＴＬ９０チャネル、ＴＬ１３５チャネル、ＴＲ４５チャネル、ＴＲ９０チャネル及びＴＲ４５チャネルを含む。このとき、各チャネル名称の最前のＴというインデックスは、アッパレイヤを意味し、ＬまたはＲというインデックスは、それぞれ左側または右側を意味し、後ろの数字は、中心チャネル（center channel）からの方位角（azimuth angle）を意味する。アッパレイヤは、またトップレイヤとも呼ばれる。

ＶＯＧチャネルは、聴取者の頭上に存在するチャネルであり、９０°の高度角を有し、方位角はない。ただし、ＶＯＧチャネルは、位置が少しだけずれても、方位角を有し、高度角が９０°ではない値を有することになるので、それ以上ＶＯＧチャネルではなくなる。

ミドルレイヤ（middle laye）３２０は、既存５．１チャネルのような平面であり、５．１チャネルの出力チャネル以外に、ＭＬ６０チャネル、ＭＬ９０チャネル、ＭＬ１３５チャネル、ＭＲ６０チャネル、ＭＲ９０チャネル及びＭＲ１３５チャネルを含む。このとき、各チャネル名称の最前のＭというインデックスは、ミドルレイヤを意味し、後ろの数字は、中心チャネルからの方位角を意味する。

ローレイヤ（low layer）３３０は、Ｌ０チャネル、ＬＬ４５チャネル、ＬＲ４５チャネルを含む。このとき、各チャネル名称の最前のＬというインデックスは、ローレイヤを意味し、後ろの数字は中心チャネルからの方位角を意味する。

２２．２チャネルにおいてミドルレイヤは、水平チャネル（horizontal channel）と呼び、方位角０°または方位角１８０°に該当するＶＯＧチャネル、Ｔ０チャネル、Ｔ１８０チャネル、Ｔ１８０チャネル、Ｍ１８０チャネル、Ｌチャネル及びＣチャネルは、垂直チャネル（vertical channel）と呼ぶ。

２２．２チャネル入力信号を５．１チャネルシステムで再生する場合、最も一般的な方法は、ダウンミックス数式を利用して、チャネル間信号を分配することである。または、仮想の高度感を提供するレンダリングを行い、５．１チャネルシステムで高度感を有する音響信号を再生する。

図４は、一実施形態によるレンダラフォーマット変換器の主要構成部を示したブロック図である。

レンダラは、Ｎin個のチャネルを有するマルチチャネル入力信号を、Ｎout個のチャネルを有する再生フォーマットに変換するダウンミキサであり、フォーマット変換器とも呼ぶ。このとき、Ｎout＜Ｎinである。図４は、レンダラの構成を、ダウンミックス観点で構成したフォーマット変換器の主要構成部を図示したブロック図である。

エンコーディングされた音響信号は、ビットストリームの形態で、コアデコーダ１１０に入力される。コアデコーダ１１０に入力された信号は、エンコーディング方式に適するデコーダツールによってデコーディングされて、フォーマット変換器１２５に入力される。

フォーマット変換器１２５は、２つのメインブロックから構成される。第１のものは、入力フォーマット及び出力フォーマットのような静的パラメータを担当する初期化アルゴリズムを遂行するダウンミックス構成部１２５１である。第２のものは、初期化アルゴリズムによって獲得されたダウンミックスパラメータに基づいて、ミキサ出力信号をダウンミックスするダウンミックス部１２５２である。

ダウンミックス構成部１２５１は、入力チャネル信号のレイアウトに該当するミキサ出力レイアウトと、出力チャネルのレイアウトに該当する再生レイアウトとに基づいて、最適化されたダウンミックスパラメータを生成する。ダウンミックスパラメータは、ダウンミックスマトリックスでもあり、与えられた入力フォーマットと出力チャネルとの可能な組み合わせによって決定される。

このとき、それぞれの入力チャネルに対して、心理音響を考慮し、マッピング規則リストのうち最も適するマッピング規則によって、出力ラウドスピーカ（出力チャネル）を選択するアルゴリズムが適用される。マッピング規則は、１つの入力チャネルを、１またはいくつもの出力ラウドスピーカチャネルにマッピングするようになっている。

入力チャネルは、１つの出力チャネルにマッピングされるか、あるいは２つの出力チャネルにパンニングされ、ＶＯＧチャネルのような場合には、いくつもの出力チャネルに分配される。または、周波数によって、互いに異なるパンニング係数を有する複数個の出力チャネルにパンニングされ、臨場感を有するようにレンダリング（immersive rendering）されもする。５．１チャネルのように、水平チャネルのみを有する出力チャネルである場合、出力信号が臨場感を有するためには、仮想の高度（高さ）チャネルを有さなければならないので、高度レンダリングが適用される。

それぞれの入力チャネルに対する最適のマッピングは、所望出力フォーマットにおいて、レンダリング可能な出力ラウドスピーカのリストによって選択されて生成されるマッピングパラメータは、入力チャネルに対するダウンミックスゲインだけではなく、イコライザ（音色フィルタ）係数を含んでもよい。

ダウンミックスパラメータを生成する過程では、出力チャネルが標準レイアウトから外れた場合、例えば、高度（elevation）偏差または方位（azimuth）偏差がある場合だけではなく、距離偏差がある場合、それを考慮し、ダウンミックスパラメータを更新したり修正したりする過程が追加される。

ダウンミックス部１２５２は、コアデコーダの出力信号に含まれたレンダリングタイプを決定するパラメータによってレンダリングモードを決定し、決定されたレンダリングモードによって、コアデコーダのミキサ出力信号を周波数領域でダウンミックスする。このとき、レンダリングタイプを決定するパラメータは、マルチチャネル信号を符号化するエンコーダで決定され、コアデコーダによって復号されるマルチチャネル信号に含まれる。

レンダリングタイプを決定するパラメータは、音響信号の各フレームごとに決定され、フレーム内の付加情報を表示するフィールドに保存されもする。レンダラでレンダリングすることができるレンダリングタイプの個数が制限的であるならば、レンダリングタイプを決定するパラメータは、少ないビット数でも可能であり、例えば、２つのレンダリングタイプを表示する場合であるならば、１ビットを有するフラグによっても構成される。

ダウンミックス部１２５２においては、周波数領域、ハイブリッドＱＭＦ（hybrid quadrature mirror filter）サブバンド領域で遂行され、コムフィルタ（comb filtering）、音色化（coloration）または信号変調（modulation）の欠陥によって発生する信号劣化を防止するために位相整列（phase alignment）及びエネルギー正規化を行う。

位相整列は、相関度があるが、位相が異なる入力信号を、ダウンミキシング前に位相を合わせる。位相整列過程は、関連チャネルのみを、関連時間・周波数タイルに対して整列し、入力信号の他の部分が変更されないように留意しなければならない。また、位相整列は、整列のために、位相を修正する間隔が早く変化するために、欠陥が発生しないように留意しなければならない。

位相整列過程を経れば、制限された周波数解像度のために発生するエネルギー正規化によっても補償することができない、狭いスペクトルノッチを避けることができ、出力信号の品質が向上する。また、エネルギー保存正規化において、信号を増幅させる必要がないために、変調欠陥を減らすことができる。

高度レンダリングの場合、高周波帯域の入力信号については、レンダリングされたマルチチャネル信号の正確な同期化（synchronization）のために位相整列を行わない。

ダウンミックス過程においてエネルギー正規化は、入力エネルギーを保存するために行われ、ダウンミックスマトリックス自体で、エネルギースケーリングを行う場合は該当しない。

図５は、一実施形態による、レンダリングタイプ決定パラメータに基づいて、レンダリングタイプ及びダウンミックスマトリックスを選択する選択部の構成を示したものである。

本発明の一実施形態によれば、レンダリングタイプを決定するパラメータに基づいて、レンダリングタイプを決定し、決定されたレンダリングタイプによってレンダリングを行う。レンダリングタイプを決定するパラメータが１ビットの大きさを有するrendering３ＤTypeというフラグであると仮定すれば、選択部は、rendering３ＤTypeが１（TRUE）であれば、３Ｄレンダリングを行い、rendering３ＤTypeが０（FALSE）であれば、２Ｄレンダリングを行うように動作し、rendering３ＤTypeの値によってスイッチングされる。

このとき、３Ｄレンダリングのためのダウンミックスマトリックスは、Ｍ＿ＤＭＸが選択され、２Ｄレンダリングのためのダウンミックスマトリックスは、Ｍ＿ＤＭＸ２に選択される。それぞれのダウンミックスマトリックスＭ＿ＤＭＸ及びＭ＿ＤＭＸ２は、図２の初期化部１２１、または図４のダウンミックス構成部１２５１で決定される。Ｍ＿ＤＭＸは、負ではない実数であるダウンミックス係数（ゲイン）を含む、空間高度レンダリングのための基本ダウンミックスマトリックスであり、Ｍ＿ＤＭＸの大きさは、（ＮoutｘＮin）であり、このとき、Ｎoutは、出力チャネルの個数であり、Ｎinは、入力チャネルの個数である。Ｍ＿ＤＭＸ２は、負ではない実数であるダウンミックス係数（ゲイン）を含む、音色（timbral）高度レンダリングのためのダウンミックスマトリックスであり、Ｍ＿ＤＭＸ２の大きさは、Ｍ＿ＤＭＸと同様に（ＮoutｘＮin）である。

入力信号は、選択されたレンダリングタイプによって、各レンダリングタイプに適するダウンミックスマトリックスを利用して、ハイブリッドＱＭＦ周波数サブバンド別にダウンミックスされる。

図６は、一実施形態によるレンダリングタイプ決定パラメータに基づいて、レンダリングタイプ構成を決定するシンタックスを示している。

図５と同様に、レンダリングタイプを決定するパラメータは、１ビットの大きさを有するrendering３ＤTypeフラグであり、RenderingTypeＣｏｎｆｉｇ（）は、フォーマット変換のための適切なレンダリングタイプを定義する。

rendering３ＤTypeは、エンコーダで生成される。このとき、rendering３ＤTypeは、音響信号のオーディオシーンに基づいて決定され、オーディオシーンが広帯域（wideband）や、雨の音や拍手音などのように、相関度が低い（highly decorrelated）信号であるならば、rendering３ＤTypeは、FALSEになり、２ＤレンダリングのためのダウンミックスマトリックスＭ＿ＤＭＸ２を利用してダウンミックスする。その以外の場合、一般的なオーディオシーンに対して、rendering３ＤTypeは、TRUEになり、３ＤレンダリングのためのダウンミックスマトリックスＭ＿ＤＭＸを利用して、ダウンミックスする。

または、rendering３ＤTypeは、音響信号制作者（創作者）の意図によっても決定され、創作者が２Ｄレンダリングを行うように設定された音響信号（フレーム）については、２ＤレンダリングのためのダウンミックスマトリックスＭ＿ＤＭＸ２を利用してダウンミックスし、それ以外の場合、一般的なオーディオシーンに対して、rendering３ＤTypeは、TRUEになり、３ＤレンダリングのためのダウンミックスマトリックスＭ＿ＤＭＸを利用してダウンミックスする。

このとき、３Ｄレンダリングを行う場合は、空間音色フィルタリングと空間位置パンニングとをいずれも行うが、２Ｄレンダリングを行う場合は、空間音色フィルタリングのみを行う。

図７は、一実施形態による音響信号をレンダリングする方法のフローチャートである。

コアデコーダ１１０で復号されたマルチチャネル信号が、フォーマット変換器１２５またはレンダラ１２０に入力されれば、入力チャネルと出力チャネルとの標準レイアウトに基づいて、レンダリングパラメータの初期値を獲得する（７１０）。このとき、獲得されるレンダリングパラメータの初期値は、レンダラ１２０でレンダリング可能なレンダリングタイプによってそれぞれ異なるように決定され、音響信号再生システムのＲＯＭ（read only memory）のような不揮発性メモリに保存されている。

高度レンダリングパラメータの初期値は、標準レイアウトによる出力チャネルの構成及び高度レンダリング設定による入力チャネルの構成に基づいて、高度レンダリングパラメータの初期値を算出するか、あるいは入力／出力チャネル間のマッピング関係によって既保存の初期値を読み取る。高度レンダリングパラメータは、図２のフィルタリング部１２５１で利用するためのフィルタ係数、またはパンニング部１２５２で利用するためのパンニング係数を含んでもよい。

このとき、入出力チャネルのレイアウトがいずれも標準レイアウトと一致するのであるならば、７１０で獲得したレンダリングパラメータの初期値を利用して、レンダリングを行うことができる。しかし、レンダリングのための高度設定値が、入力チャネルの設定と偏差が存在するか、あるいはラウドスピーカが実際に設置されたレイアウトが、出力チャネルの標準レイアウトと偏差が存在する場合、７１０で獲得した初期値をそのままレンダリングに利用する場合、音像の歪曲、またはレンダリングされた信号が本来の位置ではないところに出力される現象が発生する。

従って、入出力チャネルの標準レイアウトと実際レイアウトとの偏差に基づいて、レンダリングパラメータを更新する（７２０）。このとき、更新されるレンダリングパラメータは、レンダラ１２０でレンダリング可能なレンダリングタイプによってそれぞれ異なるように決定される。

更新されたレンダリングパラメータは、それぞれのレンダリングタイプによって、ハイブリッドＱＭＦサブバンド別に、ＮinｘＮoutの大きさを有するマトリックスの形態で示され、Ｎinは、入力チャネルの個数を意味し、Ｎoutは、出力チャネルの個数を意味する。このとき、レンダリングパラメータを示すマトリックスをダウンミックスマトリックスと呼び、各レンダリングタイプによって、３Ｄレンダリングのためのダウンミックスマトリックスは、Ｍ＿ＤＭＸであり、２Ｄレンダリングのためのダウンミックスマトリックスは、Ｍ＿ＤＭＸ２とする。

ダウンミックスマトリックスＭ＿ＤＭＸ及びＭ＿ＤＭＸ２が決定されれば、レンダリングタイプを決定するパラメータに基づいて、現在フレームに適するレンダリングタイプを決定する（７３０）。

レンダリングタイプを決定するパラメータは、コアデコーダに入力されるビットストリームに含まれ、エンコーダで音響信号をエンコーディングするときに生成し、ビットストリームに含めることができる。レンダリングタイプを決定するパラメータは、現在フレームのオーディオシーン特性によって決定されるが、音響信号に、拍手音や雨の音のようにトランジェント（transient）信号が多い場合は、瞬間的であって一時的な信号が多く、チャネル相関度が低く示される特性を有する。

チャネル間相関度が低い信号、または多数の入力チャネルに、トーナル（tonal）ではない広帯域（wideband）信号が存在するか、あるいは信号のレベルがチャネル別に類似した場合、または短区間のインパルス状が反復される場合は、１チャネルにいくつものチャネルの信号がダウンミックスされる場合であり、周波数相互干渉による相殺効果が発生し、音色が異なるphaseyness現象、及び１チャネルにトランジェントの個数が増加して白色化（whitening）される音色歪曲現象が発生する。

かような場合であるならば、、三次元レンダリングにおいて、空間高度レンダリング（spatial elevation rendering）を行うより、二次元レンダリングにおいて、音色高度レンダリング（timbral elevation rendering）を行うことが望ましい。

従って、オーディオシーンの特性を分析した結果、一般的な場合であるならば、レンダリングタイプを三次元レンダリングに決定し、オーディオシーンの特性が、広帯域信号が存在するか、あるいはチャネル間相関度が低い場合であるならば、レンダリングタイプを二次元レンダリングに決定することができる。

現在フレームに適するレンダリングタイプが決定されれば、決定されたレンダリングタイプによるレンダリングパラメータを獲得し（７４０）、獲得されたレンダリングパラメータに基づいて、現在フレームをレンダリングする（７５０）。

決定されたレンダリングタイプが３Ｄレンダリングであるならば、ダウンミックスマトリックスが保存された保存部から、３ＤレンダリングのためのダウンミックスマトリックスＭ＿ＤＭＸを獲得することができ、ダウンミックスマトリックスＭ＿ＤＭＸは、ハイブリッドＱＭＦサブバンド別に、ＮinｘＮoutの大きさを有するマトリックスで、１つのハイブリッドＱＭＦサブバンドに対するＮin個入力チャネルの信号を、Ｎout個の出力チャネルにダウンミックスする。

決定されたレンダリングタイプが２Ｄレンダリングであるならば、ダウンミックスマトリックスが保存された保存部から、２ＤレンダリングのためのダウンミックスマトリックスＭ＿ＤＭＸ２を獲得することができ、ダウンミックスマトリックスＭ＿ＤＭＸ２は、ハイブリッドＱＭＦサブバンド別に、ＮinｘＮoutの大きさを有するマトリックスで、１つのハイブリッドＱＭＦサブバンドに対するＮin個入力チャネルの信号を、Ｎout個出力チャネルにダウンミックスする。

現在フレームに適するレンダリングタイプを決定し（７３０）、レンダリングタイプによるレンダリングパラメータを獲得し（７４０）、獲得されたレンダリングパラメータに基づいて、現在フレームをレンダリングする（７５０）過程は、各フレームごとに遂行され、コアデコーダでデコーディングされたマルチチャネル信号の入力が終わるまで反復される。

図８は、一実施形態による、レンダリングタイプに基づいて、音響信号をレンダリングする方法のフローチャートである。図８の実施形態では、入出力チャネルの関係から、高度レンダリング可能いかんを判断する（８１０）過程が追加されている。かような高度レンダリング可能いかんに係わる判断は、入力チャネル及び再生レイアウトによるダウンミックス規則の優先順位によって行われる。

入力チャネル及び出力チャネルのレイアウトによるダウンミックス規則によって、高度レンダリングを行うことができなければ、一般レンダリングを行うために、一般レンダリングのためのレンダリングパラメータを獲得する（８５０）。

段階８１０の判断結果、高度レンダリングが可能であるならば、高度レンダリングタイプパラメータからレンダリングタイプを決定する（８２０）。高度レンダリングタイプパラメータが２Ｄレンダリングを示しものであるならば、レンダリングタイプは、２Ｄレンダリングに決定され、２Ｄレンダリングを行うための２Ｄレンダリングパラメータを獲得する（８３０）。一方、高度レンダリングタイプパラメータが、３Ｄレンダリングを示るものであるならば、レンダリングタイプは、３Ｄレンダリングに決定され、３Ｄレンダリングを行うための３Ｄレンダリングパラメータを獲得する（８４０）。

かような過程によって獲得されたレンダリングパラメータは、１つの入力チャネルに対するレンダリングパラメータであり、各入力チャネルに対して同一過程を反復し、チャネル別レンダリングパラメータを獲得し、それを利用して、全体入力チャネルに対する全体ダウンミックスマトリックスを獲得する（８６０）。ダウンミックスマトリックスは、入力チャネル信号を出力チャネル信号にダウンミックスしてレンダリングするためのマトリックスであり、ハイブリッドＱＭＦサブバンド別に、ＮinｘＮoutのサイズを有する。

ダウンミックスマトリックスが獲得されれば、獲得されたダウンミックスマトリックスを利用して、入力チャネル信号をダウンミキシングし（８７０）、レンダリングされた出力信号を生成する。

高度レンダリングタイプパラメータが、デコーディングされた信号のフレームごとに存在するものであるならば、図８に図示された８１０から８７０の過程は、各フレームごとに反復され、最後のフレームに対する処理が完了すれば、全体レンダリング過程が終わる。

このとき、一般レンダリングを行う場合は、全ての周波数帯域に対してアクティブダウンミックスを行うことがができ、高度レンダリングを行う場合は、低周波帯域に対してのみ位相整列を行い、高周波帯域については、位相整列を行わない。高周波帯域に対して位相整列を行わない理由は、先に言及したように、レンダリングされたマルチチャネル信号の正確な同期化のためである。

図９は、他の一実施形態による、レンダリングタイプに基づいて、音響信号をレンダリングする方法のフローチャートである。図９の実施形態では、出力チャネルが仮想チャネルであるか否かということを判断する（９１０）過程が追加されている。出力チャネルが仮想チャネルではないならば、高度レンダリングまたは仮想レンダリングを行う必要がないので、有効なダウンミックス規則の優先順位によって、一般レンダリング（non-elevation rendering）を行うようになる。従って、一般レンダリングを行うために、一般レンダリングのためのレンダリングパラメータを獲得する（９６０）。

出力チャネルが仮想チャネルであるならば、入出力チャネルの関係から、高度レンダリング可能いかんを判断する（９２０）。かような高度レンダリング可能いかんに対する判断は、入力チャネル及び再生レイアウトによるダウンミックス規則の優先順位によって行われる。

入力チャネル及び出力チャネルのレイアウトによるダウンミックス規則によって、高度レンダリングを行うことができなければ、一般レンダリングを行うために、一般レンダリングのためのレンダリングパラメータを獲得する（９６０）。

段階９２０の判断結果、高度レンダリングが可能であるならば、高度レンダリングタイプパラメータから、レンダリングタイプを決定する（９３０）。高度レンダリングタイプパラメータが２Ｄレンダリングを示すものであるならば、レンダリングタイプは、２Ｄレンダリングに決定され、２Ｄレンダリングを行うための２Ｄレンダリングパラメータを獲得する（９４０）。一方、高度レンダリングタイプパラメータが、３Ｄレンダリングを示すものであるならば、レンダリングタイプは３Ｄレンダリングに決定され、３Ｄレンダリングを行うための３Ｄレンダリングパラメータを獲得する（９５０）。

２Ｄレンダリングは、音色高度レンダリング（timbral elevation rendering）という用語と混用され、３Ｄレンダリングは、空間高度レンダリング（spatial elevation rendering）という用語と混用される。

かような過程によって獲得されたレンダリングパラメータは、１つの入力チャネルに対するレンダリングパラメータであり、各入力チャネルに対して、同一過程を反復し、チャネル別レンダリングパラメータを獲得し、それを利用して、全体入力チャネルに対する全体ダウンミックスマトリックスを獲得する（９７０）。ダウンミックスマトリックスは、入力チャネル信号を出力チャネル信号にダウンミックスしてレンダリングするためのマトリックスであり、ハイブリッドＱＭＦサブバンド別に、ＮinｘＮoutのサイズを有する。

ダウンミックスマトリックスが獲得されれば、獲得されたダウンミックスマトリックスを利用して、入力チャネル信号をダウンミキシングし（９８０）、レンダリングされた出力信号を生成する。

高度レンダリングタイプパラメータが、デコーディングされた信号のフレームごとに存在するものであるならば、図９に図示された９１０から９８０の過程は、各フレームごとに反復され、最後のフレームに対する処理が完了すれば、全体レンダリング過程が終わる。

以上で説明した本発明による実施形態は、多様なコンピュータ構成要素を介して実行されるプログラム命令語の形態で具現され、コンピュータ可読記録媒体に記録される。前記コンピュータ可読記録媒体は、プログラム命令語、データファイル、データ構造などを、単独でまたは組み合わせて含んでもよい。前記コンピュータ可読記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものであるか、あるいはコンピュータソフトウェア分野の当業者に公知されて使用可能なものでもある。コンピュータ可読記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体；ＣＤ（compact disc）−ＲＯＭ及びＤＶＤのような光記録媒体；フロプティカルディスク（floptical disk）のような磁気・光媒体（magneto-optical medium）；及びＲＯＭ、ＲＡＭ（random access memory）、フラッシュメモリのような、プログラム命令語を保存して実行するように特別に構成されたハードウェア装置；が含まれる。プログラム命令語の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードも含まれる。ハードウェア装置は、本発明による処理を行うために、１以上のソフトウェアモジュールに変更され、その逆も同じである。

以上、本発明について、具体的な構成要素のような特定事項、限定された実施形態、及び図面によって説明したが、それらは、本発明のさらに全般的な理解の一助とするために提供されたものであるのみ、本発明が、前記実施形態に限定されるものではなく、本発明が属する技術分野で当業者であるならば、かような記載から、多様な修正と変更よを図ることができるであろう。

従って、本発明の思想は、前述の実施形態に限って決められるものではなく、特許請求の範囲だけではなく、該特許請求の範囲と均等であるか、あるいはそれらから等価的に変更された全ての範囲は、本発明の思想の範疇に属するとするのである。

Claims

音響信号をレンダリングする方法において、
複数個の出力チャネルに変換される複数個の入力チャネルを含むマルチチャネル信号を受信する段階と、
前記マルチチャネル信号の特徴から決定されたパラメータに基づいて、高度レンダリングのためのレンダリングタイプを決定する段階と、
少なくとも１つの高さ入力チャネルを、前記決定されたレンダリングタイプによってレンダリングする段階と、を含み、
前記パラメータは、前記マルチチャネル信号のビットストリームに含まれる音響信号をレンダリングする方法。
前記マルチチャネル信号は、コアデコーダによって復号される信号であることを特徴とする請求項１に記載の音響信号をレンダリングする方法。
前記レンダリングタイプを決定する段階は、
前記マルチチャネル信号のフレームごとにレンダリングタイプを決定することを特徴とする請求項１に記載の音響信号をレンダリングする方法。
前記レンダリングする段階は、
高さ入力チャネルに、前記決定されたレンダリングタイプによって獲得される、互いに異なるダウンミックスマトリックスを適用することを特徴とする請求項１に記載の音響信号をレンダリングする方法。
出力信号を仮想レンダリング出力するか否かということを判断する段階をさらに含み、
前記判断結果、出力信号が仮想レンダリング出力ではない場合、前記レンダリングタイプを決定する段階は、高度レンダリングを行わないようにレンダリングタイプを決定することを特徴とする請求項１に記載の音響信号をレンダリングする方法。
前記レンダリングする段階は、
空間音色フィルタリングを行う段階を含み、
前記決定されたレンダリングタイプが三次元レンダリングタイプであるならば、空間位置パンニングを行い、
前記決定されたレンダリングタイプが二次元レンダリングタイプであるならば、一般パンニングを行う段階をさらに含むことを特徴とする請求項１に記載の音響信号をレンダリングする方法。
前記空間音色フィルタリングを行う段階は、
ＨＲＴＦ（head related transfer function）に基づいて音色を補正することを特徴とする請求項６に記載の音響信号をレンダリングする方法。
前記空間位置パンニングを行う段階は、
前記マルチチャネル信号をパンニングしてオーバーヘッド音像を生成することを特徴とする請求項６に記載の音響信号をレンダリングする方法。
前記一般パンニングを行う段階は、水平角に基づいて、前記マルチチャネル信号をパンニングして水平面上の音像を生成することを特徴とする請求項６に記載の音響信号をレンダリングする方法。
前記パラメータは、オーディオシーンの属性に基づいて決定されることを特徴とする請求項１に記載の音響信号をレンダリングする方法。
前記オーディオシーンの属性は、入力音響信号のチャネル相関度、及び音響信号の帯域幅のうち少なくとも一つを含むことを特徴とする請求項１０に記載の音響信号をレンダリングする方法。
前記パラメータは、エンコーダで生成されることを特徴とする請求項１に記載の音響信号をレンダリングする方法。
音響信号をレンダリングする装置において、
複数個の出力チャネルに変換される複数個の入力チャネルを含むマルチチャネル信号を受信する受信部と、
前記マルチチャネル信号の特徴から決定されたパラメータに基づいて、高度レンダリングのためのレンダリングタイプを決定する決定部と、
少なくとも１つの高さ入力チャネルを、前記決定されたレンダリングタイプによってレンダリングするレンダリング部と、を含み、
前記パラメータは、前記マルチチャネル信号のビットストリームに含まれる音響信号をレンダリングする装置。
前記装置は、コアデコーダをさらに含み、
前記マルチチャネル信号は、前記コアデコーダによって復号される信号であることを特徴とする請求項１３に記載の音響信号をレンダリングする装置。
前記決定部は、
前記マルチチャネル信号のフレームごとにレンダリングタイプを決定することを特徴とする請求項１３に記載の音響信号をレンダリングする装置。
前記レンダリング部は、
高さ入力チャネルに、前記決定されたレンダリングタイプによって獲得される、互いに異なるダウンミックスマトリックスを適用することを特徴とする請求項１３に記載の音響信号をレンダリングする装置。
出力信号を仮想レンダリング出力するか否かということを判断する判断部をさらに含み、
前記判断結果、出力信号を仮想レンダリング出力しない場合、前記決定部は、高度レンダリングを行わないようにレンダリングタイプを決定することを特徴とする請求項１３に記載の音響信号をレンダリングする装置。
前記レンダラは、
空間音色フィルタリングを行い、
前記決定されたレンダリングタイプが三次元レンダリングタイプであるならば、空間位置パンニングをさらに行い、
前記決定されたレンダリングタイプが二次元レンダリングタイプであるならば、一般パンニングをさらに行うことを特徴とする請求項１３に記載の音響信号をレンダリングする装置。
前記空間音色フィルタリングは、
ＨＲＴＦ（head related transfer function）に基づいて音色を補正することを特徴とする請求項１８に記載の音響信号をレンダリングする方法。
前記空間位置パンニングは、
前記マルチチャネル信号をパンニングしてオーバーヘッド音像を生成することを特徴とする請求項１８に記載の音響信号をレンダリングする装置。
前記一般パンニングは、水平角に基づいて、前記マルチチャネル信号をパンニングして水平面上の音像を生成することを特徴とする請求項１８に記載の音響信号をレンダリングする装置。
前記パラメータは、オーディオシーンの属性に基づいて決定されることを特徴とする請求項１３に記載の音響信号をレンダリングする装置。
前記オーディオシーンの属性は、入力音響信号のチャネル相関度、及び音響信号の帯域幅のうち少なくとも一つを含むことを特徴とする請求項２２に記載の音響信号をレンダリングする装置。
前記パラメータは、エンコーダで生成されることを特徴とする請求項１３に記載の音響信号をレンダリングする装置。
請求項１ないし１２のうちいずれか１項に記載の方法を実行するためのコンピュータプログラムを記録するコンピュータ可読記録媒体。