JP6797187B2

JP6797187B2 - オーディオ・デコーダおよびデコード方法

Info

Publication number: JP6797187B2
Application number: JP2018509898A
Authority: JP
Inventors: ジェローンブリーバート，ディルク; マシュークーパー，デイヴィッド; ジョナスサミュエルソン，レイフ
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション; ドルビー・インターナショナル・アーベー
Priority date: 2015-08-25
Filing date: 2016-08-23
Publication date: 2020-12-09
Anticipated expiration: 2036-08-23
Also published as: CN111970630A; EP3342188A1; KR20230048461A; AU2023202400A1; AU2016312404A1; CN108353242A; EP3748994B1; HK1257672A1; EA201890557A1; WO2017035163A1; JP2018529121A; US20200357420A1; CN111970629A; AU2021201082A1; US20230360659A1; US20220399027A1; AU2016312404A8; US11705143B2; EA034371B1; US11423917B2

Description

関連出願への相互参照
本願は2015年8月25日に出願された米国仮出願第62/209,742号および2015年10月8日に出願された欧州特許出願第15189008.4号の優先権を主張するものである。各出願の内容はここに参照によってその全体において組み込まれる。

技術分野
本発明は信号処理の分野に関し、特に、空間化成分をもつオーディオ信号の効率的な伝送のためのシステムを開示する。

明細書を通じた背景技術のいかなる議論も、決して、そのような技術が広く知られているまたは当該分野における技術常識の一部をなすことの自認と考えられるべきではない。

オーディオのコンテンツ生成、符号化、頒布および再生は伝統的にチャネル・ベースのフォーマットで実行されている。すなわち、コンテンツ・エコシステムを通じてコンテンツについて一つの特定の目標再生システムが考えられている。そのような目標再生システム・オーディオ・フォーマットの例は、モノ、ステレオ、5.1、7.1などである。

コンテンツが意図されたものとは異なる再生システムで再生される場合、ダウンミックスまたはアップミックス・プロセスが適用されることができる。たとえば、5.1コンテンツは、特定のダウンミックスの式を用いることによって、ステレオ再生システムで再生されることができる。もう一つの例は、ステレオ・エンコードされたコンテンツを7.1スピーカー・セットアップで再生することである。これは、いわゆるアップミックス・プロセスを含んでいてもよく、アップミックスはステレオ信号に存在している情報によって案内されることができることもあるし、またはできないこともある。アップミックス機能をもつ一つのシステムは、ドルビー・ラボラトリーズ社からのドルビー・プロ・ロジックである（非特許文献１）。

ステレオまたはマルチチャネルコンテンツがヘッドフォンで再生されるときは、頭部インパルス応答（HRIR: head-related impulse response）または両耳室内インパルス応答（BRIR: binaural room impulse response）によってマルチチャネル・スピーカー・セットアップをシミュレートすることが望ましいことがしばしばある。HRIRおよびBRIRは、それぞれ（シミュレートされた）無響環境または反響環境における、各ラウドスピーカーから鼓膜までの音響経路をシミュレートする。具体的には、両耳間レベル差（ILD: inter-aural level difference）、両耳間時間差（ITD: inter-aural time difference）およびスペクトル手がかりを復元して、聴取者がそれぞれの個別チャネルの位置を判別できるようにするために、オーディオ信号はHRIRまたはBRIRと畳み込みされることができる。音響環境（残響）のシミュレーションは、ある種の知覚される距離を達成することも助ける。

〈音源定位および仮想スピーカー・シミュレーション〉
ステレオ、マルチチャネルまたはオブジェクト・ベースのコンテンツがヘッドフォンで再生されるとき、頭部インパルス応答（HRIR）または両耳室内インパルス応答（BRIR）によってマルチチャネル・スピーカー・セットアップまたは一組の離散的な仮想音響オブジェクトをシミュレートすることが望ましいことがしばしばある。HRIRおよびBRIRは、それぞれ（シミュレートされた）無響環境または反響環境における、各ラウドスピーカーから鼓膜までの音響経路をシミュレートする。

具体的には、聴取者がそれぞれの個別チャネルまたはオブジェクトの位置を判別できるようにする両耳間レベル差（ILD）、両耳間時間差（ITD）およびスペクトル手がかりを復元するために、オーディオ信号はHRIRまたはBRIRと畳み込みされることができる。音響環境（早期の反射および後期の残響）のシミュレーションは、ある種の知覚される距離を達成することも助ける。

図１に目を転じると、四つのHRIR（たとえば１４）による処理のためにコンテンツ記憶部１２から読み出される二つのオブジェクトまたはチャネル信号x_i １３、１１をレンダリングするための処理フローの概略的な概観１０が示されている。HRIR出力は次いでそれぞれのチャネル信号について加算され（１５、１６）、ヘッドフォン１８を介した聴取者のための再生のためのヘッドフォン・スピーカー出力を生成する。HRIRの基本原理はたとえば非特許文献２に説明されている。

HRIR/BRIR畳み込み手法にはいくつかの欠点がある。その一つは、ヘッドフォン再生のために必要とされるかなりの処理量である。HRIRまたはBRIR畳み込みは、すべての入力オブジェクトまたはチャネルについて別個に適用される必要があり、よって計算量は典型的にはチャネルまたはオブジェクトの数とともに線形に増大する。ヘッドフォンは典型的にはバッテリー電源のポータブル装置との関連で使われるので、高い計算量は、バッテリー寿命を実質的に縮めるので、望ましくない。さらに、同時にアクティブな100個を超えるオブジェクトを含むことがあるオブジェクト・ベースのオーディオ・コンテンツの導入により、HRIR畳み込みの計算量は、伝統的なチャネル・ベースのコンテンツに対するよりも実質的に高くなることがある。

〈パラメトリック符号化技法〉
計算量は、コンテンツ・オーサリング、配送および再生に関わるエコシステム内でのチャネルまたはオブジェクト・ベースのコンテンツの送達のための唯一の問題ではない。多くの実際的な状況では、特にモバイル用途については、コンテンツ送達のために利用可能なデータ・レートは厳しい制約を受ける。消費者、放送局およびコンテンツ提供者は、48から192kbits/sの間の典型的なビットレートをもつ不可逆な知覚的オーディオ・コーデックを使ってステレオ（二チャネル）オーディオ・コンテンツを送達してきた。これらの通常のチャネル・ベースのオーディオ・コーデック、たとえばMPEG-1レイヤー3（非特許文献６）、MPEG AAC（非特許文献７）およびドルビー・デジタル（非特許文献８）は、チャネル数とともにほぼ線形にスケールするビットレートをもつ。結果として、何十またさらには何百ものオブジェクトの送達は、非実際的な、またさらには消費者送達目的のためには利用可能でないビットレートにつながる。

通常の知覚的オーディオ・コーデックを使ったステレオ・コンテンツ送達のために必要とされるビットレートに匹敵するビットレートで複雑なオブジェクト・ベースのコンテンツの送達を許容するために、いわゆるパラメトリック法が、ここ十年間にわたって研究開発の主題となってきた。これらのパラメトリック法は、比較的少数の基本信号からの多数のチャネルまたはオブジェクトの再構成を許容する。これらの基本信号は、送信側から受信側に伝達するには、通常のオーディオ・コーデックを、もとのオブジェクトまたはチャネルの再構成を許容するための追加的な（パラメトリック）情報で補強したものを使うことができる。そのような技法の例はパラメトリック・ステレオ（非特許文献３）、MPEGサラウンド（非特許文献４）およびMPEG空間的オーディオ・オブジェクト符号化（非特許文献５）である。

パラメトリック・ステレオおよびMPEGサラウンドのような技法の重要な側面は、これらの方法は単一のあらかじめ決定された呈示（たとえばパラメトリック・ステレオではステレオ・ラウドスピーカー、MPEGサラウンドでは5.1スピーカー）のパラメトリックな再構成をねらいとしていることである。MPEGサラウンドの場合、ヘッドフォンのために仮想的な5.1ラウドスピーカー・セットアップを生成するヘッドフォン仮想化器がデコーダに統合されることができる。該仮想的な5.1ラウドスピーカー・セットアップにおいて、仮想5.1スピーカーがラウドスピーカー再生のための5.1ラウドスピーカー・セットアップに対応する。結果として、ヘッドフォン呈示はラウドスピーカー呈示と同じ（仮想）ラウドスピーカー・レイアウトを表わすという点で、これらの呈示は独立ではない。他方、MPEG空間的オーディオ・オブジェクト符号化は、その後のレンダリングを必要とするオブジェクトの再構成をねらいとしている。

ここで図２に目を転じると、チャネルおよびオブジェクトをサポートするパラメトリック・システム２０が概観として記載されている。システムはエンコーダ２１およびデコーダ２２部分に分割される。エンコーダ２１はチャネルおよびオブジェクト２３を入力として受け取り、限られた数の基本信号をもつダウンミックス２４を生成する。さらに、一連のオブジェクト／チャネル再構成パラメータ２５が計算される。信号エンコーダ２６はダウンミックス器２４からの基本信号をエンコードし、計算されたパラメータ２５と、オブジェクトがどのようにレンダリングされるべきかを示すオブジェクト・メタデータ２７とを結果として生じるビットストリームに含める。

デコーダ２２はまず基本信号をデコードし（２９）、続いて、伝送された再構成パラメータ３１を援用してチャネルおよび／またはオブジェクト再構成３０を行なう。結果として得られる信号は、（チャネルであれば）直接再生でき、あるいは（オブジェクトであれば）レンダリング３２されることができる。後者については、それぞれの再構成されたオブジェクト信号は、その関連付けられたオブジェクト・メタデータに従ってレンダリングされる。そのようなメタデータの一例は、位置ベクトルである（たとえば、三次元座標系におけるオブジェクトのx,y,z座標）。

〈デコーダにおける行列処理〉
オブジェクトおよび／またはチャネル再構成３０は、時間および周波数によって変化する行列演算によって達成できる。デコードされた基本信号３５をz_s[n]と記し、sは基本信号インデックス、nはサンプル・インデックスとすると、第一段階は典型的には、変換またはフィルタバンクによる基本信号の変換を含む。

幅広い多様な変換およびフィルタバンクを使うことができる。たとえば、離散フーリエ変換（DFT）、修正離散コサイン変換（MDCT）または直交ミラーフィルタ（QMF）バンクである。そのような変換またはフィルタバンクの出力はZs[k,b]と記され、bはサブバンドまたはスペクトル・インデックスであり、kはフレーム、スロットまたはサブバンド時間もしくはサンプルのインデックスである。

たいていの場合、サブバンドまたはスペクトル・インデックスは、共通のオブジェクト／チャネル再構成パラメータを共有するパラメータ・バンド（parameter band）pからなる、より小さな集合にマッピングされる。これはb∈B(p)によって表わせる。換言すれば、B(p)は、パラメータ・バンド・インデックスpに属する連続する諸サブバンドbの集合を表わす。逆に、p(b)は、サブバンドbがマッピングされたパラメータ・バンド・インデックスpを指す。すると、サブバンドまたは変換領域の再構成されたチャネルまたはオブジェクト〔＾付きのY_J〕は信号Z_iを行列M[p(b)]で行列処理することによって得られる。

その後、逆変換または合成フィルタバンクによって、時間領域の再構成されたチャネルおよび／またはオブジェクト信号y_j[n]が得られる。

上記のプロセスは典型的には、ある限られた範囲のサブバンド・サンプル、スロットまたはフレームkに適用される。換言すれば、行列M[p(b)]は典型的には時間とともに更新／修正される。記法の簡単のため、これらの更新はここでは記さないが、行列M[p(b)]に関連付けられたサンプルkの集合の処理は時間可変のプロセスでありうると考えられる。

再構成される信号の数Jが基本信号Sの数より有意に多いいくつかの場合には、一つまたは複数の基本信号に作用する任意的な脱相関器出力D_m[k,b]を使うことがしばしば助けになる。それは再構成された出力信号に含められることができる。

図３は、図２のチャネルまたはオブジェクト再構成ユニット３０の一つの形のさらなる詳細を概略的に示している。入力信号３５はまず分解フィルタバンク４１によって処理され、それに任意的な脱相関（D1、D2）４４および行列処理４２および合成フィルタバンク４３が続く。行列M[p(b)]操作は、再構成パラメータ３１によって制御される。

〈オブジェクト／チャネル再構成のための最小平均平方誤差（MMSE）予測〉
基本信号Z_s[k,b]の集合からオブジェクトまたはチャネルを再構成するためには種々の戦略および方法が存在するが、一つの具体的な方法は、しばしば最小平均平方誤差（MMSE: minimum mean square error）予測器と称される。これは、所望される信号と再構成される信号との間のL2ノルムを最小にする行列係数Mを導出するために相関および共分散行列を使う。この方法のためには、基本信号z_s[n]はエンコーダのダウンミックス器２４において、入力オブジェクトまたはチャネル信号x_i[n]の線形結合として生成される。

チャネル・ベースの入力コンテンツについては振幅パン利得（amplitude panning gain）g_i,sは典型的には一定であり、一方、オブジェクトの意図される位置が時間変化するオブジェクト・メタデータによって提供されるオブジェクト・ベースのコンテンツについては、利得g_i,sは結果として時間可変であることができる。この式は、変換領域またはサブバンド領域で定式化されることもでき、その場合、利得g_i,s[k]の集合は周波数ビン／バンドk毎に使われ、よって、利得g_i,s[k]は周波数可変にされる。

デコーダ行列４２は、当面脱相関器を無視すると、次式を生じる。

あるいは行列形式では、明確のためにサブバンド・インデックスbおよびパラメータ・バンド・インデックスpを省くと、
Y＝ZM
Z＝XG
となる。

エンコーダによって行列係数Mを計算するための基準は、デコーダ出力〔＾付きのY_j〕ともとの入力オブジェクト／チャネルX_jとの間の平方誤差を表わす平均平方誤差Eを最小化することである。

Eを最小にする行列係数は次いで、行列記法において、次式で与えられる。

M＝(Z^*Z＋εI)^-1Z^*X
ここで、εは正則化定数であり、*は複素共役転置演算子である。この演算は、各パラメータ・バンドbについて独立に実行されて、行列M[p(b)]を生じることができる。

〈表現変換のための最小平均平方誤差（MMSE）予測〉
オブジェクトおよび／またはチャネルの再構成のほか、パラメトリック技法は、ある表現を別の表現に変換するために使用できる。そのような表現変換の例は、ラウドスピーカー再生のために意図されたステレオ混合をヘッドフォンのためのバイノーラル表現に変換したり、その逆の変換をしたりするために使用できる。

図４は、一つのそのような表現変換のための方法５０についての制御フローを示している。オブジェクトまたはチャネル・オーディオはまず、エンコーダ５２において、ハイブリッド直交ミラーフィルタ分解バンク５４によって処理される。ラウドスピーカー・レンダリング行列Gが、振幅パン技法を使ってオブジェクト・メタデータに基づいて計算されて、記憶媒体５１に記憶されているオブジェクト信号X_iに適用５５されて、ステレオ・ラウドスピーカー呈示Z_sを与える。このラウドスピーカー呈示は、オーディオ符号化器５７を用いてエンコードされることができる。

さらに、バイノーラル・レンダリング行列Hが、HRTFデータベース５９を使って生成され、適用される（５８）。この行列Hはバイノーラル信号Y_jを計算するために使われる。これは、ステレオ・ラウドスピーカー混合を入力として使ってバイノーラル混合の再構成を許容する。行列係数Mはオーディオ・エンコーダ５７によってエンコードされる。

伝送される情報は、エンコーダ５２からデコーダ５３に伝送されて、デコーダにおいて、成分MおよびZ_sを含むようアンパック６１される。再生システムとしてラウドスピーカーが使われる場合、ラウドスピーカー呈示はチャネル情報Z_sを使って再生され、よって行列係数Mは破棄される。他方、ヘッドフォン再生のためには、ハイブリッドQMF合成および再生６０の前に時間および周波数によって変化する行列Mを適用することによって、ラウドスピーカー呈示がまずバイノーラル呈示に変換６２される。

行列処理要素６２からの所望されるバイノーラル出力を行列記法で
Y＝XH
と書く場合、行列係数Mはエンコーダ５２において、
M＝(G^*X^*XG＋εI)^-1G^*X^*XH
によって得ることができる。

この応用では、５８で適用されるエンコーダ行列Hの係数は典型的には複素数値であり、たとえば、遅延または位相修正要素をもち、ヘッドフォンでの音源定位のために知覚的に非常に重要になる両耳間時間差の復元を許容する。換言すれば、バイノーラル・レンダリング行列Hは複素数値であり、よって変換行列Mは複素数値である。音源定位手がかりの知覚的に透明な復元のために、人間の聴覚系の周波数分解能を模倣する周波数分解能が望ましいことが示されている（非特許文献１１）。

上記の諸セクションでは、行列係数Mを決定するために最小平均平方誤差基準が用いられている。一般性を失うことなく、行列係数を計算するための他のよく知られた基準または方法が、最小平均平方誤差原理を置換または補強するために、同様に使用されることができる。たとえば、行列係数Mは高次の誤差項を使って、あるいはL1ノルムの最小化（たとえば最小絶対偏差基準）によって、計算されることができる。さらに、非負因子分解または最適化技法、非パラメトリック推定器、最大尤度推定器などを含むさまざまな方法を用いることができる。さらに、行列係数は、逐次反復的または勾配降下プロセス、補間法、発見的方法、動的計画法、機械学習、ファジー最適化、シミュレーテッドアニーリングまたは閉じた形の解を使って計算されてもよく、「合成による分析」技法が使われてもよい。最後だがこれに劣らず重要なこととして、行列係数推定は、さまざまな仕方で制約されてもよい。たとえば、値の範囲の制限、正則化項、エネルギー保存要求の重ね合わせなどによって制約されてもよい。

〈変換およびフィルタバンク要件〉
用途およびオブジェクトまたはチャネルのどちらが再構成されるかに依存して、図３のフィルタバンク・ユニット４１のための変換またはフィルタバンク周波数分解能に対してある種の要件が課されることがある。たいていの実際的な用途では、所与のビットレート（パラメータの数によって決まる）および計算量について最良の知覚されるオーディオ品質を与えるために、周波数分解能は人間の聴覚系の想定される分解能に合わせられる。人間の聴覚系は非線形な周波数分解能をもつフィルタバンクと考えられることがわかっている。これらのフィルタは臨界帯域と称され（非特許文献９）、ほぼ対数的な性質である。低周波数では、臨界帯域は100Hzより小さい幅であり、一方、高周波数では、臨界帯域は1kHzより広いことがある。

フィルタバンク設計になると、この非線形な挙動が課題を呈することがある。周波数分解能が周波数を通じて一定であれば、変換およびフィルタバンクは、その処理構造における対称性を使って非常に効率的に実装できる。

このことは、変換長さまたはサブバンドの数が低周波数における臨界帯域幅によって決定され、非線形な周波数分解能を模倣するために、DFTビンの、いわゆるパラメータ・バンドへのマッピングが用いられることができることを含意する。そのようなマッピング・プロセスはたとえば非特許文献１０および非特許文献１１において説明されている。この手法の一つの欠点は、高周波数において変換が比較的長い（または非効率的）である一方、低周波数臨界帯域幅制約条件を満たすために非常に長い変換が要求されるということである。低周波数での周波数分解能を高める代替的な解決策は、ハイブリッド・フィルタバンク構造を使うことである。そのような構造では、二つのフィルタバンクのカスケードが用いられ、第二のフィルタバンクが第一のフィルタバンクの分解能を高める。ただし、高めるのは、最も低いいくつかのサブバンドにおいてのみである（非特許文献３）。

図５は、非特許文献３に記載されているのと同様のハイブリッド・フィルタバンク構造４１の一つの形を示している。入力信号z[n]はまず複素数値の直交ミラーフィルタ分解バンク（CQMF）７１によって処理される。その後、信号は因子Q、たとえば７２によってダウンサンプリングされ、サブバンド信号Z[k,b]を与える。ここで、kはサブバンド・サンプル・インデックスであり、bはサブバンド周波数インデックスである。さらに、結果として得られるサブバンド信号の少なくとも一つは第二の（ナイキスト）フィルタバンク７４によって処理される。一方、残りのサブバンド信号は、ナイキスト・フィルタバンクによって導入される遅延を補償するために遅延７５させられる。この具体例においては、フィルタバンクのカスケードは8個のサブバンド（b＝1,…,8）を与え、これらは非線形な周波数分解能をもつ6個のパラメータ・バンドp＝1,…,6にマッピングされる。一緒に併合されるバンド７６が単一のパラメータ・バンド（p＝6）をなす。

この手法の恩恵は、ずっと多くの（より狭い）サブバンドをもつ単一のフィルタバンクを使うことに比べて低い計算量である。しかしながら、欠点は、全体的なシステムの遅延が有意に増し、結果として、メモリ使用も有意に高くなり、電力消費が増すことである。

〈従来技術の限界〉
図４に戻ると、従来技術は、チャネル、オブジェクトまたは呈示信号〔＾付きのY_J〕を基本信号Z_sの集合から再構成するために、可能性としては脱相関器の使用により補強された、行列処理６２の概念を利用していることがわかる。これは、従来技術を一般的な仕方で記述する次の行列定式化につながる。

行列係数Mはエンコーダからデコーダに直接伝送されるか、あるいはたとえばパラメトリック・ステレオ符号化について非特許文献１０に、あるいはマルチチャネル復号について非特許文献４に記載されるように、音源定位パラメータから導出される。さらに、この手法は、複素数値の行列係数を使うことによって、チャネル間位相差を復元するために使うこともできる（非特許文献１１、非特許文献１２参照）。

図６に示されるように、実際上、複素数値の行列係数を使うことは、所望される遅延８０が区分ごとに一定の位相近似８１によって表わされることを含意する。所望される位相応答が、周波数とともに線形に減少する位相（破線）をもつ純粋な遅延８０であると想定すると、従来技術の複素数値の行列処理演算は、区分ごとに一定の近似８１（実線）を与える。この近似は、行列Mの分解能を増すことによって改善できるが、これは二つの重要な欠点がある。フィルタバンクの分解能の増大を要求し、より高いメモリ使用、より高い計算量、より長いレイテンシー、よってより高い電力消費を引き起こす。それはまた、より多くのパラメータを送ることも要求し、より高いビットレートを引き起こす。

これらすべての欠点は、モバイルかつバッテリー電力の装置にとっては特に問題である。より最適な解決策が利用可能であれば有利であろう。

Roger Dressler, "Dolby Pro Logic Surround Decoder, Principles of Operation", www.Dolby.com Wightman, F. L., and Kistler, D. J. (1989)、"Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858−867 Schuijers, Erik, et al. (2004)、"Low complexity parametric stereo coding." Audio Engineering Society Convention 116. Audio Engineering Society Herre, J., Kjorling, K., Breebaart, J., Faller, C., Disch, S., Purnhagen, H., ... & Chong, K. S. (2008)、MPEG surround-the ISO/MPEG standard for efficient and compatible multichannel audio coding. Journal of the Audio Engineering Society, 56(11), 932-955 Herre, J., Purnhagen, H., Koppens, J., Hellmuth, O., Engdegard, J., Hilpert, J., & Oh, H. O. (2012)、MPEG Spatial Audio Object Coding−the ISO/MPEG standard for efficient coding of interactive audio scenes. Journal of the Audio Engineering Society, 60(9), 655-673 Brandenburg, K., & Stoll, G. (1994)、ISO/MPEG-1 audio: A generic standard for coding of high-quality digital audio. Journal of the Audio Engineering Society, 42(10), 780-792 Bosi, M., Brandenburg, K., Quackenbush, S., Fielder, L., Akagiri, K., Fuchs, H., & Dietz, M. (1997)、ISO/IEC MPEG-2 advanced audio coding. Journal of the Audio engineering society, 45(10), 789-814 Andersen, R. L., Crockett, B. G., Davidson, G. A., Davis, M. F., Fielder, L. D., Turner, S. C., ... & Williams, P. A. (2004, October)、Introduction to Dolby digital plus, an enhancement to the Dolby digital coding system. In Audio Engineering Society Convention 117. Audio Engineering Society Zwicker, E. (1961)、Subdivision of the audible frequency range into critical bands (Frequenzgruppen). The Journal of the Acoustical Society of America, (33 (2)), 248 Breebaart, J., van de Par, S., Kohlrausch, A., & Schuijers, E. (2005). Parametric coding of stereo audio. EURASIP Journal on Applied Signal Processing, 2005, 1305-1322 Breebaart, J., Nater, F., & Kohlrausch, A. (2010)、Spectral and spatial parameter resolution requirements for parametric, filter-bank-based HRTF processing. Journal of the Audio Engineering Society, 58(3), 126-140 Breebaart, J., van de Par, S., Kohlrausch, A., & Schuijers, E. (2005). Parametric coding of stereo audio. EURASIP Journal on Applied Signal Processing, 2005, 1305-1322

種々の呈示における再生のためのオーディオ信号のエンコードおよびデコードの改善された形を提供することが、好ましい形態における本発明の目的である。

本発明の第一の側面によれば、オーディオ・チャネルまたはオブジェクトの第二の呈示をデータ・ストリームとして表現するための方法であって：（ａ）前記オーディオ・チャネルまたはオブジェクトの第一の呈示を表わす基本信号の集合を提供する段階と；（ｂ）前記第一の呈示を前記第二の呈示に変換することを意図されている変換パラメータの集合を提供する段階とを含み、前記変換パラメータはさらに、少なくとも二つの周波数帯域について指定され、前記周波数帯域のうち少なくとも一つのためのマルチタップ畳み込み行列パラメータの集合を含む、方法が提供される。

フィルタ係数の前記集合は、有限インパルス応答（FIR）フィルタを表わすことができる。基本信号の前記集合は好ましくは、一連の時間的セグメントに分割され、それぞれの時間的セグメントについて、変換パラメータの集合が提供される。フィルタ係数は、複素数値であることができる少なくとも一つの係数を含むことができる。前記第一の呈示または前記第二の呈示は、ヘッドフォン再生のために意図されることができる。

いくつかの実施形態では、より高い周波数に関連付けられた変換パラメータは信号位相を修正しない。一方、より低い周波数については、変換パラメータは信号位相を修正する。フィルタ係数の前記集合は、好ましくは、マルチタップ畳み込み行列を処理するために機能できる。フィルタ係数の前記集合は好ましくは、低周波数帯域を処理するために利用されることができる。

基本信号の前記集合および変換パラメータの前記集合は好ましくは、組み合わされて前記データ・ストリームを形成する。変換パラメータは、基本信号の前記集合の高周波数部分の行列操作のための高周波数オーディオ行列係数を含むことができる。いくつかの実施形態では、基本信号の前記集合の前記高周波数部分のうち中間周波数部分のために、前記行列操作は好ましくは複素数値の変換パラメータを含むことができる。

本発明のさらなる側面によれば、エンコードされたオーディオ信号をデコードするためのデコーダであって、前記エンコードされたオーディオ信号は：第一のオーディオ呈示フォーマットにおける前記オーディオの再生のために意図されたオーディオ基本信号の集合を含む第一の呈示と；前記第一の呈示フォーマットにおける前記オーディオ基本信号を第二の呈示フォーマットに変換するための変換パラメータの集合とを含み、前記変換パラメータは、少なくとも高周波数オーディオ変換パラメータおよび低周波数オーディオ変換パラメータを含み、前記低周波数変換パラメータはマルチタップ畳み込み行列パラメータを含み、当該デコーダは：オーディオ基本信号の前記集合および変換パラメータの前記集合を分離するための第一分離ユニットと、前記マルチタップ畳み込み行列パラメータを前記オーディオ基本信号の低周波数成分に適用して低周波数成分に畳み込みを適用して、畳み込みされた低周波数成分を生成するための行列乗算ユニットと、前記高周波数オーディオ変換パラメータを前記オーディオ基本信号の高周波数成分に適用してスカラー高周波数成分を生成するためのスカラー乗算ユニットと；前記畳み込みされた低周波数成分および前記スカラー高周波数成分を組み合わせるための出力フィルタバンクであって、前記第二の呈示フォーマットにおける時間領域出力信号を生成する出力フィルタバンクとを含む、デコーダが提供される。

前記行列乗算ユニットは、前記オーディオ基本信号の低周波数成分の位相を修正することができる。いくつかの実施形態では、前記マルチタップ畳み込み行列変換パラメータは、好ましくは複素数値である。前記高周波数オーディオ変換パラメータも好ましくは複素数値である。変換パラメータの前記集合はさらに、実数値の、より高周波数のオーディオ変換パラメータを含むことができる。いくつかの実施形態では、当該デコーダはさらに、前記オーディオ基本信号を前記低周波数成分および前記高周波数成分に分離するためのフィルタを含むことができる。

本発明のさらなる側面によれば、エンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号は：第一のオーディオ呈示フォーマットにおける前記オーディオの再生のために意図されたオーディオ基本信号の集合を含む第一の呈示と；前記第一の呈示フォーマットにおける前記オーディオ基本信号を第二の呈示フォーマットに変換するための変換パラメータの集合とを含み、前記変換パラメータは、少なくとも高周波数オーディオ変換パラメータおよび低周波数オーディオ変換パラメータを含み、前記低周波数変換パラメータはマルチタップ畳み込み行列パラメータを含み、当該方法は：前記オーディオ基本信号の低周波数成分を前記低周波数変換パラメータと畳み込みして、畳み込みされた低周波数成分を生成する段階と；前記高周波数変換パラメータを前記オーディオ基本信号の高周波数成分に乗算して、乗算された高周波数成分を生成する段階と；前記畳み込みされた低周波数成分および前記乗算された高周波数成分を組み合わせて、第二の呈示フォーマットでの再生のための出力オーディオ信号周波数成分を生成する段階とを含む、方法が提供される。

いくつかの実施形態では、前記エンコードされた信号は複数の時間的セグメントを含むことができ、当該方法はさらに、好ましくは：前記エンコードされた信号の複数の時間的セグメントの変換パラメータを補間して、補間された低周波数オーディオ変換パラメータを含む補間された変換パラメータを生成する段階と；前記オーディオ基本信号の前記低周波数成分の複数の時間的セグメントを前記補間された低周波数オーディオ変換パラメータと畳み込みして、前記畳み込みされた低周波数成分の複数の時間的セグメントを生成する段階とを含むことができる。

前記エンコードされたオーディオ信号の変換パラメータの前記集合は、好ましくは時間変化することができ、当該方法はさらに：複数の時間的セグメントについて前記低周波数成分を前記低周波数変換パラメータと畳み込みして、中間の畳み込みされた低周波数成分の複数の集合を生成する段階と；中間の畳み込みされた低周波数成分の前記複数の集合を補間して、前記畳み込みされた低周波数成分を生成する段階とを含むことができる。

前記補間は、中間の畳み込みされた低周波数成分の前記複数の集合の重複加算方法を利用することができる。

本発明の実施形態について、これから単に例として、付属の図面を参照して述べる。
二つの源オブジェクトについてHRIR畳み込みプロセスの概略的な概観を示す図である。各チャネルまたはオブジェクトは一対のHRIR/BRIRによって処理される。チャネルおよびオブジェクトをサポートする一般的なパラメトリック符号化システムを概略的に示す図である。図２のチャネルまたはオブジェクト再構成ユニット３０のさらなる詳細の一つの形を概略的に示す図である。ステレオ・ラウドスピーカー呈示をバイノーラル・ヘッドフォン呈示に変換する方法のデータの流れを示す図である。従来技術に基づくハイブリッド分解フィルタバンク構造を概略的に示す図である。所望される位相応答（破線）と従来技術で得られる実際の位相応答（実線）の比較を示す図である。本発明のある実施形態に基づく例示的なエンコーダ・フィルタバンクおよびパラメータ・マッピング・システムを概略的に示す図である。ある実施形態に基づくデコーダ・フィルタバンクおよびパラメータ・マッピングを概略的に示す図である。ステレオからバイノーラル呈示への変換のためのエンコーダを示す図である。ステレオからバイノーラル呈示への変換のためのデコーダを概略的に示す図である。

この好ましい実施形態は、オブジェクト、チャネルまたは「呈示」を、基本信号の集合から再構成する方法を提供する。これは、低い周波数分解能をもつフィルタバンクにおいて適用されることができる。一例は、ステレオ呈示の、ヘッドフォン再生のために意図されたバイノーラル呈示への変換である。これは、ナイキスト（ハイブリッド）フィルタバンクなしに適用できる。低減されたデコーダ周波数分解能は、マルチタップ畳み込み行列によって埋め合わされる。この畳み込み行列は少数のタップ（たとえば二つ）を必要とするだけであり、実際的な場合においては、低周波数において要求されるのみである。この方法は、（１）デコーダの計算量を低減するとともに、（２）デコーダのメモリ使用を低減し、（３）パラメータ・ビットレートを低減する。

好ましい実施形態では、望ましくないデコーダ側の計算量およびメモリ要求を克服するためのシステムおよび方法が提供される。これは、エンコーダにおいて高周波数分解能を提供し、デコーダでは制約された（より低い）周波数分解能を利用し（たとえば対応するエンコーダで使われたものより有意に悪い周波数分解能を使う）、低下したデコーダ周波数分解能を補償するためにマルチタップ（畳み込み）行列を利用することによって実施される。

典型的には、高周波数行列分解能が要求されるのは低周波数においてだけなので、低周波数ではマルチタップ（畳み込み）行列を使うことができ、残りの（より高い）周波数については通常の（ステートレスな（stateless））行列を使うことができる。換言すれば、低周波数では、行列は入力および出力のそれぞれの組み合わせに対して機能するFIRフィルタの集合を表わし、一方、高周波数ではステートレスな行列が使われる。

〈エンコーダ・フィルタバンクおよびパラメータ・マッピング〉
図７は、ある実施形態に基づく例示的なエンコーダ・フィルタバンクおよびパラメータ・マッピング・システムを示している（９０）。この例示的実施形態９０では、8個のサブバンド（b＝1,…,8）、たとえば９１が、初期にハイブリッド（カスケード式）フィルタバンク９２およびナイキスト・フィルタバンク９３によって生成される。その後、畳み込み行列M[k,p＝1]を計算するために、最初の四つのサブバンドが同一のパラメータ・バンド（p＝1）にマッピングされる（９４）。たとえば、行列は今、追加的なインデックスkをもつ。残りのサブバンド（b＝5,…,8）は、ステートレスな行列M[p(b)]９５、９６を使うことによって、パラメータ・バンド（p＝2,3）にマッピングされる。

〈デコーダ・フィルタバンクおよびパラメータ・マッピング〉
図８は、対応する例示的デコーダ・フィルタバンクおよびパラメータ・マッピング・システム１００を示している。エンコーダとは対照的に、ナイキスト・フィルタバンクは存在せず、ナイキスト・フィルタバンク遅延を補償するための遅延も全くない。デコーダ分解フィルタバンク１０１は5個のサブバンド（b＝1,…,5）、たとえば１０２のみを生成する。これらは因子Qによってダウンサンプリングされる。最初のサブバンドは畳み込み行列M[k,p＝1] １０３によって処理され、一方、残りのバンドは従来技術に従ってステートレスな行列１０４、１０５によって処理される。

上記の例では、エンコーダ９０においてナイキスト・フィルタバンクの適用およびデコーダ１００における対応する畳み込み行列の適用は、最初のCQMFサブバンドについてだけだが、同じプロセスは、必ずしも最低のサブバンド（単数または複数）のみに限定されない多数のサブバンドに適用されることができる。

〈エンコーダ実施形態〉
特に有用な一つの実施形態は、ラウドスピーカー呈示のバイノーラル呈示への変換におけるものである。図９は、呈示変換のための提案される方法を使うエンコーダ１１０を示している。入力チャネルまたはオブジェクトx_i[n]の集合がまずフィルタバンク１１１を使って変換される。フィルタバンク１１１はハイブリッド複素直交ミラーバンク（HCQMF）であるが、他のフィルタバンク構造も等しく使用できる。結果として得られるサブバンド表現X_i[k,b]は二度処理される（１１２、１１３）。

第一に（１１３）、エンコーダの出力のために意図された基本信号Z_s[k,b] １１３の集合を生成する。この出力はたとえば、結果として得られる信号がラウドスピーカー再生のために意図されるよう、振幅パン技法を使って生成されることができる。

第二に（１１２）、所望される変換された信号Y_j[k,b] １１２の集合を生成する。この出力はたとえば、結果として得られる信号がヘッドフォン再生のために意図されるよう、HRIR処理を使って生成されることができる。そのようなHRIR処理はフィルタバンク領域で用いられてもよいが、HRIR畳み込みよって時間領域で実行されることも等しく可能である。HRIRはデータベース１１４から得られる。

畳み込み行列M[k,p]はその後、基本信号Z_s[k,b]をタップのある遅延線１１６を通じて供給することによって得られる。遅延線の各タップは、MMSE予測器段１１５への追加的な入力のはたらきをする。このMMSE予測器段は、所望される変換された信号Y_j[k,b]と、畳み込み行列を適用する図８のデコーダ１００の出力との間の誤差を最小化する畳み込み行列M[k,p]を計算する。すると、行列係数M[k,p]は
M＝(Z^*Z＋εI)^-1Z^*Y
によって与えられる。この定式化では、行列Zはタップのある遅延線のすべての入力を含む。

タップされる遅延線からのA個の入力がある場合の、所与のサブバンドbについての前記一つの信号〔＾付きのY[k]〕の再構成についての事例をまず考えると、次のようになる。

結果として得られる畳み込み行列係数M[k,p]は量子化され、エンコードされ、基本信号z_s[n]と一緒に送信される。すると、デコーダは、入力信号Z_s[k,b]から＾付きのY[k,b]を再構成するために畳み込みプロセスを使うことができる。

あるいは、畳み込み表現を使って書き換えることができる。

畳み込み手法は、線形（ステートレス）行列プロセスと混合されることができる。

複素数値と実数値のステートレスな行列処理の間でさらなる区別をすることができる。低周波数（典型的には1kHzより下）では、畳み込みプロセス（A＞1）は、知覚的な周波数スケールと揃ったチャネル間属性の正確な再構成を許容するために好ましい。約2または3kHzまでの中間周波数では、人間の聴覚系はチャネル間位相差に敏感だが、そのような位相の再構成のためのそれほど高い周波数分解能は必要としない。これは、単一タップ（ステートレス）の複素数値の行列で十分であることを含意する。より高い周波数については、人間の聴覚系は、波形の微細構造位相は事実上感じることがなく、実数値のステートレスな行列処理で十分である。人間の聴覚系の非線形な周波数分解能を反映して、周波数が増すと、一つのパラメータ・バンドにマッピングされるフィルタバンク出力の数が典型的には増す。

もう一つの実施形態では、エンコーダにおける第一および第二の呈示が交換される。たとえば、第一の呈示はヘッドフォン再生のために意図され、第二の呈示はラウドスピーカー再生のために意図される。この実施形態では、ラウドスピーカー呈示（第二の呈示）は、少なくとも二つの周波数帯域における時間依存の変換パラメータを第一の呈示に適用することによって生成される。ここで、変換パラメータは、前記周波数帯域の少なくとも一つについてのフィルタ係数の集合を含むものとして指定される。

いくつかの実施形態では、第一の呈示は時間的に一連のセグメントに分割され、各セグメントについて変換パラメータの別個の行列がある。あるさらなる洗練では、セグメント変換パラメータが利用可能でない場合、パラメータは以前の係数から補間されることができる。

〈デコーダ実施形態〉
図１０は、デコーダ１２０の実施形態を示している。入力ビットストリーム１２１は基本信号ビットストリーム１３１と変換パラメータ・データ１２４に分割される。その後、基本信号デコーダ１２３は基本信号z[n]をデコードする。それはその後、分解フィルタバンク１２５によって処理される。サブバンドb＝1,…,5をもつ、結果として得られる周波数領域信号Z[k,b]は、行列乗算ユニット１２６、１２９および１３０によって処理される。具体的には、行列乗算ユニット１２６は複素数値の畳み込み行列M[k,p＝1]を周波数領域信号Z[k,b＝1]に適用する。さらに、行列乗算ユニット１２９は複素数値の単一タップの行列係数M[p＝2]を信号Z[k,b＝2]に適用する。最後に、行列乗算ユニット１３０は実数値の行列係数M[p＝3]を周波数領域信号Z[k,b＝3,…5]に適用する。行列乗算ユニット出力信号は、合成フィルタバンク１２７によって時間領域出力１２８に変換される。z[n]、Z[k]などへの言及は、いかなる特定の基本信号でもなく、基本信号の集合を指す。よって、z[n]、Z[k]などはz_s[n]、Z_s[k]などとして解釈されてもよい。ここで、0≦s＜Nであり、Nは基本信号の数である。

換言すれば、行列乗算ユニット１２６は、出力信号〔＾付きのY_j[k]〕のサブバンドb＝1の出力サンプルを、基本信号Z[k]のサブバンドb＝1の現在の諸サンプルと基本信号Z[k]のサブバンドb＝1の以前の諸サンプル（たとえば、Z[k−a]、ここで0＜a＜Aであり、Aは1より大きい）との重み付けされた組み合わせから、決定する。出力信号〔＾付きのY_j[k]〕のサブバンドb＝1の出力サンプルを決定するために使われる重みは、信号についての複素数値の畳み込み行列M[k,p＝1]に対応する。

さらに、行列乗算器ユニット１２９は、出力信号〔＾付きのY_j[k]〕のサブバンドb＝2の出力サンプルを、基本信号Z[k]のサブバンドb＝2の現在の諸サンプルの重み付けされた組み合わせから決定する。出力信号〔＾付きのY_j[k]〕のサブバンドb＝2の出力サンプルを決定するために使われる重みは、複素数値の単一タップの行列係数M[p＝2]に対応する。

最後に、行列乗算器ユニット１３０は、出力信号〔＾付きのY_j[k]〕のサブバンドb＝3,…5の出力サンプルを、基本信号Z[k]のサブバンドb＝3,…,5の現在の諸サンプルの重み付けされた組み合わせから決定する。出力信号〔＾付きのY_j[k]〕のサブバンドb＝3,…,5の出力サンプルを決定するために使われる重みは、実数値の行列係数M[p＝3]に対応する。

いくつかの場合には、基本信号デコーダ１２３は、分解フィルタバンク１２５によって与えられるのと同じ周波数分解能で信号に対して作用する。そのような場合、基本信号デコーダ１２５は、時間領域信号z[n]ではなく周波数領域信号Z[k]を出力するよう構成されてもよい。その場合、分解フィルタバンク１２５は省略されてもよい。さらに、いくつかの事例では、実数値の行列係数の代わりに複素数値の単一タップ行列係数を周波数領域信号Zs[k,b＝3,…,5]に適用することが好ましいことがある。

実際上は、行列係数Mは時間とともに更新されることができる。これはたとえば、基本信号の個々のフレームを、行列係数Mに関連付けることによる。代替的または追加的に、行列係数Mはタイムスタンプを加えられてもよい。タイムスタンプは、基本信号z[n]のどの時刻または区間において行列が適用されるべきかを示す。行列更新に伴う伝送ビットレートを減らすために、更新の数は理想的には制限され、その結果、時間的に疎な行列更新分布となる。行列のそのような低頻度の更新は、行列のあるインスタンスから次のインスタンスにかけてのなめらかな遷移を保証するために、専用の処理を必要とする。行列Mは、基本信号Zの特定の時間セグメント（フレーム）および／または周波数領域に関連して提供されてもよい。デコーダは、時間を追っての行列Mのその後のインスタンスからのなめらかな遷移を保証するために、多様な補間方法を用いてもよい。そのような補間方法の一例は、信号Zの重なり合う窓処理されたフレームを計算し、そのような各フレームについて出力信号Yの対応する集合を、その特定のフレームに関連付けられた行列係数Mを使って計算することである。すると、その後の諸フレームは、重複加算技法を使ってまとめられ、クロスフェードする遷移を提供することができる。あるいはまた、デコーダは、行列Mに関連付けられたタイムスタンプを受け取ってもよい。これは、特定の時点における所望される行列係数を記述する。タイムスタンプとタイムスタンプの中間のオーディオ・サンプルについては、行列Mの行列係数は、なめらかな遷移を保証するために、線形、三次、帯域制限されたまたは他の補間手段を使って補間されてもよい。時間を通じた補間のほかに、同様の技法は周波数を通じて行列係数を補間するために使われてもよい。

よって、本稿は、オーディオ・チャネルまたはオブジェクトX_iの第二の呈示を、対応するデコーダ１００に伝送または提供されるデータ・ストリームとして表現するための方法（および対応するエンコーダ９０）を記載する。本方法は、前記オーディオ・チャネルまたはオブジェクトX_iの第一の呈示を表わす基本信号Z_sを提供する段階を含む。上記で概説したように、基本信号Z_sは、オーディオ・チャネルまたはオブジェクトX_iから、第一のレンダリング・パラメータGを使って決定されてもよい。第一の呈示は、ラウドスピーカー再生のためまたはヘッドフォン再生のために意図されていてもよい。他方、第二の再生はヘッドフォン再生のためまたはラウドスピーカー再生のために意図されていてもよい。よって、ラウドスピーカー再生からヘッドフォン再生への（またはその逆の）変換が実行されうる。

本方法はさらに、前記第一の呈示の基本信号Z_sを前記第二の呈示の出力信号〔＾付きのY_j〕に変換することを意図されている変換パラメータM（特に一つまたは複数の変換行列）を提供することを含む。変換パラメータは、本稿で概説されているようにして決定されてもよい。具体的には、第二の呈示についての所望される出力信号Y_jがオーディオ・チャネルまたはオブジェクトX_iから、第二のレンダリング・パラメータHを使って（本稿で概説されているようにして）決定されてもよい。変換パラメータMは、（たとえば最小平均平方誤差基準を使って）前記出力信号〔＾付きのY_j〕の、前記所望される出力信号Y_jからの偏差を最小化することによって決定されてもよい。

より具体的には、変換パラメータMはサブバンド領域で（すなわち異なる周波数帯域について）決定されてもよい。この目的のために、サブバンド領域の基本信号Z[k,b]が、B個の周波数帯域について、エンコーダ・フィルタバンク９２、９３を使って決定されてもよい。周波数帯域の数Bは1より多く、たとえばBは4、6、8、10以上である。本稿に記載する例では、B＝8またはB＝5である。上記で概説したように、エンコーダ・フィルタバンク９２、９３は、前記B個の周波数帯域のうちの高周波数帯域よりも高い周波数分解能をもつ、前記B個の周波数帯域のうちの低周波数帯域を提供する、ハイブリッド・フィルタバンクを有していてもよい。さらに、前記B個の周波数帯域についてのサブバンド領域の所望される出力信号Y[k,b]が決定されてもよい。一つまたは複数の周波数領域についての変換パラメータMは、（たとえば最小平均平方誤差基準を使って）前記一つまたは複数の周波数帯域内での、前記出力信号〔＾付きのY_j〕の、前記所望される出力信号Y_jからの偏差を最小化することによって決定されてもよい。

よって、変換パラメータMはそれぞれ、少なくとも二つの周波数帯域（特にB個の周波数帯域）について指定されてもよい。さらに、変換パラメータは、前記周波数帯域のうち少なくとも一つのためのマルチタップ畳み込み行列パラメータの集合を含んでいてもよい。

よって、オーディオ・チャネル／オブジェクトの第二の呈示の出力信号を、該オーディオ・チャネル／オブジェクトの第一の呈示の基本信号から決定するための方法（および対応するデコーダ）が記載される。第一の呈示は、ラウドスピーカー再生のために使われてもよく、第二の呈示はヘッドフォン再生のために使われてもよい（あるいは逆でもよい）。前記出力信号は、種々の周波数帯域についての変換パラメータを使って決定される。ここで、前記周波数帯域のうち少なくとも一つについての変換パラメータは、前記周波数帯域のうち少なくとも一つについてのマルチタップ畳み込み行列パラメータを含む。周波数帯域のうち少なくとも一つについてマルチタップ畳み込み行列パラメータを使うことの結果として、デコーダ１００の計算量が削減されうる。これは特に、デコーダによって使われるフィルタバンクの周波数分解能を下げることによる。

たとえば、第一の周波数帯域についての出力信号をマルチタップ畳み込み行列パラメータを使って決定することは、前記出力信号の前記第一の周波数帯域の現在のサンプルを、前記基本信号の前記第一の周波数帯域の現在のサンプルと一つまたは複数の以前のサンプルとの重み付けされた組み合わせとして決定することを含んでいてもよい。ここで、重み付けされた組み合わせを決定するために使われる重みは、前記第一の周波数帯域についてのマルチタップ畳み込み行列パラメータに対応する。前記第一の周波数帯域についてのマルチタップ畳み込み行列パラメータの一つまたは複数は典型的には複素数値である。

さらに、第二の周波数帯域についての出力信号を決定することは、前記出力信号の前記第二の周波数帯域の現在のサンプルを、前記基本信号の前記第二の周波数帯域の現在の諸サンプルの（前記基本信号の前記第二の周波数帯域の以前の諸サンプルには基づかない）重み付けされた組み合わせとして決定することを含んでいてもよい。ここで、重み付けされた組み合わせを決定するために使われる重みは、前記第二の周波数帯域についての変換パラメータに対応する。前記第二の周波数帯域についての変換パラメータは複素数値であってもよく、あるいは実数値であってもよい。

具体的には、マルチタップ畳み込み行列パラメータの同じ集合が、前記B個の周波数帯域の少なくとも二つの隣り合う周波数帯域について決定されてもよい。図７に示されるように、ナイキスト・フィルタバンクによって与えられる諸周波数帯域について（すなわち、比較的高い周波数分解能をもつ諸周波数帯域について）、マルチタップ畳み込み行列パラメータの単一の集合が決定されてもよい。こうすることにより、デコーダ１００内でのナイキスト・フィルタバンクの使用が省略でき、それにより（第二の呈示のための出力信号の品質を維持しつつ）デコーダ１００の計算量を削減する。

さらに、同じ実数値の変換パラメータが、少なくとも二つの隣り合う高周波数帯域について決定されてもよい（図７のコンテキストで示されるように）。こうすることにより、（第二の呈示のための出力信号の品質を維持しつつ）デコーダ１００の計算量がさらに削減されうる。

〈解釈〉
本明細書を通じて「一つの実施形態」「いくつかの実施形態」または「ある実施形態」への言及は、その実施形態との関連で記述されている特定の特徴、構造または特性が本発明の少なくとも一つの実施形態に含まれることを意味する。よって、本明細書を通じた随所に「一つの実施形態では」「いくつかの実施形態では」または「ある実施形態では」という句が現われるのは、同じ実施形態を指すこともあれば、必ずしもそうでないこともある。さらに、具体的な特徴、構造または特性は、一つまたは複数の実施形態において本開示から当業者に明白であろう任意の好適な仕方で組み合わされてもよい。

本稿での用法では、特にそうでないことが指定されない限り、共通の対象を記述するための序数形容詞「第一の」「第二の」「第三の」などの使用は、単に同様の対象の異なるインスタンスが言及されていることを示すのみであって、そのように記述される対象が、時間的、空間的、ランキング上または他のいかなる仕方でも、所与の序列でなければならないことを含意することは意図されていない。

特許請求の範囲および本明細書において、有する、からなるという用語はいずれも、言及される要素／特徴を少なくとも含むが他を排除するものではないことを意味する、オープンな用語である。よって、請求項で使われるとき、有する／含むの用語は、挙げられている手段または要素またはステップに限定するものと解釈すべきではない。たとえば、AおよびBを有する装置という表現の範囲は、要素AおよびBのみからなる装置に限定されるべきではない。本稿で使われるところの含むという用語も、言及される要素／特徴を少なくとも含むが他を排除するものではないことを意味する、オープンな用語である。よって、含むというのは、有すると同義であり、有することを意味する。

本稿での用法では、用語「例示的」は、性質を示すのではなく、例を与える意味で使われる。すなわち、「例示的実施形態」は、例として与えられている実施形態であって、必ず例示的な性質の実施形態であるということではない。

本発明の例示的実施形態の上記の記述において、開示の流れをよくするとともにさまざまな発明的な側面の一つまたは複数の側面の理解を助ける目的のために、本発明のさまざまな特徴が特に単一の実施形態、図面またはその説明において一緒にまとめられていることを理解しておくべきである。この開示法は、特許請求される発明が各請求項において明記されているより多くの特徴を要求するという意図を反映するものと解釈すべきではない。むしろ、付属の請求項が反映するように、発明的な側面は、上記の単一の開示される実施形態のすべての特徴よりも少ないものに存する。このように、付属の請求項は、ここに詳細な説明に明示的に組み込まれ、各請求項がそれ自身としてこの発明の別個の実施形態をなす。

さらに、本稿に記載されるいくつかの実施形態は他の実施形態に含まれるいくつかの特徴を含むが他の特徴は含まないものの、異なる実施形態の特徴の組み合わせは、本発明の範囲内であり、異なる実施形態をなすことが意図されている。当業者はこのことを理解するであろう。たとえば、請求項において、特許請求される実施形態の任意のものが任意の組み合わせにおいて使用されることができる。

さらに、実施形態のいくつかは、本稿では、コンピュータ・システムのプロセッサによってまたは当該機能を実行する他の手段によって実装されることができる方法または方法の要素の組み合わせとして記述されている。よって、プロセッサは、そのような方法または方法の要素を実行するための必要な命令とともに、該方法または方法の要素を実行する手段をなす。さらに、本稿に記載される装置実施形態の要素は、本発明を実行するために該要素によって実行される機能を実行する手段の例である。

本稿で与えた記述では、数多くの個別的詳細が記載されている。しかしながら、本発明の実施形態はそうした個別的詳細なしでも実施されうることは理解される。他の事例では、よく知られた方法、構造および技法は、本記述の理解をかすませないために、詳細に示してはいない。

同様に、請求項において使用されるときの結合されたという用語は、直接接続だけに限定されるものと解釈すべきではないことも注意しておくべきである。「結合された」および「接続された」という用語およびそれらの派生形が使用されうる。これらの用語は、互いと同義であるとは意図されていないことを理解しておくべきである。よって、装置Bに結合された装置Aという表現の範囲は、装置Aの出力が装置Bの入力に直接接続されている装置またはシステムに限定されるべきではない。Aの出力とBの入力の間に経路が存在し、その経路が他の装置または手段を含んでいてもよいことを意味する。「結合された」は二つ以上の要素が直接的な物理的または電気的接触状態にあること、あるいは二つ以上の要素が互いに直接接触してはいないがそれでも互いと協働または対話することを意味しうる。

このように、本発明の好ましい実施形態であると考えられるものについて記述してきたが、当業者は、本発明の精神から外れることなく他のさらなる修正がされうることを認識するであろう。本発明の範囲内にはいるようなそのようなすべての変更および修正を特許請求することが意図されている。たとえば、上記で挙げた公式があったとすればそれは単に使用されうる手順の代表的なものである。ブロック図の機能を追加あるいは削除してもよく、機能ブロック間で動作が交換されてもよい。本発明の範囲内で記載される方法のステップが追加または削除されてもよい。

本発明のさまざまな側面は以下の付番実施例（EEE: Enumerated example embodiment）から理解されるであろう。
〔ＥＥＥ１〕
オーディオ・チャネルまたはオブジェクトの第二の呈示をデータ・ストリームとして表現するための方法であって：
（ａ）前記オーディオ・チャネルまたはオブジェクトの第一の呈示を表わす基本信号の集合を提供する段階と；
（ｂ）前記第一の呈示を前記第二の呈示に変換することを意図されている変換パラメータの集合を提供する段階とを含み、前記変換パラメータはさらに、少なくとも二つの周波数帯域について指定され、前記周波数帯域のうち少なくとも一つのためのマルチタップ畳み込み行列パラメータの集合を含む、
方法。
〔ＥＥＥ２〕
フィルタ係数の前記集合は、有限インパルス応答（FIR）フィルタを表わす、ＥＥＥ１記載の方法。
〔ＥＥＥ３〕
基本信号の前記集合は、一連の時間的セグメントに分割され、それぞれの時間的セグメントについて、変換パラメータの集合が提供される、ＥＥＥ１または２記載の方法。
〔ＥＥＥ４〕
前記フィルタ係数は、複素数値である少なくとも一つの係数を含む、ＥＥＥ１ないし３のうちいずれか一項記載の方法。
〔ＥＥＥ５〕
前記第一の呈示または前記第二の呈示は、ヘッドフォン再生のために意図される、ＥＥＥ１ないし４のうちいずれか一項記載の方法。
〔ＥＥＥ６〕
より高い周波数に関連付けられた変換パラメータは信号位相を修正せず、一方、より低い周波数については、前記変換パラメータは信号位相を修正する、ＥＥＥ１ないし５のうちいずれか一項記載の方法。
〔ＥＥＥ７〕
フィルタ係数の前記集合は、マルチタップ畳み込み行列を処理するために機能できる、ＥＥＥ１ないし６のうちいずれか一項記載の方法。
〔ＥＥＥ８〕
フィルタ係数の前記集合は、低周波数帯域を処理するために利用される、ＥＥＥ７記載の方法。
〔ＥＥＥ９〕
基本信号の前記集合および変換パラメータの前記集合は、組み合わされて前記データ・ストリームを形成する、ＥＥＥ１ないし８のうちいずれか一項記載の方法。
〔ＥＥＥ１０〕
前記変換パラメータは、基本信号の前記集合の高周波数部分の行列操作のための高周波数オーディオ行列係数を含む、ＥＥＥ１ないし９のうちいずれか一項記載の方法。
〔ＥＥＥ１１〕
基本信号の前記集合の前記高周波数部分のうち中間周波数部分のために、前記行列操作は複素数値の変換パラメータを含む、ＥＥＥ１０記載の方法。
〔ＥＥＥ１２〕
エンコードされたオーディオ信号をデコードするためのデコーダであって、前記エンコードされたオーディオ信号は：
第一のオーディオ呈示フォーマットにおける前記オーディオの再生のために意図されたオーディオ基本信号の集合を含む第一の呈示と；
前記第一の呈示フォーマットにおける前記オーディオ基本信号を第二の呈示フォーマットに変換するための変換パラメータの集合とを含み、前記変換パラメータは、少なくとも高周波数オーディオ変換パラメータおよび低周波数オーディオ変換パラメータを含み、前記低周波数変換パラメータはマルチタップ畳み込み行列パラメータを含み、
当該デコーダは：
オーディオ基本信号の前記集合および変換パラメータの前記集合を分離するための第一分離ユニットと；
前記マルチタップ畳み込み行列パラメータを前記オーディオ基本信号の低周波数成分に適用し；前記低周波数成分に畳み込みを適用することが畳み込みされた低周波数成分を生成する行列乗算ユニットと；
前記高周波数オーディオ変換パラメータを前記オーディオ基本信号の高周波数成分に適用してスカラー高周波数成分を生成するスカラー乗算ユニットと；
前記畳み込みされた低周波数成分および前記スカラー高周波数成分を組み合わせて前記第二の呈示フォーマットにおける時間領域出力信号を生成する出力フィルタバンクとを含む、
デコーダ。
〔ＥＥＥ１３〕
前記行列乗算ユニットは、前記オーディオ基本信号の前記低周波数成分の位相を修正する、ＥＥＥ１２記載のデコーダ。
〔ＥＥＥ１４〕
前記マルチタップ畳み込み行列変換パラメータは複素数値である、ＥＥＥ１２または１３記載のデコーダ。
〔ＥＥＥ１５〕
前記高周波数オーディオ変換パラメータが複素数値である、ＥＥＥ１２ないし１４のうちいずれか一項記載のデコーダ。
〔ＥＥＥ１６〕
変換パラメータの前記集合はさらに、実数値の、より高周波数のオーディオ変換パラメータを含む、ＥＥＥ１５記載のデコーダ。
〔ＥＥＥ１７〕
前記オーディオ基本信号を前記低周波数成分および前記高周波数成分に分離するためのフィルタをさらに有する、ＥＥＥ１２ないし１６のうちいずれか一項記載のデコーダ。
〔ＥＥＥ１８〕
エンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号は：
第一のオーディオ呈示フォーマットにおける前記オーディオの再生のために意図されたオーディオ基本信号の集合を含む第一の呈示と；
前記第一の呈示フォーマットにおける前記オーディオ基本信号を第二の呈示フォーマットに変換するための変換パラメータの集合とを含み、前記変換パラメータは、少なくとも高周波数オーディオ変換パラメータおよび低周波数オーディオ変換パラメータを含み、前記低周波数変換パラメータはマルチタップ畳み込み行列パラメータを含み、
当該方法は：
前記オーディオ基本信号の低周波数成分を前記低周波数変換パラメータと畳み込みして、畳み込みされた低周波数成分を生成する段階と；
前記オーディオ基本信号の高周波数成分に前記高周波数変換パラメータを乗算して、乗算された高周波数成分を生成する段階と；
前記畳み込みされた低周波数成分および前記乗算された高周波数成分を組み合わせて、第二の呈示フォーマットでの再生のための出力オーディオ信号周波数成分を生成する段階とを含む、方法。
〔ＥＥＥ１９〕
前記エンコードされた信号は複数の時間的セグメントを含み、当該方法はさらに：
前記エンコードされた信号の複数の時間的セグメントの変換パラメータを補間して、補間された低周波数オーディオ変換パラメータを含む補間された変換パラメータを生成する段階と；
前記オーディオ基本信号の前記低周波数成分の複数の時間的セグメントを前記補間された低周波数オーディオ変換パラメータと畳み込みして、前記畳み込みされた低周波数成分の複数の時間的セグメントを生成する段階とをさらに含む、
ＥＥＥ１８記載の方法。
〔ＥＥＥ２０〕
前記エンコードされたオーディオ信号の変換パラメータの前記集合は時間変化し、当該方法はさらに：
複数の時間的セグメントについて前記低周波数成分を前記低周波数変換パラメータと畳み込みして、中間の畳み込みされた低周波数成分の複数の集合を生成する段階と；
中間の畳み込みされた低周波数成分の前記複数の集合を補間して、前記畳み込みされた低周波数成分を生成する段階とをさらに含む、
ＥＥＥ１８記載の方法。
〔ＥＥＥ２１〕
前記補間は、中間の畳み込みされた低周波数成分の前記複数の集合の重複加算方法を利用する、ＥＥＥ１９またはＥＥＥ２０記載の方法。
〔ＥＥＥ２２〕
前記オーディオ基本信号をフィルタリングして前記低周波数成分および前記高周波数成分にする段階をさらに含む、ＥＥＥ１８ないし２１のうちいずれか一項記載の方法。
〔ＥＥＥ２３〕
ＥＥＥ１ないし１１および１８ないし２２のうちいずれか一項記載の方法に基づくコンピュータの動作のためのプログラム命令を含むコンピュータ可読の非一時的な記憶媒体。

Claims

オーディオ・チャネルまたはオブジェクトの第二の呈示をデータ・ストリームとして表現するための方法であって：
（ａ）前記オーディオ・チャネルまたはオブジェクトの第一の呈示を表わす基本信号を提供する段階と；
（ｂ）前記第一の呈示の前記基本信号を前記第二の呈示の出力信号に変換することを意図されている変換パラメータを提供する段階であって、前記変換パラメータは少なくとも、より高い周波数帯域について指定される高周波数変換パラメータおよびより低い周波数帯域について指定される低周波数変換パラメータを含み、前記低周波数変換パラメータは、前記基本信号の低周波数成分を前記低周波数変換パラメータと畳み込みして畳み込みされた低周波数成分を生成するためのマルチタップ畳み込み行列パラメータの集合を含み、前記高周波数変換パラメータは、前記基本信号の高周波数成分に前記高周波数変換パラメータを乗算して乗算された高周波数成分を生成するためのステートレスな行列のパラメータの集合を含み；前記第一の呈示はラウドスピーカー再生用であり前記第二の呈示はヘッドフォン再生用であるまたは前記第一の呈示はヘッドフォン再生用であり前記第二の呈示はラウドスピーカー再生用である、段階と；
（ｃ）前記基本信号および前記変換パラメータを組み合わせて前記データ・ストリームを形成する段階とを含む、
方法。
前記マルチタップ畳み込み行列パラメータは、有限インパルス応答（FIR）フィルタを示す、請求項１記載の方法。
前記基本信号は、一連の時間的セグメントに分割され、変換パラメータは各時間的セグメントについて与えられる、請求項１または２記載の方法。
前記マルチタップ畳み込み行列パラメータは、複素数値である少なくとも一つの係数を含む、請求項１ないし３のうちいずれか一項記載の方法。
前記基本信号を提供する段階は、第一のレンダリング・パラメータを使って、前記オーディオ・チャネルまたはオブジェクトから前記基本信号を決定することを含み；
当該方法は、第二のレンダリング・パラメータを使って、前記オーディオ・チャネルまたはオブジェクトから前記第二の呈示のための所望される出力信号を決定する段階を含み、
前記変換パラメータを提供する段階は、前記出力信号の前記所望される出力信号からの偏差を最小化することによって前記変換パラメータを決定することを含む、
請求項１ないし４のうちいずれか一項記載の方法。
前記変換パラメータを提供する段階は、
エンコーダ・フィルタバンクを使って、B個の周波数帯域についてサブバンド領域基本信号を決定し；
前記エンコーダ・フィルタバンクを使って、前記B個の周波数帯域についてサブバンド領域の所望される出力信号を決定し；
前記B個の周波数帯域のうちの少なくとも二つの隣接する周波数帯域についてマルチタップ畳み込み行列パラメータの同じ集合を決定することを含む、
請求項５記載の方法。
前記エンコーダ・フィルタバンクは、前記B個の周波数帯域の高周波数帯域よりも高い周波数分解能をもつ前記B個の周波数帯域の低周波数帯域を提供するハイブリッド・フィルタバンクを有し、
前記少なくとも二つの隣接する周波数帯域が低周波数帯域である、
請求項６記載の方法。
前記変換パラメータを提供する段階は、少なくとも二つの隣接する高周波数帯域について同じ実数値の変換パラメータを決定することを含む、請求項７記載の方法。
前記高周波数変換パラメータは前記基本信号の信号位相を修正せず、
前記低周波数変換パラメータは前記基本信号の信号位相を修正する、
請求項１ないし８のうちいずれか一項記載の方法。
前記マルチタップ畳み込み行列パラメータは、低周波数帯域を処理するために利用される、請求項１ないし９のうちいずれか一項記載の方法。
前記高周波数変換パラメータは、前記基本信号の高周波数部分の行列操作のための高周波数オーディオ行列係数を含む、
請求項１ないし１０のうちいずれか一項記載の方法。
前記基本信号の前記高周波数部分のうち中間周波数部分のために、前記行列操作は複素数値の変換パラメータを含む、請求項１１記載の方法。
エンコードされたオーディオ信号をデコードするためのデコーダであって、前記エンコードされたオーディオ信号は：
第一のオーディオ呈示フォーマットにおける前記エンコードされたオーディオ信号の再生のために意図されたオーディオ基本信号を含む第一の呈示と；
前記第一の呈示フォーマットにおける前記オーディオ基本信号を第二の呈示フォーマットの出力信号に変換するための変換パラメータとを含み、前記変換パラメータは、より高い周波数帯域について指定される高周波数変換パラメータおよびより低い周波数帯域について指定される低周波数変換パラメータを含み、前記低周波数変換パラメータはマルチタップ畳み込み行列パラメータを含み、前記高周波数変換パラメータはステートレスな行列のパラメータの集合を含み、前記第一の呈示フォーマットはラウドスピーカー再生用であり前記第二の呈示フォーマットはヘッドフォン再生用であるまたは前記第一の呈示フォーマットはヘッドフォン再生用であり、前記第二の呈示フォーマットはラウドスピーカー再生用であり、
当該デコーダは：
前記オーディオ基本信号および前記変換パラメータを分離するための第一分離ユニットと；
前記マルチタップ畳み込み行列パラメータを前記オーディオ基本信号の低周波数成分に適用し；前記低周波数成分に畳み込みを適用することが畳み込みされた低周波数成分を生成する、行列乗算ユニットと；
前記高周波数変換パラメータを前記オーディオ基本信号の高周波数成分に適用してスカラー高周波数成分を生成するスカラー乗算ユニットと；
前記畳み込みされた低周波数成分および前記スカラー高周波数成分を組み合わせて前記第二の呈示フォーマットの時間領域出力信号を生成する出力フィルタバンクとを含む、
デコーダ。
前記行列乗算ユニットは、前記オーディオ基本信号の前記低周波数成分の位相を修正する、請求項１３記載のデコーダ。
前記マルチタップ畳み込み行列変換パラメータは複素数値である、請求項１３または１４記載のデコーダ。
前記高周波数変換パラメータが複素数値である、請求項１３ないし１５のうちいずれか一項記載のデコーダ。
前記変換パラメータはさらに、実数値の、高周波数変換パラメータを含む、請求項１６記載のデコーダ。
前記オーディオ基本信号を前記低周波数成分および前記高周波数成分に分離するためのフィルタをさらに有する、請求項１３ないし１７のうちいずれか一項記載のデコーダ。
エンコードされたオーディオ信号をデコードする方法であって、前記エンコードされたオーディオ信号は：
第一のオーディオ呈示フォーマットにおける前記エンコードされたオーディオ信号の再生のために意図されたオーディオ基本信号を含む第一の呈示と；
前記第一の呈示フォーマットにおける前記オーディオ基本信号を第二の呈示フォーマットの出力信号に変換するための変換パラメータとを含み、前記変換パラメータは、より高い周波数帯域について指定される高周波数変換パラメータおよびより低い周波数帯域について指定される低周波数変換パラメータを含み、前記低周波数変換パラメータはマルチタップ畳み込み行列パラメータを含み、前記高周波数変換パラメータはステートレスな行列のパラメータの集合を含み、前記第一の呈示フォーマットはラウドスピーカー再生用であり前記第二の呈示フォーマットはヘッドフォン再生用であるまたは前記第一の呈示フォーマットはヘッドフォン再生用であり前記第二の呈示フォーマットはラウドスピーカー再生用であり、
当該方法は：
前記オーディオ基本信号の低周波数成分を前記低周波数変換パラメータと畳み込みして、畳み込みされた低周波数成分を生成する段階と；
前記オーディオ基本信号の高周波数成分に前記高周波数変換パラメータを乗算して、乗算された高周波数成分を生成する段階と；
前記畳み込みされた低周波数成分および前記乗算された高周波数成分を組み合わせて、前記第二の呈示フォーマットのための出力オーディオ信号周波数成分を生成する段階とを含む、
方法。
前記エンコードされたオーディオ信号は複数の時間的セグメントを含み、当該方法はさらに：
前記エンコードされたオーディオ信号の複数の時間的セグメントの変換パラメータを補間して、補間された低周波数変換パラメータを含む補間された変換パラメータを生成する段階と；
前記オーディオ基本信号の前記低周波数成分の複数の時間的セグメントを前記補間された低周波数変換パラメータと畳み込みして、前記畳み込みされた低周波数成分の複数の時間的セグメントを生成する段階とをさらに含む、
請求項１９記載の方法。
前記エンコードされたオーディオ信号の前記変換パラメータは時間変化し、前記オーディオ基本信号の低周波数成分の前記畳み込みは：
複数の時間的セグメントについて前記オーディオ基本信号の前記低周波数成分を前記低周波数変換パラメータと畳み込みして、中間の畳み込みされた低周波数成分の複数の集合を生成する段階と；
中間の畳み込みされた低周波数成分の前記複数の集合を補間して、前記畳み込みされた低周波数成分を生成する段階とを含む、
請求項１９記載の方法。
前記補間は、中間の畳み込みされた低周波数成分の前記複数の集合の重複加算方法を利用する、請求項２０または請求項２１記載の方法。
前記オーディオ基本信号をフィルタリングして前記低周波数成分および前記高周波数成分にする段階をさらに含む、請求項１９ないし２２のうちいずれか一項記載の方法。
請求項１ないし１２および１９ないし２３のうちいずれか一項記載の方法に基づくコンピュータの動作のためのプログラム命令を含むコンピュータ可読の非一時的な記憶媒体。