JP2016531484A

JP2016531484A - オーディオ信号を処理するための方法、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダ

Info

Publication number: JP2016531484A
Application number: JP2016528468A
Authority: JP
Inventors: フュグ・シモーネ; プログスティーズ・ヤン
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2013-07-22
Filing date: 2014-07-18
Publication date: 2016-10-06
Anticipated expiration: 2034-07-18
Also published as: RU2642376C2; BR112016001136B1; PL3606102T3; CA2918279A1; US11445323B2; US20210067898A1; US20180206059A1; US10848900B2; JP7241447B2; PT3025520T; KR101771533B1; US11910182B2; EP3025520A1; SG11201600370UA; PL3025520T3; JP2021114799A; TW201521017A; US20240171931A1; MX2016000698A; JP6879979B2

Abstract

室内インパルス応答に従ってオーディオ信号（５０４）を処理するための方法について説明する。オーディオ信号（５０４）は、室内インパルス応答の後期残響とは別個に室内インパルス応答の初期部分を用いて処理され（５０２）、後期残響の処理（５１４）は、スケーリングされた残響信号を生成することを含み、スケーリング（５２６）はオーディオ信号（５０４）に依存する。オーディオ信号（５０４）の処理された初期部分（５０６）と、スケーリングされた残響信号とは合成される。

Description

本発明は、オーディオ符号化／復号の分野に関し、特に空間オーディオコーディングおよび空間オーディオ・オブジェクト・コーディング、例えば３Ｄオーディオ・コーデック・システムの分野に関する。本発明の実施形態は、室内インパルス応答に従ってオーディオ信号を処理するための方法に、信号処理ユニット、バイノーラルレンダラ、オーディオエンコーダおよびオーディオデコーダに関する。

空間オーディオ・コーディング・ツールが当技術分野でよく知られており、例えば、ＭＰＥＧサラウンド規格において規格化されている。空間オーディオコーディングは、複数の元の入力、例えば、５つまたは７つの入力チャネルから開始し、これらは、再生セットアップにおいてそれらの配置によって、例えば、左チャネル、中央チャネル、右チャネル、左サラウンドチャネル、右サラウンドチャネルおよび低周波拡張チャネルとして識別される。空間オーディオエンコーダは、元のチャネルから１つまたは複数のダウンミックスチャネルを導出し得、さらに、チャネルコヒーレンス値のチャネル間レベル差、チャネル間位相差、チャネル間時間差など、空間キューに関係するパラメトリックデータを導出し得る。元の入力チャネルの近似バージョンである出力チャネルを最終的に取得するために、１つまたは複数のダウンミックスチャネルは、ダウンミックスチャネルおよび関連するパラメトリックデータを復号するために空間キューを示すパラメトリックサイド情報とともに空間オーディオデコーダに送信される。出力セットアップにおけるチャネルの配置は固定であり得、例えば、５．１フォーマット、７．１フォーマットなどであり得る。

また、空間オーディオ・オブジェクト・コーディング・ツールが当技術分野でよく知られており、例えば、ＭＰＥＧＳＡＯＣ規格（ＳＡＯＣ＝空間オーディオ・オブジェクト・コーディング）において規格化されている。元のチャネルから開始する空間オーディオコーディングとは対照的に、空間オーディオ・オブジェクト・コーディングは、あるレンダリング再生セットアップのために自動的に専用化されないオーディオオブジェクトから開始する。そうではなく、再生シーン中のオーディオオブジェクトの配置はフレキシブルであり、例えば、あるレンダリング情報を空間オーディオ・オブジェクト・コーディング・デコーダ中に入力することによって、ユーザによって設定され得る。代替または追加として、レンダリング情報は、追加のサイド情報またはメタデータとして送信され得、レンダリング情報は、あるオーディオオブジェクトが再生セットアップ中のその位置において（例えば、時間とともに）配置されるべきである情報を含み得る。あるデータ圧縮を得るために、いくつかのオーディオオブジェクトはＳＡＯＣエンコーダを使用して符号化され、ＳＡＯＣエンコーダは、あるダウンミックス情報に従ってオブジェクトをダウンミックスすることによって、入力オブジェクトから１つまたは複数のトランスポートチャネルを計算する。さらに、ＳＡＯＣエンコーダは、オブジェクトレベル差（ＯＬＤ）、オブジェクトコヒーレンス値など、オブジェクト間キューを表すパラメトリックサイド情報を計算する。ＳＡＣ（ＳＡＣ＝空間オーディオコーディング）の場合のように、オブジェクト間パラメトリックデータは、個々の時間／周波数タイルについて計算される。オーディオ信号のあるフレーム（例えば、１０２４または２０４８個のサンプル）では、フレームごとにおよび周波数帯域ごとにパラメトリックデータが提供されるように複数の周波数帯域（例えば２４、３２、または、６４個の帯域）が考慮される。例えば、オーディオ部分が２０個のフレームを有するときおよび各フレームが３２個の周波数帯域に再分割されるとき、時間／周波数タイルの数は６４０である。

３Ｄオーディオシステムでは、オーディオ信号が特定の室内において聴取されるかのようにオーディオ信号の空間印象を提供することが望まれることがある。そのような状況では、特定の室内の室内インパルス応答が、例えばそれの測定に基づいて提供され、オーディオ信号を聴取者に提示するときにそのオーディオ信号を処理するために使用される。そのような提示では、後期残響から分離された直接音および初期反射を処理することが望まれ得る。

本発明の基礎をなす目的は、室内インパルス応答の初期部分と後期残響を用いてオーディオ信号を別々に処理するための承認された手法を提供し、それにより、完全なインパルス応答を用いたオーディオ信号の畳み込みの結果とできる限り知覚的に同等である結果を達成することを可能にすることである。

この目的は、請求項１の方法と、請求項１９の信号処理ユニットと、請求項２３のバイノーラルレンダラと、請求項２４のオーディオエンコーダと、請求項２５のオーディオデコーダとによって達成される。

本発明は、従来の手法では、室内インパルス応答によるオーディオ信号の処理時に、初期部分と残響とに関してオーディオ信号を別々に処理する結果が、完全なインパルス応答を用いて畳み込みを適用するときの結果から逸脱するという点で問題が存在するという発明者の発見に基づく。本発明は、例えば、合成残響手法を使用するとき、残響への入力オーディオ信号の影響が十分に保持されないので、適切なレベルの残響が入力オーディオ信号とインパルス応答の両方に依存するという発明者の発見にさらに基づく。インパルス応答の影響は、入力パラメータとして既知の残響特性を使用することによって考慮され得る。入力信号の影響は、入力オーディオ信号に基づいて決定される残響のレベルを適応させるための信号依存スケーリングによって考慮され得る。この手法により、残響の知覚されるレベルは、バイノーラルレンダリングのために完全な畳み込み手法を使用するときの残響のレベルにより良く一致することが分かっている。

（１）本発明は、室内インパルス応答に従ってオーディオ信号を処理するための方法を提供し、本方法は、
室内インパルス応答の初期部分と後期残響とを用いてオーディオ信号を別々に処理することであって、後期残響を処理することが、スケーリングされた残響信号を生成することを含み、スケーリングがオーディオ信号に依存する、処理することと、
室内インパルス応答の初期部分を用いて処理されたオーディオ信号とスケーリングされた残響信号とを合成することと
を含む。
上記で説明した従来の手法と比較すると、本発明の手法は、完全な畳み込み結果を計算する必要なしにまたは広範で不正確な聴覚モデルを適用する必要なしに後期残響をスケーリングすることを可能にするので、有利である。本発明の手法の実施形態は、完全な畳み込み手法での残響のようにそれが聞こえるように人工的後期残響をスケーリングするための容易な方法を提供する。スケーリングは入力信号に基づき、追加の聴覚モデルまたはターゲット残響ラウドネスは不要である。スケーリングファクタは、エンコーダ／デコーダチェーン中のオーディオ素材も時間周波数領域においてしばしば利用可能でもあるので利点であるこの時間周波数領域において導出され得る。

（２）実施形態によれば、スケーリングは、オーディオ信号の１つまたは複数の入力チャネルの状態（例えば、入力チャネルの数、アクティブ入力チャネルの数および／または入力チャネル中のアクティビティ）に依存し得る。
スケーリングは、低減した計算オーバーヘッドにより入力オーディオ信号から容易に決定され得るので、これは有利である。例えば、スケーリングは、元のオーディオ信号と比較して低減した数のチャネルを含む、現在考慮されているダウンミックスチャネルにダウンミックスされる元のオーディオ信号中のチャネルの数を単に決定することによって決定され得る。代替的に、現在考慮されているダウンミックスチャネルにダウンミックスされるアクティブチャネル（現在オーディオフレーム中で何らかのアクティビティを示すチャネル）の数は、残響信号をスケーリングするための基礎を形成し得る。

（３）実施形態によれば、（入力チャネル状態の追加または代替として）スケーリングは、オーディオ信号のあらかじめ定義されたまたは計算される相関測度に依存する。
あらかじめ定義された相関測度を使用することは、プロセスにおける計算複雑さを低減するので、有利である。あらかじめ定義された相関測度は、複数のオーディオ信号の分析に基づいて経験的に決定され得る、例えば０．１〜０．９の範囲内の、固定値を有し得る。一方、個々に現在処理されているオーディオ信号についてより正確な測度を取得することが望まれる場合、必要とされる追加の計算リソースにもかかわらず、相関測度を計算することが有利である。

（４）実施形態によれば、スケーリングされた残響信号を生成することは、利得ファクタを適用することを含み、利得ファクタは、オーディオ信号の１つまたは複数の入力チャネルの状態に基づいておよび／またはオーディオ信号についてのあらかじめ定義されたまたは計算される相関測度に基づいて決定され、利得ファクタは、オーディオ信号の後期残響を処理する前に、その間にまたはその後に適用され得る。
利得ファクタは、上記のパラメータに基づいて容易に計算され得、実装詳細の依存する処理チェーン中の残響器に関してフレキシブルに適用され得るので、これは有利である。

（５）実施形態によれば、利得ファクタは以下のように決定される。
ｇ＝ｃ_ｕ＋ρ・（ｃ_ｃ−ｃ_ｕ）
ただし
ρ ＝オーディオ信号についてのあらかじめ定義されたまたは計算される相関測度、
ｃ_ｕ、ｃ_ｃ＝オーディオ信号の１つまたは複数の入力チャネルの状態を示すファクタであり、ｃ_ｕは、全体として無相関なチャネルを指し、ｃ_ｃは、全体として相関するチャネルに関係する。
ファクタは、オーディオ信号中のアクティブチャネルの数とともに経時的にスケーリングするので、これは有利である。

（６）実施形態によれば、ｃ_ｕおよびｃ_ｃは以下のように決定される。

ただし
Ｋ_ｉｎ＝アクティブまたは固定ダウンミックスチャネルの数。
ファクタは、オーディオ信号中のアクティブチャネルの数に直接依存するので、これは有利である。どのチャネルもアクティブでない場合、残響は０でスケーリングされ、より多くのチャネルがアクティブであれば、残響の振幅はより大きくなり得る。

（７）実施形態によれば、利得ファクタは、複数のオーディオフレームにわたって低域フィルタ処理され、利得ファクタは以下のように低域フィルタ処理され得る。

ただし
ｔ_ｓ＝低域フィルタの時定数
ｔ_ｉ＝フレームｔ_ｉにおけるオーディオフレーム
ｇ_ｓ＝平滑化された利得ファクタ
ｋ＝フレームサイズ、および
ｆ_ｓ＝サンプリング周波数。
スケーリングファクタについて時間とともに急激な変化が起こらないので、これは有利である。

（８）実施形態によれば、スケーリングされた残響信号を生成することは、オーディオ信号の相関分析を含み、オーディオ信号の相関分析は、オーディオ信号のオーディオフレームについて合成相関測度を決定することを含み得、合成相関測度は、１つのオーディオフレームの複数のチャネル合成についての相関係数を合成することによって計算され得、各オーディオフレームは１つまたは複数のタイムスロットを含み、相関係数を合成することは、オーディオフレームの複数の相関係数を平均化することを含み得る。
相関は、１つのオーディオフレームの全体的な相関を記述する１つの単一の値によって記述され得るので、これは有利である。複数の周波数依存値を扱う必要はない。

（９）実施形態によれば、合成相関測度を決定することは、（ｉ）１つのオーディオフレームのチャネルごとに全体的な平均値を計算することと、（ｉｉ）対応するチャネルから平均値を減算することによってゼロ平均オーディオフレームを計算することと、（ｉｉｉ）複数のチャネル合成について相関係数を計算することと、（ｉｖ）合成相関測度を複数の相関係数の平均として計算することとを含み得る。
上述のように、フレームごとにただ１つの単一の全体的な相関値が計算され（容易な処理）、その計算は、ゼロ平均信号およびそれの標準偏差を同じく使用する「標準」のピアソンの相関係数と同様に行われ得るので、これは有利である。

（１０）実施形態によれば、チャネル合成についての相関係数は以下のように決定される。

ただし
ρ［ｍ，ｎ］＝相関係数、
σ（ｘ_ｍ［ｊ］）＝チャネルｍの１つのタイムスロットｊにわたる標準偏差、
σ（ｘ_ｎ［ｊ］）＝チャネルｎの１つのタイムスロットｊにわたる標準偏差、
ｘ_ｍ，ｘ_ｎ＝ゼロ平均変数、
ｉ∀［１，Ｎ］＝周波数帯域、
ｊ∀［１，Ｍ］＝タイムスロット、
ｍ，ｎ∀［１，Ｋ］＝チャネル、
＊＝複素共役。
ピアソンの相関係数のためのよく知られている式が使用され得、周波数依存および時間依存式に変換されるので、これは有利である。

（１１）実施形態によれば、オーディオ信号の後期残響を処理することは、オーディオ信号をダウンミックスすることと、ダウンミックスされたオーディオ信号を残響器に印加することとを含む。
例えば、残響器中での処理は、より少ないチャネルを扱う必要があり、ダウンミックスプロセスが直接制御され得るので、これは有利である。

（１２）本発明は、オーディオ信号を受信するための入力と、室内インパルス応答の初期部分に従って、受信されたオーディオ信号を処理するための初期部分プロセッサと、室内インパルス応答の後期残響に従って、受信されたオーディオ信号を処理するための後期残響プロセッサであって、後期残響プロセッサが、受信されたオーディオ信号に依存するスケーリングされた残響信号を生成するように構成またはプログラムされた後期残響プロセッサと、室内インパルス応答の初期部分を用いて処理されたオーディオ信号とスケーリングされた残響信号とを出力オーディオ信号に合成するための出力とを備える、信号処理ユニットを提供する。

（１３）実施形態によれば、後期残響プロセッサは、オーディオ信号を受信し残響信号を生成する残響器と、オーディオ信号に依存する利得ファクタを生成する相関分析器と、残響器の入力または出力に結合され相関分析器によって提供される利得ファクタによって制御される利得段とを備える。

（１４）実施形態によれば、信号処理ユニットは、相関分析器と利得段との間に結合された低域フィルタと、利得段と加算器との間に結合された遅延要素とのうちの少なくとも１つとをさらに備え、加算器は、初期部分プロセッサと出力とにさらに結合される。

（１５）本発明は、本発明の信号処理ユニットを備える、バイノーラルレンダラを提供する。

（１６）本発明は、コーディングより前にオーディオ信号を処理するための本発明の信号処理ユニットまたは本発明のバイノーラルレンダラを備える、オーディオ信号をコーディングするためのオーディオエンコーダを提供する。

（１７）本発明は、復号されたオーディオ信号を処理するための本発明の信号処理ユニットまたは本発明のバイノーラルレンダラを備える、符号化されたオーディオ信号を復号するためのオーディオデコーダを提供する。
本発明の実施形態について、添付の図面に関して説明する。

３Ｄオーディオシステムの３Ｄオーディオエンコーダの概観を示す。３Ｄオーディオシステムの３Ｄオーディオデコーダの概観を示す。図２の３Ｄオーディオデコーダにおいて実装され得るフォーマット変換器を実装するための一例を示す。図２の３Ｄオーディオデコーダにおいて実装され得るバイノーラルレンダラの一実施形態を示す。室内インパルス応答ｈ（ｔ）の一例を示す。室内インパルス応答を用いてオーディオ入力信号を処理するための異なる可能性を示し、室内インパルス応答に従って完全なオーディオ信号を処理することを示す。室内インパルス応答を用いてオーディオ入力信号を処理するための異なる可能性を示し、初期部分と後期残響部分との別々の処理を示す。本発明の教示に従って動作する、バイノーラルレンダラのような信号処理ユニットのブロック図を示す。本発明の一実施形態によるもののためのバイノーラルレンダラにおけるオーディオ信号のバイノーラル処理を概略的に示す。本発明の一実施形態による図８のバイノーラルレンダラの周波数領域残響器における処理を概略的に示す。

次に、本発明の手法の実施形態について説明する。以下の説明は、本発明の手法がその中で実装され得る３Ｄオーディオ・コーデック・システムのシステム概観から始める。

図１および図２は、実施形態による３Ｄオーディオシステムのアルゴリズムブロックを示す。より詳細には、図１は、３Ｄオーディオエンコーダ１００の概観を示す。オーディオエンコーダ１００は、随意によっては提供され得るプリレンダラ／ミキサ回路１０２において、入力信号を受信し、より詳細には、複数のチャネル信号１０４と、複数のオブジェクト信号１０６と、対応するオブジェクトメタデータ１０８とをオーディオエンコーダ１００に提供する複数の入力チャネルを受信する。プリレンダラ／ミキサ１０２によって処理されたオブジェクト信号１０６（信号１１０を参照）は、ＳＡＯＣエンコーダ１１２（ＳＡＯＣ＝空間オーディオ・オブジェクト・コーディング）に提供され得る。ＳＡＯＣエンコーダ１１２は、ＵＳＡＣエンコーダ１１６（ＵＳＡＣ＝統合された音声およびオーディオコーディング）に提供されるＳＡＯＣトランスポートチャネル１１４を生成する。さらに、信号ＳＡＯＣ−ＳＩ１１８（ＳＡＯＣ−ＳＩ＝ＳＡＯＣサイド情報）もＵＳＡＣエンコーダ１１６に提供される。ＵＳＡＣエンコーダ１１６は、プリレンダラ／ミキサから直接的にオブジェクト信号１２０をさらに受信し、ならびにチャネル信号およびプリレンダリングされたオブジェクト信号１２２を受信する。オブジェクトメタデータ情報１０８がＯＡＭエンコーダ１２４（ＯＡＭ＝オブジェクトメタデータ）に印加され、ＯＡＭエンコーダ１２４は、圧縮されたオブジェクトメタデータ情報１２６をＵＳＡＣエンコーダに提供する。ＵＳＡＣエンコーダ１１６は、上述の入力信号に基づいて、１２８に示されているように、圧縮された出力信号ｍｐ４を生成する。

図２は、３Ｄオーディオシステムの３Ｄオーディオデコーダ２００の概観を示す。図１のオーディオエンコーダ１００によって生成された符号化された信号１２８（ｍｐ４）は、オーディオデコーダ２００において、より詳細にはＵＳＡＣデコーダ２０２において受信される。ＵＳＡＣデコーダ２０２は、受信された信号１２８を、チャネル信号２０４と、プリレンダリングされたオブジェクト信号２０６と、オブジェクト信号２０８と、ＳＡＯＣトランスポートチャネル信号２１０とに復号する。さらに、圧縮されたオブジェクトメタデータ情報２１２と、信号ＳＡＯＣ−ＳＩ２１４とがＵＳＡＣデコーダ２０２によって出力される。オブジェクト信号２０８はオブジェクトレンダラ２１６に提供され、オブジェクトレンダラ２１６は、レンダリングされたオブジェクト信号２１８を出力する。ＳＡＯＣトランスポートチャネル信号２１０はＳＡＯＣデコーダ２２０に供給され、ＳＡＯＣデコーダ２２０は、レンダリングされたオブジェクト信号２２２を出力する。圧縮されたオブジェクトメタ情報２１２はＯＡＭデコーダ２２４に供給され、ＯＡＭデコーダ２２４は、レンダリングされたオブジェクト信号２１８とレンダリングされたオブジェクト信号２２２とを生成するために、オブジェクトレンダラ２１６とＳＡＯＣデコーダ２２０とにそれぞれの制御信号を出力する。デコーダは、図２に示されているように、チャネル信号２２８を出力するために入力信号２０４、２０６、２１８および２２２を受信するミキサ２２６をさらに備える。チャネル信号は、２３０において示されているように、ラウドスピーカ、例えば、３２チャネルラウドスピーカに直接出力され得る。信号２２８は、チャネル信号２２８が変換されるべき方法を示す再生レイアウト信号を制御入力として受信するフォーマット変換回路２３２に提供され得る。図２に示された実施形態では、変換は、信号が、２３４において示されているように５．１スピーカシステムに提供され得るような方法で行われると仮定する。また、チャネル信号２２８はバイノーラルレンダラ２３６に提供され得、バイノーラルレンダラ２３６は、２３８において示されているような、例えばヘッドフォンのために、２つの出力信号を生成する。

本発明の一実施形態では、図１および図２に示された符号化／復号システムは、チャネル信号とオブジェクト信号と（信号１０４および１０６を参照）のコーディングのためのＭＰＥＧ−ＤＵＳＡＣコーデックに基づく。大量のオブジェクトをコーディングするための効率を高めるために、ＭＰＥＧＳＡＯＣ技術が使用され得る。３つのタイプのレンダラが、オブジェクトをチャネルにレンダリングするか、チャネルをヘッドフォンにレンダリングするか、またはチャネルを異なるラウドスピーカセットアップにレンダリングするタスクを実施し得る（図２を参照、参照符号２３０、２３４および２３８）。オブジェクト信号が、ＳＡＯＣを使用して明示的に送信されるかまたはパラメータ的に符号化されるとき、対応するオブジェクトメタデータ情報１０８が圧縮され（信号１２６を参照）、３Ｄオーディオビットストリーム１２８に多重化される。
図１および図２に示された３Ｄオーディオシステム全体のアルゴリズムブロックについて以下でさらに詳細に説明する。

符号化の前にチャネル＋オブジェクト入力シーンをチャネルシーンに変換するために、随意によってはプリレンダラ／ミキサ１０２が提供され得る。機能的に、プリレンダラ／ミキサ１０２は、以下で説明するオブジェクトレンダラ／ミキサと同等である。同時にアクティブなオブジェクト信号の数に基本的に依存しないエンコーダ入力における決定性信号エントロピーを保証するために、オブジェクトのプリレンダリングが望まれることがある。オブジェクトのプリレンダリングでは、オブジェクトメタデータ送信は必要とされない。エンコーダが使用するように構成されるチャネルレイアウトに離散オブジェクト信号がレンダリングされる。各チャネルについてのオブジェクトの重みが、関連するオブジェクトメタデータ（ＯＡＭ）から取得される。

ＵＳＡＣエンコーダ１１６は、ラウドスピーカチャネル信号と、離散オブジェクト信号と、オブジェクトダウンミックス信号と、プリレンダリングされた信号とのためのコアコーデックである。ＵＳＡＣエンコーダ１１６はＭＰＥＧ−ＤＵＳＡＣ技術に基づく。ＵＳＡＣエンコーダ１１６は、入力チャネルおよびオブジェクト割当ての幾何学的およびセマンティック情報に基づいてチャネルおよびオブジェクトマッピング情報を作成することによって上記の信号のコーディングを処理する。このマッピング情報は、どのように入力チャネルおよびオブジェクトが、チャネルペア要素（ＣＰＥ）、単一チャネル要素（ＳＣＥ）、低周波効果（ＬＦＥ）およびクワッドチャネル要素（ＱＣＥ）のようなＵＳＡＣチャネル要素にマッピングされるかを記述し、ＣＰＥ、ＳＣＥおよびＬＦＥ、ならびに対応する情報がデコーダに送信される。ＳＡＯＣデータ１１４、１１８またはオブジェクトメタデータ１２６のようなすべての追加のペイロードがエンコーダのレート制御において考慮される。オブジェクトのコーディングは、レンダラのためのレート／ひずみ要件およびインタラクティビティ要件に応じて、様々な方法で可能である。実施形態によれば、以下のオブジェクトコーディング変形態が可能である。

・プリレンダリングされたオブジェクト：オブジェクト信号は、符号化の前に２２．２チャネル信号にプリレンダリングされミックスされる。後続のコーディングチェーンは２２．２チャネル信号を経験する。

・離散オブジェクト波形：オブジェクトはモノフォニック波形としてエンコーダに供給される。エンコーダは、チャネル信号に加えてオブジェクトを送信するために単一チャネル要素（ＳＣＥ）を使用する。復号されたオブジェクトは、受信機側においてレンダリングされ、ミックスされる。圧縮されたオブジェクトメタデータ情報は受信機／レンダラに送信される。

・パラメトリックオブジェクト波形：オブジェクトプロパティおよびそれらの互いの関係がＳＡＯＣパラメータによって記述される。オブジェクト信号のダウンミックスは、ＵＳＡＣを用いてコーディングされる。パラメータ情報が一緒に送信される。ダウンミックスチャネルの数は、オブジェクトの数と、全体的なデータレートとに応じて選定される。圧縮されたオブジェクトメタデータ情報はＳＡＯＣレンダラに送信される。

オブジェクト信号のためのＳＡＯＣエンコーダ１１２およびＳＡＯＣデコーダ２２０はＭＰＥＧＳＡＯＣ技術に基づき得る。システムは、より少ない数の送信されたチャネルと、ＯＬＤ、ＩＯＣ（オブジェクト間コヒーレンス）、ＤＭＧ（ダウンミックス利得）などの追加のパラメトリックデータとに基づいていくつかのオーディオオブジェクトを再作成、修正およびレンダリングすることが可能である。追加のパラメトリックデータは、すべてのオブジェクトを個々に送信するのに必要とされるよりも著しく低いデータレートを示し、それにより、コーディングが極めて効率的になる。ＳＡＯＣエンコーダ１１２は、入力としてオブジェクト／チャネル信号をモノフォニック波形として取り、（３Ｄオーディオビットストリーム１２８中にパックされる）パラメータ情報と、（単一チャネル要素を使用して符号化され、送信される）ＳＡＯＣトランスポートチャネルとを出力する。ＳＡＯＣデコーダ２２０は、復号されたＳＡＯＣトランスポートチャネル２１０およびパラメータ情報２１４からオブジェクト／チャネル信号を再構成し、再生レイアウト、復元されたオブジェクトメタデータ情報に基づいて、および随意によってはユーザ対話情報に基づいて出力オーディオシーンを生成する。

オブジェクト・メタデータ・コーデック（ＯＡＭエンコーダ１２４およびＯＡＭデコーダ２２４を参照）は、各オブジェクトについて、３Ｄ空間中のオブジェクトの幾何学的位置およびボリュームを指定する関連するメタデータが、時間および空間におけるオブジェクトプロパティの量子化によって効率的にコーディングされるように提供される。圧縮されたオブジェクトメタデータｃＯＡＭ１２６はサイド情報として受信機２００に送信される。

オブジェクトレンダラ２１６は、所与の再生フォーマットに従ってオブジェクト波形を生成するために、圧縮されたオブジェクトメタデータを利用する。各オブジェクトは、それのメタデータに従ってある出力チャネルにレンダリングされる。このブロックの出力は、部分的な結果の合計から生じる。チャネルベースのコンテンツならびに離散／パラメトリックオブジェクトの両方が復号される場合、チャネルベースの波形と、レンダリングされたオブジェクト波形とはミキサ２２６によってミックスされ、その後、得られた波形２２８が出力されるか、あるいは得られた波形２２８は、バイノーラルレンダラ２３６またはラウドスピーカ・レンダラモジュール２３２のようなポストプロセッサモジュールに供給される。

バイノーラル・レンダラ・モジュール２３６は、各入力チャネルが仮想音源によって表されるようにマルチチャネルオーディオ素材のバイノーラルダウンミックスを生成する。処理はＱＭＦ（直交ミラーフィルタバンク）領域中でフレームごとに行われ、バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づく。

ラウドスピーカレンダラ２３２は、送信されたチャネル構成２２８と所望の再生フォーマットとの間で変換する。それは「フォーマット変換器」と呼ばれることもある。フォーマット変換器は、より低い数の出力チャネルへの変換を実施し、すなわち、それはダウンミックスを生じる。

図３は、フォーマット変換器２３２を実装するための一例を示す。ラウドスピーカレンダラとも呼ばれる、フォーマット変換器２３２は、送信機チャネル構成と所望の再生フォーマットとの間で変換する。フォーマット変換器２３２は、より低い数の出力チャネルへの変換を実施し、すなわち、それはダウンミックス（ＤＭＸ）プロセス２４０を実施する。好ましくはＱＭＦ領域中で動作するダウンミキサ２４０は、ミキサ出力信号２２８を受信し、ラウドスピーカ信号２３４を出力する。コントローラとも呼ばれる、構成器２４２が提供され得、この構成器２４２は、制御入力として、ミキサ出力レイアウト、すなわち、ミキサ出力信号２２８によって表されるデータがそれのために決定されるレイアウトを示す信号２４６と、所望の再生レイアウトを示す信号２４８とを受信する。この情報に基づいて、コントローラ２４２は、好ましくは自動的に、入力フォーマットと出力フォーマットとの所与の合成のための最適化されたダウンミックス行列を生成し、これらの行列をダウンミキサ２４０に適用する。フォーマット変換器２３２は、標準のラウドスピーカ構成、ならびに非標準のラウドスピーカ位置をもつランダム構成を可能にする。

図４は、図２のバイノーラルレンダラ２３６の一実施形態を示す。バイノーラル・レンダラ・モジュールは、マルチチャネルオーディオ素材のバイノーラルダウンミックスを提供し得る。バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づき得る。室内インパルス応答は、現実の室内の音響プロパティの「指紋」と見なされ得る。室内インパルス応答は測定され、記憶され、任意の音響信号にはこの「指紋」が提供され得、それにより、聴取者において、室内インパルス応答に関連する室内の音響プロパティのシミュレーションが可能になる。バイノーラルレンダラ２３６は、頭部伝達関数またはバイノーラル室内インパルス応答（ＢＲＩＲ）を使用して出力チャネルを２つのバイノーラルチャネルにレンダリングするように構成またはプログラムされ得る。例えば、モバイルデバイスでは、ヘッドフォンまたはそのようなモバイルデバイスに取り付けられたラウドスピーカのためのバイノーラルレンダリングが望まれる。そのようなモバイルデバイスでは、制約により、デコーダとレンダリングの複雑さとを制限することが必要であり得る。そのような処理シナリオでは無相関を省略することに加えて、ダウンミキサ２５０を使用して、中間ダウンミックス信号２５２への、すなわち、より低い数の出力チャネルへのダウンミックスを最初に実施することが好適であり得、それにより、実際のバイノーラル変換器２５４のためにより低い数の入力チャネルが得られる。例えば、２２．２チャネル素材が、ダウンミキサ２５０によって５．１中間ダウンミックスにダウンミックスされ得るか、または、代替的に、中間ダウンミックスが、一種の「ショートカット」モードで図２のＳＡＯＣデコーダ２２０によって直接計算され得る。その場合、バイノーラルレンダリングは、２２．２入力チャネルが直接レンダリングされるべきであった場合、４４個のＨＲＴＦ（頭部伝達関数）またはＢＲＩＲ関数を適用するのとは対照的に、５つの個々のチャネルを異なる位置においてレンダリングするために１０個のＨＲＴＦまたはＢＲＩＲ関数を適用するだけでよい。バイノーラルレンダリングに必要な畳み込み演算は多くの処理電力を必要とし、したがって、許容できるオーディオ品質を依然として獲得しながらこの処理電力を低減することは、モバイルデバイスにとって特に有用である。バイノーラルレンダラ２３６は、（ＬＦＥチャネルを除く）各入力チャネルが仮想音源によって表されるように、マルチチャネルオーディオ素材２２８のバイノーラルダウンミックス２３８を生成する。処理はＱＭＦ領域中でフレームごとに行われ得る。バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づき、直接音および初期反射は、ＱＭＦ領域の上で高速畳み込みを使用して擬似ＦＦＴ領域において畳み込み手法を介してオーディオ素材に転写され得るが、後期残響は別々に処理され得る。

図５は、室内インパルス応答ｈ（ｔ）３００の一例を示す。室内インパルス応答は、３つの成分、直接音３０１、初期反射３０２および後期残響３０４を含む。このようにして、室内インパルス応答は、インパルスが発されたときの密閉型残響音響空間の反射挙動を記述する。初期反射３０２は、増加する密度を伴う個別の反射であり、個々の反射がもはや区別され得ないインパルス応答の部分は、後期残響３０４と呼ばれる。直接音３０１は、室内インパルス応答において容易に識別され得、初期反射から分離され得るが、初期反射３０２から後期残響３０４への遷移はあまり明白でない。

上記で説明したように、バイノーラルレンダラ、例えば図２にそれが示されているようなバイノーラルレンダラでは、室内インパルス応答に従ってマルチチャネルオーディオ入力信号を処理するための様々な手法が知られている。

図６は、室内インパルス応答を用いてオーディオ入力信号を処理するための異なる可能性を示す。図６（ａ）は、室内インパルス応答に従って完全なオーディオ信号を処理することを示し、図６（ｂ）は、初期部分と後期残響部分との別々の処理を示す。図６（ａ）に示されているように、入力信号４００、例えばマルチチャネルオーディオ入力信号が受信され、プロセッサ４０２に印加され、プロセッサ４０２は、室内インパルス応答（図５を参照）を用いてマルチチャネルオーディオ入力信号４００の完全な畳み込みを可能にするように構成またはプログラムされ、これは、図示された実施形態では、２チャネルオーディオ出力信号４０４を生じる。上述のように、この手法は、インパルス応答全体に畳み込みを使用することが計算量的に極めてコストがかかるので、不利であると見なされる。したがって、別の手法によれば、図６（ｂ）に示されているように、図６（ａ）に関して説明した室内インパルス応答を用いて完全な畳み込みを適用することによってマルチチャネルオーディオ入力信号全体を処理する代わりに、処理は、室内インパルス応答３００の初期部分３０１、３０２（図５を参照）と、後期残響部分３０２とに関して分離される。より詳細には、図６（ｂ）に示されているように、マルチチャネルオーディオ入力信号４００が受信されるが、信号は、初期部分を処理するために、すなわち、図５に示された室内インパルス応答３００中の直接音３０１と初期反射３０２とに従ってオーディオ信号を処理するために、第１のプロセッサ４０６に並列に印加される。マルチチャネルオーディオ入力信号４００はまた、室内インパルス応答３００の後期残響３０４に従ってオーディオ信号を処理するためにプロセッサ４０８に適用される。図６（ｂ）に示された実施形態では、マルチチャネルオーディオ入力信号は、マルチチャネル信号４００を、より低い数のチャネルを有する信号にダウンミックスするためにダウンミキサ４１０にも印加され得る。ダウンミキサ４１０の出力は、次いでプロセッサ４０８に印加される。プロセッサ４０６とプロセッサ４０８との出力は４１２において合成されて２チャネルオーディオ出力信号４０４’が生成される。

バイノーラルレンダラでは、上述のように、主に計算複雑さの低減のために、直接音および初期反射を後期残響とは別個に処理することが望まれることがある。直接音と初期反射との処理は、例えば、プロセッサ４０６（図６（ｂ）を参照）によって実行される畳み込み手法によってオーディオ信号に転写され得るが、後期残響は、プロセッサ４０８によって行われる合成残響と置換され得る。全体的なバイノーラル出力信号４０４’は、その場合、プロセッサ４０６によって提供される畳み込み結果と、プロセッサ４０８によって提供される合成残響信号との合成である。

この処理は従来技術文献［１］にも記載している。上記で説明した手法の結果は、完全なインパルス応答の畳み込み、図６（ａ）に関して説明した完全変換手法の結果とできる限り知覚的に同等であるはずである。しかしながら、オーディオ信号、またはより一般的な、オーディオ素材が、インパルス応答の直接音と初期反射部分とで畳み込まれた場合、結果として異なるチャネルが合計されて、聴取者の一方の耳への再生信号に関連付けられた全体的な音信号が形成される。残響は、しかしながら、この全体的な信号から計算されないが、概して、元の入力オーディオ信号の１つのチャネルまたはダウンミックスの残響信号である。本発明の発明者によって、したがって、後期残響は、プロセッサ４０６によって提供される畳み込み結果に適切に適合していないと判断されている。適切なレベルの残響は入力オーディオ信号と室内インパルス応答３００の両方に依存することが分かっている。インパルス応答の影響は、プロセッサ４０８の一部であり得る残響器の入力パラメータとして残響特性を使用することによって達成され、これらの入力パラメータは、測定されたインパルス応答、例えば周波数依存残響時間および周波数依存エネルギー測度の分析から取得される。これらの測度は、概して、例えばオクターブフィルタバンク分析においてエネルギーおよびＲＴ６０残響時間を計算することによって、単一のインパルス応答から決定され得るか、または複数のインパルス応答分析の結果の平均値である。

しかしながら、残響器に提供されるこれらの入力パラメータにもかかわらず、図６（ｂ）に関して説明するような合成残響手法を使用するとき、残響への入力オーディオ信号の影響は十分に保持されないことが分かっている。例えば、合成残響テールを生成するために使用されるダウンミックスにより、入力オーディオ信号の影響は失われる。残響の得られるレベルは、したがって、特に入力信号が複数のチャネルを含む場合、完全な畳み込み手法の結果と知覚的に同等でない。

これまで、後期残響の量を完全な畳み込み手法の結果と比較するかまたはそれを畳み込み結果に一致させる既知の手法はない。後期残響の品質をレーティングするかまたはそれがどれくらい自然に聞こえるかをレーティングすることを試みるいくつかの技法がある。例えば、１つの方法では、自然な音響残響のためのラウドネス測度が定義され、これは、ラウドネスモデルを使用して残響の知覚されるラウドネスを予測する。この手法は従来技術文献［２］に記載されており、レベルはターゲット値に適合され得る。この手法の欠点は、複雑で不正確である人間の聴覚のモデルにそれが依拠することである。それはまた、完全な畳み込み結果を使用して見つけられ得る後期残響にスケーリングファクタを提供するためのターゲットラウドネスを必要とする。

従来技術文献［３］に記載した別の方法では、人工的残響品質テストのための相互相関基準が使用される。しかしながら、これは、異なる残響アルゴリズムをテストするためにのみ適用可能であるが、マルチチャネルオーディオには適用可能でなく、バイノーラルオーディオには適用可能でなく、後期残響のスケーリングを適格とするためには適用可能でない。

別の可能な手法は、スケーリングファクタとしての考慮される耳における入力チャネルの数の使用に対するものであるが、全体的な音信号の知覚される振幅は、異なるオーディオチャネルの相関に依存し、チャネルの数だけに依存しないので、これは知覚的に正しいスケーリングを与えない。

したがって、本発明の手法によれば、入力オーディオ信号に従って残響のレベルを適応させる信号依存スケーリング方法が提供される。上述のように、残響の知覚されるレベルは、バイノーラルレンダリングのために完全な畳み込み手法を使用するときの残響のレベルと一致することが望まれ、したがって、適切なレベルの残響のための測度の決定は、良好な音品質を達成するために重要である。実施形態によれば、オーディオ信号は、室内インパルス応答の初期部分と後期残響とを用いて別々に処理され、後期残響を処理することは、スケーリングされた残響信号を生成することを含み、スケーリングはオーディオ信号に依存する。オーディオ信号の処理された初期部分と、スケーリングされた残響信号とは、出力信号に合成される。一実施形態によれば、スケーリングは、オーディオ信号の１つまたは複数の入力チャネルの状態（例えば、入力チャネルの数、アクティブ入力チャネルの数および／または入力チャネル中のアクティビティ）に依存する。別の実施形態によれば、スケーリングは、オーディオ信号についてのあらかじめ定義されたまたは計算される相関測度に依存する。代替実施形態は、１つまたは複数の入力チャネルの状態と、あらかじめ定義されたまたは計算される相関測度との合成に基づいてスケーリングを実施し得る。

実施形態によれば、スケーリングされた残響信号は、オーディオ信号の１つまたは複数の入力チャネルの状態に基づいて、あるいはオーディオ信号についてのあらかじめ定義されたまたは計算される相関測度に基づいて、あるいはそれらの合成に基づいて決定された利得ファクタを適用することによって生成され得る。

実施形態によれば、オーディオ信号を別々に処理することは、第１のプロセス中に室内インパルス応答３００の初期反射部分３０１、３０２を用いてオーディオ信号を処理することと、第１のプロセスとは異なり別々である第２のプロセス中に室内インパルス応答３００の拡散残響３０４を用いてオーディオ信号を処理することとを含む。第１のプロセスから第２のプロセスに変化することは遷移時間において行われる。さらなる実施形態によれば、第２のプロセスにおいて、拡散（後期）残響３０４は合成残響と置換され得る。この場合、第１のプロセスに適用される室内インパルス応答は初期反射部分３００、３０２（図５を参照）のみを含んでおり、後期拡散残響３０４は含まれない。

以下で、入力オーディオ信号の相関分析に基づいて利得ファクタがそれに従って計算される本発明の手法の一実施形態についてさらに詳細に説明する。図７は、本発明の教示に従って動作する、バイノーラルレンダラのような信号処理ユニットのブロック図を示す。バイノーラルレンダラ５００は、Ｎ個のチャネルを含むオーディオ信号ｘ［ｋ］を入力５０４から受信するプロセッサ５０２を含む第１の分岐を備える。プロセッサ５０２は、バイノーラルレンダラの一部であるとき、入力信号５０４を処理して出力信号５０６ｘ_ｃｏｎｖ［ｋ］を生成する。より詳細には、プロセッサ５０２は、複数の記録されたバイノーラル室内インパルス応答を保持している外部データベース５０８からプロセッサ５０２に提供され得る室内インパルス応答の直接音と初期反射とを用いて、オーディオ入力信号５０４の畳み込みを引き起こす。プロセッサ５０２は、上述のように、データベース５０８によって提供されるバイノーラル室内インパルス応答に基づいて動作し得、それにより、ただ２つのチャネルを有する出力信号５０２を生成する。出力信号５０６はプロセッサ５０２から加算器５１０に提供される。入力信号５０４は、残響器プロセッサ５１４とダウンミキサ５１６とを含む残響分岐５１２にさらに提供される。ダウンミックスされた入力信号は残響器５１４に提供され、残響器５１４は、それぞれデータベース５１８および５２０中に保持された残響ＲＴ６０および残響エネルギーのような残響器パラメータに基づいて、ただ２つのチャネルを含み得る残響器５１４の出力において残響信号ｒ［ｋ］を生成する。データベース５１８および５２０に記憶されたパラメータは、図７の破線で示されているように、適切な分析５２２によって、記憶されたバイノーラル室内インパルス応答から取得され得る。

残響分岐５１２は相関分析プロセッサ５２４をさらに含み、相関分析プロセッサ５２４は、入力信号５０４を受信し、それの出力において利得ファクタｇを生成する。さらに、残響器５１４と加算器５１０との間に結合された利得段５２６が提供される。利得段５２６は利得ファクタｇによって制御され、それにより、利得段５２６の出力において、スケーリングされた残響信号ｒ_ｇ［ｋ］を生成し、この残響信号ｒ_ｇ［ｋ］は加算器５１０に印加される。加算器５１０は、初期処理部分と残響信号とを合成して、同じく２つのチャネルを含む出力信号ｙ［ｋ］を提供する。随意によっては、残響分岐５１２は、いくつかのオーディオフレームにわたって利得ファクタを平滑化するために、プロセッサ５２４と利得段との間に結合された低域フィルタ５２８を備え得る。随意によっては、スケーリングされた残響信号が室内インパルス応答中の初期反射と残響との間の遷移に一致するように、スケーリングされた残響信号を遅延させるために、利得段５２６の出力と加算器５１０との間に遅延要素５３０も提供され得る。

上記で説明したように、図７は、後期残響とは別々に直接音と初期反射とを処理するバイノーラルレンダラのブロック図である。分かるように、バイノーラル室内インパルス応答の直接反射と初期反射とを用いて処理された入力信号ｘ［ｋ］は、信号ｘ_ｃｏｎｖ［ｋ］を生じる。この信号は、図示のように、それを残響信号成分ｒ_ｇ［ｋ］に加算するために加算器５１０に転送される。この信号は、入力信号ｘ［ｋ］のダウンミックス、例えばステレオダウンミックスを残響器５１４に供給し、続いて、ダウンミックスの残響信号ｒ［ｋ］と利得ファクタｇとを受信する乗算器または利得段５２６に供給することによって生成される。利得ファクタｇは、プロセッサ５２４によって実行される入力信号ｘ［ｋ］の相関分析によって取得され、上述のように、低域フィルタ５２８によって時間とともに平滑化され得る。スケーリングまたは重み付けされた残響成分は、それの開始が初期反射から後期残響への遷移点と一致するように、随意によっては遅延要素５３０によって遅延され得、このようにして、加算器５１０の出力において出力信号ｙ［ｋ］が取得される。

図７に示されたマルチチャネルバイノーラルレンダラは合成２チャネル後期残響を導入し、従来の手法の上記で説明した欠点を克服するために、本発明の手法によれば、合成後期残響は、知覚を完全な畳み込み手法の結果に一致させるために、利得ファクタｇによってスケーリングされる。聴取者の耳における複数のチャネルの重ね合わせ（例えば最高２２．２）は相関依存である。そのような理由で、後期残響は入力信号チャネルの相関に従ってスケーリングされ得、本発明の手法の実施形態は、後期残響の適切な振幅を決定する相関ベースの時間依存スケーリング方法を提供する。

スケーリングファクタを計算するために、相関係数に基づく相関測度が導入され、実施形態によれば、２次元時間周波数領域、例えばＱＭＦ領域において定義される。各多次元オーディオフレームについて−１と１との間の相関値が計算され、各オーディオフレームは、周波数帯域の数Ｎと、フレームごとのタイムスロットの数Ｍと、オーディオチャネルの数Ａとによって定義される。フレームごとに耳ごとに１つのスケーリングファクタが取得される。

以下で、本発明の手法の一実施形態についてさらに詳細に説明する。まず第１に、図７の相関分析プロセッサ５２４において使用された相関測度への参照が行われる。相関測度は、この実施形態によれば、以下のように、２つの変数Ｘ、Ｙの共分散をそれらの標準偏差の積で除算することによって計算されるピアソンの積率係数（相関係数としても知られる）に基づく。

ただし
Ｅ｛・｝＝期待値演算子
ρ｛Ｘ，Ｙ｝＝相関係数、
σ_Ｘ，σ_Ｙ＝変数Ｘ、Ｙの標準偏差
説明する実施形態によるこの処理は、時間周波数領域、例えばＱＭＦ領域における２次元に伝達される。この２次元はタイムスロットおよびＱＭＦ帯域である。データは時間−周波数領域中でしばしば符号化され、送信もされるので、この手法は妥当である。期待値演算子は、いくつかの時間および／または周波数サンプルにわたる平均演算と置換され、したがって、（０，１）の範囲内の２つのゼロ平均変数ｘ_ｍ、ｘ_ｎ間の時間周波数相関測度は以下のように定義される。

ただし
ρ［ｍ，ｎ］＝相関係数、
σ（ｘ_ｍ［ｊ］）＝チャネルｍの１つのタイムスロットｊにわたる標準偏差、
σ（ｘ_ｎ［ｊ］）＝チャネルｎの１つのタイムスロットｊにわたる標準偏差、
ｘ_ｍ，ｘ_ｎ＝ゼロ平均変数、
ｊ∀［１，Ｎ］＝周波数帯域、
ｊ∀［１，Ｍ］＝タイムスロット、
ｍ，ｎ∀［１，Ｋ］＝チャネル、
＊＝複素共役。
１つのオーディオフレームの複数のチャネル合成（ｍ，ｎ）についてのこの係数の計算の後に、ρ［ｍ，ｎ，ｔ_ｉ］の値は、複数の相関値ρ［ｍ，ｎ，ｔ_ｉ］の平均を取る（または複数の相関値ρ［ｍ，ｎ，ｔ_ｉ］を平均化する）ことによって単一の相関測度ρ_ｍ（ｔ_ｉ）に合成される。オーディオフレームは３２個のＱＭＦタイムスロットを含み得、ｔ_ｉはそれぞれのオーディオフレームを示すことに留意されたい。上記の処理は、１つのオーディオフレームについて以下のように要約され得る。
（ｉ）最初に、サイズ［Ｎ，Ｍ，Ｋ］を有するオーディオまたはデータフレームｘのｋ個のチャネルごとの全体的な平均値

が計算され、実施形態によれば、すべてのｋ個のチャネルは残響器の１つの入力チャネルにダウンミックスされる。
（ｉｉ）対応するチャネルから値

を減算することによってゼロ平均オーディオまたはデータフレームが計算される。
（ｉｉｉ）複数のチャネル合成（ｍ，ｎ）について、定義された相関係数または相関値ｃが計算される。
（ｉｖ）（例えばゼロ除算によって誤って計算された値を除く）複数の相関値ρ［ｍ，ｎ］の平均として平均相関値ｃ_ｍが計算される。

上記で説明した実施形態によれば、スケーリングは、オーディオ信号についての計算された相関測度に基づいて決定された。例えば、個々に現在処理されているオーディオ信号について相関測度を取得することが望まれるとき、必要とされる追加の計算リソースにもかかわらず、これは有利である。

ただし、本発明はそのような手法に限定されない。他の実施形態によれば、相関測度を計算するのではなく、あらかじめ定義された相関測度も使用され得る。あらかじめ定義された相関測度を使用することは、プロセスにおける計算複雑さを低減するので、有利である。あらかじめ定義された相関測度は、複数のオーディオ信号の分析に基づいて経験的に決定され得る、例えば０．１〜０．９の、固定値を有し得る。そのような場合、相関分析５２４は省略され得、利得段の利得は適切な制御信号によって設定され得る。

他の実施形態によれば、スケーリングは、オーディオ信号の１つまたは複数の入力チャネルの状態（例えば、入力チャネルの数、アクティブ入力チャネルの数および／または入力チャネル中のアクティビティ）に依存し得る。スケーリングは、低減した計算オーバーヘッドにより入力オーディオ信号から容易に決定され得るので、これは有利である。例えば、スケーリングは、元のオーディオ信号と比較して低減した数のチャネルを含む、現在考慮されているダウンミックスチャネルにダウンミックスされる元のオーディオ信号中のチャネルの数を単に決定することによって決定され得る。代替的に、現在考慮されているダウンミックスチャネルにダウンミックスされるアクティブチャネル（現在オーディオフレーム中で何らかのアクティビティを示すチャネル）の数は、残響信号をスケーリングするための基礎を形成し得る。これはブロック５２４において行われ得る。

以下で、オーディオ信号の１つまたは複数の入力チャネルの状態に基づいて、および（上記で説明したように固定であるかあるいは計算される）相関測度に基づいて残響信号のスケーリングを決定する実施形態について詳細に説明する。そのような実施形態によれば、利得ファクタまたは利得またはスケーリングファクタｇは以下のように定義される。

ただし
ρ ＝オーディオ信号についてのあらかじめ定義されたまたは計算される相関係数、
ｃ_ｕ、ｃ_ｃ＝オーディオ信号の１つまたは複数の入力チャネルの状態を示すファクタであり、ｃ_ｕは、全体として無相関なチャネルを指し、ｃ_ｃは、全体として相関するチャネルに関係し、
Ｋ_ｉｎ＝アクティブ非ゼロまたは固定ダウンミックスチャネルの数。
ｃ_ｕは、ダウンミックスされたチャネルが全体として無相関である（チャネル間依存性がない）場合に適用されるファクタである。１つまたは複数の入力チャネルの状態のみを使用する場合、ｇ＝ｃ_ｕ、および、あらかじめ定義された固定相関係数は０に設定される。ｃ_ｃは、ダウンミックスされたチャネルが全体として相関する（信号が互いの重み付けされたバージョン（＋位相シフトおよびオフセット）である）場合に適用されるファクタである。１つまたは複数の入力チャネルの状態のみを使用する場合、ｇ＝ｃ_ｃ、および、あらかじめ定義された固定相関係数は１に設定される。これらのファクタは、（（アクティブ）チャネルの数に応じて）オーディオフレーム中で後期残響の最小スケーリングと最大スケーリングとを記述する。
「チャネル数」Ｋ_ｉｎは、実施形態によれば、以下のように定義される。どの入力チャネルがどのダウンミックスチャネル中に含まれるかを定義するダウンミックス行列Ｑ（サイズＭ×２、ただし、Ｍはオーディオ入力素材の入力チャネルの数であり、例えば５．１セットアップでは６つのチャネルである）を使用して、マルチチャネルオーディオ信号がステレオダウンミックスにダウンミックスされる。
ダウンミックス行列Ｑの一例は以下のとおりであり得る。

２つのダウンミックスチャネルの各々について、スケーリング係数は以下のように計算される。
ｇ＝ｆ（ｃ_ｃ，ｃ_ｕ，ρ_ａｖｇ）＝ｃ_ｕ＋ρ_ａｖｇ・（ｃ_ｃ−ｃ_ｕ）
ただし、ρ_ａｖｇは、いくつかのＫ_ｉｎ・Ｋ_ｉｎチャネル合成［ｍ，ｎ］についてのすべての相関係数ρ［ｍ，ｎ］の平均／平均値であり、ｃ_ｃ、ｃ_ｕは、以下のとおりであり得るチャネル数Ｋ_ｉｎに依存する。
・Ｋ_ｉｎは、現在考慮されているダウンミックスチャネルにダウンミックスされるチャネルの数ｋ∈［１，２］（０に等しくない値を含んでいる列ｋ中のダウンミックス行列Ｑ中の行の数）であり得る。この数は、ダウンミックス行列Ｑが、１つの入力チャネル構成についてあらかじめ定義され、１つのオーディオ入力信号の全長にわたって変化しないので、時不変である。
例えば５．１入力信号を考慮するとき、以下が適用される。
チャネル１、３、４がダウンミックスチャネル１にダウンミックスされ（上記の行列Ｑを参照）、
Ｋ_ｉｎはフレームごとに＝３（３つのチャネル）である。
・Ｋ_ｉｎは、現在考慮されているダウンミックスチャネルにダウンミックスされるアクティブチャネルの数ｋ∈［１，２］（現在オーディオフレーム中でアクティビティがあり、また、列ｋ中のダウンミックス行列Ｑの対応する行が、アクティブチャネルとＱの列ｋ中の等しくない要素との交差において、０→チャネルの数に等しくない値を含んでいる、入力チャネルの数）であり得る。この数は、Ｑが同じままである場合でも、信号アクティビティが時間とともに変化し得るので、１つのオーディオ入力信号の全長にわたって時変であり得る。

例えば５．１入力信号を考慮するとき、以下が適用される。
チャネル１、３、４がダウンミックスチャネル１にダウンミックスされ（上記の行列Ｑを参照）、
フレームｎでは、
アクティブチャネルはチャネル１、２、４であり、
Ｋ_ｉｎは交差｛１，４｝におけるチャネルの数であり、
Ｋ_ｉｎ（ｎ）＝２
フレームｎ＋１では、
アクティブチャネルはチャネル１、２、３、４であり、
Ｋ_ｉｎは交差｛１，３，４｝におけるチャネルの数であり、
Ｋ_ｉｎ（ｎ＋１）＝３。
（あらかじめ定義されたフレーム中の）オーディオチャネルは、それが、あらかじめ定義されたフレーム内に、プリセットしきい値を超える振幅またはエネルギーを有する場合はアクティブであると見なされ得、例えば、実施形態によれば、（あらかじめ定義されたフレーム中の）オーディオチャネル中のアクティビティは以下のように定義され得る。
・フレーム中の（時間領域、ＱＭＦ領域などにおける）信号の絶対振幅の合計または最大値が０よりも大きいか、あるいは
・フレーム中の信号エネルギー（時間領域またはＱＭＦ領域における振幅の２乗絶対値）の合計または最大値が０よりも大きい。
０の代わりに、０よりも大きい（最大エネルギーまたは振幅に対する）別のしきい値、例えば０．０１のしきい値も使用され得る。

実施形態によれば、アクティブチャネルの数（時間変動）またはダウンミックスチャネル中の含まれるチャネル（０に等しくないダウンミックス行列）の固定数Ｋ_ｉｎに依存する各耳についての利得ファクタが提供される。ファクタは、全体として無相関な場合と全体として相関する場合との間で線形的に増加すると仮定する。全体として無相関は、チャネル間依存性なしを意味し（相関値は０である）、全体として相関は、信号が互いの重み付けされたバージョンであることを意味する（オフセットの位相差がある場合、相関値は１である）。

上述のように、利得またはスケーリングファクタｇは、低域フィルタ５２８によってオーディオフレームにわたって平滑化され得る。低域フィルタ５２８は、以下のように、フレームサイズｋのためにｇ_ｓ（ｔ）の平滑化された利得ファクタを生じるｔ_ｓの時定数を有し得る。

ただし
ｔ_ｓ＝［ｓ］での低域フィルタの時定数
ｔ_ｉ＝フレームｔ_ｉにおけるオーディオフレーム
ｇ_ｓ＝平滑化された利得ファクタ
ｋ＝フレームサイズ、および
ｆ_ｓ＝［Ｈｚ］でのサンプリング周波数
フレームサイズｋは、時間領域サンプル中のオーディオフレームのサイズ、例えば２０４８個のサンプルであり得る。
オーディオフレームｘ（ｔ_ｉ）の左チャネル残響信号は、その場合、ファクタｇ_{ｓ，ｌｅｆｔ}（ｔ_ｉ）でスケーリングされ、右チャネル残響信号はファクタｇ_{ｓ，ｒｉｇｈｔ}（ｔ_ｉ）でスケーリングされる。スケーリングファクタは、残響器に供給されるステレオダウンミックスの左チャネル中に存在するチャネル（のアクティブ非０または総数）の数としてＫ_ｉｎを用いて１回計算され、それにより、スケーリングファクタｇ_{ｓ，ｌｅｆｔ}（ｔ_ｉ）が得られる。次いで、スケーリングファクタは、残響器に供給されるステレオダウンミックスの右チャネル中に存在するチャネル（のアクティブ非０または総数）の数としてＫ_ｉｎを用いてもう１回計算され、それにより、スケーリングファクタｇ_{ｓ，ｒｉｇｈｔ}（ｔ_ｉ）が得られる。残響器は、オーディオフレームのステレオ残響バージョンを戻す。残響バージョンの左チャネル（または残響器の入力の左チャネル）はｇ_{ｓ，ｌｅｆｔ}（ｔ_ｉ）でスケーリングされ、残響バージョンの右チャネル（または残響器の入力の右チャネル）はｇ_{ｓ，ｒｉｇｈｔ}（ｔ_ｉ）でスケーリングされる。
スケーリングされた人工的（合成）後期残響は、直接音と初期反射とを用いて処理されている信号５０６に加算されるために、加算器５１０に印加される。
上述のように、本発明の手法は、実施形態によれば、オーディオ信号のバイノーラル処理のためのバイノーラルプロセッサにおいて使用され得る。以下で、オーディオ信号のバイノーラル処理の一実施形態について説明する。バイノーラル処理は、復号された信号を、ヘッドフォンを介して聴取されたときにサラウンド音エクスペリエンスを提供するバイノーラルダウンミックス信号に変換する、デコーダプロセスとして行われ得る。

図８は、本発明の一実施形態によるオーディオ信号のバイノーラル処理のためのバイノーラルレンダラ８００の概略図を示す。図８はまた、バイノーラルレンダラにおけるＱＭＦ領域処理の概観を提供する。入力８０２において、バイノーラルレンダラ８００は、処理されるべきオーディオ信号、例えば、Ｎ個のチャネルと６４個のＱＭＦ帯域とを含む入力信号を受信する。さらに、バイノーラルレンダラ８００は、オーディオ信号の処理を制御するためのいくつかの入力パラメータを受信する。入力パラメータは、２×Ｎチャネルと６４個のＱＭＦ帯域とのためのバイノーラル室内インパルス応答（ＢＲＩＲ）８０４、ＢＲＩＲ８０４の初期反射部分を用いたオーディオ入力信号の畳み込みのために使用される最大帯域の指示Ｋ_ｍａｘ８０６、ならびに上述の残響器パラメータ８０８および８１０（ＲＴ６０および残響エネルギー）を含む。バイノーラルレンダラ８００は、受信されたＢＲＩＲ８０４の初期部分を用いて入力オーディオ信号８０２を処理するための高速畳み込みプロセッサ８１２を備える。プロセッサ８１２は、出力において、２つのチャネルとＫ_ｍａｘ個のＱＭＦ帯域とを含む初期処理信号８１４を生成する。バイノーラルレンダラ８００は、高速畳み込みプロセッサ８１２を有する初期処理分岐のほかに、２つの残響器８１６ａおよび８１６ｂを含む残響分岐をも備え、各残響器は、入力パラメータとしてＲＴ６０情報８０８と残響エネルギー情報８１０とを受信する。残響分岐は、両方とも同じく入力オーディオ信号８０２を受信するステレオ・ダウンミックス・プロセッサ８１８および相関分析プロセッサ８２０をさらに含む。さらに、ステレオ・ダウンミックス・プロセッサ８１８によって提供されるダウンミックス信号８２２の利得を制御するために、ステレオ・ダウンミックス・プロセッサ８１８とそれぞれの残響器８１６ａおよび８１６ｂとの間に２つの利得段８２１ａおよび８２１ｂが提供される。ステレオ・ダウンミックス・プロセッサ８１８は、入力信号８０２に基づいて、２つの帯域と６４個のＱＭＦ帯域とを有するダウンミックス信号８２２を提供する。利得段８２１ａおよび８２１ｂの利得は、相関分析プロセッサ８２０によって提供されるそれぞれの制御信号８２４ａおよび８２４ｂによって制御される。利得制御されたダウンミックス信号はそれぞれの残響器８１６ａおよび８１６ｂに入力され、それぞれの残響信号８２６ａ、８２６ｂが生成される。初期処理信号８１４と残響信号８２６ａ、８２６ｂとはミキサ８２８によって受信され、ミキサ８２８は、受信された信号を、２つのチャネルと６４個のＱＭＦ帯域とを有する出力オーディオ信号８３０に合成する。さらに、本発明によれば、高速畳み込みプロセッサ８１２と残響器８１６ａおよび８１６ｂとは、上記で説明したように決定される初期部分から後期残響への室内インパルス応答８０４中の遷移を示す追加の入力パラメータ８３２を受信する。

バイノーラル・レンダラ・モジュール８００（例えば、図２または図４のバイノーラルレンダラ２３６）は、入力８０２として、復号されたデータストリームを有する。信号は、ＩＳＯ／ＩＥＣ１４４９６−３：２００９、４．Ｂ．１８．２節に概説されその修正がＩＳＯ／ＩＥＣ１４４９６−３：２００９、８．６．４．２節に述べられている、ＱＭＦ分析フィルタバンクによって処理される。レンダラモジュール８００はまた、ＱＭＦ領域入力データを処理し得、この場合、分析フィルタバンクは省略され得る。バイノーラル室内インパルス応答（ＢＲＩＲ）８０４は複素ＱＭＦ領域フィルタとして表される。時間領域バイノーラル室内インパルス応答から複素ＱＭＦフィルタ表現への変換は、ＩＳＯ／ＩＥＣＦＤＩＳ２３００３−１：２００６、アネックスＢに概説されている。複素ＱＭＦ領域では、ＢＲＩＲ８０４が初期反射部分３０１、３０２（図５を参照）のみを含み、かつ後期拡散残響３０４が含まれないように、ＢＲＩＲ８０４は一定数のタイムスロットに制限される。初期反射から後期残響への遷移点８３２は、上記で説明したように、例えば、バイノーラル処理の前処理ステップにおけるＢＲＩＲ８０４の分析によって決定される。ＱＭＦ領域オーディオ信号８０２およびＱＭＦ領域ＢＲＩＲ８０４は、次いで、バイノーラル処理を実施するために帯域的な高速畳み込み８１２によって処理される。２チャネルＱＭＦ領域後期残響８２６ａ、８２６ｂを生成するためにＱＭＦ領域残響器８１６ａ、８１６ｂが使用される。残響モジュール８１６ａ、８１６ｂは、残響の特性を適応させるために周波数依存残響時間８０８とエネルギー値８１０とのセットを使用する。残響の波形は、オーディオ入力信号８０２のステレオダウンミックス８１８に基づき、それは、マルチチャネルオーディオ信号８０２の相関分析８２０に応じて振幅が適応的にスケーリング８２１ａ、８２１ｂされる。次いで、２チャネルＱＭＦ領域畳み込み結果８１４と、２チャネルＱＭＦ領域残響８１６ａ、８１６ｂとは、合成８２８され、最終的に、２つのＱＭＦ合成フィルタバンクが、ＩＳＯ／ＩＥＣ１４４９６−３：２００９、４．６．１８．４．２節に概説されているようにバイノーラル時間領域出力信号８３０を計算する。レンダラはまた、ＱＭＦ領域出力データを生成することができる。その場合、合成フィルタバンクは省略される。

定義
バイノーラル・レンダラ・モジュール８００中に供給されるオーディオ信号８０２は、以下では入力信号と呼ばれる。バイノーラル処理の結果であるオーディオ信号８３０は出力信号と呼ばれる。バイノーラル・レンダラ・モジュール８００の入力信号８０２は、コアデコーダのオーディオ出力信号である（例えば図２の信号２２８を参照）。以下の変数定義が使用される。

処理
次に、入力信号の処理について説明する。バイノーラル・レンダラ・モジュールは、入力オーディオ信号の長さ＝２０４８時間領域サンプルの連続的な重複しないフレームに作用し、長さの処理された入力フレームごとに個のサンプルの１つのフレームを出力する。

（１）初期化および前処理
バイノーラル処理ブロックの初期化は、コアデコーダ（例えば図２の２００のデコーダを参照）によって供給されるオーディオサンプルの処理が起こる前に行われる。初期化はいくつかの処理ステップからなる。

（ａ）分析値の読取り
残響器モジュール８１６ａ、８１６ｂは、入力パラメータとして残響時間８０８とエネルギー値８１０との周波数依存セットを取る。これらの値は、バイノーラル処理モジュール８００の初期化においてインターフェースから読み取られる。さらに、時間領域サンプルにおける初期反射から後期残響への遷移時間８３２が読み取られる。値は、サンプルごとに３２ビット、フロート値、リトルエンディアン順序付けで書き込まれるバイナリファイルに記憶され得る。処理のために必要とされる読取り値を以下の表に述べる。

（ｂ）ＢＲＩＲの読取りおよび前処理
バイノーラル室内インパルス応答８０４は、左耳ＢＲＩＲと右耳ＢＲＩＲとを個々に記憶する２つの専用ファイルから読み取られる。ＢＲＩＲの時間領域サンプルは、サンプルごとに２４ビットの解像度と３２個のチャネルとを用いて整数ｗａｖｅファイルに記憶される。ファイル中のＢＲＩＲの順序付けは以下の表に述べられているとおりである。

ラウドスピーカ位置の１つにおいて測定されるＢＲＩＲがない場合、ｗａｖｅファイル中の対応するチャネルは０値を含んでいる。ＬＦＥチャネルはバイノーラル処理のために使用されない。

前処理ステップとして、バイノーラル室内インパルス応答（ＢＲＩＲ）の所与のセットが時間領域フィルタから複素数値ＱＭＦ領域フィルタに変換される。複素数値ＱＭＦ領域における所与の時間領域フィルタの実装は、ＩＳＯ／ＩＥＣＦＤＩＳ２３００３−１：２００６、アネックスＢに従って行われる。フィルタ変換のためのプロトタイプフィルタ係数は、ＩＳＯ／ＩＥＣＦＤＩＳ２３００３−１：２００６、アネックスＢ、表Ｂ．１に従って使用される。１≦ｖ≦Ｌ_{ｔｒａｎｓ，ｎ}である複素数値ＱＭＦ領域フィルタ

を獲得するために、１≦ｖ≦Ｌ_{ｔｒａｎｓ}である時間領域表現

が処理される。
（２）オーディオ信号処理
バイノーラル・レンダラ・モジュール８００のオーディオ処理ブロックは、コアデコーダからＮ_ｉｎ個の入力チャネルのための時間領域オーディオサンプル８０２を取得し、Ｎ_ｏｕｔ＝２個のチャネルからなるバイノーラル出力信号８３０を生成する。
処理は、入力として以下を取る。
・コアデコーダからの復号されたオーディオデータ８０２、
・ＢＲＩＲセット８０４の初期反射部分の複素ＱＭＦ領域表現、および
・後期残響８２６ａ、８２６ｂを生成するためにＱＭＦ領域残響器８１６ａ、８１６ｂによって使用される周波数依存パラメータセット８０８、８１０、８３２。

（ａ）オーディオ信号のＱＭＦ分析
第１の処理ステップとして、バイノーラル・レンダラ・モジュールは、（コアデコーダから来る）Ｎ_ｉｎチャネル時間領域入力信号の＝２０４８時間領域サンプル

を、次元Ｌ_ｎ＝３２ＱＭＦタイムスロット（スロットインデックスｎ）とＫ＝６４周波数帯域（帯域インデックスｋ）とのＮ_ｉｎチャネルＱＭＦ領域信号表現８０２に変換する。
ＩＳＯ／ＩＥＣ１４４９６−３：２００９、４．Ｂ．１８．２節に概説されその修正がＩＳＯ／ＩＥＣ１４４９６−３：２００９、８．６．４．２節に述べられているＱＭＦ分析が時間領域信号

のフレーム上で実施されて、１≦ｖ≦Ｌおよび１≦ｎ≦Ｌ_ｎであるＱＭＦ領域信号

のフレームが獲得される。

（ｂ）ＱＭＦ領域オーディオ信号とＱＭＦ領域ＢＲＩＲとの高速畳み込み
次に、ＱＭＦ領域オーディオ信号８０２とＱＭＦ領域ＢＲＩＲ８０４とを処理するために帯域的な高速畳み込み８１２が行われる。ＦＦＴ分析が、入力信号８０２と各ＢＲＩＲ８０４との各チャネルのための各ＱＭＦ周波数帯域について行われ得る。
ＱＭＦ領域中の複素数値により、１つのＦＦＴ分析はＱＭＦ領域信号表現の実数部で行われ、１つのＦＦＴ分析はＱＭＦ領域信号表現の虚数部で行われる。結果が次いで合成されて、最終的な帯域的な複素数値擬似ＦＦＴ領域信号が次のように形成され、

および以下のように帯域的な複素数値ＢＲＩＲが形成され、
左耳では

右耳では

。
ＦＦＴ変換の長さは、複素数値ＱＭＦ領域ＢＲＩＲフィルタの長さＬ_{ｔｒａｎｓ，ｎ}と、ＱＭＦ領域タイムスロットＬ_ｎにおけるフレーム長とに従って決定され、したがって、
Ｌ_ＦＦＴ＝Ｌ_{ｔｒａｎｓ，ｎ}＋Ｌ_ｎ−１。
複素数値擬似ＦＦＴ領域信号は、次いで複素数値擬似ＦＦＴ領域ＢＲＩＲフィルタが掛けられて、高速畳み込み結果が形成される。入力信号のどのチャネルがＢＲＩＲデータセット中のどれＢＲＩＲペアに対応するかをシグナリングするためにベクトルｍ_ｃｏｎｖが使用される。
この掛算は、１≦ｋ≦Ｋ_ｍａｘであるすべてのＱＭＦ周波数帯域ｋについて帯域的に行われる。最大帯域Ｋ_ｍａｘは、１８ｋＨｚまたはコアデコーダからのオーディオ信号中に存在する最大信号周波数のいずれかの周波数を表すＱＭＦ帯域によって決定される
ｆ_ｍａｘ＝ｍｉｎ（ｆ_{ｍａｘ，ｄｅｃｏｄｅｒ}，１８ｋＨｚ）。
各ＢＲＩＲペアを用いた各オーディオ入力チャネルからの掛算の結果は、１≦ｋ≦Ｋ_ｍａｘである各ＱＭＦ周波数帯域において合計され、それにより、中間２チャネルＫ_ｍａｘ帯域擬似ＦＦＴ領域信号が生じる。

および

は、ＱＭＦ領域周波数帯域ｋ
における擬似ＦＦＴ畳み込み結果

である。
次に、帯域的なＦＦＴ合成が行われて、畳み込み結果がＱＭＦ領域に逆変換され、それにより、１≦ｎ≦Ｌ_ＦＦＴおよび１≦ｋ≦Ｋ_ｍａｘであるＬ_ＦＦＴタイムスロット

をもつ中間２チャネルＫ_ｍａｘ帯域ＱＭＦ領域信号が生じる。
Ｌ＝３２個のタイムスロットをもつ各ＱＭＦ領域入力信号フレームについて、Ｌ＝３２個のタイムスロットをもつ畳み込み結果信号フレームが返される。残りのＬ_ＦＦＴ−３２個のタイムスロットは記憶され、後続のフレームにおいてオーバーラップ加算処理が行われる。

（ｃ）後期残響の生成
第２の中間信号８２６ａ、８２６ｂとして、

と呼ばれる残響信号が周波数領域残響器モジュール８１６ａ、８１６ｂによって生成される。周波数領域残響器８１６ａ、８１６ｂは、入力として以下を取る。
・入力信号の１つのフレームのＱＭＦ領域ステレオダウンミックス８２２、
・周波数依存残響時間８０８とエネルギー値８１０とを含んでいるパラメータセット。
周波数領域残響器８１６ａ、８１６ｂは２チャネルＱＭＦ領域後期残響テールを返す。
周波数依存パラメータセットの最大使用帯域数が、最大周波数に応じて計算される。

最初に、入力信号

の１つのフレームのＱＭＦ領域ステレオダウンミックス８１８が行われて、入力信号チャネルの重み付けされた合計によって残響器の入力が形成される。重み付け利得はダウンミックス行列Ｍ_ＤＭＸ中に含まれている。重み付け利得は実数値で非負であり、ダウンミックス行列は次元Ｎ_ｏｕｔ×Ｎ_ｉｎである。それは、入力信号のチャネルが２つの出力チャネルのうちの１つにマッピングされる、非０値を含んでいる。

左半球上のラウドスピーカ位置を表すチャネルは左出力チャネルにマッピングされ、右半球上にあるラウドスピーカを表すチャネルは右出力チャネルにマッピングされる。これらのチャネルの信号は１の係数によって重み付けされる。正中面におけるラウドスピーカを表すチャネルは、バイノーラル信号の両方の出力チャネルにマッピングされる。これらのチャネルの入力信号は次の係数によって重み付けされる。

さらに、ダウンミックスにおいてエネルギー等化ステップが実施される。エネルギー等化ステップは、１つのダウンミックスチャネルの帯域的エネルギーが、このダウンミックスチャネル中に含まれている入力信号チャネルの帯域的エネルギーの合計に等しくなるように適応させる。このエネルギー等化は、次の実数値係数を用いた帯域的掛算によって行われる。

ファクタｃ_ｅｑ，ｋは［０．５，２］の区間に制限される。ゼロ除算を回避するために数値定数εが導入される。ダウンミックスはまた、周波数ｆ_ｍａｘに帯域制限される。すべてのより高い周波数帯域における値は０に設定される。

図９は、本発明の一実施形態によるバイノーラルレンダラ８００の周波数領域残響器８１６ａ、８１６ｂにおける処理を概略的に表す。

周波数領域残響器において、入力ミキサ９００を使用してステレオ入力のモノダウンミックスが計算される。これは、第２の入力チャネル上で９０°位相シフトを適用して非コヒーレントに行われる。

このモノ信号は、次いで、各周波数帯域ｋにおいてフィードバック遅延ループ９０２に供給され、それにより、インパルスの減衰シーケンスが作成される。その後に、インパルス間の間隔中に減衰様式で信号エネルギーを分配し、出力チャネル間に非コヒーレンスを作成する、並列ＦＩＲ無相関化器が続く。エネルギー減衰を作り出すために減衰フィルタタップ密度が適用される。フィルタタップ位相演算は、スパースで乗算器なしの無相関化器を実装するために４つのオプションに限定される。

残響の計算の後に、チャネル間コヒーレンス（ＩＣＣ）補正９０４がＱＭＦ周波数帯域ごとに残響器モジュール中に含まれる。ＩＣＣ補正ステップでは、ＩＣＣを適応させるために周波数依存直接利得ｇ_{ｄｉｒｅｃｔ}とクロスミックス利得ｇ_{ｃｒｏｓｓ}とが使用される。

異なる周波数帯域のためのエネルギーの量と残響時間とは入力パラメータセット中に含まれている。値は、Ｋ＝６４個のＱＭＦ周波数帯域に内部でマッピングされたいくつかの周波数ポイントにおいて与えられる。

最終的な中間信号

を計算するために周波数領域残響器の２つのインスタンスが使用される。

信号は残響器の第１のインスタンスの第１の出力チャネルであり

は残響器の第２のインスタンスの第２の出力チャネルである。それらは、２つのチャネルと、６４個の帯域と、３２個のタイムスロットとの次元を有する最終的な残響信号フレームに合成される。
残響器出力の正しいスケーリングを保証するために、ステレオダウンミックス８２２は、入力信号フレームの相関測度８２０に従って両方の時間においてスケーリング８２１ａ、ｂされる。スケーリングファクタは、０と１との間の相関係数ｃ_ｃｏｒｒに応じて線形的に

の区間中の値として定義され、ただし、

および

ただし、

は、チャネルＡ
の１つのタイムスロットｎにわたる標準偏差を意味し、演算子｛＊｝は複素共役を示し、

は、実際の信号フレーム中のＱＭＦ領域信号

のゼロ平均バージョンである。

ｃ_ｃｏｒｒは２回計算される。１回は、実際の信号フレームＦにおいてアクティブでありステレオダウンミックスの左チャネル中に含まれる複数のチャネルＡ、Ｂについてであり、１回は、実際の信号フレームＦにおいてアクティブである、そして、ステレオダウンミックスの右チャネル中に含まれる複数のチャネルＡ、Ｂについてである。Ｎ_{ＤＭＸ，ａｃｔ}は、１つのダウンミックスチャネルＡ（０に等しくないダウンミックス行列Ｍ_ＤＭＸのＡ番目の行中の行列要素の数）にダウンミックスされ、現在フレーム中でアクティブである、入力チャネルの数である。

スケーリングファクタは、次いで、以下のようになる。

スケーリングファクタは、１次低域フィルタによってオーディオ信号フレームにわたって平滑化され、それにより、平滑化されたスケーリングファクタ

が生じる。

スケーリングファクタは、同じ手段を用いた時間領域相関分析によって、第１のオーディオ入力データフレームにおいて初期化される。

第１の残響器インスタンスの入力はスケーリングファクタ

でスケーリングされ、第２の残響器インスタンスの入力はスケーリングファクタ

でスケーリングされる。

（ｄ）畳み込み結果と後期残響の合成
次に、１つＱＭＦ領域オーディオ入力フレームについての、畳み込み結果８１４、

、および残響器出力８２６ａ、８２６ｂ、

が、２つの信号を帯域的に合計するミキシングプロセス８２８によって合成される。畳み込みはＫ_ｍａｘまでの帯域においてしか行われないので、Ｋ_ｍａｘよりも高い上側帯域は、

が０であることに留意されたい。
後期残響出力は、ミキシングプロセスにおいて
ｄ＝（（Ｌ_{ｔｒａｎｓ}−２０・６４＋１）／６４＋０．５）＋１のタイムスロットの量だけ遅延される。
遅延ｄは、妥当なタイムスロットにおける後期残響の挿入を保証するために、ＢＲＩＲにおける初期反射から後期反射への遷移時間、および２０ＱＭＦタイムスロットの残響器の初期遅延、ならびにＢＲＩＲのＱＭＦ分析のための０．５ＱＭＦタイムスロットの分析遅延を考慮に入れる。１つのタイムスロットｎ
における合成信号

は、

によって計算される。

（ｅ）バイノーラルＱＭＦ領域信号のＱＭＦ合成
ＱＭＦ領域出力信号

の３２タイムスロットの１つの２チャネルフレームは、ＩＳＯ／ＩＥＣ１４４９６−３：２００９、４．６．１８．４．２．節によるＱＭＦ合成によって長さＬで２チャネル時間領域信号フレームに変換され、それにより、最終的な時間領域出力信号８３０、

が生じる。

本発明の手法によれば、入力信号の特性を考慮に入れて合成または人工的後期残響がスケーリングされ、それにより、別々の処理によって得られる計算複雑さの低減を利用しながら出力信号の品質が改善される。また、上記の説明から分かるように、追加の聴覚モデルまたはターゲット残響ラウドネスは不要である。

本発明は、上記で説明した実施形態に限定されないことに留意されたい。例えば、上記の実施形態ではＱＭＦ領域との関連において説明したが、他の時間−周波数領域、例えばＳＴＦＴ領域も使用され得ることに留意されたい。また、スケーリングファクタは、相関が周波数帯域の全数、すなわちｉ∀［１，Ｎ］にわたって計算されないように周波数依存様式で計算され得るが、以下のように定義されたいくつかのＳ個のサブセットにおいて計算される。
ｉ_１∀［１，Ｎ_１］，ｉ_２∀［Ｎ_１＋１，Ｎ_２］，．．．，ｉ_Ｓ∀［Ｎ_Ｓ−１＋Ｎ］

また、周波数帯域にわたって平滑化が適用され得るか、または、特定のルールに応じて、例えば聴覚の周波数解像度に従って帯域が合成され得る。平滑化は、例えばフレームサイズまたは聴取者の選好に応じて、様々な時定数に適合され得る。

本発明の手法はまた、様々なフレームサイズについて適用され得、時間周波数領域中のただ１つのタイムスロットのフレームサイズさえ可能である。

実施形態によれば、ダウンミックスのために様々なダウンミックス行列が、例えば対称ダウンミックス行列または非対称行列が使用され得る。

相関測度は、オーディオビットストリーム中で送信されるパラメータから、例えばＭＰＥＧサラウンドまたはＳＡＯＣにおけるチャネル間コヒーレンスから導出され得る。また、実施形態によれば、必要な場合、平均値計算から行列のいくつかの値、例えば、誤って計算された値または主対角線上の値、自己相関値を除外することが可能である。

プロセスは、デコーダ側におけるバイノーラルレンダラにおいてそれを使用する代わりに、例えば低複雑度バイノーラルプロファイルを適用するとき、エンコーダにおいて行われ得る。これは、スケーリングファクタのその何らかの表現、例えばスケーリングファクタ自体、０と１との間の相関測度などを生じ、これらのパラメータは、固定ダウンストリーム行列についてエンコーダからデコーダにビットストリーム中で送信される。

また、上記で説明した実施形態では、残響器５１４に続いて利得を適用することについて説明したが、他の実施形態によれば、利得はまた、残響器５１４の前に、または、例えば残響器５１４内の利得を修正することによって、残響器内で適用され得ることに留意されたい。より少ない計算が必要とされ得るので、これは有利である。

いくつかの態様について装置のコンテキストで説明したが、これらの態様は対応する方法の説明をも表すことが明らかであり、ブロックまたはデバイスは、方法ステップ、または方法ステップの特徴に対応する。同様に、方法ステップのコンテキストで説明する態様も、対応する装置の対応するブロックまたはアイテムまたは特徴の説明を表す。方法ステップの一部または全部は、例えば、マイクロプロセッサ、プログラマブルコンピュータまたは電子回路のような、ハードウェア装置によって（またはそれを使用して）実行され得る。いくつかの実施形態では、最も重要な方法ステップのうちの何らかの１つまたは複数はそのような装置によって実行され得る。

いくつかの実装要件に応じて、本発明の実施形態はハードウェアまたはソフトウェアにおいて実装され得る。実装は、それぞれの方法が実施されるようにプログラマブル・コンピュータ・システムと協働する（または協働することが可能である）、電子的に読取り可能な制御信号をその上に記憶した、デジタル記憶媒体などの非一時的記憶媒体、例えばフロッピー（登録商標）ディスク、ＤＶＤ、Ｂｌｕ−Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、およびＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリを使用して実施され得る。したがって、デジタル記憶媒体はコンピュータ可読であり得る。

本発明によるいくつかの実施形態は、本明細書で説明する方法のうちの１つが実施されるようにプログラマブル・コンピュータ・システムと協働することが可能である、電子的に読取り可能な制御信号を有するデータキャリアを備える。

概して、本発明の実施形態は、プログラムコードをもつコンピュータプログラム製品として実装され得、プログラムコードは、コンピュータプログラム製品がコンピュータ上で動作するとき、方法のうちの１つを実施するように動作可能である。プログラムコードは、例えば、機械可読キャリア上に記憶され得る。

他の実施形態は、機械可読キャリアに記憶された、本明細書で説明する方法のうちの１つを実施するためのコンピュータプログラムを備える。

言い換えれば、本発明の方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で動作するとき、本明細書で説明する方法のうちの１つを実施するためのプログラムコードを有するコンピュータプログラムである。

本発明の方法のさらなる実施形態は、したがって、本明細書で説明する方法のうちの１つを実施するためのコンピュータプログラムをその上に記録して備える、データキャリア（またはデジタル記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録媒体は、典型的には有形および／または非一時的である。

発明方法のさらなる実施形態は、したがって、本明細書で説明する方法のうちの１つを実施するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えば、インターネットを介して転送されるように構成され得る。

さらなる実施形態は、本明細書で説明する方法のうちの１つを実施するように構成またはプログラムされる処理手段、例えば、コンピュータまたはプログラマブル論理デバイスを備える。

さらなる実施形態は、本明細書で説明する方法のうちの１つを実施するためのコンピュータプログラムをその上にインストールしたコンピュータを備える。

本発明によるさらなる実施形態は、本明細書で説明する方法のうちの１つを実施するためのコンピュータプログラムを受信機に（例えば、電子的または光学的に）転送するように構成される装置またはシステムを備える。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバーを備え得る。

いくつかの実施形態では、本明細書で説明する方法の機能の一部または全部を実施するためにプログラマブル論理デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）が使用され得る。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書で説明する方法のうちの１つを実施するためにマイクロプロセッサと協働し得る。概して、方法は、好ましくはどんなハードウェア装置によっても実施される。

上記で説明した実施形態は本発明の原理を例示するためのものにすぎない。本明細書で説明する構成および詳細の修正形態および変形形態は、他の当業者に明らかであることを理解されたい。したがって、本明細書の実施形態の記述および説明として提示される特定の詳細によっては限定されず、直下の特許請求の範囲によってのみ限定されることが意図される。

文献
［１］Ｍ．Ｒ．Ｓｃｈｒｏｅｄｅｒ、「ＤｉｇｉｔａｌＳｉｍｕｌａｔｉｏｎｏｆＳｏｕｎｄＴｒａｎｓｍｉｓｓｉｏｎｉｎＲｅｖｅｒｂｅｒａｎｔＳｐａｃｅｓ」、ＴｈｅＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ、ＶｏＳ．４７、ｐｐ．４２４−４３１（１９７０）、および、ＪＡ．Ｍｏｏｒｅｒ、「ＡｂｏｕｔＴｈｉｓＲｅｖｅｒｂｅｒａｔｉｏｎＢｕｓｉｎｅｓｓ」、ＣｏｍｐｕｔｅｒＭｕｓｉｃＪｏｕｒｎａｌ、Ｖｏｌ．３、ｎｏ．２、ｐｐ．１３−２８、ＭＩＴＰｒｅｓｓ（１９７９）において拡張されている。
［２］Ｕｈｌｅ，Ｃｈｒｉｓｔｉａｎ、Ｐａｕｌｕｓ，Ｊｏｕｎｉ、Ｈｅｒｒｅ，Ｊｕｒｇｅｎ：「ＰｒｅｄｉｃｔｉｎｇｔｈｅＰｅｒｃｅｉｖｅｄＬｅｖｅｌｏｆＬａｔｅＲｅｖｅｒｂｅｒａｔｉｏｎＵｓｉｎｇＣｏｍｐｕｔａｔｉｏｎａｌＭｏｄｅｌｓｏｆＬｏｕｄｎｅｓｓ」Ｐｒｏｃｅｅｄｉｎｇｓ、１７ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ（ＤＳＰ）、２０１１年７月６〜８日、コルフ、ギリシャ。
［３］Ｃｚｙｚｅｗｓｋｉ，Ａｎｄｒｚｅｊ：「ＡＭｅｔｈｏｄｏｆＡｒｔｉｆｉｃｉａｌＲｅｖｅｒｂｅｒａｔｉｏｎＱｕａｌｉｔｙＴｅｓｔｉｎｇ」Ｊ．ＡｕｄｉｏＥｎｇ．Ｓｏｃ．，Ｖｏｌ．３８，Ｎｏ３，１９９０。

Claims

室内インパルス応答（３００）に従ってオーディオ信号（５０４、８０２）を処理するための方法であって、前記方法は、
前記室内インパルス応答（３００）の初期部分（３０１、３０２）と後期残響（３０４）とを用いて前記オーディオ信号（５０４、８０２）を別々に処理すること（５０２、５１４、８１２、８１６ａ、８１６ｂ）であって、前記後期残響（３０４）を処理することが、スケーリングされた残響信号を生成することを含み、前記スケーリングが前記オーディオ信号（５０４、８０２）に依存する、処理することと、
前記室内インパルス応答の前記初期部分を用いて処理された前記オーディオ信号と前記スケーリングされた残響信号とを合成することと
を含む、方法。
前記スケーリングは、前記オーディオ信号（５０４、８０２）の１つまたは複数の入力チャネルの状態に依存する、請求項１に記載の方法。
前記オーディオ信号（５０４、８０２）の前記１つまたは複数の入力チャネルの前記状態は、入力チャネルの数と、アクティブ入力チャネルの数と、前記入力チャネル中のアクティビティとのうちの１つまたは複数を含む、請求項２に記載の方法。
前記スケーリングは、前記オーディオ信号（５０４、８０２）のあらかじめ定義されたまたは計算される相関測度に依存する、請求項１から３のうちのいずれか一項に記載の方法。
前記スケーリングされた残響信号を生成することは、利得ファクタを適用することを含み、前記利得ファクタは、前記オーディオ信号（５０４、８０２）の前記１つまたは複数の入力チャネルの前記状態に基づいておよび／または前記オーディオ信号（５０４、８０２）についての前記あらかじめ定義されたまたは計算される相関測度に基づいて決定される、請求項１から４のうちのいずれか一項に記載の方法。
前記スケーリングされた残響信号を生成することは、前記オーディオ信号（５０４、８０２）の前記後期残響（３０４）を処理する前に、その間にまたはその後に前記利得ファクタを適用することを含む、請求項５に記載の方法。
前記利得ファクタは以下のように決定され、
ｇ＝ｃ_ｕ＋ρ・（ｃ_ｃ−ｃ_ｕ）
ただし
ρ ＝前記オーディオ信号（５０４、８０２）についてのあらかじめ定義されたまたは計算される相関測度、
ｃ_ｕ、ｃ_ｃ＝前記オーディオ信号（５０４、８０２）の前記１つまたは複数の入力チャネルの前記状態を示すファクタであり、ｃ_ｕは、全体として無相関なチャネルを指し、ｃ_ｃは、全体として相関するチャネルに関係する、
請求項５または６に記載の方法。
ｃ_ｕおよびｃ_ｃは以下のように決定され、

ただし
Ｋ_ｉｎ＝アクティブまたは固定ダウンミックスチャネルの数である、
請求項７に記載の方法。
前記利得ファクタは、複数のオーディオフレームにわたって低域フィルタ処理される、請求項５から８のうちのいずれか一項に記載の方法。
前記利得ファクタは以下のように低域フィルタ処理され、

ただし
ｔ_ｓ＝前記低域フィルタの時定数
ｔ_ｉ＝フレームｔ_ｉにおけるオーディオフレーム
ｇ_ｓ＝平滑化された利得ファクタ
ｋ＝フレームサイズ、および
ｆ_ｓ＝サンプリング周波数である、
請求項９に記載の方法。
前記スケーリングされた残響信号を生成することは、前記オーディオ信号（５０４、８０２）の相関分析を含む、請求項１から１０のうちのいずれか一項に記載の方法。
前記オーディオ信号（５０４、８０２）の前記相関分析は、前記オーディオ信号（５０４、８０２）のオーディオフレームについて合成相関測度を決定することを含み、前記合成相関測度は、１つのオーディオフレームの複数のチャネル合成についての相関係数を合成することによって計算され、各オーディオフレームは１つまたは複数のタイムスロットを含む、請求項１１に記載の方法。
前記相関係数を合成することは、前記オーディオフレームの複数の相関係数を平均化することを含む、請求項１２に記載の方法。
前記合成相関測度を決定することは、
（ｉ）前記１つのオーディオフレームのチャネルごとに全体的な平均値を計算することと、
（ｉｉ）前記対応するチャネルから前記平均値を減算することによってゼロ平均オーディオフレームを計算することと、
（ｉｉｉ）複数のチャネル合成について前記相関係数を計算することと、
（ｉｖ）前記合成相関測度を複数の相関係数の前記平均として計算することと
を含む、請求項１１または１２に記載の方法。
チャネル合成についての前記相関係数は以下のように計算され、

ただし
ρ［ｍ，ｎ］＝相関係数、
σ（ｘ_ｍ［ｊ］）＝チャネルｍの１つのタイムスロットｊにわたる標準偏差、
σ（ｘ_ｎ［ｊ］）＝チャネルｎの１つのタイムスロットｊにわたる標準偏差、
ｘ_ｍ，ｘ_ｎ＝ゼロ平均変数、
ｉ∀［１，Ｎ］＝周波数帯域、
ｊ∀［１，Ｍ］＝タイムスロット、
ｍ，ｎ∀［１，Ｋ］＝チャネル、
＊＝複素共役である、
請求項１１から１４のうちのいずれか一項に記載の方法。
前記スケーリングされた残響信号の開始を前記室内インパルス応答（３００）における初期反射から後期残響（３０４）への遷移点に一致させるように前記スケーリングされた残響信号を遅延させることを含む、請求項１から１５のうちのいずれか一項に記載の方法。
前記オーディオ信号（５０４、８０２）の前記後期残響（３０４）を処理することは、前記オーディオ信号（５０４、８０２）をダウンミックスすることと、前記ダウンミックスされたオーディオ信号を残響器に印加することとを含む、請求項１から１６のうちのいずれか一項に記載の方法。
コンピュータによって実行されているとき、請求項１から１７のうちのいずれか一項に記載の方法を行うための命令を記憶したコンピュータ可読媒体を含む非有形コンピュータ製品。
オーディオ信号（５０４、８０２）を受信するための入力と、
室内インパルス応答（３００）の初期部分（３０１、３０２）に従って前記受信されたオーディオ信号（５０４、８０２）を処理するための初期部分プロセッサと、
前記室内インパルス応答（３００）の後期残響に従って前記受信されたオーディオ信号（５０４、８０２）を処理するための後期残響プロセッサであって、前記後期残響プロセッサが、スケーリングされた残響信号を生成するように構成され、前記スケーリングが、前記受信されたオーディオ信号（５０４、８０２）に依存する後期残響プロセッサと、
前記受信されたオーディオ信号（５０４、８０２）の前記処理された初期部分と前記スケーリングされた残響信号とを出力オーディオ信号に合成するための出力と
を備える、信号処理ユニット。
前記後期残響プロセッサは、
前記オーディオ信号（５０４、８０２）を受信し残響信号を生成する残響器と、
前記残響器の入力または出力に結合され利得ファクタによって制御される利得段と
を備える、請求項１９に記載の信号処理ユニット。
前記オーディオ信号（５０４、８０２）に依存する前記利得ファクタを生成する相関分析器を備える、請求項２１に記載の信号処理ユニット。
前記利得段に結合された低域フィルタと、
前記利得段と加算器との間に結合された遅延要素と
のうちの少なくとも１つをさらに備え、前記加算器は、前記初期部分プロセッサと前記出力とにさらに結合された、請求項２０または２１に記載の信号処理ユニット。
請求項１９から２２のうちのいずれか一項に記載の信号処理ユニットを備える、バイノーラルレンダラ。
コーディングより前にオーディオ信号を処理するために請求項１９から２２のうちのいずれか一項に記載の信号処理ユニットまたは請求項２３に記載のバイノーラルレンダラ
を備える、前記オーディオ信号をコーディングするためのオーディオエンコーダ。
復号されたオーディオ信号を処理するために請求項１９から２２のうちのいずれか一項に記載の信号処理ユニットまたは請求項２３に記載のバイノーラルレンダラ
を備える、符号化されたオーディオ信号を復号するためのオーディオデコーダ。