JP2009508385A

JP2009508385A - ３次元音声を生成する方法及び装置

Info

Publication number: JP2009508385A
Application number: JP2008529747A
Authority: JP
Inventors: イェルンブレーバールト
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-09-13
Filing date: 2006-09-06
Publication date: 2009-02-26
Anticipated expiration: 2026-09-06
Also published as: KR20080046712A; CN101263740A; KR101370365B1; EP1927265A2; US20080304670A1; US8515082B2; CN102395098B; WO2007031906A3; KR20130045414A; JP4938015B2; WO2007031906A2; CN102395098A; KR101315070B1

Abstract

オーディオデータ１０１を処理するための装置１００であって、合計信号を生成するために幾つかのオーディオ入力信号を受信する合計ユニット１０２と、フィルタ係数ＳＦ１、ＳＦ２に依存して前記合計信号をフィルタリングし、少なくとも２つのオーディオ出力信号ＯＳ１、ＯＳ２に帰着させるように構成されたフィルタユニット１０３と、前記オーディオ入力信号の音源の空間的位置を表す位置情報を一方で受信し、前記オーディオ入力信号のスペクトルパワーを表すスペクトルパワー情報を他方で受信するように構成されたパラメータ変換ユニット１０４と、を有し、前記パラメータ変換ユニットは、前記位置情報及び前記スペクトルパワー情報に基づいて前記フィルタ係数ＳＦ１、ＳＦ２を生成するように構成され、前記パラメータ変換ユニット１０４は更に、伝達関数パラメータを受信し、前記伝達関数パラメータに依存して前記フィルタ係数を生成するように構成された装置。

Description

本発明は、オーディオデータを処理するための装置に関する。

本発明はまた、オーディオデータを処理する方法に関する。

本発明は更に、プログラム要素に関する。

更に、本発明はコンピュータ読み取り可能な媒体に関する。

仮想空間における音声の操作が人々の興味を引き始めるにつれて、オーディオ音声、特に３次元音声が、例えば画像と組み合わせた種々のゲームソフトウェア及びマルチメディアアプリケーションにおいて人工的な現実感を提供することにおいて、一層重要となっている。音楽において大いに利用されている多くの効果のなかでも、音場効果（sound field effect）が、特定の空間において聴取される音声を再現するための試みとして考えられている。

これに関連して、３次元音声（しばしば空間音響と呼ばれる）は、３次元環境内の特定の位置において（仮想的な）音源の印象を聴取者に対して与えるように処理された音声である。

聴取者に対して特定の方向から来る音響信号は、該信号が該聴取者の両耳の鼓膜に到達する前に、該聴取者の身体の一部と相互作用する。斯かる相互作用の結果、鼓膜に到達する音声は、該聴取者の肩からの反響によって、頭部との相互作用によって、耳介応答によって、及び外耳道における共鳴によって、変化させられる。身体は、到来する音声に対するフィルタリング効果を持つと言うことができる。特定のフィルタリング特性は、（頭部に対する）音源位置に依存する。更に、空気中の音声の有限の速度のため、音源の位置に依存して、両耳間のかなりの時間遅延が知覚され得る。頭部伝達関数（Head-Related Transfer Functions（ＨＲＴＦ）、更に最近では解剖学的伝達関数（anatomical transfer function（ＡＴＦ））と呼ばれる）は、音源位置の方位角及び仰角の関数であり、特定の音源方向から聴取者の鼓膜までのフィルタリング効果を記述する。

ＨＲＴＦデータベースは、音源に対して、位置の大量のセット（典型的には、水平及び垂直方向に約５乃至１０度の離隔を伴った、１乃至３メートルの固定距離における）、及び）から両耳までの伝達関数を測定することにより構築される。斯かるデータベースは、種々の音響条件に対して得られる。例えば、無響環境においては、反響が存在しないため、ＨＲＴＦは或る位置から鼓膜までの直接の伝達のみを捕捉する。ＨＲＴＦは、反響性の条件においても測定され得る。反響もが捕捉される場合、斯かるＨＲＴＦデータベースは部屋に特有なものとなる。

ＨＲＴＦデータベースは、しばしば「仮想的な」音源の位置決めのために利用される。音声信号をＨＲＴＦの対により畳み込み、その結果の音声をヘッドフォンにより再生することにより、聴取者は該音声を、前記ＨＲＴＦの対に対応する方向から来るかのように知覚することができる。このことは、処理されていない音声がヘッドフォンにより再生される場合に起こるような、「頭部内に」音源を知覚することと、対照的である。この点において、ＨＲＴＦデータベースは、仮想的な音源の位置決めのための一般的な手段である。ＨＲＴＦが利用されるアプリケーションは、ゲーム、遠隔会議設備、及び仮想現実システムを含む。

本発明の目的は、効率的な態様で複数の音源の仮想化を可能とする空間音響を生成するためのオーディオデータ処理を改善することにある。

以上に定義された目的を達成するため、独立請求項において定義されたオーディオデータを処理するための装置、オーディオデータを処理する方法、プログラム要素及びコンピュータ読み取り可能な媒体が提供される。

本発明の実施例によれば、オーディオデータを処理するための装置であって、合計信号を生成するために幾つかのオーディオ入力信号を受信するように構成された合計ユニットと、フィルタ係数に依存して前記合計信号をフィルタリングし、少なくとも２つのオーディオ出力信号に帰着させるように構成されたフィルタユニットと、前記オーディオ入力信号の音源の空間的位置を表す位置情報を一方で受信し、前記オーディオ入力信号のスペクトルパワーを表すスペクトルパワー情報を他方で受信するように構成されたパラメータ変換ユニットと、を有し、前記パラメータ変換ユニットは、前記位置情報及び前記スペクトルパワー情報に基づいて前記フィルタ係数を生成するように構成され、
前記パラメータ変換ユニットは更に、伝達関数パラメータを受信し、前記伝達関数パラメータに依存して前記フィルタ係数を生成するように構成された装置が提供される。

更に、本発明の他の実施例によれば、オーディオデータを処理する方法であって、合計信号を生成するために幾つかのオーディオ入力信号を受信するステップと、フィルタ係数に依存して前記合計信号をフィルタリングし、少なくとも２つのオーディオ出力信号に帰着させるステップと、前記オーディオ入力信号の音源の空間的位置を表す位置情報を一方で受信し、前記オーディオ入力信号のスペクトルパワーを表すスペクトルパワー情報を他方で受信するステップと、前記位置情報及び前記スペクトルパワー情報に基づいて前記フィルタ係数を生成するステップと、伝達関数パラメータを受信し、前記伝達関数パラメータに依存して前記フィルタ係数を生成するステップと、を有する方法が提供される。

本発明の他の実施例によれば、オーディオデータを処理するためのコンピュータプログラムが保存されたコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムは、プロセッサにより実行されるときに、上述した方法ステップを制御又は実行するように構成された、コンピュータ読み取り可能な媒体が提供される。

更に、本発明の更に他の実施例によれば、プロセッサにより実行されるときに、上述した方法ステップを制御又は実行するように構成された、オーディオデータを処理するためのプログラム要素が提供される。

本発明によるオーディオデータの処理は、コンピュータプログラムによって即ちソフトウェアによって、１以上の特別な電子最適化回路を利用することによって即ちハードウェアによって、又はハイブリッドな形態で即ちソフトウェアコンポーネントとハードウェアコンポーネントとによって、実現され得る。

従来のＨＲＴＦデータベースはしばしば、情報量の点で極めて大きい。各時間ドメインのインパルス応答は、約６４サンプル（低複雑度の無響条件について）から数千サンプル（反響室において）の長さまで有し得る。ＨＲＴＦ対が垂直及び水平方向において１０度の解像度で測定される場合、保存されるべき係数の量は少なくとも３６０／１０＊１８０／１０＊６４＝４１４７２個（６４サンプルのインパルス応答を仮定）となるが、より大きなオーダに容易になり得る。対称的な頭部は、（１８０／１０）＊（１８０／１０）＊６４個の係数を必要とする（４１４７２個の係数の半分である）。

本発明による特徴はとりわけ、複数の仮想的な音源の仮想化が、仮想的な音源の数に殆ど依存しない計算の複雑度で可能とされるという利点を持つ。

換言すれば、複数の同時音源が有利にも、単一の音源のものと凡そ等しい処理の複雑度で合成され得る。低減された処理の複雑度により、大量の音源に対しても、リアルタイムの処理が有利にも可能となる。

本発明の実施例により想定される更なる目的は、仮想的な音源の位置（３次元位置）に実際の音源が配置されたとした場合に存在するであろう音圧と等しい音圧レベルを、聴取者の鼓膜において再現することである。

更なる態様においては、視覚に障害のある人々及び目の見える人々の両方のためのユーザインタフェースとして利用されることができる、高度な聴覚的環境を生成する目的がある。本発明によるアプリケーションは、音源が正しい空間的位置にあるという印象を聴取者に与えるように仮想的な音響音源を再生することが可能である。

本発明の更なる実施例は、従属請求項に関連して、以下に説明されるであろう。

オーディオデータを処理するための装置の実施例が、以下に説明される。これら実施例は、オーディオデータを処理する方法、コンピュータ読み取り可能な媒体、及びプログラム要素についても適用され得る。

本発明の一態様においては、オーディオ入力信号が既に混合されている場合、各個々のオーディオ入力信号の相対的なレベルが、スペクトルパワー情報に基づいて或る程度まで調節されることができる。斯かる調節は、制限内でのみ為され得る（例えば６又は１０ｄＢの最大変化）。通常、信号レベルは音源距離の逆数に対して略直線的に上下するという事実のため、距離の効果は１０ｄＢよりもかなり大きい。

有利にも、本装置は更に、利得係数に基づいてオーディオ入力信号をスケーリングするスケーリングユニットを有しても良い。これに関連して、パラメータ変換ユニットが有利にも更に、オーディオ入力信号の音源の距離を表す距離情報を受信し、前記距離情報に基づいて利得係数を生成しても良い。かくして、距離の効果は、単純且つ満足のできる態様で達成され得る。利得係数は、距離に応じて１ずつ減少しても良い。音源のパワーはそれにより、音響原理に従ってモデリングされ又は適応されても良い。

任意に、遠い距離の音源の場合に適用可能であるように、利得係数が空気吸収の効果を反映しても良い。かくして、より現実的な音声感覚が達成され得る。

一実施例によれば、フィルタユニットは高速フーリエ変換（ＦＦＴ）に基づく。このことは、効率的且つ高速な処理を可能とし得る。

ＨＲＴＦデータベースは、仮想的な音源位置の有限のセット（典型的には一定の距離及び５乃至１０度の空間解像度で）を有しても良い。多くの状況において、音源は、測定位置間の位置について生成される必要がある（とりわけ仮想的な音源が時間によって移動する場合）。斯かる生成は、利用可能なインパルス応答の補間を必要とする。ＨＲＴＦデータベースが垂直及び水平方向についての応答を有する場合、各出力信号について補間が実行される必要がある。それ故、各ヘッドフォン出力信号について４個のインパルス応答の組み合わせが、各音源について必要とされる。必要とされるインパルス応答の数は、より多くの音源が同時に「仮想化」される必要がある場合に、更に重要となる。

本発明の有利な態様においては、ＨＲＴＦモデルパラメータ及びＨＲＴＦを表すパラメータが、保存された空間解像度間に補間されても良い。従来のＨＲＴＦテーブルに本発明によるＨＲＴＦモデルパラメータを提供することにより、有利で高速な処理が実行され得る。

本発明によるシステムの主な用途の分野は、オーディオデータの処理である。しかしながら本システムは、オーディオデータに加え、例えば視覚的なコンテンツに関連する付加的なデータが処理される状況において実施化され得る。かくして、本発明は、ビデオデータ処理システムの枠組みにおいても実現され得る。

本発明による装置は、車載オーディオシステム、携帯型オーディオプレイヤ、携帯型ビデオプレイヤ、頭部装着型ディスプレイ、モバイル電話、ＤＶＤプレイヤ、ＣＤプレイヤ、ハードディスクベースのメディアプレイヤ、インターネットラジオ装置、一般向け娯楽装置及びＭＰ３プレイヤから成る装置の群のうちの１つとして実現され得る。上述の装置は本発明の主な用途の分野に関連するが、例えば電話会議及びテレプレゼンス、視覚障害者のためのオーディオディスプレイ、遠隔学習システム、テレビジョン及び映画用のプロフェッショナル向け音声及び画像編集、並びにジェット戦闘機（３次元オーディオはパイロットを支援し得る）及びＰＣベースのオーディオプレイヤにおいてのような、他のいずれの用途も可能である。

本発明の以上に定義された態様及び更なる態様は、以下に記載される実施例から明らかであり、これら実施例を参照しながら説明される。

本発明は、実施例を参照しながら以下に更に詳細に説明される。本発明はこれら実施例に限定されるものではない。

図面における説明図は模式的なものである。異なる図面において、同一の参照記号は類似の又は同一の要素を示す。

本発明の実施例による、入力オーディオデータＸ_ｉを処理するための装置１００が、ここで図１を参照しながら説明される。

装置１００は、幾つかのオーディオ入力信号Ｘ_ｉを受信し、オーディオ入力信号Ｘ_ｉから合計信号ＳＵＭを生成する合計ユニット１０２を有する。合計信号ＳＵＭは、フィルタユニット１０３に供給される。フィルタユニット１０３は、フィルタ係数に基づいて、即ち本例においては第１のフィルタ係数ＳＦ１及び第２のフィルタ係数ＳＦ２に基づいて、合計信号ＳＵＭをフィルタリングし、第１のオーディオ出力信号ＯＳ１及び第２のオーディオ出力信号ＯＳ２に帰着させる。フィルタユニット１０３の詳細な説明は、以下に与えられる。

更に、図１に示されるように、装置１００は、オーディオ入力信号Ｘ_ｉの音源の空間的な位置を表す位置情報Ｖ_ｉを一方で受信し、オーディオ入力信号Ｘ_ｉのスペクトルパワーを表すスペクトルパワー情報Ｓ_ｉを他方で受信するパラメータ変換ユニット１０４を有する。パラメータ変換ユニット１０４は、入力信号に対応する位置情報Ｖ_ｉ及びスペクトルパワー情報Ｓ_ｉに基づいてフィルタ係数ＳＦ１及びＳＦ２を生成する。パラメータ変換ユニット１０４は更に、伝達関数パラメータを受信し、前記伝達関数パラメータに依存してフィルタ係数を追加的に生成する。

図２は、本発明の更なる実施例における装置２００を示す。装置２００は、図１に示された実施例による装置１００を有し、更に、利得係数ｇ_ｉに基づいてオーディオ入力信号Ｘ_ｉをスケーリングするスケーリングユニット２０１を有する。本実施例においては、パラメータ変換ユニット１０４は更に、オーディオ入力信号の音源の距離を表す距離情報を受信し、前記距離情報に基づいて利得係数ｇ_ｉを生成し、これらの利得係数ｇ_ｉをスケーリングユニット２０１に供給する。それ故、距離の効果が、単純な手段によって信頼性高く実現される。

本発明によるシステム又は装置の実施例が、ここで図３を参照しながら、より詳細に説明される。

図３の実施例においてシステム３００が示され、システム３００は、図２に示された実施例による装置２００を有し、更に記憶ユニット３０１、オーディオデータインタフェース３０２、位置データインタフェース３０３、スペクトルパワーデータインタフェース３０４及びＨＲＴＦパラメータインタフェース３０５を有する。

記憶ユニット３０１は、オーディオ波形データを保存し、オーディオデータインタフェース３０２は、保存されたオーディオ波形データに基づいて幾つかのオーディオ入力信号Ｘ_ｉを供給する。

本例においては、オーディオ波形データは、各音源について、パルス符号変調（ＰＣＭ）された波形テーブルの形で保存される。しかしながら波形データは、更に又は別途、例えばＭＰＥＧ−１レイヤ３（ＭＰ３）、ＡＡＣ（Advanced Audio Coding）、ＡＡＣ−Ｐｌｕｓ等の規格に従う圧縮フォーマットのような、他の形態で保存されても良い。

記憶ユニット３０１において、各音源についての位置情報Ｖ_ｉも保存され、位置データインタフェース３０３が、保存される位置情報Ｖ_ｉを供給する。

本例においては、好適な実施例は、コンピュータゲームアプリケーションに向けたものである。斯かるコンピュータゲームアプリケーションにおいては、位置情報Ｖ_ｉは時間によって変化し、空間におけるプログラムされた絶対位置（即ちコンピュータゲームの場面における仮想的な空間位置）に依存するが、例えばゲーム場面中の仮想的な人物即ちユーザが該ユーザの仮想的な位置を回転又は移動させたときなどのようにユーザの動作にも依存し、ユーザに対する音源位置もまた変化する又は変化すべきである。

斯かるコンピュータゲームにおいては、コンピュータゲームの場面において、単一の音源（例えば背後からの銃声）から、全ての楽器が異なる空間位置にあるような多声音楽まで、あらゆるものが想定され得る。同時の音源の数は、例えば６４までであっても良く、その場合は従ってオーディオ入力信号Ｘ_ｉはＸ_１からＸ_６４にまで亘る。

インタフェースユニット３０２は、サイズｎのフレームで、保存されたオーディオ波形データに基づく幾つかのオーディオ入力信号Ｘ_ｉを供給する。本例においては、各オーディオ入力信号Ｘ_ｉは、１１ｋＨｚのサンプリングレートで供給される。例えば各オーディオ入力信号Ｘ_ｉについて４４ｋＨｚのような、他のサンプリングレートも可能である。

スケーリングユニット２０１において、式（１）に従って、チャネル毎の利得係数即ち重みｇ_ｉを利用して、サイズｎの入力信号Ｘ_ｉ即ちＸ_ｉ［ｎ］が、合計信号ＳＵＭ即ちモノラル信号ｍ［ｎ］へと組み合わせられる：

利得係数ｇ_ｉは、上述したように位置情報Ｖ_ｉにより付随される保存された位置情報に基づいて、パラメータ変換ユニット１０４により供給される。位置情報Ｖ_ｉ及びスペクトルパワー情報Ｓ_ｉパラメータは典型的に、例えば１１ミリ秒毎の更新のような、かなり低い更新レートを持つ。本例においては、音源毎の位置情報Ｖ_ｉは、方位角、仰角及び距離情報のトリプレットから成る。代替として、カーテシアン座標（ｘ，ｙ，ｚ）又は代替の座標が利用されても良い。任意に、位置情報は組み合わせ又はサブセットで、即ち仰角情報及び／又は方位角情報及び／又は距離情報の情報を有しても良い。

原則的に、利得係数ｇ_ｉ［ｎ］は時間に依存する。しかしながら、これら利得係数の必要とされる更新レートが、入力オーディオ信号Ｘ_ｉのオーディオサンプリングレートよりもかなり低いという事実を考えると、利得係数ｇ_ｉ［ｎ］は、短い時間（上述したように、約１１乃至２３ミリ秒）の間は一定であるとみなされる。この特性は、利得係数ｇ_ｉが一定であり、合計信号ｍ［ｎ］が以下の式（２）により表現される、フレームベースの処理を可能とする：

フィルタユニット１０３が、ここで図４及び５を参照しながら説明される。

図４に示されたフィルタユニット１０３は、セグメント化ユニット４０１、高速フーリエ変換（ＦＦＴ）ユニット４０２、第１のサブバンドグループ化ユニット４０３、第１の混合器４０４、第１の組み合わせユニット４０５、第１の逆ＦＦＴユニット４０６、第１のオーバラップ加算ユニット４０７、第２のサブバンドグループ化ユニット４０８、第２の混合器４０９、第２の組み合わせユニット４１０、第２の逆ＦＦＴユニット４１１及び第２のオーバラップ加算ユニット４１２を有する。第１のサブバンドグループ化ユニット４０３、第１の混合器４０４及び第１の組み合わせユニット４０５は、第１の混合ユニット４１３を構成する。同様に、第２のサブバンドグループ化ユニット４０８、第２の混合器４０９及び第２の組み合わせユニット４１０は、第２の混合ユニット４１４を構成する。

セグメント化ユニット４０１は、入力される信号、即ち本例においては合計信号ＳＵＭ及び信号ｍ［ｎ］を、オーバラップするフレームへとセグメント化し、各フレームにウィンドウ処理をする。本例においては、ウィンドウ処理のためハニング（Hanning）ウィンドウが利用される。例えばWelch又は三角ウィンドウのような他の方法が利用されても良い。

続いて、ＦＦＴユニット４０２が、ＦＦＴを利用して、各ウィンドウ処理された信号を周波数ドメインへと変換する。

所与の例において、長さＮの各フレームｍ［ｎ］（ｎ＝０…Ｎ−１）が、ＦＦＴを利用して、周波数ドメインへと変換される：

該周波数ドメイン表現Ｍ［ｋ］は、第１のチャネル（以下、左チャネルＬとも呼ばれる）及び第２のチャネル（以下、右チャネルＲとも呼ばれる）へとコピーされる。続いて、周波数ドメイン信号Ｍ［ｋ］は、各チャネルについてＦＦＴビンをグループ化することによりサブバンドｂ（ｂ＝０…Ｂ−１）へと分割される。即ち、該グループ化は、左チャネルＬについては第１のサブバンドグループ化ユニット４０３によって、右チャネルＲについては第２のサブバンドグループ化ユニット４０８によって、実行される。左出力フレームＬ［ｋ］及び右出力フレームＲ［ｋ］（ＦＦＴドメインにおける）が次いで、バンド毎に生成される。

実際の処理は、現在のＦＦＴビンが対応する周波数範囲について保存されたそれぞれのスケール係数に従う各ＦＦＴビンの変更（スケーリング）と、保存された時間又は位相の差に従う位相の変更と、から成る。位相差に関して、該差は任意の態様で適用され得る（例えば、両方のチャネルに対して（２で割る）又は一方のチャネルのみに対して）。各ＦＦＴビンのそれぞれのスケール係数は、フィルタ係数ベクトル、即ち本例においては第１の混合器４０４に供給される第１のフィルタ係数ＳＦ１及び第２の混合器４０９に供給される第２のフィルタ係数ＳＦ２により、供給される。

本例においては、フィルタ係数ベクトルは、各出力信号についての周波数サブバンドに対して、複素値のスケール係数を供給する。

次いで、スケーリングの後、変更された左出力フレームＬ［ｋ］が逆ＦＦＴユニット４０６により時間ドメインへと変換されて左時間ドメイン信号が得られ、右出力フレームＲ［ｋ］が逆ＦＦＴユニット４１１により変換されて右時間ドメイン信号が得られる。最後に、得られた時間ドメイン信号に対するオーバラップ加算演算が、各出力チャネルについての最終的な時間ドメインに帰着する。即ち、第１のオーバラップ加算ユニット４０７により第１の出力チャネル信号ＯＳ１が得られ、第２のオーバラップ加算ユニット４１２により第２の出力チャネル信号ＯＳ２が得られる。

図５に示されたフィルタユニット１０３'は、非相関ユニット５０１が備えられる点において、図４に示されたフィルタユニット１０３から逸脱している。非相関ユニット５０１は、ＦＦＴユニット４０２から得られた周波数ドメイン信号から導出される非相関信号を、各出力チャネルに供給する。図５に示されたフィルタユニット１０３'においては、図４に示された第１の混合ユニット４１３に類似するが加えて非相関信号を処理するように構成された、第１の混合ユニット４１３'が備えられる。同様に、図４に示された第２の混合ユニット４１４に類似する第２の混合ユニット４１４'が備えられ、図５の第２の混合ユニット４１４'もまた加えて、非相関信号を処理するように構成される。

本例においては次いで、バンド毎に、２つの出力信号Ｌ［ｋ］及びＲ［ｋ］（ＦＦＴドメインにおける）が、以下のように生成される：

ここでＤ［ｋ］は、以下の特性により周波数ドメイン表現Ｍ［ｋ］から得られる非相関信号を示す：

ここで、＜..＞は、期待値演算子を示す：

ここで、（*）は複素共役を示す。

非相関ユニット５０１は、ＦＩＦＯバッファを利用して達成される、１０乃至２０ｍｓのオーダー（典型的に１フレーム）の遅延時間を持つ単純な遅延から成る。更なる実施例においては、非相関ユニットは、ランダム化された大きさ又は位相応答に基づいても良く、又はＦＦＴ、サブバンド若しくは時間ドメインにおけるＩＩＲ若しくは全通過構造から成っても良い。斯かる非相関方法の例は、Engdegard、Heiko Purnhagen、Jonas Roden及びLars Liljerydによる「Synthetic ambiance in parametric stereo coding」（Proc. 116th AES Convention, Berlin, 2004）において示されており、本開示は参照によって本明細に組み込まれたものとする。

非相関フィルタは、特定の周波数帯において、「拡散した」感覚を生成することを目的とする。人間の聴取者の２つの耳に到達する出力信号が、時間又はレベルの差を除いて同一である場合、人間の聴取者は、音声を特定の方向（前記時間及びレベルの差に依存する）から来たものとして知覚する。この場合、方向は非常に明確であり、即ち該信号は空間的に「コンパクト」である。

しかしながら、複数の音源が異なる方向から同時に到着する場合、各耳は音源の異なる混合を受信する。それ故、耳の間の差は、単純な（周波数依存の）時間及び／又はレベル差としてモデリングされることができない。本例においては、異なる音源が既に単一の音源へと混合されているため、異なる混合物の再現が可能ではない。しかしながら、斯かる再現は基本的には必要ではない。なぜなら、人間の聴覚システムは、空間的な特性に基づいて個々の音源を分離することが困難であることが知られているからである。本例において支配的な知覚の側面は、時間及びレベル差についての波形が補償される場合に、両耳における波形がどれだけ異なるかである。チャネル間コヒーレンス（又は正規化された相互相関関数の最大値）の数学的な概念が、空間的な「コンパクトさ」の感覚によく合致する尺度であることが分かっている。

主な側面は、両耳における混合が誤っている場合であっても、仮想的な音源の類似する知覚を呼び起こすために、正しいチャネル間コヒーレンスが再現される必要がある点である。該知覚は、「空間的な拡散」、又は「コンパクトさ」の欠如として記述され得る。これが、混合ユニットと組み合わせて非相関フィルタが再現するものである。

パラメータ変換ユニット１０４は、波形が単一音源処理に基づくものであった場合に、これら波形が通常のＨＲＴＦシステムの場合にどれだけ異なるかを決定する。次いで、２つの出力信号において、直接信号と非相関信号とを異なる態様で混合することにより、単純なスケーリング及び時間遅延に帰することができない、信号中の該差を再現することが可能である。有利にも、斯かる拡散度パラメータを再現することにより、現実的な音響ステージが得られる。

既に述べたように、パラメータ変換ユニット１０４は、各オーディオ入力信号Ｘ_ｉについて、位置ベクトルＶ_ｉ及びスペクトルパワー情報Ｓ_ｉから、フィルタ係数ＳＦ１及びＳＦ２を生成する。本例においては、フィルタ係数は、複素値の混合係数ｈ_ｘｘ，ｂにより表される。斯かる複素値の混合係数は、とりわけ低周波数領域において有利である。とりわけ高周波数を処理する場合に、実数値の混合係数が利用されても良いことは言及され得る。

複素値の混合係数ｈ_ｘｘ，ｂの値は、本例においては、特に、頭部伝達関数（ＨＲＴＦ）モデルパラメータＰ_ｌ，ｂ（α，ε）、Ｐ_ｒ，ｂ（α，ε）及びφ_ｂ（α，ε）を表す伝達関数パラメータに依存する。ここで、ＨＲＴＦモデルパラメータＰ_ｌ，ｂ（α，ε）は、左耳についての各サブバンドｂにおける二乗平均平方根（ｒｍｓ）パワーを表し、ＨＲＴＦモデルパラメータＰ_ｒ，ｂ（α，ε）は、右耳についての各サブバンドｂにおけるｒｍｓパワーを表し、ＨＲＴＦモデルパラメータφ_ｂ（α，ε）は、左耳及び右耳のＨＲＴＦ間の平均の複素値位相角を表す。全てのＨＲＴＦモデルパラメータは、方位角（α）及び仰角（ε）の関数として提供される。それ故、該アプリケーションにおいてはＨＲＴＦパラメータＰ_ｌ，ｂ（α，ε）、Ｐ_ｒ，ｂ（α，ε）及びφ_ｂ（α，ε）のみが必要とされ、実際のＨＲＴＦ（多くの異なる方位角及び仰角値によりインデクシングされた有限のインパルス応答テーブルとして保存された）は必要とされない。

ＨＲＴＦモデルパラメータは、本例においては水平方向及び垂直方向に共に２０度の空間解像度に対して、仮想的な音源位置の有限のセットについて保存される。例えば１０又は３０度の空間解像度のような、他の解像度も可能である又は好適である。

一実施例においては、保存された空間解像度間のＨＲＴＦモデルパラメータを補間する、補間ユニットが備えられても良い。双一次の補間が好ましくは適用されるが、他の（非線形の）補間方式が好適であり得る。

従来のＨＲＴＦテーブルに対して本発明によるＨＲＴＦモデルパラメータを提供することにより、有利で高速な処理が実行されることができる。特にコンピュータゲームアプリケーションにおいては、頭部の動きが考慮に入れられる場合、オーディオ音源の再生は、保存されたＨＲＴＦデータ間の高速な補間を必要とする。

更なる実施例においては、パラメータ変換ユニットに供給される伝達関数パラメータは、球形頭部モデルに基づき、該モデルを表すものであっても良い。

本例においては、スペクトルパワー情報Ｓ_ｉは、入力信号Ｘ_ｉの現在のフレームに対応する周波数サブバンド毎に、線形ドメインにおけるパワー値を表す。従って、Ｓ_ｉをサブバンド毎のパワー又はエネルギー値σ^２を持つベクトルとして解釈することができる：
Ｓ_ｉ＝［σ^２ _０，ｉ，σ^２ _１，ｉ，…，σ^２ _ｂ，ｉ］

本例における周波数サブバンドの数（ｂ）は、１０である。スペクトルパワー情報Ｓ_ｉはパワー又は対数ドメインにおけるパワー値により表され得、周波数サブバンドの数は３０又は４０個の周波数サブバンドという値に達し得ることは、ここで言及されるべきである。

パワー情報Ｓ_ｉは基本的に、特定の周波数バンド及びサブバンドにおいて、特定の音源がどれだけのエネルギーを持つかを記述する。特定の周波数バンドにおいて特定の音源が（エネルギーの点で）他の全ての音源に対して支配的である場合、該支配的な音源の空間パラメータは、フィルタ演算により適用される「合成」空間パラメータにおいて、より大きな重みを得る。換言すれば、空間パラメータの平均化されたセットを計算するために、各音源の空間パラメータは、周波数バンドにおける各音源のエネルギーを利用して重み付けされる。これらパラメータの重要な拡張は、位相差及びチャネル毎のレベルが生成されるのみならず、コヒーレンス値もが生成される点である。該値は、２つのフィルタ演算により生成された波形が、どれだけ類似すべきかを記述する。

フィルタ係数又は複素値混合係数ｈ_ｘｘ，ｂのための基準を説明するため、出力信号の代替の対即ちＬ'及びＲ'が導入される。出力信号Ｌ'及びＲ'は、ＨＲＴＦパラメータＰ_ｌ，ｂ（α，ε）、Ｐ_ｒ，ｂ（α，ε）及びφ_ｂ（α，ε）に従った各入力信号Ｘ_ｉの独立した変更に起因し、出力の合計により後続される：

次いで混合係数ｈ_ｘｘ，ｂが、以下の基準に従って得られる：

１．入力信号Ｘ_ｉが、各周波数バンドｂにおいて相互に独立であると仮定される：

２．各サブバンドｂにおける出力信号Ｌ［ｋ］のパワーは、信号Ｌ'［ｋ］の同一のサブバンドにおけるパワーと等しいべきである：

３．各サブバンドｂにおける出力信号Ｒ［ｋ］のパワーは、信号Ｒ'［ｋ］の同一のサブバンドにおけるパワーと等しいべきである：

４．信号Ｌ［ｋ］とＭ［ｋ］との間の平均の複素角は、各周波数バンドｂについて、信号Ｌ'［ｋ］とＭ［ｋ］との間の平均の複素位相角に等しいべきである：

５．信号Ｒ［ｋ］とＭ［ｋ］との間の平均の複素角は、各周波数バンドｂについて、信号Ｒ'［ｋ］とＭ［ｋ］との間の平均の複素位相角に等しいべきである：

６．信号Ｌ［ｋ］とＲ［ｋ］との間のコヒーレンスは、各周波数バンドｂについて、信号Ｌ'［ｋ］とＲ'［ｋ］との間のコヒーレンスに等しいべきである：

以下の（一意でない）解が、上述の基準を満たすことが分かる：

ここで、

ここで、σ_ｂ，ｉは信号Ｘ_ｉのサブバンドｂにおけるエネルギー又はパワーを示し、δ_ｉは音源ｉの距離を表す。

本発明の更なる実施例においては、フィルタユニット１０３は代替として、実数値又は複素値のフィルタバンク、即ちｈ_ｘｙ，ｂの周波数依存性を模倣するＩＩＲフィルタ又はＦＩＲフィルタに基づき、そのためＦＦＴ方式がもはや必要とされない。

聴覚ディスプレイにおいては、オーディオ出力は、ラウドスピーカ又は聴取者によって装着されたヘッドフォンによって、聴取者へと伝達される。ヘッドフォン及びラウドスピーカは共にそれぞれ利点と欠点とを持ち、どちらかが、用途に応じてより好ましい結果を生み出し得る。更なる実施例に関して、例えば耳毎に１つよりも多いスピーカを用いるヘッドフォン又はラウドスピーカ再生設定のため、更なる出力チャネルが備えられても良い。

動詞「有する（comprise）」及びその語形変化の使用は、他の要素又はステップの存在を除外するものではなく、冠詞「１つの（a又はan）」の使用は、複数の要素又はステップの存在を除外するものではないことは、留意されるべきである。また、異なる実施例に関連して説明された要素が組み合わせられても良い。

請求項における参照記号は、請求の範囲を限定するものとして解釈されるべきではないことも、留意されるべきである。

本発明の好適な実施例による、オーディオデータを処理するための装置を示す。本発明の更なる実施例による、オーディオデータを処理するための装置を示す。本発明の実施例による、記憶ユニットを有する、オーディオデータを処理するための装置を示す。図１又は図２に示されたオーディオデータを処理するための装置において実装されるフィルタユニットを詳細に示す。本発明の実施例による更なるフィルタユニットを示す。

Claims

オーディオデータを処理するための装置であって、
合計信号を生成するために幾つかのオーディオ入力信号を受信するように構成された合計ユニットと、
フィルタ係数に依存して前記合計信号をフィルタリングし、少なくとも２つのオーディオ出力信号に帰着させるように構成されたフィルタユニットと、
前記オーディオ入力信号の音源の空間的位置を表す位置情報を一方で受信し、前記オーディオ入力信号のスペクトルパワーを表すスペクトルパワー情報を他方で受信するように構成されたパラメータ変換ユニットと、
を有し、前記パラメータ変換ユニットは、前記位置情報及び前記スペクトルパワー情報に基づいて前記フィルタ係数を生成するように構成され、
前記パラメータ変換ユニットは更に、伝達関数パラメータを受信し、前記伝達関数パラメータに依存して前記フィルタ係数を生成するように構成された装置。
前記伝達関数パラメータは、各オーディオ出力信号についての頭部伝達関数を表すパラメータであり、前記伝達関数パラメータは、方位角及び仰角の関数として、周波数サブバンドにおけるパワーと、各出力チャネルの頭部伝達関数間の周波数サブバンド毎の実数値の位相角又は複素値の位相角を表す、請求項１に記載の装置。
前記周波数サブバンド毎の複素値の位相角は、各出力チャネルの頭部伝達関数間の平均位相角を表す、請求項２に記載の装置。
前記オーディオ入力信号を利得係数に基づいてスケーリングするように構成されたスケーリングユニットを更に有する、請求項１又は２に記載の装置。
前記パラメータ変換ユニットは更に、前記オーディオ入力信号の音源の距離を表す距離情報を受信し、前記距離情報に基づいて前記利得係数を生成するように構成された、請求項４に記載の装置。
前記フィルタユニットは、高速フーリエ変換又は実数値若しくは複素値のフィルタバンクに基づく、請求項１又は２に記載の装置。
前記フィルタユニットは更に、前記少なくとも２つのオーディオ出力信号のそれぞれに対して、非相関信号を適用するように構成された非相関ユニットを有する、請求項６に記載の装置。
前記フィルタユニットは、各種信号に対する周波数サブバンドについて複素値のスケール係数の形で供給されるフィルタ係数を処理するように構成された、請求項６に記載の装置。
オーディオ波形データを保存するための記憶手段と、前記保存されたオーディオ波形データに基づいて前記幾つかのオーディオ入力信号を供給するためのインタフェースユニットと、を更に有する、請求項１乃至８のいずれか一項に記載の装置。
前記記憶手段は、パルス符号変調されたフォーマット及び／又は圧縮されたフォーマットで前記オーディオ波形データを保存するように構成された、請求項９に記載の装置。
前記記憶手段は、時間及び／又は周波数サブバンド毎に前記スペクトルパワー情報を保存するように構成された、請求項９又は１０に記載の装置。
前記位置情報は、仰角情報及び／又は方位角情報及び／又は距離情報による情報を有する、請求項１に記載の装置。
携帯型オーディオプレイヤ、携帯型ビデオプレイヤ、頭部装着型ディスプレイ、モバイル電話、ＤＶＤプレイヤ、ＣＤプレイヤ、ハードディスクベースのメディアプレイヤ、インターネットラジオ装置、一般向け娯楽装置、ＭＰ３プレイヤ、ＰＣベースのメディアプレイヤ、電話会議装置及びジェット戦闘機から成る群のうちの１つとして実現される、請求項９に記載の装置。
オーディオデータを処理する方法であって、
合計信号を生成するために幾つかのオーディオ入力信号を受信するステップと、
フィルタ係数に依存して前記合計信号をフィルタリングし、少なくとも２つのオーディオ出力信号に帰着させるステップと、
前記オーディオ入力信号の音源の空間的位置を表す位置情報を一方で受信し、前記オーディオ入力信号のスペクトルパワーを表すスペクトルパワー情報を他方で受信するステップと、
前記位置情報及び前記スペクトルパワー情報に基づいて前記フィルタ係数を生成するステップと、
伝達関数パラメータを受信し、前記伝達関数パラメータに依存して前記フィルタ係数を生成するステップと、
を有する方法。
オーディオデータを処理するためのコンピュータプログラムが保存されたコンピュータ読み取り可能な媒体であって、前記コンピュータプログラムは、プロセッサにより実行されるときに、
合計信号を生成するために幾つかのオーディオ入力信号を受信するステップと、
フィルタ係数に依存して前記合計信号をフィルタリングし、少なくとも２つのオーディオ出力信号に帰着させるステップと、
前記オーディオ入力信号の音源の空間的位置を表す位置情報を一方で受信し、前記オーディオ入力信号のスペクトルパワーを表すスペクトルパワー情報を他方で受信するステップと、
前記位置情報及び前記スペクトルパワー情報に基づいて前記フィルタ係数を生成するステップと、
伝達関数パラメータを受信し、前記伝達関数パラメータに依存して前記フィルタ係数を生成するステップと、
を制御又は実行するように構成された、コンピュータ読み取り可能な媒体。
オーディオデータを処理するためのプログラム要素であって、プロセッサにより実行されるときに、
合計信号を生成するために幾つかのオーディオ入力信号を受信するステップと、
フィルタ係数に依存して前記合計信号をフィルタリングし、少なくとも２つのオーディオ出力信号に帰着させるステップと、
前記オーディオ入力信号の音源の空間的位置を表す位置情報を一方で受信し、前記オーディオ入力信号のスペクトルパワーを表すスペクトルパワー情報を他方で受信するステップと、
前記位置情報及び前記スペクトルパワー情報に基づいて前記フィルタ係数を生成するステップと、
伝達関数パラメータを受信し、前記伝達関数パラメータに依存して前記フィルタ係数を生成するステップと、
を制御又は実行するように構成されたプログラム要素。