JPH11503882A - 3D virtual audio representation using a reduced complexity imaging filter - Google Patents

3D virtual audio representation using a reduced complexity imaging filter

Info

Publication number
JPH11503882A
JPH11503882A JP7529647A JP52964795A JPH11503882A JP H11503882 A JPH11503882 A JP H11503882A JP 7529647 A JP7529647 A JP 7529647A JP 52964795 A JP52964795 A JP 52964795A JP H11503882 A JPH11503882 A JP H11503882A
Authority
JP
Japan
Prior art keywords
function
transfer function
frequency
parameters
transfer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7529647A
Other languages
Japanese (ja)
Inventor
アベル・ジョナサン・エス.
Original Assignee
オーリアル・セミコンダクター・インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US08/303,705 external-priority patent/US5659619A/en
Application filed by オーリアル・セミコンダクター・インコーポレーテッド filed Critical オーリアル・セミコンダクター・インコーポレーテッド
Publication of JPH11503882A publication Critical patent/JPH11503882A/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Holo Graphy (AREA)
  • Color Television Image Signal Generators (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

(57)【要約】 圧縮された頭部関連伝達関数(HRTF)(130)のパラメータは、仮想オーディオ表現のための音声信号のフィルタリングに使用するため、予め生成されるか、または、リアルタイムに生成される。周波数領域の観点からは、既知の伝達関数の周波数成分が、耳の臨界帯域の幅の関数である複数の帯域幅に渡って平滑化される(125)。第1の実現例では、HRTF(120)を周波数依存の重み関数と周波数領域において畳み込むことによって、HRTFが平滑化される。第2の方法では、HRTFの周波数軸がワープされ、非線形周波数領域に写像される。 (57) Summary The parameters of the compressed head related transfer function (HRTF) (130) are pre-generated or real-time generated for use in filtering audio signals for virtual audio representation. Is done. From a frequency domain perspective, the frequency components of the known transfer function are smoothed over a plurality of bandwidths that are a function of the width of the critical band of the ear (125). In a first implementation, the HRTF (120) is smoothed by convolving it in a frequency domain with a frequency-dependent weight function. In the second method, the frequency axis of the HRTF is warped and mapped to the non-linear frequency domain.

Description

【発明の詳細な説明】 複雑性を低減したイメージングフィルタを用いた 3次元仮想オーディオ表現 技術分野 この発明は、一般に3次元オーディオ、すなわち仮想オーディオに関する。さ らに詳しくは、この発明は、仮想オーディオ表現に使用されるイメージングフィ ルタの複雑性を低減する方法および装置に係わる。この発明の教示によれば、こ のような複雑性の低減は、得られる3次元オーディオ表現の音響心理学的局所化 特性に実質的に影響を与えることなく達成される 背景技術 聴取者に到達する音は、音源と聴取者との相対的な位置に依存する伝播効果を 示す。また、聴取環境の効果も存在する。これらの効果は、信号強度の差や到達 時間の差を含み、聴取者に音源位置の感じを与える。早期の、または、遅延した 反響効果のような環境効果が含まれる場合には、この環境効果もまた、聴取者に 音響的な環境の感じを与えることになる。適切な伝播効果を模擬するために音を 処理することによって、聴取者は、その音が、3次元空間内の特定の点から、す なわち「仮想位置」から発せられているように受け取るであろう。例えば、ウィ ットマンおよびキスラーによる「自由音場聴取のヘッドホーンシミュレーション 」,J.Acoust.Soc.Am.,Vol.85,No.2,1989を参照。 現在の3次元すなわち仮想オーディオ表現は、複数の選択された頭部関連伝達 関数(HRTF)を用いて音声入力信号を時間領域フィルタリングすることによ って達成されている。各HRTFは、3次元空間内の特定の位置または領域にお ける音響心理学的な局所化、もしくは、3次元空間内の方向における音響心理学 的な局所化を達成する伝播効果や音響キューを再現するように設計される。例え ば、エリザベス・エム.・ウェンゼルによる「仮想音響表現における局所化」,P resence,Vol.1,No.1,Sumner 1992 を参照。簡単のために、この明細書では 、1つのオーディオチャンネルに作用する1つのHRTFについてのみ言及する 。実際には、複数対のHRTFが、聴取者の両耳に適切な信号を供給する ために使用される。 現在では、ほとんどのHRTFは、空間的な方向についてのみ索引付けられて おり、レンジ成分は独立に考慮されている。いくつかのHRTFは、レンジと方 向の両方を含むことによって空間的な位置を規定しており、位置によって索引付 けられている。ここでは特定の例として、方向を規定するHRTFに言及してい るが、この発明は、方向または位置のいずれかを表すHRTFに適用される。 典型的には、HRTFは、実験的な測定によって得られるか、または、実験的 に得られたHRTFを修正することによっても得られる。実際的な仮想オーディ オ表現の構成では、複数のHRTFパラメータセットのテーブルが保存されてお り、その各HRTFパラメータセットは、3次元空間の特定の点または領域に関 連づけられている。テーブルの保存容量を削減するために、いくつかの空間的位 置に対するHRTFパラメータのみが保存される。他の空間位置に対するHRT Fパラメータは、テーブルに保存されたHRTF位置の適切なセットを補間する ことによって生成される。 上述したように、音響環境もまた考慮される。実際には、これは、HRTFを 修正するか、または、音声信号を、所望の音響環境を模擬する追加のフィルタリ ングの処理対象とすることによって達成される。説明の簡単のために、開示され た実施例はHRTFに言及しているが、この発明は、より一般に仮想オーディオ 表現に使用されるすべての伝達関数に適用されるものであり、そのような伝達関 数としては、HRTFや、音響環境効果を表す伝達関数や、頭部関連変換と音響 環境効果の両方を表す伝達関数を含んでいる。 従来の典型的な構成を図1に示す。3次元空間位置信号10がHRTFパラメ ータテーブルおよび補間関数11に適用されて、信号10によって識別される3 次元位置に応じた1組の補間されたHRTFパラメータ12が得られる。入力音 声信号12は、適用され補間されたHRTFパラメータによって決定される伝達 関数を有するイメージングフィルタ15に適用される。このフィルタ15は、ヘ ッドホーン17の1チャンネルに適用するのに適した「空間化された」音声出力 を提供する。 種々の図面は、再現のためにヘッドホーンを示しているが、適切なHRTFは、 スピーカを含む他のタイプのオーディオトランスデューサによって、音響心理学 的に局所化された音声を生成することができる。この発明は、特定のタイプのオ ーディオトランスデューサを使用することに限定されるものではない。 イメージングフィルタが有限インパルス応答(FIR)フィルタで実現される 時には、HRTFパラメータは、そのHRTFに関連づけられたインパルス応答 を構成するFIRフィルタタップを規定する。以下に説明するように、この発明 は、FIRフィルタを使用することに限定されるものではない。 図1に示す従来技術のアプローチの主な欠点は、比較的長く複雑なHRTFの 演算コストである。従来技術では、HRTFの長さすなわち複雑性を低減するた めにいくつかの技術を用いている。図2aに示すHRTFは、時間遅れ成分Dと、 インパルス応答成分g(t)とを含んでいる。すなわち、イメージングフィルタ は、図2bに示すように、時間遅れ関数Z-Dと、インパルス応答関数g(t)と で実現できる。まず、この時間遅れを除去することによって複数のHRTFを時 間的に整列させれば、イメージングフィルタのインパルス応答関数の計算の複雑 性が低減される。 図3aは、従来技術の構成を示しており、ここでは複数の対の未加工の(すな わち「生の」)HRTFが時間整列プロセッサ101に適用され、その出力端子 に時間整列HRTF102と、後に使用(図示せず)される時間遅れ値103と が出力される。プロセッサ101は、複数対の未加工のHRTFの相互相関を取 って、それらの到達時間の時間差を決定する。これらの時間差は、遅れ値103 である。時間遅れ値103とフィルタ区間は、後の使用のために保持されるので、 音響心理学的な局所化ロスは生じず、知覚的な効果は保存される。各時間整列H RTF102は、その後、最小位相コンバータ104で処理されて残りの時間遅 れが除去され、時間整列HRTFがさらに短くなる。 図3bは、未加工のHRTFパラメータ100から得られた未加工の2組の左 −右対のHRTF(R1/L1およびR2/L2)の例を示している。図3cは、 これに対応する時間整列HRTF102を示している。図3dは、これに対応す る出力最小位相HRTF105を示している。時間整列HRTF102のインパ ルス応答長さは、未加工のHRTF100から短縮されており、また、最小位相 HRTF105は時間整列HRTF102から短縮されている。このように、複 数のHRTFを時間整列させるために遅れを抽出し、最小位相変換を適用するこ とによって、フィルタの複雑性(FIRフィルタの場合にはその長さ)が低減さ れる。 図2bおよび図3aの技術を使用したとしても、48kHzのオーディオサン プリング率において、FIRフィルタに対して256点程度の長い最少位相応答 が通常使用されており、これは、プロセッサが音源毎に25mipsのオーダー で処理を実行することを要求する。 演算のためのリソースが限られている場合には、HRTFの長さすなわち複雑 性をさらに低減するために、従来技術において2つの付加的なアプローチが、単 独もしくは組み合わされて使用される。1つの技術は、図4aに示すように、H RTFをダウンサンプリングすることによって、サンプリング率を低下する方法 である。多くの局所化キュー、特に、高さにとって重要なものは、高周波数成分 を含むので、サンプリング率の低下はオーディオ表現の性能を受け入れ不可能な 程度にまで劣化させることがある。 他の技術は、図4bに示されており、時間領域でHRTFにウィンドウ関数を 乗ずることによって、または、周波数領域でこれに対応する重み関数を用いてH RTFを畳み込むことによって、HRTFにウィンドウ関数を適用する方法であ る。この処理は、時間領域においてHRTFにウィンドウを乗ずることを考える ことによって最も容易に理解しうる。このとき、短縮されたHRTFが得られる ように、ウィンドウ幅はHRTFよりも狭いものが選択される。このようなウィ ンドウ処理は、固定された重み関数を用いた周波数領域平滑化の結果が得られる。 この既知のウィンドウ処理技術は、音響心理学的局所化特性を劣化させ、特に、 複雑で長いインパルス応答を有する空間的な位置や方向に関するものを劣化させ る。このように、元のHRTFの知覚的な効果や音響心理学的局所化特性を維持 しつつ、HRTFの複雑性すなわち長さを低減する方法が望まれている。 発明の開示 この発明によれば、3次元仮想オーディオ表現は、空間位置信号に応じて1組 の伝達関数パラメータを生成し、この1組の頭部関連伝達関数パラメータに応じ て音声信号をフィルタ処理する。この1組の頭部関連伝達関数パラメータは、複 数の既知の頭部関連伝達関数のためのパラメータを平滑化したものである。 この発明による平滑化は、その動作を周波数領域で考えることによって最も良 く説明しうる。複数の既知の伝達関数の周波数成分は、周波数に関して一定の関 数ではない複数の帯域幅に渡って平滑化される。得られた複数の伝達関数のパラ メータ(ここでは「圧縮された」伝達関数と呼ぶ)は、仮想オーディオ表現のた めに音声信号をフィルタ処理するために使用される。圧縮された頭部関連伝達関 数パラメータは、予め生成されていてもよく、あるいは、リアルタイムで作成さ れてもよい。前記の平滑化帯域は、耳の複数の臨界帯域の幅(すなわち、「臨界 帯域幅」)の関数であることが好ましい。この関数は、平滑化帯域幅が、臨界帯 域幅に比例するようにとることもできる。周知のように、耳の臨界帯域の幅は、 周波数の増大にともなって増大し、従って、平滑化帯域幅も周波数とともに増大 する。 臨界帯域幅に対して平滑化帯域幅がより広いほど、結果として得られるHRT Fの複雑性が低下する。FIRフィルタとして実現されるHRTFの場合には、 フィルタの長さ(フィルタタップの数)は、臨界帯域幅の倍数として表現される 平滑化帯域幅の逆数に関連付けられる。 臨界帯域幅を考慮にいれている本発明の教示を適用することによって、複雑性 や長さを同程度に低減した場合に、上述のような従来技術のウィンドウ技術によ って、より単純に短くなったHRTFに比べて、知覚的効果や音響心理学的局所 化の劣化がより少ないような、複雑性の低い、短いHRTFが得られる。 HRTF(「未加工のHRTF」)の例と、従来のウィンドウ処理方法によっ て作成された短縮されたHRTFの例と、本発明の方法によって作成されたHR TF(「圧縮HRTF」)が、図5a(時間領域)および図5b(周波数領域) に示されている。未加工のHRTFは、その複雑性すなわち長さを低減する処理 が行われていない既知のHRTFの例である。図5aにおいて、HRTFの時間 領域インパルス応答振幅が、0から3ミリ秒の時間軸に沿ってプロットされてい る。図5bには、各HRTFの周波数領域伝達関数パワーが、1kHzから20 kHzまでの対数周波数軸に沿ってプロットされている。図5bの時間領域にお いて、従来のHRTFは或る程度の短縮化を示しているが、圧縮HRTFはさら に短縮化されている。図5bの周波数領域において、従来技術HRTFにおける 一様な平滑化帯域幅の効果が明らかであり、一方、圧縮HRTFは、周波数の増 大に伴って平滑化帯域幅が増大する効果を示している。図5bは対数周波数尺度 なので、圧縮HRTFは、未加工HRTFに対して一定の平滑化を示している。 時間領域の長さの差と、周波数領域における周波数応答の差があるにも係わらず、 未加工HRTFと、従来技術HRTFと、圧縮HRTFとは、同等な音響心理学 的性能を提供する。 未加工HRTFに対する従来のウィンドウ処理の量と、本発明による圧縮の量 とを、未加工HRTFに対して実質的に同様の音響心理学的性能を与えるように 選択すると、予備的な二重目隠し聴取テストでは、従来技術のウィンドウ処理H RTFよりも圧縮HRTFの方が好まれることが示される。驚いたことに、圧縮 HRTFは、未加工のHRTFよりも好まれる。この理由は、平滑化処理によっ て除去されたHRTFの微細構造が、HRTFの位置には未関連であり、一種の ノイズとして認識されるからであると考えられる。 本発明は、少なくとも2つの方法によって実現可能である。第1の方法では、 周波数領域において、周波数に依存する重み関数を用いてHRTFを畳み込むこ とによって、HRTFが平滑化される。この重み関数は、不変ではなく、周波数 に依存する関数であるという点において、従来技術の時間領域ウィンドウ関数の 周波数領域版とは異なる。この代わりに、周波数依存の重み関数の時間領域版を、 時間領域において、HRTFインパルス応答に適用するようにしてもよい。第2 の方法では、HRTFの周波数軸がワープされ、すなわち、非線形周波数領域に 写像され、この周波数ワープHRTFが、時間領域において(時間領域に変換さ れた後に)従来のウィンドウ関数で乗算されるか、または、周波数領域において 従来のウィンドウ関数の不変周波数応答と畳み込まれる。ウィンドウ処理された 信号に対しては、その後、逆周波数ワーピングが行われる。 この発明は、あらゆる種類のイメージングフィルタを使用して実現され得るも のであり、このイメージングフィルタとしては、アナログフィルタや、ハイブリ ッドアナログ/デジタルフィルタや、デジタルフィルタなどを含むが、これらに は限定されない。このようなフィルタは、ハードウェアや、ソフトウェアや、ハ ードウェア/ソフトウェアのハイブリッド構成など(例えばデジタル信号処理) によって実現されうる。デジタル的にあるいは部分的にデジタル的に実現された 時には、FIRフィルタ、IIR(無限インパルス応答)フィルタ、およびハイ ブリッドFIR/IIRフィルタを使用することができる。この発明は、また、 主成分フィルタ・アーキテクチャによっても実現できる。仮想オーディオ表現の 他の態様は、アナログ、デジタル、アナログ/デジタルのハイブリッド、ハード ウェア、ソフトウェア、および、ハードウェア/ソフトウェアのハイブリッド技 術を含む任意の組み合わせ、例えばデジタル信号処理、を用いて実現可能である。 FIRフィルタで実現する場合には、HRTFパラメータはそのFIRフィル タを規定するフィルタタップである。IIRフィルタの場合には、HRTFパラ メータは、そのIIRフィルタを規定する極およびゼロ点、または、他の特性で ある。主成分フィルタの場合には、HRTFパラメータは、位置依存の重みであ る。 この発明の他の態様では、1群のHRTF内の各HRTFは、その1群内のす べての頭部関連伝達関数に共通する固定頭部関連伝達関数と、それぞれの頭部関 連伝達関数に関連付けられた可変頭部関連伝達関数とに分離され、この固定頭部 関連伝達関数および各可変頭部関連伝達関数の組み合わせが、それぞれの元の既 知の頭部関連伝達関数と実質的に等価である。この発明による平滑化技術は、固 定HRTFと可変HRTFの一方、または、双方に適用してもよく、あるいは、 両方ともに適用しなくてもよい。 図面の簡単な説明 図1は、従来技術の仮想オーディオ表現構成の機能ブロック図である。 図2aは、頭部関連伝達関数(HRTF)のインパルス応答の例である。 図2bは、イメージングフィルタがHRTFの時間遅れ部分およびインパルス 応答部分を表すように示された機能ブロック図である。 図3aは、HRTFの複雑性すなわち長さを低減させる1つの従来技術の機能 ブロック図である。 図3bは、1組の左および右の「未加工」HRTF対を示す。 図3cは、図3bの1組のHRTF対が、時間整列されて短くなったものを示 す。 図3dは、図30の1組のHRTF対が、最少位相変換されてさらに長さが低 減したものを示す。 図4aは、サンプリング率を低下させることによって、HRTFインパルス応 答を短くする従来の技術を示す機能ブロック図である。 図4bは、時間領域においてHRTFインパルス応答にウィンドウを乗ずるこ とによって、HRTFインパルス応答を短くする従来の技術を示す機能ブロック 図である。 図5aは、時間領域における3つの波形の組を示しており、「未加工」HRT Fの一例と、従来技術によって短縮されたHRTFと、本発明の教示に従って圧 縮されたHRTFとを示している。 図5bは、図5aの1組のHRTF波形の周波数領域表現である。 図6aは、本発明に従って圧縮HRTFを得る実施例を示す機能ブロック図で ある。 図6bは、一例の入力HRTFの周波数応答を示している。 図6cは、一例のHRTFインパルス応答のインパルス応答を示している。 図6dは、圧縮出力HRTFの周波数応答を示している。 図6eは、圧縮出力HRTFのインパルス応答を示している。 図7aは、本発明により圧縮HRTFを得る他の実施例を示している。 図7bは、一例の入力HRTFインパルス応答のインパルス応答を示している。 図7cは、一例の入力HRTFの周波数応答を示している。 図7dは、周波数ワーピング後の入力HRTFの周波数応答を示している。 図7eは、圧縮出力HRTFの周波数応答を示している。 図7fは、逆周波数ワーピング後の圧縮出力HRTFの周波数応答を示してい る。 図7gは、逆周波数ワーピング後の圧縮出力HRTFのインパルス応答を示し ている。 図8は、図6aおよび図7aの実施例の動作を理解するために有用な3つのウ ィンドウのファミリを示している。 図9は、イメージングフィルタが主成分フィルタとして実施されている場合の 機能ブロック図である。 図10は、本発明の他の態様を示す機能ブロック図である。 発明の実施の形態 図6aは、この発明に従って圧縮HRTFを生成する実施例を示している。こ の実施例では、入力HRTFの周波数応答が、周波数領域において周波数依存の 重み関数を用いて畳み込まれることによって、入力HRTFが平滑化される。こ の代わりに、周波数依存の重み関数の時間領域版を、時間領域においてHRTF インパルス応答に適用するようにしても良い。 図7aは、この発明に従って圧縮HRTFを生成する他の実施例を示している。 この実施例によれば、入力HRTFの周波数軸がワープされ(歪められ)、すな わち、非線形周波数領域に写像されて、この周波数ワープHRTFが、周波数領 域において、不変重み関数(すなわち、従来の時間領域ウィンドウ関数の周波数 領域版である重み関数)の周波数応答と畳み込まれる。その後、逆周波数ワーピ ングが平滑化信号に適用される。この代わりに、周波数ワープHRTFを時間領 域に変換して、従来のウィンドウ関数で乗算するようにしてもよい。 図6aにおいては、オプションとしての非線形スケーリング関数51が入力H RTF50に適用されている。その後、平滑化関数54がHRTF52に適用さ れる。入力HRTFに非線形スケーリングが適用される場合には、この後に、逆 スケーリング関数56が平滑化HRTF54に適用される。圧縮HRTFは出力 として与えられる。以下でさらに説明するように、非線形スケーリング51と非 線形逆スケーリング56は、平滑化平均関数が信号振幅または信号パワーのいず れに関するものか、および、それが算術平均か幾何平均か、その他の平均化関数 であるか、を制御することができる。 平滑化プロセッサ54は、HRTFを周波数依存重み関数と畳み込む。この平 滑化プロセッサは、移動重み付き算術平均として実現しても良い; ここで、少なくとも平滑化帯域幅bfは周波数の関数であり、オプションとして ウィンドウ形状Wfも周波数の関数としてもよい。重み関数の幅は、周波数と共 に増加する。重み関数の長さは臨界帯域幅の倍数であることが好ましく、要求さ れるHRTFインパルス応答長さが短いほど、その倍数値は大きくなる。 HRTFは、典型的には低周波数成分(約300Hz以下)および高周波数成 分(約16kHz以上)を欠いている。可能な限り短い(従って最も複雑で無い) HRTFを提供するためには、HRTF周波数応答を、人間の可聴域の通常の下 限および上限まで、あるいはそれらを超えて、拡張することが望ましい。しかし、 こうした場合には、拡張された低周波数および高周波数音声帯域における重み関 数の幅を、HRTFの内容が典型的に含まれている音声帯域の主要な非拡張部分 を通じて使用されている臨界帯域幅の倍数よりも、耳の臨界帯域に対して相対的 により広くすべきである。 約500Hzより下では、音声の波長が頭部のサイズに比較して大きいので、 HRTFは概略平坦なスペクトルとなる。従って、上述の臨界帯域幅の倍数より も広い平滑化帯域幅を用いることが好ましい。約16kHzより上の高周波数に おいては、人間の聴覚が貧弱であり、また、ほとんどの局所化キューはそのよう な高周波数よりも下に集中しているので、上述の臨界帯域幅の倍数よりも広い平 滑化帯域幅を用いることが好ましい。従って、音声帯域の低周波数端および高周 波数端における重み帯域幅は、ここで説明された式によって予測される帯域幅を 超えて拡張するようにしてもよい。例えば、この発明の1つの具体的な実施例に おいて、1kHzよりも下の周波数に対しては約250Hzの一定の平滑化帯域 幅が使用され、1kHzよりも上では1/3オクターブ帯域幅が使用される。1 /3オクターブ帯域幅は臨界帯域幅の近似であり、1kHzにおいて1/3オク ターブ帯域幅は約250Hzである。従って、1kHzより下では、平滑化帯域 幅は、臨界帯域幅よりも広い。場合によっては、低周波数(例えば300〜50 0Hz)でのパワーを、従来のHRTF測定技術を使用しては正確には決定でき ないデータを補充するために、DCにまで外挿するようにしてもよい。 1つの群に属するすべてのHRTFを処理するのに、同じ臨界帯域幅の倍数を 有する重み関数を用いるようにしてもよいが、異なる臨界帯域幅倍数値を有する 複数の重み関数をそれぞれのHRTFに適用して、すべてのHRTFが同程度に 圧縮されることがないようにしてもよい。これは、得られた複数の圧縮HRTF が、同じ複雑性と長さを有することを確保するために必要なことがある(いくつ かの未加工HRTFは、その空間的位置に依存して、より複雑でより長いで、よ り大幅な、または、より少ない圧縮が必要になることがある)。この代わりに、 ある方向や空間的位置を表すHRTFの圧縮量を他のHRTFよりも少なくして 全体の空間的局所化のより良い感覚を維持しつつ、演算の複雑性を全体としてい くらか緩和するようにしてもよい。HRTFの圧縮量は、HRTFの相対的な音 響心理学的重要性の関数として変化するようにしてもよい。例えば、早期反射は、 異なる方向から到達するので、別々の複数のHRTFを用いて得られるものであ り、直接音声経路ほどには正確な空間化は重要ではない。従って、早期反射は、 「過短縮化」されたHRTFを用いて、知覚的な影響無しで得ることができる。 図6aの平滑化54を実現する他の方法は、各周波数fに対して、 θ(n)は、位置θにおける入力HRTF52であり、Sθ(f)は圧縮HR TF54、nは周波数、Nはナイキスト周波数の1/2である。従って、各々が 0からNまでの区間でそれぞれ定義されている重み関数Wf, θ(n)のファミリ ーが存在し、これらの重み関数の幅は、それらの中心周波数fの関数であり、ま た、オプションとしてはHRTF位置θの関数としてもよい。各重み関数の和は 1である(式3)。図8は、ガウス分布形状を有する重み関数のファミリーの3 つの構成要素を、周波数に対する振幅応答をプロットして示している。簡単のため に、重み関数のファミリーの中の3個のみが示されている。中央のウィンドウは 、その中心が周波数n0にあり、帯域幅bf=n0を有している。重み関数は、ガウ ス分 布を有する必要はない。他の形状の重み関数としては、単純化のために、長方形 を含む重み関数を用いてもよい。また、重み関数は、その中心周波数に対して対 称である必要はない。 非線形スケーリング関数51および逆スケーリング関数56を考慮して、図6 aを、もっと一般に次のように特徴付けることができる。 ここで、Gはスケーリング51であり、G-1は逆スケーリングである。 これまでに説明した平滑化54は、入力HRTF伝達関数の統計に依存する算 術平均関数を与えているが、丸め平均値(トリム平均)または中央値が、算術平 均よりも好ましいかもしれない。 人間の耳は、臨界帯域内における合計フィルタパワーに感受性があるようなの で、図6aの非線形スケーリング51を2乗演算として実現し、出力逆スケーラ 56を平方根演算として実現することが好ましい。最少位相変換のような、或る 前処理や後処理を適用することが望ましい場合もある。この代わりに、または2 乗演算スケーリングおよび平方根逆スケーリングに加えて、非線形スケーリング 51が対数関数であり、逆スケーリング57が指数関数である時には、平滑化5 4の算術平均は幾何平均となる。このような平均は、高さ方向の知覚に重要と考 えられる空スペクトルを保存するのに有用である。 図6bと6cは、入力HRTFの周波数スペクトルと入力インパルス応答の一 例を、それぞれ周波数領域と時間領域で示している。図6dと6eは、それぞれ の領域における圧縮出力HRTF57を示している。HRTFスペクトルが平滑 化されている程度および、そのインパルス応答が短縮されている程度は、平滑化 54に対して選択された臨界帯域幅の倍数に依存している。圧縮HRTFの特性 は、また、上述したウィンドウ形状と他の要因に依存している。 図7aを参照する。この実施例において、入力HRTFの周波数軸は、歪めら れた周波数スペクトルに作用する一定帯域幅の平滑化125が図6aの平滑化5 4と同等になるように、周波数ワーピング関数121によって変換される。平滑 化HRTFは、逆ワーピング129で処理されて、出力圧縮HRTFが得られる。 図6aと同様に、非線形スケーリング51と逆スケーリング56を、任意に入力 HRTFと出力HRTFに適用するようにしても良い。 周波数ワーピング関数121は、一定帯域幅平滑化との組み合わせによって、 図6aの実施例の周波数依存平滑化帯域幅の目的を達成する。例えば、周波数を バークスケールに写像するワーピング関数を、臨界帯域平滑化を実現するために 使用しても良い。平滑化125は、重み関数の幅が周波数に関して一定であると いう点を除いて、図6aの実施例と同様に、時間領域ウィンドウ関数の乗算とし て実現することもでき、また、周波数領域の重み関数の畳み込みとして実現する こともできる。図6aに関する場合と同様に、最少位相変換のような、或る前処 理や後処理を適用することが望ましいこともある。 周波数ワーピング関数121とスケーリング関数51とが適用される順序は、 逆にすることができる。これらの関数は線形ではないが、周波数ワーピング12 1は周波数領域に影響を与え、スケーリング51は周波数ビンの値にのみ影響す るので、これらの関数は交換できる。従って、逆スケーリング関数56と逆ワー ピング関数129もまた、逆にすることができる。 さらに他の方法として、出力HRTFをブロック125の後に取り出して、逆 スケーリングと逆ワーピングを、その圧縮HRTFパラメータを受け取る装置や 関数の中に設けるようにしてもよい。 図7bおよび7cは、入力HRTFの入力応答および周波数スペクトルの一例 をそれぞれ示している。図7dは、バークスケールに写像されたHRTFの周波 数スペクトルを示している。図7eは、平滑化125の後のHRTFのスペクト ルを示している。逆周波数ワーピングを行った後は、結果として得られる圧縮H RTFは、図7fに示すようなスペクトルと、図7gに示すようなインパルス応 答を有している。結果として得られるHRTF特性は、図6aの実施例のものと 同一である。 イメージングフィルタは、また、図9に示す方法で、主成分フィルタとして実 施することもできる。位置信号30は、図1のブロック11と機能的に類似した 重みテーブルおよび補間関数31に適用される。ブロック31によって提供され るパラメータと、補間された重みと、方向性マトリクスと、主成分フィルタとは、 イメージングフィルタを制御するHRTFパラメータと機能的に等価である。こ の実施例のイメージングフィルタ15’は、1組の並列固定フィルタ34、すな わち、主成分フィルタ、PC0〜PCNにおいて入力信号33をフィルタ処理し、 それらの出力は位置依存の重み付けによって混合されて、所望のイメージングフ ィルタを近似する。この近似の精度は、使用されている主成分フィルタの数と共 に増加する。1組の未加工HRTFに対して一定程度の近似を達成するには、こ の発明の実施例によって圧縮されたものに対する場合よりも、より多くの演算リ ソースが、追加の主成分フィルタの形で必要になる。 この発明の他の態様が、図10の実施例に示されている。3次元空間位置信号 70が、等化されたHRTFパラメータテーブルおよび補間関数71に適用され、 信号70によって識別された3次元位置に応じた1組の補間された等化HRTF パラメータ72が得られる。入力音声信号73は、等化フィルタ74と、補間さ れた等化HRTFパラメータによって決定されるイメージングフィルタ75とに 適用される。この代わりに、等化フィルタ74が、イメージングフィルタ75の 後に設置されていても良い。このフィルタ75は、ヘッドホーン77の1チャン ネルに適用するのに適した空間化された音声出力を与える。 テーブル71内の複数組の等化された頭部関連伝達関数パラメータは、1群の 既知の頭部関連伝達関数を、その群のすべての頭部関連伝達関数に共通する1つ の固定頭部関連伝達関数と、それら既知の頭部関連伝達関数の各々に関連する可 変位置依存頭部関連伝達関数とに分割することによって予め得られ、この固定頭 脳関連伝達関数と各可変頭部関連伝達関数との組み合わせは、それぞれの元の既 知の頭部関連伝達関数に実質的に等しい。等化フィルタ74は、従って、テーブ ル内のすべての頭部関連伝達関数に共通する固定頭部関連関数を表している。こ のようにして、HRTFとイメージングフィルタの複雑性が低減する。 この等化フィルタ特性は、イメージングフィルタの複雑性を最少にするように 選択される。これは、等化HRTFテーブルのサイズを最小化し、HRTFの補 間とイメージングフィルタリングのための演算リソースを低減し、また、テーブ ル化されたHRTFのためのメモリリソースを低減する。FIRイメージングフ ィルタの場合には、フィルタ長さを最少にすることが望ましい。 所望の等化フィルタを見いだすには、種々の最適化基準を用いることができる。 等化フィルタは、平均HRTFMを近似するようなものでもよく、こうすれば、 位置依存部のスペクトルが平均的に平坦になる(またその時間が短くなる)。等 化フィルタは、1群の既知の伝達関数の拡散場音成分を表していても良い。等化 フィルタが、HRTFの重み付き平均として構成されている時には、その重み付 けは、より長くより複雑なHRTFを、より重視するようにすべきである。 左チャンネルと右チャンネルに対して、(位置可変HRTFの前または後のい ずれかに)異なる固定等化処理を行うようにしてもよく、単一の等化処理をモノ ラル音源信号に適用してもよい(モノラル信号が左成分と右成分とに分離される 前に単一のフィルタとして適用してもよく、または、左成分と右成分のそれぞれ に対する2つのフィルタとして適用しても良い)。人間の対称性から予測される ように、最適な左耳および右耳等化フィルタは、しばしばほぼ同一である。従っ て、音源信号は、単一の等化フィルタを用いてフィルタリングを行い、その出力 を、両方の位置依存HRTFフィルタに与えるようにしてもよい。 この発明の教示に従って、等化されたHRTFパラメータと、固定等化フィル タのパラメータのいずれかを平滑化するか、または、等化されたHRTFパラメ ータと等化フィルタパラメータの両方を平滑化することによって、さらに利点が 得られる。 また、等化フィルタとイメージングフィルタとに対して、異なるフィルタ構造 を使用することによって、演算を節約することができる。例えば、その内の一方 をIIRフィルタとして実現し、他方をFIRフィルタとして実現するようにし てもよい。典型的には固定フィルタの方がかなり滑らかな応答を有するので、等 化フィルタは低次のIIRフィルタとして実現するのがもっともよいであろう。 また、等化フィルタをアナログフィルタとして実現することも容易である。 主成分法を含む、HRTFフィルタにおいて使用するのに適したあらゆるフィ ルタリング技術を、可変位置依存部等化HRTFパラメータを実現するために使 用することができる。例えば、図10は、イメージングフィルタ75として、図 9の実施例において説明したようなタイプの主成分イメージングフィルタ15’ を利用してもよい。DETAILED DESCRIPTION OF THE INVENTION               Using an imaging filter with reduced complexity                         3D virtual audio representation                                 Technical field   The present invention relates generally to three-dimensional audio, or virtual audio. Sa More specifically, the invention relates to an imaging filter used for virtual audio representation. A method and apparatus for reducing complexity of a filter. According to the teachings of the present invention, The complexity reduction as described above is due to the psychoacoustic localization of the resulting 3D audio representation. Achieved without substantially affecting the properties                                 Background art   The sound reaching the listener has a propagation effect that depends on the relative position of the sound source and the listener. Show. There is also the effect of the listening environment. These effects can be caused by differences in signal strength or Including the time difference, it gives the listener a sense of the sound source position. Early or delayed If environmental effects such as reverberation effects are included, these environmental effects will also be heard by the listener. It will give an acoustic environment feeling. Sound to simulate proper propagation effects By processing, the listener can hear the sound from a particular point in three-dimensional space. That is, they will receive as if they originated from a "virtual location". For example, "Headphone Simulation of Listening to a Free Sound Field by Stuttman and Kistler J. Acoust. Soc. Am., Vol. 85, No. 2, 1989.   The current three-dimensional or virtual audio representation has multiple selected head-related transmissions. By time domain filtering the audio input signal using a function (HRTF) Has been achieved. Each HRTF is located at a specific location or area in three-dimensional space. Psychoacoustic localization or psychoacoustics in directions in three-dimensional space It is designed to reproduce the propagation effects and acoustic cues that achieve local localization. example For example, Elizabeth M. Wenzel's "Localization in virtual acoustic expression", P resence, Vol. 1, No. 1, see Sumner 1992. For simplicity, this specification uses Mention only one HRTF acting on one audio channel . In practice, multiple pairs of HRTFs provide appropriate signals to both ears of the listener Used for   At present, most HRTFs are only indexed for spatial orientation And the range components are considered independently. Some HRTFs have range and direction The spatial position is defined by including both directions and indexed by position Have been killed. Here, as a specific example, reference is made to an HRTF that defines directions. However, the invention applies to HRTFs representing either direction or position.   Typically, HRTFs are obtained by experimental measurements or Can be obtained by modifying the obtained HRTF. Practical virtual audio In the expression configuration, a table of a plurality of HRTF parameter sets is stored. Each HRTF parameter set is associated with a particular point or region in three-dimensional space. It is linked. To reduce table storage space, some spatial Only the HRTF parameters for the location are saved. HRT for other spatial locations The F parameter interpolates the appropriate set of HRTF positions stored in the table Generated by   As mentioned above, the acoustic environment is also considered. In practice, this is an HRTF Modify or modify the audio signal with additional filtering to simulate the desired acoustic environment. This can be achieved by making it a target for processing. Disclosed for simplicity of explanation. Although the preferred embodiments refer to HRTFs, the invention more generally relates to virtual audio It applies to all transfer functions used in the representation, and The numbers include HRTFs, transfer functions representing acoustic environment effects, and head-related transformations and acoustics. Includes transfer functions that represent both environmental effects.   FIG. 1 shows a typical configuration of the related art. 3D spatial position signal 10 is HRTF parameter 3 applied to the data table and the interpolation function 11 and identified by the signal 10 A set of interpolated HRTF parameters 12 corresponding to the dimensional position is obtained. Input sound The voice signal 12 has a transmission determined by the applied and interpolated HRTF parameters. Applied to an imaging filter 15 having a function. This filter 15 "Spatialized" audio output suitable for application to one channel of the horn 17 I will provide a.   Various drawings show the headphones for reproduction, but a suitable HRTF is Psychoacoustics by other types of audio transducers, including speakers A locally localized sound can be generated. The present invention provides certain types of It is not limited to using audio transducers.   The imaging filter is implemented with a finite impulse response (FIR) filter Sometimes, the HRTF parameter is the impulse response associated with the HRTF Is defined. As described below, the present invention Is not limited to using FIR filters.   A major drawback of the prior art approach shown in FIG. 1 is the relatively long and complex HRTF. It is an operation cost. In the prior art, the HRTF length or complexity was reduced. Several techniques are used for this. The HRTF shown in FIG. 2a has a time delay component D, And an impulse response component g (t). That is, the imaging filter Is the time delay function Z, as shown in FIG.-DAnd the impulse response function g (t) Can be realized. First, multiple HRTFs can be timed out by removing this time delay. Alignment between them can complicate the calculation of the impulse response function of the imaging filter. Performance is reduced.   FIG. 3a shows a prior art arrangement, in which a plurality of pairs of raw (sunset) are shown. HRTF is applied to the time alignment processor 101 and its output terminal HRTF 102, and a time delay value 103 that is used later (not shown). Is output. Processor 101 calculates the cross-correlation of multiple pairs of raw HRTFs. Thus, the time difference between their arrival times is determined. These time differences are equal to the delay value 103 It is. The time delay value 103 and the filter interval are retained for later use, No psychoacoustic localization loss occurs and the perceptual effect is preserved. Time alignment H The RTF 102 is then processed by the minimum phase converter 104 for the remaining time delay. This is removed, further shortening the time alignment HRTF.   FIG. 3b shows two raw left sets obtained from raw HRTF parameters 100. -Shows examples of right paired HRTFs (R1 / L1 and R2 / L2). FIG. The corresponding time aligned HRTF 102 is shown. FIG. 3d corresponds to this. The output minimum phase HRTF 105 is shown. Time alignment of HRTF102 Loose response length is reduced from the raw HRTF 100 and the minimum phase The HRTF 105 is shortened from the time aligned HRTF 102. Thus, multiple Extract the delay to time align a number of HRTFs and apply a minimum phase transform. Reduces the complexity of the filter (its length in the case of FIR filters). It is.   Even with the techniques of FIG. 2b and FIG. Longest minimum phase response of about 256 points for FIR filter at the pulling rate Is commonly used, which means that the processor has an order of 25 mips per sound source. Request to execute the process.   If the resources for the operation are limited, the length of the HRTF, To further reduce reliability, two additional approaches in the prior art are simply Used alone or in combination. One technique, as shown in FIG. Method for reducing sampling rate by downsampling RTF It is. Many localization cues, especially those that are important for height, have high frequency content , The lower sampling rate makes the performance of audio representation unacceptable Degradation to the extent possible.   Another technique is shown in FIG. 4b, which uses a window function for the HRTF in the time domain. By multiplication or by using the corresponding weight function in the frequency domain. A method of applying a window function to an HRTF by convolving the RTF You. This process considers windowing the HRTF in the time domain. This is the easiest to understand. At this time, a shortened HRTF is obtained. Thus, a window width smaller than the HRTF is selected. Such a wi In the window processing, a result of frequency domain smoothing using a fixed weight function is obtained. This known windowing technique degrades the psychoacoustic localization properties, Degrades spatial location and orientation with complex and long impulse response You. Thus, maintaining the perceptual effects and psychoacoustic localization properties of the original HRTF However, there is a need for a method that reduces the complexity or length of the HRTF.                               Disclosure of the invention   According to the present invention, a three-dimensional virtual audio representation is composed of one set according to a spatial position signal. Is generated, and according to the set of head related transfer function parameters, To filter the audio signal. This set of head related transfer function parameters is It is a smoothing of the parameters for a number of known head related transfer functions.   The smoothing according to the present invention is best performed by considering its operation in the frequency domain. Can be explained well. The frequency components of several known transfer functions have a constant relationship with frequency. It is smoothed over multiple bandwidths, not numbers. Parameters of multiple transfer functions obtained The meter (referred to herein as the “compressed” transfer function) is a virtual audio representation Used to filter the audio signal for further processing. Compressed head-related transmission functions Numeric parameters can be pre-generated or created in real time. It may be. The smoothing band is the width of a plurality of critical bands of the ear (ie, “critical Bandwidth "). This function determines that the smoothing bandwidth is It can also be taken in proportion to the bandwidth. As is well known, the width of the critical band of the ear is Increases with increasing frequency, thus increasing the smoothing bandwidth with frequency I do.   The wider the smoothing bandwidth relative to the critical bandwidth, the higher the resulting HRT The complexity of F is reduced. For HRTFs implemented as FIR filters, The filter length (number of filter taps) is expressed as a multiple of the critical bandwidth Associated with the inverse of the smoothing bandwidth.   By applying the teachings of the present invention taking into account the critical bandwidth, the complexity And the same length, the prior art window technology described above Therefore, the perceptual effect and psychoacoustic local A shorter HRTF with lower complexity, such as less degradation of the product, is obtained.   HRTF ("raw HRTF") examples and traditional windowing methods Example of a shortened HRTF created by the method and HR created by the method of the present invention TF (“compressed HRTF”) is shown in FIG. 5a (time domain) and FIG. 5b (frequency domain) Is shown in Raw HRTF is a process that reduces its complexity or length 3 is an example of a known HRTF in which no HRTF has been performed. In FIG. 5a, the time of the HRTF The domain impulse response amplitude is plotted along the time axis from 0 to 3 ms. You. FIG. 5b shows that the frequency domain transfer function power of each HRTF is It is plotted along the logarithmic frequency axis up to kHz. In the time domain of FIG. Thus, the conventional HRTF has shown a certain degree of shortening, but the compressed HRTF has been further reduced. Has been shortened to In the frequency domain of FIG. The effect of a uniform smoothing bandwidth is evident, while compressed HRTFs increase the frequency. This shows the effect that the smoothing bandwidth increases as the size increases. Figure 5b is a log frequency scale As such, the compressed HRTF exhibits a constant smoothing relative to the raw HRTF. Despite the difference in length in the time domain and the difference in frequency response in the frequency domain, Raw HRTF, prior art HRTF, and compressed HRTF have equivalent psychoacoustics Provide dynamic performance.   The amount of conventional windowing for raw HRTFs and the amount of compression according to the invention To provide substantially similar psychoacoustic performance to the raw HRTF If selected, the preliminary double blindfold listening test shows that prior art windowing H It is shown that compressed HRTF is preferred over RTF. Surprisingly, compression HRTFs are preferred over raw HRTFs. The reason is that the smoothing process The microstructure of the HRTF that has been removed by removal is unrelated to the location of the HRTF, This is considered to be because it is recognized as noise.   The invention can be implemented in at least two ways. In the first method, In the frequency domain, convolve the HRTF with a frequency-dependent weight function. By this, the HRTF is smoothed. This weight function is not invariant, Of the prior art time-domain window function in that it is a function that depends on Different from frequency domain version. Instead, a time-domain version of the frequency-dependent weight function is In the time domain, it may be applied to the HRTF impulse response. Second In the method of (1), the frequency axis of the HRTF is warped, that is, in the nonlinear frequency domain. This frequency warped HRTF is mapped in the time domain (transformed to the time domain). Multiplied by a conventional window function or in the frequency domain Convolved with the invariant frequency response of a conventional window function. Windowed The signal is then subjected to inverse frequency warping.   The invention can be implemented using any kind of imaging filter. This imaging filter can be an analog filter or a hybrid Including analog / digital filters, digital filters, etc. Is not limited. Such filters can be hardware, software, or hardware Hardware / software hybrid configuration (eg digital signal processing) Can be realized. Digitally or partially implemented digitally Sometimes FIR filters, IIR (infinite impulse response) filters, and high A brid FIR / IIR filter can be used. The invention also provides It can also be realized by a principal component filter architecture. Virtual audio expression Other aspects are analog, digital, hybrid analog / digital, hard Hardware, software, and hybrid hardware / software It can be realized using any combination including techniques, for example, digital signal processing.   When implemented with an FIR filter, the HRTF parameters are This is a filter tap that defines the parameters. For IIR filters, the HRTF parameter The meter may have poles and zeros or other characteristics that define its IIR filter. is there. In the case of a principal component filter, the HRTF parameter is a position-dependent weight. You.   In another aspect of the invention, each HRTF in a group of HRTFs is a member of the group. Fixed head related transfer functions common to all head related transfer functions and their respective head related The fixed head is separated into the variable head related transfer function associated with the continuous transfer function. The relevant transfer function and the combination of each variable head related transfer function are It is substantially equivalent to the head related transfer function of knowledge. The smoothing technique according to the present invention It may be applied to one or both of a constant HRTF and a variable HRTF, or Neither need be applied.                            BRIEF DESCRIPTION OF THE FIGURES   FIG. 1 is a functional block diagram of a conventional virtual audio expression configuration.   FIG. 2a is an example of an impulse response of the head related transfer function (HRTF).   FIG. 2b shows that the imaging filter has the HRTF time lag and impulse FIG. 4 is a functional block diagram shown to represent a response portion.   FIG. 3a illustrates one prior art feature that reduces the complexity or length of the HRTF. It is a block diagram.   FIG. 3b shows a set of left and right "raw" HRTF pairs.   FIG. 3c shows the set of HRTF pairs of FIG. 3b shortened in time alignment. You.   FIG. 3d shows that the set of HRTF pairs of FIG. Indicates a reduction.   FIG. 4a illustrates the HRTF impulse response by reducing the sampling rate. FIG. 9 is a functional block diagram showing a conventional technique for shortening an answer.   FIG. 4b shows the windowing of the HRTF impulse response in the time domain. Is a functional block showing a conventional technique for shortening the HRTF impulse response. FIG.   FIG. 5a shows a set of three waveforms in the time domain, the "raw" HRT F, an HRTF shortened by the prior art, and a HRTF in accordance with the teachings of the present invention. HRTF is shown in a reduced form.   FIG. 5b is a frequency domain representation of the set of HRTF waveforms of FIG. 5a.   FIG. 6a is a functional block diagram illustrating an embodiment for obtaining a compressed HRTF according to the present invention. is there.   FIG. 6b shows the frequency response of an example input HRTF.   FIG. 6c shows the impulse response of an example HRTF impulse response.   FIG. 6d shows the frequency response of the compressed output HRTF.   FIG. 6e shows the impulse response of the compressed output HRTF.   FIG. 7a shows another embodiment of obtaining a compressed HRTF according to the present invention.   FIG. 7b shows the impulse response of an example input HRTF impulse response.   FIG. 7c shows the frequency response of an example input HRTF.   FIG. 7d shows the frequency response of the input HRTF after frequency warping.   FIG. 7e shows the frequency response of the compressed output HRTF.   FIG. 7f shows the frequency response of the compressed output HRTF after inverse frequency warping. You.   FIG. 7g shows the impulse response of the compressed output HRTF after inverse frequency warping. ing.   FIG. 8 shows three views useful for understanding the operation of the embodiment of FIGS. 6a and 7a. The window family is shown.   FIG. 9 shows a case where the imaging filter is implemented as a principal component filter. It is a functional block diagram.   FIG. 10 is a functional block diagram showing another embodiment of the present invention.                            Embodiment of the Invention   FIG. 6a shows an embodiment for generating a compressed HRTF according to the present invention. This In the embodiment of the invention, the frequency response of the input HRTF is frequency dependent in the frequency domain. The input HRTF is smoothed by being convolved with the weight function. This Instead of the HRTF in the time domain, You may make it apply to an impulse response.   FIG. 7a illustrates another embodiment of generating a compressed HRTF according to the present invention. According to this embodiment, the frequency axis of the input HRTF is warped (distorted), and That is, the frequency warp HRTF is mapped to the nonlinear frequency domain, and , The invariant weight function (ie, the frequency of the conventional time-domain window function) Convolved with the frequency response of the domain version weight function). Then the inverse frequency warp Is applied to the smoothed signal. Instead, a frequency warp HRTF is used for the time domain. It may be converted to a range and multiplied by a conventional window function.   In FIG. 6a, an optional non-linear scaling function 51 is provided for the input H Applied to RTF50. Thereafter, a smoothing function 54 is applied to the HRTF 52. It is. If nonlinear scaling is applied to the input HRTF, then the inverse A scaling function 56 is applied to the smoothed HRTF 54. Output compressed HRTF Given as As described further below, non-linear scaling 51 and non- Linear inverse scaling 56 determines whether the smoothed average function is signal amplitude or signal power. If it is, and whether it is an arithmetic or geometric mean, or any other averaging function Or can be controlled.   The smoothing processor 54 convolves the HRTF with a frequency dependent weight function. This flat The smoothing processor may be implemented as a moving weighted arithmetic mean; Here, at least the smoothing bandwidth bfIs a function of frequency, optionally Window shape WfMay also be a function of frequency. The width of the weight function is To increase. The length of the weight function is preferably a multiple of the critical bandwidth, The shorter the HRTF impulse response length is, the larger the multiple value becomes.   HRTFs typically have low frequency components (up to about 300 Hz) and high frequency components. Lack of minutes (about 16 kHz or more). As short as possible (and therefore least complex) To provide HRTF, the HRTF frequency response must be below normal for the human audible range. It is desirable to extend to or beyond limits and limits. But, In these cases, the weight function in the extended low-frequency and high-frequency voice bands is The number range is the main non-extended part of the voice band where the content of the HRTF is typically contained Relative to the critical band of the ear, than a multiple of the critical bandwidth used through Should be wider.   Below about 500 Hz, the wavelength of the voice is large compared to the size of the head, The HRTF has a substantially flat spectrum. Therefore, from the multiple of the critical bandwidth described above, It is preferable to use a wide smoothing bandwidth. For high frequencies above about 16kHz Human hearing is poor, and most localized cues are Concentration below the critical high frequency, so that the average is greater than a multiple of the critical bandwidth described above. Preferably, a smoothing bandwidth is used. Therefore, the low frequency end and high frequency The weighted bandwidth at the wavenumber end is the bandwidth predicted by the equation described here. You may make it extend beyond. For example, in one specific embodiment of the invention, A constant smoothing band of about 250 Hz for frequencies below 1 kHz Width is used, and above 1 kHz, a 1/3 octave bandwidth is used. 1 The 3 octave bandwidth is an approximation of the critical bandwidth, 1/3 octave at 1 kHz. Turb bandwidth is about 250 Hz. Therefore, below 1 kHz, the smoothing band The width is wider than the critical bandwidth. In some cases, low frequencies (eg, 300-50 0 Hz) can be accurately determined using conventional HRTF measurement techniques. To supplement missing data, it may be extrapolated to DC.   To process all HRTFs belonging to one group, the same critical bandwidth multiple must be used. May have different critical bandwidth multiples Apply multiple weighting functions to each HRTF so that all HRTFs are comparable It may not be compressed. This is because the resulting multiple compressed HRTFs May be necessary to ensure that they have the same complexity and length (how many The raw HRTF is more complex and longer, depending on its spatial location. May require more or less compression). Instead, Reduce the amount of compression of the HRTF that represents a certain direction or spatial position compared to other HRTFs Comprehensive computational complexity while maintaining a better sense of overall spatial localization Some relief may be provided. HRTF compression is relative sound of HRTF It may vary as a function of psychological importance. For example, early reflections Because they arrive from different directions, they can be obtained using different HRTFs. Therefore, accurate spatialization is not as important as the direct audio path. Therefore, early reflections With an "over shortened" HRTF, it can be obtained without any perceptual effects.   Another method of implementing the smoothing 54 of FIG. 6a is that for each frequency f, Hθ(N) is the input HRTF 52 at the position θ,θ(F) is compressed HR TF54, n is the frequency, and N is 1/2 of the Nyquist frequency. Therefore, each Weight functions W defined respectively in sections from 0 to Nf, θ(N) family And the width of these weighting functions is a function of their center frequency f, Alternatively, a function of the HRTF position θ may be used as an option. The sum of each weight function is 1 (Equation 3). FIG. 8 shows the third of a family of weight functions having a Gaussian distribution shape. The two components are shown plotting the magnitude response against frequency. For simplicity Shows only three of the families of weight functions. The center window is , The center of which is frequency n0And the bandwidth bf = n0have. The weight function is Minute There is no need to have a cloth. For simplicity, the weight function for other shapes is rectangular May be used. Also, the weight function is paired with respect to its center frequency. It does not need to be a name.   Considering the nonlinear scaling function 51 and the inverse scaling function 56, FIG. a can be more generally characterized as: Where G is scaling 51 and G-1Is inverse scaling.   The smoothing 54 described so far is a calculation that depends on the statistics of the input HRTF transfer function. Although the arithmetic mean function is given, the rounded mean (trim mean) or median is May be better than average.   The human ear seems to be sensitive to the total filter power in the critical band Thus, the nonlinear scaling 51 of FIG. 6A is realized as a square operation, and the output inverse scaler is realized. Preferably, 56 is implemented as a square root operation. Some, such as minimal phase conversion It may be desirable to apply pre-processing or post-processing. Instead of this or 2 Nonlinear scaling in addition to multiply and inverse square root scaling When 51 is a logarithmic function and inverse scaling 57 is an exponential function, the smoothing 5 The arithmetic mean of 4 is the geometric mean. Such an average is considered important for height perception. Useful for preserving the resulting sky spectrum.   6b and 6c show one example of the frequency spectrum of the input HRTF and the input impulse response. Examples are shown in the frequency domain and the time domain, respectively. Figures 6d and 6e respectively Shows the compressed output HRTF 57 in the region of FIG. HRTF spectrum is smooth The degree to which the impulse response has been shortened It depends on a multiple of the critical bandwidth chosen for 54. Characteristics of compressed HRTF Also depends on the window shape described above and other factors.   Referring to FIG. In this embodiment, the frequency axis of the input HRTF is distorted. The constant bandwidth smoothing 125 acting on the shifted frequency spectrum is the smoothing 5 of FIG. 4 is converted by the frequency warping function 121 so as to be equal to 4. smooth The modified HRTF is processed in inverse warping 129 to obtain an output compressed HRTF. As in FIG. 6A, the non-linear scaling 51 and the inverse scaling 56 are arbitrarily input. You may make it apply to HRTF and output HRTF.   The frequency warping function 121 is obtained by combining with a constant bandwidth smoothing. 6a achieves the purpose of the frequency-dependent smoothing bandwidth of the embodiment. For example, the frequency In order to realize the critical band smoothing, the warping function mapped to the Bark scale May be used. Smoothing 125 assumes that the width of the weight function is constant with respect to frequency. Except for this point, as in the embodiment of FIG. It can also be implemented as a convolution of the weight function in the frequency domain. You can also. As in the case with respect to FIG. It may be desirable to apply processing and post-processing.   The order in which the frequency warping function 121 and the scaling function 51 are applied is: Can be reversed. Although these functions are not linear, the frequency warping 12 1 affects the frequency domain, scaling 51 only affects the value of the frequency bin So these functions can be interchanged. Therefore, the inverse scaling function 56 and the inverse word The ping function 129 can also be reversed.   As yet another alternative, the output HRTF is taken after block 125 and inverted. Scaling and dewarping can be performed on devices that receive their compressed HRTF parameters, It may be provided in a function.   7b and 7c show an example of the input response and frequency spectrum of the input HRTF Are respectively shown. FIG. 7d shows the frequency of the HRTF mapped on the Bark scale. The number spectrum is shown. FIG. 7 e shows the HRTF spectrum after smoothing 125. Is shown. After performing inverse frequency warping, the resulting compressed H The RTF has a spectrum as shown in FIG. 7f and an impulse response as shown in FIG. 7g. Have an answer. The resulting HRTF characteristics are similar to those of the embodiment of FIG. Are identical.   The imaging filter is also implemented as a principal component filter by the method shown in FIG. It can also be applied. The position signal 30 is functionally similar to block 11 of FIG. Applied to weight table and interpolation function 31. Provided by block 31 Parameters, interpolated weights, directional matrix, and principal component filter It is functionally equivalent to HRTF parameters for controlling the imaging filter. This The imaging filter 15 ′ of this embodiment includes a set of parallel fixed filters 34, That is, principal component filter, PC0~ PCNFilters the input signal 33 at The outputs are mixed by position dependent weighting to produce the desired imaging Approximate the filter. The accuracy of this approximation is consistent with the number of principal component filters used. To increase. To achieve a degree of approximation for a set of raw HRTFs, More computational resources than for those compressed by the embodiments of the present invention. Sources are needed in the form of additional principal component filters.   Another embodiment of the present invention is shown in the embodiment of FIG. 3D spatial position signal 70 is applied to the equalized HRTF parameter table and interpolation function 71, A set of interpolated equalized HRTFs according to the three-dimensional position identified by the signal 70 The parameter 72 is obtained. The input audio signal 73 is output from the equalization filter 74 and the The imaging filter 75 determined by the equalized HRTF parameters Applied. Instead, the equalization filter 74 replaces the imaging filter 75. It may be installed later. This filter 75 is one channel of the headphone 77. Provides a spatialized audio output suitable for application to a cell.   Multiple sets of equalized head related transfer function parameters in table 71 are One of the known head related transfer functions that is common to all head related transfer functions in the group Of the fixed head-related transfer functions and the known head-related transfer functions This fixed head is obtained in advance by dividing into a position-dependent head-related transfer function. The combination of the brain-related transfer function and each variable head-related transfer function is It is substantially equal to the head related transfer function of knowledge. The equalization filter 74 is thus 7 shows a fixed head related function common to all head related transfer functions in the file. This , The complexity of the HRTF and the imaging filter is reduced.   This equalization filter characteristic is designed to minimize the complexity of the imaging filter. Selected. This minimizes the size of the equalized HRTF table and complements the HRTF. Reduces computational resources for inter- and imaging filtering, and Reduce the memory resources for a simplified HRTF. FIR imaging In the case of filters, it is desirable to minimize the filter length.   Various optimization criteria can be used to find the desired equalization filter. The equalization filter may be such that it approximates the average HRTFM, so that The spectrum of the position-dependent portion becomes flat on average (and the time is shortened). etc The filter may represent a group of known transfer function diffuse field sound components. Equalization When the filter is configured as a weighted average of the HRTF, its weight Injuries should place more emphasis on longer and more complex HRTFs.   For the left and right channels (before or after the position variable HRTF Alternatively, different fixed equalization processes may be performed. It may be applied to a sound source signal (a monaural signal is separated into a left component and a right component) May be applied before as a single filter, or each of the left and right components May be applied as two filters). Predicted from human symmetry As such, the optimal left and right ear equalization filters are often nearly identical. Follow The source signal is filtered using a single equalization filter and its output May be applied to both position-dependent HRTF filters.   In accordance with the teachings of the present invention, an equalized HRTF parameter and a fixed equalized fill Smoothing or equalizing the HRTF parameters By smoothing both the data and the equalization filter parameters, can get.   Also, different filter structures are used for the equalizing filter and the imaging filter. The computation can be saved by using. For example, one of them As an IIR filter and the other as an FIR filter. You may. Since a fixed filter typically has a much smoother response, It is best to implement the filter as a low-order IIR filter. It is also easy to realize the equalization filter as an analog filter.   Any filter suitable for use in HRTF filters, including principal component methods Filtering technology is used to realize HRTF parameters for variable position dependent equalization. Can be used. For example, FIG. Principal component imaging filter 15 'of the type described in the ninth embodiment. May be used.

───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FR,GB,GR,IE,IT,LU,M C,NL,PT,SE),AU,CA,JP────────────────────────────────────────────────── ─── Continuation of front page    (81) Designated countries EP (AT, BE, CH, DE, DK, ES, FR, GB, GR, IE, IT, LU, M C, NL, PT, SE), AU, CA, JP

Claims (1)

【特許請求の範囲】 1.3次元仮想オーディオ表現方法であって、 空間位置または方向信号に応じた1組の伝達関数パラメータを生成し、 音声信号を前記1組の伝達関数パラメータに応じてフィルタリングし、 この際、複数のパラメータから選択されるかまたは補間することによって得ら れる前記1組の伝達関数パラメータは、 既知の伝達関数の周波数成分を、周波数に関して一定でない関数である帯域 幅にわたって平滑化し、 得られた圧縮伝達関数の伝達関数パラメータを記録する、 ことによって生成される、方法。 2.請求項1記載のオーディオ表現方法であって、前記帯域幅は臨界帯域幅の関 数である、方法。 3.請求項2記載のオーディオ表現方法であって、前記平滑化は、前記表現の音 声帯域の少なくとも一部における各周波数成分に対して、前記周波数成分を含む 帯域幅内において前記周波数成分に対して平均化関数を適用することを含む、方 法。 4.請求項3記載のオーディオ表現方法であって、 前記平均化関数は、前記周波数成分の振幅の関数である、方法。 5.請求項3記載のオーディオ表現方法であって、前記平均化関数は、前記周波 数成分のパワーの関数である。 6.請求項4または5記載のオーディオ表現方法であって、前記平均化関数は中 央値を決定する、方法。 7.請求項4または5記載のオーディオ表現方法であって、前記平均化関数は重 み付き算術平均を決定する、方法。 8.請求項4または5記載のオーディオ表現方法であって、前記平均化関数は重 み付き幾何平均を決定する、方法。 9.請求項4または5記載のオーディオ表現方法であって、前記平均化関数は丸 め平均を決定する、方法。 10.請求項2記載のオーディオ表現方法であって、前記重み関数は長方形形状 を有する、方法。 11.請求項1記載のオーディオ表現方法であって、前記帯域幅は臨界帯域幅に 比例する、方法。 12.請求項11記載のオーディオ表現方法であって、前記伝達関数パラメータ は、低周波数および高周波数において拡張されており、前記帯域幅は、前記低周 波数領域および高周波数領域において、臨界帯域幅に比例する帯域幅よりも広い、 方法。 13.請求項1記載のオーディオ表現方法であって、前記平滑化は、前記伝達関 数を周波数依存重み関数と畳み込むことを含み、前記周波数依存重み関数の幅は 臨界帯域幅の関数である、方法。 14.請求項13記載のオーディオ表現方法であって、前記重み関数は、臨界帯 域幅の1以上の倍数である帯域幅を有する、方法。 15.請求項14記載のオーディオ表現方法であって、前記伝達関数パラメータ は、低周波数および高周波数において拡張されており、前記帯域幅は、前記低周 波数領域および高周波領域において、臨界帯域幅に比例する帯域幅よりも広い、 方法。 16.請求項13記載のオーディオ表現方法であって、前記重み関数は、長方形 ウィンドウよりも高次の連続性を有する形状を有している、方法。 17.請求項1記載のオーディオ表現方法であって、周波数成分の平滑化は、周 波数領域において前記周波数成分を平滑化することを含む、方法。 18.請求項17記載のオーディオ表現方法であって、前記平滑化は、前記既知 の伝達関数H(f)を、次の関係に従って、周波数領域において重み関数Wf(i )と畳み込むことを含み、 ここで、少なくとも平滑化帯域幅bfは周波数の関数であり、また、任意に重み 関数形Wfも周波数の関数である。 19.請求項1記載のオーディオ表現方法であって、周波数成分の平滑化は、前 記既知の伝達関数に周波数ワーピング関数を適用し、周波数ワープされた伝達関 数を時間領域に変換し、前記周波数ワープされた伝達関数のインパルス応答を時 間領域ウィンドウ処理することを含む、方法。 20.請求項1記載のオーディオ表現方法であって、周波数成分の平滑化は、前 記既知の伝達関数に周波数ワーピング関数を適用し、周波数ワープされた伝達関 数を、一定の重み関数の周波数応答と周波数領域畳み込みを行うことを含む、方 法。 21.請求項19または20記載のオーディオ表現方法であって、前記周波数ワ ーピング関数は、前記伝達関数をバークスケールに写像する、方法。 22.請求項19または20記載のオーディオ表現方法であって、さらに、前記 乗算または前記畳み込みに先だって、前記既知の伝達関数に非線形スケーリング を適用し、ウィンドウ処理または畳み込みがなされた伝達関数に対して逆スケー リングを適用することを含む、方法。 23.請求項1記載のオーディオ表現方法であって、前記フィルタリングは、主 成分フィルタリングである、方法。 24.請求項1記載のオーディオ表現方法であって、前記伝達関数パラメータは 等化された伝達関数パラメータであり、前記フィルタリングは、固定等化フィル タリングと、前記等化された伝達関数パラメータに応じたフィルタリングとを含 む、方法。 25.請求項1記載のオーディオ表現方法であって、前記1組の伝達関数は、既 知の伝達関数の周波数成分を、異なる複数の帯域幅に渡って、前記伝達関数に関 連する前記空間位置または方向の関数として平滑化することによって得られる、 方法。 26.請求項1記載のオーディオ表現方法であって、前記1組の伝達関数は、既 知の伝達関数の周波数成分を、異なる複数の帯域幅に渡って、前記伝達関数の複 雑性の関数として平滑化することによって得られる、方法。 27.請求項1記載のオーディオ表現方法であって、前記1組の伝達関数は、既 知の伝達関数の周波数成分を、異なる複数の帯域幅に渡って、前記伝達関数に関 連する前記空間位置または方向の関数として、および、前記伝達関数の複雑性の 関数として平滑化することによって得られる、方法。 28.請求項26または27記載のオーディオ表現方法であって、前記帯域幅は、 伝達関数の複雑性の増大と共に増大する、方法。 29.請求項1または28記載のオーディオ表現方法であって、前記帯域幅は、 結果として得られる最も複雑な圧縮された伝達関数が所定の複雑性を超えないよ うに選択される、方法。 30.請求項1記載のオーディオ表現方法であって、前記1組の伝達関数は、既 知の伝達関数の周波数成分を、異なる複数の帯域幅に渡って、前記伝達関数の相 対的な音響心理学的重要性の関数として平滑化することによって得られる、方法。 31.請求項1記載のオーディオ表現方法であって、前記1組の伝達関数は、既 知の伝達関数の周波数成分を、異なる複数の帯域幅に渡って、前記伝達関数に関 連する前記空間位置または方向の関数として、および、前記伝達関数の相対的な 音響心理学的重要性の関数として平滑化することによって得られる、方法。 32.3次元仮想オーディオ表現方法であって、 空間位置または方向信号に応じた1組の等化伝達関数パラメータを生成し、 固定等化フィルタリングを用いて、また、前記1組の等化伝達関数パラメータ に応じて、音声信号をフィルタリングすることを含み、 ここで、前記固定等化フィルタリングの生成と、前記1組の等化伝達関数パラ メータが複数のパラメータから選択されるかまたは補間されることによって得ら れる際の複数のパラメータの生成とは、 1群の既知の伝達関数を、前記1群内のすべての伝達関数に共通する1つの 固定伝達関数と、前記既知の伝達関数のそれぞれに関連する可変伝達関数とに分 離し、この際、前記固定伝達関数と各可変伝達関数との組み合わせは、それぞれ の元の既知の伝達関数に実質的に等しくなるようにし、 前記固定等化フィルタリングを特徴付けるために前記固定伝達関数の前記パ ラメータを記録し、 得られた可変伝達関数の各伝達関数のパラメータを、前記等化伝達関数パ ラメータとして使用するために記録する、 ことによってなされる、方法。 33.請求項28記載のオーディオ表現方法であって、前記固定等化フィルタリ ングおよび前記1組の等化伝達関数パラメータの生成は、さらに、 前記可変伝達関数のそれぞれの周波数成分を、周波数に対して一定でない関 数である帯域幅に渡って平滑化すること、 を含む、方法。 34.請求項28記載のオーディオ表現方法であって、前記固定等化フィルタリ ングおよび前記1組の等化伝達関数パラメータの生成は、さらに、前記固定伝達 関数の周波数成分を、周波数に対して一定でない関数である帯域幅に渡って平滑 化すること、 を含む、方法。 35.請求項28記載のオーディオ表現方法であって、前記1群の既知の伝達関 数は、最低の複雑性の可変伝達関数が得られるように1つの固定伝達関数を選択 することによって、1つの固定伝達関数と複数の可変伝達関数とに分離される、 方法。 36.請求項28記載のオーディオ表現方法であって、前記1群の既知の伝達関 数は、前記1群の既知の伝達関数の拡散場音成分を表す1つの固定伝達関数を選 択することによって、1つの固定伝達関数と複数の可変伝達関数とに分離される、 方法。 37.請求項28記載のオーディオ表現方法であって、前記1群の既知の伝達関 数は、空間における特定の方向または複数方向の範囲を表す伝達関数である、方 法。 38.請求項28記載のオーディオ表現方法であって、さらに、前記固定伝達関 数の周波数成分を、周波数に対して一定でない関数である帯域幅に渡って平滑化 する追加のステップを含み、前記固定等化フィルタリングを特徴付けるための前 記固定伝達関数のパラメータを記録するステップは、得られた圧縮固定伝達関数 のパラメータを記録する、方法。 39.請求項28記載のオーディオ表現方法であって、空間位置または方向信号 に応じて生成される複数組の等化伝達関数パラメータが、主成分フィルタリング によって生成される、方法。 40.3次元仮想オーディオ表現装置であって、 空間位置または方向信号に応じた1組の伝達関数パラメータを生成する手段で あって、前記パラメータは、 既知の伝達関数の周波数成分を、周波数に関して一定でない関数である帯域 幅にわたって平滑化し、 得られた圧縮伝達関数の伝達関数パラメータを記録する、 ことによって得られる複数のパラメータから選択されるかまたは補間されること によって得られるようにした手段と、 音声信号を前記1組の伝達関数パラメータに応じてフィルタリングする手段と 、 を備える装置。 41.3次元仮想オーディオ表現装置であって、 空間位置または方向信号に応じた1組の等化伝達関数パラメータを生成する手 段であって、前記パラメータは、 1群の既知の伝達関数を、前記1群のすべての伝達関数に共通する1つの固 定伝達関数と、前記既知の伝達関数のそれぞれに関連する可変伝達関数とに分離 し、この際、前記固定伝達関数と各可変伝達関数との組み合わせは、それぞれの 元の既知の伝達関数に実質的に等しくなるようにし、 前記固定等化フィルタリングを特徴付けるために前記固定伝達関数の前記 パラメータを記録し、 得られた可変伝達関数のそれぞれの伝達関数のパラメータを、前記等化伝達 関数パラメータとして使用するために記録する、 ことによって得られる複数のパラメータから選択されるかまたは補間されるよう にした手段と、 固定等化フィルタリングを用い、また、前記1組の等化伝達関数パラメータに 応じて、音声信号をフィルタリングする手段と、 を備える装置。Claims 1. A method for expressing three-dimensional virtual audio, comprising generating a set of transfer function parameters according to a spatial position or direction signal, and filtering an audio signal according to the set of transfer function parameters. Wherein the set of transfer function parameters selected from a plurality of parameters or obtained by interpolation interpolates the frequency components of the known transfer function over a bandwidth that is a function that is not constant with respect to frequency. Recording the transfer function parameters of the obtained compression transfer function. 2. The method of claim 1, wherein the bandwidth is a function of a critical bandwidth. 3. 3. The audio representation method according to claim 2, wherein the smoothing averages each frequency component in at least a part of a speech band of the expression with respect to the frequency component within a bandwidth including the frequency component. A method comprising applying an activation function. 4. The audio representation method according to claim 3, wherein the averaging function is a function of the amplitude of the frequency component. 5. 4. The audio expression method according to claim 3, wherein the averaging function is a function of a power of the frequency component. 6. A method according to claim 4 or 5, wherein the averaging function determines a median. 7. A method according to claim 4 or 5, wherein the averaging function determines a weighted arithmetic mean. 8. The method of claim 4 or 5, wherein the averaging function determines a weighted geometric mean. 9. The method of claim 4 or 5, wherein the averaging function determines a rounded average. 10. 3. The method of claim 2, wherein the weight function has a rectangular shape. 11. The method of claim 1, wherein the bandwidth is proportional to a critical bandwidth. 12. 12. The method of claim 11, wherein the transfer function parameter is extended at low and high frequencies, and the bandwidth is proportional to a critical bandwidth in the low and high frequency regions. Wider than bandwidth, way. 13. The method of claim 1, wherein the smoothing comprises convolving the transfer function with a frequency-dependent weight function, wherein a width of the frequency-dependent weight function is a function of a critical bandwidth. 14. 14. The method of claim 13, wherein the weight function has a bandwidth that is one or more multiples of a critical bandwidth. 15. 15. The audio representation method according to claim 14, wherein the transfer function parameter is extended at low frequency and high frequency, and the bandwidth is proportional to a critical bandwidth in the low frequency region and the high frequency region. Wider than the width, the way. 16. 14. The method of claim 13, wherein the weight function has a shape with a higher degree of continuity than a rectangular window. 17. The method of claim 1, wherein smoothing the frequency components comprises smoothing the frequency components in a frequency domain. 18. An audio representation method according to claim 17, wherein the smoothing, the known transfer function H (f), according to the relation, said method comprising convolving a weight function W f (i) in the frequency domain, Here, at least the smoothing bandwidth b f is a function of frequency, and optionally, the weight function form W f is also a function of frequency. 19. 2. The method of claim 1, wherein the smoothing of the frequency components comprises applying a frequency warping function to the known transfer function, transforming the frequency warped transfer function into a time domain, and performing the frequency warped. A method comprising time domain windowing the impulse response of a transfer function. 20. 2. The audio representation method according to claim 1, wherein the smoothing of the frequency component is performed by applying a frequency warping function to the known transfer function, and converting the frequency-warped transfer function into a frequency response of a constant weight function and a frequency domain. A method, comprising performing convolution. 21. 21. The method of claim 19 or 20, wherein the frequency warping function maps the transfer function to a bark scale. 22. 21. The method of claim 19 or 20, further comprising applying non-linear scaling to the known transfer function prior to the multiplication or convolution, and inverse scaling the windowed or convolved transfer function. A method comprising applying 23. The method of claim 1, wherein the filtering is principal component filtering. 24. 2. The audio expression method according to claim 1, wherein the transfer function parameter is an equalized transfer function parameter, and the filtering includes fixed equalization filtering and filtering according to the equalized transfer function parameter. Including, methods. 25. 2. The audio representation method according to claim 1, wherein the set of transfer functions converts frequency components of a known transfer function over a plurality of different bandwidths into the spatial position or direction associated with the transfer function. The method obtained by smoothing as a function. 26. 2. The method of claim 1, wherein the set of transfer functions smoothes frequency components of a known transfer function over a plurality of different bandwidths as a function of the complexity of the transfer function. The method obtained by. 27. 2. The audio representation method according to claim 1, wherein the set of transfer functions converts frequency components of a known transfer function over a plurality of different bandwidths into the spatial position or direction associated with the transfer function. A method obtained by smoothing as a function and as a function of the complexity of the transfer function. 28. 28. The method of claim 26 or claim 27, wherein the bandwidth increases with an increase in transfer function complexity. 29. 29. The method of claim 1 or 28, wherein the bandwidth is selected such that the resulting most complex compressed transfer function does not exceed a predetermined complexity. 30. 2. The method of claim 1, wherein the set of transfer functions maps a frequency component of a known transfer function over a plurality of different bandwidths. A method obtained by smoothing as a function of gender. 31. 2. The audio representation method according to claim 1, wherein the set of transfer functions converts frequency components of a known transfer function over a plurality of different bandwidths into the spatial position or direction associated with the transfer function. A method obtained by smoothing as a function and as a function of the relative psychoacoustic importance of said transfer function. 32. A method for representing three-dimensional virtual audio, comprising: generating a set of equalization transfer function parameters according to a spatial position or direction signal, using fixed equalization filtering, and using the set of equalization transfer functions. Filtering the audio signal in response to a parameter, wherein the generation of the fixed equalization filtering and the set of equalization transfer function parameters are selected or interpolated from a plurality of parameters. The generation of a plurality of parameters at the time of obtaining includes associating a group of known transfer functions with one fixed transfer function common to all the transfer functions in the group and each of the known transfer functions. Separated into variable transfer functions, wherein the combination of the fixed transfer function and each variable transfer function is substantially equal to the respective original known transfer function. Recording the parameters of the fixed transfer function to characterize the fixed equalization filtering; and recording the parameters of each transfer function of the resulting variable transfer function for use as the equalization transfer function parameters. , The way it is done. 33. 29. The audio representation method according to claim 28, wherein the fixed equalization filtering and the generation of the set of equalization transfer function parameters further comprise: changing a frequency component of each of the variable transfer functions with respect to frequency. Smoothing over a bandwidth that is a function. 34. 29. The audio representation method according to claim 28, wherein the fixed equalization filtering and the generation of the set of equalization transfer function parameters further comprise: converting a frequency component of the fixed transfer function with a function that is not constant with respect to frequency. Smoothing over a bandwidth. 35. 29. The method of audio representation according to claim 28, wherein said group of known transfer functions is one fixed transfer function by selecting one fixed transfer function such that a variable transfer function of lowest complexity is obtained. The method is separated into a function and multiple variable transfer functions. 36. 29. The audio representation method according to claim 28, wherein the group of known transfer functions is selected by selecting one fixed transfer function representing a diffuse field sound component of the group of known transfer functions. A method that is separated into a fixed transfer function and a plurality of variable transfer functions. 37. 29. The method of claim 28, wherein the group of known transfer functions is a transfer function representing a range in a particular direction or directions in space. 38. 29. The method of claim 28, further comprising the step of smoothing frequency components of the fixed transfer function over a bandwidth that is a function that is not constant with respect to frequency, wherein the fixed equalization is performed. Recording the parameters of the fixed transfer function for characterizing the filtering, recording the parameters of the obtained compressed fixed transfer function. 39. 29. The audio representation method according to claim 28, wherein a plurality of sets of equalization transfer function parameters generated according to the spatial position or direction signal are generated by principal component filtering. 40. A three-dimensional virtual audio representation device, comprising: means for generating a set of transfer function parameters according to a spatial position or direction signal, wherein the parameters are: Recording the transfer function parameters of the obtained compression transfer function, smoothing over a bandwidth that is a function that is not a function of, wherein the means is obtained by being selected or interpolated from a plurality of parameters obtained. Means for filtering the audio signal according to said set of transfer function parameters. 41. A three-dimensional virtual audio representation device, which is means for generating a set of equalization transfer function parameters according to a spatial position or direction signal, wherein the parameters include: a group of known transfer functions; One fixed transfer function common to all the transfer functions in a group and a variable transfer function associated with each of the known transfer functions are separated, and a combination of the fixed transfer function and each variable transfer function is used. Record the parameters of the fixed transfer function to characterize the fixed equalization filtering, and to substantially equal each original known transfer function; and Is recorded for use as the equalization transfer function parameter, or is selected from a plurality of parameters obtained or supplemented. And means so as to be, using a fixed equalization filtering, also in response to said set of equalized transfer function parameters, apparatus comprising: means for filtering the audio signal.
JP7529647A 1994-05-11 1995-05-03 3D virtual audio representation using a reduced complexity imaging filter Pending JPH11503882A (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US24186794A 1994-05-11 1994-05-11
US08/241,867 1994-05-11
US08/303,705 US5659619A (en) 1994-05-11 1994-09-09 Three-dimensional virtual audio display employing reduced complexity imaging filters
US08/303,705 1994-09-09
PCT/US1995/004839 WO1995031881A1 (en) 1994-05-11 1995-05-03 Three-dimensional virtual audio display employing reduced complexity imaging filters

Publications (1)

Publication Number Publication Date
JPH11503882A true JPH11503882A (en) 1999-03-30

Family

ID=26934650

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7529647A Pending JPH11503882A (en) 1994-05-11 1995-05-03 3D virtual audio representation using a reduced complexity imaging filter

Country Status (5)

Country Link
EP (1) EP0760197B1 (en)
JP (1) JPH11503882A (en)
AU (1) AU703379B2 (en)
CA (1) CA2189126C (en)
WO (1) WO1995031881A1 (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1188994A (en) * 1997-09-04 1999-03-30 Matsushita Electric Ind Co Ltd Sound image presence device and sound image control method
JP2003111197A (en) * 2001-09-28 2003-04-11 Sony Corp Voice signal processing method and voice reproducing system
JP2007221445A (en) * 2006-02-16 2007-08-30 Sharp Corp Surround-sound system
JP2009524337A (en) * 2006-01-19 2009-06-25 エルジー エレクトロニクス インコーポレイティド Media signal processing method and apparatus
JP2009531906A (en) * 2006-03-28 2009-09-03 フランス テレコム A method for binaural synthesis taking into account spatial effects
JP2009542137A (en) * 2006-07-04 2009-11-26 ドルビー スウェーデン アクチボラゲット Filter compressor and method for producing a compressed subband filter impulse response
US8160258B2 (en) 2006-02-07 2012-04-17 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
KR20140132741A (en) * 2012-03-23 2014-11-18 돌비 레버러토리즈 라이쎈싱 코오포레이션 Method and system for head-related transfer function generation by linear mixing of head-related transfer functions
US8917874B2 (en) 2005-05-26 2014-12-23 Lg Electronics Inc. Method and apparatus for decoding an audio signal
US9595267B2 (en) 2005-05-26 2017-03-14 Lg Electronics Inc. Method and apparatus for decoding an audio signal

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1527197A (en) * 1996-01-04 1997-08-01 Virtual Listening Systems, Inc. Method and device for processing a multi-channel signal for use with a headphone
US6009179A (en) * 1997-01-24 1999-12-28 Sony Corporation Method and apparatus for electronically embedding directional cues in two channels of sound
US6307941B1 (en) 1997-07-15 2001-10-23 Desper Products, Inc. System and method for localization of virtual sound
US6067361A (en) * 1997-07-16 2000-05-23 Sony Corporation Method and apparatus for two channels of sound having directional cues
US6125115A (en) * 1998-02-12 2000-09-26 Qsound Labs, Inc. Teleconferencing method and apparatus with three-dimensional sound positioning
CA2325482C (en) * 1998-03-25 2009-12-15 Lake Technology Limited Audio signal processing method and apparatus
AUPP271598A0 (en) * 1998-03-31 1998-04-23 Lake Dsp Pty Limited Headtracked processing for headtracked playback of audio signals
AU6400699A (en) * 1998-09-25 2000-04-17 Creative Technology Ltd Method and apparatus for three-dimensional audio display
FI108504B (en) * 1999-04-30 2002-01-31 Nokia Corp Management of telecommunication system talk groups
GB2351213B (en) * 1999-05-29 2003-08-27 Central Research Lab Ltd A method of modifying one or more original head related transfer functions
JP4921470B2 (en) 2005-09-13 2012-04-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Method and apparatus for generating and processing parameters representing head related transfer functions
EP1999847B1 (en) * 2006-03-28 2012-11-14 Telefonaktiebolaget LM Ericsson (publ) Filter adaptive frequency resolution
US9263055B2 (en) 2013-04-10 2016-02-16 Google Inc. Systems and methods for three-dimensional audio CAPTCHA

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5105462A (en) * 1989-08-28 1992-04-14 Qsound Ltd. Sound imaging method and apparatus
US5440639A (en) * 1992-10-14 1995-08-08 Yamaha Corporation Sound localization control apparatus
US5404406A (en) * 1992-11-30 1995-04-04 Victor Company Of Japan, Ltd. Method for controlling localization of sound image
US5438623A (en) * 1993-10-04 1995-08-01 The United States Of America As Represented By The Administrator Of National Aeronautics And Space Administration Multi-channel spatialization system for audio signals

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1188994A (en) * 1997-09-04 1999-03-30 Matsushita Electric Ind Co Ltd Sound image presence device and sound image control method
JP2003111197A (en) * 2001-09-28 2003-04-11 Sony Corp Voice signal processing method and voice reproducing system
US9595267B2 (en) 2005-05-26 2017-03-14 Lg Electronics Inc. Method and apparatus for decoding an audio signal
US8917874B2 (en) 2005-05-26 2014-12-23 Lg Electronics Inc. Method and apparatus for decoding an audio signal
JP4814344B2 (en) * 2006-01-19 2011-11-16 エルジー エレクトロニクス インコーポレイティド Media signal processing method and apparatus
US8208641B2 (en) 2006-01-19 2012-06-26 Lg Electronics Inc. Method and apparatus for processing a media signal
JP2009524337A (en) * 2006-01-19 2009-06-25 エルジー エレクトロニクス インコーポレイティド Media signal processing method and apparatus
JP4814343B2 (en) * 2006-01-19 2011-11-16 エルジー エレクトロニクス インコーポレイティド Media signal processing method and apparatus
JP2009524336A (en) * 2006-01-19 2009-06-25 エルジー エレクトロニクス インコーポレイティド Media signal processing method and apparatus
US9626976B2 (en) 2006-02-07 2017-04-18 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
US8160258B2 (en) 2006-02-07 2012-04-17 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
JP2007221445A (en) * 2006-02-16 2007-08-30 Sharp Corp Surround-sound system
US8045718B2 (en) 2006-03-28 2011-10-25 France Telecom Method for binaural synthesis taking into account a room effect
JP2009531906A (en) * 2006-03-28 2009-09-03 フランス テレコム A method for binaural synthesis taking into account spatial effects
US8255212B2 (en) 2006-07-04 2012-08-28 Dolby International Ab Filter compressor and method for manufacturing compressed subband filter impulse responses
JP4704499B2 (en) * 2006-07-04 2011-06-15 ドルビー インターナショナル アクチボラゲット Filter compressor and method for producing a compressed subband filter impulse response
JP2009542137A (en) * 2006-07-04 2009-11-26 ドルビー スウェーデン アクチボラゲット Filter compressor and method for producing a compressed subband filter impulse response
KR20140132741A (en) * 2012-03-23 2014-11-18 돌비 레버러토리즈 라이쎈싱 코오포레이션 Method and system for head-related transfer function generation by linear mixing of head-related transfer functions
JP2015515185A (en) * 2012-03-23 2015-05-21 ドルビー ラボラトリーズ ライセンシング コーポレイション Method and system for generation of head related transfer functions by linear mixing of head related transfer functions
US9622006B2 (en) 2012-03-23 2017-04-11 Dolby Laboratories Licensing Corporation Method and system for head-related transfer function generation by linear mixing of head-related transfer functions

Also Published As

Publication number Publication date
CA2189126C (en) 2001-05-01
WO1995031881A1 (en) 1995-11-23
AU2460395A (en) 1995-12-05
EP0760197B1 (en) 2009-01-28
AU703379B2 (en) 1999-03-25
EP0760197A4 (en) 2004-08-11
CA2189126A1 (en) 1995-11-23
EP0760197A1 (en) 1997-03-05

Similar Documents

Publication Publication Date Title
JPH11503882A (en) 3D virtual audio representation using a reduced complexity imaging filter
US6072877A (en) Three-dimensional virtual audio display employing reduced complexity imaging filters
US9918179B2 (en) Methods and devices for reproducing surround audio signals
US5659619A (en) Three-dimensional virtual audio display employing reduced complexity imaging filters
JP5298199B2 (en) Binaural filters for monophonic and loudspeakers
US11611828B2 (en) Systems and methods for improving audio virtualization
KR20050026928A (en) Method of digital equalisation of a sound from loudspeakers in rooms and use of the method
CN102334348B (en) Converter and method for converting an audio signal
JPH09322299A (en) Sound image localization controller
KR100684029B1 (en) Method for generating harmonics using fourier transform and apparatus thereof, method for generating harmonics by down-sampling and apparatus thereof and method for enhancing sound and apparatus thereof
Liitola Headphone sound externalization
WO2014203496A1 (en) Audio signal processing apparatus and audio signal processing method
AU732016B2 (en) Three-dimensional virtual audio display employing reduced complexity imaging filters
CN112584300B (en) Audio upmixing method, device, electronic equipment and storage medium
JPH09327100A (en) Headphone reproducing device
Farina et al. Spatial equalisation of sound systems in cars by digital inverse filtering
JPH0937400A (en) Sound image localization controller
KR20060091966A (en) Synthesis method of spatial sound using head modeling