JP2004509544A

JP2004509544A - 耳に近接配置されるスピーカ用の音声信号処理方法

Info

Publication number: JP2004509544A
Application number: JP2002528241A
Authority: JP
Inventors: シボールド，アラステア
Original assignee: セントラル　リサーチ　ラボラトリーズ　リミティド
Priority date: 2000-09-19
Filing date: 2001-09-10
Publication date: 2004-03-25
Also published as: GB0022891D0; GB2384149A; GB0305716D0; WO2002025999A2; WO2002025999A3; GB2366975A; EP1319323A2

Abstract

使用時に耳に近接配置されるスピーカ用の音声信号処理方法であって、入力モノラル元信号から導出して、部屋の境界における反射または反響を含まず、かつ前記耳から離れた１以上の物体により散乱する前記元信号を表す１以上の信号を作り出し、導出された前記信号を前記入力信号を合成して、合成信号を形成し、形成された前記合成信号を前記スピーカに供給し、これによって聴取者が、前記入力モノラル元信号の音源は前記耳より離れて配置されていると知覚することを可能とするキューを提供することを備える音声信号処理方法。

Description

【０００１】
本発明は、耳に近接配置されるスピーカ用の音声信号処理方法に関するものである。特に、ヘッドホンを使用して聴取したときに、音源が聴取者の頭部の外部に生じていると感じるように音声信号を処理する、ヘッドホンの仮想化技術に関するものである（ただしこれに限定されるものではない）。
【０００２】
従来のステレオ音声の多くは、３次元音声キュー（ｓｏｕｎｄ−ｃｕｅ）の欠如のために、聴取者の頭部の内部に音源を生ずると感じるように音像（ｓｏｕｎｄ−ｉｍａｇｅ）を作っている。真に有効な外頭部（ｏｕｔ−ｏｆ−ｔｈｅ−ｈｅａｄ）外部音像を作るための適切かつ効果的な方法は、長い間多くのオーディオ研究者に求められ続けてきた目標であるが、現時点で開発されていない。
【０００３】
空間内の特定位置にある音源からの、いわゆる「頭部関連伝達関数（ＨＲＴＦ：Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）」を測定することによって、頭部および外耳によって引き起こされ到来音声波上に作用する、空間依存音響処理を電子的に合成することが可能となる。この処理は、音声録音に適用してヘッドホンにより聴取するとき、聴取者には録音音声が、ＨＲＴＦと関連する空間的位置に対応する空間中の位置にある音源から聞こえるような、聴覚的な錯覚を生み出す。しかしながら、この方法は無エコー的（ａｎｅｃｈｏｉｃ）、すなわち音声波の反射が存在しないものであり、無響室内における音声の聴取をエミュレートするものである。その結果生ずる効果は、音源の方向をかなりエミュレートすることができても、その距離を判断することができなくなることである。音源は頭部に非常に近接しているように思われる。
【０００４】
上記処理に人工の反響成分を付加すれば、外部音像を与える錯覚を若干改善することが可能であるが、その効果はまだ納得のいくものではない。これは、出願人らによるモノラル信号のための同時係属の特許出願ＧＢ０００９２８７．４に記載されるステレオ信号として知られている。
【０００５】
しかしながら、人工頭部（ａｒｔｉｆｉｃｉａｌ−ｈｅａｄ）録音の手段によって、より適切な外在化効果（ｅｘｔｅｒｎａｌｉｓａｔｉｏｎｅｆｆｅｃｔ）を、時おり立証できることは知られているが、その録音方法が合成に適したものではない。同様に、選択された室の反射特性全体のインパルス応答（通常４秒以上続く）を複製することにより、適切な外在化効果を生み出すための、いわゆる聴覚化（ａｕｒａｌｉｚａｔｉｏｎ）信号処理技術が種々知られている。しかしながら、これは、例えばポータブルステレオプレーヤなどに採用するには、現在の規格によっても非常に非現実的な大規模な信号処理労力を費やして実現されるものである。
【０００６】
本発明の目的は、ヘッドホン聴取者のための外部音像を生み出すための有効な方法を提供することであり、この方法は、（ａ）最小限かつ実行可能な信号処理を使用し、（ｂ）必要に応じて多くの異なる反響タイプと共に使用できるように、特定の部屋特性（ｒｏｏｍｃｈａｒａｃｔｅｒｉｓｔｉｃ）を持つ必要がないという意味において「中立的な（ｎｅｕｔｒａｌ）」ものとする。
【０００７】
本発明の第１態様によれば、請求項１〜７に特定される方法が提供される。本発明の第２態様によれば、請求項９〜１３に特定される装置が提供される。本発明の第３態様によれば、請求項８に特定される音声信号が提供される。
【０００８】
本発明は、添付する概念図を参照して（例示のみの方法により）、以下に記載される。
本発明は、別々の反射のシミュレーションではなくむしろ音声波の散乱の方が、ヘッドホン音像の外在化にとって本質的要素であるという、発明者らの観察に基づくものである。このような散乱の効果は、現在知られている３Ｄ信号処理アルゴリズムに、妥当かつ手頃な信号処理コストにおいて採用されている。また、散乱の効果は、改善された反響効果を提供する既知の反響アルゴリズムとともに使用することも可能である。
【０００９】
モノラル音源は、図１に示すように、頭部応答伝達関数（ＨＲＴＦ：Ｈｅａｄ−Ｒｅｓｐｏｎｓｅｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）を経由してディジタル的に処理して、その結果生じるステレオ信号対に自然な３Ｄ音声キューを含ませることが可能である。これら自然な音声キューは、我々が実生活の中で音声を聴くときに、頭および耳によって音響的に取り入れられるものであり、これらは両耳間強度差（ＩＡＤ：Ｉｎｔｅｒ−ａｕｒａｌＡｍｐｌｉｔｕｄｅＤｉｆｆｅｒｅｎｃｅ）と、両耳間時間差（ＩＴＤ：Ｉｎｔｅｒ−ａｕｒａｌＴｉｍｅＤｉｆｆｅｒｅｎｃｅ）と、外耳によるスペクトル整形（ｓｐｅｃｔｒａｌｓｈａｐｉｎｇ）とを含んでいる。このステレオ信号対が、例えばヘッドホンにより聴取者の適当な耳に効果的に取り入れられるとき、聴取者は、元音声が、信号処理に使用されるＨＲＴＦの空間位置に従う空間内の位置にあるように知覚する（スピーカによる再生の場合には、横断聴覚クロストーク取消（ｔｒａｎｓａｕｒａｌｃｒｏｓｓｔａｌｋ−ｃａｎｃｅｌｌａｔｉｏｎ）が必要になるが、その話はここには関係しない）。各ＨＲＴＦは、（ａ）左耳伝達関数、（ｂ）右耳伝達関数、および（ｃ）両耳間時間遅延の３つの成分を備える（図１）。および各ＨＲＴＦは、聴取者に関して３次元空間内の特定の方向に特有のものである。便利かつ、より記述的であるため、時おり左右の耳関数のことを音源の相対位置によって「近位耳」および「遠位耳」関数と呼ぶこととする。
【００１０】
通常は、２つの２５タップ（ｔａｐ）ＦＩＲフィルタ（１つは近位耳フィルタ用であり、もう１つは遠位耳フィルタ用である）が、０〜６５０μ秒の範囲の適切なＩＴＤ時間遅延成分とともに使用され、従来のサンプルレートである２２．０５ｋＨｚまたは４４．１ｋＨｚにおいてＨＲＴＦフィルタを実現するために効果的な信号処理手段を提供する。
【００１１】
高品質ＨＲＴＦソースデータを使用して、ＨＲＴＦ処理（、およびスピーカ使用時は横断聴覚クロストーク取消処理）が正しく実行されると、その効果は非常に顕著なものとなる。例えば、音源の像（ｉｍａｇｅ）を聴取者の周囲の完全な水平円内で動かす、すなわち、聴取者の前から聴取者の左側を回って聴取者の後ろまで動かし、聴取者の左側を反対に回って再び聴取者の前まで動かすことができる。また例えば、音源を聴取者の周囲の垂直円内で動かし、実際に、その音声が空間中の任意に選択された位置から聞こえるようにすることができる。しかし、ヘッドホンを使用しているときは、いつも音源が頭部の非常に近くの位置かあるか、すぐ外の位置にあるように感じられ、その距離を判断することは非常に困難である。これはすなわち、その合成が無エコー性のもので全ての音声反射が欠けており、先行技術の教示にあるように、この音声反射が我々が音源との距離を判断する際に役立っているからである。
【００１２】
外頭部前方像（ｏｕｔ−ｏｆ−ｔｈｅ−ｈｅａｄｆｏｒｗａｒｄｉｍａｇｅ）を作り出す際の問題を解決することを試みた先行技術の例は、耳翼の反射を表すための、約１０ｋＨｚのスペクトルノッチ（ｓｐｅｃｔｒａｌｎｏｔｃｈ）を包含することが前方像を作り出すことを記載した米国特許４，１３６，２６０号である。しかしこれは実際にはうまく作用しない。
【００１３】
音声信号は、元の音声に反響信号を付加することにより、より「遠くに」聞こえるようにすることができることが、一般に知られている。例えば、エレクトリックキーボード、ギターおよび他の楽器にサウンドエフェクトを付加するコンシューマ製品として、音楽プロセッサが利用可能であり、反響機能が含まれているのが一般的である。
【００１４】
図２は、電気的遅延回線およびフィードバックの手段によって反響信号を作り出す既知の方法を示す。ここに遅延回線は音声波が特定の大きさの部屋を横断するのにかかる時間に対応し、フィードバック手段は、反射に関する吸収ロスに加えて、その追加された行程距離によって生じた音声波の減衰量に対応する減衰器を組み込んでいる。図２の上列は、聴取者および音源が入っている部屋の上面図を示す。これらの最も左の図は、直接音声経路ｒ、および聴取者の左側の壁からの１次反射（ａ＋ｂ）を示す。したがって、（音源から発してｒｍｓ後の）聴取者への直接音声の到着に続いて、反射波が聴取者に到着するために要する付加時間は、（ａ＋ｂ−ｒ）に相当すると予想されうる。図２の上列中央は、さらに進んで２次反射を作るこの音声波を示す。検討により、音声波が進む付加経路距離は、約１つの部屋の幅となることが予想されうる。第３に前記列の右図は、伝搬を続けて３次反射を作る波を示す。そしてここに検討により、波は、（２次反射のときと比べて）さらに約１つ分の部屋の幅だけ余計に進むことが予想されうる。
【００１５】
図２の最も下の図は、上記に類似した、反響信号を作り出すための簡単な信号処理手段のブロック図を示す。入力信号は、（直接音声と第１反射との間の到着時間差に対応する）第１の時間遅延（ａ＋ｂ−ｒ）と、より長い経路長および吸収ロスにより生じる１次反射の信号減衰に対応する減衰器Ｐとを通過する。この信号は合計出力ノード（図２）に供給される。ここにその信号は、この１つの反射、特に１次反射を表す。その信号はまた、部屋の幅に対応する他の時間遅延素子ｗ、および（音声波が進む追加距離および吸収ロスにより生じる）単位反射毎の信号減衰に対応する減衰器Ｑへも供給される。その結果生じる信号もまた、フィードバックされて、出力ノードに供給され、この後者の処理を再び生じさせる。ここに前記信号は、２次およびより高次の反射を表す。連続する遅延および減衰の反復により、信号は次第にゼロに減少してゆく。
【００１６】
図３に、この遅延回線に基づく反響方法の、聴取者が聴取するであろう結果を示す。最初に到着する信号は、単位振幅を有する直接音声（ｄｉｒｅｃｔｓｏｕｎｄ）であり、プリ遅延時間（ｐｒｅ−ｄｅｌａｙｔｉｍｅ）である（ａ＋ｂ−ｒ）経過後に、ファクタＰにより減衰された１次反射がこれに続く（”１”を付記する）。続いてさらにｗ時間経過した後に、さらにＱだけ減衰された（これにより全体の利得ファクタはＰ×Ｑとなる）２次反射が到着する。前記反復プロセスは無限に継続し、振幅を減衰させながら、シミュレートによる２、３、４、…（以下これ続く）回反射の連続した次数を作り出す。図２に基づく遅延回線処理ブロックをいくつか作ることにより、部屋の幅、高さ、長さにそれぞれ対応する異なる特性を有することができ、これによりもっと高度な反射シミュレーションを行うために、これらを相互リンク（ｃｒｏｓｓ−ｌｉｎｋ）することが可能となる。
【００１７】
このようにシミュレートされた音声反射および反響が、仮想化処理に加えられる場合（図４）、外在化効果を若干改善することが可能であるが、前述のような念入りな計算およびアプリケーションから期待されるものには、はるかに及ばない。このようなシミュレーションされた反射を含むステレオ方式の仮想化は、ＦＧ．Ｓ．ＫｅｎｄａｌｌとＷ．Ｌ．Ｍａｒｔｅｎｓによる”Ｐｒｏｃ．Ｉｎｔ．ＣｏｍｐｕｔｅｒＭｕｓｉｃＣｏｎｆ．１９８４，ｐｐ．１１１−１２５”に記載されており、ここには主にヘッドホン用として、１次および２次反射群とその結果生じる反響とともに、ＨＲＴＦによる直接音声（耳翼フィルタ）の空間配置を取り込んだ３次元音声プロセッサが、非常に詳細に記載されている（前記文献中の図８）。
【００１８】
他のもう一つの先行技術の例は、米国特許５，０３３，０８６号であり、ここでは、「ミラー音源（ｍｉｒｒｏｒｓｏｕｎｄｓｏｕｒｃｅ）からの１次反射」（すなわち、該特許文献の図１に示す壁面からの１次反射）が非常に重要であることが述べられおり、２７ｍｓおよび２２ｍｓの時間遅延値を持つシミュレートされた反射を使用することが提言されている。
【００１９】
１９９０年代始めに、日本企業のローランド（Ｒｏｌａｎｄ）が、「サウンドスペース（ＳｏｕｎｄＳｐａｃｅ）」という名の２つの音楽楽器信号プロセッサを、英国市場に持ち込んだことが知られている。この信号プロセッサには、３Ｄ配置された（３Ｄ−ｐｏｓｉｔｉｏｎｅｄ）反響および（少なくとも１つの）シミュレーションされたグラウンド反射（ｇｒｏｕｎｄ−ｒｅｆｌｅｃｔｉｏｎ）とともに、バイノーラル配置が使用されている。スピーカ再生用に横断聴覚クロストーク取消オプションも取り込まれている。
【００２０】
ＨＲＴＦと反響によるステレオヘッドホンの使用例は、１以上の音源を仮想化するためのバイノーラル（両耳性）システムについて記載する米国特許５，３７１，７９９号である。信号は概念的に、直接波部分と初期反射部分と反響部分に分割されて、前者２つがバイノーラルＨＲＴＦにより処理されて、後者はまったくＨＲＴＦ処理されない。「反響部分は、何の音源位置情報もなく処理されて、出力はフェードアウトするように指数減衰器によって減衰される。」
【００２１】
国際公開第９７／２５８３４号パンフレットは、ヘッドホンにより設けられる、多チャンネルサラウンド音声スピーカのシミュレーションのためのシステムを記載する。ここでは、室内反射（ｒｏｏｍｒｅｆｌｅｃｔｉｏｎ）を表す信号を包含するように、個々のモノラルチャンネルを処理する。そして、これらをバイノーラル対とするために、ＨＲＴＦを使用してフィルタリングする。さらに、全てのチャネルから反響信号を作りだし、これらを何もＨＴＲＦ処理しないで最終出力段に直接加える。これにより最終出力は、ＨＲＴＦ処理音声と、非ＨＲＴＦ処理音声とが混合されたものとなる。
【００２２】
しかしながら、反響パラメータを調整するための多大な注意を払った場合でさえ、（８個の独立した仮想反響音源と、正確にシミュレーションされた６個の１次反射とを特徴とする）非常に複雑な反響エンジンを使用しても、真に納得できる外在化効果を達成することが難しいことが分かっている。
【００２３】
部屋または閉鎖された空間の、連続して往復する音声波の反射により生ずる反響特性は、インパルス方法を使用して測定でき、これらの特性を混合して、音声ストリーム（ａｕｄｉｏｓｔｒｅａｍ）へと再現すること（聴覚化（ａｕｒａｌｉｓａｔｉｏｎ））ができることが知られている。基本的には、これにより特定の部屋についての図３に示されるようなデータが記録される。このデータは、時間関数として種々の直接波および反射波の波面すべての到着により引き起こされるものであり、音源からインパルスを作り出し、その結果他の場所で生じる時間的に変化する外乱を測定することにより記録される。
【００２４】
しかしながら、これには非常に多くのコンピュータ資源を必要とする。なぜなら反響効果が数秒間持続しうるからである。例えばある部屋が４秒の反響時間を有していたとする（大きい録音スタジオにおける通常値である）。すると従来のＣＤサンプルレートである４４．１ｋＨｚでは、録音されるべきサンプル数が４×４４，１１０＝１７６，４００個となる。通常のＨＲＴＦは２×２５タップのフィルタ（合計で５０サンプル数）を要することを考えると、この４秒の部屋での合成には、１回のＨＲＴＦ合成の３，５２８倍の計算労力を要することになる。これは現在のＤＳＰ技術を使用した場合に現実的ではない。さらに部屋のシミュレーションは、測定が行われた１の特定の部屋のエミュレーションを行うことができるだけである。また、３Ｄ仮想化を行う場合であるバイノーラルシステムにおいては、この２倍の処理量が必要となる。
【００２５】
設計段階において仮想の部屋のインパルス応答をモデリングすれば、その部屋で聴取されるであろう音声合成を、その部屋が建設される前に設計者が聴くことが可能となる。これは一般に「聴覚化（ａｕｒａｌｉｓａｔｉｏｎ）」呼ばれ、コンサートホールや劇場の設計において適用されうる（誤差を伴うことがあるにしても）。
【００２６】
この方法は、非常に複雑な反響シミュレーションにより、適切な外部音像を作り出すことで知られる。しかしながら、要求されるのは、最小限の（実行可能な）信号処理能力を使用し、異なる反響タイプにおいても使用しうる、ヘッドホンにより外頭部音像を効果的に作り出す方法である。
【００２７】
現段階において、下記の通り典型的な室内の音声反射の特性を定義および定量化することが有用である。レイトレーシング手段によって室内の音声波の伝搬をモデル化することが、一般に行われている。この方法では、音声波が壁のような平面から反射したとき、そのプロセスは光学的反射と類似すると仮定する。すなわち反射角は、入射角と等しいとする。この方法は非常におおざっぱに状況を視覚化する方法であるが、広く採用されている。これはおそらく、（図２および３に）上述した、遅延回線を利用した反響モデリングとの相乗効果の都合が良いためと考えられる。
【００２８】
図５は、平面図に示す簡単な長方形の部屋に適用したレイトレーシング方法を示す。便宜上、聴取者が部屋の中央に位置しており、聴取者の右手前方の距離ｒ、方位角θに音源があるとする。部屋の幅はｗであり、長さはｌとする。図示するとおり、音源から生じた音声は、直接経路ｒを通って聴取者まで進み、右手側の壁を反射して聴取者へ進む音声の全体経路長はａ＋ｂである。壁から音源までの距離ａだけ、聴取者から後方に、壁をこえて反射経路を外挿すると対応する「仮想」音源の位置が定まる。音源から聴取者までの経路に１つしか反射がないので、これは「１次反射」と呼ばれる。各壁、天井および地面からの計６つの１次反射がある。
【００２９】
反射波の定量的な特性（垂直位置、相対距離および強度比（ｆｒａｃｔｉｏｎａｌｉｎｔｅｎｓｉｔｙ））を示す幾何学的な計算を、Ａｐｐｅｎｄｉｘ　Ａに示す。これにより１次仮想音源の位置を構成することが可能となるであろう。
【００３０】
本発明の背後にある論理的根拠と対応する定量的数値を説明するために、長さ約７ｍ（２０フィート）、幅約５ｍ（１５フィート）の中規模のリスニングルーム（ｌｉｓｔｅｎｉｎｇｒｏｏｍ）を基にして、実際の仮想化シミュレーションのための仮想音源を計算した。後述で、これを実際の測定と比較する。聴取者は（ｘ＝０；ｙ＝０）である中央に位置しており、音源はその左前に位置していると仮定する。聴取者と音源とはともに床から約１．２ｍ（約４フィート）の位置（すなわち着席時の耳の高さ）にあると仮定する（簡便のため、この段階ではモデルを２次元に限定しているが、本発明の実施のためには十分な２次元データで十分であることが分かるであろう。）。
【００３１】
図６は、音源ｓ、聴取者ｌおよび横方向の４つの仮想音源ｖ１〜４の計算された位置の相対位置を示す（Ａｐｐｅｎｄｉｘ　Ａを参照）。（天井の反射およびグラウンド反射の仮想音源は図示しない）。さらなる検討により、２次仮想音源も決定することができる。これら全てを図７に円として示す（１次仮想音源を「１」と記す）。図７には、聴取者を中心とする２つの破線による円が示されている。外側の円は半径約９．１ｍ（３０フィート）の円であり、時間にして約３０ｍｓに相当する。これはあるイベント（ｅｖｅｎｔ）の３０ｍｓ以内に聴取者が聴取する全ての音源を囲む領域を表しており、これについては後に説明する。内側の円は半径約６．１ｍ（２０フィート）の円である（時間にして２０ｍｓ）。理論的には、仮想音源は全て最初の音源と同時に自己の音声を発する。
【００３２】
１５個ある１次および２次の横方向音源のうち、ただ４個だけが音声イベントの後の初めの２０ｍｓ以内に存在し、１５個のうち１０個だけが音声イベントの後の初めの３０ｍｓ以内に存在していることに注目されたい。１次および２次反射の３分の１は、３０ｍｓの時間フレーム（ｔｉｍｅ−ｆｒａｍｅ）の外側に位置している（この点は重要であり、後述する。）。
【００３３】
７ｍ×５ｍの部屋における横方向の１次反射データを、下記の表１にまとめる。表面での反射係数を０．９とし、聴取者は部屋の幅方向の中央に、長さ方向には前面の壁面から３．７ｍ後方に位置していると仮定した。音源は、聴取者の方位角−３０°、距離２．２ｍに位置する（聴取者に関してｘ＝−１．１；ｙ＝１．９ｍの位置にある）。
【表１】

【００３４】
本発明は、室内の反射および反響について非常に広範囲なシミュレーションを使用したにも関わらず、先行技術に基づくヘッドホン聴取のための十分な外在化効果を作り出すことに失敗した後に着想したものである。なぜこれが不首尾に終わったかは明らかではなかった。この問題を解決し、前記シミュレーションの欠点を発見するために、一連の実験を行った。
【００３５】
前節に記載するように、発明者らは、シミュレーションのためのベンチマークとして、７ｍ×５ｍのリスニングルームを使用し、音源および聴取者の位置を前記の通りとした（聴取者は部屋の幅方向の中央に、長さ方向には前面の壁面から３．７ｍ後方に位置しており、音源は、聴取者の方位角−３０°、距離２．２ｍ（聴取者に関してｘ＝−１．１；ｙ＝１．９ｍの位置）に位置するとした）。この配置で、表１の反射データを算出する、Ａｐｐｅｎｄｉｘ　Ａによる計算に基づく信号処理手段を用いてシミュレートを行った。さらに、各々が４つの仮想反響音源を作り出す一対の反響エンジン（ｒｅｖｅｒｂｅｒａｔｉｏｎｅｎｇｉｎｅ）を連繋して使用した。このような労力にも関わらず、その結果は芳しくないものであった。反響を聞き取ることはできたが、それは納得のゆく程、音像の外在化に役立たなかった。
【００３６】
次に、上記配置にしたがって室内における生音声録音を行った。音源としては直径１０ｃｍの小さなスピーカを使用し、これを円柱チューブに取り付けた。そして録音装置に（Ｂ＆Ｋ　５９３０型）の人工ヘッド（ａｒｔｉｆｉｃｉａｌｈｅａｄ）を使用した。短い（４ｍｓ）単一サイクルのこぎり波インパルスによりスピーカを駆動し、人工ヘッドの出力をディジタル形式で録音した。録音された左右のチャネルの波形を図８に示す（上段が左チャネルである）。
【００３７】
近位耳録音（図９上段）とシミュレーション計算（図９下段）との、最初の２０ｍｓ間の比較が興味深い。（１）最初の４ｍｓにおける初めの２回の反射について、両者が非常によく一致しているが、（２）録音された波形は、（図８のノイズのない波形の漸近線から分かるように、バックグラウンドノイズがないにも関わらず、）それに続く反射をきれいに示していないことに注意されたい。
【００３８】
録音音声をヘッドホンを使用して聴取したとき、外在化が非常によく判定された。
録音音声の異なる部分の相対的重要度を確かめるために、ディジタル音声編集プログラム（ＳｙｎｔｒｉｌｌｉｕｍＳｏｆｔｗａｒｅ製ＣｏｏｌＥｄｉｔＰｒｏ）を使用して録音音声の異なる部分を選択的に聴取した。以下にその結果を示す。
１．０−５００ｍｓ　（録音音声全体）　最高に良い外在化
２．０−１００ｍｓ　（多少の反響を切り捨て）　最高に良い外在化
３．０−５０ｍｓ　（大部分の反響を切り捨て）　最高に良い外在化
４．０−３０ｍｓ　（全ての反響を切り捨て）　非常に良い外在化
５．０−２０ｍｓ　（深刻な切り捨て）　中程度の外在化
６．０−２０ｍｓ　（深刻な切り捨て）　外在化なし、反射は顫音（ｔｒｉｌｌ）
として聞こえる
７．０−３ｍｓ　（直接音声のみ）　全く外在化なし
【００３９】
この結果から、下記に示すようなやや意外な結論となった。
１．（可聴的な）反響全体を切り捨てても（０−３０ｍｓの範囲を聴取）、外在化が良い状態であることから、反響は、外在化において重要な役割を果たさないことが分かる。
２．最初の反射は、直接音声から分離して聴取され（０−１０ｍｓの範囲）、外在化がないことから、最初の反射は、外在化において重要な役割を果たさないことが分かる。個々の反射は顫音（ｔｒｉｌｌ）として聞こえることがある。
３．外在化に関する重要な期間は、直接音声が到達した後の約５−３０ｍｓである（また、初期反射の多くがこの期間の後に起こっている。）
【００４０】
この結論は、先行技術の考えていた、（ａ）室内反射シミュレーションは外在化に必要であること、（ｂ）複雑なレイトレーシングが正確な室内シミュレーションを与えること、（ｃ）十分な外在化は、反射および反響シミュレーションを使用することにより達成できること、と全く反対のものである。
【００４１】
残念ながら、まだこれは前記問題を解決しない。しかし、外在化のために必要な、欠けている事象についての他の手がかりがある。例えばテーブルおよび椅子、ならびに木の葉などの近くで、野外の音を聞くとき、その局所的な音源の位置の範囲を１〜１０ｍの範囲で推定することは非常に容易であるが、野原や砂浜のような「障害物のない」環境では、これが非常に難しくなる。同様に、人工ヘッド録音は、「散らかった（ｃｌｕｔｔｅｒｅｄ）」野外環境においてよい外在化をあたえる。もちろん野外では、室内反射または室内反響は生じない。
【００４２】
その結果、筆者は外在化に必要な重要な特色が、反射や反響ではなく、波の散乱にあることを認識するに至った。
広く利用されている、Ｊ．Ｂ．ＡｌｌｅｎおよびＤ．Ａ．Ｂｅｒｋｌｅｙにより記述された”イメージモデル（ｉｍａｇｅｍｏｄｅｌ）”、Ｊ．Ａｃｏｕｓｔ．Ｓｏｃ．Ａｍ、Ａｐｒｉｌ１９７９、６５、（４）、ｐｐ．９４３−９５０は、第１の部屋に隣接する室の中の多数の仮想音源の存在を提案するが、それは暗にその部屋が散乱物がないことを仮定したものであった。これが正確にシミュレーションされると、その結果は、ヘッドホンでの音像を正確に外在化せず、また自然な反響品質という点で納得させるものでもない。
【００４３】
しかし実際には、スピーカ、椅子および道具棚のような室内の特徴の存在はすべて、音源からの音声波を散乱させる。結果として、まず聴取者は（当然）直接音声を受け取るが、これにすぐ、散乱物による混乱した一連の自然な寄与分が続き、これは壁による第１の反射が聴取者に届くよりも前に届きさえする。この音声波散乱が５−３０ｍｓにおける支配的特色である。これに続いて、当然に散乱波それ自身が反射および反響プロセスに加わる。
この仮定を検証するため、筆者らは、無エコー性環境の制御シミュレーションとともに数学的に散乱シミュレーションを作り出した。
【００４４】
はじめに、無エコー性環境の制御シミュレーションを作り出した。まず、簡便のためにモデリングを２次元構成に制限する。非常に大きい２次元空気「平板」の有限要素モデルを構築し、その中央にある、前述の領域の大きさが５ｍ×７ｍのリスニングルームに注目する。このモデルは、図１０Ａに示すように、前記平板の中央である起点からｘ＝−１．５ｍ、ｙ＝２．５ｍの位置に位置されて単一インパルスを作り出す（理想的点音源である）音源と、前記起点を中央として０．２２ｍの間隔をあけて設けられた２つの検出器（耳の代わりとなる理想的な点マイクロホン）を特色とする。壁は事実上設けない。前記平板が非常に大きいため、発せられた音声波が境界に達する前に、この特定のシミュレーションが終了する。したがってシミュレーションは、事実上、無エコー性または自由音場におけるものとなる。インパルスは発信器内に作られ、受信器におけるシミュレーションされた波形は、時間関数として１秒間録音される。
【００４５】
その結果は、図１０Ｂに示す波形を検査すれば分かるように、完全に予想に従ったものであった。２つの間には、検出器に関する音源の３０°の方位角と整合性のとれた、約２００μｓの「到着時間」差があり、より遠くにある検出器における信号強度は、（さらに進んだ距離のために）わずかに小さい。ヘッドホンを使用して、波形を聴取したとき、無エコー性の録音と同様の性質をもって「カチッ」と聞こえ、その場合は音源はわずかに左側にあり、聴取者の頭部内部に置かれているように思われる。特定の３次元音声キューを欠いているこの対照実験には驚くべきではない。
【００４６】
次に、図１１に示すようにいくつかの散乱装置を盛り込むようにシミュレーションを修正する。聴取者に隣接する比較的単純な波散乱領域を作るために、７つの装置を使用する。これらは、現実には（３次元では）例えば反射する柱に類似する。これらのシミュレーションされた散乱装置は、おのおの約０．０９平方メートル（１平方フート）であり、聴取者の前方領域に規則正しい行列に配置されている。２つは側面に配置され、残りは、聴取者の前の１ｍおよび２ｍ前方に列をなして配置されており、横方向に２ｍの間隔を介している。このシミュレーションにおいても壁が存在していないことに注意する必要がある。
【００４７】
耳で聞き取りうる結果は、非常に驚くべきものとなった。図１２に示すように、波形は、外見上図８および９に示す生録音の特性と同様のように見えた。さらにヘッドホンでこれらを聴取したとき、良好な３Ｄ外在化特性を有していた。これは下記の理由により特筆すべきである。
３Ｄ信号処理アルゴリズムを何も使用しない。
２次元空気「平板」シミュレ−ションのみを作り出した。
ＨＲＴＦを何も使用しない。
２つのマイクロホン受信機の配置は、人工ヘッドとほとんど類似性を有しない。
【００４８】
現段階において、以下の結論がなされる。
１．波散乱効果は、ヘッドホンによる外部音像（「外在化」）の効果的な創出にとって極めて重要である。
２．波散乱効果の詳細な性質は、外在化にとって重要ではなく、２Ｄ散乱シミュレーションでも十分である。
３．波散乱効果は、非常に効果的なので、追加的なＨＲＴＦに基づく３Ｄ音声アルゴリズムが、外在化にとって重要ではない。
【００４９】
しかし明らかに、最良の外在化処理手段は、現実の状況に類似し、（ａ）直接音声のＨＲＴＦ配置とこれに続く（ｂ）波散乱効果とを備えると予測するのが妥当である。これは、室内効果および反響のない外在化を作り出し、よって自然な手法である。
【００５０】
しかし、もし、アリーナやホールのような特定の部屋または音響環境をシミュレーションすることが求められるのであれば、次に示すように、適切な反射および反響を信号処理アルゴリズムに追加することとしてもよい。
前述のシミュレーションを繰り返すことになるが、今回は、５ｍ×７ｍのリスニングルームをエミュレートするために４つの反射壁が盛り込まれる。その結果は完全に予期した通りとなった。
【００５１】
前回同様に、波形は、２つの間で約２００μｓの到着時間差を示し、より遠い検出器における信号強度は、僅かに小さくなった。ヘッドホンを使用して波形を聴取したとき、エコー性の録音と同様の特性を持って、聴取者の頭部の外側の左方のどこかに置かれている外在化された「カチッ」という音声が聞こえた。
【００５２】
これらのシミュレーションの全てにおいて、ＨＲＴＦ処理が何ら使用されていないため、いくらかでも真に正確な３Ｄ音像が作られれば驚くべきことであることに注意する必要がある。したがって、実験装置の簡単さという観点から、観測された外在化効果がそれほど功を奏したことは全く特筆すべきことである。
【００５３】
波散乱データは、時間関数としての１以上の空間上の点における音声波から生じる（ｗａｖｅ−ｂｏｎｅ）音響的エネルギーを示している。したがって、この関数は、音源から聴取者の鼓膜までの音響鎖（ａｃｏｕｓｔｉｃｃｈａｉｎ）内の、いずれかの点における測定または合成により取得することが可能である。例えば、この関数は、（ａ）自由音場内、（ｂ）頭部の近く、（ｃ）耳道（ｅａｒ−ｃａｎａｌ）の入口、または（ｄ）鼓膜の近くにおいて測定されうる。これらの例は、以下に示すように作り出すことができる別々の４つの散乱フィルタから、それぞれ４つの形態の散乱データを定めるために使用されうる。
【００５４】
散乱形態１：自由音場
このフィルタ形態には、頭部に関する全ての影響がなく、無エコー性環境である自由音場における局所的な散乱の効果を示す。
【００５５】
散乱形態２：頭部近く
この形態は、人工ヘッドの近傍で測定されたような、無エコー性環境である自由音場における局所的散乱の効果を表す。形態１と同様であるが、同相の後方反射波のために、低周波数における利得が増大する。
【００５６】
散乱形態３：統合された耳翼特性（Ｉｎｔｅｇｒａｌｐｉｎｎａｃｈａｒａｃｔｅｒｉｓｔｉｃｓ）
この形態は、耳道エミュレータのない人工ヘッドを使用して測定されたような、無エコー性環境である自由音場における局所的散乱の効果を表す。これは外耳（耳翼）の特性がデータに組み込まれたことを意味する。
【００５７】
散乱形態４：統合された耳翼および耳道特性（Ｉｎｔｅｇｒａｌｐｉｎｎａａｎｄｅａｒ−ｃａｎａｌｃｈａｒａｃｔｅｒｉｓｔｉｃｓ）
この形態は、統合された耳道エミュレータを有する人工ヘッドを使用して測定されたような、無エコー性環境である自由音場における局所的散乱の効果を表す。したがって、これは外耳および耳道の特性がデータに組み込まれたことを意味する。
【００５８】
実際には、形態１、２および３は、使用に際して非常に適切であり便利であろう。形態１には頭部に関する影響が全くなく、形態２には耳翼の影響がないのに対して、形態３は、ＨＲＴＦの関連する要素を全て取り込んでおり、その出力を関連する他のＨＲＴＦ処理音声に直接加えてもよい、
【００５９】
形態１は、耳から離れているスピーカによる再生システムに適している。ここで我々が主に関心を寄せているのは、ヘッドホンによる外在化であるが、本発明を、品質および効果を強化するために、先行技術の反響システムと共に使用することが可能な点に注意すべきである。
形態１および２も、ＨＲＴＦ処理前の音声処理を行うヘッドホン合成システムにおける使用に適している。形態３は、後に生じる前記２つの組合せのために、関連する追加のＨＲＴＦ処理と並列に音声処理を行うヘッドホン合成システム使用に適している。
【００６０】
３Ｄ音声を合成するためには、（音源から聴取者の鼓膜に至る）完全な音声鎖をシミュレーションする必要がある。波散乱成分をこのシミュレーション鎖にまとめるためには、そのデータは、鎖内でのそのデータの位置と整合がとれている必要がある。しかしながら、シミュレーション処理は、聴取者とスピーカまたはヘッドホンいずれか一方の聴取手段との両方を含み、後者のファクタは、使用するＨＲＴＦの形式に影響することに注意する必要がある。基本的に、その合成がヘッドホン聴取のためならば、ＨＲＴＦは、頭部および外耳のデータにのみ対応していればよい。（これは、これらデータが、耳道シミュレータが存在しない人工ヘッドにより計測されるか、もし耳道が存在していれば、その効果が補正されるべきであることを意味する。）
他方においては、その合成がスピーカ聴取のためであれば、聴取鎖（ｌｉｓｔｅｎｉｎｇｃｈａｉｎ）内に聴取者の有する外耳関数（ｏｕｔ−ｅａｒｆｕｎｃｔｉｏｎ）が存在することがあり、したがって合成の際に「標準化された」（ｎｏｒｍａｌｉｓｅｄ）ＨＲＴＦを使用する必要がある（「標準化された」ＨＲＴＦは、主要な一般の共鳴特性を欠いているものであり、２つのＨＲＴＦを選択してその比率を取ることにより作り出されるものである）。
【００６１】
したがって、ヘッドホン聴取のためには、形態１または形態２の散乱フィルタのいずれも、ＨＲＴＦ、またはＨＲＴＦ処理音声と並列の形態３の散乱フィルタを直列に必要とする。
【００６２】
実際には、形態３の散乱データを測定するのは便利ではない。なぜなら、各一測定について、無響音室における人工ヘッド録音とともに、特定の物理的散乱シナリオ（ｐｈｙｓｉｃａｌｓｃａｔｔｅｒｉｎｇｓｃｅｎａｒｉｏ）を必要とするからである。そして、このデータを生成することも簡単ではない。なぜなら、方向に依存する耳翼特性を有限要素モデルに取り込むのは複雑だからである。しかし、散乱効果と耳翼効果は連続的に発生するので、形態１または形態２の散乱フィルタをＨＲＴＦ（またはＨＲＴＦの耳翼関数（ｐｉｎｎａｆｕｎｃｔｉｏｎ）の一つ）に結び付け、形態３のデータを作り出すことは簡単である。しかし、この方法は、どの特定のＨＲＴＦを使用するべきかについての疑問を生ずる。直接音声は、きれいな単一ベクトルを有し、聴取者の頭部において明らかな空間的方向によって表すことができるのに対し、散乱波データは、多少混乱した全て異なる方向を有する多数の基本波の組合せを表している。つまり、散乱データに関してはっきりした空間的方向性がないため、どのＨＲＴＦを選択すればよいかが問題となる。
【００６３】
実際には、いわゆる「拡散場（ｄｉｆｆｕｓｅｄ−ｆｉｅｌｄ）」ＨＲＴＦを、散乱波音声を処理するために使用することが、妥当かつ実用的である。反響性の環境におけるホワイトノイズの人工ヘッド録音から、「平均値」または無方向性特定ＨＲＴＦを表すスペクトルデータを取得することが可能であった。これに変わる方法は、空間ライブラリ（ｓｐａｔｉａｌｌｉｂｒａｒｙ）の全体にある全てのＨＲＴＦから、左右の耳のスペクトル平均を計算することである。
端的には、拡散場ＨＲＴＦと共に形態１および形態２の散乱データを使用することにより、形態３拡散フィルタを十分に作り出すことができる。
【００６４】
合成鎖（ｓｙｎｔｈｅｓｉｓｃｈａｉｎ）における散乱波の形態の選択は、それが鎖内のどこに導入されるかに依存する。たとえば、散乱データが、聴取者の頭部に到達する前に自由音場で測定されたのであれば（形態１）、図１のように合成の間、３Ｄ音声合成鎖（３Ｄ−ｓｏｕｎｄｓｙｎｔｈｅｓｉｓｃｈａｉｎ）に対して関連する散乱フィルタを、図１３に示すように直接音声パスと並列、かつＨＲＴＦ処理の前に結合することが適切となりうる。この方法では、現実に従った合成を行い、ＨＲＴＦ処理された直接音声と、ＨＲＴＦ処理された散乱波を備える。
【００６５】
ある状況では、音声処理を節約することが可能である。例えば（図１１のように）散乱環境の大部分が前方にあり、方位角３０°にある仮想スピーカを、ヘッドホンにより作り出すことを所望すれば、散乱波は、直接音声と同じ方向から大部分入射するので、直接音声と散乱音声の両方を処理するために、同じＨＲＴＦを使用することができる。これは完全なエミュレーションではないが、十分なエミュレーションであり、より少ない処理能力しか使用しない。この節約アプローチは特に（５．１チャンネルシネマサラウンド音声のような）多チャンネルエミュレーションに有用である。
【００６６】
本発明は、下記に列記するように様々な方法に実現することが可能である。これら実現例の全てに共通な特徴は、波散乱効果を実現するための、（当業者に既知の有限要素応答（ｆｉｎｉｔｅ−ｅｌｅｍｅｎｔｒｅｓｐｏｎｓｅ）（ＦＩＲ）フィルタのような）フィルタの使用である。
基本的な波散乱フィルタは図１３上段に示すように実現される。入力信号が、（ａ）散乱フィルタおよび（ｂ）出力合計ノードの両方に供給され、合計ノードでは、入力信号自身（直接信号を表す）と、散乱成分とを合成する。したがって出力信号は、波散乱が施された成分が時間的に近接して続く、直接信号を含んでいる。
【００６７】
関連するフィルタ係数を計算しうる波散乱データは、測定により直接的に、または前述の数学的モデリングにより間接的に取得することができる。通常は、波散乱にとって重要な期間は、直接音声の到着後の０〜３５ｍｓの範囲にある（わずかな効果の低下が許容されるのであれば、この範囲は５〜２０ｍｓに縮小することができる）。さらに、我々は、損失なく散乱した音声のバンド幅を５ｋＨｚ（１１ｋＨｚのサンプリングレート）に、制限することができることを観測した。そして、２２．０５ｋＨｚまたは４４．１ｋＨｚのバンド幅の直接音声信号と共に使用できることを観測した。これは、１１ｋＨｚにおける５ｍｓ〜２５ｍｓの波散乱エミュレーションは、２０×１１タップ（２２０タップＦＩＲフィルタ）しか必要としないことを意味する。また、同時継続特許出願は、このような波散乱効果を合成するための非常に効果的な手段を説明している。
【００６８】
本発明の非常に簡単な実現例は、図１３上段に示した上述の基本的な波散乱フィルタである。これは、同時継続特許出願であるＧＢ０００９２８７．４（その内容は参照によりここに取り込まれる）に説明されるように、携帯電話技術に適用することが可能であり、反響エンジンの代わりに使用されて、ＨＲＴＦに基づかないモノラル音声の仮想化を提供する。
【００６９】
正確な測定手段またはモデリング手段により、散乱フィルタの左右の相補対（ｃｏｍｐｌｅｍｅｎｔａｒｙｐａｉｒ）を作り出すことができる。これらは仮想聴取者の左右の耳の位置における波散乱現象の測定から導き出され、かつ対応する。これらの位置に現れる散乱特性は概ね同じものであるが、派生する２つの相補フィルタは詳細な点において異なっている。仮想化配置（ｖｉｒｔｕｒａｌｉｓａｔｉｏｎａｒｒａｎｇｅｍｅｎｔ）に対称性が存在するとき、この低相関対（ｄｅｃｏｒｒｅｌａｔｅｄｐａｉｒ）は、外在化を作り出すのにさらに効果的である。例えばこれは、５．１チャンネル映画サラウンドシステムの中央チャンネルを仮想化するときである。
【００７０】
ＨＲＴＦに基づく仮想化へ本発明を組み込むために、２つの基本的な選択枝がある。第１に、図１３下段に示すように、１つの信号波散乱フィルタを、ＨＲＴＦ処理ブロックの入力ポートに直列に組み込むことができる。これは、次の相補対構成ほど効果的ではないが、処理負荷の点から経済的である。
【００７１】
上記選択枝より良い選択枝は、図１４に示すように、波散乱フィルタの相補対をＨＲＴＦ処理ブロックの出力ポートに直列に組み込むことである。これは信号処理負担がより大きいが、現実をより表現しているため、わずかに異なる散乱効果も各耳で知覚される。
【００７２】
上記開示を考慮することにより、本発明を図４に示すような先行技術の反響エンジンに組み込む種々の方法が存在することは、当業者にとって明らかであろう。波散乱フィルタ（ＷＳＦ：Ｗａｖｅ−Ｓｃａｔｔｅｒｉｎｇｆｉｌｔｅｒ）の相補対は、例えば図１５に示すように、聴取者の耳に伝達される前であり、かつ全ての個別信号（直接、反射および反響）が仮想化され結合された後の出力ストリームであって、組み込むことが可能である。
【００７３】
代替案は、入力ストリームに単一ＷＳＦを使用し、または各ＨＲＴＦの出力ポートにＷＳＦ対を使用するものである。後者の選択枝は信号処理の点で、コストがかかる。
ドルビー（商標）ディジタル５．１形式のように、ヘッドホン聴取のための多チャンネルサラウンドシステムを仮想化することが必要であれば、いくつもの選択枝が存在する。非常に簡単な方法では、相補対ＷＳＦ方法を使用する（図１４）。他の方法は、（図１３下段の）単一ＷＳＦを５つの各ＨＲＴＦの前に使用する。さらに良い方法では、図１５の構成に類似する方法によって単一のＷＳＦ相補対を、５つのＨＲＴＦの出力が合計された後の最終出力段に使用する。
我々は、同時継続特許出願ＧＢ０００９２８７．４において、携帯電話に適用されるモノラル音声仮想化の使用を説明した。本発明は、図１６に示すように、この出願において使用される反響ブロックの、直接的な代用となることが可能である。
【００７４】
前記記載された実施例は、パッド・オン・イヤ（ｐａｄ−ｏｎ−ｅａｒ）または耳覆いタイプの駆動装置の使用に関するものであるが、例えば耳道内に配置されるように採用されたユニットのような、他のタイプのスピーカを代わりに使用することができ、ノイズキャンセルシステムを特徴とするシステムを含んでいてもよい。
【００７５】
要約すれば、本システムは、以下の利点を有する、ヘッドホン聴取者のための音像の効果的な外在化を提供する。
（反射シミュレーションのような）追加の信号処理を何ら必要としない。
「自然」であり、（部屋／アリーナのような）いかなる所望の反響タイプによっても補足されることが可能である。
散乱アルゴリズムの大きさがその効果とトレードオフされるため種々のタイプのＤＳＰに適しており、フレキシブルである。
（例えば、携帯電話への適用のように）モノラル音声の仮想化と共に使用することが可能である。
〔付録　Ａ（Ａｐｐｅｎｄｉｘ　Ａ）〕
室内反射の計算
簡単な幾何学的計算により、仮想音源の方位角およびその距離を計算することが可能である。これを４つの壁、地面（グラウンド）および天井に対して行うことにより、そのデータを使用して室内反射をシミュレーションし、仮想化の寄与を評価することが可能となる。
以下の方程式では、部屋の幅（ｗ）、部屋の長さ（ｌ）、聴取者と音源の高さ（ｈ）、音源と聴取者の距離（ｒ）、音源の方位（θ）を使用し、聴取者が中心に位置していると仮定する。「仮想音源の相対距離」は、音源から聴取者までの直接経路と、（仮想音源から聴取者までの）間接経路とで異なる。最初の直接音声の到着時間と比較した個別の反射の聴取者への到着時間、（音声は、約２．９２ｍｓにつき１ｍ進む）を計算することが重要である。直接音声に対する反射の強度比を、逆二乗法則（（ｒ／仮想音源相対距離）^２）を使用して計算することが可能である。
Ａ１．近側面反射
【数１】

【数２】

【数３】

Ａ２．遠側面反射
【数４】

【数５】

【数６】

Ａ３．前方反射
【数７】

【数８】

【数９】

Ａ４．後方反射
【数１０】

【数１１】

【数１２】

Ａ５．グラウンド反射
【数１３】

【数１４】

【数１５】

【数１６】

Ａ６．床反射
（グラウンド反射と同様。しかし（ｈ）を（部屋の高さ−ｈ）に代え、かつ仰角として伏角を使用する。）
【図面の簡単な説明】
【図１】
従来の頭部応答伝達関数（ＨＲＴＦ：Ｈｅａｄ−Ｒｅｓｐｏｎｓｅｔｒａｎｓｆｅｒｆｕｎｃｔｉｏｎ）信号処理のブロック図である。
【図２】
反響信号を生み出す既知の方法を示す図である。
【図３】
図２の方法により生じる反響信号を示す図である。
【図４】
図１および２の信号処理を組合せた場合のブロック図である
【図５】
室内の音声伝達をモデリングするレイトレーシング方法を示す平面図である。
【図６】
図５のレイトレーシングモデリングのための、音源ｓ、聴取者ｌ、および計算による仮想音源の相対位置を示す図である。
【図７】
図５のレイトレーシングモデリングのための、音源ｓ、聴取者ｌ、および計算による仮想音源の相対位置を示す図である。
【図８】
図６および７にモデル化された室内における音声インパルスの生録音結果を示す図である。
【図９】
図８と同じ室内における音声インパルスの応答をモデリングした結果を示す図と、図８の生録音の対応部分である。
【図１０Ａ】
有限要素モデルにおいて用いる、非常に大きい２次元空気「平板」の平面図である。
【図１０Ｂ】
図１０Ａのモデルを使用する自由場シミュレーションの結果を示す図である。
【図１１】
多数の「仮想」本体からの散乱を含む図１０のモデルを示す図である。
【図１２】
図１１のモデルを使用したシミュレーション結果を示す図である。
【図１３】
本発明の第１実施例を示す図である。
【図１４】
本発明の第２実施例を示す図である。
【図１５】
本発明の第３実施例を示す図である。
【図１６】
本発明の第４実施例を示す図である。

Claims

使用時に耳に近接配置されるスピーカ用の音声信号処理方法であって、
ａ）入力モノラル元信号から導出して、部屋の境界における反射または反響を含まず、かつ前記耳から離れた１以上の物体により散乱する前記元信号を表す１以上の信号を作り出し、
ｂ）導出された前記信号を前記入力信号を合成して、合成信号を形成し、
ｃ）形成された前記合成信号を前記スピーカに供給し、これによって聴取者が、前記入力モノラル元信号の音源は前記耳より離れて配置されていると知覚することを可能とするキューを提供する、
ことを備える音声信号処理方法。
使用時に耳に近接配置されるスピーカ用の音声信号処理方法であって、
ａ）入力モノラル元信号から導出して、部屋の境界における反射または反響を含まず、かつ前記耳から離れた１以上の物体により散乱する前記元信号を表す１以上の信号を作り出し、
ｂ）導出された１以上の前記信号を前記入力信号と合成して、合成信号を形成し、
ｃ）耳応答伝達関数を使用して、前記合成信号のスペクトル特性を修正し、
ｄ）修正された前記合成信号を前記スピーカに供給し、これによって聴取者が、前記入力モノラル元信号の音源は前記耳より離れて配置されていると知覚することを可能とするキューを提供する、
ことを備える音声信号処理方法。
使用時に耳に近接配置される左右のスピーカ用の音声信号処理方法であって、
ａ）入力モノラル元信号から導出して、部屋の境界における反射または反響を含まず、かつ前記耳から離れた１以上の物体により散乱する前記元信号を表す１以上の信号を作り出し、
ｂ）導出された１以上の前記信号を前記入力信号と合成して、合成信号を形成し、
ｃ）頭部応答伝達関数を使用して、前記合成信号のスペクトル特性を修正し、修正された左右の合成信号を供給し、
ｄ）修正された前記左右の合成信号を各前記スピーカに供給し、これによって聴取者が、前記入力モノラル元信号の音源は前記耳より離れて配置されていると知覚することを可能とするキューを提供する、
ことを備える音声信号処理方法。
使用時に耳に近接配置される左右のスピーカ用の音声信号処理方法であって、
ａ）入力モノラル元信号に頭部関連伝達関数を適用して、左右の耳信号を提供し、
ｂ）前記左右の耳信号から導出して、部屋の境界における反射または反響を含まず、かつそれぞれの耳から離れた１以上の物体により散乱する前記元信号を表す、信号セット対をそれぞれ作り出し、
ｃ）それぞれの導出された前記信号セット対を前記左右の耳信号と合成し、左右の合成信号を形成し、
ｄ）修正された前記左右の合成信号を各前記スピーカに供給し、これによって聴取者が、前記入力モノラル元信号の音源は前記耳より離れて配置されていると知覚することを可能とするキューを提供する、
ことを備える音声信号処理方法。
前記導出された信号セット対は、４００Ｈｚより下の周波数において、少なくとも部分的に相互に低相関関係にある請求項４に記載の方法。
前記導出された信号または前記導出された信号セットを、多数のタップを有する有限インパルス応答フィルタを使用することにより作り出し、前記物体による音声散乱をエミュレートする請求項１〜５のいずれか一項に記載の方法。
部屋の境界効果および／または反響を含む請求項１〜６のいずれか一項に記載の方法。
請求項１〜７のいずれか一項に記載の方法により作り出される音声信号。
耳に近接して使用するために採用される１以上のスピーカを含む装置であって、請求項１〜８のいずれか一項に記載の方法を実行するための信号処理手段を含む装置。
移動電話または携帯電話を備える請求項９に記載の装置。
電子音楽楽器を備える請求項９に記載の装置。
反響生成器を備える請求項９に記載の装置。
信号処理のパラメータを選択する制御手段を含む請求項９〜１２のいずれか一項に記載の装置。