JP2004509544A - 耳に近接配置されるスピーカ用の音声信号処理方法 - Google Patents
耳に近接配置されるスピーカ用の音声信号処理方法 Download PDFInfo
- Publication number
- JP2004509544A JP2004509544A JP2002528241A JP2002528241A JP2004509544A JP 2004509544 A JP2004509544 A JP 2004509544A JP 2002528241 A JP2002528241 A JP 2002528241A JP 2002528241 A JP2002528241 A JP 2002528241A JP 2004509544 A JP2004509544 A JP 2004509544A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- ear
- listener
- signal processing
- signals
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S1/005—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
使用時に耳に近接配置されるスピーカ用の音声信号処理方法であって、入力モノラル元信号から導出して、部屋の境界における反射または反響を含まず、かつ前記耳から離れた1以上の物体により散乱する前記元信号を表す1以上の信号を作り出し、導出された前記信号を前記入力信号を合成して、合成信号を形成し、形成された前記合成信号を前記スピーカに供給し、これによって聴取者が、前記入力モノラル元信号の音源は前記耳より離れて配置されていると知覚することを可能とするキューを提供することを備える音声信号処理方法。
Description
【0001】
本発明は、耳に近接配置されるスピーカ用の音声信号処理方法に関するものである。特に、ヘッドホンを使用して聴取したときに、音源が聴取者の頭部の外部に生じていると感じるように音声信号を処理する、ヘッドホンの仮想化技術に関するものである(ただしこれに限定されるものではない)。
【0002】
従来のステレオ音声の多くは、3次元音声キュー(sound−cue)の欠如のために、聴取者の頭部の内部に音源を生ずると感じるように音像(sound−image)を作っている。真に有効な外頭部(out−of−the−head)外部音像を作るための適切かつ効果的な方法は、長い間多くのオーディオ研究者に求められ続けてきた目標であるが、現時点で開発されていない。
【0003】
空間内の特定位置にある音源からの、いわゆる「頭部関連伝達関数(HRTF:Head−Related Transfer Function)」を測定することによって、頭部および外耳によって引き起こされ到来音声波上に作用する、空間依存音響処理を電子的に合成することが可能となる。この処理は、音声録音に適用してヘッドホンにより聴取するとき、聴取者には録音音声が、HRTFと関連する空間的位置に対応する空間中の位置にある音源から聞こえるような、聴覚的な錯覚を生み出す。しかしながら、この方法は無エコー的(anechoic)、すなわち音声波の反射が存在しないものであり、無響室内における音声の聴取をエミュレートするものである。その結果生ずる効果は、音源の方向をかなりエミュレートすることができても、その距離を判断することができなくなることである。音源は頭部に非常に近接しているように思われる。
【0004】
上記処理に人工の反響成分を付加すれば、外部音像を与える錯覚を若干改善することが可能であるが、その効果はまだ納得のいくものではない。これは、出願人らによるモノラル信号のための同時係属の特許出願GB0009287.4に記載されるステレオ信号として知られている。
【0005】
しかしながら、人工頭部(artificial−head)録音の手段によって、より適切な外在化効果(externalisation effect)を、時おり立証できることは知られているが、その録音方法が合成に適したものではない。同様に、選択された室の反射特性全体のインパルス応答(通常4秒以上続く)を複製することにより、適切な外在化効果を生み出すための、いわゆる聴覚化(auralization)信号処理技術が種々知られている。しかしながら、これは、例えばポータブルステレオプレーヤなどに採用するには、現在の規格によっても非常に非現実的な大規模な信号処理労力を費やして実現されるものである。
【0006】
本発明の目的は、ヘッドホン聴取者のための外部音像を生み出すための有効な方法を提供することであり、この方法は、(a)最小限かつ実行可能な信号処理を使用し、(b)必要に応じて多くの異なる反響タイプと共に使用できるように、特定の部屋特性(room characteristic)を持つ必要がないという意味において「中立的な(neutral)」ものとする。
【0007】
本発明の第1態様によれば、請求項1〜7に特定される方法が提供される。本発明の第2態様によれば、請求項9〜13に特定される装置が提供される。本発明の第3態様によれば、請求項8に特定される音声信号が提供される。
【0008】
本発明は、添付する概念図を参照して(例示のみの方法により)、以下に記載される。
本発明は、別々の反射のシミュレーションではなくむしろ音声波の散乱の方が、ヘッドホン音像の外在化にとって本質的要素であるという、発明者らの観察に基づくものである。このような散乱の効果は、現在知られている3D信号処理アルゴリズムに、妥当かつ手頃な信号処理コストにおいて採用されている。また、散乱の効果は、改善された反響効果を提供する既知の反響アルゴリズムとともに使用することも可能である。
【0009】
モノラル音源は、図1に示すように、頭部応答伝達関数(HRTF:Head−Response transfer function)を経由してディジタル的に処理して、その結果生じるステレオ信号対に自然な3D音声キューを含ませることが可能である。これら自然な音声キューは、我々が実生活の中で音声を聴くときに、頭および耳によって音響的に取り入れられるものであり、これらは両耳間強度差(IAD:Inter−aural Amplitude Difference)と、両耳間時間差(ITD:Inter−aural Time Difference)と、外耳によるスペクトル整形(spectral shaping)とを含んでいる。このステレオ信号対が、例えばヘッドホンにより聴取者の適当な耳に効果的に取り入れられるとき、聴取者は、元音声が、信号処理に使用されるHRTFの空間位置に従う空間内の位置にあるように知覚する(スピーカによる再生の場合には、横断聴覚クロストーク取消(transaural crosstalk−cancellation)が必要になるが、その話はここには関係しない)。各HRTFは、(a)左耳伝達関数、(b)右耳伝達関数、および(c)両耳間時間遅延の3つの成分を備える(図1)。および各HRTFは、聴取者に関して3次元空間内の特定の方向に特有のものである。便利かつ、より記述的であるため、時おり左右の耳関数のことを音源の相対位置によって「近位耳」および「遠位耳」関数と呼ぶこととする。
【0010】
通常は、2つの25タップ(tap)FIRフィルタ(1つは近位耳フィルタ用であり、もう1つは遠位耳フィルタ用である)が、0〜650μ秒の範囲の適切なITD時間遅延成分とともに使用され、従来のサンプルレートである22.05kHzまたは44.1kHzにおいてHRTFフィルタを実現するために効果的な信号処理手段を提供する。
【0011】
高品質HRTFソースデータを使用して、HRTF処理(、およびスピーカ使用時は横断聴覚クロストーク取消処理)が正しく実行されると、その効果は非常に顕著なものとなる。例えば、音源の像(image)を聴取者の周囲の完全な水平円内で動かす、すなわち、聴取者の前から聴取者の左側を回って聴取者の後ろまで動かし、聴取者の左側を反対に回って再び聴取者の前まで動かすことができる。また例えば、音源を聴取者の周囲の垂直円内で動かし、実際に、その音声が空間中の任意に選択された位置から聞こえるようにすることができる。しかし、ヘッドホンを使用しているときは、いつも音源が頭部の非常に近くの位置かあるか、すぐ外の位置にあるように感じられ、その距離を判断することは非常に困難である。これはすなわち、その合成が無エコー性のもので全ての音声反射が欠けており、先行技術の教示にあるように、この音声反射が我々が音源との距離を判断する際に役立っているからである。
【0012】
外頭部前方像(out−of−the−head forward image)を作り出す際の問題を解決することを試みた先行技術の例は、耳翼の反射を表すための、約10kHzのスペクトルノッチ(spectral notch)を包含することが前方像を作り出すことを記載した米国特許4,136,260号である。しかしこれは実際にはうまく作用しない。
【0013】
音声信号は、元の音声に反響信号を付加することにより、より「遠くに」聞こえるようにすることができることが、一般に知られている。例えば、エレクトリックキーボード、ギターおよび他の楽器にサウンドエフェクトを付加するコンシューマ製品として、音楽プロセッサが利用可能であり、反響機能が含まれているのが一般的である。
【0014】
図2は、電気的遅延回線およびフィードバックの手段によって反響信号を作り出す既知の方法を示す。ここに遅延回線は音声波が特定の大きさの部屋を横断するのにかかる時間に対応し、フィードバック手段は、反射に関する吸収ロスに加えて、その追加された行程距離によって生じた音声波の減衰量に対応する減衰器を組み込んでいる。図2の上列は、聴取者および音源が入っている部屋の上面図を示す。これらの最も左の図は、直接音声経路r、および聴取者の左側の壁からの1次反射(a+b)を示す。したがって、(音源から発してrms後の)聴取者への直接音声の到着に続いて、反射波が聴取者に到着するために要する付加時間は、(a+b−r)に相当すると予想されうる。図2の上列中央は、さらに進んで2次反射を作るこの音声波を示す。検討により、音声波が進む付加経路距離は、約1つの部屋の幅となることが予想されうる。第3に前記列の右図は、伝搬を続けて3次反射を作る波を示す。そしてここに検討により、波は、(2次反射のときと比べて)さらに約1つ分の部屋の幅だけ余計に進むことが予想されうる。
【0015】
図2の最も下の図は、上記に類似した、反響信号を作り出すための簡単な信号処理手段のブロック図を示す。入力信号は、(直接音声と第1反射との間の到着時間差に対応する)第1の時間遅延(a+b−r)と、より長い経路長および吸収ロスにより生じる1次反射の信号減衰に対応する減衰器Pとを通過する。この信号は合計出力ノード(図2)に供給される。ここにその信号は、この1つの反射、特に1次反射を表す。その信号はまた、部屋の幅に対応する他の時間遅延素子w、および(音声波が進む追加距離および吸収ロスにより生じる)単位反射毎の信号減衰に対応する減衰器Qへも供給される。その結果生じる信号もまた、フィードバックされて、出力ノードに供給され、この後者の処理を再び生じさせる。ここに前記信号は、2次およびより高次の反射を表す。連続する遅延および減衰の反復により、信号は次第にゼロに減少してゆく。
【0016】
図3に、この遅延回線に基づく反響方法の、聴取者が聴取するであろう結果を示す。最初に到着する信号は、単位振幅を有する直接音声(direct sound)であり、プリ遅延時間(pre−delay time)である(a+b−r)経過後に、ファクタPにより減衰された1次反射がこれに続く(”1”を付記する)。続いてさらにw時間経過した後に、さらにQだけ減衰された(これにより全体の利得ファクタはP×Qとなる)2次反射が到着する。前記反復プロセスは無限に継続し、振幅を減衰させながら、シミュレートによる2、3、4、…(以下これ続く)回反射の連続した次数を作り出す。図2に基づく遅延回線処理ブロックをいくつか作ることにより、部屋の幅、高さ、長さにそれぞれ対応する異なる特性を有することができ、これによりもっと高度な反射シミュレーションを行うために、これらを相互リンク(cross−link)することが可能となる。
【0017】
このようにシミュレートされた音声反射および反響が、仮想化処理に加えられる場合(図4)、外在化効果を若干改善することが可能であるが、前述のような念入りな計算およびアプリケーションから期待されるものには、はるかに及ばない。このようなシミュレーションされた反射を含むステレオ方式の仮想化は、FG. S. KendallとW. L. Martensによる”Proc. Int. Computer Music Conf. 1984, pp.111−125”に記載されており、ここには主にヘッドホン用として、1次および2次反射群とその結果生じる反響とともに、HRTFによる直接音声(耳翼フィルタ)の空間配置を取り込んだ3次元音声プロセッサが、非常に詳細に記載されている(前記文献中の図8)。
【0018】
他のもう一つの先行技術の例は、米国特許5,033,086号であり、ここでは、「ミラー音源(mirror sound source)からの1次反射」(すなわち、該特許文献の図1に示す壁面からの1次反射)が非常に重要であることが述べられおり、27msおよび22msの時間遅延値を持つシミュレートされた反射を使用することが提言されている。
【0019】
1990年代始めに、日本企業のローランド(Roland)が、「サウンドスペース(SoundSpace)」という名の2つの音楽楽器信号プロセッサを、英国市場に持ち込んだことが知られている。この信号プロセッサには、3D配置された(3D−positioned)反響および(少なくとも1つの)シミュレーションされたグラウンド反射(ground−reflection)とともに、バイノーラル配置が使用されている。スピーカ再生用に横断聴覚クロストーク取消オプションも取り込まれている。
【0020】
HRTFと反響によるステレオヘッドホンの使用例は、1以上の音源を仮想化するためのバイノーラル(両耳性)システムについて記載する米国特許5,371,799号である。信号は概念的に、直接波部分と初期反射部分と反響部分に分割されて、前者2つがバイノーラルHRTFにより処理されて、後者はまったくHRTF処理されない。「反響部分は、何の音源位置情報もなく処理されて、出力はフェードアウトするように指数減衰器によって減衰される。」
【0021】
国際公開第97/25834号パンフレットは、ヘッドホンにより設けられる、多チャンネルサラウンド音声スピーカのシミュレーションのためのシステムを記載する。ここでは、室内反射(room reflection)を表す信号を包含するように、個々のモノラルチャンネルを処理する。そして、これらをバイノーラル対とするために、HRTFを使用してフィルタリングする。さらに、全てのチャネルから反響信号を作りだし、これらを何もHTRF処理しないで最終出力段に直接加える。これにより最終出力は、HRTF処理音声と、非HRTF処理音声とが混合されたものとなる。
【0022】
しかしながら、反響パラメータを調整するための多大な注意を払った場合でさえ、(8個の独立した仮想反響音源と、正確にシミュレーションされた6個の1次反射とを特徴とする)非常に複雑な反響エンジンを使用しても、真に納得できる外在化効果を達成することが難しいことが分かっている。
【0023】
部屋または閉鎖された空間の、連続して往復する音声波の反射により生ずる反響特性は、インパルス方法を使用して測定でき、これらの特性を混合して、音声ストリーム(audio stream)へと再現すること(聴覚化(auralisation))ができることが知られている。基本的には、これにより特定の部屋についての図3に示されるようなデータが記録される。このデータは、時間関数として種々の直接波および反射波の波面すべての到着により引き起こされるものであり、音源からインパルスを作り出し、その結果他の場所で生じる時間的に変化する外乱を測定することにより記録される。
【0024】
しかしながら、これには非常に多くのコンピュータ資源を必要とする。なぜなら反響効果が数秒間持続しうるからである。例えばある部屋が4秒の反響時間を有していたとする(大きい録音スタジオにおける通常値である)。すると従来のCDサンプルレートである44.1kHzでは、録音されるべきサンプル数が4×44,110=176,400個となる。通常のHRTFは2×25タップのフィルタ(合計で50サンプル数)を要することを考えると、この4秒の部屋での合成には、1回のHRTF合成の3,528倍の計算労力を要することになる。これは現在のDSP技術を使用した場合に現実的ではない。さらに部屋のシミュレーションは、測定が行われた1の特定の部屋のエミュレーションを行うことができるだけである。また、3D仮想化を行う場合であるバイノーラルシステムにおいては、この2倍の処理量が必要となる。
【0025】
設計段階において仮想の部屋のインパルス応答をモデリングすれば、その部屋で聴取されるであろう音声合成を、その部屋が建設される前に設計者が聴くことが可能となる。これは一般に「聴覚化(auralisation)」呼ばれ、コンサートホールや劇場の設計において適用されうる(誤差を伴うことがあるにしても)。
【0026】
この方法は、非常に複雑な反響シミュレーションにより、適切な外部音像を作り出すことで知られる。しかしながら、要求されるのは、最小限の(実行可能な)信号処理能力を使用し、異なる反響タイプにおいても使用しうる、ヘッドホンにより外頭部音像を効果的に作り出す方法である。
【0027】
現段階において、下記の通り典型的な室内の音声反射の特性を定義および定量化することが有用である。レイトレーシング手段によって室内の音声波の伝搬をモデル化することが、一般に行われている。この方法では、音声波が壁のような平面から反射したとき、そのプロセスは光学的反射と類似すると仮定する。すなわち反射角は、入射角と等しいとする。この方法は非常におおざっぱに状況を視覚化する方法であるが、広く採用されている。これはおそらく、(図2および3に)上述した、遅延回線を利用した反響モデリングとの相乗効果の都合が良いためと考えられる。
【0028】
図5は、平面図に示す簡単な長方形の部屋に適用したレイトレーシング方法を示す。便宜上、聴取者が部屋の中央に位置しており、聴取者の右手前方の距離r、方位角θに音源があるとする。部屋の幅はwであり、長さはlとする。図示するとおり、音源から生じた音声は、直接経路rを通って聴取者まで進み、右手側の壁を反射して聴取者へ進む音声の全体経路長はa+bである。壁から音源までの距離aだけ、聴取者から後方に、壁をこえて反射経路を外挿すると対応する「仮想」音源の位置が定まる。音源から聴取者までの経路に1つしか反射がないので、これは「1次反射」と呼ばれる。各壁、天井および地面からの計6つの1次反射がある。
【0029】
反射波の定量的な特性(垂直位置、相対距離および強度比(fractional intensity))を示す幾何学的な計算を、Appendix Aに示す。これにより1次仮想音源の位置を構成することが可能となるであろう。
【0030】
本発明の背後にある論理的根拠と対応する定量的数値を説明するために、長さ約7m(20フィート)、幅約5m(15フィート)の中規模のリスニングルーム(listening room)を基にして、実際の仮想化シミュレーションのための仮想音源を計算した。後述で、これを実際の測定と比較する。聴取者は(x=0;y=0)である中央に位置しており、音源はその左前に位置していると仮定する。聴取者と音源とはともに床から約1.2m(約4フィート)の位置(すなわち着席時の耳の高さ)にあると仮定する(簡便のため、この段階ではモデルを2次元に限定しているが、本発明の実施のためには十分な2次元データで十分であることが分かるであろう。)。
【0031】
図6は、音源s、聴取者lおよび横方向の4つの仮想音源v1〜4の計算された位置の相対位置を示す(Appendix Aを参照)。(天井の反射およびグラウンド反射の仮想音源は図示しない)。さらなる検討により、2次仮想音源も決定することができる。これら全てを図7に円として示す(1次仮想音源を「1」と記す)。図7には、聴取者を中心とする2つの破線による円が示されている。外側の円は半径約9.1m(30フィート)の円であり、時間にして約30msに相当する。これはあるイベント(event)の30ms以内に聴取者が聴取する全ての音源を囲む領域を表しており、これについては後に説明する。内側の円は半径約6.1m(20フィート)の円である(時間にして20ms)。理論的には、仮想音源は全て最初の音源と同時に自己の音声を発する。
【0032】
15個ある1次および2次の横方向音源のうち、ただ4個だけが音声イベントの後の初めの20ms以内に存在し、15個のうち10個だけが音声イベントの後の初めの30ms以内に存在していることに注目されたい。1次および2次反射の3分の1は、30msの時間フレーム(time−frame)の外側に位置している(この点は重要であり、後述する。)。
【0033】
7m×5mの部屋における横方向の1次反射データを、下記の表1にまとめる。表面での反射係数を0.9とし、聴取者は部屋の幅方向の中央に、長さ方向には前面の壁面から3.7m後方に位置していると仮定した。音源は、聴取者の方位角−30°、距離2.2mに位置する(聴取者に関してx=−1.1;y=1.9mの位置にある)。
【表1】
【0034】
本発明は、室内の反射および反響について非常に広範囲なシミュレーションを使用したにも関わらず、先行技術に基づくヘッドホン聴取のための十分な外在化効果を作り出すことに失敗した後に着想したものである。なぜこれが不首尾に終わったかは明らかではなかった。この問題を解決し、前記シミュレーションの欠点を発見するために、一連の実験を行った。
【0035】
前節に記載するように、発明者らは、シミュレーションのためのベンチマークとして、7m×5mのリスニングルームを使用し、音源および聴取者の位置を前記の通りとした(聴取者は部屋の幅方向の中央に、長さ方向には前面の壁面から3.7m後方に位置しており、音源は、聴取者の方位角−30°、距離2.2m(聴取者に関してx=−1.1;y=1.9mの位置)に位置するとした)。この配置で、表1の反射データを算出する、Appendix Aによる計算に基づく信号処理手段を用いてシミュレートを行った。さらに、各々が4つの仮想反響音源を作り出す一対の反響エンジン(reverberation engine)を連繋して使用した。このような労力にも関わらず、その結果は芳しくないものであった。反響を聞き取ることはできたが、それは納得のゆく程、音像の外在化に役立たなかった。
【0036】
次に、上記配置にしたがって室内における生音声録音を行った。音源としては直径10cmの小さなスピーカを使用し、これを円柱チューブに取り付けた。そして録音装置に(B&K 5930型)の人工ヘッド(artificial head)を使用した。短い(4ms)単一サイクルのこぎり波インパルスによりスピーカを駆動し、人工ヘッドの出力をディジタル形式で録音した。録音された左右のチャネルの波形を図8に示す(上段が左チャネルである)。
【0037】
近位耳録音(図9上段)とシミュレーション計算(図9下段)との、最初の20ms間の比較が興味深い。(1)最初の4msにおける初めの2回の反射について、両者が非常によく一致しているが、(2)録音された波形は、(図8のノイズのない波形の漸近線から分かるように、バックグラウンドノイズがないにも関わらず、)それに続く反射をきれいに示していないことに注意されたい。
【0038】
録音音声をヘッドホンを使用して聴取したとき、外在化が非常によく判定された。
録音音声の異なる部分の相対的重要度を確かめるために、ディジタル音声編集プログラム(Syntrillium Software製CoolEdit Pro)を使用して録音音声の異なる部分を選択的に聴取した。以下にその結果を示す。
1.0−500ms (録音音声全体) 最高に良い外在化
2.0−100ms (多少の反響を切り捨て) 最高に良い外在化
3.0−50ms (大部分の反響を切り捨て) 最高に良い外在化
4.0−30ms (全ての反響を切り捨て) 非常に良い外在化
5.0−20ms (深刻な切り捨て) 中程度の外在化
6.0−20ms (深刻な切り捨て) 外在化なし、反射は顫音(trill)
として聞こえる
7.0−3ms (直接音声のみ) 全く外在化なし
【0039】
この結果から、下記に示すようなやや意外な結論となった。
1.(可聴的な)反響全体を切り捨てても(0−30msの範囲を聴取)、外在化が良い状態であることから、反響は、外在化において重要な役割を果たさないことが分かる。
2.最初の反射は、直接音声から分離して聴取され(0−10msの範囲)、外在化がないことから、最初の反射は、外在化において重要な役割を果たさないことが分かる。個々の反射は顫音(trill)として聞こえることがある。
3.外在化に関する重要な期間は、直接音声が到達した後の約5−30msである(また、初期反射の多くがこの期間の後に起こっている。)
【0040】
この結論は、先行技術の考えていた、(a)室内反射シミュレーションは外在化に必要であること、(b)複雑なレイトレーシングが正確な室内シミュレーションを与えること、(c)十分な外在化は、反射および反響シミュレーションを使用することにより達成できること、と全く反対のものである。
【0041】
残念ながら、まだこれは前記問題を解決しない。しかし、外在化のために必要な、欠けている事象についての他の手がかりがある。例えばテーブルおよび椅子、ならびに木の葉などの近くで、野外の音を聞くとき、その局所的な音源の位置の範囲を1〜10mの範囲で推定することは非常に容易であるが、野原や砂浜のような「障害物のない」環境では、これが非常に難しくなる。同様に、人工ヘッド録音は、「散らかった(cluttered)」野外環境においてよい外在化をあたえる。もちろん野外では、室内反射または室内反響は生じない。
【0042】
その結果、筆者は外在化に必要な重要な特色が、反射や反響ではなく、波の散乱にあることを認識するに至った。
広く利用されている、J.B.AllenおよびD.A.Berkleyにより記述された”イメージモデル(image model)”、J.Acoust.Soc.Am、April 1979、65、(4)、pp.943−950は、第1の部屋に隣接する室の中の多数の仮想音源の存在を提案するが、それは暗にその部屋が散乱物がないことを仮定したものであった。これが正確にシミュレーションされると、その結果は、ヘッドホンでの音像を正確に外在化せず、また自然な反響品質という点で納得させるものでもない。
【0043】
しかし実際には、スピーカ、椅子および道具棚のような室内の特徴の存在はすべて、音源からの音声波を散乱させる。結果として、まず聴取者は(当然)直接音声を受け取るが、これにすぐ、散乱物による混乱した一連の自然な寄与分が続き、これは壁による第1の反射が聴取者に届くよりも前に届きさえする。この音声波散乱が5−30msにおける支配的特色である。これに続いて、当然に散乱波それ自身が反射および反響プロセスに加わる。
この仮定を検証するため、筆者らは、無エコー性環境の制御シミュレーションとともに数学的に散乱シミュレーションを作り出した。
【0044】
はじめに、無エコー性環境の制御シミュレーションを作り出した。まず、簡便のためにモデリングを2次元構成に制限する。非常に大きい2次元空気「平板」の有限要素モデルを構築し、その中央にある、前述の領域の大きさが5m×7mのリスニングルームに注目する。このモデルは、図10Aに示すように、前記平板の中央である起点からx=−1.5m、y=2.5mの位置に位置されて単一インパルスを作り出す(理想的点音源である)音源と、前記起点を中央として0.22mの間隔をあけて設けられた2つの検出器(耳の代わりとなる理想的な点マイクロホン)を特色とする。壁は事実上設けない。前記平板が非常に大きいため、発せられた音声波が境界に達する前に、この特定のシミュレーションが終了する。したがってシミュレーションは、事実上、無エコー性または自由音場におけるものとなる。インパルスは発信器内に作られ、受信器におけるシミュレーションされた波形は、時間関数として1秒間録音される。
【0045】
その結果は、図10Bに示す波形を検査すれば分かるように、完全に予想に従ったものであった。2つの間には、検出器に関する音源の30°の方位角と整合性のとれた、約200μsの「到着時間」差があり、より遠くにある検出器における信号強度は、(さらに進んだ距離のために)わずかに小さい。ヘッドホンを使用して、波形を聴取したとき、無エコー性の録音と同様の性質をもって「カチッ」と聞こえ、その場合は音源はわずかに左側にあり、聴取者の頭部内部に置かれているように思われる。特定の3次元音声キューを欠いているこの対照実験には驚くべきではない。
【0046】
次に、図11に示すようにいくつかの散乱装置を盛り込むようにシミュレーションを修正する。聴取者に隣接する比較的単純な波散乱領域を作るために、7つの装置を使用する。これらは、現実には(3次元では)例えば反射する柱に類似する。これらのシミュレーションされた散乱装置は、おのおの約0.09平方メートル(1平方フート)であり、聴取者の前方領域に規則正しい行列に配置されている。2つは側面に配置され、残りは、聴取者の前の1mおよび2m前方に列をなして配置されており、横方向に2mの間隔を介している。このシミュレーションにおいても壁が存在していないことに注意する必要がある。
【0047】
耳で聞き取りうる結果は、非常に驚くべきものとなった。図12に示すように、波形は、外見上図8および9に示す生録音の特性と同様のように見えた。さらにヘッドホンでこれらを聴取したとき、良好な3D外在化特性を有していた。これは下記の理由により特筆すべきである。
3D信号処理アルゴリズムを何も使用しない。
2次元空気「平板」シミュレ−ションのみを作り出した。
HRTFを何も使用しない。
2つのマイクロホン受信機の配置は、人工ヘッドとほとんど類似性を有しない。
【0048】
現段階において、以下の結論がなされる。
1.波散乱効果は、ヘッドホンによる外部音像(「外在化」)の効果的な創出にとって極めて重要である。
2.波散乱効果の詳細な性質は、外在化にとって重要ではなく、2D散乱シミュレーションでも十分である。
3.波散乱効果は、非常に効果的なので、追加的なHRTFに基づく3D音声アルゴリズムが、外在化にとって重要ではない。
【0049】
しかし明らかに、最良の外在化処理手段は、現実の状況に類似し、(a)直接音声のHRTF配置とこれに続く(b)波散乱効果とを備えると予測するのが妥当である。これは、室内効果および反響のない外在化を作り出し、よって自然な手法である。
【0050】
しかし、もし、アリーナやホールのような特定の部屋または音響環境をシミュレーションすることが求められるのであれば、次に示すように、適切な反射および反響を信号処理アルゴリズムに追加することとしてもよい。
前述のシミュレーションを繰り返すことになるが、今回は、5m×7mのリスニングルームをエミュレートするために4つの反射壁が盛り込まれる。その結果は完全に予期した通りとなった。
【0051】
前回同様に、波形は、2つの間で約200μsの到着時間差を示し、より遠い検出器における信号強度は、僅かに小さくなった。ヘッドホンを使用して波形を聴取したとき、エコー性の録音と同様の特性を持って、聴取者の頭部の外側の左方のどこかに置かれている外在化された「カチッ」という音声が聞こえた。
【0052】
これらのシミュレーションの全てにおいて、HRTF処理が何ら使用されていないため、いくらかでも真に正確な3D音像が作られれば驚くべきことであることに注意する必要がある。したがって、実験装置の簡単さという観点から、観測された外在化効果がそれほど功を奏したことは全く特筆すべきことである。
【0053】
波散乱データは、時間関数としての1以上の空間上の点における音声波から生じる(wave−bone)音響的エネルギーを示している。したがって、この関数は、音源から聴取者の鼓膜までの音響鎖(acoustic chain)内の、いずれかの点における測定または合成により取得することが可能である。例えば、この関数は、(a)自由音場内、(b)頭部の近く、(c)耳道(ear−canal)の入口、または(d)鼓膜の近くにおいて測定されうる。これらの例は、以下に示すように作り出すことができる別々の4つの散乱フィルタから、それぞれ4つの形態の散乱データを定めるために使用されうる。
【0054】
散乱形態1:自由音場
このフィルタ形態には、頭部に関する全ての影響がなく、無エコー性環境である自由音場における局所的な散乱の効果を示す。
【0055】
散乱形態2:頭部近く
この形態は、人工ヘッドの近傍で測定されたような、無エコー性環境である自由音場における局所的散乱の効果を表す。形態1と同様であるが、同相の後方反射波のために、低周波数における利得が増大する。
【0056】
散乱形態3:統合された耳翼特性(Integral pinna characteristics)
この形態は、耳道エミュレータのない人工ヘッドを使用して測定されたような、無エコー性環境である自由音場における局所的散乱の効果を表す。これは外耳(耳翼)の特性がデータに組み込まれたことを意味する。
【0057】
散乱形態4:統合された耳翼および耳道特性(Integral pinna and ear−canal characteristics)
この形態は、統合された耳道エミュレータを有する人工ヘッドを使用して測定されたような、無エコー性環境である自由音場における局所的散乱の効果を表す。したがって、これは外耳および耳道の特性がデータに組み込まれたことを意味する。
【0058】
実際には、形態1、2および3は、使用に際して非常に適切であり便利であろう。形態1には頭部に関する影響が全くなく、形態2には耳翼の影響がないのに対して、形態3は、HRTFの関連する要素を全て取り込んでおり、その出力を関連する他のHRTF処理音声に直接加えてもよい、
【0059】
形態1は、耳から離れているスピーカによる再生システムに適している。ここで我々が主に関心を寄せているのは、ヘッドホンによる外在化であるが、本発明を、品質および効果を強化するために、先行技術の反響システムと共に使用することが可能な点に注意すべきである。
形態1および2も、HRTF処理前の音声処理を行うヘッドホン合成システムにおける使用に適している。形態3は、後に生じる前記2つの組合せのために、関連する追加のHRTF処理と並列に音声処理を行うヘッドホン合成システム使用に適している。
【0060】
3D音声を合成するためには、(音源から聴取者の鼓膜に至る)完全な音声鎖をシミュレーションする必要がある。波散乱成分をこのシミュレーション鎖にまとめるためには、そのデータは、鎖内でのそのデータの位置と整合がとれている必要がある。しかしながら、シミュレーション処理は、聴取者とスピーカまたはヘッドホンいずれか一方の聴取手段との両方を含み、後者のファクタは、使用するHRTFの形式に影響することに注意する必要がある。基本的に、その合成がヘッドホン聴取のためならば、HRTFは、頭部および外耳のデータにのみ対応していればよい。(これは、これらデータが、耳道シミュレータが存在しない人工ヘッドにより計測されるか、もし耳道が存在していれば、その効果が補正されるべきであることを意味する。)
他方においては、その合成がスピーカ聴取のためであれば、聴取鎖(listening chain)内に聴取者の有する外耳関数(out−ear function)が存在することがあり、したがって合成の際に「標準化された」(normalised)HRTFを使用する必要がある(「標準化された」HRTFは、主要な一般の共鳴特性を欠いているものであり、2つのHRTFを選択してその比率を取ることにより作り出されるものである)。
【0061】
したがって、ヘッドホン聴取のためには、形態1または形態2の散乱フィルタのいずれも、HRTF、またはHRTF処理音声と並列の形態3の散乱フィルタを直列に必要とする。
【0062】
実際には、形態3の散乱データを測定するのは便利ではない。なぜなら、各一測定について、無響音室における人工ヘッド録音とともに、特定の物理的散乱シナリオ(physical scattering scenario)を必要とするからである。そして、このデータを生成することも簡単ではない。なぜなら、方向に依存する耳翼特性を有限要素モデルに取り込むのは複雑だからである。しかし、散乱効果と耳翼効果は連続的に発生するので、形態1または形態2の散乱フィルタをHRTF(またはHRTFの耳翼関数(pinna function)の一つ)に結び付け、形態3のデータを作り出すことは簡単である。しかし、この方法は、どの特定のHRTFを使用するべきかについての疑問を生ずる。直接音声は、きれいな単一ベクトルを有し、聴取者の頭部において明らかな空間的方向によって表すことができるのに対し、散乱波データは、多少混乱した全て異なる方向を有する多数の基本波の組合せを表している。つまり、散乱データに関してはっきりした空間的方向性がないため、どのHRTFを選択すればよいかが問題となる。
【0063】
実際には、いわゆる「拡散場(diffused−field)」HRTFを、散乱波音声を処理するために使用することが、妥当かつ実用的である。反響性の環境におけるホワイトノイズの人工ヘッド録音から、「平均値」または無方向性特定HRTFを表すスペクトルデータを取得することが可能であった。これに変わる方法は、空間ライブラリ(spatial library)の全体にある全てのHRTFから、左右の耳のスペクトル平均を計算することである。
端的には、拡散場HRTFと共に形態1および形態2の散乱データを使用することにより、形態3拡散フィルタを十分に作り出すことができる。
【0064】
合成鎖(synthesis chain)における散乱波の形態の選択は、それが鎖内のどこに導入されるかに依存する。たとえば、散乱データが、聴取者の頭部に到達する前に自由音場で測定されたのであれば(形態1)、図1のように合成の間、3D音声合成鎖(3D−sound synthesis chain)に対して関連する散乱フィルタを、図13に示すように直接音声パスと並列、かつHRTF処理の前に結合することが適切となりうる。この方法では、現実に従った合成を行い、HRTF処理された直接音声と、HRTF処理された散乱波を備える。
【0065】
ある状況では、音声処理を節約することが可能である。例えば(図11のように)散乱環境の大部分が前方にあり、方位角30°にある仮想スピーカを、ヘッドホンにより作り出すことを所望すれば、散乱波は、直接音声と同じ方向から大部分入射するので、直接音声と散乱音声の両方を処理するために、同じHRTFを使用することができる。これは完全なエミュレーションではないが、十分なエミュレーションであり、より少ない処理能力しか使用しない。この節約アプローチは特に(5.1チャンネルシネマサラウンド音声のような)多チャンネルエミュレーションに有用である。
【0066】
本発明は、下記に列記するように様々な方法に実現することが可能である。これら実現例の全てに共通な特徴は、波散乱効果を実現するための、(当業者に既知の有限要素応答(finite−element response)(FIR)フィルタのような)フィルタの使用である。
基本的な波散乱フィルタは図13上段に示すように実現される。入力信号が、(a)散乱フィルタおよび(b)出力合計ノードの両方に供給され、合計ノードでは、入力信号自身(直接信号を表す)と、散乱成分とを合成する。したがって出力信号は、波散乱が施された成分が時間的に近接して続く、直接信号を含んでいる。
【0067】
関連するフィルタ係数を計算しうる波散乱データは、測定により直接的に、または前述の数学的モデリングにより間接的に取得することができる。通常は、波散乱にとって重要な期間は、直接音声の到着後の0〜35msの範囲にある(わずかな効果の低下が許容されるのであれば、この範囲は5〜20msに縮小することができる)。さらに、我々は、損失なく散乱した音声のバンド幅を5kHz(11kHzのサンプリングレート)に、制限することができることを観測した。そして、22.05kHzまたは44.1kHzのバンド幅の直接音声信号と共に使用できることを観測した。これは、11kHzにおける5ms〜25msの波散乱エミュレーションは、20×11タップ(220タップFIRフィルタ)しか必要としないことを意味する。また、同時継続特許出願は、このような波散乱効果を合成するための非常に効果的な手段を説明している。
【0068】
本発明の非常に簡単な実現例は、図13上段に示した上述の基本的な波散乱フィルタである。これは、同時継続特許出願であるGB0009287.4(その内容は参照によりここに取り込まれる)に説明されるように、携帯電話技術に適用することが可能であり、反響エンジンの代わりに使用されて、HRTFに基づかないモノラル音声の仮想化を提供する。
【0069】
正確な測定手段またはモデリング手段により、散乱フィルタの左右の相補対(complementary pair)を作り出すことができる。これらは仮想聴取者の左右の耳の位置における波散乱現象の測定から導き出され、かつ対応する。これらの位置に現れる散乱特性は概ね同じものであるが、派生する2つの相補フィルタは詳細な点において異なっている。仮想化配置(virturalisation arrangement)に対称性が存在するとき、この低相関対(decorrelated pair)は、外在化を作り出すのにさらに効果的である。例えばこれは、5.1チャンネル映画サラウンドシステムの中央チャンネルを仮想化するときである。
【0070】
HRTFに基づく仮想化へ本発明を組み込むために、2つの基本的な選択枝がある。第1に、図13下段に示すように、1つの信号波散乱フィルタを、HRTF処理ブロックの入力ポートに直列に組み込むことができる。これは、次の相補対構成ほど効果的ではないが、処理負荷の点から経済的である。
【0071】
上記選択枝より良い選択枝は、図14に示すように、波散乱フィルタの相補対をHRTF処理ブロックの出力ポートに直列に組み込むことである。これは信号処理負担がより大きいが、現実をより表現しているため、わずかに異なる散乱効果も各耳で知覚される。
【0072】
上記開示を考慮することにより、本発明を図4に示すような先行技術の反響エンジンに組み込む種々の方法が存在することは、当業者にとって明らかであろう。波散乱フィルタ(WSF: Wave−Scattering filter)の相補対は、例えば図15に示すように、聴取者の耳に伝達される前であり、かつ全ての個別信号(直接、反射および反響)が仮想化され結合された後の出力ストリームであって、組み込むことが可能である。
【0073】
代替案は、入力ストリームに単一WSFを使用し、または各HRTFの出力ポートにWSF対を使用するものである。後者の選択枝は信号処理の点で、コストがかかる。
ドルビー(商標)ディジタル5.1形式のように、ヘッドホン聴取のための多チャンネルサラウンドシステムを仮想化することが必要であれば、いくつもの選択枝が存在する。非常に簡単な方法では、相補対WSF方法を使用する(図14)。他の方法は、(図13下段の)単一WSFを5つの各HRTFの前に使用する。さらに良い方法では、図15の構成に類似する方法によって単一のWSF相補対を、5つのHRTFの出力が合計された後の最終出力段に使用する。
我々は、同時継続特許出願GB0009287.4において、携帯電話に適用されるモノラル音声仮想化の使用を説明した。本発明は、図16に示すように、この出願において使用される反響ブロックの、直接的な代用となることが可能である。
【0074】
前記記載された実施例は、パッド・オン・イヤ(pad−on−ear)または耳覆いタイプの駆動装置の使用に関するものであるが、例えば耳道内に配置されるように採用されたユニットのような、他のタイプのスピーカを代わりに使用することができ、ノイズキャンセルシステムを特徴とするシステムを含んでいてもよい。
【0075】
要約すれば、本システムは、以下の利点を有する、ヘッドホン聴取者のための音像の効果的な外在化を提供する。
(反射シミュレーションのような)追加の信号処理を何ら必要としない。
「自然」であり、(部屋/アリーナのような)いかなる所望の反響タイプによっても補足されることが可能である。
散乱アルゴリズムの大きさがその効果とトレードオフされるため種々のタイプのDSPに適しており、フレキシブルである。
(例えば、携帯電話への適用のように)モノラル音声の仮想化と共に使用することが可能である。
〔付録 A(Appendix A)〕
室内反射の計算
簡単な幾何学的計算により、仮想音源の方位角およびその距離を計算することが可能である。これを4つの壁、地面(グラウンド)および天井に対して行うことにより、そのデータを使用して室内反射をシミュレーションし、仮想化の寄与を評価することが可能となる。
以下の方程式では、部屋の幅(w)、部屋の長さ(l)、聴取者と音源の高さ(h)、音源と聴取者の距離(r)、音源の方位(θ)を使用し、聴取者が中心に位置していると仮定する。「仮想音源の相対距離」は、音源から聴取者までの直接経路と、(仮想音源から聴取者までの)間接経路とで異なる。最初の直接音声の到着時間と比較した個別の反射の聴取者への到着時間、(音声は、約2.92msにつき1m進む)を計算することが重要である。直接音声に対する反射の強度比を、逆二乗法則((r/仮想音源相対距離)2)を使用して計算することが可能である。
A1.近側面反射
【数1】
【数2】
【数3】
A2.遠側面反射
【数4】
【数5】
【数6】
A3.前方反射
【数7】
【数8】
【数9】
A4.後方反射
【数10】
【数11】
【数12】
A5.グラウンド反射
【数13】
【数14】
【数15】
【数16】
A6.床反射
(グラウンド反射と同様。しかし(h)を(部屋の高さ−h)に代え、かつ仰角として伏角を使用する。)
【図面の簡単な説明】
【図1】
従来の頭部応答伝達関数(HRTF:Head−Response transfer function)信号処理のブロック図である。
【図2】
反響信号を生み出す既知の方法を示す図である。
【図3】
図2の方法により生じる反響信号を示す図である。
【図4】
図1および2の信号処理を組合せた場合のブロック図である
【図5】
室内の音声伝達をモデリングするレイトレーシング方法を示す平面図である。
【図6】
図5のレイトレーシングモデリングのための、音源s、聴取者l、および計算による仮想音源の相対位置を示す図である。
【図7】
図5のレイトレーシングモデリングのための、音源s、聴取者l、および計算による仮想音源の相対位置を示す図である。
【図8】
図6および7にモデル化された室内における音声インパルスの生録音結果を示す図である。
【図9】
図8と同じ室内における音声インパルスの応答をモデリングした結果を示す図と、図8の生録音の対応部分である。
【図10A】
有限要素モデルにおいて用いる、非常に大きい2次元空気「平板」の平面図である。
【図10B】
図10Aのモデルを使用する自由場シミュレーションの結果を示す図である。
【図11】
多数の「仮想」本体からの散乱を含む図10のモデルを示す図である。
【図12】
図11のモデルを使用したシミュレーション結果を示す図である。
【図13】
本発明の第1実施例を示す図である。
【図14】
本発明の第2実施例を示す図である。
【図15】
本発明の第3実施例を示す図である。
【図16】
本発明の第4実施例を示す図である。
本発明は、耳に近接配置されるスピーカ用の音声信号処理方法に関するものである。特に、ヘッドホンを使用して聴取したときに、音源が聴取者の頭部の外部に生じていると感じるように音声信号を処理する、ヘッドホンの仮想化技術に関するものである(ただしこれに限定されるものではない)。
【0002】
従来のステレオ音声の多くは、3次元音声キュー(sound−cue)の欠如のために、聴取者の頭部の内部に音源を生ずると感じるように音像(sound−image)を作っている。真に有効な外頭部(out−of−the−head)外部音像を作るための適切かつ効果的な方法は、長い間多くのオーディオ研究者に求められ続けてきた目標であるが、現時点で開発されていない。
【0003】
空間内の特定位置にある音源からの、いわゆる「頭部関連伝達関数(HRTF:Head−Related Transfer Function)」を測定することによって、頭部および外耳によって引き起こされ到来音声波上に作用する、空間依存音響処理を電子的に合成することが可能となる。この処理は、音声録音に適用してヘッドホンにより聴取するとき、聴取者には録音音声が、HRTFと関連する空間的位置に対応する空間中の位置にある音源から聞こえるような、聴覚的な錯覚を生み出す。しかしながら、この方法は無エコー的(anechoic)、すなわち音声波の反射が存在しないものであり、無響室内における音声の聴取をエミュレートするものである。その結果生ずる効果は、音源の方向をかなりエミュレートすることができても、その距離を判断することができなくなることである。音源は頭部に非常に近接しているように思われる。
【0004】
上記処理に人工の反響成分を付加すれば、外部音像を与える錯覚を若干改善することが可能であるが、その効果はまだ納得のいくものではない。これは、出願人らによるモノラル信号のための同時係属の特許出願GB0009287.4に記載されるステレオ信号として知られている。
【0005】
しかしながら、人工頭部(artificial−head)録音の手段によって、より適切な外在化効果(externalisation effect)を、時おり立証できることは知られているが、その録音方法が合成に適したものではない。同様に、選択された室の反射特性全体のインパルス応答(通常4秒以上続く)を複製することにより、適切な外在化効果を生み出すための、いわゆる聴覚化(auralization)信号処理技術が種々知られている。しかしながら、これは、例えばポータブルステレオプレーヤなどに採用するには、現在の規格によっても非常に非現実的な大規模な信号処理労力を費やして実現されるものである。
【0006】
本発明の目的は、ヘッドホン聴取者のための外部音像を生み出すための有効な方法を提供することであり、この方法は、(a)最小限かつ実行可能な信号処理を使用し、(b)必要に応じて多くの異なる反響タイプと共に使用できるように、特定の部屋特性(room characteristic)を持つ必要がないという意味において「中立的な(neutral)」ものとする。
【0007】
本発明の第1態様によれば、請求項1〜7に特定される方法が提供される。本発明の第2態様によれば、請求項9〜13に特定される装置が提供される。本発明の第3態様によれば、請求項8に特定される音声信号が提供される。
【0008】
本発明は、添付する概念図を参照して(例示のみの方法により)、以下に記載される。
本発明は、別々の反射のシミュレーションではなくむしろ音声波の散乱の方が、ヘッドホン音像の外在化にとって本質的要素であるという、発明者らの観察に基づくものである。このような散乱の効果は、現在知られている3D信号処理アルゴリズムに、妥当かつ手頃な信号処理コストにおいて採用されている。また、散乱の効果は、改善された反響効果を提供する既知の反響アルゴリズムとともに使用することも可能である。
【0009】
モノラル音源は、図1に示すように、頭部応答伝達関数(HRTF:Head−Response transfer function)を経由してディジタル的に処理して、その結果生じるステレオ信号対に自然な3D音声キューを含ませることが可能である。これら自然な音声キューは、我々が実生活の中で音声を聴くときに、頭および耳によって音響的に取り入れられるものであり、これらは両耳間強度差(IAD:Inter−aural Amplitude Difference)と、両耳間時間差(ITD:Inter−aural Time Difference)と、外耳によるスペクトル整形(spectral shaping)とを含んでいる。このステレオ信号対が、例えばヘッドホンにより聴取者の適当な耳に効果的に取り入れられるとき、聴取者は、元音声が、信号処理に使用されるHRTFの空間位置に従う空間内の位置にあるように知覚する(スピーカによる再生の場合には、横断聴覚クロストーク取消(transaural crosstalk−cancellation)が必要になるが、その話はここには関係しない)。各HRTFは、(a)左耳伝達関数、(b)右耳伝達関数、および(c)両耳間時間遅延の3つの成分を備える(図1)。および各HRTFは、聴取者に関して3次元空間内の特定の方向に特有のものである。便利かつ、より記述的であるため、時おり左右の耳関数のことを音源の相対位置によって「近位耳」および「遠位耳」関数と呼ぶこととする。
【0010】
通常は、2つの25タップ(tap)FIRフィルタ(1つは近位耳フィルタ用であり、もう1つは遠位耳フィルタ用である)が、0〜650μ秒の範囲の適切なITD時間遅延成分とともに使用され、従来のサンプルレートである22.05kHzまたは44.1kHzにおいてHRTFフィルタを実現するために効果的な信号処理手段を提供する。
【0011】
高品質HRTFソースデータを使用して、HRTF処理(、およびスピーカ使用時は横断聴覚クロストーク取消処理)が正しく実行されると、その効果は非常に顕著なものとなる。例えば、音源の像(image)を聴取者の周囲の完全な水平円内で動かす、すなわち、聴取者の前から聴取者の左側を回って聴取者の後ろまで動かし、聴取者の左側を反対に回って再び聴取者の前まで動かすことができる。また例えば、音源を聴取者の周囲の垂直円内で動かし、実際に、その音声が空間中の任意に選択された位置から聞こえるようにすることができる。しかし、ヘッドホンを使用しているときは、いつも音源が頭部の非常に近くの位置かあるか、すぐ外の位置にあるように感じられ、その距離を判断することは非常に困難である。これはすなわち、その合成が無エコー性のもので全ての音声反射が欠けており、先行技術の教示にあるように、この音声反射が我々が音源との距離を判断する際に役立っているからである。
【0012】
外頭部前方像(out−of−the−head forward image)を作り出す際の問題を解決することを試みた先行技術の例は、耳翼の反射を表すための、約10kHzのスペクトルノッチ(spectral notch)を包含することが前方像を作り出すことを記載した米国特許4,136,260号である。しかしこれは実際にはうまく作用しない。
【0013】
音声信号は、元の音声に反響信号を付加することにより、より「遠くに」聞こえるようにすることができることが、一般に知られている。例えば、エレクトリックキーボード、ギターおよび他の楽器にサウンドエフェクトを付加するコンシューマ製品として、音楽プロセッサが利用可能であり、反響機能が含まれているのが一般的である。
【0014】
図2は、電気的遅延回線およびフィードバックの手段によって反響信号を作り出す既知の方法を示す。ここに遅延回線は音声波が特定の大きさの部屋を横断するのにかかる時間に対応し、フィードバック手段は、反射に関する吸収ロスに加えて、その追加された行程距離によって生じた音声波の減衰量に対応する減衰器を組み込んでいる。図2の上列は、聴取者および音源が入っている部屋の上面図を示す。これらの最も左の図は、直接音声経路r、および聴取者の左側の壁からの1次反射(a+b)を示す。したがって、(音源から発してrms後の)聴取者への直接音声の到着に続いて、反射波が聴取者に到着するために要する付加時間は、(a+b−r)に相当すると予想されうる。図2の上列中央は、さらに進んで2次反射を作るこの音声波を示す。検討により、音声波が進む付加経路距離は、約1つの部屋の幅となることが予想されうる。第3に前記列の右図は、伝搬を続けて3次反射を作る波を示す。そしてここに検討により、波は、(2次反射のときと比べて)さらに約1つ分の部屋の幅だけ余計に進むことが予想されうる。
【0015】
図2の最も下の図は、上記に類似した、反響信号を作り出すための簡単な信号処理手段のブロック図を示す。入力信号は、(直接音声と第1反射との間の到着時間差に対応する)第1の時間遅延(a+b−r)と、より長い経路長および吸収ロスにより生じる1次反射の信号減衰に対応する減衰器Pとを通過する。この信号は合計出力ノード(図2)に供給される。ここにその信号は、この1つの反射、特に1次反射を表す。その信号はまた、部屋の幅に対応する他の時間遅延素子w、および(音声波が進む追加距離および吸収ロスにより生じる)単位反射毎の信号減衰に対応する減衰器Qへも供給される。その結果生じる信号もまた、フィードバックされて、出力ノードに供給され、この後者の処理を再び生じさせる。ここに前記信号は、2次およびより高次の反射を表す。連続する遅延および減衰の反復により、信号は次第にゼロに減少してゆく。
【0016】
図3に、この遅延回線に基づく反響方法の、聴取者が聴取するであろう結果を示す。最初に到着する信号は、単位振幅を有する直接音声(direct sound)であり、プリ遅延時間(pre−delay time)である(a+b−r)経過後に、ファクタPにより減衰された1次反射がこれに続く(”1”を付記する)。続いてさらにw時間経過した後に、さらにQだけ減衰された(これにより全体の利得ファクタはP×Qとなる)2次反射が到着する。前記反復プロセスは無限に継続し、振幅を減衰させながら、シミュレートによる2、3、4、…(以下これ続く)回反射の連続した次数を作り出す。図2に基づく遅延回線処理ブロックをいくつか作ることにより、部屋の幅、高さ、長さにそれぞれ対応する異なる特性を有することができ、これによりもっと高度な反射シミュレーションを行うために、これらを相互リンク(cross−link)することが可能となる。
【0017】
このようにシミュレートされた音声反射および反響が、仮想化処理に加えられる場合(図4)、外在化効果を若干改善することが可能であるが、前述のような念入りな計算およびアプリケーションから期待されるものには、はるかに及ばない。このようなシミュレーションされた反射を含むステレオ方式の仮想化は、FG. S. KendallとW. L. Martensによる”Proc. Int. Computer Music Conf. 1984, pp.111−125”に記載されており、ここには主にヘッドホン用として、1次および2次反射群とその結果生じる反響とともに、HRTFによる直接音声(耳翼フィルタ)の空間配置を取り込んだ3次元音声プロセッサが、非常に詳細に記載されている(前記文献中の図8)。
【0018】
他のもう一つの先行技術の例は、米国特許5,033,086号であり、ここでは、「ミラー音源(mirror sound source)からの1次反射」(すなわち、該特許文献の図1に示す壁面からの1次反射)が非常に重要であることが述べられおり、27msおよび22msの時間遅延値を持つシミュレートされた反射を使用することが提言されている。
【0019】
1990年代始めに、日本企業のローランド(Roland)が、「サウンドスペース(SoundSpace)」という名の2つの音楽楽器信号プロセッサを、英国市場に持ち込んだことが知られている。この信号プロセッサには、3D配置された(3D−positioned)反響および(少なくとも1つの)シミュレーションされたグラウンド反射(ground−reflection)とともに、バイノーラル配置が使用されている。スピーカ再生用に横断聴覚クロストーク取消オプションも取り込まれている。
【0020】
HRTFと反響によるステレオヘッドホンの使用例は、1以上の音源を仮想化するためのバイノーラル(両耳性)システムについて記載する米国特許5,371,799号である。信号は概念的に、直接波部分と初期反射部分と反響部分に分割されて、前者2つがバイノーラルHRTFにより処理されて、後者はまったくHRTF処理されない。「反響部分は、何の音源位置情報もなく処理されて、出力はフェードアウトするように指数減衰器によって減衰される。」
【0021】
国際公開第97/25834号パンフレットは、ヘッドホンにより設けられる、多チャンネルサラウンド音声スピーカのシミュレーションのためのシステムを記載する。ここでは、室内反射(room reflection)を表す信号を包含するように、個々のモノラルチャンネルを処理する。そして、これらをバイノーラル対とするために、HRTFを使用してフィルタリングする。さらに、全てのチャネルから反響信号を作りだし、これらを何もHTRF処理しないで最終出力段に直接加える。これにより最終出力は、HRTF処理音声と、非HRTF処理音声とが混合されたものとなる。
【0022】
しかしながら、反響パラメータを調整するための多大な注意を払った場合でさえ、(8個の独立した仮想反響音源と、正確にシミュレーションされた6個の1次反射とを特徴とする)非常に複雑な反響エンジンを使用しても、真に納得できる外在化効果を達成することが難しいことが分かっている。
【0023】
部屋または閉鎖された空間の、連続して往復する音声波の反射により生ずる反響特性は、インパルス方法を使用して測定でき、これらの特性を混合して、音声ストリーム(audio stream)へと再現すること(聴覚化(auralisation))ができることが知られている。基本的には、これにより特定の部屋についての図3に示されるようなデータが記録される。このデータは、時間関数として種々の直接波および反射波の波面すべての到着により引き起こされるものであり、音源からインパルスを作り出し、その結果他の場所で生じる時間的に変化する外乱を測定することにより記録される。
【0024】
しかしながら、これには非常に多くのコンピュータ資源を必要とする。なぜなら反響効果が数秒間持続しうるからである。例えばある部屋が4秒の反響時間を有していたとする(大きい録音スタジオにおける通常値である)。すると従来のCDサンプルレートである44.1kHzでは、録音されるべきサンプル数が4×44,110=176,400個となる。通常のHRTFは2×25タップのフィルタ(合計で50サンプル数)を要することを考えると、この4秒の部屋での合成には、1回のHRTF合成の3,528倍の計算労力を要することになる。これは現在のDSP技術を使用した場合に現実的ではない。さらに部屋のシミュレーションは、測定が行われた1の特定の部屋のエミュレーションを行うことができるだけである。また、3D仮想化を行う場合であるバイノーラルシステムにおいては、この2倍の処理量が必要となる。
【0025】
設計段階において仮想の部屋のインパルス応答をモデリングすれば、その部屋で聴取されるであろう音声合成を、その部屋が建設される前に設計者が聴くことが可能となる。これは一般に「聴覚化(auralisation)」呼ばれ、コンサートホールや劇場の設計において適用されうる(誤差を伴うことがあるにしても)。
【0026】
この方法は、非常に複雑な反響シミュレーションにより、適切な外部音像を作り出すことで知られる。しかしながら、要求されるのは、最小限の(実行可能な)信号処理能力を使用し、異なる反響タイプにおいても使用しうる、ヘッドホンにより外頭部音像を効果的に作り出す方法である。
【0027】
現段階において、下記の通り典型的な室内の音声反射の特性を定義および定量化することが有用である。レイトレーシング手段によって室内の音声波の伝搬をモデル化することが、一般に行われている。この方法では、音声波が壁のような平面から反射したとき、そのプロセスは光学的反射と類似すると仮定する。すなわち反射角は、入射角と等しいとする。この方法は非常におおざっぱに状況を視覚化する方法であるが、広く採用されている。これはおそらく、(図2および3に)上述した、遅延回線を利用した反響モデリングとの相乗効果の都合が良いためと考えられる。
【0028】
図5は、平面図に示す簡単な長方形の部屋に適用したレイトレーシング方法を示す。便宜上、聴取者が部屋の中央に位置しており、聴取者の右手前方の距離r、方位角θに音源があるとする。部屋の幅はwであり、長さはlとする。図示するとおり、音源から生じた音声は、直接経路rを通って聴取者まで進み、右手側の壁を反射して聴取者へ進む音声の全体経路長はa+bである。壁から音源までの距離aだけ、聴取者から後方に、壁をこえて反射経路を外挿すると対応する「仮想」音源の位置が定まる。音源から聴取者までの経路に1つしか反射がないので、これは「1次反射」と呼ばれる。各壁、天井および地面からの計6つの1次反射がある。
【0029】
反射波の定量的な特性(垂直位置、相対距離および強度比(fractional intensity))を示す幾何学的な計算を、Appendix Aに示す。これにより1次仮想音源の位置を構成することが可能となるであろう。
【0030】
本発明の背後にある論理的根拠と対応する定量的数値を説明するために、長さ約7m(20フィート)、幅約5m(15フィート)の中規模のリスニングルーム(listening room)を基にして、実際の仮想化シミュレーションのための仮想音源を計算した。後述で、これを実際の測定と比較する。聴取者は(x=0;y=0)である中央に位置しており、音源はその左前に位置していると仮定する。聴取者と音源とはともに床から約1.2m(約4フィート)の位置(すなわち着席時の耳の高さ)にあると仮定する(簡便のため、この段階ではモデルを2次元に限定しているが、本発明の実施のためには十分な2次元データで十分であることが分かるであろう。)。
【0031】
図6は、音源s、聴取者lおよび横方向の4つの仮想音源v1〜4の計算された位置の相対位置を示す(Appendix Aを参照)。(天井の反射およびグラウンド反射の仮想音源は図示しない)。さらなる検討により、2次仮想音源も決定することができる。これら全てを図7に円として示す(1次仮想音源を「1」と記す)。図7には、聴取者を中心とする2つの破線による円が示されている。外側の円は半径約9.1m(30フィート)の円であり、時間にして約30msに相当する。これはあるイベント(event)の30ms以内に聴取者が聴取する全ての音源を囲む領域を表しており、これについては後に説明する。内側の円は半径約6.1m(20フィート)の円である(時間にして20ms)。理論的には、仮想音源は全て最初の音源と同時に自己の音声を発する。
【0032】
15個ある1次および2次の横方向音源のうち、ただ4個だけが音声イベントの後の初めの20ms以内に存在し、15個のうち10個だけが音声イベントの後の初めの30ms以内に存在していることに注目されたい。1次および2次反射の3分の1は、30msの時間フレーム(time−frame)の外側に位置している(この点は重要であり、後述する。)。
【0033】
7m×5mの部屋における横方向の1次反射データを、下記の表1にまとめる。表面での反射係数を0.9とし、聴取者は部屋の幅方向の中央に、長さ方向には前面の壁面から3.7m後方に位置していると仮定した。音源は、聴取者の方位角−30°、距離2.2mに位置する(聴取者に関してx=−1.1;y=1.9mの位置にある)。
【表1】
【0034】
本発明は、室内の反射および反響について非常に広範囲なシミュレーションを使用したにも関わらず、先行技術に基づくヘッドホン聴取のための十分な外在化効果を作り出すことに失敗した後に着想したものである。なぜこれが不首尾に終わったかは明らかではなかった。この問題を解決し、前記シミュレーションの欠点を発見するために、一連の実験を行った。
【0035】
前節に記載するように、発明者らは、シミュレーションのためのベンチマークとして、7m×5mのリスニングルームを使用し、音源および聴取者の位置を前記の通りとした(聴取者は部屋の幅方向の中央に、長さ方向には前面の壁面から3.7m後方に位置しており、音源は、聴取者の方位角−30°、距離2.2m(聴取者に関してx=−1.1;y=1.9mの位置)に位置するとした)。この配置で、表1の反射データを算出する、Appendix Aによる計算に基づく信号処理手段を用いてシミュレートを行った。さらに、各々が4つの仮想反響音源を作り出す一対の反響エンジン(reverberation engine)を連繋して使用した。このような労力にも関わらず、その結果は芳しくないものであった。反響を聞き取ることはできたが、それは納得のゆく程、音像の外在化に役立たなかった。
【0036】
次に、上記配置にしたがって室内における生音声録音を行った。音源としては直径10cmの小さなスピーカを使用し、これを円柱チューブに取り付けた。そして録音装置に(B&K 5930型)の人工ヘッド(artificial head)を使用した。短い(4ms)単一サイクルのこぎり波インパルスによりスピーカを駆動し、人工ヘッドの出力をディジタル形式で録音した。録音された左右のチャネルの波形を図8に示す(上段が左チャネルである)。
【0037】
近位耳録音(図9上段)とシミュレーション計算(図9下段)との、最初の20ms間の比較が興味深い。(1)最初の4msにおける初めの2回の反射について、両者が非常によく一致しているが、(2)録音された波形は、(図8のノイズのない波形の漸近線から分かるように、バックグラウンドノイズがないにも関わらず、)それに続く反射をきれいに示していないことに注意されたい。
【0038】
録音音声をヘッドホンを使用して聴取したとき、外在化が非常によく判定された。
録音音声の異なる部分の相対的重要度を確かめるために、ディジタル音声編集プログラム(Syntrillium Software製CoolEdit Pro)を使用して録音音声の異なる部分を選択的に聴取した。以下にその結果を示す。
1.0−500ms (録音音声全体) 最高に良い外在化
2.0−100ms (多少の反響を切り捨て) 最高に良い外在化
3.0−50ms (大部分の反響を切り捨て) 最高に良い外在化
4.0−30ms (全ての反響を切り捨て) 非常に良い外在化
5.0−20ms (深刻な切り捨て) 中程度の外在化
6.0−20ms (深刻な切り捨て) 外在化なし、反射は顫音(trill)
として聞こえる
7.0−3ms (直接音声のみ) 全く外在化なし
【0039】
この結果から、下記に示すようなやや意外な結論となった。
1.(可聴的な)反響全体を切り捨てても(0−30msの範囲を聴取)、外在化が良い状態であることから、反響は、外在化において重要な役割を果たさないことが分かる。
2.最初の反射は、直接音声から分離して聴取され(0−10msの範囲)、外在化がないことから、最初の反射は、外在化において重要な役割を果たさないことが分かる。個々の反射は顫音(trill)として聞こえることがある。
3.外在化に関する重要な期間は、直接音声が到達した後の約5−30msである(また、初期反射の多くがこの期間の後に起こっている。)
【0040】
この結論は、先行技術の考えていた、(a)室内反射シミュレーションは外在化に必要であること、(b)複雑なレイトレーシングが正確な室内シミュレーションを与えること、(c)十分な外在化は、反射および反響シミュレーションを使用することにより達成できること、と全く反対のものである。
【0041】
残念ながら、まだこれは前記問題を解決しない。しかし、外在化のために必要な、欠けている事象についての他の手がかりがある。例えばテーブルおよび椅子、ならびに木の葉などの近くで、野外の音を聞くとき、その局所的な音源の位置の範囲を1〜10mの範囲で推定することは非常に容易であるが、野原や砂浜のような「障害物のない」環境では、これが非常に難しくなる。同様に、人工ヘッド録音は、「散らかった(cluttered)」野外環境においてよい外在化をあたえる。もちろん野外では、室内反射または室内反響は生じない。
【0042】
その結果、筆者は外在化に必要な重要な特色が、反射や反響ではなく、波の散乱にあることを認識するに至った。
広く利用されている、J.B.AllenおよびD.A.Berkleyにより記述された”イメージモデル(image model)”、J.Acoust.Soc.Am、April 1979、65、(4)、pp.943−950は、第1の部屋に隣接する室の中の多数の仮想音源の存在を提案するが、それは暗にその部屋が散乱物がないことを仮定したものであった。これが正確にシミュレーションされると、その結果は、ヘッドホンでの音像を正確に外在化せず、また自然な反響品質という点で納得させるものでもない。
【0043】
しかし実際には、スピーカ、椅子および道具棚のような室内の特徴の存在はすべて、音源からの音声波を散乱させる。結果として、まず聴取者は(当然)直接音声を受け取るが、これにすぐ、散乱物による混乱した一連の自然な寄与分が続き、これは壁による第1の反射が聴取者に届くよりも前に届きさえする。この音声波散乱が5−30msにおける支配的特色である。これに続いて、当然に散乱波それ自身が反射および反響プロセスに加わる。
この仮定を検証するため、筆者らは、無エコー性環境の制御シミュレーションとともに数学的に散乱シミュレーションを作り出した。
【0044】
はじめに、無エコー性環境の制御シミュレーションを作り出した。まず、簡便のためにモデリングを2次元構成に制限する。非常に大きい2次元空気「平板」の有限要素モデルを構築し、その中央にある、前述の領域の大きさが5m×7mのリスニングルームに注目する。このモデルは、図10Aに示すように、前記平板の中央である起点からx=−1.5m、y=2.5mの位置に位置されて単一インパルスを作り出す(理想的点音源である)音源と、前記起点を中央として0.22mの間隔をあけて設けられた2つの検出器(耳の代わりとなる理想的な点マイクロホン)を特色とする。壁は事実上設けない。前記平板が非常に大きいため、発せられた音声波が境界に達する前に、この特定のシミュレーションが終了する。したがってシミュレーションは、事実上、無エコー性または自由音場におけるものとなる。インパルスは発信器内に作られ、受信器におけるシミュレーションされた波形は、時間関数として1秒間録音される。
【0045】
その結果は、図10Bに示す波形を検査すれば分かるように、完全に予想に従ったものであった。2つの間には、検出器に関する音源の30°の方位角と整合性のとれた、約200μsの「到着時間」差があり、より遠くにある検出器における信号強度は、(さらに進んだ距離のために)わずかに小さい。ヘッドホンを使用して、波形を聴取したとき、無エコー性の録音と同様の性質をもって「カチッ」と聞こえ、その場合は音源はわずかに左側にあり、聴取者の頭部内部に置かれているように思われる。特定の3次元音声キューを欠いているこの対照実験には驚くべきではない。
【0046】
次に、図11に示すようにいくつかの散乱装置を盛り込むようにシミュレーションを修正する。聴取者に隣接する比較的単純な波散乱領域を作るために、7つの装置を使用する。これらは、現実には(3次元では)例えば反射する柱に類似する。これらのシミュレーションされた散乱装置は、おのおの約0.09平方メートル(1平方フート)であり、聴取者の前方領域に規則正しい行列に配置されている。2つは側面に配置され、残りは、聴取者の前の1mおよび2m前方に列をなして配置されており、横方向に2mの間隔を介している。このシミュレーションにおいても壁が存在していないことに注意する必要がある。
【0047】
耳で聞き取りうる結果は、非常に驚くべきものとなった。図12に示すように、波形は、外見上図8および9に示す生録音の特性と同様のように見えた。さらにヘッドホンでこれらを聴取したとき、良好な3D外在化特性を有していた。これは下記の理由により特筆すべきである。
3D信号処理アルゴリズムを何も使用しない。
2次元空気「平板」シミュレ−ションのみを作り出した。
HRTFを何も使用しない。
2つのマイクロホン受信機の配置は、人工ヘッドとほとんど類似性を有しない。
【0048】
現段階において、以下の結論がなされる。
1.波散乱効果は、ヘッドホンによる外部音像(「外在化」)の効果的な創出にとって極めて重要である。
2.波散乱効果の詳細な性質は、外在化にとって重要ではなく、2D散乱シミュレーションでも十分である。
3.波散乱効果は、非常に効果的なので、追加的なHRTFに基づく3D音声アルゴリズムが、外在化にとって重要ではない。
【0049】
しかし明らかに、最良の外在化処理手段は、現実の状況に類似し、(a)直接音声のHRTF配置とこれに続く(b)波散乱効果とを備えると予測するのが妥当である。これは、室内効果および反響のない外在化を作り出し、よって自然な手法である。
【0050】
しかし、もし、アリーナやホールのような特定の部屋または音響環境をシミュレーションすることが求められるのであれば、次に示すように、適切な反射および反響を信号処理アルゴリズムに追加することとしてもよい。
前述のシミュレーションを繰り返すことになるが、今回は、5m×7mのリスニングルームをエミュレートするために4つの反射壁が盛り込まれる。その結果は完全に予期した通りとなった。
【0051】
前回同様に、波形は、2つの間で約200μsの到着時間差を示し、より遠い検出器における信号強度は、僅かに小さくなった。ヘッドホンを使用して波形を聴取したとき、エコー性の録音と同様の特性を持って、聴取者の頭部の外側の左方のどこかに置かれている外在化された「カチッ」という音声が聞こえた。
【0052】
これらのシミュレーションの全てにおいて、HRTF処理が何ら使用されていないため、いくらかでも真に正確な3D音像が作られれば驚くべきことであることに注意する必要がある。したがって、実験装置の簡単さという観点から、観測された外在化効果がそれほど功を奏したことは全く特筆すべきことである。
【0053】
波散乱データは、時間関数としての1以上の空間上の点における音声波から生じる(wave−bone)音響的エネルギーを示している。したがって、この関数は、音源から聴取者の鼓膜までの音響鎖(acoustic chain)内の、いずれかの点における測定または合成により取得することが可能である。例えば、この関数は、(a)自由音場内、(b)頭部の近く、(c)耳道(ear−canal)の入口、または(d)鼓膜の近くにおいて測定されうる。これらの例は、以下に示すように作り出すことができる別々の4つの散乱フィルタから、それぞれ4つの形態の散乱データを定めるために使用されうる。
【0054】
散乱形態1:自由音場
このフィルタ形態には、頭部に関する全ての影響がなく、無エコー性環境である自由音場における局所的な散乱の効果を示す。
【0055】
散乱形態2:頭部近く
この形態は、人工ヘッドの近傍で測定されたような、無エコー性環境である自由音場における局所的散乱の効果を表す。形態1と同様であるが、同相の後方反射波のために、低周波数における利得が増大する。
【0056】
散乱形態3:統合された耳翼特性(Integral pinna characteristics)
この形態は、耳道エミュレータのない人工ヘッドを使用して測定されたような、無エコー性環境である自由音場における局所的散乱の効果を表す。これは外耳(耳翼)の特性がデータに組み込まれたことを意味する。
【0057】
散乱形態4:統合された耳翼および耳道特性(Integral pinna and ear−canal characteristics)
この形態は、統合された耳道エミュレータを有する人工ヘッドを使用して測定されたような、無エコー性環境である自由音場における局所的散乱の効果を表す。したがって、これは外耳および耳道の特性がデータに組み込まれたことを意味する。
【0058】
実際には、形態1、2および3は、使用に際して非常に適切であり便利であろう。形態1には頭部に関する影響が全くなく、形態2には耳翼の影響がないのに対して、形態3は、HRTFの関連する要素を全て取り込んでおり、その出力を関連する他のHRTF処理音声に直接加えてもよい、
【0059】
形態1は、耳から離れているスピーカによる再生システムに適している。ここで我々が主に関心を寄せているのは、ヘッドホンによる外在化であるが、本発明を、品質および効果を強化するために、先行技術の反響システムと共に使用することが可能な点に注意すべきである。
形態1および2も、HRTF処理前の音声処理を行うヘッドホン合成システムにおける使用に適している。形態3は、後に生じる前記2つの組合せのために、関連する追加のHRTF処理と並列に音声処理を行うヘッドホン合成システム使用に適している。
【0060】
3D音声を合成するためには、(音源から聴取者の鼓膜に至る)完全な音声鎖をシミュレーションする必要がある。波散乱成分をこのシミュレーション鎖にまとめるためには、そのデータは、鎖内でのそのデータの位置と整合がとれている必要がある。しかしながら、シミュレーション処理は、聴取者とスピーカまたはヘッドホンいずれか一方の聴取手段との両方を含み、後者のファクタは、使用するHRTFの形式に影響することに注意する必要がある。基本的に、その合成がヘッドホン聴取のためならば、HRTFは、頭部および外耳のデータにのみ対応していればよい。(これは、これらデータが、耳道シミュレータが存在しない人工ヘッドにより計測されるか、もし耳道が存在していれば、その効果が補正されるべきであることを意味する。)
他方においては、その合成がスピーカ聴取のためであれば、聴取鎖(listening chain)内に聴取者の有する外耳関数(out−ear function)が存在することがあり、したがって合成の際に「標準化された」(normalised)HRTFを使用する必要がある(「標準化された」HRTFは、主要な一般の共鳴特性を欠いているものであり、2つのHRTFを選択してその比率を取ることにより作り出されるものである)。
【0061】
したがって、ヘッドホン聴取のためには、形態1または形態2の散乱フィルタのいずれも、HRTF、またはHRTF処理音声と並列の形態3の散乱フィルタを直列に必要とする。
【0062】
実際には、形態3の散乱データを測定するのは便利ではない。なぜなら、各一測定について、無響音室における人工ヘッド録音とともに、特定の物理的散乱シナリオ(physical scattering scenario)を必要とするからである。そして、このデータを生成することも簡単ではない。なぜなら、方向に依存する耳翼特性を有限要素モデルに取り込むのは複雑だからである。しかし、散乱効果と耳翼効果は連続的に発生するので、形態1または形態2の散乱フィルタをHRTF(またはHRTFの耳翼関数(pinna function)の一つ)に結び付け、形態3のデータを作り出すことは簡単である。しかし、この方法は、どの特定のHRTFを使用するべきかについての疑問を生ずる。直接音声は、きれいな単一ベクトルを有し、聴取者の頭部において明らかな空間的方向によって表すことができるのに対し、散乱波データは、多少混乱した全て異なる方向を有する多数の基本波の組合せを表している。つまり、散乱データに関してはっきりした空間的方向性がないため、どのHRTFを選択すればよいかが問題となる。
【0063】
実際には、いわゆる「拡散場(diffused−field)」HRTFを、散乱波音声を処理するために使用することが、妥当かつ実用的である。反響性の環境におけるホワイトノイズの人工ヘッド録音から、「平均値」または無方向性特定HRTFを表すスペクトルデータを取得することが可能であった。これに変わる方法は、空間ライブラリ(spatial library)の全体にある全てのHRTFから、左右の耳のスペクトル平均を計算することである。
端的には、拡散場HRTFと共に形態1および形態2の散乱データを使用することにより、形態3拡散フィルタを十分に作り出すことができる。
【0064】
合成鎖(synthesis chain)における散乱波の形態の選択は、それが鎖内のどこに導入されるかに依存する。たとえば、散乱データが、聴取者の頭部に到達する前に自由音場で測定されたのであれば(形態1)、図1のように合成の間、3D音声合成鎖(3D−sound synthesis chain)に対して関連する散乱フィルタを、図13に示すように直接音声パスと並列、かつHRTF処理の前に結合することが適切となりうる。この方法では、現実に従った合成を行い、HRTF処理された直接音声と、HRTF処理された散乱波を備える。
【0065】
ある状況では、音声処理を節約することが可能である。例えば(図11のように)散乱環境の大部分が前方にあり、方位角30°にある仮想スピーカを、ヘッドホンにより作り出すことを所望すれば、散乱波は、直接音声と同じ方向から大部分入射するので、直接音声と散乱音声の両方を処理するために、同じHRTFを使用することができる。これは完全なエミュレーションではないが、十分なエミュレーションであり、より少ない処理能力しか使用しない。この節約アプローチは特に(5.1チャンネルシネマサラウンド音声のような)多チャンネルエミュレーションに有用である。
【0066】
本発明は、下記に列記するように様々な方法に実現することが可能である。これら実現例の全てに共通な特徴は、波散乱効果を実現するための、(当業者に既知の有限要素応答(finite−element response)(FIR)フィルタのような)フィルタの使用である。
基本的な波散乱フィルタは図13上段に示すように実現される。入力信号が、(a)散乱フィルタおよび(b)出力合計ノードの両方に供給され、合計ノードでは、入力信号自身(直接信号を表す)と、散乱成分とを合成する。したがって出力信号は、波散乱が施された成分が時間的に近接して続く、直接信号を含んでいる。
【0067】
関連するフィルタ係数を計算しうる波散乱データは、測定により直接的に、または前述の数学的モデリングにより間接的に取得することができる。通常は、波散乱にとって重要な期間は、直接音声の到着後の0〜35msの範囲にある(わずかな効果の低下が許容されるのであれば、この範囲は5〜20msに縮小することができる)。さらに、我々は、損失なく散乱した音声のバンド幅を5kHz(11kHzのサンプリングレート)に、制限することができることを観測した。そして、22.05kHzまたは44.1kHzのバンド幅の直接音声信号と共に使用できることを観測した。これは、11kHzにおける5ms〜25msの波散乱エミュレーションは、20×11タップ(220タップFIRフィルタ)しか必要としないことを意味する。また、同時継続特許出願は、このような波散乱効果を合成するための非常に効果的な手段を説明している。
【0068】
本発明の非常に簡単な実現例は、図13上段に示した上述の基本的な波散乱フィルタである。これは、同時継続特許出願であるGB0009287.4(その内容は参照によりここに取り込まれる)に説明されるように、携帯電話技術に適用することが可能であり、反響エンジンの代わりに使用されて、HRTFに基づかないモノラル音声の仮想化を提供する。
【0069】
正確な測定手段またはモデリング手段により、散乱フィルタの左右の相補対(complementary pair)を作り出すことができる。これらは仮想聴取者の左右の耳の位置における波散乱現象の測定から導き出され、かつ対応する。これらの位置に現れる散乱特性は概ね同じものであるが、派生する2つの相補フィルタは詳細な点において異なっている。仮想化配置(virturalisation arrangement)に対称性が存在するとき、この低相関対(decorrelated pair)は、外在化を作り出すのにさらに効果的である。例えばこれは、5.1チャンネル映画サラウンドシステムの中央チャンネルを仮想化するときである。
【0070】
HRTFに基づく仮想化へ本発明を組み込むために、2つの基本的な選択枝がある。第1に、図13下段に示すように、1つの信号波散乱フィルタを、HRTF処理ブロックの入力ポートに直列に組み込むことができる。これは、次の相補対構成ほど効果的ではないが、処理負荷の点から経済的である。
【0071】
上記選択枝より良い選択枝は、図14に示すように、波散乱フィルタの相補対をHRTF処理ブロックの出力ポートに直列に組み込むことである。これは信号処理負担がより大きいが、現実をより表現しているため、わずかに異なる散乱効果も各耳で知覚される。
【0072】
上記開示を考慮することにより、本発明を図4に示すような先行技術の反響エンジンに組み込む種々の方法が存在することは、当業者にとって明らかであろう。波散乱フィルタ(WSF: Wave−Scattering filter)の相補対は、例えば図15に示すように、聴取者の耳に伝達される前であり、かつ全ての個別信号(直接、反射および反響)が仮想化され結合された後の出力ストリームであって、組み込むことが可能である。
【0073】
代替案は、入力ストリームに単一WSFを使用し、または各HRTFの出力ポートにWSF対を使用するものである。後者の選択枝は信号処理の点で、コストがかかる。
ドルビー(商標)ディジタル5.1形式のように、ヘッドホン聴取のための多チャンネルサラウンドシステムを仮想化することが必要であれば、いくつもの選択枝が存在する。非常に簡単な方法では、相補対WSF方法を使用する(図14)。他の方法は、(図13下段の)単一WSFを5つの各HRTFの前に使用する。さらに良い方法では、図15の構成に類似する方法によって単一のWSF相補対を、5つのHRTFの出力が合計された後の最終出力段に使用する。
我々は、同時継続特許出願GB0009287.4において、携帯電話に適用されるモノラル音声仮想化の使用を説明した。本発明は、図16に示すように、この出願において使用される反響ブロックの、直接的な代用となることが可能である。
【0074】
前記記載された実施例は、パッド・オン・イヤ(pad−on−ear)または耳覆いタイプの駆動装置の使用に関するものであるが、例えば耳道内に配置されるように採用されたユニットのような、他のタイプのスピーカを代わりに使用することができ、ノイズキャンセルシステムを特徴とするシステムを含んでいてもよい。
【0075】
要約すれば、本システムは、以下の利点を有する、ヘッドホン聴取者のための音像の効果的な外在化を提供する。
(反射シミュレーションのような)追加の信号処理を何ら必要としない。
「自然」であり、(部屋/アリーナのような)いかなる所望の反響タイプによっても補足されることが可能である。
散乱アルゴリズムの大きさがその効果とトレードオフされるため種々のタイプのDSPに適しており、フレキシブルである。
(例えば、携帯電話への適用のように)モノラル音声の仮想化と共に使用することが可能である。
〔付録 A(Appendix A)〕
室内反射の計算
簡単な幾何学的計算により、仮想音源の方位角およびその距離を計算することが可能である。これを4つの壁、地面(グラウンド)および天井に対して行うことにより、そのデータを使用して室内反射をシミュレーションし、仮想化の寄与を評価することが可能となる。
以下の方程式では、部屋の幅(w)、部屋の長さ(l)、聴取者と音源の高さ(h)、音源と聴取者の距離(r)、音源の方位(θ)を使用し、聴取者が中心に位置していると仮定する。「仮想音源の相対距離」は、音源から聴取者までの直接経路と、(仮想音源から聴取者までの)間接経路とで異なる。最初の直接音声の到着時間と比較した個別の反射の聴取者への到着時間、(音声は、約2.92msにつき1m進む)を計算することが重要である。直接音声に対する反射の強度比を、逆二乗法則((r/仮想音源相対距離)2)を使用して計算することが可能である。
A1.近側面反射
【数1】
【数2】
【数3】
A2.遠側面反射
【数4】
【数5】
【数6】
A3.前方反射
【数7】
【数8】
【数9】
A4.後方反射
【数10】
【数11】
【数12】
A5.グラウンド反射
【数13】
【数14】
【数15】
【数16】
A6.床反射
(グラウンド反射と同様。しかし(h)を(部屋の高さ−h)に代え、かつ仰角として伏角を使用する。)
【図面の簡単な説明】
【図1】
従来の頭部応答伝達関数(HRTF:Head−Response transfer function)信号処理のブロック図である。
【図2】
反響信号を生み出す既知の方法を示す図である。
【図3】
図2の方法により生じる反響信号を示す図である。
【図4】
図1および2の信号処理を組合せた場合のブロック図である
【図5】
室内の音声伝達をモデリングするレイトレーシング方法を示す平面図である。
【図6】
図5のレイトレーシングモデリングのための、音源s、聴取者l、および計算による仮想音源の相対位置を示す図である。
【図7】
図5のレイトレーシングモデリングのための、音源s、聴取者l、および計算による仮想音源の相対位置を示す図である。
【図8】
図6および7にモデル化された室内における音声インパルスの生録音結果を示す図である。
【図9】
図8と同じ室内における音声インパルスの応答をモデリングした結果を示す図と、図8の生録音の対応部分である。
【図10A】
有限要素モデルにおいて用いる、非常に大きい2次元空気「平板」の平面図である。
【図10B】
図10Aのモデルを使用する自由場シミュレーションの結果を示す図である。
【図11】
多数の「仮想」本体からの散乱を含む図10のモデルを示す図である。
【図12】
図11のモデルを使用したシミュレーション結果を示す図である。
【図13】
本発明の第1実施例を示す図である。
【図14】
本発明の第2実施例を示す図である。
【図15】
本発明の第3実施例を示す図である。
【図16】
本発明の第4実施例を示す図である。
Claims (13)
- 使用時に耳に近接配置されるスピーカ用の音声信号処理方法であって、
a)入力モノラル元信号から導出して、部屋の境界における反射または反響を含まず、かつ前記耳から離れた1以上の物体により散乱する前記元信号を表す1以上の信号を作り出し、
b)導出された前記信号を前記入力信号を合成して、合成信号を形成し、
c)形成された前記合成信号を前記スピーカに供給し、これによって聴取者が、前記入力モノラル元信号の音源は前記耳より離れて配置されていると知覚することを可能とするキューを提供する、
ことを備える音声信号処理方法。 - 使用時に耳に近接配置されるスピーカ用の音声信号処理方法であって、
a)入力モノラル元信号から導出して、部屋の境界における反射または反響を含まず、かつ前記耳から離れた1以上の物体により散乱する前記元信号を表す1以上の信号を作り出し、
b)導出された1以上の前記信号を前記入力信号と合成して、合成信号を形成し、
c)耳応答伝達関数を使用して、前記合成信号のスペクトル特性を修正し、
d)修正された前記合成信号を前記スピーカに供給し、これによって聴取者が、前記入力モノラル元信号の音源は前記耳より離れて配置されていると知覚することを可能とするキューを提供する、
ことを備える音声信号処理方法。 - 使用時に耳に近接配置される左右のスピーカ用の音声信号処理方法であって、
a)入力モノラル元信号から導出して、部屋の境界における反射または反響を含まず、かつ前記耳から離れた1以上の物体により散乱する前記元信号を表す1以上の信号を作り出し、
b)導出された1以上の前記信号を前記入力信号と合成して、合成信号を形成し、
c)頭部応答伝達関数を使用して、前記合成信号のスペクトル特性を修正し、修正された左右の合成信号を供給し、
d)修正された前記左右の合成信号を各前記スピーカに供給し、これによって聴取者が、前記入力モノラル元信号の音源は前記耳より離れて配置されていると知覚することを可能とするキューを提供する、
ことを備える音声信号処理方法。 - 使用時に耳に近接配置される左右のスピーカ用の音声信号処理方法であって、
a)入力モノラル元信号に頭部関連伝達関数を適用して、左右の耳信号を提供し、
b)前記左右の耳信号から導出して、部屋の境界における反射または反響を含まず、かつそれぞれの耳から離れた1以上の物体により散乱する前記元信号を表す、信号セット対をそれぞれ作り出し、
c)それぞれの導出された前記信号セット対を前記左右の耳信号と合成し、左右の合成信号を形成し、
d)修正された前記左右の合成信号を各前記スピーカに供給し、これによって聴取者が、前記入力モノラル元信号の音源は前記耳より離れて配置されていると知覚することを可能とするキューを提供する、
ことを備える音声信号処理方法。 - 前記導出された信号セット対は、400Hzより下の周波数において、少なくとも部分的に相互に低相関関係にある請求項4に記載の方法。
- 前記導出された信号または前記導出された信号セットを、多数のタップを有する有限インパルス応答フィルタを使用することにより作り出し、前記物体による音声散乱をエミュレートする請求項1〜5のいずれか一項に記載の方法。
- 部屋の境界効果および/または反響を含む請求項1〜6のいずれか一項に記載の方法。
- 請求項1〜7のいずれか一項に記載の方法により作り出される音声信号。
- 耳に近接して使用するために採用される1以上のスピーカを含む装置であって、請求項1〜8のいずれか一項に記載の方法を実行するための信号処理手段を含む装置。
- 移動電話または携帯電話を備える請求項9に記載の装置。
- 電子音楽楽器を備える請求項9に記載の装置。
- 反響生成器を備える請求項9に記載の装置。
- 信号処理のパラメータを選択する制御手段を含む請求項9〜12のいずれか一項に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0022891A GB2366975A (en) | 2000-09-19 | 2000-09-19 | A method of audio signal processing for a loudspeaker located close to an ear |
PCT/GB2001/004055 WO2002025999A2 (en) | 2000-09-19 | 2001-09-10 | A method of audio signal processing for a loudspeaker located close to an ear |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004509544A true JP2004509544A (ja) | 2004-03-25 |
Family
ID=9899677
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002528241A Pending JP2004509544A (ja) | 2000-09-19 | 2001-09-10 | 耳に近接配置されるスピーカ用の音声信号処理方法 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1319323A2 (ja) |
JP (1) | JP2004509544A (ja) |
GB (2) | GB2366975A (ja) |
WO (1) | WO2002025999A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009531906A (ja) * | 2006-03-28 | 2009-09-03 | フランス テレコム | 空間効果を考慮に入れたバイノーラル合成のための方法 |
JP2012065264A (ja) * | 2010-09-17 | 2012-03-29 | Denso Corp | 立体音場生成装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1519628A3 (de) * | 2003-09-29 | 2009-03-04 | Siemens Aktiengesellschaft | Verfahren und Vorrichtung zur Wiedergabe eines aus einem monauralen Eingangssignal erzeugten binauralen Ausgangssignals |
KR20120004909A (ko) * | 2010-07-07 | 2012-01-13 | 삼성전자주식회사 | 입체 음향 재생 방법 및 장치 |
BR112020018466A2 (pt) | 2018-11-13 | 2021-05-18 | Dolby Laboratories Licensing Corporation | representando áudio espacial por meio de um sinal de áudio e de metadados associados |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0338695A (ja) * | 1989-07-05 | 1991-02-19 | Shimizu Corp | 可聴型室内音場シミュレータ |
US5371799A (en) * | 1993-06-01 | 1994-12-06 | Qsound Labs, Inc. | Stereo headphone sound source localization system |
FR2738099B1 (fr) * | 1995-08-25 | 1997-10-24 | France Telecom | Procede de simulation de la qualite acoustique d'une salle et processeur audio-numerique associe |
GB2337676B (en) * | 1998-05-22 | 2003-02-26 | Central Research Lab Ltd | Method of modifying a filter for implementing a head-related transfer function |
GB2343347B (en) * | 1998-06-20 | 2002-12-31 | Central Research Lab Ltd | A method of synthesising an audio signal |
-
2000
- 2000-09-19 GB GB0022891A patent/GB2366975A/en not_active Withdrawn
-
2001
- 2001-09-10 WO PCT/GB2001/004055 patent/WO2002025999A2/en not_active Application Discontinuation
- 2001-09-10 GB GB0305716A patent/GB2384149A/en not_active Withdrawn
- 2001-09-10 EP EP01965423A patent/EP1319323A2/en not_active Withdrawn
- 2001-09-10 JP JP2002528241A patent/JP2004509544A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009531906A (ja) * | 2006-03-28 | 2009-09-03 | フランス テレコム | 空間効果を考慮に入れたバイノーラル合成のための方法 |
JP4850948B2 (ja) * | 2006-03-28 | 2012-01-11 | フランス・テレコム | 空間効果を考慮に入れたバイノーラル合成のための方法 |
JP2012065264A (ja) * | 2010-09-17 | 2012-03-29 | Denso Corp | 立体音場生成装置 |
Also Published As
Publication number | Publication date |
---|---|
GB0022891D0 (en) | 2000-11-01 |
GB2384149A (en) | 2003-07-16 |
GB0305716D0 (en) | 2003-04-16 |
WO2002025999A2 (en) | 2002-03-28 |
WO2002025999A3 (en) | 2003-03-20 |
GB2366975A (en) | 2002-03-20 |
EP1319323A2 (en) | 2003-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pulkki | Spatial sound generation and perception by amplitude panning techniques | |
Hacihabiboglu et al. | Perceptual spatial audio recording, simulation, and rendering: An overview of spatial-audio techniques based on psychoacoustics | |
JP5285626B2 (ja) | 音声空間化及び環境シミュレーション | |
CN107770718B (zh) | 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频 | |
US20080273708A1 (en) | Early Reflection Method for Enhanced Externalization | |
US6738479B1 (en) | Method of audio signal processing for a loudspeaker located close to an ear | |
Gardner | 3D audio and acoustic environment modeling | |
JPH10500809A (ja) | バイノーラル信号合成と頭部伝達関数とその利用 | |
CA2744429C (en) | Converter and method for converting an audio signal | |
Yao | Headphone-based immersive audio for virtual reality headsets | |
CN113170271A (zh) | 用于处理立体声信号的方法和装置 | |
TW201330650A (zh) | 多聲道降混音裝置 | |
Pfanzagl-Cardone | The Art and Science of Surround-and Stereo-Recording | |
Pulkki et al. | Spatial effects | |
Novo | Auditory virtual environments | |
JP4196509B2 (ja) | 音場創出装置 | |
Liitola | Headphone sound externalization | |
JP2004509544A (ja) | 耳に近接配置されるスピーカ用の音声信号処理方法 | |
Song et al. | Enhancing loudspeaker-based 3D audio with room modeling | |
Pelzer et al. | 3D reproduction of room auralizations by combining intensity panning, crosstalk cancellation and Ambisonics | |
Frank et al. | What we already know about spatialization with compact spherical arrays as variable-directivity loudspeakers | |
Pelzer et al. | 3D reproduction of room acoustics using a hybrid system of combined crosstalk cancellation and ambisonics playback | |
Yuan et al. | Externalization improvement in a real-time binaural sound image rendering system | |
Laitinen | Binaural reproduction for directional audio coding | |
GB2369976A (en) | A method of synthesising an averaged diffuse-field head-related transfer function |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050801 |