JP2004509376A

JP2004509376A - 近似インパルス応答関数を合成する方法

Info

Publication number: JP2004509376A
Application number: JP2002528242A
Authority: JP
Inventors: シボールド，アラステア
Original assignee: セントラル　リサーチ　ラボラトリーズ　リミティド
Priority date: 2000-09-19
Filing date: 2001-09-10
Publication date: 2004-03-25
Also published as: WO2002026000A3; GB0305710D0; WO2002026000A2; GB0022892D0; GB2389288A; EP1374637A2; GB2366976A

Abstract

所与の音場での測定された第１のインパルス応答関数から近似インパルス応答関数を合成する方法は、所与の音場に対するインパルス応答の初期部分をサンプリングするステップと、対応する多重タップＦＩＲフィルタによって提供される複数の基底関数を使用する曲線適合によって所与のインパルス応答のサンプリングされた部分に近似する部分インパルス応答を合成するステップであって、前記部分インパルス応答が散乱人為現象を含むステップと、同じフィルタを使用して次のさらなる部分インパルス応答を合成するステップと、時間の増大と共に振幅が減少する包絡線関数を適合するステップと、聴取可能な人為現象を最小化するため不規則な重なり合いを伴って連続部分インパルス応答を結合することによって長期間にわたる近似インパルス応答を構成するステップとを含む。この合成インパルス応答関数は、元のインパルス応答関数と同様の音響心理学的特性を有し、利用するタップの数を少なくすることができる。

Description

【０００１】
本発明は、所与の音場において測定した第１のインパルス応答関数から近似インパルス応答関数を合成する方法に関する。本発明は特に、制限的ではないが、散乱が存在する音場におけるインパルス応答に関する。
【０００２】
本発明の第１の態様は、頭部関連伝達関数（ＨＲＴＦ）に基づく三次元音声信号処理に関し、そこでは録音された音声が、１対のオーディオ・チャネルだけを使用し、従来の１対のスピーカまたはヘッドホンによって再生することで、聴取者の周囲の完全な三次元空間から作り出されるかのように再生される。
【０００３】
本発明の第２の態様は、ヘッドホン「仮想化」技術に関し、そこでは音声信号は、ヘッドホンを使用して聴取する場合、音源が聴取者の頭の外部から作り出されるかのように思われるように処理される。（現在、従来のステレオ音声の多くは、三次元音声キューを含まないため、聴取者の頭の内部から作り出されるかのような音場を形成する）。この適用例には、１つの音源を空間中の任意に選択した点に位置付ける１チャネル仮想化と、従来のステレオ信号対を聴取者の前の仮想的な１対のスピーカから作り出されたと思われるように処理する２チャネル仮想化とが含まれる。また、この方法は、マルチチャネル映画サラウンド音声の仮想化にも拡張されるが、そこではヘッドホン聴取者が５つかそれ以上の仮想的なスピーカによって取り囲まれているという錯覚を生じる必要がある。
【０００４】
本発明の別の態様は、仮想三次元反響処理への応用に関する。
【０００５】
本出願と共に出願された同時係属特許出願は、（先行技術を含む）効果的なヘッドホン「外在化」（ｅｘｔｅｒｎａｌｉｓａｔｉｏｎ）を生じる際の困難の包括的な説明を提供し、それを首尾よく達成する方法を説明している。本質的に、本発明者が発見したところによれば、音波散乱効果は十分なヘッドホン外在化を達成するために非常に重要である。これが意味するのは、音声が散乱環境で放出される場合（実際の環境の大部分は音波を散乱する物理的な散乱物を含む）、波面は、室内に存在する物体及び表面によって各々が様々に散乱（すなわち、反射、屈折及び部分的に吸収）された多数の基本単位に断片化されつつあるものと考えられる。
この多数の基本要素は最終的には、（散乱経路長に応じて）異なった期間が経過した後聴取者の頭に不規則に到達する。その結果、聴取者への到達音波は、音源自体から直線を通って真っ直ぐ聴取者に達する完全な「第１到達音」によって特徴付けられ、その直後に多数の散乱基本波の到達によって形成される「混乱」期間が続く。注意されたいが、この効果は室内でも室外でも発生する。例えば、森林では、音波散乱が支配的であり、すなわちグラウンド反射（ｇｒｏｕｎｄ　ｒｅｆｌｅｃｔｉｏｎ）はあるが反響はない。
部分的に散乱物のある（ｐａｒｔｉａｌｌｙ−ｃｌｕｔｔｅｒｅｄ）部屋（現実世界の大部分の部屋）では、壁からの反射または反響がある前に散乱信号が体験されるので、やはり散乱が支配的な効果である。本発明者が発見したところによれば、ヘッドホン使用者の音像（ｓｏｕｎｄ　ｉｍａｇｅ）外在化にとって非常に重要なのは混乱期間である。実際には、この期間は第１到達音の後数ミリ秒以内に開始され、わずかに長い期間の間に最大値に増大し、その後数１０ミリ秒の期間にわたって指数関数的に減衰する。これは、１メートルから１０メートルまたはそれ以上の範囲にある（直接音経路と比較した）相対散乱経路長と一致する。通常、混乱信号の包絡線の最大振幅は、直接信号の振幅の５〜２０％である。
【０００６】
本出願人の同時係属特許出願は、音波散乱効果の合成が必要な適用例の様々な実施形態の実際の例を説明している。しかし、こうした実施形態の共通の特徴は、散乱到達音波の混乱期間をシミュレートする「音波散乱」フィルタを必要とすることである。これは、ディジタル有限インパルス応答（ＦＩＲ）フィルタにより、従来の方法で達成されるが、そこでは散乱環境のインパルス応答は、サンプル毎に測定及び再現できる。しかし４４．１ｋＨｚという通常の音声サンプリングレートでは、（例えば、持続期間１００ｍｓといった）十分に長い混乱期間をシミュレートするためには、１つのフィルタは４，１００タップ（ｔａｐ）の長さが必要である（かつ、多くの適用例では、このフィルタが２つ必要である）。これはほぼ２桁分長すぎ、実現不可能である。比較のための例を出せば、ＨＲＴＦ処理がコンピュータのＣＰＵ上で実行される場合、何対かの２５タップＦＩＲフィルタを使用することが一般的であるが、現在の対話形コンピュータ・アプリケーションでは８つ（すなわち２００タップ）を越えるフィルタは許容できず、さもないとＣＰＵの負荷が過重になってしまうであろう。経験則によれば、１００タップ（またはそれ未満）のＦＩＲフィルタに対応する処理要求を有する信号処理エンジンを使用して音波散乱の混乱期間をシミュレートするのが有益である。
【０００７】
以上をまとめると、聴取者の耳で発生する音声波散乱効果の混乱特性を再生する処理効率のよい手段が必要である。本発明の目的は、この目標を達成する方法を提供することである。
【０００８】
本発明の第１の態様によれば、請求項１〜請求項１３に記載の方法が提供される。
本発明の第２の態様によれば、請求項１４〜請求項１５に記載の方法が提供される。
本発明の第３の態様によれば、請求項１６に記載のインパルス応答関数が提供される。
本発明の第４の態様によれば、請求項１７に記載の音声信号が提供される。
本発明の第５の態様によれば、請求項１８に記載の信号処理装置が提供される。
本発明の第６の態様によれば、請求項１９に記載の携帯型オーディオ・システムが提供される。
本発明の第７の態様によれば、請求項２０に記載の移動電話または携帯電話のハンドセットが提供される。
本発明の第８の態様によれば、請求項２１に記載の電子音楽楽器が提供される。
本発明の第９の態様によれば、請求項２２に記載の、音声信号に反響を負加する信号処理システムが提供される。
【０００９】
以下、本発明は添付の概略図を参照し、例示としてのみ説明される。
本発明は、聴取者に知覚される音声波散乱効果を合成する非常に有効な手段を提供する。当初は、音波散乱現象の主要な特徴は未知であり、その効果は実際合成可能なのか、また、もし可能であるとすれば、それは単純化できるのかは全く明らかでなかった。したがって、検査及び実験のため適切な順序の音波散乱が記録され、シミュレーションのための「ベンチマーク」として使用された。
【００１０】
本発明は、基本基底関数から長い複合インパルス応答パターンを形成することに基づいている。基底関数と使用方法を適切に選択することによって、インパルス応答パターンを実際の測定されたデータに正確に一致させることと、合成されたデータに適合させることとの両方が可能である。つまり、これは長いインパルス応答を合成する有効な手段を提供する。
【００１１】
さらに、この経済的な方法に加えて、短い区間の音波散乱データの有限の不規則な反復によって、非常に長い応答をシミュレートするのに必要な信号処理の量をさらに低減する付加的手段が発見された。最後に、反復される区分が、例えば３０ｍｓまたはそれ以上といった十分な長さの持続時間となる場合、反復フィードバック・ループを組み込んで、聴取可能な人為現象を施すことなしにシミュレーションの実効期間を１００ｍｓより大きく延長し、この効果に優雅で自然な減衰を提供することができる。
【００１２】
以下の説明は（以下「ウェーブレット・エンジン」と呼ばれる）本発明の特別な一定の信号処理アーキテクチャ実装に関する。音声信号がウェーブレット・エンジンに供給されると、エンジンとともに調整された必要な長いインパルス応答と重畳され、結果として得られる音声出力信号は必要な音波散乱特徴及び特性を有する。
【００１３】
もちろん、本出願で示される例には多くの変形及び置き換えが可能である。例えば、ウェーブレットの種類と数は変更可能であり、順序制御の作動の仕方は異なってもよい、等である。また、エンジンを動的に変化させることも可能であり、その場合様々なパラメータがリアルタイムで、対話的に修正される。認識されるように、本発明の範囲は本出願で示される特定の例に制限されない。
【００１４】
第１に、音波散乱の重要性が新たに発見されたので、混乱音波散乱期間の様々な特徴の相対的な意義を理解する必要がある。そのために、平均散乱環境（「リスニングルーム」）でのインパルスの音声録音がなされた。この場合、Ｂ＆Ｗ８０１型スピーカによる帯域制限インパルス（８０Ｈｚ〜２０ｋＨｚの範囲に制限）が音源として使用された。このスピーカは音声スペクトル全域にわたって非常に均一でフラットな応答を有するので、比較的「ありのままの」データを提供する。
この音声信号を、耳翼（外耳のひれ）を取り外したＢ＆Ｋ５９３０型人口ヘッドユニットを使用して測定した。ヘッドユニットの両側の２つの録音マイクロホンの間の頭部の「バッフル」効果が含まれ、その一方で耳翼の音響フィルタ効果をなくせるようにこの方法が選択された。これは、拡散ＨＲＴＦと共に使用され、耳にすぐ隣接した空間位置を表す散乱波形を有する必要がある３Ｄ音声合成と共に使用する理想的なデータを提供する。
スピーカと人工ヘッドとの相対位置は、本出願人の同時係属特許出願で説明されているが、本出願の図１に示されているように、音源が人工ヘッドの前方左に−３０°の方位角で位置するものであった。大型のＢ＆Ｗ８０１スピーカ自体、テーブル、機器ラック、いくつかの戸棚を含む室内には平均的な量の「散乱物」が存在し、これらの品目の近似位置も図１に示されている。
録音波形の２つのチャネルを本出願の図２に示すが、２つのうち左チャネルが上で右チャネルが下である。インパルスの第１直接到達音は図の左側に見られるが、その際左チャネルの到達音が先に発生し、２つの中でも大きい。ごく詳細に示すために、第１到達音に続く５０ｍｓだけが示される。実際には、散乱は壁の反射によって伝播し延長されるので、この例では１００ｍｓをわずかに越えるまで認識され続ける反響に組み込まれる。
図３は、図２と同じ波形を示しているが、より詳細に示すため、振幅の尺度が４倍拡大されている。
【００１５】
以下の実験は、最も有効な合成手段を作り出すため、いくつかの特徴の相対的な重要性を確認するコンピュータによるディジタル・エディタを使用し、インパルス応答の録音について実行された。ヘッドホンを使用して音声を聴取した。元の録音では、インパルスは聴取者の頭の外部の、人工ヘッドに対するスピーカの近似位置（図１）で明瞭に聞こえる。
【００１６】
１．初期反射の除去
最初に到達する反射はグラウンド反射と天井反射であり、第１到達音の２．０〜３．５ｍｓ後に発生する。これは図２の、特に上の信号（左または耳に近い方）に明瞭に見られる。これを削除して（すなわち、無音によって置き換えて）インパルスを聴取し元の音と比較した。ほとんど検出可能な差はなく、有害な影響も全くなかった。結論は、先行技術の教示と反対に、初期反射は外在化において重要な役割を果たしていないということであった。以下の実験は、この反射がない状態で続けられた。
【００１７】
２．散乱の持続期間
ヘッドホン聴取音像の外在化を達成するにはどれだけの期間の散乱効果を合成する必要があるかを確認するため、図２及び図３の記録された音波を段階的に１２０ｍｓから２０ｍｓまで切り捨てた。切り捨てが４０ｍｓに達した時、音声の切り捨てが明瞭に聞かれたが、外在化効果はまだ非常に有効であった。切り捨て期間が、７０ｍｓまたはそれ以上とそれほど厳しくない場合、全体的な効果は非常に良好に思われ、優秀な外在化を示し切り捨ては聴取できなかった。結論は、約７０ｍｓまたはそれ以上の合成音波散乱が必要ということであった。
【００１８】
３．必要帯域幅
録音の散乱区分（すなわち、第１到達音以外の全ての部分）を段々に帯域フィルタリングし、高周波数（ＨＦ）成分が徐々に制限されるようにした。
結果は以下の通りであった。
８０Ｈｚ〜１０ｋＨｚ：有意の変化なし。
８０Ｈｚ〜５ｋＨｚ：外在化は損なわれないが、小さな音質の変化がある。
８０Ｈｚ〜３ｋＨｚ：有意の音質変化がある。
混乱データを帯域制限することによって、細部の一部が除去される。データは単純化されるので、合成が容易になる。結論は、第１の場合では、音波散乱合成の帯域幅を５ｋＨｚ以下に制限するのが適度な措置である、ということであった。
【００１９】
４．左右相関
実際には、例えば２００Ｈｚ以下といった低周波数では左右のチャネルの間に大幅な信号相関が予想された。これは、録音マイクロホンの位置−これは耳の物理的間隔を示す−が頭部１つ分の幅だけ離れていたからである。こうした低周波数では、波長が頭部の幅よりはるかに大きく、２つのマイクロホンの間の位相差が少ないため、信号は相互に相関する。
波長がずっと短くなる（例えば２ｋＨｚ以上といった）もっと高い周波数では、頭部シャドウイング（ｈｅａｄ−ｓｈａｄｏｗｉｎｇ）、回折効果及び位相の曖昧性が発生するので、この相関が維持される理由はない。ここで何が重要かを試験するため、録音の音波散乱区分を以下のように修正して元の音と比較した（この場合も初期反射はなしとする）。
１．右チャネルの散乱信号を削除し、左チャネルの散乱信号によって置き換えた。音像は中心に集まったが、やはりかなり良好に外在化されていた。しかし元の音ほどはよくなかった。
２．右チャネルの散乱と左チャネルの散乱を両方とも二者の平均によって置き換えた。音像はやはり中心に集まったが、やはり外在化されていた。
【００２０】
このことからの結論は、モノラルの散乱であっても外在化された音像を作り出す上で十分有力であったが、より「正確な」２チャネル音波散乱合成が好適であるということであった。モノラル合成は、利用可能な信号処理能力が小さい場合に好適かもしれない（将来、モノラル、ＬＦ、同相散乱、及び２チャネルＨＦ散乱について複合システムを形成することが可能になるであろう。これは、全帯域幅２チャネル・システムよりわずかに有効なものになるかもしれない）。
外在化を形成するため音波散乱を使用することについての全体的な結論は以下の通りである。
１．音量レベルの大きな、初期反射は重要でない。
２．音波散乱は、約５ｋＨｚ以下に帯域制限すると、依然として有効でありかつ合成の際の複雑さが減少する。
３．音波散乱期間は数１０ミリ秒またはそれ以上（例えば、６０ｍｓまたはそれ以上）でなければならない。
４．モノラル音波散乱も部分的に有効であるが、２チャネル音波散乱合成が好適である。
【００２１】
以上で波散乱信号の重要な特徴を確認したので、次のステップはデータ区分を表すインパルス応答を合成する手段を発見することであった。したがって、上記の実験に使用されたインパルス音声録音を帯域フィルタリングし（８０Ｈｚ〜５ｋＨｚ）、この信号の波散乱区分の代表的な２チャネル・サンプルを例として選択した。図３を参照すると、散乱の初期段階はグラウンド反射と天井反射が支配的なので、純粋な散乱データを代表していないことがわかる。散乱の最後尾は、振幅が非常に小さいため不適切なので、約１４ｍｓから始まる、散乱が比較的均一になった直後の８ｍｓの期間を選択した。この帯域制限音波散乱の「作業用の」８ｍｓサンプルを図４に示す（わかりやすくするため拡大している）。
【００２２】
本発明者の仮説は、この性質のインパルス応答データの必要な区分がいくつかの小さな、基本基底関数から正確に構成できるというものであった。しかし、音声ストリーム中に小さい、突発的な不連続性があるだけでもクリックノイズやポップノイズといった形態の聴取可能な人為現象が発生することがあるので、この目的でどの種類の基本関数が使用できるかという問題が生じる。本発明者が、本発明で使用するのに好都合だと考える１つの種類の波形があるが、これはｓｉｎθ関数に基づくものである。−９０°〜＋２７０°の間のθの値について正弦関数を使用し、その結果を０〜＋１の範囲内にあるようにずらして半分にすることによって、単位利得を有する平滑なベル形の関数が生成される（「上昇正弦」関数（ｒａｉｓｅｄ　ｓｉｎｅ　ｆｕｎｃｔｉｏｎ）と呼ばれることもある）。この関数は最小及び最大値でゼロ勾配を有する点が変わっており、任意の点で聞き取れないように音声ストリームに導入することができる。図５のグラフで示される、この「理想的な」汎用基底関数を表す数式は次の通りである。
【００２３】
【数１】

【００２４】
さらに、この関数の「入口」と「出口」で勾配がないという特徴のため、この種類の多数の基底関数、すなわちインパルス「ウェーブレット」を互いに重ね合わせることで、聴取可能な人為現象なしに、平滑で予測可能な形でさらに複雑な音波パターンを形成することができる。
【００２５】
厳密に言うと、「ウェーブレット」という用語はインパルス応答の区分のことではなく、波形の断片のことである。しかし、著者はこの時点で「インパルス・ウェーブレット」以上によい語句を考えられないので、以下（厳密さを欠いてはいるが）、数式（１）の形式のインパルス応答または基底関数を定義するために、その用語または「ウェーブレット」という用語を使用する。
【００２６】
上記の基底関数またはインパルス・ウェーブレットは、図６に示される１０タップ構造のようなＦＩＲ形構造を使用して形成されるが、その際タップ係数値（利得値、Ｇ１〜Ｇ１０）は直接関数自体を表す。（当業者が認識するように）音声データがサンプル毎にフィルタのセル（Ｃ１〜Ｃ１０）を通じて転送される際、各段で、各セルのデータ値は関連するタップ値によって乗算されて累算器に供給され、そこで全てのタップの寄与が合計される。この期間（４４．１ｋＨｚの場合１０タップは約２２７μｓである）を有する基底関数またはインパルス・ウェーブレット発生器を生成する必要がある場合、まず必要なことは、この関数が適切な期間にわたるような、各タップに関連するθの想定値を生成することである。ｎタップ発生器について、このθの想定値は次式によって与えられる。
【００２７】
【数２】

【００２８】
（この数式は、先端及び後端のゼロのないウェーブレット関数を定義するが、これらは信号処理システムにおいて冗長であり効率を低下させるものである。）１０タップ・インパルス・ウェーブレット発生器のデータは、上記の数式（１）及び（２）により、下記の表に示される。
【表１】

【００２９】
上記の係数データを使用して単位インパルスが図６の１０タップ発生器に供給されると、まずセル１に置かれ、１．０という値を与えられる。残りのセルの値はゼロなので、累算器の出力値は０．０８となる。次のサイクルでは、１．０はセル２に移動し、今回も他の全てのセルはゼロを含むので、出力は０．２９となり、以下同様に続く。
インパルスを発生器（及び出力）の長さに変換した時、発生器からの時間依存出力は図５に示されるようなものになるが、時間軸（タップ毎の１サンプル期間）は表１の列１及び２による想定θ軸に置き換えられる。このインパルス・ウェーブレットまたは基底関数をいくつかの方法で操作して、さらに大きく複雑なインパルス応答を構成することができる。
【００３０】
第１に、適度に時間遅延された信号を図６のウェーブレット発生器に供給することによって、インパルス・ウェーブレットを異なる時点で「作動させる」ことが簡単にできる。例えば、図７は、４４．１ｋＨｚで動作し、ｔ＝５サンプルとｔ＝２０サンプルの単一インパルスを供給された１０タップ発生器の出力を示す。全体の事象は３０サンプル（０．６８ｍｓ）続く。
【００３１】
インパルス・ウェーブレットの次の操作可能な特徴は出力の大きさである。これはもちろん、負インパルス応答を生成する負係数の使用を含む、係数の調整によって簡単に調整できる。例えば、図８は、ｔ＝１、ｔ＝１７及びｔ＝３３サンプルで作動し、１、２及び３の利得値を有するように逐次調整された３つの１５タップ・インパルス・ウェーブレットを示す。
【００３２】
最後の調整可能なパラメータはインパルス・ウェーブレット全体の持続期間である。本発明では、これによって異なる期間を有するある範囲の応答を生成し、長い応答を構成する元になる柔軟な「ツールキット」を提供することができる。例えば、一連のバイナリ重み付きウェーブレット発生器を有するような、等比数列の多数のタップを有する一連のＦＩＲフィルタは、広い範囲の時間領域インパルス構造を構成することができるため、最良の選択肢となることが多いと思われる。
例えば、５タップ、１０タップ、２０タップ及び４０タップ発生器の同時選択使用である。これは、発生器の必要な期間（及びひいてはタップの数）を選択し、次に、すでに説明したように、数式（２）を使用して、数式（１）が［単位利得」係数を定義する元になる想定θ値を各タップに割り当てることによって簡単に達成される。この例を図９に示すが、そこでは動作の持続期間が増大する３つの連続するインパルス・ウェーブレットまたは基底関数が示される。第１のものはｔ＝１で作動する５タップ・インパルス・ウェーブレットであり、それにそれぞれｔ＝７及びｔ＝１８サンプルで作動する１０タップ及び１５タップのウェーブレットが続く。
【００３３】
一連のインパルス・ウェーブレットを組み合わせて比較的長く複雑なインパルス応答を生成する例として、図１０は長さ８０サンプルの任意の複雑な波形を示すが、これは（５タップ、１０タップ及び１５タップの３種類のみの）わずか６つのインパルス・ウェーブレットを使用して生成したものであった。グラフの後半にかけてのかなり複雑な形状は、選択した関数を適切に組み合わせて配置すれば、無作為な曲線に適合できることを示している。この構成のデータを以下表２に示す。
【表２】

【００３４】
次のステップは、図４の「作業用」ベンチマーク・インパルス波形の一部を検査して、それを合成するのにどの長さのインパルス・ウェーブレットが使用可能かを確認することである。したがって、音声ＷＡＶファイルをテキスト形式で保存し、スプレッドシートに変換した（そこから以下のグラフを導出した）。図４のベンチマーク・インパルス録音の左側チャネルの第１の区分を図１１に示す。目視検査の結果、この構成は５タップ、１０タップ及び１５タップを有する３つの基底関数またはウェーブレット種類だけからなっていると思われた。
【００３５】
５、１０及び１５タップの３つの単位利得インパルス・ウェーブレット発生器のデータをスプレッドシートに追加することによって、任意の経過時間に３つの発生器の何れかまたは全てを開始する列を生成し、出力を合計することが可能であった。このウェーブレット発生器合計を現実のデータと共に（第１の場合１〜１００サンプルの）経過時間の関数としてグラフ化し、次に係数を適当な列に追加して、目視により３つのウェーブレット発生器の合計を現実の録音されたデータに適合させた。
これを行うのは驚くほど簡単であったが、その結果を図１２に示す。ウェーブレット合成データのグラフ（薄い灰色）を録音されたデータ（黒）に重ね合わせた図１３に示されるように、元の録音されたデータに非常に近い適合があることに注意されたい。データ適合処理は８ｍｓの録音の残りの２５６程のサンプルについて続けられ、次の処理は右側チャネルについて繰り返された。左チャネルのデータを表３に示し、右チャネルのデータを表４（及び図１７に）示す（理想的な右チャネル適合は、左チャネルの４３と異なり４７ウェーブレットを要するが、この適合は、４つの最下位（最小振幅）ウェーブレット（１７、２１、３２及び３８）を省略することで、簡単に４３に減らすことができた）。
【表３】

【表４】

【００３６】
重要な結果は、このシミュレーション処理が非常に効率的だということである。すなわち、左チャネルが８ｍｓインパルス応答のシミュレートのために使用するのは７３タップ相当のフィルタリングだけである（３つのウェーブレット発生器全体の３０タップと、開始点用の４３タップ）。通常、８ｍｓのインパルス応答を再現するにはこれよりはるかに多いタップを必要とし、４４．１ｋＨｚでは、８×４４．１＝３５３タップが必要であろう。
【００３７】
認識されるように、図４のこのベンチマーク・データは無作為に抽出された、１つの典型的な例であるにすぎない。これは、遠位耳（ｆａｒ−ｅａｒ）（ＲＨＳ）包絡線振幅が近位耳（ｎｅａｒ−ｅａｒ）のデータより大きいという意味で若干不完全であるが、そうなる理由は、単純に、近位耳の散乱事象は物理的要因によってより近くで発生するのでデータの期間中すでに「減衰モード」に入っていたが、遠位耳の散乱物体はより遠方にあり、（直接音の１４〜２２ｍｓ後の）サンプルの期間中にもまだ強い散乱成分を発生していたからである。散乱データをいくつかの方法で調整して、これ及び他の効果を相殺し、最適な結果を提供することができる。例えば、一方または両方のチャネルのデータを、必要な場合、簡単な一定の換算係数を使用して増大させまたは減少させることができる。また、後で説明するように、時間依存指数因子をデータ係数に適用することで、平滑な「減衰」のためデータの緩やかな指数関数的低下を確保することも可能である。これは、合成の基礎として散乱データの定常状態部分だけが利用可能であるならば有用であろう。もう１つの有意義な調整は、当業者に明らかなように、最終的に適合された係数全体でゼロオフセットがある場合それを補償することである。
【００３８】
上記の８ｍｓの事象は、このパターンを数回繰り返して必要な数１０ミリ秒の混乱を生成することができるので、反復順序制御を試みるのに十分長い音波散乱期間であると判断された。この可能性を試験するため、インパルスの作業用の録音をさらに調査した。
第１に、上記で使用した（１４〜２１ｍｓの）波散乱区分（図４）を格納し、その後全ての音波散乱信号を削除した。次に、格納した８ｍｓの区分を再導入したが、これは直接到達音の約３ｍｓ後に開始し、連続５回繰り返した。自然の減衰をシミュレートするように、この新しい、人工的な音波散乱領域に指数関数的なフェードを適用した。全体の波形はここでほぼ元のもの（図２及び図３）と外観上同様になった。
しかし、聴取すると、インパルス音の外在化は満足の行く程度は損なわれていないものだったが、同じ区分のインパルス応答を規則的に反復使用していることが聞き取れるという、不快な「フラッタ」（ｆｌｕｔｔｅｒ）人為現象が生じた。これを克服する試みとして、作業を繰り返したが、７ｍｓに開始されるブロック２、１１ｍｓのブロック３、１７ｍｓのブロック４及び２５ｍｓのブロック５（及びもちろん、３３ｍｓの終端）からなる任意の、不規則な一連の重なりを使用した。これはフラッタ人為現象を低下させる上で非常に功を奏した。この３３ｍｓのシーケンスは十分に長く（後で説明するような、フィードバック・ループに対応して）少なくとも１回は繰り返せるものであると考えられた。これも試験し、成功であった。
（１回の単一フィードバック・サイクルを含む）この追加段階を考慮すると、本発明は６６ｍｓの混乱データを合成し、その際使用するのはわずか７９タップ相当（すなわち、３つのウェーブレット発生器全体の３０タップと、開始点用４３タップ、不規則順序制御用５タップ及びフィードバック用１タップ）である。通常、６６ｍｓのインパルス応答を再現するにはこれよりはるかに多いタップを必要とする。４４．１ｋＨｚでは、６６×４４．１＝２，９１１タップが必要なので、効率比は約３７：１である。本発明は、ここで引証した例では、従来の方法より３７倍強力ということになる。
【００３９】
この信号処理アーキテクチャを図１４、図１５及び図１６に示し、「ウェーブレット・エンジン」と呼ぶ。これは、（ａ）ウェーブレット発生器アレイ（３段）、（ｂ）ウェーブレット作動シーケンサ、（ｃ）不規則反復シーケンサ、及び（ｄ）フィードバック・ループという４つの主要要素を備えている。
【００４０】
（ａ）ウェーブレット発生器アレイ
図１４は、図６とその関連説明による５タップ、１０タップおよび１５タップ発生器（それぞれＰ、Ｑ及びＲ）を備える３段インパルス・ウェーブレット発生器アレイを示す。各発生器はそれぞれ個別の入力を有し、３つの発生器の出力を合計して最終的な音声出力ストリームを生成する。
【００４１】
（ｂ）ウェーブレット作動シーケンサ
図１５（下側）は、タップ付き遅延線路（７３タップ、８ｍｓ長）の形態のウェーブレット作動シーケンサを示す。オーディオ・サンプルは、表３（右側列）のデータによってタップをつけられ、各タップが第３列の値による個々の乗数（図示せず）を供給する線路に供給され、その後サンプルを供給する全てのタップからのデータを合計する、列２に示されるようなそれぞれの共通バスを介してアレイ中の適当なインパルス・ウェーブレット発生器（Ｐ、ＱまたはＲ）に供給される。
【００４２】
（ｃ）不規則反復シーケンサ
これは図１５の上側に示されており、やはりタップ付き遅延線路であるが、３３ｍｓ長で、（ｔ＝０タップ以外に）７ｍｓ、１１ｍｓ、１７ｍｓ及び２５ｍｓの４タップを有する。各タップは、経過時間（下記）の関数としての指数関数的減衰により信号を減衰させる乗数を提供する。５タップ全ての出力を合計してウェーブレット作動シーケンサに供給し、８ｍｓ合成ブロックの不規則反復を生成する。
【００４３】
（ｄ）フィードバック・ループ
フィードバック・ループは、時間相関指数関数的減衰を示すように選択された減衰器（Ｆ１）を介して、不規則反復遅延線路（ｔ＝３３ｍｓ）の出力を音声入力に戻す単一経路を備える。
【００４４】
ここで、特に音波散乱の開始と減衰に関連して、音波散乱包絡線の全体的な性質と形状を考慮する必要がある。
【００４５】
図２及び図３の波形を検討すると、音波散乱の開始は直接信号のほぼ直後、１〜２ミリ秒以内であることがわかる。散乱信号の混乱性は、およそそれぞれ約２．０ｍｓと３．５ｍｓの、天井と床からの２つの反射の時間に明瞭に見え始める。これは完全に、経路長の考察から予想される通りである。しかし、個々の時間または特定の開始包絡線を散乱波に割り当てることは困難なので、インパルス・ウェーブレット・エンジンにおいてこれをどのように実現するか、すなわち散乱をフェードインさせるか、それともフェードインなしに散乱を作動させるか、という問題が生じる。
【００４６】
こうした最初の初期反射は、ヘッドホンを介してモニタする場合、上記で説明したように、外在化にとって全く重要でないので、そのシミュレーションを省略する方が簡単で効率的である。散乱をフェードインなしで、直接音の数ミリ秒後に開始することが可能であれば、合成散乱の急速な開始が最初の反射にとって変わるようになり、優秀な結果を生じる。これはすぐに２つの目標を達成するので、（ａ）初期反射のシミュレーション、及び（ｂ）散乱フェードインの必要はなくなる。
【００４７】
上記のように、フェードインは省略可能であるが、やはり有用な選択肢でもある。例えば、録音されたインパルスを（音波散乱を伴う）合成されたインパルスと比較するといった、「極端な」評価条件下では、数ミリ秒の期間にわたるフェードインを使用すると、わずかだがより現実感のある音が生じる。この合成は反射のシミュレーションがない（すなわち、直接音三次元配置とその関連散乱だけからなる）ので、その点で現実に完全に忠実なものではなかったことを念頭に置かれたい。これは純粋に音波散乱効果を評価及び最適化するために企てられたものであった。
【００４８】
散乱信号の大まかなフェードインは、図１５Ｂに示されているように、図１５をわずかに改良することによって達成できる。それには、（ａ）減衰器Ａ１の後の不規則反復遅延線路の一番初めの出力と、通常その出力が供給される第１の加算ノードとの間に新しい加算ノードを追加することと、（ｂ）新しい反転減衰器“ｉｎｉｔ”を介し、新しい加算ノードにも供給される音声入力からの直接信号供給とが必要である。通常、反転減衰器“ｉｎｉｔ”の伝達関数は、例えば、−０．５でよい。
【００４９】
この代替実施形態は以下のように動作する。エンジンの音声入力に到達する、単一の単位インパルスについて考察する。この改良を行わない場合、このインパルスは、利得Ａ１＝１を有する第１のタップを介して（このタップはｔ＝０にあるので）直接ウェーブレット作動遅延線路に伝播し、単位利得を有する、最初の８ｍｓの散乱波データである、ウェーブレットの第１のバッチ（ｂａｔｃｈ）を生成する。それが反復遅延線路を横断してタップ番号２に至ると、インパルスは利得＝Ａ２を有するウェーブレットの第２のバッチを作動させ、以下同様に続く。インパルスが反復遅延線路の末端に達すると（ウェーブレットの５つのバッチすべてを作動させると）、減衰器Ｆ１を介して入力に戻され、今度はレベルを下げて、サイクルを再生し、以下同様に続く。以上をまとめると、ウェーブレット・バッチは以下の表５のような利得係数を有する。
【表５】

【００５０】
一番初めのバッチ（０〜８ｍｓ）が全てのバッチの中で最大の利得を有することに注意されたい。ここで、上記の改良が行われた状況について考察する。ここでもまず、エンジンの音声入力に到達する単一の単位インパルスについて考察する。このインパルスは、利得Ａ１＝１を有する第１のタップを介して（このタップはｔ＝０にあるので）直接新しい加算ノードに伝播するが、また反転減衰器“ｉｎｉｔ”を介して同じノードにも伝播する。
従って、加算ノードの出力は、（｛１×Ａ１｝＋｛１×−（ｉｎｉｔ）｝）である。例えば、反転減衰器が−０．５の伝達関数を与えられているならば、Ａ１を介して移動するインパルスはＡ１（すなわち＝１）の利得を伴って加算ノードに到達するが、反転減衰器を介して移動するインパルスは−０．５の利得を伴ってノードに到達する。したがって、ノードの出力は１−０．５＝＋０．５になる。これはウェーブレット作動遅延線路への最初のインパルスだけを５０％減衰する。
しかし、不規則反復遅延線路に沿って伝播するインパルスは依然として単位利得である。そのインパルスが反復遅延線路の末端を出て、Ｆ１を介してその入力にフィードバックされるとき、“ｉｎｉｔ”を経由した初期信号は存在しないので、第２サイクルの第１のウェーブレット・バッチの利得は（Ａ１×Ｆ１）となり、これは改良を行わない場合と同じである。その結果、フェードイン効果はこの時点（ｔ＝３３ｍｓ）での信号の平滑な指数関数的減衰に干渉せず、第１サイクルの初期バッチの間だけ存在する。フェードイン改良を行った場合、ウェーブレット・バッチは以下の表６のような利得係数を有する。
【表６】

【００５１】
重要なことは、散乱信号が、好適には指数関数的に、波面が拡大しより大きな面積を占めることに伴う原信号強度の低下に対応して時間と共に漸減するということである。また、もちろん、一部のエネルギーは、音響波が散乱物体及び表面と相互干渉する際に吸収される。したがって、散乱波データの包絡線は、散乱物体の性質、その音源及び聴取者への近さ等に依存し、その結果、指数関数的減衰に関する時定数は音響的状況によって変化する。
【００５２】
再度、図２及び図３の波形を検査すると、波形散乱減衰の指数関数的性質は明らかであった。時定数を変化させることで、異なる空間効果が達成できるので、実際に選択する値は重要な特徴ではない。実際、ユーザが異なれば異なる値を好むこともありうる。しかし、平滑で累進的で明らかに識別できる減衰を達成するには、時間遅延信号ブロックの様々な減衰率を計算する際の時定数と調和していることが重要である。
【００５３】
時間Ａｔ及びＡ０の関数としての散乱信号の包絡線の振幅を表す一般的な数式として、ｔ＝０での値を次式のように書くことができる。
【数３】

【００５４】
図３から、音波散乱振幅は約１０ｍｓの期間に半分になることがわかる。したがって、１０ｍｓ後にＡｔがＡ０の５０％であれば、αの値は０．６９ｓ^−１と計算される。この特定の時定数を選択すると、数式（３）とα＝０．６９ｓ^−１を使用して全ての時間遅延信号ブロックについて減衰率を計算できるようになる。関連する減衰器は不規則反復遅延線路（図１５のＡ１〜Ａ５）のものと総合フィードバック減衰器Ｆ１（図１５）とである。関連時間遅延と計算された利得係数は以下の通りである。
【００５５】
【表７】

【００５６】
ウェーブレット・エンジン全体（フェードイン改良は行わない）を、わかりやすくするため図１６の１つの構成図に示す。直接音声信号は数ミリ秒時間遅延され（図示せず）、第１の加算ノードを介して不規則反復時間遅延線路に供給され、そこからすぐに図示される第１のタップ及びＡ１を介して第２の加算ノードに供給され、その後４つの時間間隔の後他のタップから関連する利得係数（Ａ２〜Ａ５）によって供給される。
不規則反復時間遅延線路からの出力は減衰器Ｆ１を介して第１の加算ノードにフィードバックされ、再生経路を提供する。第２の加算ノードからの出力はウェーブレット作動遅延線路に供給される。これは、波形散乱データに基づいて事前プログラムされたパターンによって、３つの異なるインパルス・ウェーブレット発生器のアレイを提供するように構成される。ウェーブレット発生器からの出力は最終ノードで合計され、そこから供給された信号は、本出願人の同時係属特許出願にしたがい元の直接音声信号と結合（図示せず）される。
【００５７】
本発明は非常に有効なので、ＨＲＴＦ処理を使用せずにヘッドホン音像の前方外在化を達成できることが発見された。これは図１８に示すように達成できるが、そこではモノラル音源を２つの信号に分割し、その一方には０．２ｍｓの時間遅延と高域遮断フィルタ（上のロールオフは例えば５ｋＨｚ）をかける。
これは遠位耳両耳間時間遅延と３０°方位角ＨＲＴＦのスペクトル整形（ｓｐｅｃｔｒａｌ　ｓｈａｐｉｎｇ）ごく大まかな単純化である。次に、２つの信号を、一方が表３の左チャネル・データを使用し、もう一方が関連する右チャネル・データを使用する図１６による１対のインパルス・ウェーブレット・エンジンに供給する。ウェーブレット・エンジンに並行する直接音経路が存在する。その結果をヘッドホンで聴取すると、音像は約３０°の方位角で前方に位置し、非常に良好に外在化される。注目に値するのは、これによって、比較的小さい量の信号処理能力を使用してＨＲＴＦによらない仮想化が達成でき、ＨＲＴＦ処理の場合避けられない中域音の強調なしに、「中庸な音」の結果を提供することである。これは本出願人の同時係属特許出願でさらに詳細に説明されている。
【００５８】
本発明は、その効率のため、同時係属特許出願ＧＢ０００９２８７．４で説明されたように、携帯電話における仮想化のための音声波散乱効果の提供に適している。
【００５９】
本発明は、従来の反響システムに容易に含めることができ、より平滑でより自然な音を提供する。この実現は簡単であり、ウェーブレット・エンジンは、簡単に反響エンジンの前のプリプロセッサの役目を果たす。最も高度なバージョンでは、本発明はフィードバック線路とクロスフィード要素（ｃｒｏｓｓ−ｆｅｅｄ　ｅｌｅｍｅｎｔ）で使用できる。最も簡単な実装では、図１４の３つのうちの１つのような、単一ウェーブレット発生器を反響プリプロセッサとして使用する。
【００６０】
ウェーブレット・エンジンの様々なパラメータをリアルタイム動作で修正及び調整して、例えばコンピュータ・ゲームで使用する対話形システムを形成してもよい。
【００６１】
ウェーブレット・エンジンは、（反響ユニットが事前設定オプションを有するのと同様に）ある範囲の音響条件に対応するある範囲の事前設定パラメータ集合を備えてもよい。
【００６２】
本発明は、信号処理の要求の点で、最新技術の個人用ステレオ・プレーヤー（ミニディスク、ＭＰ３、ＣＤ等）に組み込む上で十分に効率的である。また、本発明は、ヘッドホンを使用する「無音」練習のため最新技術の電子音楽楽器（キーボード、管楽器、バイオリン等）に組み込む上でも十分に効率的である。
【００６３】
上記で説明された本発明は、長いインパルス応答が必要な音波散乱効果の合成を目的としていたが、本発明はＨＲＴＦ処理に適用してもよく、その場合達成すべき信号処理能力はかなり低減される。
これは適当な長さのウェーブレット（または基底関数）発生器の使用によって簡単にもたらされる。実際には、ＨＲＴＦは、通常長さ２５〜１００タップの２つのＦＩＲフィルタ・ブロックと、（６８０μｓ、４４．１ｋＨｚサンプリングレートで約３０サンプルまでの）時間遅延線路とを備える。本発明の実施形態は、各ＦＩＲフィルタ・ブロックを上記で説明したウェーブレット発生エンジンによって置き換えるものであり、ウェーブレット発生器要素は複数のＨＲＴＦに対して共通なので、ブロック毎に必要なタップ付き作動遅延線路は１つだけであるという利点を有する。
【００６４】
例えば、通常のＨＲＴＦフィルタ（耳の近く、方位角３０°）の５０タップＦＩＲインパルス応答を図１９（下のグラフ）に示す。この曲線は、隣接するグラフと分離し視覚的な比較を容易にするため−２０００単位ずらしてある。その特徴を検討すると、３つのウェーブレット発生器、すなわち３、４及び５タップ形だけを使用して再生できることがわかる。
したがって、これらの形についてウェーブレット発生器係数を計算し（以下表８、表９、及び表１０に示す）、すでに説明した方法を使用してフィルタ・インパルス特性の適合を行った。近位耳ＨＲＴＦフィルタを図１９に示すが、ここでは上のグラフはウェーブレット発生器（発生器用の１２に加えて１３タップだけを必要とする）のインパルス応答を示し、下のグラフは、従来使用されていた種類の５０タップＦＩＲフィルタのインパルス応答を示す。
全体として、本アプローチが必要とするのはこの通常の例の場合先行技術の処理能力の５０％だけである。図２０は遠位耳フィルタについて同じグラフを示すがこの場合必要なのは１４タップ（＋１２）だけである。図１９及び図２０について使用されたフィルタ係数をそれぞれ表１１及び表１２に示す。
【００６５】
しかし、真の利益は、多数のチャネルを有する必要があるときに生じるが、これは、ウェーブレット発生器要素を全てのチャネルで共有できるからである。近位耳処理のため１つのウェーブレット発生器集合が必要であり、もう１つが遠位耳処理のために必要である。例えば、「５．１サラウンド」システムの仮想化のためのＨＲＴＦフィルタリングについて考察すると、その場合５つの仮想音源を生成する必要がある。先行技術の処理負荷は５×５０タップ（サイド毎）、すなわち２５０タップであろうが、本発明は同じものを（５×１３）＋１２タップ＝７７タップで達成できるので、３１％の信号処理能力しか必要としない。
【表８】

【表９】

【表１０】

【表１１】

【表１２】

【００６６】
図２１は、すでに行われた説明によって認識されるようなＨＲＴＦ処理装置の２分の１（例えば、近位耳）について必要な構成を示す。入力音声は（この場合）５０タップの遅延線路に沿って伝わる。これは指定された作動点（表１１及び表１２）でタップを出て、必要な振幅（列３）に応じて利得調整を受けた後、列２により、３つの共通共有バスの１つに合計される。これらのバスは各々関連するウェーブレット発生器（列２）を供給し、３つの発生器の出力を全て合計して最終オーディオ出力を形成する。
【００６７】
認識されるように、以上説明した全ての実施形態では、利得調整され、反復信号で普通聴取される「フラッタ人為現象」を避けるため不規則に重ね合わせた同一部分のインパルス応答関数から、長期間にわたる合成インパルス応答関数を生成した。次の実施形態は、このフラッタ人為現象をさらに軽減するシステムを説明する。
【００６８】
このさらに別の実施形態を図２２、図２３及び図２４を参照して以下説明する。これらの３つの図は、このシステムがすでに図１６によって説明されたものから開発されたことを例示している。改良点は、図１５で元の形で示されるインパルス・ウェーブレットの順序制御と特性に関する。
【００６９】
本発明は、通常持続期間８ｍｓの、散乱データのブロックのインパルス応答の合成に基づき、特に、散乱データのより長いインパルス応答の合成を実際に達成する前記ブロックの反復使用に関する。８ｍｓという期間は、十分な時間依存変化を伴う十分に自然な信号を提供することと、それを実現するのに必要な信号処理負荷を最小化することとの間のほどよい妥協点である。８ｍｓブロックの規則的順序制御は「フラッタ」人為現象として聴取可能だったが、不規則な順序制御はかなり改善された結果を提供したことを想起されたい。とはいえ、結果は全く完璧ではなく、ピンクノイズの反復８ｍｓブロックを使用したクリティカルな聴取試験では人為現象が残ることが示される。
【００７０】
この人為現象を完全に除去するには、おそらく、少なくとも反復要素が周波数または相対振幅またはそれらの両方について可聴限界以下になるまで、反復要素を完全に除去する必要がある。もし散乱データの合成８ｍｓブロックを３２ｍｓ間で延長してこれを反復して使用することが可能であれば、反復の周波数はわずか３１Ｈｚとなり、最初の反復はフィードバック減衰器を介して発生し、（減衰半減期を１０ｍｓと想定すれば）その振幅は元の振幅のわずか１０％に減少するであろう。
これはきわめて満足すべきものであり、聴取可能な人為現象を完全に除去するものとなる。しかし、これにはウェーブレット作動遅延線路を８ｍｓから３２ｍｓに延長し、４倍の数のタップを使用する必要がある。例えば、図４の右チャネル・データに関連する表３の４３タップは１７２タップとなるので、ウェーブレット・エンジンははるかに大きな信号処理負荷を要求することになる。それと対照的に、不規則反復ブロック実装の元の構成が要求するのは７９タップ（３つのウェーブレット発生器全体の３０タップと、開始点用４３タップ、不規則順序制御用５タップ及びフィードバック用１タップ）であった。前に記載したように、現在の信号処理能力を念頭におくと、目標は、１００より少ないタップを使用する音波散乱合成器である。
【００７１】
信号処理要求を大きく増大することなく、長い非反復音波散乱データ・ブロックを提供するという目標は、交互に使用される１対のウェーブレット作動遅延線路を利用して、サイクルの冗長な部分の間、「使用していない」線路のタップ点と散乱データに関連する係数を動的に変更することによって達成される。この結果、以下示すように、さらなる経済性が得られる。
【００７２】
第１に、図２２は、本発明の現実的な実施形態を示す。第１の加算ノードに供給された後、（例えば、長さ８ｍｓの）１次遅延線路と、（やはり長さ８ｍｓの）２つのウェーブレット作動遅延線路との両方に供給される到来インパルスについて考察する。
すでに説明したように、各ウェーブレット作動遅延線路は、異なる所定の音波散乱インパルス特性（例えば、表３）によっていくつかの異なるタップを有し、各タップは関連する利得／減衰率を有し、Ｐ、Ｑ及びＲと表示されたいくつか（この例では３つ）のウェーブレット発生器入力バスの１つに信号を供給する。
ここで、例えば、図２２では、ウェーブレット作動遅延線路＃１の音波散乱データは、記録または合成された音波散乱データの３２ｍｓ期間の最初の８ｍｓ期間に関し、ウェーブレット作動遅延線路＃２の音波散乱データは、記録または合成された音波散乱データの３２ｍｓ期間の次の８ｍｓ期間に関する。
ウェーブレット作動遅延線路＃１からのウェーブレット発生器入力バスをＰ１、Ｑ１及びＲ１と表示し、ウェーブレット作動遅延線路＃２からのウェーブレット発生器入力バスをＰ２、Ｑ２及びＲ２と表示する。
２組のバスの対はどちらも、ウェーブレット・エンジンの一部として制御されるクロスフェード素子（ｃｒｏｓｓ−ｆａｄｉｎｇ　ｄｅｖｉｃｅ）に信号を供給する。クロスフェード素子は、前と全く同様にウェーブレット発生器（図１４）に信号を供給する１組の出力バスを有する。
クロスフェード素子は、それぞれの入力バス・データを比例的に加算し、結果をそれぞれの出力バスに供給する。この素子の目的は、聴取可能な人為現象を導入せずに、２つのウェーブレット作動遅延線路バス集合の一方から他方へ、ウェーブレット発生器入力を累進的にフェードすることである。
実際には、４４．１ｋＨｚのサンプリング周波数で、５０〜１００サンプルのどこかの期間にわたる線形クロスフェードが、人為現象を避ける十分な長さであることが判明している。本発明は、１次直接音でなく、２次信号を扱うので、さらに要求が少なく、５０サンプルの最小クロスフェード期間で十分である。
したがって、例えば、遅延線路＃１から遅延線路＃２への５０サンプル・クロスフェード期間中、各出力バスは２つのそれぞれの入力バスの加算混合信号を伝え、比例値は、以下の表１３に示すように、増分（または減分）２％で、規則的に（遅延線路＃２から）増大または（遅延線路＃１から）減少する。
【表１３】

【００７３】
ウェーブレット作動遅延線路をそれぞれのバスにリンクする１組の散乱データ値を必要とする代わりに、ここで必要なのは、例えば、各々が表３の形式の、４つの異なるデータ集合である。これは、例えば、期間０〜８ｍｓ、８〜１６ｍｓ、１６〜２４ｍｓ及び２４〜３２ｍｓに対応するデータ集合といった、３２ｍｓ散乱期間の測定または合成の何れかによって得られる。
【００７４】
したがって、開始時点では、第１の（０〜８ｍｓ）データ集合を遅延線路＃１にロードし、第２の（８〜１６ｍｓ）データ集合を遅延線路＃２にロードして、＃１バスのデータは全て出力に伝え、＃２バスのデータは全て伝えないように、クロスフェーダを設定する。
次の３０６サンプル期間の過程では、インパルスは＃１及び＃２両方の遅延線路に沿って並行して移動するが、（クロスフェーダに選択されているため）ウェーブレットは＃１バスだけから生成される。
３０７番目のサンプルで、クロスフェード・サイクルが開始されて次の５０サンプルの過程で実行された後、今度は遅延線路＃２だけがウェーブレット発生器を供給する。この時点で、最初のインパルスは、１次遅延線路出力から第１の加算ノードを介してその入力に、また両方のウェーブレット作動遅延線路にも再生式にフィードバックされる。
これによって前と同じように処理が続けられるが、クロスフェードが選択されているため、線路２が「活動中」となり、線路＃１が「非活動中」となり、第２の散乱ブロック（８〜１６ｍｓ）の特性が生成される。この段階で、第３（１６〜２４ｍｓ）データ集合を、次のサイクルの準備として遅延線路＃１にロードする。ここでも、第２サイクルのサンプル３０７の後、今度は線路＃２から線路＃１に戻るクロスフェードが開始されるので、第３サイクルでは第３散乱ブロック（１６〜２４ｍｓ）の特性が生成される。
この（第３）サイクルの間、最後の第４データ集合が遅延線路＃２にロードされ、処理が続けられるので、４つの８ｍｓサイクルの終了時には、完全な３２ｍｓ散乱事象が反復なしに合成された。しかし、１次遅延線路中にフィードバック要素があるため、処理は、自然な減衰を伴う形で無限に続けられるので、音波散乱合成の現実的な減衰プロファイルが生成される（上記の説明はわかりやすくするため単純化されており、クロスフェード中の散乱データの厳密な整合はこの段階では無視されている）。
【００７５】
本発明は、図２３に示すように、さらに単純化してもよい。２つのウェーブレット作動遅延線路＃１及び＃２は同じ音声データを伝えているので、２つのうち１つは冗長である。タップを単一の遅延線路から導出し、必要に応じて必要な時に実現してもよい。従来、音声データは循環読み出し／書き込みバッファ中に存在し、タップは単にバッファ内のアドレス・ロケーションを表すだけである。その結果、図２３は、図２２のものと同様に効果的な、本発明の単純化された実施形態を示す。
【００７６】
注意されたいが、１次遅延線路は元々１つの３３ｍｓ期間中の不規則インパルスの生成を目的としていたので、短縮することはできなかった。しかし、ここでは非反復データ・ブロックの規則的な反復を扱うので、規則的な反復を１次８ｍｓ遅延線路（図２２及び図２３）によって生成する。このため、かなりのデータ・メモリを要求する長い（３３ｍｓ）遅延線路の必要を除去した。しかし、さらに別の経済性が達成可能である。このアーキテクチャはさらに、図２４に示すように単純化してもよい。ウェーブレット作動遅延線路からのフィードバック信号を使用することで、１次遅延線路は冗長になるので、システムはさらに単純化される。
【００７７】
ここで、３５６サンプル毎に５０サンプルにわたって発生するクロスフェード・サイクルの間、信号処理負荷はわずかに増大し、初期点タップに対して約１４％の増大を示した。ここでの負荷は、３つのウェーブレット発生器全体の３０タップと、開始点用４３×１．１４タップ、不規則順序制御用はなし、及びフィードバック用１タップで、（以前の７９タップと比較して）全部で８０タップである。
【００７８】
この改良型構成は、音波散乱データの形式について、以下のようなわずかに異なるアプローチを必要とする。音波散乱データの８ｍｓブロックが不規則に繰り返された、本発明の第１の実施形態では、散乱の包絡線が時間依存指数関数的減衰特性を有する必要があった。
すでに説明したように、データが直接音到達に続く最初の数ミリ秒間に獲得されたのでないとすれば、これは、現実の記録された信号と、有限要素モデルからの合成信号との両方に本来備わっている特性である。動作の際、減衰器Ｆ１を介した反復フィードバックによって、各反復ブロックは比例利得低下の対象となり、合成されて指数関数的包絡線を生成するようになる。もちろん、音源データの時定数とフィードバック・システムの時定数とは調和していることが望ましい。
理想的には、それらは同一であるべきである。もし、合成散乱の減衰特性が音源データ固有のものと異なることが必要ならば、小さな矛盾が生じるであろう。
【００７９】
実際には、本出願中の図に見られるように、８ｍｓデータ・ブロック中に示された固有の指数関数的減衰は幾分小さく、音波データ自体の不規則性によって視覚的に隠されている。しかし、本発明の改良型構成は、例えば持続期間３２ｍｓといったより長いデータ・ブロックの特性付けを必要とし、そのような比較的長い期間にわたって示される指数関数的減衰はかなり大きい。その上、このデータをより小さいブロック（例えば、各々持続期間８ｍｓの４つのブロック）に区分して、各ブロックが初期振幅と減衰時定数とについて同じ包絡線特性を有し、反復フィードバック減衰率が合成データの利得のブロック毎の連続低減を担うようにする必要がある。
【００８０】
散乱データを適切にフォーマットするため、以下の方法が使用される。
１．音波散乱インパルス応答の適切な３２ｍｓの区分を記録または合成し、音源信号として使用する。これは通常、図２５に概略を示すような振幅包絡線を有することになる。
２．音源信号に、信号包絡線がフラットになるような時間依存対数的利得増大（「フェードイン」）をかける。すなわち、包絡線振幅は３２ｍｓの期間を通じて一定なので、信号の平均振幅は期間の最初と同様、最後の値とも同じ大きさである。これは、図２６に示す「フラット包絡線音源」信号となる。
３．すでに説明したように、曲線適合によって、フラット包絡線音源信号を使用してウェーブレット・エンジン用のタップ・データ（タップ・タイミング位置及び利得係数）を生成する。これがフラット包絡線タップ・データである。
４．３２ｍｓ期間にわたって延びるフラット包絡線タップ・データをいくつかの連続区分に分ける。例えば、４つの８ｍｓ区分があり、それぞれ“β１”、“β２”、“β３”及び“β４”と呼ぶことにする。
５．各区分“β１”、“β２”、“β３”及び“β４”中のタップ振幅データを、必要な減衰時定数に応じた時間依存指数関数的減衰率の対象とする。これは、数式２を使用してブロック毎に個別に実行され、各ブロック中の最初のサンプルがｔ＝０になるように定義すると、図２７に示すように、４つのデータ・ブロックに対応する信号包絡線は同一になる。
【００８１】
例えば、もし散乱データが１５ｍｓ半減期を必要とし、図２３の実施形態により４つの８ｍｓブロックを使用する必要があるならば、次の計算を使用する。
数式（２）から、１５ｍｓの半減期に関連する指数関数的時定数は約４６．２ｓ^−１なので、数式（２）は次式のようになる。
【数４】

一例として表３のデータを参照すると、各タップ・データ集合は、ウェーブレット種類、振幅及び、データ・ブロックの開始以来の経過サンプル数によって表された作動点（ＴＰと呼ぶ）を備える。サンプリング・レートが４４．１ｋＨｚの場合、数式（３）は次式のようになる。
【数５】

【００８２】
これは、減衰率Ａｔが、作動点ＴＰの関数として、全てのタップそれぞれの振幅係数に適用されることを表している。例えば、１５ｍｓ半減期の例（Ａ０は１であると想定）を使用すると、ＴＰ＝０の時、Ａｔは１．００に等しく、ＴＰ＝１００の時、Ａｔは０．９０に等しい。ＴＰ＝３５６の時（すなわち、ブロック中の最後のサンプル）、Ａｔは０．６９に等しく、これはもちろん、フィードバック率の値Ｆ１に等しい。次に、減衰率Ｆ１（この場合０．６９に等しい）を使用して第２のブロックについて振幅を乗算すると、これは０．６９で始まり（０．６９）^２まで減少する。減衰率Ｆ１を使用して第３ブロックについて再び振幅を乗算すると、これは（０．６９）^２で始まり（０．６９）^３まで減少し、以下同様に、４ブロックにわたる振幅の指数関数的減衰が与えられる。
【００８３】
以上をまとめると、このさらに別の実施形態はほぼ追加処理負荷なしに、３３ｍｓの遅延線路を節約しつつ、完全な非反復音波散乱エンジンを提供する。
【００８４】
本発明を実行する信号処理装置は、ＭＰ３プレーヤーまたはＣＤまたはミニディスク・システムといった携帯型オーディオ・システム、電子キーボード／シンセサイザといった音楽楽器、移動電話または携帯電話、またはヘッドホンを使用する任意の装置に組み込んでもよい。
【００８５】
混乱音波データの合成が有利であるほかの分野も存在し、本発明はそこでも適用例を有する。例えば、ソナーまたはレーダ用の散乱波の合成である。明らかに、電磁界散乱の場合、聴取可能なクリックノイズやポップノイズが問題にならないので、上昇正弦以外の関数（例えばガウス関数）を使用すればよい。
【００８６】
注意されたいが、本発明の様々な構成要素は、時間遅延の長短、インパルス・ウェーブレット（基底関数）発生器の数の大小等について、多くの異なる形で構成してもよい。本出願に記載の例は、現実の録音されたデータに基づく通常の構成を実証する例として選択されたものであって、その動作は合成とヘッドホンを使用する厳密な聴取によって確認されている。特に、８〜３２ｍｓの持続期間を有する部分インパルス応答関数を選択したことは純粋に例示目的である。
最後に、添付の要約書は引用によって本出願の記載に援用する。
【図面の簡単な説明】
【図１】
インパルス応答測定がなされた部屋の平面図である。
【図２】
記録された左右音声オーディオ信号を示す図である。
【図３】
４倍に拡大した図２のデータを示す図である。
【図４】
帯域フィルタリングされた図３のデータの８ｍｓ部を示す図である。
【図５】
上昇正弦基底関数を示す図である。
【図６】
１０タップＦＩＲフィルタを示す図である。
【図７】
２回作動した図６のフィルタの出力を示す図である。
【図８】
異なる利得係数で３回作動した１５タップＦＩＲフィルタの出力を示す図である。
【図９】
異なる時間に作動した５タップ、１０タップ及び１５タップＦＩＲフィルタの出力を示す図である。
【図１０】
マルチタップＦＩＲフィルタによって生成された６つの基底関数の重ね合わせによって生成される複合波形を示す図である。
【図１１】
図４の左側チャネル・データを示す図である。
【図１２】
異なる数のタップを有する３つのマルチタップ・フィルタからの出力の重ね合わせを使用する図１１の曲線への手動適合の結果を示す図である。
【図１３】
比較のため図１１及び図１２のグラフを一緒に示す図である。
【図１４】
図１２のデータを生成するために使用される３つのマルチタップＦＩＲフィルタの配置図を示す図である。
【図１５】
順序制御及び作動サブシステムの実施形態の図である。
【図１５Ｂ】
フェードインを使用する順序制御及び作動サブシステムのさらなる別の実施形態を示す図である。
【図１６】
実際上の図１４と図１５の結合例を示す図である。
【図１７】
右チャネルについて、測定されたものと合成されたものとの間の部分インパルス応答信号の比較を示す図である。
【図１８】
どのように本発明を使用して外部ヘッドホン音像を形成するかを例示する図を示す図である。
【図１９】
本発明を使用するＨＲＴＦ合成の近位耳部分を示す図である。
【図２０】
本発明を使用するＨＲＴＦ合成の遠位耳部分を示す図である。
【図２１】
ＨＲＴＦの２分の１の合成に必要な装置を示す図である。
【図２２】
隣接する合成部分インパルス応答が異なる場合使用される、本発明のさらに別の実施形態を示す図である。
【図２３】
図２２の配置を単純化する方法を示す図である。
【図２４】
図２３の配置をさらに単純化する方法を示す図である。
【図２５】
指数関数的に減衰する３２ｍｓインパルス応答振幅包絡線を示す図である。
【図２６】
減衰を補償するよう正規化された図２５の包絡線を示す図である。
【図２７】
１未満の利得／減衰係数を使用した反復フィードバックと共に８ｍｓブロックが利用される場合、図２５のような応答の合成に必要なインパルス応答振幅を示す図である。

Claims

所与の音場での測定された第１のインパルス応答関数から近似インパルス応答関数を合成する方法であって、
ａ）前記所与の音場に対する第１のインパルス応答の初期部分をサンプリングし、
ｂ）サンプルを近似する、異なる数のタップを有する対応するマルチタップＦＩＲフィルタによって提供される複数の基底関数を使用する曲線適合によって、近似部分インパルス応答を合成し、
ｃ）同じフィルタを使用して近似部分インパルス応答をさらに合成し、
ｄ）経過時間の増大と共にさらに合成された前記部分インパルス応答の振幅を減少させる包絡線関数を適用し、
ｅ）近似インパルス応答を提供するため、連続合成部分インパルス応答を結合する方法。
ステップｃ）で連続合成された近似部分インパルス応答が同一であり、不規則な重なり合いを伴って結合される、請求項１に記載の方法。
ステップｃ）で連続合成された近似部分インパルス応答が異なる、請求項１に記載の方法。
ステップｃ）の前記合成が、異なるタップ位置及び／または係数を有するタップの１対のグループと、一方のグループから他方へ連続的にクロスフェードする手段とを使用して行われる、請求項３に記載の方法。
タップのグループが使用される都度係数及び／またはタップ位置の異なる組み合わせを有するように、タップの一方のグループの係数及び／またはタップ位置が、他方のグループが使用されている間に変更される、請求項４に記載の方法。
対話形システムを提供するため、連続合成された近似部分インパルス応答がリアルタイムで修正される、請求項１〜５のいずれか一項に記載の方法。
前記基底関数が、それぞれ異なる周期を有する「上昇正弦」関数である、請求項１〜６のいずれか一項に記載の方法。
長期間にわたる近似インパルス応答を提供するため、不規則に重なり合う合成された部分インパルス応答のグループが反復される、請求項１〜７のいずれか一項に記載の方法。
長期間にわたる近似インパルス応答を提供するため、規則的に重なり合う合成された部分インパルス応答のグループが反復される、請求項１〜７に記載の方法。
長期間にわたる近似インパルス応答を提供するため、前記グループが周期的に反復される、請求項８または請求項９に記載の方法。
１０ｋＨｚより上の周波数が除去されるように、前記元のインパルス応答が曲線適合の前に低域通過フィルタリングされる、請求項１に記載の方法。
７ｋＨｚより上の周波数が除去されるように、前記元のインパルス応答が曲線適合の前に低域通過フィルタリングされる、請求項１に記載の方法。
５ｋＨｚより上の周波数が除去されるように、前記元のインパルス応答が曲線適合の前に低域通過フィルタリングされる、請求項１に記載の方法。
所与の音場での初期音声インパルスから第１の耳応答伝達関数を合成する方法であって、
ａ）前記初期音声インパルスに対する耳のインパルス応答をサンプリングし、
ｂ）異なる数のタップを有する対応するマルチタップＦＩＲフィルタからそれぞれ導出される複数の基底関数を使用する曲線適合によって、前記第１の耳応答関数に対応する近似インパルス応答を合成する方法。
請求項１４に記載の近位耳応答関数と遠位耳応答関数とを合成し、所与の音源位置に対する両耳間時間遅延に対応する前記２つの間の時間遅延を提供することを含む、頭部関連伝達関数を合成する方法。
請求項１〜１５のいずれか一項に記載の方法を使用して合成されたインパルス応答関数。
請求項１６に記載の合成されたインパルス応答関数を使用して修正されたオーディオ信号。
請求項１６に記載のインパルス応答関数を合成するよう構成及び配置された信号処理装置。
請求項１８に記載の信号処理装置を含む携帯型オーディオ・システム。
請求項１８に記載の信号処理装置を含む移動電話または携帯電話ハンドセット。
請求項１８に記載の信号処理装置を含む電子音楽楽器。
請求項１８に記載の信号処理装置を含むエンジンを含む、反響をオーディオ信号に付加する信号処理システム。