JP2004509376A - 近似インパルス応答関数を合成する方法 - Google Patents

近似インパルス応答関数を合成する方法 Download PDF

Info

Publication number
JP2004509376A
JP2004509376A JP2002528242A JP2002528242A JP2004509376A JP 2004509376 A JP2004509376 A JP 2004509376A JP 2002528242 A JP2002528242 A JP 2002528242A JP 2002528242 A JP2002528242 A JP 2002528242A JP 2004509376 A JP2004509376 A JP 2004509376A
Authority
JP
Japan
Prior art keywords
impulse response
impulse
approximate
taps
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002528242A
Other languages
English (en)
Inventor
シボールド,アラステア
Original Assignee
セントラル リサーチ ラボラトリーズ リミティド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by セントラル リサーチ ラボラトリーズ リミティド filed Critical セントラル リサーチ ラボラトリーズ リミティド
Publication of JP2004509376A publication Critical patent/JP2004509376A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/52Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S15/00
    • G01S7/523Details of pulse systems
    • G01S7/526Receivers
    • G01S7/527Extracting wanted echo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephone Function (AREA)
  • Steroid Compounds (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

所与の音場での測定された第1のインパルス応答関数から近似インパルス応答関数を合成する方法は、所与の音場に対するインパルス応答の初期部分をサンプリングするステップと、対応する多重タップFIRフィルタによって提供される複数の基底関数を使用する曲線適合によって所与のインパルス応答のサンプリングされた部分に近似する部分インパルス応答を合成するステップであって、前記部分インパルス応答が散乱人為現象を含むステップと、同じフィルタを使用して次のさらなる部分インパルス応答を合成するステップと、時間の増大と共に振幅が減少する包絡線関数を適合するステップと、聴取可能な人為現象を最小化するため不規則な重なり合いを伴って連続部分インパルス応答を結合することによって長期間にわたる近似インパルス応答を構成するステップとを含む。この合成インパルス応答関数は、元のインパルス応答関数と同様の音響心理学的特性を有し、利用するタップの数を少なくすることができる。

Description

【0001】
本発明は、所与の音場において測定した第1のインパルス応答関数から近似インパルス応答関数を合成する方法に関する。本発明は特に、制限的ではないが、散乱が存在する音場におけるインパルス応答に関する。
【0002】
本発明の第1の態様は、頭部関連伝達関数(HRTF)に基づく三次元音声信号処理に関し、そこでは録音された音声が、1対のオーディオ・チャネルだけを使用し、従来の1対のスピーカまたはヘッドホンによって再生することで、聴取者の周囲の完全な三次元空間から作り出されるかのように再生される。
【0003】
本発明の第2の態様は、ヘッドホン「仮想化」技術に関し、そこでは音声信号は、ヘッドホンを使用して聴取する場合、音源が聴取者の頭の外部から作り出されるかのように思われるように処理される。(現在、従来のステレオ音声の多くは、三次元音声キューを含まないため、聴取者の頭の内部から作り出されるかのような音場を形成する)。この適用例には、1つの音源を空間中の任意に選択した点に位置付ける1チャネル仮想化と、従来のステレオ信号対を聴取者の前の仮想的な1対のスピーカから作り出されたと思われるように処理する2チャネル仮想化とが含まれる。また、この方法は、マルチチャネル映画サラウンド音声の仮想化にも拡張されるが、そこではヘッドホン聴取者が5つかそれ以上の仮想的なスピーカによって取り囲まれているという錯覚を生じる必要がある。
【0004】
本発明の別の態様は、仮想三次元反響処理への応用に関する。
【0005】
本出願と共に出願された同時係属特許出願は、(先行技術を含む)効果的なヘッドホン「外在化」(externalisation)を生じる際の困難の包括的な説明を提供し、それを首尾よく達成する方法を説明している。本質的に、本発明者が発見したところによれば、音波散乱効果は十分なヘッドホン外在化を達成するために非常に重要である。これが意味するのは、音声が散乱環境で放出される場合(実際の環境の大部分は音波を散乱する物理的な散乱物を含む)、波面は、室内に存在する物体及び表面によって各々が様々に散乱(すなわち、反射、屈折及び部分的に吸収)された多数の基本単位に断片化されつつあるものと考えられる。
この多数の基本要素は最終的には、(散乱経路長に応じて)異なった期間が経過した後聴取者の頭に不規則に到達する。その結果、聴取者への到達音波は、音源自体から直線を通って真っ直ぐ聴取者に達する完全な「第1到達音」によって特徴付けられ、その直後に多数の散乱基本波の到達によって形成される「混乱」期間が続く。注意されたいが、この効果は室内でも室外でも発生する。例えば、森林では、音波散乱が支配的であり、すなわちグラウンド反射(ground reflection)はあるが反響はない。
部分的に散乱物のある(partially−cluttered)部屋(現実世界の大部分の部屋)では、壁からの反射または反響がある前に散乱信号が体験されるので、やはり散乱が支配的な効果である。本発明者が発見したところによれば、ヘッドホン使用者の音像(sound image)外在化にとって非常に重要なのは混乱期間である。実際には、この期間は第1到達音の後数ミリ秒以内に開始され、わずかに長い期間の間に最大値に増大し、その後数10ミリ秒の期間にわたって指数関数的に減衰する。これは、1メートルから10メートルまたはそれ以上の範囲にある(直接音経路と比較した)相対散乱経路長と一致する。通常、混乱信号の包絡線の最大振幅は、直接信号の振幅の5〜20%である。
【0006】
本出願人の同時係属特許出願は、音波散乱効果の合成が必要な適用例の様々な実施形態の実際の例を説明している。しかし、こうした実施形態の共通の特徴は、散乱到達音波の混乱期間をシミュレートする「音波散乱」フィルタを必要とすることである。これは、ディジタル有限インパルス応答(FIR)フィルタにより、従来の方法で達成されるが、そこでは散乱環境のインパルス応答は、サンプル毎に測定及び再現できる。しかし44.1kHzという通常の音声サンプリングレートでは、(例えば、持続期間100msといった)十分に長い混乱期間をシミュレートするためには、1つのフィルタは4,100タップ(tap)の長さが必要である(かつ、多くの適用例では、このフィルタが2つ必要である)。これはほぼ2桁分長すぎ、実現不可能である。比較のための例を出せば、HRTF処理がコンピュータのCPU上で実行される場合、何対かの25タップFIRフィルタを使用することが一般的であるが、現在の対話形コンピュータ・アプリケーションでは8つ(すなわち200タップ)を越えるフィルタは許容できず、さもないとCPUの負荷が過重になってしまうであろう。経験則によれば、100タップ(またはそれ未満)のFIRフィルタに対応する処理要求を有する信号処理エンジンを使用して音波散乱の混乱期間をシミュレートするのが有益である。
【0007】
以上をまとめると、聴取者の耳で発生する音声波散乱効果の混乱特性を再生する処理効率のよい手段が必要である。本発明の目的は、この目標を達成する方法を提供することである。
【0008】
本発明の第1の態様によれば、請求項1〜請求項13に記載の方法が提供される。
本発明の第2の態様によれば、請求項14〜請求項15に記載の方法が提供される。
本発明の第3の態様によれば、請求項16に記載のインパルス応答関数が提供される。
本発明の第4の態様によれば、請求項17に記載の音声信号が提供される。
本発明の第5の態様によれば、請求項18に記載の信号処理装置が提供される。
本発明の第6の態様によれば、請求項19に記載の携帯型オーディオ・システムが提供される。
本発明の第7の態様によれば、請求項20に記載の移動電話または携帯電話のハンドセットが提供される。
本発明の第8の態様によれば、請求項21に記載の電子音楽楽器が提供される。
本発明の第9の態様によれば、請求項22に記載の、音声信号に反響を負加する信号処理システムが提供される。
【0009】
以下、本発明は添付の概略図を参照し、例示としてのみ説明される。
本発明は、聴取者に知覚される音声波散乱効果を合成する非常に有効な手段を提供する。当初は、音波散乱現象の主要な特徴は未知であり、その効果は実際合成可能なのか、また、もし可能であるとすれば、それは単純化できるのかは全く明らかでなかった。したがって、検査及び実験のため適切な順序の音波散乱が記録され、シミュレーションのための「ベンチマーク」として使用された。
【0010】
本発明は、基本基底関数から長い複合インパルス応答パターンを形成することに基づいている。基底関数と使用方法を適切に選択することによって、インパルス応答パターンを実際の測定されたデータに正確に一致させることと、合成されたデータに適合させることとの両方が可能である。つまり、これは長いインパルス応答を合成する有効な手段を提供する。
【0011】
さらに、この経済的な方法に加えて、短い区間の音波散乱データの有限の不規則な反復によって、非常に長い応答をシミュレートするのに必要な信号処理の量をさらに低減する付加的手段が発見された。最後に、反復される区分が、例えば30msまたはそれ以上といった十分な長さの持続時間となる場合、反復フィードバック・ループを組み込んで、聴取可能な人為現象を施すことなしにシミュレーションの実効期間を100msより大きく延長し、この効果に優雅で自然な減衰を提供することができる。
【0012】
以下の説明は(以下「ウェーブレット・エンジン」と呼ばれる)本発明の特別な一定の信号処理アーキテクチャ実装に関する。音声信号がウェーブレット・エンジンに供給されると、エンジンとともに調整された必要な長いインパルス応答と重畳され、結果として得られる音声出力信号は必要な音波散乱特徴及び特性を有する。
【0013】
もちろん、本出願で示される例には多くの変形及び置き換えが可能である。例えば、ウェーブレットの種類と数は変更可能であり、順序制御の作動の仕方は異なってもよい、等である。また、エンジンを動的に変化させることも可能であり、その場合様々なパラメータがリアルタイムで、対話的に修正される。認識されるように、本発明の範囲は本出願で示される特定の例に制限されない。
【0014】
第1に、音波散乱の重要性が新たに発見されたので、混乱音波散乱期間の様々な特徴の相対的な意義を理解する必要がある。そのために、平均散乱環境(「リスニングルーム」)でのインパルスの音声録音がなされた。この場合、B&W801型スピーカによる帯域制限インパルス(80Hz〜20kHzの範囲に制限)が音源として使用された。このスピーカは音声スペクトル全域にわたって非常に均一でフラットな応答を有するので、比較的「ありのままの」データを提供する。
この音声信号を、耳翼(外耳のひれ)を取り外したB&K5930型人口ヘッドユニットを使用して測定した。ヘッドユニットの両側の2つの録音マイクロホンの間の頭部の「バッフル」効果が含まれ、その一方で耳翼の音響フィルタ効果をなくせるようにこの方法が選択された。これは、拡散HRTFと共に使用され、耳にすぐ隣接した空間位置を表す散乱波形を有する必要がある3D音声合成と共に使用する理想的なデータを提供する。
スピーカと人工ヘッドとの相対位置は、本出願人の同時係属特許出願で説明されているが、本出願の図1に示されているように、音源が人工ヘッドの前方左に−30°の方位角で位置するものであった。大型のB&W801スピーカ自体、テーブル、機器ラック、いくつかの戸棚を含む室内には平均的な量の「散乱物」が存在し、これらの品目の近似位置も図1に示されている。
録音波形の2つのチャネルを本出願の図2に示すが、2つのうち左チャネルが上で右チャネルが下である。インパルスの第1直接到達音は図の左側に見られるが、その際左チャネルの到達音が先に発生し、2つの中でも大きい。ごく詳細に示すために、第1到達音に続く50msだけが示される。実際には、散乱は壁の反射によって伝播し延長されるので、この例では100msをわずかに越えるまで認識され続ける反響に組み込まれる。
図3は、図2と同じ波形を示しているが、より詳細に示すため、振幅の尺度が4倍拡大されている。
【0015】
以下の実験は、最も有効な合成手段を作り出すため、いくつかの特徴の相対的な重要性を確認するコンピュータによるディジタル・エディタを使用し、インパルス応答の録音について実行された。ヘッドホンを使用して音声を聴取した。元の録音では、インパルスは聴取者の頭の外部の、人工ヘッドに対するスピーカの近似位置(図1)で明瞭に聞こえる。
【0016】
1.初期反射の除去
最初に到達する反射はグラウンド反射と天井反射であり、第1到達音の2.0〜3.5ms後に発生する。これは図2の、特に上の信号(左または耳に近い方)に明瞭に見られる。これを削除して(すなわち、無音によって置き換えて)インパルスを聴取し元の音と比較した。ほとんど検出可能な差はなく、有害な影響も全くなかった。結論は、先行技術の教示と反対に、初期反射は外在化において重要な役割を果たしていないということであった。以下の実験は、この反射がない状態で続けられた。
【0017】
2.散乱の持続期間
ヘッドホン聴取音像の外在化を達成するにはどれだけの期間の散乱効果を合成する必要があるかを確認するため、図2及び図3の記録された音波を段階的に120msから20msまで切り捨てた。切り捨てが40msに達した時、音声の切り捨てが明瞭に聞かれたが、外在化効果はまだ非常に有効であった。切り捨て期間が、70msまたはそれ以上とそれほど厳しくない場合、全体的な効果は非常に良好に思われ、優秀な外在化を示し切り捨ては聴取できなかった。結論は、約70msまたはそれ以上の合成音波散乱が必要ということであった。
【0018】
3.必要帯域幅
録音の散乱区分(すなわち、第1到達音以外の全ての部分)を段々に帯域フィルタリングし、高周波数(HF)成分が徐々に制限されるようにした。
結果は以下の通りであった。
80Hz〜10kHz:有意の変化なし。
80Hz〜5kHz:外在化は損なわれないが、小さな音質の変化がある。
80Hz〜3kHz:有意の音質変化がある。
混乱データを帯域制限することによって、細部の一部が除去される。データは単純化されるので、合成が容易になる。結論は、第1の場合では、音波散乱合成の帯域幅を5kHz以下に制限するのが適度な措置である、ということであった。
【0019】
4.左右相関
実際には、例えば200Hz以下といった低周波数では左右のチャネルの間に大幅な信号相関が予想された。これは、録音マイクロホンの位置−これは耳の物理的間隔を示す−が頭部1つ分の幅だけ離れていたからである。こうした低周波数では、波長が頭部の幅よりはるかに大きく、2つのマイクロホンの間の位相差が少ないため、信号は相互に相関する。
波長がずっと短くなる(例えば2kHz以上といった)もっと高い周波数では、頭部シャドウイング(head−shadowing)、回折効果及び位相の曖昧性が発生するので、この相関が維持される理由はない。ここで何が重要かを試験するため、録音の音波散乱区分を以下のように修正して元の音と比較した(この場合も初期反射はなしとする)。
1.右チャネルの散乱信号を削除し、左チャネルの散乱信号によって置き換えた。音像は中心に集まったが、やはりかなり良好に外在化されていた。しかし元の音ほどはよくなかった。
2.右チャネルの散乱と左チャネルの散乱を両方とも二者の平均によって置き換えた。音像はやはり中心に集まったが、やはり外在化されていた。
【0020】
このことからの結論は、モノラルの散乱であっても外在化された音像を作り出す上で十分有力であったが、より「正確な」2チャネル音波散乱合成が好適であるということであった。モノラル合成は、利用可能な信号処理能力が小さい場合に好適かもしれない(将来、モノラル、LF、同相散乱、及び2チャネルHF散乱について複合システムを形成することが可能になるであろう。これは、全帯域幅2チャネル・システムよりわずかに有効なものになるかもしれない)。
外在化を形成するため音波散乱を使用することについての全体的な結論は以下の通りである。
1.音量レベルの大きな、初期反射は重要でない。
2.音波散乱は、約5kHz以下に帯域制限すると、依然として有効でありかつ合成の際の複雑さが減少する。
3.音波散乱期間は数10ミリ秒またはそれ以上(例えば、60msまたはそれ以上)でなければならない。
4.モノラル音波散乱も部分的に有効であるが、2チャネル音波散乱合成が好適である。
【0021】
以上で波散乱信号の重要な特徴を確認したので、次のステップはデータ区分を表すインパルス応答を合成する手段を発見することであった。したがって、上記の実験に使用されたインパルス音声録音を帯域フィルタリングし(80Hz〜5kHz)、この信号の波散乱区分の代表的な2チャネル・サンプルを例として選択した。図3を参照すると、散乱の初期段階はグラウンド反射と天井反射が支配的なので、純粋な散乱データを代表していないことがわかる。散乱の最後尾は、振幅が非常に小さいため不適切なので、約14msから始まる、散乱が比較的均一になった直後の8msの期間を選択した。この帯域制限音波散乱の「作業用の」8msサンプルを図4に示す(わかりやすくするため拡大している)。
【0022】
本発明者の仮説は、この性質のインパルス応答データの必要な区分がいくつかの小さな、基本基底関数から正確に構成できるというものであった。しかし、音声ストリーム中に小さい、突発的な不連続性があるだけでもクリックノイズやポップノイズといった形態の聴取可能な人為現象が発生することがあるので、この目的でどの種類の基本関数が使用できるかという問題が生じる。本発明者が、本発明で使用するのに好都合だと考える1つの種類の波形があるが、これはsinθ関数に基づくものである。−90°〜+270°の間のθの値について正弦関数を使用し、その結果を0〜+1の範囲内にあるようにずらして半分にすることによって、単位利得を有する平滑なベル形の関数が生成される(「上昇正弦」関数(raised sine function)と呼ばれることもある)。この関数は最小及び最大値でゼロ勾配を有する点が変わっており、任意の点で聞き取れないように音声ストリームに導入することができる。図5のグラフで示される、この「理想的な」汎用基底関数を表す数式は次の通りである。
【0023】
【数1】
Figure 2004509376
【0024】
さらに、この関数の「入口」と「出口」で勾配がないという特徴のため、この種類の多数の基底関数、すなわちインパルス「ウェーブレット」を互いに重ね合わせることで、聴取可能な人為現象なしに、平滑で予測可能な形でさらに複雑な音波パターンを形成することができる。
【0025】
厳密に言うと、「ウェーブレット」という用語はインパルス応答の区分のことではなく、波形の断片のことである。しかし、著者はこの時点で「インパルス・ウェーブレット」以上によい語句を考えられないので、以下(厳密さを欠いてはいるが)、数式(1)の形式のインパルス応答または基底関数を定義するために、その用語または「ウェーブレット」という用語を使用する。
【0026】
上記の基底関数またはインパルス・ウェーブレットは、図6に示される10タップ構造のようなFIR形構造を使用して形成されるが、その際タップ係数値(利得値、G1〜G10)は直接関数自体を表す。(当業者が認識するように)音声データがサンプル毎にフィルタのセル(C1〜C10)を通じて転送される際、各段で、各セルのデータ値は関連するタップ値によって乗算されて累算器に供給され、そこで全てのタップの寄与が合計される。この期間(44.1kHzの場合10タップは約227μsである)を有する基底関数またはインパルス・ウェーブレット発生器を生成する必要がある場合、まず必要なことは、この関数が適切な期間にわたるような、各タップに関連するθの想定値を生成することである。nタップ発生器について、このθの想定値は次式によって与えられる。
【0027】
【数2】
Figure 2004509376
【0028】
(この数式は、先端及び後端のゼロのないウェーブレット関数を定義するが、これらは信号処理システムにおいて冗長であり効率を低下させるものである。)10タップ・インパルス・ウェーブレット発生器のデータは、上記の数式(1)及び(2)により、下記の表に示される。
【表1】
Figure 2004509376
【0029】
上記の係数データを使用して単位インパルスが図6の10タップ発生器に供給されると、まずセル1に置かれ、1.0という値を与えられる。残りのセルの値はゼロなので、累算器の出力値は0.08となる。次のサイクルでは、1.0はセル2に移動し、今回も他の全てのセルはゼロを含むので、出力は0.29となり、以下同様に続く。
インパルスを発生器(及び出力)の長さに変換した時、発生器からの時間依存出力は図5に示されるようなものになるが、時間軸(タップ毎の1サンプル期間)は表1の列1及び2による想定θ軸に置き換えられる。このインパルス・ウェーブレットまたは基底関数をいくつかの方法で操作して、さらに大きく複雑なインパルス応答を構成することができる。
【0030】
第1に、適度に時間遅延された信号を図6のウェーブレット発生器に供給することによって、インパルス・ウェーブレットを異なる時点で「作動させる」ことが簡単にできる。例えば、図7は、44.1kHzで動作し、t=5サンプルとt=20サンプルの単一インパルスを供給された10タップ発生器の出力を示す。全体の事象は30サンプル(0.68ms)続く。
【0031】
インパルス・ウェーブレットの次の操作可能な特徴は出力の大きさである。これはもちろん、負インパルス応答を生成する負係数の使用を含む、係数の調整によって簡単に調整できる。例えば、図8は、t=1、t=17及びt=33サンプルで作動し、1、2及び3の利得値を有するように逐次調整された3つの15タップ・インパルス・ウェーブレットを示す。
【0032】
最後の調整可能なパラメータはインパルス・ウェーブレット全体の持続期間である。本発明では、これによって異なる期間を有するある範囲の応答を生成し、長い応答を構成する元になる柔軟な「ツールキット」を提供することができる。例えば、一連のバイナリ重み付きウェーブレット発生器を有するような、等比数列の多数のタップを有する一連のFIRフィルタは、広い範囲の時間領域インパルス構造を構成することができるため、最良の選択肢となることが多いと思われる。
例えば、5タップ、10タップ、20タップ及び40タップ発生器の同時選択使用である。これは、発生器の必要な期間(及びひいてはタップの数)を選択し、次に、すでに説明したように、数式(2)を使用して、数式(1)が[単位利得」係数を定義する元になる想定θ値を各タップに割り当てることによって簡単に達成される。この例を図9に示すが、そこでは動作の持続期間が増大する3つの連続するインパルス・ウェーブレットまたは基底関数が示される。第1のものはt=1で作動する5タップ・インパルス・ウェーブレットであり、それにそれぞれt=7及びt=18サンプルで作動する10タップ及び15タップのウェーブレットが続く。
【0033】
一連のインパルス・ウェーブレットを組み合わせて比較的長く複雑なインパルス応答を生成する例として、図10は長さ80サンプルの任意の複雑な波形を示すが、これは(5タップ、10タップ及び15タップの3種類のみの)わずか6つのインパルス・ウェーブレットを使用して生成したものであった。グラフの後半にかけてのかなり複雑な形状は、選択した関数を適切に組み合わせて配置すれば、無作為な曲線に適合できることを示している。この構成のデータを以下表2に示す。
【表2】
Figure 2004509376
【0034】
次のステップは、図4の「作業用」ベンチマーク・インパルス波形の一部を検査して、それを合成するのにどの長さのインパルス・ウェーブレットが使用可能かを確認することである。したがって、音声WAVファイルをテキスト形式で保存し、スプレッドシートに変換した(そこから以下のグラフを導出した)。図4のベンチマーク・インパルス録音の左側チャネルの第1の区分を図11に示す。目視検査の結果、この構成は5タップ、10タップ及び15タップを有する3つの基底関数またはウェーブレット種類だけからなっていると思われた。
【0035】
5、10及び15タップの3つの単位利得インパルス・ウェーブレット発生器のデータをスプレッドシートに追加することによって、任意の経過時間に3つの発生器の何れかまたは全てを開始する列を生成し、出力を合計することが可能であった。このウェーブレット発生器合計を現実のデータと共に(第1の場合1〜100サンプルの)経過時間の関数としてグラフ化し、次に係数を適当な列に追加して、目視により3つのウェーブレット発生器の合計を現実の録音されたデータに適合させた。
これを行うのは驚くほど簡単であったが、その結果を図12に示す。ウェーブレット合成データのグラフ(薄い灰色)を録音されたデータ(黒)に重ね合わせた図13に示されるように、元の録音されたデータに非常に近い適合があることに注意されたい。データ適合処理は8msの録音の残りの256程のサンプルについて続けられ、次の処理は右側チャネルについて繰り返された。左チャネルのデータを表3に示し、右チャネルのデータを表4(及び図17に)示す(理想的な右チャネル適合は、左チャネルの43と異なり47ウェーブレットを要するが、この適合は、4つの最下位(最小振幅)ウェーブレット(17、21、32及び38)を省略することで、簡単に43に減らすことができた)。
【表3】
Figure 2004509376
【表4】
Figure 2004509376
【0036】
重要な結果は、このシミュレーション処理が非常に効率的だということである。すなわち、左チャネルが8msインパルス応答のシミュレートのために使用するのは73タップ相当のフィルタリングだけである(3つのウェーブレット発生器全体の30タップと、開始点用の43タップ)。通常、8msのインパルス応答を再現するにはこれよりはるかに多いタップを必要とし、44.1kHzでは、8×44.1=353タップが必要であろう。
【0037】
認識されるように、図4のこのベンチマーク・データは無作為に抽出された、1つの典型的な例であるにすぎない。これは、遠位耳(far−ear)(RHS)包絡線振幅が近位耳(near−ear)のデータより大きいという意味で若干不完全であるが、そうなる理由は、単純に、近位耳の散乱事象は物理的要因によってより近くで発生するのでデータの期間中すでに「減衰モード」に入っていたが、遠位耳の散乱物体はより遠方にあり、(直接音の14〜22ms後の)サンプルの期間中にもまだ強い散乱成分を発生していたからである。散乱データをいくつかの方法で調整して、これ及び他の効果を相殺し、最適な結果を提供することができる。例えば、一方または両方のチャネルのデータを、必要な場合、簡単な一定の換算係数を使用して増大させまたは減少させることができる。また、後で説明するように、時間依存指数因子をデータ係数に適用することで、平滑な「減衰」のためデータの緩やかな指数関数的低下を確保することも可能である。これは、合成の基礎として散乱データの定常状態部分だけが利用可能であるならば有用であろう。もう1つの有意義な調整は、当業者に明らかなように、最終的に適合された係数全体でゼロオフセットがある場合それを補償することである。
【0038】
上記の8msの事象は、このパターンを数回繰り返して必要な数10ミリ秒の混乱を生成することができるので、反復順序制御を試みるのに十分長い音波散乱期間であると判断された。この可能性を試験するため、インパルスの作業用の録音をさらに調査した。
第1に、上記で使用した(14〜21msの)波散乱区分(図4)を格納し、その後全ての音波散乱信号を削除した。次に、格納した8msの区分を再導入したが、これは直接到達音の約3ms後に開始し、連続5回繰り返した。自然の減衰をシミュレートするように、この新しい、人工的な音波散乱領域に指数関数的なフェードを適用した。全体の波形はここでほぼ元のもの(図2及び図3)と外観上同様になった。
しかし、聴取すると、インパルス音の外在化は満足の行く程度は損なわれていないものだったが、同じ区分のインパルス応答を規則的に反復使用していることが聞き取れるという、不快な「フラッタ」(flutter)人為現象が生じた。これを克服する試みとして、作業を繰り返したが、7msに開始されるブロック2、11msのブロック3、17msのブロック4及び25msのブロック5(及びもちろん、33msの終端)からなる任意の、不規則な一連の重なりを使用した。これはフラッタ人為現象を低下させる上で非常に功を奏した。この33msのシーケンスは十分に長く(後で説明するような、フィードバック・ループに対応して)少なくとも1回は繰り返せるものであると考えられた。これも試験し、成功であった。
(1回の単一フィードバック・サイクルを含む)この追加段階を考慮すると、本発明は66msの混乱データを合成し、その際使用するのはわずか79タップ相当(すなわち、3つのウェーブレット発生器全体の30タップと、開始点用43タップ、不規則順序制御用5タップ及びフィードバック用1タップ)である。通常、66msのインパルス応答を再現するにはこれよりはるかに多いタップを必要とする。44.1kHzでは、66×44.1=2,911タップが必要なので、効率比は約37:1である。本発明は、ここで引証した例では、従来の方法より37倍強力ということになる。
【0039】
この信号処理アーキテクチャを図14、図15及び図16に示し、「ウェーブレット・エンジン」と呼ぶ。これは、(a)ウェーブレット発生器アレイ(3段)、(b)ウェーブレット作動シーケンサ、(c)不規則反復シーケンサ、及び(d)フィードバック・ループという4つの主要要素を備えている。
【0040】
(a)ウェーブレット発生器アレイ
図14は、図6とその関連説明による5タップ、10タップおよび15タップ発生器(それぞれP、Q及びR)を備える3段インパルス・ウェーブレット発生器アレイを示す。各発生器はそれぞれ個別の入力を有し、3つの発生器の出力を合計して最終的な音声出力ストリームを生成する。
【0041】
(b)ウェーブレット作動シーケンサ
図15(下側)は、タップ付き遅延線路(73タップ、8ms長)の形態のウェーブレット作動シーケンサを示す。オーディオ・サンプルは、表3(右側列)のデータによってタップをつけられ、各タップが第3列の値による個々の乗数(図示せず)を供給する線路に供給され、その後サンプルを供給する全てのタップからのデータを合計する、列2に示されるようなそれぞれの共通バスを介してアレイ中の適当なインパルス・ウェーブレット発生器(P、QまたはR)に供給される。
【0042】
(c)不規則反復シーケンサ
これは図15の上側に示されており、やはりタップ付き遅延線路であるが、33ms長で、(t=0タップ以外に)7ms、11ms、17ms及び25msの4タップを有する。各タップは、経過時間(下記)の関数としての指数関数的減衰により信号を減衰させる乗数を提供する。5タップ全ての出力を合計してウェーブレット作動シーケンサに供給し、8ms合成ブロックの不規則反復を生成する。
【0043】
(d)フィードバック・ループ
フィードバック・ループは、時間相関指数関数的減衰を示すように選択された減衰器(F1)を介して、不規則反復遅延線路(t=33ms)の出力を音声入力に戻す単一経路を備える。
【0044】
ここで、特に音波散乱の開始と減衰に関連して、音波散乱包絡線の全体的な性質と形状を考慮する必要がある。
【0045】
図2及び図3の波形を検討すると、音波散乱の開始は直接信号のほぼ直後、1〜2ミリ秒以内であることがわかる。散乱信号の混乱性は、およそそれぞれ約2.0msと3.5msの、天井と床からの2つの反射の時間に明瞭に見え始める。これは完全に、経路長の考察から予想される通りである。しかし、個々の時間または特定の開始包絡線を散乱波に割り当てることは困難なので、インパルス・ウェーブレット・エンジンにおいてこれをどのように実現するか、すなわち散乱をフェードインさせるか、それともフェードインなしに散乱を作動させるか、という問題が生じる。
【0046】
こうした最初の初期反射は、ヘッドホンを介してモニタする場合、上記で説明したように、外在化にとって全く重要でないので、そのシミュレーションを省略する方が簡単で効率的である。散乱をフェードインなしで、直接音の数ミリ秒後に開始することが可能であれば、合成散乱の急速な開始が最初の反射にとって変わるようになり、優秀な結果を生じる。これはすぐに2つの目標を達成するので、(a)初期反射のシミュレーション、及び(b)散乱フェードインの必要はなくなる。
【0047】
上記のように、フェードインは省略可能であるが、やはり有用な選択肢でもある。例えば、録音されたインパルスを(音波散乱を伴う)合成されたインパルスと比較するといった、「極端な」評価条件下では、数ミリ秒の期間にわたるフェードインを使用すると、わずかだがより現実感のある音が生じる。この合成は反射のシミュレーションがない(すなわち、直接音三次元配置とその関連散乱だけからなる)ので、その点で現実に完全に忠実なものではなかったことを念頭に置かれたい。これは純粋に音波散乱効果を評価及び最適化するために企てられたものであった。
【0048】
散乱信号の大まかなフェードインは、図15Bに示されているように、図15をわずかに改良することによって達成できる。それには、(a)減衰器A1の後の不規則反復遅延線路の一番初めの出力と、通常その出力が供給される第1の加算ノードとの間に新しい加算ノードを追加することと、(b)新しい反転減衰器“init”を介し、新しい加算ノードにも供給される音声入力からの直接信号供給とが必要である。通常、反転減衰器“init”の伝達関数は、例えば、−0.5でよい。
【0049】
この代替実施形態は以下のように動作する。エンジンの音声入力に到達する、単一の単位インパルスについて考察する。この改良を行わない場合、このインパルスは、利得A1=1を有する第1のタップを介して(このタップはt=0にあるので)直接ウェーブレット作動遅延線路に伝播し、単位利得を有する、最初の8msの散乱波データである、ウェーブレットの第1のバッチ(batch)を生成する。それが反復遅延線路を横断してタップ番号2に至ると、インパルスは利得=A2を有するウェーブレットの第2のバッチを作動させ、以下同様に続く。インパルスが反復遅延線路の末端に達すると(ウェーブレットの5つのバッチすべてを作動させると)、減衰器F1を介して入力に戻され、今度はレベルを下げて、サイクルを再生し、以下同様に続く。以上をまとめると、ウェーブレット・バッチは以下の表5のような利得係数を有する。
【表5】
Figure 2004509376
【0050】
一番初めのバッチ(0〜8ms)が全てのバッチの中で最大の利得を有することに注意されたい。ここで、上記の改良が行われた状況について考察する。ここでもまず、エンジンの音声入力に到達する単一の単位インパルスについて考察する。このインパルスは、利得A1=1を有する第1のタップを介して(このタップはt=0にあるので)直接新しい加算ノードに伝播するが、また反転減衰器“init”を介して同じノードにも伝播する。
従って、加算ノードの出力は、({1×A1}+{1×−(init)})である。例えば、反転減衰器が−0.5の伝達関数を与えられているならば、A1を介して移動するインパルスはA1(すなわち=1)の利得を伴って加算ノードに到達するが、反転減衰器を介して移動するインパルスは−0.5の利得を伴ってノードに到達する。したがって、ノードの出力は1−0.5=+0.5になる。これはウェーブレット作動遅延線路への最初のインパルスだけを50%減衰する。
しかし、不規則反復遅延線路に沿って伝播するインパルスは依然として単位利得である。そのインパルスが反復遅延線路の末端を出て、F1を介してその入力にフィードバックされるとき、“init”を経由した初期信号は存在しないので、第2サイクルの第1のウェーブレット・バッチの利得は(A1×F1)となり、これは改良を行わない場合と同じである。その結果、フェードイン効果はこの時点(t=33ms)での信号の平滑な指数関数的減衰に干渉せず、第1サイクルの初期バッチの間だけ存在する。フェードイン改良を行った場合、ウェーブレット・バッチは以下の表6のような利得係数を有する。
【表6】
Figure 2004509376
【0051】
重要なことは、散乱信号が、好適には指数関数的に、波面が拡大しより大きな面積を占めることに伴う原信号強度の低下に対応して時間と共に漸減するということである。また、もちろん、一部のエネルギーは、音響波が散乱物体及び表面と相互干渉する際に吸収される。したがって、散乱波データの包絡線は、散乱物体の性質、その音源及び聴取者への近さ等に依存し、その結果、指数関数的減衰に関する時定数は音響的状況によって変化する。
【0052】
再度、図2及び図3の波形を検査すると、波形散乱減衰の指数関数的性質は明らかであった。時定数を変化させることで、異なる空間効果が達成できるので、実際に選択する値は重要な特徴ではない。実際、ユーザが異なれば異なる値を好むこともありうる。しかし、平滑で累進的で明らかに識別できる減衰を達成するには、時間遅延信号ブロックの様々な減衰率を計算する際の時定数と調和していることが重要である。
【0053】
時間At及びA0の関数としての散乱信号の包絡線の振幅を表す一般的な数式として、t=0での値を次式のように書くことができる。
【数3】
Figure 2004509376
【0054】
図3から、音波散乱振幅は約10msの期間に半分になることがわかる。したがって、10ms後にAtがA0の50%であれば、αの値は0.69s−1と計算される。この特定の時定数を選択すると、数式(3)とα=0.69s−1を使用して全ての時間遅延信号ブロックについて減衰率を計算できるようになる。関連する減衰器は不規則反復遅延線路(図15のA1〜A5)のものと総合フィードバック減衰器F1(図15)とである。関連時間遅延と計算された利得係数は以下の通りである。
【0055】
【表7】
Figure 2004509376
【0056】
ウェーブレット・エンジン全体(フェードイン改良は行わない)を、わかりやすくするため図16の1つの構成図に示す。直接音声信号は数ミリ秒時間遅延され(図示せず)、第1の加算ノードを介して不規則反復時間遅延線路に供給され、そこからすぐに図示される第1のタップ及びA1を介して第2の加算ノードに供給され、その後4つの時間間隔の後他のタップから関連する利得係数(A2〜A5)によって供給される。
不規則反復時間遅延線路からの出力は減衰器F1を介して第1の加算ノードにフィードバックされ、再生経路を提供する。第2の加算ノードからの出力はウェーブレット作動遅延線路に供給される。これは、波形散乱データに基づいて事前プログラムされたパターンによって、3つの異なるインパルス・ウェーブレット発生器のアレイを提供するように構成される。ウェーブレット発生器からの出力は最終ノードで合計され、そこから供給された信号は、本出願人の同時係属特許出願にしたがい元の直接音声信号と結合(図示せず)される。
【0057】
本発明は非常に有効なので、HRTF処理を使用せずにヘッドホン音像の前方外在化を達成できることが発見された。これは図18に示すように達成できるが、そこではモノラル音源を2つの信号に分割し、その一方には0.2msの時間遅延と高域遮断フィルタ(上のロールオフは例えば5kHz)をかける。
これは遠位耳両耳間時間遅延と30°方位角HRTFのスペクトル整形(spectral shaping)ごく大まかな単純化である。次に、2つの信号を、一方が表3の左チャネル・データを使用し、もう一方が関連する右チャネル・データを使用する図16による1対のインパルス・ウェーブレット・エンジンに供給する。ウェーブレット・エンジンに並行する直接音経路が存在する。その結果をヘッドホンで聴取すると、音像は約30°の方位角で前方に位置し、非常に良好に外在化される。注目に値するのは、これによって、比較的小さい量の信号処理能力を使用してHRTFによらない仮想化が達成でき、HRTF処理の場合避けられない中域音の強調なしに、「中庸な音」の結果を提供することである。これは本出願人の同時係属特許出願でさらに詳細に説明されている。
【0058】
本発明は、その効率のため、同時係属特許出願GB0009287.4で説明されたように、携帯電話における仮想化のための音声波散乱効果の提供に適している。
【0059】
本発明は、従来の反響システムに容易に含めることができ、より平滑でより自然な音を提供する。この実現は簡単であり、ウェーブレット・エンジンは、簡単に反響エンジンの前のプリプロセッサの役目を果たす。最も高度なバージョンでは、本発明はフィードバック線路とクロスフィード要素(cross−feed element)で使用できる。最も簡単な実装では、図14の3つのうちの1つのような、単一ウェーブレット発生器を反響プリプロセッサとして使用する。
【0060】
ウェーブレット・エンジンの様々なパラメータをリアルタイム動作で修正及び調整して、例えばコンピュータ・ゲームで使用する対話形システムを形成してもよい。
【0061】
ウェーブレット・エンジンは、(反響ユニットが事前設定オプションを有するのと同様に)ある範囲の音響条件に対応するある範囲の事前設定パラメータ集合を備えてもよい。
【0062】
本発明は、信号処理の要求の点で、最新技術の個人用ステレオ・プレーヤー(ミニディスク、MP3、CD等)に組み込む上で十分に効率的である。また、本発明は、ヘッドホンを使用する「無音」練習のため最新技術の電子音楽楽器(キーボード、管楽器、バイオリン等)に組み込む上でも十分に効率的である。
【0063】
上記で説明された本発明は、長いインパルス応答が必要な音波散乱効果の合成を目的としていたが、本発明はHRTF処理に適用してもよく、その場合達成すべき信号処理能力はかなり低減される。
これは適当な長さのウェーブレット(または基底関数)発生器の使用によって簡単にもたらされる。実際には、HRTFは、通常長さ25〜100タップの2つのFIRフィルタ・ブロックと、(680μs、44.1kHzサンプリングレートで約30サンプルまでの)時間遅延線路とを備える。本発明の実施形態は、各FIRフィルタ・ブロックを上記で説明したウェーブレット発生エンジンによって置き換えるものであり、ウェーブレット発生器要素は複数のHRTFに対して共通なので、ブロック毎に必要なタップ付き作動遅延線路は1つだけであるという利点を有する。
【0064】
例えば、通常のHRTFフィルタ(耳の近く、方位角30°)の50タップFIRインパルス応答を図19(下のグラフ)に示す。この曲線は、隣接するグラフと分離し視覚的な比較を容易にするため−2000単位ずらしてある。その特徴を検討すると、3つのウェーブレット発生器、すなわち3、4及び5タップ形だけを使用して再生できることがわかる。
したがって、これらの形についてウェーブレット発生器係数を計算し(以下表8、表9、及び表10に示す)、すでに説明した方法を使用してフィルタ・インパルス特性の適合を行った。近位耳HRTFフィルタを図19に示すが、ここでは上のグラフはウェーブレット発生器(発生器用の12に加えて13タップだけを必要とする)のインパルス応答を示し、下のグラフは、従来使用されていた種類の50タップFIRフィルタのインパルス応答を示す。
全体として、本アプローチが必要とするのはこの通常の例の場合先行技術の処理能力の50%だけである。図20は遠位耳フィルタについて同じグラフを示すがこの場合必要なのは14タップ(+12)だけである。図19及び図20について使用されたフィルタ係数をそれぞれ表11及び表12に示す。
【0065】
しかし、真の利益は、多数のチャネルを有する必要があるときに生じるが、これは、ウェーブレット発生器要素を全てのチャネルで共有できるからである。近位耳処理のため1つのウェーブレット発生器集合が必要であり、もう1つが遠位耳処理のために必要である。例えば、「5.1サラウンド」システムの仮想化のためのHRTFフィルタリングについて考察すると、その場合5つの仮想音源を生成する必要がある。先行技術の処理負荷は5×50タップ(サイド毎)、すなわち250タップであろうが、本発明は同じものを(5×13)+12タップ=77タップで達成できるので、31%の信号処理能力しか必要としない。
【表8】
Figure 2004509376
【表9】
Figure 2004509376
【表10】
Figure 2004509376
【表11】
Figure 2004509376
【表12】
Figure 2004509376
【0066】
図21は、すでに行われた説明によって認識されるようなHRTF処理装置の2分の1(例えば、近位耳)について必要な構成を示す。入力音声は(この場合)50タップの遅延線路に沿って伝わる。これは指定された作動点(表11及び表12)でタップを出て、必要な振幅(列3)に応じて利得調整を受けた後、列2により、3つの共通共有バスの1つに合計される。これらのバスは各々関連するウェーブレット発生器(列2)を供給し、3つの発生器の出力を全て合計して最終オーディオ出力を形成する。
【0067】
認識されるように、以上説明した全ての実施形態では、利得調整され、反復信号で普通聴取される「フラッタ人為現象」を避けるため不規則に重ね合わせた同一部分のインパルス応答関数から、長期間にわたる合成インパルス応答関数を生成した。次の実施形態は、このフラッタ人為現象をさらに軽減するシステムを説明する。
【0068】
このさらに別の実施形態を図22、図23及び図24を参照して以下説明する。これらの3つの図は、このシステムがすでに図16によって説明されたものから開発されたことを例示している。改良点は、図15で元の形で示されるインパルス・ウェーブレットの順序制御と特性に関する。
【0069】
本発明は、通常持続期間8msの、散乱データのブロックのインパルス応答の合成に基づき、特に、散乱データのより長いインパルス応答の合成を実際に達成する前記ブロックの反復使用に関する。8msという期間は、十分な時間依存変化を伴う十分に自然な信号を提供することと、それを実現するのに必要な信号処理負荷を最小化することとの間のほどよい妥協点である。8msブロックの規則的順序制御は「フラッタ」人為現象として聴取可能だったが、不規則な順序制御はかなり改善された結果を提供したことを想起されたい。とはいえ、結果は全く完璧ではなく、ピンクノイズの反復8msブロックを使用したクリティカルな聴取試験では人為現象が残ることが示される。
【0070】
この人為現象を完全に除去するには、おそらく、少なくとも反復要素が周波数または相対振幅またはそれらの両方について可聴限界以下になるまで、反復要素を完全に除去する必要がある。もし散乱データの合成8msブロックを32ms間で延長してこれを反復して使用することが可能であれば、反復の周波数はわずか31Hzとなり、最初の反復はフィードバック減衰器を介して発生し、(減衰半減期を10msと想定すれば)その振幅は元の振幅のわずか10%に減少するであろう。
これはきわめて満足すべきものであり、聴取可能な人為現象を完全に除去するものとなる。しかし、これにはウェーブレット作動遅延線路を8msから32msに延長し、4倍の数のタップを使用する必要がある。例えば、図4の右チャネル・データに関連する表3の43タップは172タップとなるので、ウェーブレット・エンジンははるかに大きな信号処理負荷を要求することになる。それと対照的に、不規則反復ブロック実装の元の構成が要求するのは79タップ(3つのウェーブレット発生器全体の30タップと、開始点用43タップ、不規則順序制御用5タップ及びフィードバック用1タップ)であった。前に記載したように、現在の信号処理能力を念頭におくと、目標は、100より少ないタップを使用する音波散乱合成器である。
【0071】
信号処理要求を大きく増大することなく、長い非反復音波散乱データ・ブロックを提供するという目標は、交互に使用される1対のウェーブレット作動遅延線路を利用して、サイクルの冗長な部分の間、「使用していない」線路のタップ点と散乱データに関連する係数を動的に変更することによって達成される。この結果、以下示すように、さらなる経済性が得られる。
【0072】
第1に、図22は、本発明の現実的な実施形態を示す。第1の加算ノードに供給された後、(例えば、長さ8msの)1次遅延線路と、(やはり長さ8msの)2つのウェーブレット作動遅延線路との両方に供給される到来インパルスについて考察する。
すでに説明したように、各ウェーブレット作動遅延線路は、異なる所定の音波散乱インパルス特性(例えば、表3)によっていくつかの異なるタップを有し、各タップは関連する利得/減衰率を有し、P、Q及びRと表示されたいくつか(この例では3つ)のウェーブレット発生器入力バスの1つに信号を供給する。
ここで、例えば、図22では、ウェーブレット作動遅延線路#1の音波散乱データは、記録または合成された音波散乱データの32ms期間の最初の8ms期間に関し、ウェーブレット作動遅延線路#2の音波散乱データは、記録または合成された音波散乱データの32ms期間の次の8ms期間に関する。
ウェーブレット作動遅延線路#1からのウェーブレット発生器入力バスをP1、Q1及びR1と表示し、ウェーブレット作動遅延線路#2からのウェーブレット発生器入力バスをP2、Q2及びR2と表示する。
2組のバスの対はどちらも、ウェーブレット・エンジンの一部として制御されるクロスフェード素子(cross−fading device)に信号を供給する。クロスフェード素子は、前と全く同様にウェーブレット発生器(図14)に信号を供給する1組の出力バスを有する。
クロスフェード素子は、それぞれの入力バス・データを比例的に加算し、結果をそれぞれの出力バスに供給する。この素子の目的は、聴取可能な人為現象を導入せずに、2つのウェーブレット作動遅延線路バス集合の一方から他方へ、ウェーブレット発生器入力を累進的にフェードすることである。
実際には、44.1kHzのサンプリング周波数で、50〜100サンプルのどこかの期間にわたる線形クロスフェードが、人為現象を避ける十分な長さであることが判明している。本発明は、1次直接音でなく、2次信号を扱うので、さらに要求が少なく、50サンプルの最小クロスフェード期間で十分である。
したがって、例えば、遅延線路#1から遅延線路#2への50サンプル・クロスフェード期間中、各出力バスは2つのそれぞれの入力バスの加算混合信号を伝え、比例値は、以下の表13に示すように、増分(または減分)2%で、規則的に(遅延線路#2から)増大または(遅延線路#1から)減少する。
【表13】
Figure 2004509376
【0073】
ウェーブレット作動遅延線路をそれぞれのバスにリンクする1組の散乱データ値を必要とする代わりに、ここで必要なのは、例えば、各々が表3の形式の、4つの異なるデータ集合である。これは、例えば、期間0〜8ms、8〜16ms、16〜24ms及び24〜32msに対応するデータ集合といった、32ms散乱期間の測定または合成の何れかによって得られる。
【0074】
したがって、開始時点では、第1の(0〜8ms)データ集合を遅延線路#1にロードし、第2の(8〜16ms)データ集合を遅延線路#2にロードして、#1バスのデータは全て出力に伝え、#2バスのデータは全て伝えないように、クロスフェーダを設定する。
次の306サンプル期間の過程では、インパルスは#1及び#2両方の遅延線路に沿って並行して移動するが、(クロスフェーダに選択されているため)ウェーブレットは#1バスだけから生成される。
307番目のサンプルで、クロスフェード・サイクルが開始されて次の50サンプルの過程で実行された後、今度は遅延線路#2だけがウェーブレット発生器を供給する。この時点で、最初のインパルスは、1次遅延線路出力から第1の加算ノードを介してその入力に、また両方のウェーブレット作動遅延線路にも再生式にフィードバックされる。
これによって前と同じように処理が続けられるが、クロスフェードが選択されているため、線路2が「活動中」となり、線路#1が「非活動中」となり、第2の散乱ブロック(8〜16ms)の特性が生成される。この段階で、第3(16〜24ms)データ集合を、次のサイクルの準備として遅延線路#1にロードする。ここでも、第2サイクルのサンプル307の後、今度は線路#2から線路#1に戻るクロスフェードが開始されるので、第3サイクルでは第3散乱ブロック(16〜24ms)の特性が生成される。
この(第3)サイクルの間、最後の第4データ集合が遅延線路#2にロードされ、処理が続けられるので、4つの8msサイクルの終了時には、完全な32ms散乱事象が反復なしに合成された。しかし、1次遅延線路中にフィードバック要素があるため、処理は、自然な減衰を伴う形で無限に続けられるので、音波散乱合成の現実的な減衰プロファイルが生成される(上記の説明はわかりやすくするため単純化されており、クロスフェード中の散乱データの厳密な整合はこの段階では無視されている)。
【0075】
本発明は、図23に示すように、さらに単純化してもよい。2つのウェーブレット作動遅延線路#1及び#2は同じ音声データを伝えているので、2つのうち1つは冗長である。タップを単一の遅延線路から導出し、必要に応じて必要な時に実現してもよい。従来、音声データは循環読み出し/書き込みバッファ中に存在し、タップは単にバッファ内のアドレス・ロケーションを表すだけである。その結果、図23は、図22のものと同様に効果的な、本発明の単純化された実施形態を示す。
【0076】
注意されたいが、1次遅延線路は元々1つの33ms期間中の不規則インパルスの生成を目的としていたので、短縮することはできなかった。しかし、ここでは非反復データ・ブロックの規則的な反復を扱うので、規則的な反復を1次8ms遅延線路(図22及び図23)によって生成する。このため、かなりのデータ・メモリを要求する長い(33ms)遅延線路の必要を除去した。しかし、さらに別の経済性が達成可能である。このアーキテクチャはさらに、図24に示すように単純化してもよい。ウェーブレット作動遅延線路からのフィードバック信号を使用することで、1次遅延線路は冗長になるので、システムはさらに単純化される。
【0077】
ここで、356サンプル毎に50サンプルにわたって発生するクロスフェード・サイクルの間、信号処理負荷はわずかに増大し、初期点タップに対して約14%の増大を示した。ここでの負荷は、3つのウェーブレット発生器全体の30タップと、開始点用43×1.14タップ、不規則順序制御用はなし、及びフィードバック用1タップで、(以前の79タップと比較して)全部で80タップである。
【0078】
この改良型構成は、音波散乱データの形式について、以下のようなわずかに異なるアプローチを必要とする。音波散乱データの8msブロックが不規則に繰り返された、本発明の第1の実施形態では、散乱の包絡線が時間依存指数関数的減衰特性を有する必要があった。
すでに説明したように、データが直接音到達に続く最初の数ミリ秒間に獲得されたのでないとすれば、これは、現実の記録された信号と、有限要素モデルからの合成信号との両方に本来備わっている特性である。動作の際、減衰器F1を介した反復フィードバックによって、各反復ブロックは比例利得低下の対象となり、合成されて指数関数的包絡線を生成するようになる。もちろん、音源データの時定数とフィードバック・システムの時定数とは調和していることが望ましい。
理想的には、それらは同一であるべきである。もし、合成散乱の減衰特性が音源データ固有のものと異なることが必要ならば、小さな矛盾が生じるであろう。
【0079】
実際には、本出願中の図に見られるように、8msデータ・ブロック中に示された固有の指数関数的減衰は幾分小さく、音波データ自体の不規則性によって視覚的に隠されている。しかし、本発明の改良型構成は、例えば持続期間32msといったより長いデータ・ブロックの特性付けを必要とし、そのような比較的長い期間にわたって示される指数関数的減衰はかなり大きい。その上、このデータをより小さいブロック(例えば、各々持続期間8msの4つのブロック)に区分して、各ブロックが初期振幅と減衰時定数とについて同じ包絡線特性を有し、反復フィードバック減衰率が合成データの利得のブロック毎の連続低減を担うようにする必要がある。
【0080】
散乱データを適切にフォーマットするため、以下の方法が使用される。
1.音波散乱インパルス応答の適切な32msの区分を記録または合成し、音源信号として使用する。これは通常、図25に概略を示すような振幅包絡線を有することになる。
2.音源信号に、信号包絡線がフラットになるような時間依存対数的利得増大(「フェードイン」)をかける。すなわち、包絡線振幅は32msの期間を通じて一定なので、信号の平均振幅は期間の最初と同様、最後の値とも同じ大きさである。これは、図26に示す「フラット包絡線音源」信号となる。
3.すでに説明したように、曲線適合によって、フラット包絡線音源信号を使用してウェーブレット・エンジン用のタップ・データ(タップ・タイミング位置及び利得係数)を生成する。これがフラット包絡線タップ・データである。
4.32ms期間にわたって延びるフラット包絡線タップ・データをいくつかの連続区分に分ける。例えば、4つの8ms区分があり、それぞれ“β1”、“β2”、“β3”及び“β4”と呼ぶことにする。
5.各区分“β1”、“β2”、“β3”及び“β4”中のタップ振幅データを、必要な減衰時定数に応じた時間依存指数関数的減衰率の対象とする。これは、数式2を使用してブロック毎に個別に実行され、各ブロック中の最初のサンプルがt=0になるように定義すると、図27に示すように、4つのデータ・ブロックに対応する信号包絡線は同一になる。
【0081】
例えば、もし散乱データが15ms半減期を必要とし、図23の実施形態により4つの8msブロックを使用する必要があるならば、次の計算を使用する。
数式(2)から、15msの半減期に関連する指数関数的時定数は約46.2s−1なので、数式(2)は次式のようになる。
【数4】
Figure 2004509376
一例として表3のデータを参照すると、各タップ・データ集合は、ウェーブレット種類、振幅及び、データ・ブロックの開始以来の経過サンプル数によって表された作動点(TPと呼ぶ)を備える。サンプリング・レートが44.1kHzの場合、数式(3)は次式のようになる。
【数5】
Figure 2004509376
【0082】
これは、減衰率Atが、作動点TPの関数として、全てのタップそれぞれの振幅係数に適用されることを表している。例えば、15ms半減期の例(A0は1であると想定)を使用すると、TP=0の時、Atは1.00に等しく、TP=100の時、Atは0.90に等しい。TP=356の時(すなわち、ブロック中の最後のサンプル)、Atは0.69に等しく、これはもちろん、フィードバック率の値F1に等しい。次に、減衰率F1(この場合0.69に等しい)を使用して第2のブロックについて振幅を乗算すると、これは0.69で始まり(0.69) まで減少する。減衰率F1を使用して第3ブロックについて再び振幅を乗算すると、これは(0.69) で始まり(0.69) まで減少し、以下同様に、4ブロックにわたる振幅の指数関数的減衰が与えられる。
【0083】
以上をまとめると、このさらに別の実施形態はほぼ追加処理負荷なしに、33msの遅延線路を節約しつつ、完全な非反復音波散乱エンジンを提供する。
【0084】
本発明を実行する信号処理装置は、MP3プレーヤーまたはCDまたはミニディスク・システムといった携帯型オーディオ・システム、電子キーボード/シンセサイザといった音楽楽器、移動電話または携帯電話、またはヘッドホンを使用する任意の装置に組み込んでもよい。
【0085】
混乱音波データの合成が有利であるほかの分野も存在し、本発明はそこでも適用例を有する。例えば、ソナーまたはレーダ用の散乱波の合成である。明らかに、電磁界散乱の場合、聴取可能なクリックノイズやポップノイズが問題にならないので、上昇正弦以外の関数(例えばガウス関数)を使用すればよい。
【0086】
注意されたいが、本発明の様々な構成要素は、時間遅延の長短、インパルス・ウェーブレット(基底関数)発生器の数の大小等について、多くの異なる形で構成してもよい。本出願に記載の例は、現実の録音されたデータに基づく通常の構成を実証する例として選択されたものであって、その動作は合成とヘッドホンを使用する厳密な聴取によって確認されている。特に、8〜32msの持続期間を有する部分インパルス応答関数を選択したことは純粋に例示目的である。
最後に、添付の要約書は引用によって本出願の記載に援用する。
【図面の簡単な説明】
【図1】
インパルス応答測定がなされた部屋の平面図である。
【図2】
記録された左右音声オーディオ信号を示す図である。
【図3】
4倍に拡大した図2のデータを示す図である。
【図4】
帯域フィルタリングされた図3のデータの8ms部を示す図である。
【図5】
上昇正弦基底関数を示す図である。
【図6】
10タップFIRフィルタを示す図である。
【図7】
2回作動した図6のフィルタの出力を示す図である。
【図8】
異なる利得係数で3回作動した15タップFIRフィルタの出力を示す図である。
【図9】
異なる時間に作動した5タップ、10タップ及び15タップFIRフィルタの出力を示す図である。
【図10】
マルチタップFIRフィルタによって生成された6つの基底関数の重ね合わせによって生成される複合波形を示す図である。
【図11】
図4の左側チャネル・データを示す図である。
【図12】
異なる数のタップを有する3つのマルチタップ・フィルタからの出力の重ね合わせを使用する図11の曲線への手動適合の結果を示す図である。
【図13】
比較のため図11及び図12のグラフを一緒に示す図である。
【図14】
図12のデータを生成するために使用される3つのマルチタップFIRフィルタの配置図を示す図である。
【図15】
順序制御及び作動サブシステムの実施形態の図である。
【図15B】
フェードインを使用する順序制御及び作動サブシステムのさらなる別の実施形態を示す図である。
【図16】
実際上の図14と図15の結合例を示す図である。
【図17】
右チャネルについて、測定されたものと合成されたものとの間の部分インパルス応答信号の比較を示す図である。
【図18】
どのように本発明を使用して外部ヘッドホン音像を形成するかを例示する図を示す図である。
【図19】
本発明を使用するHRTF合成の近位耳部分を示す図である。
【図20】
本発明を使用するHRTF合成の遠位耳部分を示す図である。
【図21】
HRTFの2分の1の合成に必要な装置を示す図である。
【図22】
隣接する合成部分インパルス応答が異なる場合使用される、本発明のさらに別の実施形態を示す図である。
【図23】
図22の配置を単純化する方法を示す図である。
【図24】
図23の配置をさらに単純化する方法を示す図である。
【図25】
指数関数的に減衰する32msインパルス応答振幅包絡線を示す図である。
【図26】
減衰を補償するよう正規化された図25の包絡線を示す図である。
【図27】
1未満の利得/減衰係数を使用した反復フィードバックと共に8msブロックが利用される場合、図25のような応答の合成に必要なインパルス応答振幅を示す図である。

Claims (22)

  1. 所与の音場での測定された第1のインパルス応答関数から近似インパルス応答関数を合成する方法であって、
    a)前記所与の音場に対する第1のインパルス応答の初期部分をサンプリングし、
    b)サンプルを近似する、異なる数のタップを有する対応するマルチタップFIRフィルタによって提供される複数の基底関数を使用する曲線適合によって、近似部分インパルス応答を合成し、
    c)同じフィルタを使用して近似部分インパルス応答をさらに合成し、
    d)経過時間の増大と共にさらに合成された前記部分インパルス応答の振幅を減少させる包絡線関数を適用し、
    e)近似インパルス応答を提供するため、連続合成部分インパルス応答を結合する方法。
  2. ステップc)で連続合成された近似部分インパルス応答が同一であり、不規則な重なり合いを伴って結合される、請求項1に記載の方法。
  3. ステップc)で連続合成された近似部分インパルス応答が異なる、請求項1に記載の方法。
  4. ステップc)の前記合成が、異なるタップ位置及び/または係数を有するタップの1対のグループと、一方のグループから他方へ連続的にクロスフェードする手段とを使用して行われる、請求項3に記載の方法。
  5. タップのグループが使用される都度係数及び/またはタップ位置の異なる組み合わせを有するように、タップの一方のグループの係数及び/またはタップ位置が、他方のグループが使用されている間に変更される、請求項4に記載の方法。
  6. 対話形システムを提供するため、連続合成された近似部分インパルス応答がリアルタイムで修正される、請求項1〜5のいずれか一項に記載の方法。
  7. 前記基底関数が、それぞれ異なる周期を有する「上昇正弦」関数である、請求項1〜6のいずれか一項に記載の方法。
  8. 長期間にわたる近似インパルス応答を提供するため、不規則に重なり合う合成された部分インパルス応答のグループが反復される、請求項1〜7のいずれか一項に記載の方法。
  9. 長期間にわたる近似インパルス応答を提供するため、規則的に重なり合う合成された部分インパルス応答のグループが反復される、請求項1〜7に記載の方法。
  10. 長期間にわたる近似インパルス応答を提供するため、前記グループが周期的に反復される、請求項8または請求項9に記載の方法。
  11. 10kHzより上の周波数が除去されるように、前記元のインパルス応答が曲線適合の前に低域通過フィルタリングされる、請求項1に記載の方法。
  12. 7kHzより上の周波数が除去されるように、前記元のインパルス応答が曲線適合の前に低域通過フィルタリングされる、請求項1に記載の方法。
  13. 5kHzより上の周波数が除去されるように、前記元のインパルス応答が曲線適合の前に低域通過フィルタリングされる、請求項1に記載の方法。
  14. 所与の音場での初期音声インパルスから第1の耳応答伝達関数を合成する方法であって、
    a)前記初期音声インパルスに対する耳のインパルス応答をサンプリングし、
    b)異なる数のタップを有する対応するマルチタップFIRフィルタからそれぞれ導出される複数の基底関数を使用する曲線適合によって、前記第1の耳応答関数に対応する近似インパルス応答を合成する方法。
  15. 請求項14に記載の近位耳応答関数と遠位耳応答関数とを合成し、所与の音源位置に対する両耳間時間遅延に対応する前記2つの間の時間遅延を提供することを含む、頭部関連伝達関数を合成する方法。
  16. 請求項1〜15のいずれか一項に記載の方法を使用して合成されたインパルス応答関数。
  17. 請求項16に記載の合成されたインパルス応答関数を使用して修正されたオーディオ信号。
  18. 請求項16に記載のインパルス応答関数を合成するよう構成及び配置された信号処理装置。
  19. 請求項18に記載の信号処理装置を含む携帯型オーディオ・システム。
  20. 請求項18に記載の信号処理装置を含む移動電話または携帯電話ハンドセット。
  21. 請求項18に記載の信号処理装置を含む電子音楽楽器。
  22. 請求項18に記載の信号処理装置を含むエンジンを含む、反響をオーディオ信号に付加する信号処理システム。
JP2002528242A 2000-09-19 2001-09-10 近似インパルス応答関数を合成する方法 Pending JP2004509376A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0022892A GB2366976A (en) 2000-09-19 2000-09-19 A method of synthesising an approximate impulse response function
PCT/GB2001/004027 WO2002026000A2 (en) 2000-09-19 2001-09-10 A method of synthesising an approximate impulse response function

Publications (1)

Publication Number Publication Date
JP2004509376A true JP2004509376A (ja) 2004-03-25

Family

ID=9899678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002528242A Pending JP2004509376A (ja) 2000-09-19 2001-09-10 近似インパルス応答関数を合成する方法

Country Status (4)

Country Link
EP (1) EP1374637A2 (ja)
JP (1) JP2004509376A (ja)
GB (2) GB2366976A (ja)
WO (1) WO2002026000A2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011088346B4 (de) * 2011-12-13 2022-01-05 Robert Bosch Gmbh Vorrichtung zur Erfassung akustischer Signale sowie dazugehöriges Verfahren

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05265477A (ja) * 1992-03-23 1993-10-15 Pioneer Electron Corp 音場補正装置
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
JPH07334181A (ja) * 1994-06-08 1995-12-22 Matsushita Electric Ind Co Ltd 残響音生成装置
US5937009A (en) * 1996-06-28 1999-08-10 Wong; Kon Max Sub-band echo canceller using optimum wavelet packets and cross-band cancellation
JP3976360B2 (ja) * 1996-08-29 2007-09-19 富士通株式会社 立体音響処理装置
JP4042229B2 (ja) * 1997-10-31 2008-02-06 ヤマハ株式会社 ディジタルフィルタ処理方法、ディジタルフィルタ装置、記録媒体および音像定位装置
US6707918B1 (en) * 1998-03-31 2004-03-16 Lake Technology Limited Formulation of complex room impulse responses from 3-D audio information
JP3460602B2 (ja) * 1998-11-25 2003-10-27 ヤマハ株式会社 反射音生成装置

Also Published As

Publication number Publication date
WO2002026000A3 (en) 2003-10-09
GB0305710D0 (en) 2003-04-16
WO2002026000A2 (en) 2002-03-28
GB0022892D0 (en) 2000-11-01
GB2389288A (en) 2003-12-03
EP1374637A2 (en) 2004-01-02
GB2366976A (en) 2002-03-20

Similar Documents

Publication Publication Date Title
Valimaki et al. Fifty years of artificial reverberation
JP7183467B2 (ja) 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
KR101193763B1 (ko) 비자연 반향음
JP6607895B2 (ja) 少なくとも一つのフィードバック遅延ネットワークを使ったマルチチャネル・オーディオに応答したバイノーラル・オーディオの生成
JP5298199B2 (ja) モノフォニック対応およびラウドスピーカ対応のバイノーラルフィルタ
Schroeder Digital simulation of sound transmission in reverberant spaces
Savioja Modeling techniques for virtual acoustics
US5371799A (en) Stereo headphone sound source localization system
JP5285626B2 (ja) 音声空間化及び環境シミュレーション
US7257230B2 (en) Impulse response collecting method, sound effect adding apparatus, and recording medium
EP3026666B1 (en) Reverberant sound adding apparatus, reverberant sound adding method, and reverberant sound adding program
US6741711B1 (en) Method of synthesizing an approximate impulse response function
JP2004509376A (ja) 近似インパルス応答関数を合成する方法
JP2000097763A (ja) インパルス応答の収集方法および効果音付加装置ならびに記録媒体
Li et al. Spatial sound rendering using measured room impulse responses
JP2004509544A (ja) 耳に近接配置されるスピーカ用の音声信号処理方法
Impulse et al. Implementation Of A Hybrid Reverb Algorithm
JP2003157090A (ja) 残響音生成方法及び残響音シミュレータ
JPH09244663A (ja) 過渡応答信号生成方法、音響再生方法及び装置
Schlemmer Reverb Design
Janssen A Reverberation Instrument Based on Perceptual Mapping.
Giesbrecht et al. Algorithmic Reverberation
Costantini et al. Adaptive room acoustic response simulation: a virtual 3D application
Stewart et al. Hybrid convolution and filterbank artificial reverberation algorithm using statistical analysis and synthesis
Välimäki et al. Publication VI

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050801