JP4198915B2 - 空間的音波ステアリングシステム - Google Patents
空間的音波ステアリングシステム Download PDFInfo
- Publication number
- JP4198915B2 JP4198915B2 JP2001570682A JP2001570682A JP4198915B2 JP 4198915 B2 JP4198915 B2 JP 4198915B2 JP 2001570682 A JP2001570682 A JP 2001570682A JP 2001570682 A JP2001570682 A JP 2001570682A JP 4198915 B2 JP4198915 B2 JP 4198915B2
- Authority
- JP
- Japan
- Prior art keywords
- microphone
- sound source
- acoustic signal
- signal
- reflectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 239000003623 enhancer Substances 0.000 claims abstract description 58
- 230000003595 spectral effect Effects 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000001514 detection method Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 5
- 230000003111 delayed effect Effects 0.000 claims description 4
- 238000010521 absorption reaction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 3
- 238000002347 injection Methods 0.000 claims 2
- 239000007924 injection Substances 0.000 claims 2
- 239000002991 molded plastic Substances 0.000 claims 2
- 230000005540 biological transmission Effects 0.000 description 8
- 238000003780 insertion Methods 0.000 description 7
- 230000037431 insertion Effects 0.000 description 7
- 239000000463 material Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 210000003128 head Anatomy 0.000 description 4
- 230000004044 response Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 239000004033 plastic Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000721179 Clarias Species 0.000 description 1
- 239000000919 ceramic Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 210000003027 ear inner Anatomy 0.000 description 1
- 210000000959 ear middle Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000001746 injection moulding Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
- G01S3/802—Systems for determining direction or deviation from predetermined direction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/34—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- Signal Processing (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Studio Devices (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Steering Controls (AREA)
- Stereophonic Arrangements (AREA)
- Stereo-Broadcasting Methods (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Description
【発明の分野】
本発明は、一般的に、音波ステアリングシステムに関し、さらに詳細には、三次元空間的オーディオ技術を利用する空間的音波ステアリングシステムに関する。
【0002】
【発明の背景】
種々の異なる目的のために、音源からの信号を検知できるシステムが多数提案されている。ビデオ会議システム及び他の通信システムだけでなく、多種多様なセキュリティー、オートメーション及びモニターシステムが、生活の便利さを向上させ、生活を簡易化し、また生活を安全にする目的で使用される。また、最新式の音波探知システムは、音声指向カメラ画像ステアリング方式により音源の方向または場所の探知を可能にする。例えば、Chu et al.の米国特許第5,778,082号は、空間的に分離した一対のマイクロフォンにより共通の音源からのスピーチまたは他の音響信号の方向または場所を探知する、音源探知システム及び方法を開示している。同様に、Bakerの米国特許第5,686,957号は、マイクロフォンの配列を利用して、半球状可視領域内における特定の話し手の方向を特定し、方向信号をビデオカメラシステムへ送るものである。しかしながら、Chu及びBakeのシステムは他の類似のシステムと同様、オーディオ信号振幅の「差」を検出できるに過ぎないため、音源方向を探知するためには2個以上のマイクロフォンの使用が不可欠であり、これらシステムのコスト及び複雑さが増加する。
【0003】
Elkoの米国特許第5,742,693号は、所定周波数において一次または二次の差動応答を発生するための1個以上のセンサーを備えた有限音響反射表面またはバッフルより成る音響変換器を開示している。Elkoのセンサーは、画像から得られるセンサーであり、バッフルそれ自体の上に配置する必要がある。Elkoの変換器はさらに、このバッフルを所定周波数の音波の約1波長乃至半波長にしなければならない。かかる制約により、Elkoの装置をビデオカメラのような標準型ビデオ会議システムと併用するのが難しい。
【0004】
上記理由により、音源方向を探知する、便利でコンパクトなシステムが当該技術分野で求められている。
【0005】
本発明によると、音源から到達する音響信号の方向を探知する装置であって、音響信号を受信し、音響信号に干渉パターンを発生させる非対称リッジを有する複数の反射器と、反射器の近くに位置して音響信号を受信する変換器と、変換器に作動的に接続され、音響信号のスペクトルノッチを検出し、識別する検出器と、検出器に作動的に接続され、識別したスペクトルノッチに基づき音響信号の方向を決定する手段とより成る音響信号の方向探知装置が提供される。
本発明によると、音源から到達する音響信号の方向を探知する方法であって、非対称リッジを有する複数の反射器により音響信号を受信して、該音響信号に干渉パターンを発生させ、反射器の近くに位置する変換器により音響信号を電気信号に変換し、変換器に作動的に接続された検出器により音響信号のスペクトルノッチを検出して識別し、検出器に作動的に接続された手段により、識別したスペクトルノッチに基づき音響信号の方向を決定するステップより成る音響信号の探知方法をも提供される。
【0006】
1つの実施例では、三次元の音波を検知できるマイクロフォンシステムを用意する。このマイクロフォンシステムは、少なくとも2つの反射器が楕円の中心にあるマイクロフォンから異なる距離だけ離隔した楕円形マイクロフォンエンハンサーを有する。反射器は非対称リッジを有し、これらのリッジは、人間の耳の耳介により発生されるパターンに概念的に類似した、干渉パターンをマイクロフォンにより受信される信号に発生させる。
【0007】
別の実施例の音波ステアリングシステムは、カメラが方向情報により音源の方へ向けられるようにする。特殊な画像装置を用いるか、方向を探知するために少なくとも2つのマイクロフォンを必要とする従来のビデオ会議システムとは異なり、本発明の音波ステアリングシステムはただ1個のマイクロフォンを必要とするに過ぎず、従来型ビデオ会議システムに組み込むことができる。
【0008】
別の実施例では、マイクロフォンシステムからのアナログ信号を時間ベースのデジタルオーディオ情報より成る別個のフレームに変換する。フーリエ解析により、この時間ベース情報を周波数ベースのスペクトル係数に変換する。その後、空間推定器がこれらのスペクトル係数を用いてフレーム内のスペクトルノッチまたは反共振を見つける。スペクトル推定器は、探索表を用いてこれらのフレームを既知の空間座標に関連付け、この情報をカメラのモニターへ送る。
【0009】
【好ましい実施例の詳細な説明】
音源から到達する音響信号の方向を探知する装置及び方法を開示する。以下の詳細な説明において、本願の一部であり、本発明の特定の実施例を例示する添付図面を参照する。図面において、同一の参照番号は幾つかの図を通して実質的に同じコンポーネントを指すものである。これらの実施例は、当業者が本発明を実施できるように十分に詳しく記載されており、他の実施例も可能であって、本発明の範囲から逸脱することなく機械的、方法的、電気的及び他の種類の変形又は設計変更を行うことができることを理解されたい。従って、以下の詳細の説明は限定的な意味でとらえるべきではなく、本発明の範囲は、頭書の特許請求の範囲と均等物の全範囲とによってのみ制限されるものである。
【0010】
バーチャル音響または三次元(3D)サウンドを「発生」できることが当該技術分野において知られている。この技術は、インターアクティブ/バーチャルリアリティーシステム、マルチメディアシステム、通信システムなどに利用される。本質的に、適正に設計したデジタルフィルターを使用すると、ヘッドホンを着用した聞き手の周りの「バーチャル」空間の任意の場所で音を発生することができる。従来型3Dシステムでは、所与の音源に関連して最初から存在する空間的属性を補充または置換するプロセスにより、空間化された音波を発生する。これとは対照的に、本発明は、音源からの既存の3D音波を「検出」する新規の3D音波ステアリングシステムである。
【0011】
図1は、本発明の一実施例によるコンピュータ化音波ステアリングシステム(以下、「システム」と呼ぶ)100のブロック図である。このシステム100は、マイクロフォンシステム101、ビデオカメラ103及びコントローラ105より成る。コントローラ105は、信号プロセッサー106、空間推定器108、カメラモーター110、オーディオ圧縮器111及びオーディオ/ビデオ送信機112を有する。システム100の入力は、画像/音源116である。詳述すると、ビデオカメラ103の入力は画像ソース116Aであり、マイクロフォンエンハンサー102の入力は音源116Bである。オーディオ/ビデオ送信機112の出力は、送信媒体118を介して遠隔のオーディオ/ビデオ受信機120へ送られる。
【0012】
別の実施例(図示せず)において、このシステム100は、マイクロフォンシステム101と、コントローラ105とだけにより構成される。この実施例において、コントローラ105は、信号プロセッサー106と、空間推定器108とから成る。オーディオ圧縮器111及びオーディオ/ビデオ送信器112は、このシステム100の外部か、それと並置して用いることができる。この実施例において、カメラモーター110は、本質的に、コントローラ105により提供される情報を利用する。
【0013】
マイクロフォンシステム101と、コントローラ105との間、ビデオカメラ103とコントローラ105との間などのような種々のコンポーネントの間には、多数のインターフェイス、バスまたは他の通信手段が介在する。かかるインターフェイスは、当業者であればわかるように、必要とされる全ての従来型電気的及び機械的コンポーネントより成るため、これらについては詳述しない。コントローラ105は、当該技術分野で良く知られているように、ラップトップの汎用コンピュータのようなコンピュータまたは局部受信機または遠隔の受信機でよい。1つの実施例において、コントローラ105は、入力信号を処理するか操作して適当な出力信号を発生するために必要な全てのコンポーネントを備えたパーソナルコンピュータである。上述したコンポーネントに加えて、コントローラ105は、任意適当なタイプの中央処理ユニット、ユーティリティー、ドライバー、イベントキュー、アプリケーションなどを含むことができるが、本発明はそれらに限定されない。1つの実施例において、コントローラ105のコンポーネントはコンピュータのプロセッサーにより実行される全てのコンピュータプログラムであり、コンピュータは、メモリーのようなコンピュータにより読取り可能なメディアに記憶された命令の制御下で動作する。コントローラ105はまた、当業者であればわかるように、コンピュータプログラムを実行するオペレーティングシステムを含む。
【0014】
マイクロフォンシステム101は、マイクロフォンエンハンサー102と、変換器またはマイクロフォン104とを有する。1つの実施例において、マイクロフォンエンハンサー102は、上述したように、干渉パターンを発生して音源116Bからの音響信号を変形する非対称リッジまたはフォールドを含んだマイクロフォンスリーブより成る。変形済み音響信号は、マイクロフォン104により電気信号に変換され、この電気信号は信号プロセッサー106へ送られる。1つの実施例において、信号プロセッサー106は、マイクロフォン104の出力をアナログから整数値または浮動小数点値のデジタル表示のようなデジタル信号に変換する。デジタル信号はさらに、信号のスペクトル干渉パターンを抽出するために信号プロセッサーアルゴリズムにより処理される。この情報は、空間推定器108へ送られ、この推定器は確立された統計法により音源116Bの方向に関する「最良予測」を行う。空間推定器108からの方向情報は、カメラモーター110へ出力される。カメラモーター110は、カメラを移動できる従来型カメラモーターまたは追跡システムの任意のものでよい。カメラモーター110は、ビデオカメラ103を画像/音源116の方向へ向けて、音源116が捕捉できるようにする。1つの実施例では、画像認識アルゴリズムにより、空間推定器108の出力を確認する。音源116Bに連携する画像は、オーディオ/ビデオ送信機112により捕捉され処理される。同時に、オーディオ圧縮器111からの圧縮済み電気信号も、オーディオ/ビデオ送信機112へ出力される。画像及び圧縮器済み電気信号はその後、オーディオ/ビデオ送信機112により送信媒体118を介して別の場所の遠隔/ビデオ受信機120へ送られる。遠隔オーディオ/ビデオ受信機120は、画像及びそれに連携する電気信号を処理し復号する。その結果得られるビデオ出力は、第三者122がモニター124上で見ることができ、オーディオ出力は1またはそれ以上のスピーカー126により聞くことができる。
【0015】
マイクロフォンエンハンサー102は、入来音響信号と相互作用して各空間的方向にとって特有の周波数特性を発生させ、これらの信号をマイクロフォン104へ送ることのできる任意適当なコンポーネントでよい。これらの相互作用パターンまたは干渉パターンは、各信号のスペクトルにスペクトルノッチとして現れる。
【0016】
図2Aは、マイクロフォンエンハンサー102が長軸206及び短軸208を有する楕円または卵形をした1つの実施例を示すが、本発明はこれに限定されない。図2Bに示すように、卵形の構成は、マイクロフォンの孔部202の両側のリッジ214間の差または遅延を最大にするが、マイクロフォンエンハンサー102の垂直方向のサイズは増加させない。卵形の構成では、長軸206の最小寸法は信号の分解能により決定されるが、これは実施例により異なる。長軸206が特定の実施例にとって小さすぎる場合、マイクロフォンエンハンサー102に含まれるリッジ214は検出可能なパターンを発生できない。長軸206が特定の実施例にとって大きすぎる場合、所期の音源からの信号の反射波と、他の近くの音源からの信号の反射波との間に差が存在せず、望ましくないバックグラウンドノイズが検出される。1つの実施例において、マイクロフォンエンハンサー102は、直軸206が約2cm乃至約6cmまたはそれ以上、短軸208が約0.5cm乃至約3cmまたはそれ以上である。
【0017】
マイクロフォンエンハンサー102はさらに、前面210(図2Bに示す)と背面212(図2Aに示す)とを有し、リムまたはリップ201も備えている。マイクロフォンエンハンサー102はまた、マイクロフォン104を支持するか収容するための手段も備えている。図2A及び2Bに示す実施例のマイクロフォンエンハンサー102は、中央にマイクロフォン挿入孔202を有し、この孔部にマイクロフォン104が装着される。本質的に、マイクロフォン挿入孔202は平らな端縁部を有する円形の孔である。この実施例において、マイクロフォンエンハンサー102は、背面212を下側にして表面の方へ向けて設置すると、マイクロフォン挿入孔202の端縁部上にのみ納まる容器の形状を有する。
【0018】
図2Bは、マイクロフォンエンハンサー102の楕円形前面210へ固定されるかそれと一体的に形成されるリッジ214及びウェル216の1つの構成を示すが、本発明はそれに限定されない。一般的に、マイクロフォンエンハンサー102は、人間の耳の耳介と概念的に類似の、縦方向の音波の反射器として働く非対称リッジ214を含む。しかしながら、人間の耳の場合、中耳及び内耳はこれらの振動を受ける「受信機」である。本発明において、それ自体のエンハンサー、即ち「耳」を取付けたマイクロフォン104は、音波の受信を意図した受信機である。1つの実施例において、マイクロフォンエンハンサー102の1つの半球に多数のリッジ204及びウェル216が存在する。別の実施例では、リム201に近い所に大きなリッジ214が配置されている。さらに別の実施例では、花の花弁と同様にリッジ214を種々の開放段階に配置して、それらがほぼ外方向に湾曲し、リム201より先に延びるか、または延びないようにすることができる。
【0019】
リッジ214は、適当な干渉パターンが発生される限り任意適当な高さでよい。一般的に、リッジ214が高ければ高いほど、大きなエネルギーの反射または干渉信号が得られ、検出及び測定が容易になる。1つの実施例において、リッジ214は約0.25cm乃至約0.5cmの範囲の種々の高さを有する。別の実施例において、リッジ214は、全てほぼ同じ高さである。さらに別の実施例では、一部または全部のリッジ214が約0.5cmより高くする。
【0020】
音源の方向を探知するには、マイクロフォンエンハンサー102に少なくとも2つの隆起部分、即ち、2つのリッジ214かまたは少なくとも2つの頂上部分または丘部分を有する1つのリッジ214を設ける必要がある。1つの実施例において、各々がマイクロフォン104から異なる距離だけ離隔した2つのリッジ214が存在する。マイクロフォンエンハンサー102は最小2個の隆起部分を備えることができるが、多数の隆起部分またはリッジ214を設けると、多数のノッチが検出できるため、信号の方向探知の信頼度が増加する。1つの実施例において、マイクロフォンエンハンサー102は、2乃至10個またはそれ以上の リッジ214を有する。図2B及び3に示す実施例では、リッジ214は少なくともわずかに円形または双曲線状である。
【0021】
リッジ214はまた、信号干渉の信頼度が少なくとも最小レベルになるように互いに十分な距離離隔する必要がある。そうでなくて、2つの音源がマイクロフォン104の両側であるがマイクロフォンエンハンサー102から同一距離にある場合、「鏡像」状態または混同圏が生じ、システムが2つのうち何れの側から音波がくるかを探知できなくなる。1つの実施例において、リッジ214は、長軸206上の垂直方向の中心にあるマイクロフォン挿入孔202の両側にある。別の実施例において、リッジ214間の距離は、マイクロフォンエンハンサー102のサイズに応じて、少なくとも1cm乃至約2.5cmまたはそれよりもさらに大きい。
【0022】
入来音響信号(即ち、音波)と適当に相互作用させるために、マイクロフォンエンハンサー102は、垂直またはほぼ垂直な平面において端縁部上、即ちそのリム201上に配置され、リッジ214の頂部が入来信号に対して直角またはほぼ直角になるようにする。マイクロフォンエンハンサー102がその信号に近づく前方に、またはその信号から遠ざかる後方に傾くと、反射の程度、従って信号強度が大きく減少する。マイクロフォンエンハンサー102が鉛直線から何れかの方向に傾きすぎると、せん断効果が生じて、リッジ214がもはや適当な干渉パターンを発生できなくなる。
【0023】
マイクロフォンエンハンサー102を、特定の用途に応じて、リム201の周囲の任意の部分上に納まるように回転することもできる。1つの実施例において、マイクロフォンエンハンサー102の長軸206は、水平面内にある。即ち、広くカバーできる位置にある。この構成は、全ての参加者が座ったままでいると推定する、従来のビデオ会議システムに有用である。別の実施例において、マイクロフォンエンハンサー102は、長軸206が垂直方向、即ち人物写真を撮る位置にあるように配置される。この構成は、全ての参加者が立っていると推定できる場合に有用であり、垂直方向の高さを検知するのが望ましい。さらに別の実施例では、少なくとも2つのマイクロフォンエンハンサー102を「十字架」のように配置して、第1のマイクロフォンエンハンサーの長軸が水平またはほぼ水平に、第2のマイクロソフトエンハンサーの長軸が垂直またはほぼ垂直になるようにすることができる。別の実施例では、1またはそれ以上の円形のマイクロフォンエンハンサー102を使用する。最後の2つの実施例は、参加者が立ったり座ったりする場合に有用である。
【0024】
人間の聴覚において、所与の水平面内にある音源の角度位置を突き止める最も重要な手がかりは、2つの耳における波頭の相対的な差である。同様に、本発明は、音源の角度位置を、マイクロフォン104の両側のリッジ214における波頭の相対的な差に基づき測定する。詳述すると、干渉が生じるのは、同じ信号が2以上の経路を進行して、同一場所、即ちマイクロフォン104のヘッドに到達するためである。直線経路を進む信号の一部と、マイクロフォンの両側の少なくとも2つの異なる遅延または反射経路を進む信号の他の部分とを組み合わせると、本質的に、共通の頂点が音源116Bと、マイクロフォン104とである三角形が形成される。これにより、遅延経路の信号は、直線経路の信号と、距離の差に対応する周波数においてのみ破壊的な干渉を開始する。このようにして、対応するスペクトルノッチが発生する。
【0025】
図3は、3つの異なる音波302、304、306がマイクロフォンシステム101に遭遇する信号の拡大頂面図である。その図は実尺でなく、各音波をその波の中心または中心に近い所の矢印で表わす。さらに、図示を簡略にするために、2個のリッジ214だけを示すが、本発明はそれに限定されない。図3に示すように、反射することになる第1の音波304はリッジ214で反射し、反射することになる第2の音波は別のリッジ214で反射し、直線経路を行く音波306は直接マイクロフォン104へ到達する。その結果、マイクロフォン104は、反射した音波302、304を、各リッジ214の中心からマイクロフォン304までの距離に比例する遅延時間の後、受信する。換言すれば、リッジで反射する音波の経路302、304は長く、それにより干渉が生じる。図3に示す実施例では、反射した第1の音波302は距離308だけ遅延し、反射した第2の音波304は異なる距離310だけ遅延する。実際の干渉または遅延量は、リッジ214、マイクロフォン104及び音源116Bの相対的位置及び大きさを含む(それらに限定されない)多くのファクターにより可変である。しかしながら、この時間遅延は、適当な信号処理アルゴリズムを用いて計算可能であり、この時間遅延は外的条件に応じて変化する。1つの実施例において、時間遅延は約1秒/330mであるが、その理由は標準的な温度及び圧力で音波が約1秒間約330m進むからである。アルゴリズムの結果を用いると、音源116Bの方向を正確に探知することができる。1つの実施例において、音源116Bの位置は空間的に±約5°内で追跡される。
【0026】
図3に示すように、マイクロフォン104は、作動端またはヘッドがマイクロフォンエンハンサー102により全ての側を取り囲まれるように、マイクロフォン挿入孔202内に配置されている。詳述すると、リッジ214の高さは、マイクロフォン104の高さより大きいように設計されている。このようにすると、音源116Bからの入来信号が最初に、マイクロフォン104それ自体ではなくて、マイクロフォンエンハンサー102のリッジ214に到達する。1つの実施例において、マイクロフォン104のヘッドはマイクロフォン挿入孔202の底部と同一平面にある。
【0027】
マイクロフォンエンハンサー102は、比較的剛性で幾分かの反射特性を有する限り、任意適当な厚さの任意適当な材料で形成することができる。1つの実施例において、その材料は高い反射性を有し、また、一部の周波数成分を吸収し、他の周波数成分を反射するのではなくて、全ての周波数成分をほぼ等しく反射するように、スペクトル特性が平らである。1つの特定の実施例において、その材料の吸収係数は、約100Hz乃至4kHzの周波数で約0.05であり、スペクトルの平坦度は、約100Hz乃至8kHzの周波数で約±1デシベル(dB)である。マイクロフォンエンハンサー102を形成できる材料の種類には、プラスチック、セラミック、金属、種々のタイプの被覆材料等が含まれるが、それらに限定されない。1つの実施例において、マイクロフォンエンハンサー102は、当該技術分野でよく知られた任意タイプの射出成形プロセスによりプラスチックから形成され、その剛性は、広い範囲の温度、例えば0℃乃至約40℃の温度で形状を保持できるほど十分な値を有する。ある特定の金属のように材料の反射性が高くて残響を発生する場合、残響により生じる望ましくない信号またはノイズを除去するために信号をさらに処理する必要がある。
【0028】
マイクロフォンシステム101は、適切な干渉パターンが発生する限り、音源116Bに関して任意適当な位置に配置可能である。1つの実施例において、マイクロフォンシステム101は、水平面だけのキューより成る定位キューだけをピップアップする。別の実施例のマイクロフォンシステム101は、水平及び縦方向の両方のキューより成る定位キューをピックアップする。システム100が定位キューを探知しようとする場合、マイクロフォンシステム101を音源116Bと同じ水平面またはそれとほぼ同じ水平面に位置させる。1つの実施例において、音源116Bがマイクロフォンシステム101の片側の何れかの側から約15°またはそれ以上のような、マイクロフォンシステム101の前面に関して約180°未満の水平アーク内に存在する場合、適当な干渉が発生する。従って、この実施例では、マイクロフォンシステム101は、水平方向において少なくとも150°の有効動作範囲を有する。システム100が仰角方向のキューも(またはそれだけ)を検知する場合、マイクロフォンエンハンサー102は、特定の音源116Bについて、それ自体のシミュレーションしたヘッド関連伝達関数(HRTF)、即ち、位置伝達関数(PTF)を発生する。1つの実施例において、音源116Bが、マイクロフォンシステム101の上部または底部の何れかから約15°またはそれ以上のような、マイクロフォンシステム100の前面に関して180°未満の垂直アーク内に存在する場合、適当な干渉が発生する。この実施例のマイクロフォンシステム101は、垂直方向において少なくとも150°の有効動作範囲を有する。しかしながら、ほとんどのビデオ会議システムでは、音源116Bは、マイクロフォンシステム101が配置される水平面内またはその上方に位置する。
【0029】
音源116Bは、適当な干渉パターンを発生できる限り、マイクロフォンエンハンサー102から任意適当な距離だけ離れていてもよい。1つの実施例において、音源116Bは、マイクロフォンエンハンサー102から約1m乃至約5m離れている。音源116Bがマイクロフォンエンハンサー102に近すぎると、信号が大きくなりすぎて、その方向の正確な検出が困難である。音源116Bが遠すぎる場合、音源116Bと、その時のバックグラウンドノイズとの判別が難しい。1つの実施例において、バックグラウンドノイズは、コントローラ105を適当なアルゴリズムで動くようにプログラミングすることにより吸収する。例えば、システム100を、最初はバックグラウンドまたは環境ノイズだけで作動させて、ベースラインが確立できるようにする。所望の音源116Bが一旦スタートすると、ベースラインより高い信号だけがシステム100による考慮の対象となる。ベースラインまたはそれ以下の信号は、実質的に無視または「減算」される。即ち、バックグラウンドノイズに比例して1つのサインだけ大きい音波だけが考慮される。
【0030】
マイクロフォン104は、音波エネルギーを電気エネルギーに変換し、所望の周波数応答を発生できる任意適当なマイクロフォンでよい。ノッチまたはローパス若しくはハイパス特性のような普通でないスペクトル特性を有するマイクロフォン104も、システム100がこれらの特性を補償するようにプログラムされれば使用可能である。1つの実施例において、マイクロフォン104は平坦なまたはほぼ平坦なスペクトルを有するマイクロフォンである。特定の実施例において、マイクロフォン104のスペクトル平坦度は、約100Hz乃至10kHzの周波数で約±2dBである。
【0031】
マイクロフォン104は任意適当なサイズでよく、1つの実施例では、マイクロプロセッサーエンハンサーの直径(即ち長軸)よりも小さい直径を有する。別の実施例において、マイクロフォン104は、マイクロフォン挿入孔202のようなマイクロフォンエンハンサー102のマイクロフォン装着手段に嵌合するように設計された、波形率が小さいマイクロフォンである。一般的に、小型マイクロフォン104は、長軸206の実効サイズを大きくして、大きな遅延または干渉を発生することができる。しかしながら、マイクロフォン104がマイクロフォンエンハンサー102と比べて小さすぎると、スペクトル平坦度が劣化する。あるいは、マイクロフォン104がマイクロフォンエンハンサー102と比べて大きすぎる場合、マイクロフォンエンハンサー102に含まれるリッジ214の特異な干渉パターン発生能力が減少する可能性がある。1つの実施例において、マイクロフォン104の直径は、マイクロフォンエンハンサー102の直径(または長軸)の約10乃至30%である。別の実施例において、マイクロフォン104の直径は約0.635cm乃至約0.95cmである。特定の実施例において、マイクロフォンは、ミネソタ州ミネアポリスのTelex Communications, Inc.により製造されたTelex Clariaマイクロフォンである。
【0032】
マイクロフォン104及びマイクロフォンエンハンサー102より成る本発明のシステム101は、本質的に人間の「聴取者」に代わるものである。任意の聴取者がバーチャル音源の方向及び位置を突き止める、即ち、その音源を探知できるようにするには、最初に、「角度を知覚」する必要がある。バーチャル音源の角度の知覚は、方位角及び仰角で説明できる。従って、本発明は、方位角を求め、状況によっては仰角も求めて、マイクロフォンシステム101が音源116Bを探知できるようにする。図4に示すように、方位角402は、グラウンドレベル406に平行な第1の水平面404上における音源116Bの相対的角度をいう。仰角408は、マイクロフォンシステム101の第2の水平面410の上方のような、水平面の上方にある、音源116Bのような、固定点の角度距離のことである。通常、方位は角度で表わすため、方位及び仰角が0°の位置ある音源116Bは、聴取者、この場合はマイクロフォンシステム111のすぐ前方にある。方位は、方位円に沿って0°から360°の反時計方向に増加するものとして表わすことができる。図4の方位角は約30°であり、仰角406は約60°である。音源116Bとマイクロフォンシステム101との間の直線距離を知覚距離と呼ぶことができるが、音源116Bの探知にはこの距離を直接計算する必要はない。
【0033】
上述したように、干渉パターンは、マイクロフォンエンハンサー102により形成された後、マイクロフォン104により受信される。この干渉は、「スペクトルピーク」の反対である「スペクトルノッチ」(または反共振)として信号のスペクトルに現れる。処理用ソフトウェアを用いて、入来干渉パターンを分析、即ち、デジタル信号のスペクトル成分を推定することにより、特定の空間的方向に関連のある共通のノッチを突き止めることができる。適当なアルゴリズムを使用して、入力信号スペクトルの連続するフレームにある、リッジ距離に比例する特定の周波数範囲の最小点を探索する。音源116Bの方位角を、信号スペクトルのノッチ位置に基づき探索表で推定する。垂直方向の干渉パターンを発生させると、音源116Bの仰角も同じ検知方法で推定することができる。この検索により、その位置の「可能性が最も高い」空間的方向が得られる。
【0034】
しかしながら、上述したように、マイクロフォンシステム101からの信号は、空間推定器108の前に、まず信号プロセッサー106へ入力される。信号プロセッサー106は、マイクロフォンシステム101からの入来信号を処理して、適当な信号を空間推定器へ送るために必要な任意適当なコンポーネントにより構成可能である。上述したように、また図5に示すように、信号プロセッサー106は、アナログ−デジタル(A/D)コンバータ508と、変換器510とを含むことができる。
【0035】
図5に示す実施例のA/Dコンバータ508は、サンプラー514と、量子化器515とより成る。入来アナログ信号はサンプラー514へ入力され、そこで連続するサンプルが得られる。これらの数値サンプルまたはフレーム516は、上述したように、スペクトルノッチを含む。しかしながら、フレーム516は、マイクロフォンシステム101により発生されるスペクトルノッチだけでなく、音源116Bからの信号に自然に存在する「内容物」としてのスペクトルノッチも含む。この内容物としてのノッチは通常、約20ミリ秒(ms)もしくはそれより短い時間持続する過渡的なものであり、以下に述べるように、システム100により無視される。サンプラー514は、約16kHz乃至48kHzのような任意適当なサンプリング周波数で動作可能である。図5に示す実施例において、サンプラー514を通過するフレーム516はアナログ値である。これらのフレーム516はその後、量子化器515へ入り、そこで、値が調整され、または量子化されて、全て数の増分になり、信号がデジタル化される。
【0036】
フレーム516はその後、A/Dコンバータから変換器510へ送られる。図5に示す実施例の変換器516は、乗算器522、ウィンドウ524及び分析器526より成る。変換器510において、乗算器522は、ウィンドウ524が発生するウィンドウ関数をA/Dコンバータ508の出力信号に乗算する。ウィンドウ524は、従来のハミングウィンドウ、指数ウィンドウなどのような当該技術分野で知られた任意適当なウィンドウ関数を発生できる。乗算器522の出力の信号は、さらに、分析器526により処理される。
【0037】
信号の分析に任意適当なアルゴリズムを使用できるが、これはデータを減少するための所定の割合または値の選択を含む。1つの実施例では、Leavy and Shenの米国特許出願(発明の名称:A Method and Apparatus for Constructing a Digital Filter)に記載されるような主要成分(PCA)分析法またはその変形例を使用する。別な実施例では、入来デジタル信号を、各フレームについて積分変換することにより時間領域から周波数領域へ変換する。かかる変換は、逆高速フーリエ変換(IFFT)または高速フーリエ変換(FFT)のようなフーリエ解析を含むことができる。
【0038】
FFTより成る特定の計算は、当該技術分野で良く知られているためここでは詳述しない。本質的に、フーリエ変換は、複雑な波形を数学的に分解して振幅及び位相を特定できる一連の正弦波にする。各フーリエ変換は、時間のただ1つの「スライス」だけを見ると考えられるため、特定のスペクトル反共振または最小点が分かる。1つの実施例において、分析器526は、入来デジタル信号を構成する一連の512個または1024個の点のFFTを取る。別の実施例において、分析器526は、Shenの米国特許出願(発明の名称:Method and Apparatus for Performing Block Based Frequency Domain Filtering)に記載されたアルゴリズムの変形例を使用する。Shen特許は三次元の音を「発生」するアルゴリズムを記載しているため、これらは必然的に、代わりに三次元の音を「探知」するためのパラメータを組み込んだ変形例を含むものである。
【0039】
現在のフレーム516のフーリエ変換信号は、他のコンポーネントまたはモジュールへ直接送られて、さらに処理される。図5に示す実施例において、信号は直接、空間推定器108へ送られる。空間推定器108では、フーリエ変換信号をノッチ検知器508よりすぐ利用するか、または、まず各変換に関連するメモリー506に記憶させ、その後で処理することができる。メモリー506は、最大N個の情報フレームを記憶することが可能である。本質的に、ノッチ検知器502は、分析器526の出力をチェックして、空間的方向に対応する特定の領域に、上述したマイクロフォンエンハンサー102からの反射によるノッチがないか否かを探索する。明確なノッチが検出されると、ノッチ検知器502は、統計的分析を行って、その空間的方向が以前検出したものであるか否かを突き止める。即ち、前のフレーム516に関する情報を含む探索表504を用いて、検出したノッチと、連続する入力フレームとを比較する。このようにして、最も最近のフレーム516を旧いフレーム516と比較すると、サンプラー514を出る特定のノッチが、マイクロプロセッサーエンハンサー102により導入された方向を表わすスペクトルノッチであって、内容としてのスペクトルノッチではないと、十分な信頼度で決定することが可能である。1つの実施例において、ノッチが少なくとも約5個またはそれ以上の連続するフレーム516に現れる場合、十分な信頼度が得られる。1つの実施例において、ノッチ検知器502は、水平方向のノッチ検知器及び垂直方向のノッチ検知器より成り、これらはそれぞれ、水平方向及び垂直方向の探索表でノッチを探索する。
【0040】
空間的方向を以前探知している場合、方向信号を、その後、カメラモーター110へ送り、このモーターを移動して、ビデオカメラが探知された音源116Bの方向を向くようにする。画像情報は、その後、ビデオカメラからオーディオ/ビデオ送信機110へ送られる。関連のオーディオ情報も、オーディオ圧縮器111からオーディオ/ビデオ送信機へ送られる。
【0041】
本発明の音波ステアリングシステム100は、音を特徴付ける種々の変数レベルの多くに適応するように設計可能である。これらの変数には、周波数(またはピッチ)、強度(または音の大きさ)及び持続時間が含まれる。別の実施例において、スペクトルの内容(または音色)もシステム100により検知される。
【0042】
詳述すると、システム100は、亜音速から超音速までの帯域幅の信号周波数、即ち、15Hz未満から最高20kHzを超える信号周波数の広い範囲に適応可能なように設計できる。1つの実施例において、音波ステアリングシステム100の信号処理は、可聴スピーチに関連する帯域幅、即ち約300Hzから約5kHzの帯域幅を中心とするように設計される。スペクトル平滑を行うことにより、信号プロセッサー108は、スペクトル中のある特定の音またはノイズを無視するようにプログラムすることも可能である。
【0043】
信号プロセッサー108はさらに、1乃至5秒またはそれ以上のようなある特定の時間の間、第2の音源による割込みを無視するようにプログラムすることができる。かかる割込みは、別の人間からの音声またはモーターのハム音のような機械的ノイズを含むことができる。別の人間の音声のような第2の音源からの音が所定期間経過後も継続している場合、所望であれば、カメラ103を第2の音源の方向へ向けることができる。
【0044】
所与の音源116Bからのある特定強度または強さの音の検出能力としてのシステム100の感度も、特定の用途に応じて任意適当な態様で調整することができる。1つの実施例において、システム100は、約75−90dBまたはそれ以上のような通常の会話に関連する強さの音をピックアップできる。別の実施例では、75dBより小さい強度または約90dBより大きい強度の音も検出できる。しかしながら、信号強度がさらに大きくなると、信号の強度比(即ち、反射経路からの信号に対する直線経路の信号の比率)は、必ずしも同じ比率で変化しない。その結果、一方の信号が他方の信号を隠すかマスクキングするようになり、反射波の検出が困難またはほとんど不可能になって、方向を探知できない。
【0045】
1つの実施例において、システム100は、音源116Bの存在を確認するための画像認識ステップも含む。例えば、音源116Bの方向を探知するに際してエラーが生じ、カメラが、唇が動いていないような人または空の椅子に向けられると、画像認識ステップにより、その方向に音源116Bが存在しないことが検証され、それに応じてカメラを移動することができる。
【0046】
特定の用途に応じて、信号処理アルゴリズムにより残響を補償する必要がある。1つの実施例において、システムは、参加者の発声が壁に非常に近い所ではない普通の会議室で使用される。別の実施例では、はっきりわかるような残響があり、カーペットを敷いていない大きな部屋で使用される。
【0047】
上述の音波探知プロセスの1つの実施例は、図6に示すように、一連のステップで説明することができる。捕捉ステップ602では、干渉を含む音響データの流れを、マイクロフォンシステムから捕捉する。このデータは、604において、数値サンプリングフレームへ変換する。その後、606において、各フレームにウィンドウ関数を乗算する。608において、各フレームにつきフーリエ変換を発生させる。610において、この変換を用いてスペクトルノッチを探索する。612において、各フレーム内の特定の方向に対応する特定の領域に、スペクトルノッチを検出する。613において、これらのフレームをメモリーに記憶させ、614において、前のN個のフレームと相関させる。616において、種々のスペクトルノッチに関連する既知の場所の探索表を用いて、正しい空間的方向を突き止める。最後に、618において、「可能性が最も高い」空間的方向をカメラモーターへ出力する。
【0048】
図7は、普通のビデオ会議システムに用いる本発明の1つの実施例を示す。この実施例において、マイクロフォンシステム101は、レンズ703及びカメラモーター110を有するビデオカメラ103を備えたビデオシステムに作動的に接続されている。ビデオシステム及びマイクロフォンシステム101は共に、従来のモニター702上に設置されている。マイクロフォンシステム101は、モニター702及びビデオカメラ103に関する任意適当な場所に配置することができる。マイクロフォンシステム101は、モニター702の前面のスクリーン704の上方に配置し、マイクロフォンエンハンサー102の周縁部がモニター702と同一平面またはほぼ同一平面になるようにする。マイクロフォン104それ自体は、上述したように、ボウル形マイクロフォンエンハンサー102の基部内の凹部にある。この実施例では、発表者または音源116はシステム100のほぼ前面に位置し、他の参加者705はそれに近い所に座っている。
【0049】
任意適当なタイプのビデオ会議システムを用いることができる。1つの実施例において、ビデオ「フレンドリー」またはプラグアンドプレイシステムを使用する。かかるシステムは、ユニバーサル・シリアル・バス(USB)付きのコンピュータシステムを含むが、それに限定されない。かかるプラットフォームは、本発明の技術を用いてより自然なビデオ電話のやりとりを提供することが可能である。特定の実施例において、カリフォルニア州サンタクララのインテル社が製造するプロシェア200またはチームステーション4システムを使用する。
【0050】
図7に示すように、コントローラ105内に収蔵されたオーディオ/ビデオ送信機からの出力は、伝送メディア118を介して遠隔のオーディオ/ビデオ受信機120へ送られる。伝送メディア118は、情報を伝送可能な任意適当な帯域幅を使用する任意適当なタイプの有線または無線メディアである。出力は、コントローラ105に接続された任意適当なタイプのネットワークにより、伝送メディアを介して、遠隔のオーディオ/ビデオ受信機120へ送ることができる。同じ伝送メディア118及びネットワークを用いて、遠隔地の任意のオーディオ/ビデオ送信機から近くのオーディオ/ビデオ受信機へ信号を送り、完全なビデオ会議を行うことができる。これは、ワイドエリアネットワーク(WAN)、プライベートブランチエクスチェンジ(PBX)、任意タイプのローカルエリアネットワーク(LAN)を、適当なブリッジ、ルーター及びゲートウェイなどと共に含むが、それらに限定されない。1つの実施例において、普通のダイアルアップインターネット接続のような任意適当なタイプのインターネット接続またはISDNのような任意タイプの高速インターネット接続を用いる。イサーネットまたはトークンリングのような1組のメディアアクセスコントロール(MAC)プロトコルを用い、情報ネットワークを介して、情報をスムースに流すことができる。1つの実施例において、伝送メディア118は、送信コントロールプロトコル/インターネットプロトコル(TCP/IP)のような標準のプロトコルを用いる双方向完全構造イサーネット接続より成る。受信機120からの信号は、その後、任意タイプの普通のモニター124と、スピーカーとへ出力され、これを見る者122は出力されたものを見また聞くことができる。
【0051】
必要に応じて信号処理アルゴリズムをチェックし且つ調整するために所定のスピーカーアレイを無響室でテストすると、本発明のシステムをさらに改善できる。反射、残響、オクルージョン等の効果を測定するために、1またはそれ以上の「典型的な」会議室でさらにテストを行うことも可能である。アルゴリズム、マイクロフォンエンハンサーの形状、リッジのサイズ及び間隔なども、必要に応じてさらに調整することもできる。
【0052】
本発明のシステムは、従来のビデオ会議システムと比べると、コンパクトで、使用するハードウェアも小型である。2つのマイクロフォン信号間の差を測定するのではなくて三次元の音の発生源を検知するため、応答時間及び精度を改善できる可能性が高い。1つの実施例において、ステアリングシステム100により、必要に応じてパンニング及びティルティングを行うことにより、個々の発表者または話す人を追従することができる。別の実施例では、追従システムまたは音追跡手段を使用して、カメラを音楽の音のような任意の音源に向ける。さらに別の実施例では、追跡システムをセキュリティーの目的で使用し、単一の声の音だけでなく多数の音声、足音などを検知することができる。適当に改造すると、音波ステアリングシステムをロボット案内システムと併用することも可能である。
【0053】
特定の実施例を図示説明したが、当業者は、図示説明した特定の実施例の代替物として同一目的を達成するように設計された任意の構成を使用できることがわかるであろう。本願は、本発明の種々の変形例及び設計変更を包含するように意図されている。従って、本発明は頭書の特許請求の範囲及びその均等物によってのみ限定されることが明らかである。
【図面の簡単な説明】
【図1】 図1は、本発明の一実施例による音波ステアリングシステムのブロック図である。
【図2A】 図2Aは、本発明の一実施例のマイクロフォンエンハンサーを略示する底面図である。
【図2B】 図2Bは、本発明の一実施例のマイクロフォンシステムの展開斜視図である
【図3】 図3は、本発明の一実施例のマイクロフォンシステムと相互作用する3つの音波より成る音源からの信号を略示する頂面図である。
【図4】 図4は、本発明の一実施例において音源から音響信号を受けるマイクロフォンシステムの方位角及び仰角の幾何学的関係を示す概略図である。
【図5】 図5は、本発明の一実施例による音波ステアリングシステムに用いるコントローラのブロック図である。
【図6】 図6は、本発明の一実施例において三次元の音を検知するステップを示すフローチャートである。
【図7】 図7は、本発明の一実施例におけるビデオ会議システムの概略図である。
Claims (26)
- 音源から到達する音響信号の方向を探知する装置であって、
音響信号を受信し、音響信号に干渉パターンを発生させる非対称リッジを有する複数の反射器と、
反射器の近くに位置して音響信号を受信する変換器と、
変換器に作動的に接続され、音響信号のスペクトルノッチを検出し、識別する検出器と、
検出器に作動的に接続され、識別したスペクトルノッチに基づき音響信号の方向を決定する手段とより成る音響信号の方向探知装置。 - 複数の反射器のうち少なくとも2つの反射器は、変換器からそれぞれ異なる距離だけ離隔している請求項1の装置。
- 各音響信号の一部が変換器に遭遇する前に非対称リッジと遭遇するため、該部分には変換器に到達する前に時間遅れが生じる請求項2の装置。
- 複数の反射器は、楕円形の有限反射表面上に配置され、さらに、変換器が楕円の中心に位置する請求項1の装置。
- 反射器は、約100Hz乃至約4kHzの周波数における吸収係数が少なくとも約0.05である射出成形プラスチックにより作成される請求項4の装置。
- 方向決定手段は、識別したノッチを以前検出したノッチと比較して、特定の空間的方向に関連して生じる共通のノッチを見つける請求項1の装置。
- 音響信号の望ましくないノイズを除去するスペクトル平滑器をさらに備えた請求項6の装置。
- カメラ追跡システムが作動的に接続され、方向決定手段からの出力がカメラ追跡システムを作動してビデオカメラを音源の方向に向ける請求項7の装置。
- 音源から到達する音響信号の方向を探知する方法であって、
非対称リッジを有する複数の反射器により音響信号を受信して、該音響信号に干渉パターンを発生させ、
反射器の近くに位置する変換器により音響信号を電気信号に変換し、
変換器に作動的に接続された検出器により音響信号のスペクトルノッチを検出して識別し、
検出器に作動的に接続された手段により、識別したスペクトルノッチに基づき音響信号の方向を決定するステップより成る音響信号の探知方法。 - 複数の反射器のうち少なくとも2つの反射器は、変換器からそれぞれ異なる距離だけ離隔している請求項9の方法。
- 各音響信号の一部が変換器に遭遇する前に非対称リッジと遭遇するため、該部分には変換器に到達する前に時間遅れが生じる請求項10の方法。
- 複数の反射器は、楕円形の有限反射表面上に配置され、さらに、変換器が楕円の中心に位置する請求項9の方法。
- 反射器は、約100Hz乃至約4kHzの周波数における吸収係数が少なくとも約0.05である射出成形プラスチックにより作成される請求項12の方法。
- 方向を決定するステップは、識別したノッチを以前検出したノッチと比較して、特定の空間的方向に関連して生じる共通のノッチを見つける請求項9の方法。
- スペクトル平滑器を用いて音響信号の望ましくないノイズを除去するステップをさらに含む請求項14の方法。
- ビデオカメラを有し、該装置に作動的に接続されたカメラ追跡システムを使用するステップをさらに含み、検出器に作動的に接続され、識別したスペクトルノッチに基づき音響信号の方向を決定する手段からの出力がカメラ追跡システムを作動してビデオカメラを音源の方向に向ける請求項15の方法。
- 検出器に作動的に接続され、識別したスペクトルノッチに基づき音響信号の方向を決定する手段は空間推定器である請求項16の方法。
- 音源の方向を探知する方法であって、
音源からの音響データと非対称リッジを有する複数の反射器との相互作用により発生する干渉パターンを含んだ前記音響データの流れを捕捉し、
音響データを数値より成るサンプリングフレームに変換し、
各フレームにウィンドウ関数を乗算し、
各フレームのフーリエ変換を発生させ、
フーリエ変換を用いてスペクトルノッチを検索し、
特定の空間的方向に対応する特定の領域でスペクトルノッチを発見し、
種々のスペクトルノッチに関連する既知の場所の探索表により探索を行い、
推定した空間的方向をカメラモーターへ出力して、カメラモーターに作動的に接続されたカメラを音源の方向へ向けるステップより成る音源方向探知方法。 - カメラが音源に関連する画像を記録する請求項18の方法。
- 三次元の音源が分散した変化する場所から音響信号を発生させる会議環境に用いるマイクロフォンシステムであって、
非対称リッジを有する少なくとも1つの反射表面の中心に配置したマイクロフォンであって、非対称的リッジと相互作用する音響信号がマイクロフォンへの直線経路を辿る音響信号より後にマイクロフォンへ到達し、さらにマイクロフォンに到達する全ての音響信号が電気信号に変換されるマイクロフォンと、
マイクロフォンに作動的に接続されて音響信号のスペクトルノッチを検出し、識別する検出器と、
検出器に作動的に接続されてマイクロフォンに関する音源の角度方向を求めるために電気信号を分析する制御回路とより成るマイクロフォンシステム。 - 制御回路は、角度方向に関する情報をカメラを有するビデオ追跡システムへ送り、さらに、ビデオ追跡システムにより、カメラが送信機から遠隔の受信機へ音響信号に関連する画像を送信する請求項20のシステム。
- 制御回路は、圧縮オーディオ信号を送信機へ送るオーディオ圧縮器を有する請求項21のマイクロフォンシステム。
- 音源からの音響信号を受けるマイクロフォンと、
マイクロフォンに作動的に接続されて音響信号のスペクトルノッチを検出し、識別する検出器と、
各々がマイクロフォンの互いに反対側に位置し、非対称リッジを有する2つの反射器より成る、音源の方向を探知するためのマイクロフォンエンハンサーと、
マイクロフォンに結合されて、電気信号をマイクロフォンから音源方向情報を含む出力信号へ変換するコントローラとより成る音波ステアリングシステム。 - ビデオカメラを有し、コントローラに作動的に接続されたカメラ追跡システムをさらに具備し、コントローラの出力信号は、カメラ追跡システムを作動して、ビデオカメラを音源の方向に向ける請求項23のシステム。
- 音源からの音響データと非対称リッジを有する2またはそれ以上の反射器との相互作用により発生する干渉パターンを含んだ前記音響データの流れからスペクトルノッチを探知して識別する手順と、
識別したスペクトルノッチに基づき音源の方向を決定する手順を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。 - 音源からの音響データと非対称リッジを有する2またはそれ以上の反射器との相互作用により発生する干渉パターンを含んだ前記音響データの流れからスペクトルノッチを探知して識別し、
識別したスペクトルノッチに基づき音源の方向を決定するステップより成る命令を含んだコンピュータ読み取り可能な記録媒体を用いてコンピュータに命令する方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2000/007843 WO2001074117A1 (en) | 2000-03-24 | 2000-03-24 | Spatial sound steering system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003529060A JP2003529060A (ja) | 2003-09-30 |
JP4198915B2 true JP4198915B2 (ja) | 2008-12-17 |
Family
ID=21741191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001570682A Expired - Fee Related JP4198915B2 (ja) | 2000-03-24 | 2000-03-24 | 空間的音波ステアリングシステム |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP1266538B1 (ja) |
JP (1) | JP4198915B2 (ja) |
AT (1) | ATE492125T1 (ja) |
AU (1) | AU2000239178A1 (ja) |
DE (1) | DE60045392D1 (ja) |
WO (1) | WO2001074117A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006162461A (ja) * | 2004-12-08 | 2006-06-22 | Institute Of Physical & Chemical Research | 音源位置検出装置及び方法 |
JP2009200569A (ja) * | 2008-02-19 | 2009-09-03 | Chiba Inst Of Technology | 音源方向推定方法および装置 |
US8830791B2 (en) * | 2011-04-27 | 2014-09-09 | Empire Technology Development Llc | Measurement of 3D coordinates of transmitter |
CN106297820A (zh) | 2015-05-14 | 2017-01-04 | 杜比实验室特许公司 | 具有基于迭代加权的源方向确定的音频源分离 |
DE102017221021A1 (de) * | 2017-11-24 | 2019-05-29 | Zf Friedrichshafen Ag | Echoortung mit richtungsabhängigem Resonator |
CN111273230B (zh) * | 2020-03-02 | 2022-06-07 | 开放智能机器(上海)有限公司 | 一种声源定位方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3843034A1 (de) * | 1988-12-21 | 1990-06-28 | Messerschmitt Boelkow Blohm | Mikrofonsystem zum bestimmen der richtung und position einer schallquelle |
US4965775A (en) * | 1989-05-19 | 1990-10-23 | At&T Bell Laboratories | Image derived directional microphones |
US5748757A (en) * | 1995-12-27 | 1998-05-05 | Lucent Technologies Inc. | Collapsible image derived differential microphone |
US5742693A (en) * | 1995-12-29 | 1998-04-21 | Lucent Technologies Inc. | Image-derived second-order directional microphones with finite baffle |
US6185152B1 (en) * | 1998-12-23 | 2001-02-06 | Intel Corporation | Spatial sound steering system |
-
2000
- 2000-03-24 EP EP00918351A patent/EP1266538B1/en not_active Expired - Lifetime
- 2000-03-24 AT AT00918351T patent/ATE492125T1/de not_active IP Right Cessation
- 2000-03-24 AU AU2000239178A patent/AU2000239178A1/en not_active Abandoned
- 2000-03-24 JP JP2001570682A patent/JP4198915B2/ja not_active Expired - Fee Related
- 2000-03-24 DE DE60045392T patent/DE60045392D1/de not_active Expired - Lifetime
- 2000-03-24 WO PCT/US2000/007843 patent/WO2001074117A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2001074117A1 (en) | 2001-10-04 |
EP1266538A1 (en) | 2002-12-18 |
AU2000239178A1 (en) | 2001-10-08 |
JP2003529060A (ja) | 2003-09-30 |
DE60045392D1 (de) | 2011-01-27 |
ATE492125T1 (de) | 2011-01-15 |
EP1266538B1 (en) | 2010-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6185152B1 (en) | Spatial sound steering system | |
US10972835B2 (en) | Conference system with a microphone array system and a method of speech acquisition in a conference system | |
US10491809B2 (en) | Optimal view selection method in a video conference | |
EP2953348B1 (en) | Determination, display, and adjustment of best sound source placement region relative to microphone | |
US6469732B1 (en) | Acoustic source location using a microphone array | |
EP0162858B1 (en) | Acoustic direction identification system | |
KR101474605B1 (ko) | 오디오 향상을 위한 디바이스, 시스템 및 방법 | |
US7903137B2 (en) | Videoconferencing echo cancellers | |
US9124984B2 (en) | Hearing aid, signal processing method, and program | |
US11521591B2 (en) | Apparatus and method for processing volumetric audio | |
CA2295092C (en) | System for producing an artificial sound environment | |
US20040037436A1 (en) | System and process for locating a speaker using 360 degree sound source localization | |
US20060269073A1 (en) | Methods and apparatuses for capturing an audio signal based on a location of the signal | |
JP2008543143A (ja) | 音響変換器のアセンブリ、システムおよび方法 | |
JP2003532348A (ja) | ビデオ会議及び他の応用において、結合されたビデオ及びオーディオ情報を使用して移動物体を追尾するための方法及び装置 | |
WO2004100546A1 (en) | An arrangement and method for audio source tracking | |
JP2011244456A (ja) | 話者識別による音声追跡カメラ | |
JP2011244454A (ja) | 複数の音声追跡カメラを有するビデオ会議端末 | |
JP2011244455A (ja) | ビデオ会議のための自動カメラフレーミング | |
JP2003032776A (ja) | 再生システム | |
JP4198915B2 (ja) | 空間的音波ステアリングシステム | |
JPH06351015A (ja) | テレビジョン会議システム用の撮像システム | |
US8064618B2 (en) | Direction detection apparatus, direction detection method and direction detection program, and direction control apparatus, direction control method, and direction control program | |
CN118202641A (zh) | 用于房间智能的会议系统及方法 | |
Lin et al. | Development of novel hearing aids by using image recognition technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071023 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080122 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080129 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080221 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080228 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080317 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080402 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080526 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080902 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081002 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111010 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121010 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131010 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |