JP6150793B2

JP6150793B2 - 直接音による到着時間差の判定

Info

Publication number: JP6150793B2
Application number: JP2014517218A
Authority: JP
Inventors: ヴェルサミーカビタ
Original assignee: Amazon Technologies Inc
Current assignee: Amazon Technologies Inc
Priority date: 2011-06-24
Filing date: 2012-06-22
Publication date: 2017-06-21
Anticipated expiration: 2032-06-22
Also published as: WO2012178061A1; CN103797821B; JP2015502519A; CN103797821A; US20120327746A1; EP2724554A4; US9194938B2; EP2724554B1; EP2724554A1

Description

優先権主張および関連出願
本出願は、２０１１年６月２４日に出願された米国非仮出願第１３／１６８，７５９号に対する優先権を主張し、かつそれに関連し、参照により本明細書に組み込まれる。

手拍子または指を鳴らすことなどの音響信号が拡張された現実環境内で入力として使用され得る。場合によっては、システムおよび技法がこれらの環境内でこれらの音響信号の位置を判定しようと試み得る。音響源の空間座標を位置特定または判定する従来の方法は、環境によって導入された歪みに敏感であり、誤った結果を生むことが多い。音響信号の空間座標を効果的かつ正確に判定する手法が所望される。

詳細な説明が、添付の図を参照しながら記載される。図中、参照番号の一番左の桁（複数可）は、参照番号が最初に現れる図を識別する。異なる図の同じ参照番号は、類似または同一の構成要素または特徴を示す。
本明細書に記載されるように拡張された現実環境を含み得る例となる部屋内に展開される音響信号の空間座標を判定するように構成されるセンサノードを有する例示的な場面を示す。図１の例となる部屋内の所定の位置に展開される複数のマイクロホンを含む例示的なセンサノードを示す。音響源および音響源に対する計算された位置を含む例示的な部屋を図示する。直接音および間接音を示す図３の例示的な部屋の平面図を図示する。信号および対応する反響音の例示的なグラフである。過渡信号を生成する音響源からの直接音に基づきＴＤＯＡを判定する例示的なプロセスである。人間の発話などの音響源からの直接音に基づきＴＤＯＡを判定する例示的なプロセスである。直接音を判定し、直接音源を位置特定する例示的なプロセスである。

拡張された現実環境が、聴覚的身振り、人間の発話、物理的環境の物体との聴覚的相互作用などの入力のための音響信号を利用し得る。これらの音響信号の検出は、最小入力を提供するが、音響信号の空間内の位置を特定または位置を確認することができるより豊かな入力モードが可能である。例えば、胸の高さでの手拍子が拍手として無視されてもよいが、ユーザの頭上の手拍子が特殊な機能の実行を要求してもよい。別の例では、立ったまま話している人が話しながら座っている人よりも発話認識に対して優先されてもよい。一例を挙げれば、位置特定は、１立方メートルあたり１０００キログラム未満の密度を有する媒体を伝播される音響信号であってもよい。例えば、圧力の約１標準大気の気体空気（約１００キロパスカル）。

複数のマイクロホンが音響信号を検出するために使用されてもよい。マイクロホンのそれぞれで音響信号の到着時間を測定することによって、互いに対するそれぞれのマイクロホンの既知の位置と仮定すると、到着時間差が生成される。この到着時間差（ＴＤＯＡ）データは、音響信号の位置を計算するために双曲線位置決めに使用されてもよい。特に可聴周波数（約３００Ｈｚから約３ＫＨｚに及ぶものを含む）を有する音響環境は、信号およびノイズ豊かである。さらに、音響信号は、ユーザ、備品、壁などを含む物理的環境内の様々な物体と相互作用する。この相互作用は、直接音ならびに間接音をもたらし得る。直接音は、他の物体もしくは表面との障害または相互作用なしに、音響源から検知マイクロホンに直接進む音である。対照的に、間接音は、反射、屈折などの１つ以上の間接経路を介して進む。反響音などの間接音は、比較的短い時間の間にわたって受信される直接信号の一連のエコーとして明示してもよい。

一般に、音響源とセンサとの間の経路長が、直接音よりも間接音に対してより長い。別の言い方をすれば、直接音は概して、音源からセンサまでのより短い距離を進む。信号の伝達のための合理的な均質媒体と仮定すると、より長い経路長は、直接音と比較して音源からセンサに移行するのにより多くの時間が間接音によって要するという結果になる。双曲線位置決めにおいて正確な時間差の重要性と仮定すると、このようなタイミングの変動は、計算された位置の重大な誤差につながり得る。したがって、反響音の場合などの複数の類似の信号の存在は、計算された時間遅延の重大な変動および計算された位置における誤差の対応する導入を引き起こし得る。

信号反響音を引き起こし得る環境内の信号源の位置を判定することにおいて使用するのに好適な到着時間差（ＴＤＯＡ）データを生成するための装置および技法が本明細書に開示される。このような環境内で、音響源から信号を取得するマイクロホンが、既知である互いに相対的位置を有する所定の物理的配列で配設される。この点で、原点がマイクロホンに対して特定されてもよい。次いで、音響信号の空間座標が、原点に対して定義されてもよい。時間差ＴＤＯＡモジュールは、信号から音響信号の空間座標を判定するにおいてＴＤＯＡ位置特定モジュールによる使用に好適な１組の時間遅延を生成するように構成される。

本明細書に記載されるように、ＴＤＯＡモジュールは、音響源から生じる直接音を判定する可聴信号を処理し、かつ到着時間差遅延間隔を提供するように構成される。ＴＤＯＡモジュールは、信号の直接音成分を探し、かつ反響音、エコーなどを無視するように構成される。信号の一部分が直接音を判定するために使用されてもよい。例えば、信号が直接音または間接音であるかどうかを判定するために、対象となる事象の最初の２ミリ秒が使用されてもよい。

いくつかの実装では、既知の物理的属性が可能なＴＤＯＡ結果を抑制するかまたはフィルタリングするために使用されてもよい。物理的属性は、マイクロホン、部屋の寸法などの間隔および位置決めを含んでもよい。例えば、マイクロホン間隔が既知である場合、２つのマイクロホン間を進むときに音速を超える音をもたらすＴＤＯＡ結果が無視されてもよい。

例示的な環境
図１は、センサノード１０２を有する部屋の例示的な場面１００を示す。センサノード１０２は、拡張された現実環境で使用され得るなど、部屋内の音響信号の空間座標を判定するように構成される。センサノード１０２は、天井、壁、卓上、据え付けられた床など、部屋の周囲の様々な位置に位置してもよい。

ここで示されるように、センサノード１０２は、音響信号を受信するように構成される複数のマイクロホン１０４を組み込むかまたは結合される。部屋内の物体までの距離を測定する別の方法を提供する測距システム１０６もまた存在してもよい。測距システム１０６は、レーザ距離計、音響距離計、光学式距離計、構造化光モジュールなどを備えてもよい。構造化光モジュールは、構造化光源からの構造化光とカメラによって取得される画像との相互作用に少なくとも一部基づき、位置、地形、またはこの中の環境または物体の他の物理的特性を判定するように構成される構造化光源およびカメラを備えてもよい。

ネットワークインターフェース１０８が、同じ家屋もしくは会社の中などのローカルネットワーク、またはインターフェースを介してアクセスされるなどのリモートリソース上に、他の装置が同じ部屋の中などの局所的に配置される、センサノード１０２を結合するように構成されてもよい。いくつかの実装では、センサノード１０２の構成要素が、部屋全体にわたって分布され、有線または無線接続によって互いに通信するように構成されてもよい。

センサノード１０２は、コンピューティング装置１１０を含んでもよい。コンピューティング装置１１０は、１つ以上のプロセッサ１１２と、１つ以上の入力／出力インターフェース１１４と、メモリ１１６とを備えてもよい。メモリ１１６は、オペレーティングシステム１１８と、到着時間差（ＴＤＯＡ）モジュール１２０と、ＴＤＯＡ位置特定モジュール１２２とを格納してもよい。いくつかの実装では、複数のコンピューティング装置１１０間のリソースは共有されてもよい。これらのリソースは、入力／出力装置、プロセッサ１１２、メモリ１１６などを含んでもよい。メモリ１１６は、コンピュータ可読記憶媒体（「ＣＲＳＭ」）を含んでもよい。ＣＲＳＭは、この上に記憶された命令を実装するコンピューティング装置によってアクセス可能である任意の利用可能な物理的媒体であってもよい。ＣＲＳＭとしては、ランダムアクセスメモリ（「ＲＡＭ」）、読み出し専用メモリ（「ＲＯＭ」）、電気的消去可能プログラマブル読み出し専用メモリ（「ＥＥＰＲＯＭ」）、フラッシュメモリもしくは他のメモリ技術、コンパクトディスク読み出し専用メモリ（「ＣＤ−ＲＯＭ」）、デジタル多用途ディスク（「ＤＶＤ」）もしくは他の光学ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、または所望の情報を記憶するために使用されることが可能であり、かつコンピューティング装置によってアクセスされることが可能である任意の他の媒体が挙げられ得るがこれらに限定されない。

入力／出力インターフェース１１４は、コンピューティング装置１１０をマイクロホン１０４、測距システム１０６、ネットワークインターフェース１０８、または大気圧センサ、温度センサ、湿度計、気圧計、画像プロジェクタ、カメラなどの他の装置に結合するように構成されてもよい。コンピューティング装置１１０とマイクロホン１０４およびネットワークインターフェース１０８などの外部装置間の結合は、ワイヤ、光ファイバケーブル、無線などを介してもよい。

ＴＤＯＡモジュール１２０は、マイクロホン１０４によって受信される直接音音響信号を使用して到着時間差遅延値を判定するように構成される。いくつかの実装では、ＴＤＯＡモジュール１２０は、入力／出力インターフェース１１４にアクセス可能なセンサからデータを受け取るように構成されてもよい。例えば、ＴＤＯＡモジュール１２０は、温度および湿度データに少なくとも一部基づき到着時間差を判定してもよい。図６〜８に関してより詳細に後述されるように、ＴＤＯＡモジュール１２０は、信号入力を受け取り、かつ音響信号の最初の音源と関連付けられるＴＤＯＡ遅延を判定するように構成される。直接音の使用は、より正確な位置特定に対して部屋の中の反響音による誤差を最小限にする。

ＴＤＯＡモジュール１２０によって利用可能であると、ＴＤＯＡ位置特定モジュール１２２は、音響信号の音源位置を判定するためにＴＤＯＡデータを使用するように構成される。この判定は、ＴＤＯＡデータおよびマイクロホンの既知の位置に基づく双曲線位置決めを含んでもよい。

図２は、センサノード１０２の図２００を示す。この図では、支持構造物２０２が、２つの線形部材が互いに垂直に配設され、それぞれがＤ１およびＤ２の長さを有する、十字架を備える。支持構造物２０２は、マイクロホン間の既知の所定の距離を維持するのに役立ち、これは次に、音響信号の空間座標の判定に使用されてもよい。５つのマイクロホン１０４（１）〜（５）が、十字架の中心ならびに十字架のそれぞれのアームの端部に配設される。マイクロホン１０４の数および配置ならびに支持構造物２０２の形状は変化し得ることが理解される。例えば、他の実装では、支持構造物は、三角形、円形、または別の幾何学的形状を表現してもよい。いくつかの実装では、非対称支持構造形状、マイクロホンの分布、またはその両方が使用されてもよい。

支持構造物２０２は、部屋の構造の一部を含んでもよい。例えば、マイクロホン１０４は、部屋の中の既知の位置の壁、天井、床などに据え付けられてもよい。いくつかの実装では、マイクロホン１０４が設置され、互いに対する位置が、測距システム１０６、構造化光走査、手入力などによって他の検知手段によって判定されてもよい。

測距システム１０６はまた、センサノード１０２の一部として図示される。上述されるように、測距システム１０６は、光学、音響、無線、または他の距離測定技法および装置を利用してもよい。測距システム１０６は、物体、ユーザ、マイクロホン１０４などの間の距離、位置、またはその両方を判定するように構成されてもよい。例えば、一実装では、マイクロホン１０４は、部屋の中の様々な位置に配置され、互いに対する正確な位置は、それぞれに配設される光学タグを検出するように構成される光学式距離計を使用して判定されてもよい。

別の実装では、測距システム１０６は、音響変換器を備えてもよく、マイクロホン１０４は、音響変換器によって生成される信号を検出するように構成されてもよい。例えば、それぞれが超音波を部屋の特定のセクタの中に伝えるように１組の超音波変換器が配設されてもよい。マイクロホン１０４は、超音波信号を受信するように構成されてもよく、あるいは専用の超音波マイクロホンが使用されてもよい。互いに対してマイクロホンの既知の位置と仮定すると、アクティブソーナ測距および位置決めが提供されてもよい。

図３は、部屋などの例示的な容積３００を図示する。この図では、センサノード１０２が天井に配設されるが、卓上を最初に叩くことなどの音響源３０２が音響信号を生成する。この音響信号は、部屋全体にわたって伝播し、マイクロホン１０４によって受信される。次に、信号に関するマイクロホン１０４からのデータが入力／出力インターフェース１１４を介してコンピューティング装置１１０内のＴＤＯＡ推定モジュール１２０に伝達される。ＴＤＯＡ推定モジュール１２０は、データを使用して、ＴＤＯＡ値を生成する。しかしながら、ノイズ、反響音などの環境条件のため、ＴＤＯＡ値は変化し得る。ＴＤＯＡ位置特定モジュール１２２は、ＴＤＯＡ値を使用して位置を計算する。したがって、ＴＤＯＡ値が不正確であると、音響源の計算された位置は不正確である。例えば、部屋の中の音の反響音が、センサノード１０２内のマイクロホンによって検出すると、異なる時間遅延を有するいくつかの音響信号をもたらし得る。様々な時間遅延を有するこれらの異なる音響信号に基づく判定は、容積内の計算された位置の変位をもたらすであろう。ＴＤＯＡ推定が反響音の影響を回避するため、本明細書に記載される方法および技法を使用する計算された位置３０４（１）が音響源３０２に密接に一致する。対照的に、本明細書に記載される方法および技法がなければ、別の計算された位置３０４（２）が卓上、壁３０６、床、天井などからの音響信号の反響音により誤りになる。

図４は、直接音および間接音を示す図３の例示的な部屋の平面図４００を図示する。上述されるように、音響源３０２は、音響信号を生成する。この信号は、外側に伝播する。直接音４０２は、音響源３０２とマイクロホン１０４との間の最短の非閉塞経路をもたらす信号である。対照的に、示されるような間接音４０４は、音響源３０２からマイクロホンまでより長い経路を取る。例えば、ここで示されるように間接音４０４は、音響源３０２から生じ、壁３０６からマイクロホン１０４（５）に向かって反射することを示される。間接音４０４がより長い経路をたどるため、間接音４０４信号は、直接音４０２よりわずかに遅く到着する。

図５は、信号および対応する反響音の例示的なグラフ５００である。このグラフでは、水平軸５０２が経過時間を示すが、垂直軸５０４が信号振幅を示す。２つの信号の振幅が経時的に表示され、それぞれが異なるマイクロホンで受信される。２つの直接信号は、限定するためではなく、説明を容易にするためにここで示される。

第１のマイクロホン１０４で受信される直接音から生じる第１の直接信号５０６が実線によって示される。第２のマイクロホン１０４で受信される直接音からの第２の直接信号５０８が点線で示される。第１の直接信号５０６および第２の直接信号５０８の第１のピーク間の時間差が到着時間差間隔５１０である。例えば、これは、中央のマイクロホン１０４（５）と１０４（２）などの別のマイクロホンとの間で比較するときの信号の受信の時間差であってもよい。一般化相互相関を含む他の方法もまた、到着時間差を判定するために使用されてもよい。

グラフ５００はまた、マイクロホンが間接信号５１２を傍受したことを示す。単一の間接信号が、限定するためではなく、説明を容易にするためにここで示される。例えば、硬い壁および床を有する小さな部屋では、いくつかの間接反響音音響信号がマイクロホン１０４で検出されてもよい。マイクロホン１０４によって受信される信号が、これらの直接信号と間接信号との組み合わせである。結果として、任意のマイクロホン１０４で受信された信号の振幅は、間接信号によって干渉されなかった直接信号のものを超えるかまたは未満であってもよい。例えば、相殺的干渉は、特定のマイクロホンの間接信号より低い振幅を有する直接信号をもたらし得る。

ＴＤＯＡデータが間接信号５１２によって破損されるような受信された信号に基づくべきである場合、不正確なＴＤＯＡ間隔５１０が判定されてもよい。次に、この不正確なＴＤＯＡ間隔は、信号の不正確な位置特定につながるであろう。

グラフ５００はまた、システムの雑音レベル５１４を示す。この雑音レベルは、センサによって検出される周囲ノイズを含んでもよい。センサがマイクロホン１０４である場合、これは、空調システム、冷蔵庫の稼働モータ、外部の風の音などの音を含み得る。雑音レベル５１４はまた、検知機器の動作、固体装置の熱ノイズなどによって生成されるノイズを含んでもよい。これに関連して、振幅が雑音レベル５１４のものを超えるときに信号が有意であると考えられてもよい。雑音レベル５１４は、静的または動的に調節可能であってもよい。

グラフ５００は、センサからの信号が、いくらかでもあれば、雑音レベル５１４以下である静寂期間５１６をさらに示す。例を続けると、第１の直接信号５０６からの信号は、静寂期間５１６で示されるが、静寂期間５１６の間、雑音レベル５１４より低い。いくつかの実装では、静寂期間５１６は、約１０ｍｓから約１５０ｍｓまで幅があってもよい。

この例で示されるように、音響源は、時間の経過とともに増大する振幅を有する信号を生成した。ここで、第１の直接信号５０６の初期ピーク５１８は、信号の振幅が雑音レベル５１４を超えることを示される。後述されるように、第１の直接信号５０６および第２の直接信号５０８の初期ピーク５１８は、間接信号５１２のピークから分離されてもよい。直接信号間のＴＤＯＡ間隔５１０を測定することによって、ＴＤＯＡデータ品質全体が改良され、位置特定の精度が改良する。

１つのセンサに対する直接信号５２０の全持続時間が示される。いくつかの信号は過渡的または持続的であり得る。過渡的直接信号は２５０ミリ秒（ｍｓ）以下の持続時間を有してもよい。過渡信号としては、ユーザの指の叩く音、手拍子、個人の足音、クリック音などが挙げられる。持続的信号は、過渡信号を超える全ての持続時間に渡る。場合よっては、２５０ｍｓを超えて持続する信号が持続的信号であると考えられてもよいが、この閾値未満の信号が過渡的であると考えられてもよい。当然のことながら、１つの例となる持続時間閾値が定められているが、他の実施形態が任意の他の閾値を利用してもよい。持続的信号としては、人間の発話、口笛、息遣い音、可聴ビーコンなどが挙げられる。

例示的なプロセス
以下のプロセスは、本明細書のアーキテクチャまたは他のアーキテクチャによって実践されてもよい。これらのプロセスは、論理フローグラフ内のブロックの集積として示される。ブロックのいくつかは、ハードウェア、ソフトウェア、またはこれらの組み合わせで実践され得る操作を表す。ソフトウェアの状況では、ブロックは、１つ以上のプロセッサによって実行されるときに、記載された操作を行う１つ以上のコンピュータ可読記憶媒体に記憶されるコンピュータ実行可能命令を表す。概して、コンピュータ実行可能命令は、特定の機能を行うかまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。操作が記載される順は、限定と解釈されるものではなく、記載されたブロックのあらゆる番号は、プロセスを実践するためにあらゆる順または並行して組み合わせることができる。さらに、以下のプロセスが音響信号に対するＴＤＯＡの推測を説明するが、非音響信号は、本明細書に記載されるように処理されてもよい。

図６は、過渡信号を生成する音響信号からの直接音を判定する例示的なプロセス６００である。６０２では、音響源と関連付けられる複数の可聴信号が複数のマイクロホンから取得される。例えば、部屋の中のマイクロホン１０４（１）〜（５）は、卓上を叩くユーザの音響源３０２からの可聴信号を収集してもよい。

６０４では、ノイズが可聴信号から除去されてもよい。アナログ装置、デジタル処理、またはこれらの組み合わせを使用してノイズ除去が行われてもよい。６０６では、可聴信号は、狭いバンドパスフィルタでフィルタリングされる。例えば、バンドパスフィルタは、約８００ヘルツ（Ｈｚ）から約２キロヘルツ（ＫＨｚ）に及ぶ帯域幅を有してもよい。いくつかの実装では、他のバンドパスフィルタの帯域幅が使用されてもよい。帯域幅は、不要な周波数帯域を除去しながら対象となる事象を通過するために選択される。

６０８では、フィルタリングされた信号の雑音レベルが静的または動的のいずれかで推定される。静的雑音レベル推定は、所定の雑音レベルレベルを設定してもよい。対照的に、動的雑音レベルは、時間の経過とともに追跡および調節するように構成されてもよい。一実装では、平均切り上げ／下方追跡手法が使用されてもよく、信号が推定された雑音レベルを超えて上昇するとき、雑音レベルがゆっくりと増大されるが、信号が推定された雑音レベルを下回るとき、雑音レベルがより速く減少し得るようにする。結果として、雑音レベルは、ゆっくりと上昇し、速く下落し得る。

６１０では、フィルタリングされた信号内の対象となる事象が特定の時間で発生すると判定される。例えば、卓上で指を叩くユーザと関連付けられる音の一部に相当する鋭いピークが、１５０ミリ秒の時間で判定されてもよい。いくつかの実装では、信号がどこで雑音レベルを超えるかを判定する振り返りが行われてもよい。他の状況では、信号対ノイズ比（ＳＮＲ）を有し、所定のＳＮＲを超えるあらゆる信号が、対象となる事象として指定されてもよい。

６１２では、対象となる事象の前に静寂期間が存在するとき、本プロセスは６１４に進む。静寂期間は、上述されるように、静的または動的に調節されてもよい。静寂期間が存在しないとき、本プロセスは６１０に戻り、対象となる事象を識別するのを試み続けてもよい。

６１４では、対象となる事象の信号が雑音レベルを超えて上昇し始める時間が判定される。６１６では、雑音レベルを越えた対象となる事象に相当する信号と関連付けられる初期ピークが検出される。直接音に相当する初期ピークの所定の数または持続時間が選択されてもよい。所定の数または持続時間は、静的または動的に設定されてもよい。例えば、静的に設定される場合、いくつかの実装では、第１の３つのピークは直接音であると考えられてもよい。間接音のより長い経路長に伴われる増大された伝播時間による後のピークが無視される。

６１８では、複数の信号の第１のピークに少なくとも一部基づくＴＤＯＡ値が判定される。反響音または他の歪曲信号を含まずに、直接音に基づくＴＤＯＡ値がより正確である。

６２０では、ＴＤＯＡ値は、１つ以上の物理的属性に少なくとも一部基づいてフィルタリングされる。これらの物理的属性は、マイクロホン１０４の既知の位置、部屋の寸法、温度、大気圧などを含んでもよい。例えば、測距システム１０６によって判定される範囲を超える位置に相当するＴＤＯＡ値が、フィルタリングされ、除去されてもよい。

図７は、人間の発話などの持続的音響源からの直接音を判定する例示的なプロセス７００である。人間の発話の信号特性としては、持続された時間、周波数および時間領域の変動性、低い平均電力などが挙げられる。これらの特性は従来、特に間接信号が存在する環境で人間の発話の追跡を複雑にした。

７０２では、音響源と関連付けられる複数の可聴信号が複数のマイクロホンから取得される。例えば、部屋の中のマイクロホン１０４（１）〜（５）は、大声で話しているユーザを含む音響源からの可聴信号を収集してもよい。

７０４では、ノイズが可聴信号から除去されてもよい。いくつかの実装では、バンドパスフィルタが適用されてもよい。例えば、バンドパスフィルタは、約２キロヘルツ（ＫＨｚ）から約８キロヘルツ（ＫＨｚ）に及ぶ帯域幅を有してもよい。７０６では、信号の雑音レベルが静的または動的のいずれかで推定される。静的雑音レベル推定は、所定の雑音レベルレベルを設定してもよい。対照的に、動的雑音レベルは、上述されるように、時間の経過とともに追跡および調節するように構成されてもよい。

７０８では、対象となる事象が特定の時間で識別される。例えば、対象となる事象は、話しているユーザを含んでもよい。この対象となる事象は、信号がいつ所定のＳＮＲを超えるかを判定されてもよい。

７１０では、対象となる事象の前に静寂期間が存在するとき、本プロセスは７１２に進む。静寂期間は、上述されるように、静的または動的に調節されてもよい。静寂期間が存在しないとき、本プロセスは７０８に戻り、対象となる事象を識別するのを試み続けてもよい。

７１２では、信号上昇時間は、信号がいつ静寂期間の雑音レベルを超えて上昇し始めるかを判定される。７１４では、サンプルの時間窓が信号上昇時間またはその前後で開始して指定される。７１６では、窓内のサンプルに少なくとも一部基づき１組のＴＤＯＡ値が判定される。７１８では、サンプルの窓は、時間ｔだけ前方にスライドされる。例えば、いくつかの実装では、窓は、約２ミリ秒だけ前進されてもよい。

７２０では、サンプルが直接信号の少なくとも一部分を含む対象となる領域内であるとき、本プロセスは７２２に進む。サンプルが対象となる領域内にないとき、本プロセスは７０８に戻り、特定の時間で対象となる事象を識別してもよい。

７２２では、現在スライドされた窓内のサンプルに少なくとも一部基づくＴＤＯＡ値が判定される。７２４では、連続的窓から安定した１組のＴＤＯＡ値が達成されると、本プロセスは７２６に続く。いくつかの実装では、安定した１組のＴＤＯＡ値が、互いの２％以内であるＴＤＯＡ値の４つの窓を含んでもよい。７２６では、安定したＴＤＯＡ値が位置特定に提供される。７２４では、ＴＤＯＡ値が安定していない、すなわち、互いに所定の閾値を超えて変化するとき、本プロセスは７１８に戻り、窓をスライドさせ、かつＴＤＯＡを計算し続けてもよい。いくつかの実装では、全プロセス７００は、話しているユーザなどの持続的な可聴源の連続的追跡を提供するように反復されてもよい。

図８は、直接音を判定し、かつ直接音源を位置特定する例示的なプロセス８００である。８０２では、音響源と関連付けられる複数の可聴信号が複数のマイクロホンから取得される。８０４では、直接信号の少なくとも一部分を含む可聴信号内の領域が判定される。上述されるように、この判定は、信号がいつ静寂期間に従う雑音レベルを超えて上昇するかを検出することを含んでもよい。直接信号は、反射を含まない音響源からの音の受信によって生成される信号を含む。

８０６では、領域内の可聴信号間の相互相関値が、ＴＤＯＡ値を生成する位相変換（ＰＨＡＴ）で計算される。ＰＨＡＴの計算を対象となる領域に限定することによって、信号全体の連続的計算と比較して計算要件が減少される。

８０８では、音響源の位置が、対象となる領域の相互相関値から生じるデータに少なくとも一部基づいて判定される。ＴＤＯＡデータが直接音を反映するため、反響音の処理による劣化が存在しない。結果として、ＴＤＯＡデータはより正確であり、より正確な位置特定につながる。

結論
主題が構造的特徴に特有の言葉で記載されたが、添付の特許請求の範囲に定義される主題は、必ずしも記載された特定の特徴に限定されないことが理解されるべきである。むしろ、特定の特徴は、特許請求の範囲を実践する例示的な形態として開示される。

付記
１．実行されるときに、
複数のマイクロホンから音響源と関連付けられる複数の可聴信号を取得することと、
バンドパスフィルタで複数の可聴信号をフィルタリングすることと、
フィルタリングされた可聴信号の雑音レベルを推定することと、
複数のフィルタリングされた可聴信号のそれぞれに対して、
対象となる事象を識別することと、
対象となる事象の前にいつ静寂期間が存在するかを判定することと、
対象となる事象がいつ雑音レベル超えて上昇するかを判定することと、
対象となる事象が雑音レベルを超えて上昇した後のピークを検出することと、
ピークが発生する時間を判定することと、
複数のフィルタリングされた可聴信号内でピークが発生する時間の間の差に少なくとも一部基づき、対象となる事象に対する到着時間差（ＴＤＯＡ）値を判定することと、を含む行為を１つ以上のプロセッサに行わせるコンピュータ実行可能命令を記憶する、１つ以上のコンピュータ可読記憶媒体。

２．バンドパスフィルタは、約８００ヘルツから約２キロヘルツに及ぶ帯域幅を有するように構成される、付記１に記載の１つ以上のコンピュータ可読記憶媒体。

３．対象となる事象は、約２５０ミリ秒未満の持続時間を有する音響信号を含む、付記１に記載の１つ以上のコンピュータ可読記憶媒体。

４．音響信号は、人間の身振りによって生成される、付記１に記載の１つ以上のコンピュータ可読記憶媒体。

５．行為は、フィルタリングされた可聴信号のそれぞれからノイズを除去することをさらに含む、付記１に記載の１つ以上のコンピュータ可読記憶媒体。

６．行為は、複数のマイクロホンまたは複数のマイクロホンが存在する部屋の１つ以上の物理的属性に少なくとも一部基づき、ＴＤＯＡ値をフィルタリングすることをさらに含む、付記１に記載の１つ以上のコンピュータ可読記憶媒体。

７．物理的属性は、複数のマイクロホン間の既知の距離を含む、付記１に記載の１つ以上のコンピュータ可読記憶媒体。

８．物理的属性は、部屋の既知の寸法を含む、付記１に記載の１つ以上のコンピュータ可読記憶媒体。

９．実行されるときに、
音響源と関連付けられる複数の可聴信号を取得することと、
複数の可聴信号のそれぞれに対して、
音響源からの非反射音に相当する可聴信号の一部分を含む対象となる事象を識別することと、
対象となる事象の前にいつ静寂期間が存在するかを判定することと、
対象となる事象がいつ雑音レベルを超えて上昇するかを判定することと、
対象となる事象が雑音レベルを超えて上昇した後のピークを検出することと、
ピークが発生する時間を判定することと、
複数のフィルタリングされた可聴信号内でピークが発生する時間の間の差に少なくとも一部基づき、対象となる事象に対する到着時間差（ＴＤＯＡ）値を判定することと、を含む行為を１つ以上のプロセッサに行わせるコンピュータ実行可能命令を記憶する、１つ以上のコンピュータ可読記憶媒体。

１０．行為は、バンドパスフィルタで複数の可聴信号をフィルタリングすることをさらに含む、付記１に記載の１つ以上のコンピュータ可読記憶媒体。

１１．バンドパスフィルタは、約８００ヘルツから約２キロヘルツに及ぶ帯域幅を有するように構成される、付記２に記載の１つ以上のコンピュータ可読記憶媒体。

１２．行為は、複数の可聴信号の雑音レベルを推定することをさらに含む、付記１に記載の１つ以上のコンピュータ可読記憶媒体。

１３．行為は、複数の可聴信号からノイズを除去することをさらに含む、付記１に記載の１つ以上のコンピュータ可読記憶媒体。

１４．対象となる事象は、約２５０ミリ秒未満の持続時間を有する音響源によって生成される音響信号をさらに含む、付記１に記載の１つ以上のコンピュータ可読記憶媒体。

１５．音響信号は、ある環境の中で物体を物理的に打つユーザによって生成される、付記６に記載の１つ以上のコンピュータ可読記憶媒体。

１６．行為は、複数の可聴信号を受信する複数のマイクロホンの１つ以上の物理的属性、または複数のマイクロホンが存在する部屋の物理的属性に少なくとも一部基づき、ＴＤＯＡ値をフィルタリングすることをさらに含む、付記１に記載の１つ以上のコンピュータ可読記憶媒体。

１７．物理的属性は、マイクロホン間の既知の距離を含む、付記８に記載の１つ以上のコンピュータ可読記憶媒体。

１８．物理的属性は、部屋の既知の寸法を含む、付記８に記載の１つ以上のコンピュータ可読記憶媒体。

１９．
複数のセンサと、
センサに結合され、かつ
センサを介して、音響源と関連付けられる複数の信号を取得し、
複数の信号のそれぞれに対して、
音響源からの非反射音に相当する信号の一部分を含む対象となる事象を識別し、
対象となる事象の前にいつ静寂期間が存在するかを判定し、
対象となる事象がいつ雑音レベルを超えて上昇するかを判定し、
対象となる事象が雑音レベルを超えて上昇した後のピークを検出し、
ピークが発生する時間を判定し、かつ
信号のピークが発生する時間の間の差に少なくとも一部基づき、到着時間差（ＴＤＯＡ）値を判定するように構成される到着時間差モジュールと、を備える、システム。

２０．センサは、マイクロホンを備える、付記１１に記載のシステム。

２１．到着時間差モジュールは、
バンドパスフィルタで信号をフィルタリングし、かつ
信号の雑音レベルを推定するようにさらに構成される、付記１１に記載のシステム。

２２．センサに結合され、判定されたＴＤＯＡに少なくとも一部基づき音源を位置特定するように構成される到着時間差モジュールをさらに備える、付記１１に記載のシステム。

２３．実行されるときに、
複数のマイクロホンから音響源と関連付けられる複数の可聴信号を取得することと、
可聴信号の雑音レベルを推定することと、
複数の可聴信号のそれぞれに対して、
対象となる事象を識別することと、
対象となる事象の前にいつ静寂期間が存在するかを判定することと、
対象となる事象が静寂期間後に雑音レベルを超えて上昇する時間を判定することと、
閾値時間量内で、対象となる事象が静寂期間を超えて上昇する時間から開始するサンプルの窓を指定することと、
窓内の可聴サンプルに少なくとも一部基づき到着時間差（ＴＤＯＡ）値を計算することと、
時間ｔだけサンプルの窓を前方にスライドさせることと、
可聴サンプルがいつ対象となる領域内にあるかを判定することと、
時間ｔだけ窓を前方にスライドさせた後に窓内の可聴サンプルに少なくとも一部基づきＴＤＯＡ値を再び計算することと、を含む行為を１つ以上のプロセッサに行わせるコンピュータ実行可能命令を記憶する、１つ以上のコンピュータ可読記憶媒体。

２４．対象となる領域は、対象となる事象からの直接信号の少なくとも一部分を含む、付記１６に記載の１つ以上のコンピュータ可読記憶媒体。

２５．静寂期間は、約１００ミリ秒未満の持続時間である、付記１６に記載の１つ以上のコンピュータ可読記憶媒体。

２６．静寂期間は、任意の可聴信号が雑音レベル以下である期間を含む、付記１６に記載の１つ以上のコンピュータ可読記憶媒体。

２７．サンプルの窓は、約２ミリ秒未満の持続時間である、付記１６に記載の１つ以上のコンピュータ可読記憶媒体。

２８．対象となる事象は、人間の発話を含む、付記１６に記載の１つ以上のコンピュータ可読記憶媒体。

２９．行為は、約２キロヘルツから約８キロヘルツに及ぶ帯域幅を有するように構成されるバンドパスフィルタで、複数の可聴信号をフィルタリングすることをさらに含む、付記１６に記載の１つ以上のコンピュータ可読記憶媒体。

３０．行為は、複数の可聴信号からノイズを除去することをさらに含む、付記１６に記載の１つ以上のコンピュータ可読記憶媒体。

３１．行為は、複数のマイクロホンまたは複数のマイクロホンが存在する一つの部屋の１つ以上の物理的属性に少なくとも一部基づき、ＴＤＯＡ値をフィルタリングすることをさらに含む、付記１６に記載の１つ以上のコンピュータ可読記憶媒体。

３２．物理的属性は、複数のマイクロホン間の既知の距離を含む、付記２４に記載の１つ以上のコンピュータ可読記憶媒体。

３３．物理的属性は、部屋の既知の寸法を含む、付記２４に記載の１つ以上のコンピュータ可読記憶媒体。

３４．行為は、
所定の数の連続的窓値から安定した１組のＴＤＯＡが達成されると、安定したＴＤＯＡ値を使用して音響源を位置特定することをさらに含む、付記１６に記載の１つ以上のコンピュータ可読記憶媒体。

３５．行為は、音響源を連続的に追跡することをさらに含む、付記１６に記載の１つ以上のコンピュータ可読記憶媒体。

３６．実行されるときに、
複数のマイクロホンから音響源と関連付けられる複数の可聴信号を取得することと、
可聴信号のそれぞれの中で、直接信号の少なくとも一部分を含む領域を判定することと、
直接信号を含む領域内の可聴信号に対する到着時間差値を計算することと、
到着時間差値に少なくとも一部基づき音響源の位置を判定することと、を含む行為を１つ以上のプロセッサに行わせるコンピュータ実行可能命令を記憶する、１つ以上のコンピュータ可読記憶媒体。

３７．直接信号のそれぞれは、反射を含まない音響源からの信号の受信によって生成される信号を含む、付記２９に記載の１つ以上のコンピュータ可読記憶媒体。

３８．計算することは、位相変換を適用することを含む、付記２９に記載の１つ以上のコンピュータ可読記憶媒体。

３９．計算することは、一般化相互相関技法を適用することを含む、付記２９に記載の１つ以上のコンピュータ可読記憶媒体。

４０．位置を判定することは、複数のマイクロホンまたは複数のマイクロホンが存在する部屋の１つ以上の物理的属性に少なくとも一部基づき、到着時間差値をフィルタリングすることをさらに含む、付記２９に記載の１つ以上のコンピュータ可読記憶媒体。

４１．物理的属性は、マイクロホン間の既知の距離を含む、付記３３に記載の１つ以上のコンピュータ可読記憶媒体。

４２．物理的属性は、部屋の既知の寸法を含む、付記３３に記載の１つ以上のコンピュータ可読記憶媒体。

４３．
複数のセンサと、
センサに結合され、かつ
複数のセンサから音響源と関連付けられる複数の可聴信号を取得し、
複数の可聴信号のそれぞれに対して、
対象となる事象を識別し、
対象となる事象の前にいつ静寂期間が存在するかを判定し、
対象となる事象が静寂期間後に雑音レベルを超えて上昇する時間を判定し、
閾値時間量内で、対象となる事象が静寂期間を超えて上昇する時間から開始するサンプルの窓を指定し、
窓内のサンプルに少なくとも一部基づき到着時間差（ＴＤＯＡ）値を計算し、
時間ｔだけサンプルの窓を前方にスライドさせ、
サンプルがいつ対象となる領域内にあるかを判定し、
時間ｔだけ窓を前方にスライドさせた後に窓内のサンプルに少なくとも一部基づきＴＤＯＡ値を再び計算するように構成される到着時間差モジュールと、を備える、システム。

４４．対象となる領域は、対象となる事象からの直接信号の少なくとも一部分を含む、付記３６に記載のシステム。

４５．センサは、マイクロホンを含む、付記３６に記載のシステム。

４６．対象となる事象は、反射を含まないマイクロホンによって直接的に受信される可聴信号の一部分を含む、付記３６に記載のシステム。

４７．到着時間差モジュールは、
バンドパスフィルタで複数の可聴信号をフィルタリングし、かつ
複数の可聴信号の雑音レベルを推定するようにさらに構成される、付記３６に記載のシステム。

４８．センサに結合され、計算されたＴＤＯＡ値に少なくとも一部基づき音響源を位置特定するように構成される到着時間差モジュールをさらに備える、付記３６に記載のシステム。

Claims

実行されるときに、
音響源と関連付けられる複数の可聴信号を取得することと、
前記複数の可聴信号の雑音レベルを推定することであって、前記雑音レベルは、時間の経過とともに追跡された可聴信号に基づいて動的に更新される、ことと、
前記複数の可聴信号のそれぞれに対して、
前記音響源からの直接信号に相当する前記可聴信号の一部分を含む対象となる事象を識別することと、
前記対象となる事象の前にいつ静寂期間が存在するかを判定することと、
前記対象となる事象がいつ前記更新された雑音レベルを超えて上昇するかを判定することと、
前記対象となる事象が前記更新された雑音レベルを越えて上昇した後のピークを検出することと、
前記ピークが発生する時間を判定することと、
前記複数の可聴信号内で前記ピークが発生する前記時間の間の差に少なくとも一部基づき、前記対象となる事象に対する到着時間差（ＴＤＯＡ）値を判定することと、
を含む動作を１つ以上のプロセッサに行わせるコンピュータ実行可能命令を記憶する、１つ以上のコンピュータ可読記憶媒体。
前記動作は、バンドパスフィルタで前記複数の可聴信号をフィルタリングすることをさらに含む、請求項１に記載の１つ以上のコンピュータ可読記憶媒体。
前記バンドパスフィルタは、約８００ヘルツから約２キロヘルツに及ぶ帯域幅を有するように構成される、請求項２に記載の１つ以上のコンピュータ可読記憶媒体。
前記動作は、前記複数の可聴信号からノイズを除去することをさらに含む、請求項１に記載の１つ以上のコンピュータ可読記憶媒体。
前記対象となる事象は、約２５０ミリ秒未満の持続時間を有する前記音響源によって生成される音響信号をさらに含む、請求項１に記載の１つ以上のコンピュータ可読記憶媒体。
前記音響信号は、ある環境の中で物体を物理的に打つユーザによって生成される、請求項５に記載の１つ以上のコンピュータ可読記憶媒体。
前記動作は、前記複数の可聴信号を受信する複数のマイクロホンの間の既知の距離に少なくとも一部基づき、前記ＴＤＯＡ値をフィルタリングすることをさらに含む、請求項１に記載の１つ以上のコンピュータ可読記憶媒体。
前記動作は、前記複数の可聴信号を受信する複数のマイクロホンが存在する部屋の既知の寸法に少なくとも一部基づき、前記ＴＤＯＡ値をフィルタリングすることをさらに含む、請求項１に記載の１つ以上のコンピュータ可読記憶媒体。
複数のセンサと、
前記センサに結合された到着時間差モジュールであって、
前記センサを介して、音響源と関連付けられる複数の信号を取得し、
前記複数の信号の雑音レベルを推定し、前記雑音レベルは、時間の経過とともに追跡された信号に基づいて動的に更新され、
前記複数の信号のそれぞれに対して、
前記音響源からの直接信号に相当する前記信号の一部分を含む対象となる事象を識別し、
前記対象となる事象の前にいつ静寂期間が存在するかを判定し、
前記対象となる事象がいつ前記更新された雑音レベルを超えて上昇するかを判定し、
前記対象となる事象が前記更新された雑音レベルを越えて上昇した後のピークを検出し、
前記ピークが発生する時間を判定し、および、
前記信号の前記ピークが発生する前記時間の間の差に少なくとも一部基づき、到着時間差（ＴＤＯＡ）値を判定するように構成されている、到着時間差モジュールと、
を備えた、システム。
前記センサは、マイクロホンを備えている、請求項９に記載のシステム。
前記到着時間差モジュールは、バンドパスフィルタで前記信号をフィルタリングするようにさらに構成されている、請求項９に記載のシステム。
前記センサに結合され、前記判定されたＴＤＯＡ値に少なくとも一部基づき前記音響源を位置特定するように構成される到着時間差モジュールをさらに備える、請求項９に記載のシステム。
前記センサは、マイクロホンを備え、前記システムは、前記センサに結合された到着時間差モジュールであって、前記マイクロホンの間の既知の距離、または前記マイクロホンが存在する一つの部屋の既知の寸法に少なくとも一部基づき、前記ＴＤＯＡ値をフィルタリングするように構成されている、到着時間差モジュールをさらに備えている、請求項９に記載のシステム。
実行されるときに、
複数のマイクロホンから音響源と関連付けられる複数の可聴信号を取得することと、
前記複数の可聴信号の雑音レベルを推定することであって、前記雑音レベルは、時間の経過とともに追跡された可聴信号に基づいて動的に更新される、ことと、
前記複数の可聴信号のそれぞれに対して、
対象となる事象を識別することと、
前記対象となる事象の前にいつ静寂期間が存在するかを判定することと、
前記対象となる事象が前記静寂期間後に前記更新された雑音レベルを超えて上昇する時間を判定することと、
閾値時間量内で、前記対象となる事象が前記静寂期間を超えて上昇する前記時間から開始するサンプルの窓を指定することと、
前記窓内の前記サンプルに少なくとも一部基づき到着時間差（ＴＤＯＡ）値を計算することと、
前記サンプルの窓を時間ｔ前方にスライドさせることと、
前記サンプルがいつ対象となる領域内にあるかを判定することと、
前記窓を前記時間ｔ前方にスライドさせた後に前記窓内の前記サンプルに少なくとも一部基づきＴＤＯＡ値を再び計算することと、
を含む動作を１つ以上のプロセッサに行わせるコンピュータ実行可能命令を記憶する、１つ以上のコンピュータ可読記憶媒体。
前記対象となる領域は、前記対象となる事象からの直接信号の少なくとも一部分を含む、請求項１４に記載の１つ以上のコンピュータ可読記憶媒体。
前記静寂期間は、約１００ミリ秒未満の持続時間である、請求項１４に記載の１つ以上のコンピュータ可読記憶媒体。
前記静寂期間は、あらゆる可聴信号が前記更新された雑音レベル以下である期間を含む、請求項１４に記載の１つ以上のコンピュータ可読記憶媒体。
前記サンプルの窓は、約２ミリ秒未満の持続時間である、請求項１４に記載の１つ以上のコンピュータ可読記憶媒体。
前記対象となる事象は、人間の発話を含む、請求項１４に記載の１つ以上のコンピュータ可読記憶媒体。
前記動作は、約２キロヘルツから約８キロヘルツに及ぶ帯域幅を有するように構成されるバンドパスフィルタで、前記複数の可聴信号をフィルタリングすることをさらに含む、請求項１４に記載の１つ以上のコンピュータ可読記憶媒体。
前記動作は、前記複数の可聴信号からノイズを除去することをさらに含む、請求項１４に記載の１つ以上のコンピュータ可読記憶媒体。
前記動作は、前記複数のマイクロホン間の既知の距離に少なくとも一部基づき、前記ＴＤＯＡ値をフィルタリングすることをさらに含む、請求項１４に記載の１つ以上のコンピュータ可読記憶媒体。
前記動作は、前記複数のマイクロホンが存在する部屋の既知の寸法に少なくとも一部基づき、前記ＴＤＯＡ値をフィルタリングすることをさらに含む、請求項１４に記載の１つ以上のコンピュータ可読記憶媒体。
前記動作は、
所定の数の連続的窓値から安定した１組のＴＤＯＡが達成されると、前記安定したＴＤＯＡ値を使用して前記音響源を位置特定することをさらに含む、請求項１４に記載の１つ以上のコンピュータ可読記憶媒体。
複数のセンサと、
前記センサに結合された到着時間差モジュールであって、
前記複数のセンサから音響源と関連付けられる複数の可聴信号を取得し、
前記複数の可聴信号の雑音レベルを推定し、前記雑音レベルは、時間の経過とともに追跡された信号に基づいて動的に更新され、
前記複数の可聴信号のそれぞれに対して、
対象となる事象を識別し、
前記対象となる事象の前にいつ静寂期間が存在するかを判定し、
前記対象となる事象が前記静寂期間後に前記更新された雑音レベルを超えて上昇する時間を判定し、
閾値時間量内で、前記対象となる事象が前記静寂期間を超えて上昇する前記時間から開始するサンプルの窓を指定し、
前記窓内の前記サンプルに少なくとも一部基づき到着時間差（ＴＤＯＡ）値を計算し、
前記サンプルの窓を時間ｔ前方にスライドさせ、
前記サンプルがいつ対象となる領域内にあるかを判定し、および、
前記窓を前記時間ｔ前方にスライドさせた後に、前記窓内の前記サンプルに少なくとも一部基づきＴＤＯＡ値を再び計算するように構成されている、到着時間差モジュールと、
を備えた、システム。
前記対象となる領域は、前記対象となる事象からの直接信号の少なくとも一部分を含む、請求項２５に記載のシステム。
前記センサは、マイクロホンを含む、請求項２５に記載のシステム。
前記対象となる事象は、マイクロホンによって直接受信される可聴信号の一部分を含む、請求項２５に記載のシステム。
前記到着時間差モジュールは、
バンドパスフィルタで前記複数の可聴信号をフィルタリングするようにさらに構成される、請求項２５に記載のシステム。
前記センサに結合され、前記計算されたＴＤＯＡ値に少なくとも一部基づき前記音響源を位置特定するように構成される到着時間差モジュールをさらに備える、請求項２５に記
載のシステム。