JP2022511271A

JP2022511271A - 音響信号を用いて手の動きを追跡することによる装置の制御

Info

Publication number: JP2022511271A
Application number: JP2021510156A
Authority: JP
Inventors: キウ，リリ; マオ，ウェングアング
Original assignee: University of Texas System
Current assignee: University of Texas System
Priority date: 2018-08-23
Filing date: 2019-08-22
Publication date: 2022-01-31
Also published as: EP3841399A4; SG11202101826WA; WO2020041563A1; US11474194B2; EP3841399A1; KR20210063341A; CN113287032A; US20210199751A1

Abstract

手又は他の物体の動きを追跡することによって装置を制御する方法、装置、及びコンピュータプログラム製品を提供する。装置は、音響信号を受信する。受信信号の少なくとも一部を、周波数が反射信号の到着角（ＡｏＡ）及び伝搬距離に比例する２次元正弦波に変換する。２次元正弦波の周波数を評価することによって、物体から受信した信号に基づいてＡｏＡ－距離プロファイルを導出する。次に、ＡｏＡ－距離プロファイルからＡｏＡ－距離の組を導出する。推定されたＡｏＡ－距離の組に基づいて、物体の現在位置を決定する。次に、装置は、物体の前回の位置及び現在の位置に基づいてユーザがコマンドを実行するために移動したと検出したことに応答して、コマンドを実行する。【選択図】図３Ａ

Description

（関連出願の相互参照）
本出願は、その全体が参照により本明細書に組み込まれる、２０１８年８月２３日に出願された「音響信号を用いて手の動きを追跡することによる装置の制御」という名称の米国仮特許出願第６２／７２２，１１０号の優先権を主張する。

（技術分野）
本発明は、一般に、装置の制御に関し、より詳細には、音響信号を用いて手等の物体の動きを追跡することによる装置（例えば、スマートスピーカ）の制御に関する。

スマートスピーカ等のスマートデバイスは、一般に他の装置又はネットワークに接続され、ある程度インタラクティブ且つ自律的に動作できる電子デバイスである。例えば、スマートスピーカは、１つの「ホットワード」（又は複数の「ホットワード」）の助けを借りてインタラクティブアクションとハンズフリーアクティベーションを提供する、統合仮想アシスタント（人工知能）を備えたワイヤレススピーカ及び音声コマンドデバイスの一種である。これらのスマートスピーカの一部は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、及びその他のワイヤレスプロトコル規格を利用して、ホームオートメーションデバイスの制御等、オーディオ再生を超えて使用を拡張するスマートデバイスとしても機能できる。これには、限定されるものではないが、多数のサービスやプラットフォーム間の互換性、メッシュネットワーキングによるピアツーピア接続、仮想アシスタント等の特徴が含まれてよい。それぞれが、独自に指定されたインターフェイスと特徴とを内部に持つことができ、通常はアプリケーション又はホームオートメーションソフトウェアを介して起動又は制御される。一部のスマートスピーカは、ユーザに視覚的応答を示すための画面も含む。

現在、スマートスピーカ等のスマートデバイスは、音声コマンドを介して制御される。しかしながら、音声に基づく制御は、常に適切であるとは限らない。例えば、ノイズの多い環境では、干渉により音声制御が著しく低下する。加えて、異なる言語を話し、使用されている言語を自動的に識別するメンバーで構成された家族のために、複数の言語を理解できるスマートスピーカを開発することは、困難であり、費用がかかる。更に、画面との対話や、多数のメニューオプションから選択する等の、いくつかの使用シナリオでは、音声に基づくインターフェイスとの対話は面倒なことがある。

これと比較して、動きに基づく制御は、これらのシナリオにおいて魅力的であり、音声に基づく制御を十分に補完する。

残念ながら、スマートスピーカ等のスマートデバイスを、手のモーション等のモーションを用いて、独立して、又は音声に基づく制御と共同して制御するための手段は、現在存在しない。

本発明の一の実施形態では、物体の動きを追跡する方法は、装置内の一又は複数のマイクを用いて前記物体から音響信号を受信する工程を含む。この方法は、前記受信した音響信号の少なくとも一部を、周波数が前記物体に係る到着角及び伝播距離に比例する２次元正弦波に変換する工程を更に含む。この方法は、前記２次元正弦波の周波数を評価することによって、前記物体から受信した信号に基づいて到着角－距離プロファイルを導出する工程を更に含む。更にこの方法は、前記到着角－距離プロファイルに基づいて、到着角及び距離を推定する工程を含む。加えて、この方法は、前記推定された到着角及び前記推定された距離に基づいて、前記物体の現在の位置を決定する工程を含む。

上記方法の実施形態の他の形態は、装置及びコンピュータプログラム製品にある。

本発明の他の実施形態では、装置を制御する方法は、前記装置内の一又は複数のマイクを用いて、ユーザに係る物体から送信された音響信号を受信する工程を含む。この方法は、前記受信した音響信号の少なくとも一部を、周波数が前記受信した音響信号の到着角及び伝播距離に比例する２次元正弦波に変換する工程を更に含む。この方法は、前記２次元正弦波の周波数を評価することによって、前記物体から受信した前記音響信号に基づいて到着角－距離プロファイルを導出する工程を更に含む。更にこの方法は、前記到着角－距離プロファイルから、到着角－距離対を推定する工程を含む。加えて、この方法は、前記推定された到着角－距離対に基づいて、前記物体の現在の位置を決定する工程を含む。加えて、この方法は、前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定する工程を含む。この方法は、前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行する工程を更に含む。

上記は、以下の本発明の詳細な説明がより良く理解されるように、本発明の一又は複数の実施形態の特徴及び技術的利点をむしろ一般的に概説した。本発明の更なる特徴及び利点を以下に説明するが、これらは本発明の特許請求の範囲の主題を形成し得る。

以下の図面と併せて以下の詳細な説明を考慮すると、本発明のより良い理解を得ることができる。

本発明の一の実施形態に従って構成されるシステムを示す。本発明の一の実施形態に係る、手の動きによって制御される装置のハードウェア構成を示す図である。本発明の一の実施形態に係る、ユーザの手からのモーションを用いてスマートデバイス（例えば、スマートスピーカ）を制御するための方法のフローチャートである。本発明の一の実施形態に係る、ユーザの手からのモーションを用いてスマートデバイス（例えば、スマートスピーカ）を制御するための方法のフローチャートである。本発明の一の実施形態に係る装置によって収集される反射の種類を示す図である。本発明の一の実施形態に係る、到着角及び伝播距離を示す図である。本発明の一の実施形態に係る、数式（３）を用いて生成される２次元（２Ｄ）プロファイルを示す図である。本発明の一の実施形態に係る、曖昧さを有する２Ｄプロファイルの例を示す図である（但しΔは２．７cmであり、λは２．１cm）。本発明の一の実施形態に係る不等間隔アレイの利用による、図７Ａよりも曖昧さが少ない２Ｄプロファイルの例を示す図である。本発明の一の実施形態に係る、等間隔アレイの場合及び不等間隔アレイの場合におけるu（０）とu（θ）との間の相関性のプロットである。本発明の一の実施形態に係る、等間隔アレイの場合及び不等間隔アレイの場合におけるu（０）とu（θ）との間の相関性のプロットである。本発明の一の実施形態に係る、正弦波信号の長さが２つのチャープ間の重なりに依存することを示す図である。本発明の一の実施形態に係る中間チャープを示す図である。本発明の一の実施形態に係る、オーバーラップしているチャープの送信を示す図である。本発明の一の実施形態に係る、１ＤＭＵＳＩＣアルゴリズム及び２ＤＭＵＳＩＣアルゴリズムを用いた推定距離の差を示す図である。本発明の一の実施形態に係る、到着角（ＡｏＡ）－距離プロファイルをＡｏＡ及び距離推定にマッピングするために用いるリカレントニューラルネットワーク（ＲＮＮ）を示す図である。本発明の一の実施形態に係る、ＲＮＮでのステージである。本発明の一の実施形態に係る、一の部屋の到着角（ＡｏＡ）－距離プロファイルを示す図である。本発明の一の実施形態に係る、１秒間にわたるユーザの手及び体のスパイクを示すグラフである。本発明の実施形態に係る、モバイル機器Ａが音響信号を発し、他の装置上の複数のマイクが受信信号に基づいてモバイル機器Ａの動きを追跡できる装置に基づく追跡を示す図である。本発明の一の実施形態に係る、モバイル機器等の物体の動きを追跡するために用いる他の装置上の複数のマイクを示す図である。

以下では、本発明について、手のモーションを用いてスマートスピーカ等のスマートデバイスを制御することに関連して論じるが、本発明の原理は、手のモーション以外の何らかの形態の体のモーション（例えば、頭のモーション）を用いて、複数のマイクを備えた装置等の他の装置の制御に適用してもよい。例えば、本発明の原理は、複数のスピーカ及び／又はマイクを備えるスマートフォンに適用してよい。当業者は、本発明の原理をそのような実施に適用できるであろう。更に、本発明の原理をそのような実施に適用する実施形態は、本発明の範囲内にある。

上記背景技術において述べたように、現在、スマートスピーカ等のスマートデバイスは、音声コマンドを介して制御される。しかしながら、音声に基づく制御は、常に適切であるとは限らない。例えば、ノイズの多い環境では、干渉により音声制御が著しく低下する。更に、異なる言語を話し、使用されている言語を自動的に識別するメンバーで構成された家族のために、複数の言語を理解できるスマートスピーカを開発することは、困難であり、費用がかかる。更に、画面との対話や、多数のメニューオプションから選択する等の、いくつかの使用シナリオでは、音声に基づくインターフェイスとの対話は面倒なことがある。これと比較して、モーションに基づく制御は、これらのシナリオにおいて魅力的であり、音声に基づく制御を十分に補完する。残念ながら、スマートスピーカ等のスマートデバイスを、手のモーション等のモーションを用いて、独立して、又は音声に基づく制御と共同して制御するための手段は、現在存在しない。

手のモーション等のモーションを用いたスマートデバイスの制御は、装置の制御におけるユーザの能力を大幅に向上するが、手のモーションを追跡することは、重大な課題を提起する。望ましいアプローチは、（i）低コスト、（ii）既存のスマートスピーカハードウェア上での配置が容易、（iii）正確で信頼性がある、及び（iv）ルームスケール追跡を支援、であるべきである。これらの目標を全て達成することは、特に困難である。本発明の原理は、これらの目標を、本明細書で「ＲＴｒａｃｋ」と称される新規なルームスケールデバイスフリーモーション追跡システムを用いて達成するための手段を提供する。

一の実施形態では、以下の理由により、音響信号が追跡に用いられる。第１に、スマートスピーカの人気が急速に高まっている。それらには複数のマイクとスピーカが搭載されている。この設定を効果的に活用することは、追跡性能を著しく向上させるだけでなく、配置を容易にすることもできる。第２に、記録音声(audio)に基づく追跡は、信号伝搬速度が遅いため、高精度になる。第３に、音響信号のサンプリングレートが低いので、コモディティハードウェア上で実行されるソフトウェアを用いて、全ての処理をリアルタイムで行うことができる。これにより、伝送信号と処理アルゴリズムとをカスタマイズして高精度を達成する自由が提供される。

ユーザの手等の物体を追跡するために、本発明の各種の実施形態は、２ＤＭＵＳＩＣアルゴリズムを用いて、又は代替として、１ＤＭＵＳＩＣアルゴリズム及び２ＤＭＵＳＩＣアルゴリズムの両方を用いて、その反射信号に基づいて、距離（反射信号の伝搬距離）及び到着角（ＡｏＡ）を共同して推定（「結合推定」）する。本明細書で用いられる「到着角」は、更に後述するように、スマートスピーカ等の装置に到達する反射信号の角度を指す。

更に後述するように、次の理由から、結合推定はルームスケールデバイスフリー追跡に有望であることが示された。第１に、手の反射からの信号対雑音比（ＳＮＲ）は、ルームスケール追跡において－２０ｄＢ以下になり得る。これは追跡精度を著しく低下させる。結合推定はセンサ有効数を増加させ、それにより精度が向上する。第２に、背景反射は、ルームスケール追跡において手の反射を支配する可能性があり、かなりの曖昧さを導入する可能性がある。距離（反射信号の伝搬距離）とＡｏＡを別々に追跡する場合、曖昧さの総数は、とり得る距離とＡｏＡとの積になる。これと比較して、結合推定は、全ての距離とＡｏＡとの組み合わせが２次元（２Ｄ）プロファイルで生じるわけではないので、曖昧さの数を効果的に減らすことができる。

追跡性能を更に向上させるために、本発明の実施形態は、以下の一連の技法を実施してよい。即ち、（ｉ）曖昧さを増大させることなく精度を向上させるためにマイクを不等間隔に配置する、（ｉｉ）結合推定に用いる音響サンプルの数を増大させ、帯域幅又は待ち時間を増大することなく精度を向上させるために、オーバーラップしている送信信号を用いる、（ｉｉｉ）リアルタイム追跡を支援するために計算を高速化する、及び（ｉｖ）手の初期位置を確実に決定するために、単純ではあるが効果的な初期化アルゴリズム。

更に後述するように、本発明のシステムは、複数のユーザを同時に追跡できる。

以下に、本発明の完全な理解を提供するために特定の詳細を多数記載する。しかしながら、本発明がそのような特定の詳細なく実施可能であることは、当業者には明らかであろう。大部分では、本発明の完全な理解を得るために必要ではなく、関連技術の当業者の技術の範囲内にある詳細である限り、タイミングの理由等を検討する詳細は省略されている。

ここで図面を詳細に参照すると、図１は、本発明の実施形態に従って構成されるシステム１００を示す。図１を参照すると、システム１００は、ユーザ１０３の手１０２によって制御されるスマートデバイス（例えば、スマートスピーカ、スマートフォン）等の装置１０１を含む。装置１０１は、スピーカ１０４及びマイク１０５Ａから１０５Ｂ（図１では、それぞれ「マイクＡ」及び「マイクＢ」として識別される）を含む任意のスマートデバイスであってよい。マイク１０５Ａから１０５Ｂは、集合的に又は個別に、それぞれ、複数のマイク１０５又は一のマイク１０５と称してよい。図１は、単一のスピーカ１０４及び２つのマイク１０５を含むものとして装置１０１を示しているが、本発明の装置１０１は、一のスピーカ１０４及び２つのマイク１０５に範囲を限定されるものではない。代わりに、装置１０１は、一又は複数のスピーカ１０４及び一又は複数のマイク１０５を含んでよい。更に、一の実施形態では、装置１０１は、複数のスピーカ１０４を活用できる。例えば、２つのマイク１０５を備えた２つのスピーカ１０４を含む装置１０１の実施形態は、後述するように装置１０１を制御する際に、四のマイク１０５を備えた単一のスピーカ１０４を含む装置１０１と同じ結果を達成できる。更に、一の実施形態では、複数のスピーカ１０４及び／又はマイク１０５は、３次元空間においてz軸に沿って配置されてもよい。いくつかの例として、装置１０１は、スマートスピーカ、スマートフォン、スマートＴＶ及びスマート家電を含むが、これらに限定されない。

装置１０１は、人間に可聴か不可聴かにかかわらず、スピーカ１０４を介して記録音声信号を発するように構成される。更に、装置１０１は、ユーザの手１０２によって反射された記録音声信号を複数のマイク１０５によって受信するように構成される。この反射された記録音声信号は、更に後述するように、装置１０１によって、リアルタイムで手１０２を連続的に追跡するために用いられる。手１０２の動きを追跡することによって、装置１０１は、更に後述するように、「音楽を再生して」又は「天気を教えて」等の、装置１０１上で実行されるべきコマンドをユーザがジェスチャしているかどうかを判定できる。装置１０１の一の実施形態のハードウェア構成のより詳細な説明は、図２に関連して以下に提供される。

ここで図２を参照すると、図２は、装置１０１（図１）の一例の機能ブロック図である。この例では、装置１０１は、プロセッサ２０１を含む。プロセッサ２０１は、一又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子装置、電子ユニット、又はそれらの組合せを含むことができる。

プロセッサ２０１は、一又は複数のインターフェイスによって受信したデータを記憶し、そのデータを処理し、メモリ２０２に記憶するように構成される。メモリ２０２は、プロセッサ２０１内で、又はプロセッサ２０１の外部で実現できる。本明細書で用いられるように、メモリという文言は、任意の種類の長期、短期、揮発性、不揮発性、又は他のメモリを指し、任意の特定種類のメモリ、又はメモリの数、或いはメモリが格納される媒体の種類に限定されるべきではない。一の実施形態では、メモリ２０２は、装置１０１が音響信号を用いて手１０２の動きを連続的に追跡可能とすることによって、手１０２（図１）による動きを用いて装置１０１を制御するプログラム等の、アプリケーションを記憶する。一の実施形態では、プロセッサ２０１は、メモリ２０２に記憶されたアプリケーションのプログラム命令を実行するように構成される。

更に、スピーカ１０４とマイク１０５Ａ及び１０５Ｂとは、ユーザインターフェイスアダプタ２０３を介して装置１０１に接続される。スピーカ１０４は、種々の周波数で記録音声信号（人間に可聴又は不可聴）を生成するように構成される。更に、マイク１０５Ａ及び１０５Ｂは、ユーザの手１０２によって反射された記録音声信号を受信するように構成される。

図２の装置１０１は、図２に示す要素に範囲を限定されるものではなく、図２の例示よりも少ない又は更なる要素を含んでよい。

本発明は、システム、装置、方法、及び／又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（又は複数媒体）を含んでよい。

コンピュータ可読記憶媒体は、命令実行装置によって使用される命令を保持し記憶できる有形装置であってよい。コンピュータ可読記憶媒体は、例えば、電子記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、又は前述の任意の適切な組合せとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読出し専用メモリ（ＣＤ－ＲＯＭ）、デジタル汎用ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、パンチカード又は命令が記録された溝部における嵩上げ構造体等の機械的に符号化された装置、及び前述の任意の適切な組み合わせが含まれる。本明細書で用いられるコンピュータ可読記憶媒体は、電波又は他の自由に伝播する電磁波、導波管又は他の伝送媒体を通って伝播する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを通って送信される電気信号など、それ自体が一時的な信号であると解釈されるべきではない。

本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれの演算／処理装置にダウンロードすることができ、或いは、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワーク等のネットワークを介して、外部コンピュータ又は外部記憶装置に、ダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、及び／又はエッジサーバを含んでよい。各演算／処理装置内のネットワークアダプタカード又はネットワークインターフェイスは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれの演算／処理装置内のコンピュータ可読記憶媒体に記憶するために、コンピュータ可読プログラム命令を転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、又は状態設定データであってよく、或いは、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋等のオブジェクト指向プログラミング言語や「Ｃ」プログラミング言語又は類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、一又は複数のプログラミング言語の任意の組み合わせで書かれたソースコード又はオブジェクトコードであってよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンのソフトウェアパッケージとして、部分的にユーザのコンピュータ上で且つ部分的に遠隔コンピュータ上で、或いは完全に遠隔コンピュータ又はサーバ上で実行されてよい。後者のシナリオでは、遠隔コンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてよく、或いは（例えば、インターネットサービスプロバイダを用いてインターネットを介して）外部コンピュータに接続されてもよい。いくつかの実施形態では、例えば、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブル論理アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによって、コンピュータ可読プログラム命令を実行してよい。

ここで本発明の態様について、本発明の実施形態に係る方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図及び／又はブロック図を参照して説明する。フローチャート図及び／又はブロック図の各ブロック、並びにフローチャート図及び／又はブロック図のブロックの組合せは、コンピュータ可読プログラム命令によって実施できることを理解されたい。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに提供され、当該コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び／又はブロック図の一又は複数のブロックで特定された機能／動作を実施するための手段を生み出すように、機械を作ってよい。これらのコンピュータ可読プログラム命令は、命令が格納されたコンピュータ可読記憶媒体が、フローチャート及び／又はブロック図の一又は複数のブロックで特定された機能／動作の態様を実施する命令を含む製品からなるように、コンピュータ、プログラマブルデータ処理装置、及び／又は他の装置に、特定の方法で機能するように指示することができるコンピュータ可読記憶媒体に格納されてもよい。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、又は他の装置上にロードされ、コンピュータ、他のプログラマブル装置、又は他の装置上で実行される命令が、フローチャート及び／又はブロック図の一又は複数のブロックで特定された機能／動作を実施するように、一連の動作ステップをコンピュータ、他のプログラマブル装置、又は他の装置上で実行させてコンピュータ実施プロセスを生み出してもよい。

図中のフローチャート及びブロック図は、本発明の各種の実施形態に係るシステム、方法、及びコンピュータプログラム製品のとり得る実装のアーキテクチャ、機能、及び動作を示す。この点に関して、フローチャート又はブロック図の各ブロックは、特定された（一又は複数の）論理機能を実施するための一又は複数の実行可能命令を含むモジュール、セグメント、又は命令の一部を表してよい。いくつかの代替の実施では、ブロックに記載されている機能が、図に記載されている順序から外れて発生してもよい。例えば、連続して示された２つのブロックは、実際には、ほぼ同時に実行されてよく、或いは、複数のブロックは、含まれる機能に応じて、時には逆の順序で実行されてもよい。また、ブロック図及び／又はフローチャート図の各ブロック、並びにブロック図及び／又はフローチャート図のブロックの組み合わせは、特定された機能又は動作を実行するか、又は専用ハードウェア及びコンピュータ命令の組み合わせを実行する、専用ハードウェアに基づくシステムによって実施できることにも留意されたい。

上記背景技術において述べたように、現在、スマートスピーカ等のスマートデバイスは、音声コマンドを介して制御される。しかしながら、音声に基づく制御は、常に適切であるとは限らない。例えば、ノイズの多い環境では、干渉により音声制御が著しく低下する。更に、異なる言語を話し、使用されている言語を自動的に識別するメンバーで構成された家族のために、複数の言語を理解できるスマートスピーカを開発することは、困難であり、費用がかかる。更に、画面との対話や、多数のメニューオプションから選択する等の、いくつかの使用シナリオでは、音声に基づくインターフェイスとの対話は面倒なことがある。これと比較して、動きに基づく制御は、これらのシナリオにおいて魅力的であり、音声に基づく制御を十分に補完する。残念ながら、スマートスピーカ等のスマートデバイスを、手の動き等の動きを用いて、独立して、又は音声に基づく制御と共同して制御するための手段は、現在存在しない。

本発明の原理は、図３Ａから図３Ｂ、図４から図６、図７Ａから図７Ｂ、図８Ａから図８Ｂ、図９Ａから図９Ｂ、及び図１０から図１７に関連して後述するように、スマートスピーカ等のスマートデバイスを、動きを用いて、独立して、又は音声に基づく制御と共同して制御するための手段を提供する。

以下では、装置１０１を静止させることによって装置１０１を制御することについて論じるが、装置１０１は必ずしも静止させる必要はない。代わりに、装置１０１（スピーカ１０４及び複数のマイク１０５を含む）は、反射を収集するためにより良い位置に配置されるように、移動可能であってもよい。

図３Ａから図３Ｂは、本発明の一の実施形態に係る、ユーザ１０３（図１）の手１０２（図１）からの動きを用いて、スマートデバイス（例えば、スマートスピーカ）を制御する方法３００のフローチャートである。

図１から図２と併せて図３Ａを参照すると、ステップ３０１において、装置１０１は、スピーカ１０４を用いてユーザ１０３に音響信号を送信する。

ステップ３０２において、装置１０１は、複数のマイク１０５を用いて送信された音響信号の反射を収集する。ここで、音響信号は、ユーザ１０３の手１０２や図４に示すような他の背景反射物によって反射される。一の実施形態において、送信された音響信号の反射を収集する際に装置１０１を支援するために、金属構造（例えば、アルミニウム構造）を装置１０１の近くに（例えば、装置１０１を囲んで）配置して、反射を直接装置１０１に向けてよい。一の実施形態では、このような構造は、放物線形状で設計される。

以下では、ユーザ１０３の手１０２によって反射された音響信号を収集することについて説明するが、本発明の原理は、クレジットカード又は紙片等の他の反射物によって反射された音響信号を収集することに適用してよい。言い換えると、他の物体（例えば、クレジットカード、ユーザの体、財布、カード、カップ、本等）の動きは、以下に説明するユーザ１０３の手１０２の動きを追跡するのと同じ方法で、追跡され、反射物として用いられてよい。

図４を参照すると、図４は、本発明の一の実施形態に係る装置１０１によって収集される反射の種類を示す。図４に示すように、装置１０１は、体の反射４０１（手１０２以外のユーザ１０３の体の他の部分からの反射）、背景反射４０２（部屋内等の他の物体からの反射）及び自己干渉４０３を収集できる。更に、図４に示すように、装置１０１は、所望の手の反射４０４も収集する。後述するように、本発明が主に手の反射４０４を利用して手１０２の位置を決定できるように、体の反射及び背景反射並びに自己干渉を除去するために本発明によって実施される一連の技法がある。

図３Ａに戻り、図１から図２及び図４と関連して、ステップ３０３において、装置１０１は、バンドパスフィルタを介して収集された反射から、帯域外ノイズ（例えば、背景反射４０２）を除去する。

ステップ３０４において、装置１０１は、収集された反射に対して干渉除去を行い、受信した静的背景反射４０２及び自己干渉４０３を除去する。一の実施形態では、装置に基づく追跡に関して、干渉除去はステップ３０５で実行されない。代わりに、ステップ３０１の後などに、周波数オフセットが推定される。

ステップ３０５において、装置１０１は、ユーザ１０３の手１０２の初期位置を決定するために初期化を行う。この初期位置は、更に後述するように、到着角（ＡｏＡ）－距離プロファイルにおける到着角（ＡｏＡ）－距離対に対応する。

ステップ３０６において、装置１０１は、（ステップ３０４及びステップ３０５を実行した後の）残りの収集された反射信号を、周波数が収集された反射の到着角及び伝搬距離に比例する２次元正弦波に変換する。本明細書で用いられる「到着角」とは、装置１０１に到着する反射信号の角度を指す。本明細書で用いられる「伝搬距離」とは、反射の初期点から装置１０１に進む反射信号の距離を指す。

ステップ３０７において、装置１０１は、２Ｄ（２次元)ＭＵＳＩＣアルゴリズム等のアルゴリズムを用いて２次元正弦波の周波数を評価することによって、ユーザ１０３の手１０２によって反射された信号の様々な伝搬距離を伴う到着角のマッピングを含んでよい到着角（ＡｏＡ）－距離プロファイルを導出する。一の実施形態では、ＡｏＡ－距離プロファイルは、２次元正弦波の周波数を評価することによって、手１０２等の物体から受信した信号に基づいて導出される。

ＡｏＡ－距離プロファイルからＡｏＡ及び距離を推定するために、２つの更なる実施形態が開発されている。一つ目の実施形態では、ＡｏＡ－距離プロファイルからの一のピークが選択され、ＡｏＡ、距離、及びドップラーシフトを推定するために用いられる。二つ目の実施形態では、装置１０１は、最近の時間窓からのＡｏＡ－距離プロファイルをリカレントニューラルネットワーク（ＲＮＮ）に適用して、ＡｏＡ及び距離を推定する。

代替の実施形態では、ステップ３０８において、装置１０１は、到着角－距離プロファイルから、到着角－距離の組を推定する。一の実施形態では、到着角－距離の組は、ユーザ１０３の手１０２によって反射された信号における推定された伝搬距離に基づいて、到着角－距離プロファイルから推定される。前述したように、「スパイク」は、前回のスパイクに近いものが選択される。「スパイク」は、図１５に示すように、対応する到着角に対する伝搬遅延に対応する。例えば、スパイク１５０１は、対応する到着角に対する手１０２によって反射された信号の伝搬距離のグループ化に対応する。前述したように、最初にスパイクが、手１０２の前回に選択されたスパイク位置に基づいて選択されるとき、前回に選択されたスパイク位置は、手の初期位置に対応する。適切な到着角－距離の組は、選択されたスパイク内の伝播距離のうちの１つに対応する、ステップ３０７の推定された伝播距離に基づいて選択される。

図１から図２、図４から図６、図７Ａから図７Ｂ、図８Ａから図８Ｂ、図９Ａから図９Ｂ、及び図１０から図１７と併せて、ここで図３Ｂを参照すると、ステップ３０９において、装置１０１は、選択された到着角－距離の組に基づいて手１０２の位置を決定する。手１０２から反射された信号からの伝搬距離及び装置１０１に対する反射された信号の到着角を知ることによって、手１０２の正確な位置を、ｘ－ｙ座標系に関して、又はｘ－ｙ－ｚ座標系に関して決定できる。

ステップ３０１からステップ３０９に関するより詳細な説明を、以下に提供する。

先に議論したように、本発明は、上記の課題に対処するために、本明細書において「ＲＴｒａｃｋ」と称される新規なデバイスフリー追跡システムを開発する。ＲＴｒａｃｋは、スマートデバイスで利用可能なスピーカ及びマイクに依存し、典型的な部屋を包含する作業範囲でユーザの手のモーションを精密に追跡できる。ユーザの手１０２の位置を決定するために、一の実施形態では、２ＤＭＵＳＩＣアルゴリズムを適用して、手１０２によって反射された信号の到着角（ＡｏＡ）及び伝搬距離を結合推定した。

本発明の結合推定フレームワークは、遠距離場の追跡に対して以下の利点を有する。第１に、フレームワークは、距離及びＡｏＡ推定のために周波数変調連続波（ＦＭＣＷ）とＭＵＳＩＣ（ＭＵｌｔｉｐｌｅＳＩｇｎａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ)とを結合する。これらは、他の代替案よりも低ＳＮＲ下で、より効果的である。第２に、センサ有効数を増加させる。これは、追跡精度を著しく向上するのに役立つ。第３に、距離及びＡｏＡを結合推定すると、距離とＡｏＡのどちらかが異なるため、マルチパスの解決がはるかに容易になる。第４に、いくつかのメカニズムは、低ＳＮＲシナリオ下での追跡性能を著しく高めるために、且つ計算時間を短縮させてリアルタイム追跡を可能にするために開発されている。

一の実施形態では、本発明は、ユーザの手１０２によって反射された信号のＡｏＡ及び伝搬距離を結合推定する。この目的のために、装置１０１は、スピーカ１０４を介して音響チャープ信号を送信し、複数のマイク１０５を用いて受信サンプルを収集する。次に、受信信号は、周波数がＡｏＡ及び距離に比例する２次元正弦波に変換される。よって、本発明は、２次元正弦波の周波数を評価してそれらを推定する。変換手順は以下の通りである。

図５に示すように、Ｎ個のマイク（ＭＩＣ）と一のスピーカを考えてみよう。図５は、本発明の一の実施形態に係るＡｏＡ(θ）及び伝搬距離(ｄ+ｄ_ｎ）を示す。

図５を参照すると、簡単のために、Ｎは奇数であるとする。ＭＩＣ（マイク）５０１Ａから５０１Ｄ（マイク１０５に対応する）は、－（Ｎ－１）／２から（Ｎ－１）／２まで配置され、線に沿って等間隔に分布される。２つの連続するＭＩＣ間の間隔はΔである。スピーカ５０２（スピーカー１０４に対応）は、線の中心にある。この場合、スピーカ５０２とｎ番目のＭＩＣとの間の距離ｒ_ｎは、ｎΔである。

ユーザの手１０２によって反射された信号のＡｏＡ(θ）及び距離（ｄ）を測定するために、スピーカ１０４／５０２は、期間Ｔ中に周波数がｆからｆ＋βへ直線的に掃引するチャープ（周波数が時間とともに上がる（アップチャープ）又は下がる（ダウンチャープ）信号）を送信する。ｙ_ｔは送信されたチャープを示すとする。すると、次式となる。

チャープは、ユーザの手１０２によって反射され、ＭＩＣ１０５／５０１Ａから５０１Ｄによって受信される。ｔ_ｎはｎ番目のＭＩＣの信号伝搬遅延を示すとする。図５に示すように、ｔ_ｎ＝(ｄ＋ｄ_ｎ）／ｖ_ｓである（但し、ｖ_ｓは音速である）。更に、ｄ_ｎは、ｄ－ｒ_ｎｃｏｓ (θ）によって近似でき、ｒ_ｎ＝ｎΔである。従って、ｔ_ｎ＝２ｄ／ｖ_ｓ－ｎΔｃｏｓ（θ）／ｖ_ｓである。ｔ_ｄが２ｄ／ｖ_ｓ、δがΔｃｏｓ（θ）／ｖ_ｓを示すとすると、ｔ_ｎ＝ｔ_ｄ－ｎδである。ＭＩＣｎの受信チャープは、次式で与えられる。

ＦＭＣＷとして、ｙ_ｔとｙ_ｒ ^ｎとが乗算され、ローパスフィルタが適用される。ｓ（ｎ，ｔ）は得られた信号を示すものとする。２ｃｏｓ（ｐ）ｃｏｓ（ｑ）＝ｃｏｓ（ｐ－ｑ）＋ｃｏｓ（ｐ＋ｑ）の性質に基づいて、ｓ（ｎ，ｔ）は次式で与えられる。

ｔ_ｎ＝ｔ_ｄ－ｎδを代入すると、ｓ（ｎ，ｔ）の位相は次のようになる。

第３項及び第４項は、ｎ及びｔから独立しており、φは、それらの和を示すために用いられる。最後の３つの項は小さく、無視してもかまわない。すると、次式となる。

ｓ（ｎ，ｔ）は２次元（２Ｄ）正弦波であることが観察される。これはｎ次元に対して周波数Ω＝２π（－ｆδ）＝２π（－ｆΔｃｏｓ（θ）／ｖ_ｓ）を有し、ｔ次元に対して周波数ω＝２πβｔ_ｄ／Ｔ＝４πβｄ／(Ｔｖ_ｓ）を有する。従って、ＡｏＡ θ及び距離ｄを決定するには、Ω及びωを推定するだけでよい。

２Ｄ正弦波の周波数Ω及びωを決定するために、ｓ（ｎ，ｔ）上に２Ｄ高速フーリエ変換（ＦＦＴ）を適用し、２Ｄスペクトル中のピークを見つけることができる。しかしながら、ほんのわずかのＭＩＣ（例えば、一の実施において４つのＭＩＣ）のために、２ＤＦＦＴに基づく推定精度は非常に限定される。この目的のためにより良好なアプローチは、複素２Ｄ正弦波（例えば、ｅ^{ｊ（Ωn＋ωt）}）の周波数を推定する２ＤＭＵＳＩＣアルゴリズムを適用することである。実正弦波ｃｏｓ（ｐ）は２つの複素正弦波ｅ^ｊｐ及びｅ^－ｊｐの総和であるので、ｓ（ｎ，ｔ）の周波数を決定するために２ＤＭＵＳＩＣアルゴリズムを適用できる。

２ＤＭＵＳＩＣアルゴリズムの導出は以下のように記述される。主なアイデアは、２Ｄ信号行列を１Ｄベクトルに変換し、古典的な１ＤＭＵＳＩＣアルゴリズムを適用することである。Ｌ個の複素正弦波を含む２Ｄ信号Ｓを考えてみよう。即ち、次式である。

ここで、ｎは［０，Ｎ－１］に分類され、tは［０，Ｔ－１］に属する。ｃ_ｉはｉ番目の正弦波の大きさ、Ω_ｉとω_ｉはそれぞれｎ次元及びｔ次元の２つの周波数である。Ｗはノイズ項である。式（２）の行列形式は、Ｓ＝ＵＣＶ'＋Ｗで与えられる。但し、Ｃはｃ_ｉに等しいi番目の対角要素を有する対角行列である。Ｕは［ｕ（Ω_１),ｕ(Ω_２）,・・・,ｕ（Ω_Ｌ）］で定義される。但し、ｕ（Ω)＝[１,ｅ^ｊΩ,ｅ^ｊ２Ω,・・・,ｅ^{ｊ（Ｎ-１Ω）}］である。Ｖ及びｖはωと同様に定義される。素数は転置演算子を示す。Ｓの（ｎ,ｔ）番目の要素が式（２）と同じであることを、Ｕ、Ｃ、及びＶ’を乗算することによって容易に検証できる。次に、Ｓは、全ての列を結合することによりベクトルｓチルダに変換される。すると以下を示すことができる。

ここで、ｖｅｃはベクトル化演算子、直積記号（〇の中に×）はクロネッカー積である。ｃチルダ及びωチルダは、Ｃ及びＷからベクトル化される。ここではｖｅｃ（ＸＹＺ）＝（Ｚ´直積記号（〇の中に×）Ｘ）ｖｅｃ（Ｙ）の性質を用いる。

ｓチルダの式を更に簡単にするために、Ｃ（ｉ,ｊ）に等しいｃチルダの［（ｊ－１）Ｌ＋ｉ］番目の要素を考えてみよう。Ｃは対角行列であるため、ｉ≠ｊのときはＣ（ｉ,ｊ）＝０となり、Ｃ(ｉ,ｊ)＝ｃ_ｉとなる。また、“Ｖ直積記号（〇の中に×）Ｕ”の［（ｊ－１）Ｌ＋ｉ］番目の列は、“ｖ_ｉ直積記号（〇の中に×）ｕ_ｉ”で与えられる。但しｖ_ｉ及びｕ_ｊは、それぞれ、Ｖ及びＵのｉ番目及びｊ番目の列である。よって、以下である。

従って、ｓチルダは以下のように簡略化できる。

残りの手順は、１ＤＭＵＳＩＣアルゴリズムと全く同じである。第１に、共分散行列Ｒ_ｓを（ｓチルダ）・（ｓチルダ）^Ｈとして計算する。但し、Ｈはエルミート演算子である。次に、Ｒ_ｓ上の固有値分解を行い、それらの固有値の大きさに基づいて固有ベクトルを降順に分類する。Ｒ_ｓの大きさはＮＴ×ＮＴであるので、ＮＴ固有ベクトルを有する。それらの最後のＮＴ－Ｌはノイズ空間固有ベクトルと称される。Ｎはノイズ空間固有ベクトルからなる行列とする。これは、Ｎ^ＨＭ＝０として示すことができる。“ｖ_ｉ直積記号（〇の中に×）ｕ_ｉ”はＭのｉ番目の列であるので、任意のｉに対してＮ^Ｈ（ｖ_ｉ直積記号（〇の中に×）ｕ_ｉ）＝０であることが分かる。それらの定義に基づいて、ｕ_ｉ及びｖ_ｉは、ｕ（Ω_ｉ）及びｖ（ω_ｉ）で与えられる。（Ω_ｉ，ω_ｉ）を決定するために、以下のメトリックが（Ω、ω）の任意の組み合わせについて評価される。

Ｐ（Ω，ω）のプロファイルにおけるＬ個のスパイクは、信号ＳにおけるＬ個の正弦波の周波数（Ω_ｉ，ω_ｉ）を示す。本発明のシステムでは、Ω＝－２πΔｃｏｓ（θ）／λ及びω＝４πβｄＴ_ｓ／（Ｔｖ_ｓ）である。但し、λはチャープ周波数ｆと音速ｖ_ｓとの比で与えられる波長であり、Δはマイク間隔であり、βは帯域幅であり、Ｔ_ｓは音響サンプルの持続時間であり、Ｔはチャープ長である。また、θはＡｏＡであり、ｄは距離である。Ω及びωをθ及びｄで置換すると、次のようになる。

このようにして、ＡｏＡ－距離プロファイルが得られ、複数のスパイクは、手１０２及び他の背景反射物の位置に対応する。上記の導出は、Ｌ＜ＮＴである限り有効である。本発明の文脈において、それは、２ＤＭＵＳＩＣアルゴリズムが、マイクの数（Ｎ）よりも多い数（Ｌ）の反射を解決できることを意味する。これは、システム内のセンサの数を増やすことと等価である。また、センサの増加は推定精度を大幅に向上させるのに役立つ。２ＤＭＵＳＩＣアルゴリズムによる結合推定を適用することにより、ＡｏＡ及び距離の両方の誤差が低減される。

図６は、本発明の一の実施形態に係る、式（３）を用いて生成された２Ｄプロファイルを示す。この場合、手及び体の反射に対応するピークが明らかに見える。これは、結合推定がマルチパス干渉の解決に役立つことを実証する。

２ＤＭＵＳＩＣアルゴリズムを用いた結合推定は追跡に有益である。しかしながら、ルームスケール追跡を支援するには依然として不十分である。ルームスケール追跡を可能にするために、低ＳＮＲ下での２ＤＭＵＳＩＣアルゴリズムの精度を高める必要がある。

ＭＵＳＩＣを用いて複数のＡｏＡを推定するための平均二乗誤差εは、次式で決定される。

ここで、Ｌは受信信号における反射の数、ΔはＭＩＣ間の間隔、ＮはＭＩＣの数、Ｔは時間領域サンプルの数である。この式は１ＤＭＵＳＩＣに対して導出されるが、２ＤＭＵＳＩＣに適用できる。なぜなら、２ＤＭＵＳＩＣは、ベクトル化によって１Ｄバージョンに実際に変換されるからである。

式（４）の洞察に基づいて、次の方策を用いて、低ＳＮＲ下で推定誤差を低減する。即ち、（ｉ）Δ：ＭＩＣ間の間隔を増加させる（例えば、マイクを互いに不均等な距離に配置する)、(ｉｉ)Ｔ：推定に用いられるサンプルの数を増加させる、及び（ｉｉｉ）受信信号を処理してＬ：反射有効数を減らす、ことである。これらのアプローチについて、以下に更に詳細に説明する。

低ＳＮＲ下でのＭＵＳＩＣ性能を向上する一つの方法は、ＭＩＣ間の間隔Δを増加させることである。しかしながら、Δがλで示す波長の半分よりも大きい場合、ＡｏＡを推定するのに曖昧さがある。この場合、－２πΔｃｏｓ（θ_１）／λ＝－２πΔｃｏｓ（θ_２）／λ＋２πとなるような二つの異なる角度θ_１及びθ_２が存在する。式（３）に基づくと、この場合、ｕ（θ_１)＝ｕ(θ_２）であるので、Ｐ（θ_１Ｄ)はＰ（θ_２Ｄ)に等しい。ピークがＡｏＡ－距離プロファイルの（θ_１，Ｄ_１）に位置する場合、（θ_２，Ｄ_２）に同一のピークが存在する。どちらが実際の信号によるものであるかを決定することはできない。図７Ａは、本発明の一の実施形態に係る、曖昧さを有する２Ｄプロファイルの例を示す（但しΔは２．７cmであり、λは２．１cmである）。同じ大きさ及びパターンを有する５０度及び－５０度での二つの曖昧さが、０度での正解ピークとして観察される。

曖昧さを導入することなくＭＩＣ間隔を増加させるために、不等間隔ＭＩＣアレイが用いられる。不等間隔アレイは、図７Ｂに示すように曖昧さを低減するために小さな間隔を有するＭＩＣの対と、解像度を向上するために大きな間隔を有するＭＩＣの対とを含む。図７Ｂは、本発明の一の実施形態に係る不等間隔アレイの利用による、図７Ａよりも曖昧さが少ない２Ｄプロファイルの例を示す。鍵となる課題は、低ＳＮＲ下で曖昧さを最小化させるために最適な不等間隔アレイを如何に設計するかである。

一の実施形態では、ベクトル［ｍ_１,ｍ_２，・・・，ｍ_Ｎ］を用いて線形ＭＩＣアレイを記述する。但し、ｍ_ｉは、ｉ番目のＭＩＣと１番目のＭＩＣとの間の距離である。ｍ_１は常にゼロであり、ｍ_Ｎはアレイの合計サイズである。等間隔アレイの場合、ｍ_ｉ＝（ｉ－１）Δである。この表記が与えられると、式（３）におけるu（θ）は、［ｅ^{－ｊ２πｍ１ｃｏｓ（θ）／λ},ｅ^{－ｊ２πｍ２ｃｏｓ（θ）／λ},・・・, ｅ^{－ｊ２πｍＮｃｏｓ（θ）／λ}］として一般化される。

曖昧さの存在を決定するために、正解ＡｏＡθ_１に対するu（θ）と他の全ての角度との間の相関性を評価する。図８Ａ及び図８Ｂは、それぞれ、本発明の一の実施形態に係る、等間隔アレイの場合及び不等間隔アレイの場合におけるu（０）とu（θ）との間の相関性のプロットである。図８Ａ及び図８Ｂに示すように、多くの相関ピークが存在する。正解角の周りのものはメインピークであり、他のものはサイドピークである。θ_２に大きさ１のサイドピークがある場合、ｕ（θ_２）はu（θ_１）と同一である。この場合、Ｐ（θ_１Ｄ)及びＰ（θ_２Ｄ)は、式（３）に基づいて同じ値を有し、θ_２は、θ_１に対する曖昧さである。サイドピークの大きさを減少させると、曖昧さが減少する。一の実施形態では、ＳＮＲは、異なる時間にサンプリングされた信号を結合させる時間領域におけるビームフォーミングを用いて増加している。一の実施形態では、サイドピークと一のピークとの間の差異が、低ＳＮＲシナリオの下でノイズを許容するためのマージンを決定する。従って、以下の最適化を解くことによってノイズマージンを最大化するＭＩＣアレイを選択する。

ここで、関数ｓｉｄｅ（θ_１）は、θ_１に対する相関プロットにおいて最も高いサイドピークを返し、ＭＩＣアレイを考慮して最大のサイドピークを見つけるためにθ_１全体にわたる探索が実行される。第１の制約は、アレイサイズが定数Ｍに等しいことを必要とし、これは、全ての候補アレイが類似のＭＵＳＩＣ精度を与えることを保証する（異なる曖昧さはあるが）。第２の制約は、順方向－逆方向の平滑化を適用できるように、アレイが中心に対して対称であることを必要とする。順方向－逆方向の平滑化は、マルチパス信号間のコヒーレンスを除去し、ＭＵＳＩＣ性能を向上する。

一の実施形態では、アレイがスマートスピーカに容易に適合できるように、Ｍは８cmとして選択される。最適化を解くと、最適なアレイ［０，３ｃｍ，５ｃｍ，８ｃｍ］が得られる。０度での正解ＡｏＡに対する相関プロットを図８Ｂに示す。－２０ｄＢＳＮＲ下での２ＤＭＵＳＩＣプロファイルを図７Ｂに示すが、潜在的な曖昧さの角度（±５０度）の周りのスパイクが、正解の周りのものよりもはるかに弱くなっている。ＳＮＲを考えると、正解スパイクの平均の大きさは、これらの測定に基づく曖昧さのスパイクの平均の大きさの６倍であり、正しいピークの選択を容易にする。

結合推定に２ＤＭＵＳＩＣアルゴリズムを用いるために、一の実施形態では、送信チャープ及び受信チャープを乗算し、低域フィルタリングを用いて、周波数がＡｏＡ及び伝搬遅延に比例する正弦波信号（式（１））を得る。正弦波信号の長さは、本発明の一の実施形態に係る図９Ａに示すようにその領域外の積が単にゼロであるので、２つのチャープ間の重なりに依存する。ルームスケール追跡の場合、伝搬遅延は、音響信号の伝搬速度が遅いために大きくなる（例えば、ユーザ１０３とスマートスピーカ１０１との間の距離が５ｍの場合に約３０ｍｓ）。図９Ａに示すように、これは、導出された正弦波信号の長さを著しく減少する。なぜなら、典型的なチャープが数十ミリ秒しか持続しないからである。減少された信号長は、ＭＵＳＩＣアルゴリズム性能に悪影響を及ぼす。

この問題に対処するために、図９Ｂに示すように、本発明の一の実施形態に係る中間チャープを導入する。これは、送信されたチャープの時間シフトバージョンである。シフト量ｔ_ｄ ^０は、受信チャープの伝搬遅延に関する概算に基づいて予め決定される。その結果、中間チャープは、受信チャープとの大きな重なりを有する。一の実施形態では、２ＤＭＵＳＩＣアルゴリズムは、これらの２つのチャープを乗算することによって導出される正弦波信号に適用される。このように推定されたＡｏＡは、受信チャープのものと等しい。なぜなら、ＡｏＡは、異なるＭＩＣに対する伝搬遅延（即ち、式（１）のδ）の間の差異によって決まり、全てのＭＩＣについて同じ量だけ送信されたチャープをシフトしても、差異は変わらないからである。このように推定された伝搬遅延は、中間チャープと受信チャープとの間の遅延である。受信チャープの総伝搬遅延は、図９Ｂに示すように、ｔ_ｄ ^０及びｔ_ｄ ^ｍの総和である。中間チャープを用いると、推定に用いられる有効サンプルの数が増加するため、精度が向上する。

このアプローチは、受信チャープの伝播遅延に関する大まかな知識を必要とする。前回の追跡期間における推定結果がこの目的のために使用されるが、それは、ユーザの手の位置１０２が連続した期間中（数十ｍｓ）にあまり変化しないからである。真っ先に追跡するために、後述するように、手の初期位置を決定するアプローチが開発された。

２ＤＭＵＳＩＣ推定に用いられるサンプルの数を増加させる他の方法は、チャープ長を増加させることである。しかしながら、これは追跡待ち時間を増加させる可能性があり、望ましくない。待ち時間を増加させずにチャープ長を増加させるために、図１０に示すように、オーバーラップしているチャープが送信される。図１０は、本発明の一の実施形態に係る、オーバーラップしているチャープの送信を示す図である。興味深いことに、これらのチャープは、それらが時間的に分離できる限り、帯域幅要件を増やさずに同じチャネル上で送信できる。即ち、前回のチャープからの反射は、全て、次のチャープからの最初の反射の前に到達すべきである。これは、オーバーラップしているチャープ間の時間差が、少なくとも、ｔ_ｄ ^ｍａｘとして示される最大伝播時間であるべきであることを示唆する。５ｍまでの追跡範囲では、ｔ_ｄ ^ｍａｘは３０ｍｓである。従って、一の実施形態では、２つの連続チャープからの反射を区別するための追加の１０ｍｓクッションを提供するように、２つの連続チャープの間で４０ｍｓを選択した。これにより、４０ｍｓ毎に測定値を更新できるが、これはスマートスピーカ使用シナリオに十分である。オーバーラップしているチャープを用いることによって、より長いチャープ持続時間を用いることができる。実験では、８０ｍｓチャープを用いた。

ＲＦ信号とは異なり、ハードウェアから報告される音響サンプルは実数である。従って、送信チャープと受信チャープとの乗算後に、実正弦波（式（１）参照）が得られる。しかしながら、ＭＵＳＩＣは、複素正弦波の周波数を推定するアプローチであり、一方、実正弦波ｃｏｓ（ｐ）は、２つの複素正弦波ｅ^±ｊｐからなる。その結果、ＭＵＳＩＣによって見られる複素正弦波の数は、実際には、受信反射の数の２倍である。式（４）に基づくと、増加した正弦波の数は、ＭＵＳＩＣ性能に負の影響を及ぼす。その問題を避けるために、信号の負の周波数は、１）信号に対してＦＦＴを実行する、２）負の周波数ビンをゼロとして設定する、３）IＦＦＴを実行する、ことによって除去される。このようにして、各反射は、ただ１つの複素正弦波に対応する。負の周波数を除去すると、信号とノイズの両方が半減し、除去後もＳＮＲは変化しない。

２ＤＭＵＳＩＣを用いる結合推定は、２つの計算集約的ステップを含む。一のステップは、ノイズ空間固有ベクトル行列Ｎを導く固有値分解であり、その計算コストは固有ベクトルのサイズ（ＮＴ×１）と共に増加する。但し、ＮはＭＩＣの数であり、Ｔは時間領域サンプルの数である。他方のステップは、ＡｏＡ及び距離の全ての組み合わせについて２Ｄプロファイル（式（３））を評価することである。その計算コストは、Ｏ（（ＮＴ）２）である各評価の行列乗法と、ＡｏＡ－距離の組合せの数とに依存する。本発明のシステムの一の実施形態では、ＭＩＣの数Ｎは４であり、音響サンプルの数Ｔは、サンプリングレート４４．１ＫＨｚ及び８０ｍｓチャープの下で、３５２８である。従って、ＮＴは重要であり、これらの２つのステップはリアルタイム処理には高価すぎる。

その結果として、計算の複雑さを低減するために、サブサンプリングに基づく処理と空間平滑化を用いた。これらの技法は、ＭＵＳＩＣ性能を低下させることなくＴを効果的に減少する。固有値分解の時間は２．２ｍｓに短縮される。しかし、２Ｄプロファイルの評価は依然として高く、５００ｍｓに近い。これは、多数のとり得るＡｏＡ－距離の組み合わせによるものである。

従って、評価すべき距離の数が減少する。１Ｄシナリオでは、大空間にわたって１Ｄプロファイルを評価することを回避するために、ルートＭＵＳＩＣを用いる。それは、係数がノイズ空間行列Ｎにより決定される多項式への根を見つけることによって、１Ｄ正弦波の周波数を推定する。しかしながら、２Ｄシナリオでは、根を見つけることはより高価である。

２Ｄプロファイルの評価コストを抑えるために、以下の観察に依拠する。式（１）を考えると、１ＤＭＵＳＩＣアルゴリズムは、伝搬遅延ｔ_ｄを推定するために時間次元にわたって適用できる。位相項（－ｆδｎ）は時間に依存しないので、ここでは定数として扱う。距離は、ｔ_ｄに音速を乗算することによって導出される。このように推定された距離は、２ＤＭＵＳＩＣアルゴリズムを用いた結合推定のそれに近い。これは、Ｔが大きいため、この次元に十分な仮想センサが存在するからである。本発明の実施形態に係る図１１に示すように、１ＤＭＵＳＩＣアルゴリズム及び２ＤＭＵＳＩＣアルゴリズム各々を用いて推定する距離の差異は、測定の９０％について５ｍｍ以内であり、測定の９５％以上について１ｃｍ以内である。従って、一の実施形態では、距離を推定するために１ＤＭＵＳＩＣアルゴリズムを適用し、そして、結合推定のために２ＤＭＵＳＩＣアルゴリズムを用いるが、推定距離（即ち±２ｃｍ）の周りの２Ｄプロファイルを評価するためだけである。これは、式（３）を計算する回数を大幅に減らし、計算時間を減らす。

計算コストを更に抑えるために、式（３）の分母は、下記に変換される。

ｖ直積記号（〇の中に×）ｕ＝（ｖ直積記号（〇の中に×）Ｉ_ｎ）ｕという性質が活用される。但し、ｖ及びｕは列ベクトルであり、Ｉ_ｎはｕと同じ行数を有する単位行列である。Ｑ（ｄ）は（ｖ（ｄ）直積記号（〇の中に×）Ｉ_Ｎ）^ＨＮＮ^Ｈ（ｖ（ｄ）直積記号（〇の中に×）Ｉ_Ｎ）を示すとする。Ｑ（ｄ）はθに依存しないことが分かる。また、そのサイズはＮ×Ｎに過ぎず、ＭＩＣの数が少ないため非常に小さい。これらの観測結果に基づいて、２ＤプロファイルＰ（θ，ｄ）は以下のように評価される。

・任意のｄが与えられると、Ｑ（ｄ）が最初に評価される。このステップの計算コストは、ｖ（ｄ）直積記号（〇の中に×）Ｉ_Ｎ及びＮＮ^ＨのサイズがそれぞれＮＴ×Ｎ及びＮＴ×ＮＴであるので、Ｏ（Ｎ（ＮＴ）^２）である。ここで、Ｎは角度や距離に依存しないので、ＮＮ^Ｈは予め評価されているものとする。

・全てのとり得るθについて、Ｐ（θ，ｄ）は、１／ｕ（θ）^ＨＱ（ｄ）ｕ（θ）によって評価される。各評価のコストは、ｕ（θ）及びＱ（ｄ）のサイズがそれぞれＮ×１及びＮ×Ｎであるので、Ｏ（Ｎ^２）のみである。

・全てのとり得るｄについて上記の手順を繰り返す。

このように、各ＡｏＡ－距離対に対するＰ（θ，ｄ）の平均計算コストは、Ｏ（Ｎ^２Ｔ^２／Ｎ_ａ＋Ｎ^２）である。但し、Ｎ_ａはとり得るＡｏＡの数であり、Ｎ_ａ計算へのＱ（ｄ）の計算コストは、同じｄを伴って償却される。これと比較して、式（３）を直接計算するには、Ｏ（Ｎ^２Ｔ^２）が必要である。本発明のシステムでは、Ｎ＜＜Ｎ_ａ及びＴ＞＞１であるので、上記のアプローチは、Ｐ（θ，ｄ）の評価コストを著しく下げる。その結果、このようなアプローチは、各結合推定の時間を５２０ｍｓから３１ｍｓに短縮する。

他の実施形態では、機械学習アルゴリズムを用いて、ＡｏＡ－距離プロファイルを距離及びＡｏＡ推定値にマッピングできる。リカレントニューラルネットワーク（ＲＮＮ）は、２ＤプロファイルからＡｏＡ及び距離へのマッピングを自動的に学習するために利用される。ＲＮＮは、手の動きにおける時間的局所性を利用するために用いられる。例えば、いくつかの期間において２Ｄプロファイルにノイズが多くても、推定の向上を支援するために、最近のプロファイルを活用できる。更に、連続した２Ｄプロファイルを解析することにより、潜在的にＤｏｐｐｌｅｒシフトを学習し、その効果を補償できる。

一の実施形態では、ＲＮＮはＫ個のステージを含む。これらのステージは、図１２に示すように、最新のＫ個の期間で抽出された２Ｄプロファイルに対応する。図１２は、本発明の一の実施形態に係る、到着角（ＡｏＡ）－距離プロファイルをＡｏＡ及び距離推定にマッピングするために用いるリカレントニューラルネットワーク（ＲＮＮ）を示す。図１２を参照すると、各ステージは、同じネットワーク構造（Ｒ１２０１として示す）を有する。最後のステージは、現在の２Ｄプロファイルを入力として受け取り、先のステージは、前回のプロファイルを入力として受け取る。各ステージは、また、特定のコンテキスト情報を次のステージに供給する。

ＲＮＮは、一連の同一ネットワーク構造Ｒ１２０１からなる。Ｒ１２０１の設計は、ＲＮＮの有効性に多大な影響を及ぼす。図１３は、本発明の一の実施形態に係る、ＲＮＮにおけるステージＲ１２０１を示す。図１３を参照すると、ネットワークは、２つの入力、即ち、前回のステージからのコンテキストと、現在の２Ｄプロファイルと、を受け取る。先ず、２Ｄプロファイルは、平均プーリング層Ｐを通る。この層は入力プロファイルを複数のブロックに分割し、各ブロックはＢＸＢ画素を含む。Ｐからの出力は、各ブロックにおける平均のピクセルの大きさからなる。効果的には、Ｐ層は、ＢＸＢの因子によって２Ｄプロファイルを圧縮する。これは、ネットワーク内のパラメータ数を著しく減少させ、オーバーフィッティングを防止する。オリジナルの２ＤプロファイルをＰ層に供給する方が、粗い粒度で２Ｄプロファイルを直接用いるよりも優れている。なぜなら、後者では鋭いピークを見逃す可能性があるためである。これは、高ＳＮ比下でよく見られる。プーリング層の後には、隠れ層Ｈ１が続く。この層は、圧縮されたプロ層Ｏと、コンテキスト層Ｃとから特徴を抽出する。層Ｈ１の後には隠れ層Ｈ２が続くが、この層は、隠れ層Ｈ１から特徴を抽出し、前回のステージからコンテキストを抽出して、層Ｏ及び層Ｃに出力する。

層Ｏは、推定距離及びＡｏＡを表す２つのニューロンを含む。それらが現在の位置を表すので、層Ｏの出力は最後のステージでのみ用いられる。

コンテキスト層Ｃは、どの情報を次のステージに転送する必要があるかについて自動的に学習するために用いられる。本質的には、それは他の隠れ層であるが、この層は複数のニューロンからなり、ＲＮＮにおける連続するステージを接続する。

一の実施形態では、対象物の位置を導出するために、対象物の前回の位置の周りの特定サイズの領域に対応する２次元プロファイルが生成されて用いられる。精度と効率の両方を高めるために、部屋全体を包含する代わりに、目標位置の周りの小さな領域にわたる２Ｄプロファイルのみが生成される。具体的には、目標位置が大まかに分かっていると仮定すると、その周囲の検出窓は、距離をＢ_ＤからＢ_Ｄ＋Ｗ_Ｄまで、ＡｏＡをＢ_ＡからＢ_Ａ＋Ｗ_Ａまで包含するように選択される。この窓内の２Ｄプロファイルのみが評価され、ネットワーク入力として用いられる。ＲＮＮからの出力は、検出窓の境界に対する距離及びＡｏＡである。ピークがプロファイルの左下隅に現れる場合、ＲＮＮは距離とＡｏＡの両方をゼロとして推定する。ピークが右上隅にある場合には、ネットワークはそれらをそれぞれＷ_Ｄ及びＷ_Ａとして推定する。最終距離及びＡｏＡは、窓の相対位置及び左下隅の総和（即ち、(Ｂ_Ｄ，Ｂ_Ａ))として導出できる。

この戦略を用いる利点は多岐にわたる。第１に、局所領域におけるプロファイルを評価するだけで計算コストを著しく下げる。第２に、特定の距離又はＡｏＡで訓練されたＲＮＮは、適切な検出窓を選択することによって、別の距離又はＡｏＡに適用できる。第三に、窓外の干渉経路をフィルタリングすることによって、ネットワークが環境に影響を受けにくくなる。第４に、複数の検出窓を用いることによって、複数のユーザを同時に追跡できる。

このメカニズムは、対象物位置に関する大まかな知識を必要とする。従って、初期化スキームを用いて、初期窓を決定する。追跡中、対象物が境界の近くに移動すると、窓が更新される。一の実施形態では、窓は６０ｃｍ×６０ｃｍの領域に及ぶので、正確な対象物位置は必要とされない。

一の実施形態では、ＲＮＮは、時間窓にわたる正解位置及び到着角－距離プロファイルのシーケンスからなる訓練トレース(trace)を用いて訓練される。一の実施形態では、到着角－距離プロファイルのシーケンスは、到着角及び距離の推定値を取得するためにＲＮＮに適用される。一の実施形態では、到着角はリカレントニューラルネットワークに基づいて推定され、時間窓にわたる正解到着角及び到着角プロファイルのシーケンスを含む訓練トレースは、リカレントニューラルネットワークを訓練するために用いられ、到着角プロファイルのシーケンスは、到着角の推定値を取得するためにリカレントニューラルネットワークに適用される。他の実施形態では、距離はリカレントニューラルネットワークに基づいて推定され、時間窓にわたる正解距離及び距離プロファイルのシーケンスを含む訓練トレースは、リカレントニューラルネットワークを訓練するために用いられ、距離プロファイルのシーケンスは、距離の推定値を取得するためにリカレントニューラルネットワークに適用される。

先に議論したように、各反射は、２ＤＭＵＳＩＣアルゴリズムから導出されたＡｏＡ－距離プロファイルにおけるスパイクに対応する。これらのスパイクの１つは、手の反射に対応するように選択される。これは、ユーザ１０３が装置１０１から遠く離れている場合には、手の反射４０４が支配的ではないので、困難である。図１４は、本発明の一の実施形態に係る、一の部屋のＡｏＡ－距離プロファイルを示す。ユーザの手１０２と装置１０１との間の距離は３．６ｍである。干渉除去の後でさえ、手の反射以外にスパイクがあることが観察される。これらのスパイクは、ユーザの体の反射４０１、動的背景反射４０２、及びノイズ（例えば、自己干渉４０３）に対応する。ユーザの手１０２に対応するスパイクは、必ずしも最も強いものではない。

どのスパイクが手１０２に対応するかは一のスナップショットに基づくと曖昧であるため、時間の経過に伴う複数のスナップショットからの時間的関係が利用される。一の実施形態では、ユーザ１０３は、初期ジェスチャを実行し且つ経時的な軌跡がジェスチャに一致するスパイクを識別するように、求められる。一の実験では、ユーザ１０３は、初期化中に自分の手１０２を押し出すように求められる。望ましいスパイクは、経時的に直線的に変化すべきである。このパターンは、手１０２を識別するために用いられる。図１５は、本発明の一の実施形態に係る、１秒間にわたるユーザ１０３の手１０２及び体のスパイクを示すグラフである。図１５に示すように、手の反射に対応するスパイクは、時間とともに直線的に変化する。即ち、直接経路に対するスパイクは変化せず、動的背景反射４０２及びノイズ（例えば、自己干渉４０３）に対するスパイクは、ランダムパターンを示す。実験では、ほとんどの場合、ユーザ１０３は、手の初期位置を明確に決定するために１回押すだけでよいことが示された。信頼性のために、ユーザ１０３は、２回押すように求められてもよい。

これらの観察に基づいて、スパイクは、初期化ステージ中（即ち、１秒）に２ＤＭＵＳＩＣプロファイルから抽出される。全てのスパイクは、ｋ平均アルゴリズムを用いてクラスタ化される。但しkは、このステージ中の各追跡期間において検出されたスパイクの最大数である。各クラスタについて、全ての点は、初期化ジェスチャに対応する線を用いてクラスタ内に近似される。最小のフィッティング誤差（即ち、Ｒ二乗メトリックが１に最も近い）を与えるクラスタが選択される。そのクラスタ内の最新のスパイクが、手の初期位置として選択される。初期位置が決定されると、前回のスパイクに最も近いスパイクを、次の連続追跡用に選択できる。

図３Ｂに戻るとともに、図１から図２及び図４から図１３と併せると、ステップ３１０において、装置１０１は、ユーザ１０３が、最近の時間窓内の手１０２の位置に基づいてコマンドを実行したかを判定する。一の実施形態では、装置１０１は、メモリ２０２等に、前回の数の手の位置（例えば、前回の１０個の位置）を記憶する。一の実施形態では、このような記憶された位置は、旋回モーション等の動き又はモーションに外挿できる。例えば、手１０２の各位置は、ｘ，ｙ座標系を介して決定される。その結果、手１０２が移動する際の、モーション又は動きに対応するｘ，ｙ座標の変化が決定される。一の実施形態では、モーション又は動きの種類に関連するコマンドを記憶するデータ構造（例えば、表）が、装置のメモリ２０２に格納される。手１０２の動き又は移動を外挿した後、データ構造を評価して、このような動き又はモーション（例えば、渦状のモーション）がコマンド（例えば、音量の増加）に対応するかどうかを判定する。ユーザ１０３が装置１０１にコマンドを実行させようとしたと装置１０１が判断した場合、装置１０１は、次にこのようなコマンドを実行する。本明細書で使用される「コマンド」は、装置１０１によって実行される任意の種類の命令を指し、アバターの動きを含む。

ステップ３１１では、ユーザ１０３がコマンドに対応する手のモーションを行ったかどうかについて、装置１０１によって判定が行われる。ユーザの手のモーションがコマンドに対応する場合、ステップ３１２において、装置１０１は、前述したようなコマンドを実行する。

しかしながら、ユーザの手のモーションがコマンドに対応しなかったと装置１０１が判定した場合、装置１０１は、図３Ａのステップ３０１において、ユーザ１０３に記録音声信号を送信し続ける。

このようにして、スマートデバイス（例えば、スマートスピーカ）等の装置は、ユーザの手等のユーザのモーションを介して、それ自体によって、又は音声に基づく制御と共同して制御できる。その結果、スマートデバイス等の装置の機能性又は性能は、ユーザがモーションを介して装置を制御可能とすることによって向上する。これは、発話等の他の手段よりも、動きを介して装置に命令する方がより容易であると感じるような、障害のある個人にとっては特に重要である。

更に、音声制御に加えてモーションを介した装置の制御を可能とすることによって、装置を制御時の精度が大幅に向上される。その結果、ユーザは、特定の動作（例えば、音量の増加）を実行するように装置に対して正しく命令しようとすることにあまり時間を費やさない。

更に、本発明は、制御装置を含む技術又は技術分野を改善する。前述したように、現在、スマートスピーカ等のスマートデバイスは、音声コマンドを介して制御される。しかしながら、音声に基づく制御が常に適切であるとは限らない。例えば、ノイズの多い環境では、干渉により音声制御が著しく低下する。更に、異なる言語を話し、使用されている言語を自動的に識別するメンバーで構成された家族のために、複数の言語を理解できるスマートスピーカを開発することは、困難であり、費用がかかる。更に、画面との対話や、多数のメニューオプションから選択する等の、いくつかの使用シナリオでは、音声に基づくインターフェイスとの対話は面倒なことがある。これと比較して、モーションに基づく制御は、これらのシナリオにおいて魅力的であり、音声に基づく制御を十分に補完する。残念ながら、スマートスピーカ等のスマートデバイスを、手のモーション等のモーションを用いて、独立して、又は音声に基づく制御と共同して制御するための手段は、現在存在しない。

前述したように、本発明は、ユーザが、手のモーション等のモーションを用いて、スマートデバイス等の装置を制御可能とすることによって、そのような技術を向上する。

上記では、手の追跡に関連して本発明を説明したが、本発明の原理は、クレジットカード、紙片、又はモバイル機器等の、任意の種類の物体を追跡するために用いてよい。

一の実施形態では、装置１０１は、送信信号の反射を収集するのとは対照的に、スマートフォン等の、追跡される物体からの信号を直接受信する。例えば、図１６に示すように、図１６は、本発明の実施形態に係る、モバイル機器Ａ１６０１が音響信号１６０２を発し、他の装置１０１（図１参照）上の複数のマイクが受信信号に基づいてモバイル機器Ａ１６０１の動きを追跡できる装置に基づく追跡を示す。図１７は、本発明の一の実施形態に係る、図１６のモバイル機器Ａ１６０１等の物体１７０１の動きを追跡するために用いる他の装置１０１上の複数のマイク１０５Ａから１０５Ｃを示す。マイク１０５Ａから１０５Ｃは、集合的に又は個別に、それぞれ、複数のマイク１０５又は一のマイク１０５と称してよい。図１７は３つのマイク１０５を示しているが、本発明の原理は、特定数のマイク１０５に範囲を限定されるものではない。

図１、図１６、及び図１７を参照すると、装置１０１は、装置１０１内の一又は複数のマイク１０５を用いて、物体（例えば、スマートフォン）によって送信された音響信号を受信する。装置１０１は、受信信号の少なくとも一部を、周波数が受信信号の到着角及び伝搬距離に比例する２次元正弦波に変換する。装置１０１は、２次元正弦波の周波数を評価することによって到着角－距離プロファイルを導出する。装置１０１は、到着角－距離プロファイルから、到着角及び距離を推定する。装置１０１は、装置１０１と、音響信号を送信する装置との間の周波数オフセットを推定してよい。一の実施形態では、周波数オフセットは、送信機及び受信機の両方が静止している場合に、到着角－距離プロファイル又は距離プロファイルのピークの変化に基づいて推定される。装置１０１は、周波数オフセットを用いて距離推定値を調整する。一の実施形態では、到着角は、到着角－距離プロファイル又は到着角プロファイルのピークに基づいて推定される。装置１０１は、選択された到着角－距離対に基づいて、物体（例えば、スマートフォン）の現在位置を決定する。次に、装置１０１は、ユーザ１０３が物体の前回及び現在の位置に基づいてコマンドを実行するために移動したかを判定する。次に、装置１０１は、ユーザ１０３がコマンドを実行するために移動したとの判定に応答してコマンドを実行する。

一の実施形態では、装置１０１は、２次元（２Ｄ）座標から３次元（３Ｄ）座標を得ることができる。一の実施形態では、装置１０１は、ｘ軸に沿った複数のマイク１０５から収集された受信信号を用いてｘ－ｚ座標を得る。次に、ｙ軸に沿った複数のマイク１０５から収集された受信信号を用いてｙ－ｚ座標を得る。次に、装置１０１は、導出されたｘ－ｚ及びｙ－ｚ座標を用いて、ｘ－ｙ－ｚ座標を形成する。

言い換えると、装置１０１は、異なる組のマイク１０５を用いて複数の到着角－距離の組を推定することによって、且つ推定された到着角－距離の組を３次元座標に変換することによって、対象物（例えば、スマートフォン）の２次元座標を３次元座標に変換する。

このような実施形態は、装置に基づく追跡及びデバイスフリー追跡の両方に実施されてよい。

本発明の各種の実施形態の説明は、例示の目的で提示されているが、網羅的であることも、開示された実施形態に限定されることも意図されていない。記載された実施形態の範囲及び精神から逸脱することなく、多くの修正及び変形が当業者には明らかであろう。本明細書で使用される用語は、実施形態の原理、市場で見出される技術に対する実際の適用又は技術的改善を最もよく説明するために、或いは当業者が本明細書で開示される実施形態を理解可能とするために選択された。

Claims

物体の動きを追跡する方法であって、
装置内の一又は複数のマイクを用いて前記物体から音響信号を受信する工程と、
前記受信した音響信号の少なくとも一部を、周波数が前記物体に係る到着角及び伝播距離に比例する２次元正弦波に変換する工程と、
前記２次元正弦波の周波数を評価することによって、前記物体から受信した音響信号に基づいて到着角－距離プロファイルを導出する工程と、
前記到着角－距離プロファイルに基づいて、到着角及び距離を推定する工程と、
前記推定された到着角及び前記推定された距離に基づいて、前記物体の現在の位置を決定する工程と、
を含むことを特徴とする方法。
当該方法は、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定する工程と、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行する工程と、
を更に含むことを特徴とする請求項１に記載の方法。
当該方法は、リカレントニューラルネットワークに基づいて前記到着角及び距離プロファイルから前記到着角及び前記距離を推定する工程を更に含み、
時間窓にわたる正解位置及び到着角－距離プロファイルのシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角－距離プロファイルのシーケンスは、前記到着角及び前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項１に記載の方法。
当該方法は、リカレントニューラルネットワークに基づいて前記到着角を推定する工程を更に含み、
時間窓にわたる到着角プロファイルを伴う正解角のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角プロファイルのシーケンスは、前記到着角の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項１に記載の方法。
当該方法は、リカレントニューラルネットワークに基づいて前記距離を推定する工程を更に含み、
時間窓にわたる距離プロファイルを伴う正解距離のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記距離プロファイルのシーケンスは、前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項１に記載の方法。
前記到着角－距離プロファイルにおける初期到着角－距離の組に対応する前記物体の初期位置を決定するために初期化を実行する工程を更に含むことを特徴とする請求項１に記載の方法。
当該方法は、静的な背景反射を取り除くために、前記受信した音響信号に対して干渉除去を行う工程を更に含むことを特徴とする請求項１に記載の方法。
前記到着角及び距離プロファイルは、２ＤＭＵＳＩＣアルゴリズムを用いて得られることを特徴とする請求項１に記載の方法。
当該方法は、送信機と受信機の両方が静止しているときに、前記到着角－距離プロファイルにおけるピークの変化に基づいて前記音響信号の前記送信機と前記受信機との間の周波数オフセットを推定する工程を更に含み、
前記周波数オフセットは前記推定距離を調整するために用いられる
ことを特徴とする請求項１に記載の方法。
前記装置は、前記一又は複数のマイクを有し、その配置は、相関性においてサイドピークとメインピークとの間のノイズマージンを最大にすることを特徴とする請求項１に記載の方法。
当該方法は、時間領域におけるビームフォーミングを用いて信号対雑音比を増加させる工程を更に含むことを特徴とする請求項１に記載の方法。
当該方法は、一又は複数の物体の位置に対応する前記到着角－距離プロファイルにおけるピークを識別する工程を更に含むことを特徴とする請求項１に記載の方法。
前記物体は、モバイル機器、又は、ユーザの手、ユーザの体、財布、カード、カップ若しくは本を含む反射物を備えることを特徴とする請求項１に記載の方法。
前記距離は、前記到着角－距離プロファイル又は距離プロファイルにおけるピークに基づいて推定されることを特徴とする請求項１に記載の方法。
前記到着角は、前記到着角－距離プロファイル又は到着角プロファイルにおけるピークに基づいて推定されることを特徴とする請求項１に記載の方法。
前記装置は、異なる組のマイクを用いて複数の到着角－距離の組を推定し、前記推定された複数の到着角－距離の組を３次元座標に変換することによって、対象物の２次元座標を３次元座標に変換することを特徴とする請求項１に記載の方法。
前記物体の現在の位置を導出するために、前記物体の前回の位置の周りの特定サイズの領域に対応する２次元プロファイルが生成されて用いられることを特徴とする請求項１に記載の方法。
装置を制御する方法であって、
前記装置内の一又は複数のマイクを用いて、ユーザに係る物体から送信された音響信号を受信する工程と、
前記受信した音響信号の少なくとも一部を、周波数が前記受信した音響信号の到着角及び伝播距離に比例する２次元正弦波に変換する工程と、
前記２次元正弦波の周波数を評価することによって、前記物体から受信した前記音響信号に基づいて到着角－距離プロファイルを導出する工程と、
前記到着角－距離プロファイルから、到着角－距離の組を推定する工程と、
前記推定された到着角－距離の組に基づいて、前記物体の現在の位置を決定する工程と、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定する工程と、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行する工程と、
を含むことを特徴とする方法。
物体の動きを追跡するコンピュータプログラム製品であって、
当該コンピュータプログラム製品は、それと共に具体化されるプログラムコードを有するコンピュータ可読記憶媒体を備えており、
前記プログラムコードは、
装置内の一又は複数のマイクを用いて前記物体から音響信号を受信するプログラム命令と、
前記受信した音響信号の少なくとも一部を、周波数が前記物体の到着角及び伝播距離に比例する２次元正弦波に変換するプログラム命令と、
前記２次元正弦波の周波数を評価することによって、前記物体から受信した信号に基づいて到着角－距離プロファイルを導出するプログラム命令と、
前記到着角－距離プロファイルに基づいて、到着角及び距離を推定するプログラム命令と、
前記推定された到着角及び前記推定された距離に基づいて、前記物体の現在の位置を決定するプログラム命令と、
を含む
ことを特徴とするコンピュータプログラム製品。
前記プログラムコードは、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定するプログラム命令と、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行するプログラム命令と、
を更に含むことを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記プログラムコードは、リカレントニューラルネットワークに基づいて前記到着角－距離プロファイルから前記到着角及び前記距離を推定するプログラム命令を更に含み、
時間窓にわたる正解位置及び到着角－距離プロファイルのシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角－距離プロファイルのシーケンスは、前記到着角及び前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記プログラムコードは、リカレントニューラルネットワークに基づいて前記到着角を推定するプログラム命令を更に含み
時間窓にわたる到着角プロファイルを伴う正解角のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角プロファイルのシーケンスは、前記到着角の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記プログラムコードは、リカレントニューラルネットワークに基づいて前記距離を推定するプログラム命令を更に含み、
時間窓にわたる距離プロファイルを伴う正解距離のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記距離プロファイルのシーケンスは、前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記プログラムコードは、前記到着角－距離プロファイルにおける初期到着角－距離の組に対応する前記物体の初期位置を決定するために初期化を実行するプログラム命令を更に含むことを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記プログラムコードは、静的な背景反射を取り除くために、前記受信した音響信号に対して干渉除去を行うプログラム命令を更に含むことを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記到着角－距離プロファイルは、２ＤＭＵＳＩＣアルゴリズムを用いて得られることを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記プログラムコードは、送信機と受信機の両方が静止しているときに、前記到着角－距離プロファイルにおけるピークの変化に基づいて前記音響信号の前記送信機と前記受信機との間の周波数オフセットを推定するプログラム命令を更に含み、
前記周波数オフセットは前記推定距離を調整するために用いられる
ことを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記装置は、前記一又は複数のマイクを備え、その配置は、相関性においてサイドピークとメインピークとの間のノイズマージンを最大にすることを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記プログラムコードは、時間領域におけるビームフォーミングを用いて信号対雑音比を増加させるプログラム命令を更に含むことを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記プログラムコードは、一又は複数の物体の位置に対応する前記到着角－距離プロファイルにおけるピークを識別するプログラム命令を更に含むことを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記物体は、モバイル機器、又は、ユーザの手、ユーザの体、財布、カード、カップ若しくは本を含む反射物を備えることを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記距離は、前記到着角－距離プロファイル又は距離プロファイルにおけるピークに基づいて推定されることを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記到着角は、前記到着角－距離プロファイル又は到着角プロファイルにおけるピークに基づいて推定されることを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記装置は、異なる組のマイクを用いて複数の到着角－距離の組を推定し、前記推定された複数の到着角－距離の組を３次元座標に変換することによって、対象物の２次元座標を３次元座標に変換することを特徴とする請求項１９に記載のコンピュータプログラム製品。
前記物体の現在の位置を導出するために、前記物体の前回の位置の周りの特定サイズの領域に対応する２次元プロファイルが生成されて用いられることを特徴とする請求項１９に記載のコンピュータプログラム製品。
装置を制御するコンピュータプログラム製品であって、
当該コンピュータプログラム製品は、それと共に具体化されるプログラムコードを有するコンピュータ可読記憶媒体を備えており、
前記プログラムコードは、
前記装置内の一又は複数のマイクを用いて、ユーザに係る物体から送信された音響信号を受信するプログラム命令と、
前記受信した音響信号の少なくとも一部を、周波数が前記受信した音響信号の到着角及び伝播距離に比例する２次元正弦波に変換するプログラム命令と、
前記２次元正弦波の周波数を評価することによって、前記物体から受信した前記音響信号に基づいて到着角－距離プロファイルを導出するプログラム命令と、
前記到着角－距離プロファイルから、到着角－距離の組を推定するプログラム命令と、
前記推定された到着角－距離の組に基づいて、前記物体の現在の位置を決定するプログラム命令と、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定するプログラム命令と、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行するプログラム命令と、
を含む
ことを特徴とするコンピュータプログラム製品。
物体の動きを追跡するコンピュータプログラムを記憶するメモリと、
当該メモリに接続されたプロセッサと、
を備え、
前記プロセッサは、前記コンピュータプログラムのプログラム命令を実行するように構成されており、
前記プログラム命令は、
一の装置内の一又は複数のマイクを用いて前記物体から音響信号を受信することと、
前記受信した音響信号の少なくとも一部を、周波数が前記物体の到着角及び伝播距離に比例する２次元正弦波に変換することと、
前記２次元正弦波の周波数を評価することによって、前記物体から受信した信号に基づいて到着角－距離プロファイルを導出することと、
前記到着角－距離プロファイルに基づいて、到着角及び距離を推定することと、
前記推定された到着角及び前記推定された距離に基づいて、前記物体の現在位置を決定することと、
を含む
ことを特徴とする装置。
前記コンピュータプログラムの前記プログラム命令は、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定することと、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行することと、
を更に含むことを特徴とする請求項３７に記載の装置。
前記コンピュータプログラムの前記プログラム命令は、リカレントニューラルネットワークに基づいて前記到着角－距離プロファイルから前記到着角及び前記距離を推定することを更に含み、
時間窓にわたる正解位置及び到着角－距離プロファイルのシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角－距離プロファイルのシーケンスは、前記到着角及び前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項３７に記載の装置。
前記コンピュータプログラムのプログラム命令は、リカレントニューラルネットワークに基づいて前記到着角を推定することを更に含み、
時間窓にわたる到着角プロファイルを伴う正解到着角のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記到着角プロファイルのシーケンスは、前記到着角の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項３７に記載の装置。
前記コンピュータプログラムのプログラム命令は、リカレントニューラルネットワークに基づいて前記距離を推定することを更に含み、
時間窓にわたる距離プロファイルを伴う正解距離のシーケンスを含む訓練トレース(trace)は、前記リカレントニューラルネットワークを訓練するために用いられ、
前記距離プロファイルのシーケンスは、前記距離の推定値を取得するために前記リカレントニューラルネットワークに適用される
ことを特徴とする請求項３７に記載の装置。
前記コンピュータプログラムの前記プログラム命令は、前記到着角－距離プロファイルにおける初期到着角－距離の組に対応する前記物体の初期位置を決定するために初期化を実行することを更に含むことを特徴とする請求項３７に記載の装置。
前記コンピュータプログラムの前記プログラム命令は、静的な背景反射を取り除くために、前記受信した音響信号に対して干渉除去を行うことを更に含むことを特徴とする請求項３７に記載の装置。
前記到着角－距離プロファイルは、２ＤＭＵＳＩＣアルゴリズムを用いて得られることを特徴とする請求項３７に記載の装置。
前記コンピュータプログラムの前記プログラム命令は、送信機と受信機の両方が静止しているときに、前記到着角－距離プロファイルにおけるピークの変化に基づいて前記音響信号の前記送信機と前記受信機との間の周波数オフセットを推定することを更に含み、
前記周波数オフセットは前記推定距離を調整するために用いられる
ことを特徴とする請求項３７に記載の装置。
前記装置は、前記一又は複数のマイクを備え、その配置は、相関性においてサイドピークとメインピークとの間のノイズマージンを最大にすることを特徴とする請求項３７に記載の装置。
前記コンピュータプログラムの前記プログラム命令は、時間領域におけるビームフォーミングを用いて信号対雑音比を増加させることを更に含むことを特徴とする請求項３７に記載の装置。
前記コンピュータプログラムの前記プログラム命令は、一又は複数の物体の位置に対応する前記到着角－距離プロファイルにおけるピークを識別することを更に含むことを特徴とする請求項３７に記載の装置。
前記物体は、モバイル機器、又は、ユーザの手、ユーザの体、財布、カード、カップ若しくは本を含む反射物を備えることを特徴とする請求項３７に記載の装置。
前記距離は、前記到着角－距離プロファイル又は距離プロファイルにおけるピークに基づいて推定されることを特徴とする請求項３７に記載の装置。
前記到着角は、前記到着角－距離プロファイル又は到着角プロファイルにおけるピークに基づいて推定されることを特徴とする請求項３７に記載の装置。
前記装置は、異なる組のマイクを用いて複数の到着角－距離対を推定し、前記推定された複数の到着角－距離対を３次元座標に変換することによって、対象物の２次元座標を３次元座標に変換することを特徴とする請求項３７に記載の装置。
前記物体の現在の位置を導出するために、前記物体の前回の位置の周りの特定サイズの領域に対応する２次元プロファイルが生成されて用いられることを特徴とする請求項３７に記載の装置。
装置を制御するコンピュータプログラムを記憶するメモリと、
当該メモリに接続されたプロセッサと、
を備え、
前記プロセッサは、前記コンピュータプログラムのプログラム命令を実行するように構成されており、
前記プログラム命令は、
前記装置内の一又は複数のマイクを用いて、ユーザに係る物体から送信された音響信号を受信することと、
前記受信した音響信号の少なくとも一部を、周波数が前記受信した音響信号の到着角及び伝播距離に比例する２次元正弦波に変換することと、
前記２次元正弦波の周波数を評価することによって、前記物体から受信した前記音響信号に基づいて到着角－距離プロファイルを導出することと、
前記到着角－距離プロファイルから、到着角－距離対を推定することと、
前記推定された到着角－距離対に基づいて、前記物体の現在の位置を決定することと、
前記物体の前回の位置及び現在の位置に基づいて、ユーザがコマンドを実行するために移動したかどうかを判定することと、
前記ユーザが前記コマンドを実行するために移動したとの判定に応答して、前記装置上でコマンドを実行することと、
を含む
ことを特徴とする装置。