JP6786762B2

JP6786762B2 - 画像収集部及び距離測定部を有する装置を制御する方法、及び装置

Info

Publication number: JP6786762B2
Application number: JP2018567118A
Authority: JP
Inventors: タン、ケタン; ゾウ、グユエ; グオ、ズオ
Original assignee: SZ DJI Technology Co Ltd
Current assignee: SZ DJI Technology Co Ltd
Priority date: 2016-08-05
Filing date: 2016-08-05
Publication date: 2020-11-18
Anticipated expiration: 2036-08-05
Also published as: US20210303005A1; US11691729B2; US11042167B2; EP3494449A4; CN109564432A; US20190155313A1; EP3494449A1; JP2019522853A; WO2018023727A1; CN109564432B

Description

本技術は、人間のジェスチャーから導かれる一連の指示に少なくとも部分的に基づいて無人機（ＵＡＶ）などの移動装置と通信するため又はそれを制御するための方法及び関連システムに一般的に関する。

従来、移動装置（ＵＡＶなど）は、一定のソフトウェアアプリケーションをインストールしたリモコン、コントロールスティック、又はモバイル機器などの遠隔装置により制御可能である。これらの制御方法は、すべて、付加制御装置を必要とする。このような制御装置を携行することは、ユーザーにとって不便な場合がある。たとえば、制御装置がかなりのかさを占めることがある。また一般的に、ユーザーは、移動装置を実際に制御できるようになる前に、ある程度の時間をかけてそれを制御する方法を学習しなければならない。言い換えると、移動装置を制御する付加制御装置の使用は、人間の直感にとって分かりにくく、ときにはユーザーによっては学習又は習熟が非常に困難である。したがって、直感的且つ簡単なユーザーコマンド又は命令により移動装置を制御するように方法及びシステムを改善する必要がある。

以下の概要は読者の便宜のためであり、開示する技術の代表的実施形態をいくつか紹介する。一般的に言えば、本技術は、操作者が簡単であり、習いやすく、直感的な方法により移動装置と通信すること及びそれを制御することを可能にするように改善された方法及び関連システムを提供する。より具体的には、本技術は、操作者がジェスチャー又は体の動きにより移動装置を制御すること及びそれと通信することを可能にする。付加制御装置は必要としない。関連システムは、先ず操作者に関連する情報を収集し、収集された情報に基づいてジェスチャーを識別し、次に、それに対応して移動装置を制御する命令を生成することができる。

本技術の代表的実施形態は、画像収集部及び距離測定部を有する移動装置を制御するための方法を含む。この方法は、操作者からの要求に応じて、画像収集部により操作者に対応する画像を生成するステップ及び距離測定部により操作者に対応する第１の一組の距離情報（たとえば、深度画像）を生成するステップを含む。この方法は、操作者に対応する画像の一部分（操作者の体の一部分の画像、操作者の画像、操作者又は操作者の体の一部分の輪郭、操作者又は操作者の体の一部分の境界線又は枠等）をさらに識別し、且つ、操作者に対応する画像の識別された部分に少なくとも部分的に基づいて第１の一組の距離情報から第２の一組の距離情報（たとえば、操作者の体の一部分に関連する深度画像の一部分）を取り出す。この方法は、次に、第２の一組の距離情報に少なくとも部分的に基づいて操作者に関連するジェスチャーを識別し、且つ、このジェスチャーに少なくとも部分的に基づいて装置に関する命令を生成する。

特定の実施形態において、移動装置はＵＡＶとすることができる。一部の実施形態では、画像収集部は、カラー画像を収集するために使用できるカラー感知カメラ（たとえば、赤、緑、青（ＲＧＢ）のピクセルを有するもの）とすることができる。他の実施形態においては、画像収集部は、様々な種類の画像を収集するカメラ（たとえば、温度／赤外線カメラ、暗視カメラ等）とすることができる。一部の実施形態では、距離測定部は、距離センサー（たとえば、飛行時間（ＴｏＦ）センサー）に基づいて距離を測定するために使用できる距離感知カメラ又は深度感知カメラとすることができる。特定の実施形態では、収集される画像は２次元カラー画像とすることができる。一部の実施形態では、第１の一組の距離情報は２次元深度画像とすることができる。たとえば、深度画像は、被測定物体（操作者など）と距離センサーとの間の種々の距離を示す様々な種類の濃淡を有することができる。カラーカメラ及び距離カメラの分解能に関する制約のために、それらの１つのみを使用してジェスチャーを識別することは、ときとして困難である。特定の実施形態では、関連システムは、２次元カラー画像及び深度画像を分析又は比較し、そして操作者のジェスチャーを効果的に識別することができる。

特定の実施形態では、識別されるジェスチャーは、肢ジェスチャー、腕ジェスチャー、手ジェスチャー、指ジェスチャー等を含むことができる。関連システムは、これらの識別されたジェスチャーを分析し、且つ、それらと移動装置を制御するために使用し得る対応命令を関連付けることができる。たとえば、操作者は、自分の腕を一定方向に置くことにより移動装置に同一方向に動くよう指示することができる。そうすることにより、移動装置の制御及びそれとの通信が便利且つ直感的となり、且つ、付加制御装置を必要としない。

本技術の一部の実施形態は、ＵＡＶ制御装置を構成する方法として実現することができる。これらの方法は、実行されたときに操作者に対応する画像及び操作者に対応する第１の一組の距離情報を生成し得る命令群によりコンピュータ可読媒体をプログラムするステップを含むことができる。これらの命令は、操作者に対応する画像の一部分を識別し、且つ、操作者に対応する画像の識別された部分に少なくとも部分的に基づいて第１の一組の距離情報から第２の一組の距離情報を取り出すことができる。これらの命令は、第２の一組の距離情報に基づいて操作者に関連するジェスチャーを識別し、且つ、このジェスチャーに基づいてＵＡＶを制御するための命令を生成することができる。かかる方法は、上述した前記の部のいずれか１つ又はそれらの組み合わせを含むことができる。

図１は、本技術の代表的実施形態に従って操作者がジェスチャーによりＵＡＶを制御することを可能にする制御システムを備えるＵＡＶの部分概略等角図である。図２は、本技術の代表的実施形態によるシステムを示す部分概略ブロック図である。図３Ａは、本技術の代表的実施形態による画像カメラ及び距離カメラの視野角を示す部分概略図である。図３Ｂは、本技術の代表的実施形態によるクレードル角に基づく深度画像調整を示す部分概略図である。図３Ｃは、本技術の代表的実施形態によるクレードル角に基づく深度画像調整を示す部分概略図である。図３Ｄは、クレードル角に基づく深度画像調整ありの深度画像となしの深度画像との間の差違を示すスクリーンショット図である。図３Ｅは、クレードル角に基づく深度画像調整ありの深度画像となしの深度画像との間の差違を示すスクリーンショット図である。図４Ａは、本技術の代表的実施形態による画像収集部により収集された画像を示す部分概略図である。図４Ｂは、本技術の代表的実施形態による距離測定部により作成された画像を示す部分概略図である。図５は、本技術の代表的実施形態による操作者に関連するジェスチャーを示す部分概略図である。図６は、本技術の代表的実施形態に従って移動装置を制御する方法の実施形態を示すフローチャートである。図７は、本技術の代表的実施形態に従って移動装置を制御する別の方法の実施形態を示すフローチャートである。

１．概要
本技術は、人間のジェスチャーから導かれる一連の所定の命令に基づいて無人機の（ＵＡＶ）のような移動装置と通信するか又はそれを制御する（又はそれらの両方の）ための方法及び関連システムに一般的に関する。特定の実施形態においては、ＵＡＶは、操作者に対応するカラー画像を収集するように構成された画像収集部及びＵＡＶと操作者との間の距離を測定するように構成された距離測定部を含む。収集されたカラー画像中において、操作者のジェスチャーを示す体の一部分を識別することができる。次に本技術は、測定された距離情報に基づいてジェスチャーを識別し、且つ、確認することができる。本技術は、次に、ＵＡＶを制御するための命令を導くことができる。特定の実施形態において、この命令は機械学習プロセス又は学習クラシファイアにより形成することができる。

一部の実施形態においては、バウンディングボックスを使用して体の一部分を識別することができる。たとえば、バウンディングボックスは、長方形の画像枠とすることができる。操作者に関連する画像部分の近くにバウンディングボックスを置くことにより、本技術は、ＵＡＶを制御する操作者のジェスチャーを示すことになっている体の一部分を容易且つ迅速に識別することができる。

収集されたカラー画像情報及び測定された距離情報を一定の方法により関連付けること又は結びつけることができる。たとえば、収集されるカラー画像は、水平軸Ｘ及び垂直軸Ｙにより定義される２次元画像とすることができる。２次元画像中の各点（たとえば、ピクセル）は２つの軸により識別され、且つ、一組のカラー情報（たとえば、ＲＧＢ構成）に関連付けることができる。同様に、測定される距離情報は、同じ水平軸Ｘ及び垂直軸Ｙにより定義される２次元深度マップとすることができる（たとえば、画像収集部及び距離測定部を起動するときに一定の位置合わせを行うことができる）。２次元深度マップ中の各点（たとえば、ピクセル）は２本の軸により識別され、且つ、一組の距離情報に関連付けられ得る（たとえば、ＵＡＶと操作者との間の距離を示すために種々の濃淡又はカラーを使用する）。次に本技術は、識別された体の一部分に関連付けられた一組の対応距離情報を識別することができる。体の一部分のカラー画像情報と深度情報の両方を分析することにより、本技術は操作者のジェスチャーを識別することができる。

一部の実施形態では、ジェスチャーが識別された後、本技術は操作者のジェスチャーの種類を分析し、且つ、決定することができる。たとえば、関連システムは、ジェスチャーに関連する収集された画像情報及び測定された距離情報を分析し、続いて識別されたジェスチャーの種類を決定することができる。たとえば、関連システムは、収集された画像及び測定された距離情報を既存データベース中に格納されている基準情報又は所定のデータセット（たとえば、リモートデータベース又はシステム中のデータ格納装置とすることができる）と比較することができる。基準情報は、様々な種類のジェスチャー（たとえば、肢ジェスチャー、腕ジェスチャー、手ジェスチャー、指ジェスチャー等）に対応する種々の特徴を含み得る。たとえば、腕のジェスチャーは、手のジェスチャーの特徴とは異なる特徴を含むことができる（たとえば、腕ジェスチャーは、より広い範囲の距離変化を有し得る）。

一部の実施形態では、関連システムは、特定の種類のジェスチャーを優先ジェスチャーとして識別するように構成され得る。ある種類の優先ジェスチャーを決定するときに考慮する１つの要因は、移動装置と操作者との間の距離である。たとえば、移動装置と操作者との間の距離が所定の範囲（たとえば、０．５〜１メートル）内にあるか又は閾値（たとえば、２メートル）未満である場合、システムは、「手ジェスチャー」を優先ジェスチャーとして選択することができる（すなわち短距離モードにおいて）。これは、システムが操作者の腕全体の画像を収集する可能性より操作者の手全体の画像を収集する可能性が高いからである。たとえば、短距離の場合、画像収集部が腕ジェスチャーの一部分のみ捕捉することがあり得る。同様に、移動装置と操作者との間の距離が所定の距離より長い場合、システムは、「腕ジェスチャー」を優先ジェスチャーとして選択することができる（すなわち長距離モードにおいて）。これは、システムが操作者の手に対応する高品質（たとえば、高分解能）画像を収集することができないかもしれないからである。そうすることにより、本技術は、操作者が種々の距離範囲において識別されたジェスチャーに基づいて効果的に移動装置を制御し、且つ、それと通信することを可能にする。

特定の実施形態においては、操作者が移動装置の制御又はそれとの通信を実際に開始する前に、操作者は自分のジェスチャーに基づいて関連システムに要求を送ることができる。たとえば、操作者は、自分の腕を上げて振ることにより関連システムに対する要求を形成することができる。操作者のジェスチャー要求を識別した後に（たとえば、操作者に対応する収集された画像及び測定された距離情報を分析することにより）、関連システムは、操作者が移動装置を制御することを可能にすることができる。一部の実施形態は、関連システムは、一定のジェスチャーを認識することにより操作者の正体を検証することができる。たとえば、操作者は、関連システムを「解錠する」ために所定のジェスチャー（又はジェスチャーの組み合わせ）を演ずる必要があるかもしれない。この機能は、関連システム及び移動装置のセキュリティを強化することができる。別の実施形態では、関連システムは、システムに関連付けられているセキュリティ機器（たとえば、顔認識装置、指紋読み取り装置、音声認識装置等）に基づいてユーザーの正体を検証することができる。

一部の実施形態では、本技術の関連システムは、付加制御装置（移動装置を制御するように設計された特定のアプリケーションをインストールしたスマートフォン、移動装置のためのリモコンスティック等）と共同動作することができる。一部の実施形態では、操作者は、付加制御装置経由で選択又は確認され得る（たとえば、スマートフォンにインストールされたアプリケーションにより与えられるユーザーインターフェース経由）。一部の実施形態では、操作者の正体は付加制御装置（たとえば、付加制御装置に関連付けられたセキュリティ機器）により検証され得る。

本技術は、関連システムが操作者のジェスチャーに関連付けられた一組の基準情報及び対応する命令又はコマンドを機械学習プロセス（又は学習クラシファイア）により生成することを可能にすることもできる。機械学習プロセスの例は、畳み込みニューラルネットワーク（ＣＮＮ）シミュレーション、ランダムフォレスト（ＲＦ）計算、有限状態機械（ＦＳＭ）オートマトン等に関連付けられた方法／アルゴリズムを含む。学習プロセスは、一連の命令を含むプログラムチップ、コンピュータアプリケーション、スマートフォンアプリケーション、ソフトウェア、ファームウェア等を含むがそれらのみに限られない特定学習コンポーネントにより遂行され得る。

特定の実施形態では、本技術は、移動装置に関する命令を生成する前に識別されたジェスチャーを検証することができる。たとえば、このシステムは、識別されたジェスチャーに関連付けられた画像（たとえば、それはカラー画像又は距離画像のいずれでもよい）を一定期間にわたり追跡し、且つ、記憶することができる。一部の実施形態では、これらの画像は関連システムのデータ記憶装置（たとえば、メモリ、ディスクドライブ、フラッシュドライブ、論理区画、バッファ等）に格納され得る。本技術は、これらの記憶された画像を分析し、且つ、これらの画像から導かれるジェスチャー群の整合性をチェックすることができる。たとえば、操作者が不注意にあるジェスチャーを行ったが、当人は移動装置を制御するジェスチャーを演ずることは意図していなかったということがあり得る。この整合性分析は、関連システムによる制御の正確性を向上させ、したがってユーザーにより良い使用経験を与えることができる。

在来のシステムと異なり、本技術の特徴は、付加制御装置を必要とせずに操作者が移動装置を制御し、それと相互作用し、且つ、通信できるようにすることを狙いとしている（しかし、関連システムは、上述したように、付加制御装置と共同動作することができる）。したがって、この方法は、移動装置の操作性を改善することができ、よって在来の方法に比べてより快適な使用体験をユーザーに与える。より具体的には、本技術は、操作者が自己のジェスチャーにより移動装置を制御することを可能にする。ジェスチャーは、操作者に関連付けられる収集された画像及び距離情報に基づいて識別され、且つ、分析され得る。収集された画像と距離情報を相互参照することにより、本技術は移動装置を制御するための命令群を効果的に生成することができる。

ＵＡＶ及びそれに対応するシステムとサブシステムにしばしば関連する構造又はプロセスに関する種々の詳細記述がよく知られているが、それはここで開示される技術の重要な特徴を不必要に曖昧にする恐れがあるので、以下の記述においては取り上げないこととする。さらに、以下の開示は本技術の種々の側面に関わる数件の実施形態を明示するが、他の数件の実施形態はこの節において記述される要素とは異なる構造又は異なる部を有し得る。したがって、本技術は、付加要素を伴う他の実施形態をとるか、又は図１〜７を参照して以下において記述される数点の要素を伴わない他の実施形態をとることがあり得る。

図１〜７は、開示される技術の代表的実施形態を示すものである。別段の指定のない限り、これらの図は本出願における請求の範囲の制限を意図するものではない。

以下において記述される技術の多くの実施形態は、プログラム可能なコンピュータ又は制御装置により実行されるルーチンを含むコンピュータ又は制御装置により実行可能な命令の形態を取り得る。関連技術における当業者は、以下において示され、且つ、説明されるシステム以外のコンピュータシステム又は制御装置システムにより本技術が実施可能であることを認識することとなる。本技術は、以下において記述されるコンピュータ実行可能命令群の１つ又は複数を実行するように特別にプログラムされるか、構成されるか又は構築される専用コンピュータ又はデータプロセッサにおいて具体化され得る。したがって、本出願において広く使用される用語、「コンピュータ」及び「制御装置」は、どのようなデータプロセッサも指し、且つ、インターネットアプライアンス及び携帯機器（パームトップコンピュータ、ウェアラブルコンピュータ、セルラー電話機又は携帯電話機、マルチプロセッサシステム、プロセッサ応用又はプログラム可能消費者家電製品、ネットワークコンピュータ、ミニコン、プログラム組込コンピュータチップ等を含む）を含み得る。これらのコンピュータ及び制御装置により取り扱われる情報は、ＣＲＴディスプレイ又はＬＣＤを含む任意の適切な表示媒体により表示され得る。コンピュータ又は制御装置により実行可能なタスクを実行するための命令は、ハードウェア、ファームウェア又はハードウェアとファームウェアの組み合わせを含む任意の適切なコンピュータ読み取り可能な媒体に記憶され得る。命令は、たとえば、フラッシュドライブ、ＵＳＢ機器又はその他の適切な媒体を含む任意の適切な記憶装置に格納され得る。特定の実施形態において、用語、「部」は、ハードウェア、ファームウェア、又はコンピュータ読み取り可能な媒体に格納された一連の命令を指し得る。

２．代表的実施形態
図１は、本技術の実施形態に従って構成された代表的ＵＡＶ１００の部分概略等角図である。ＵＡＶ１００は機体１１０を含み得る。この機体は中心部分及び１つ又は複数の外側部分を含み得る。特定の実施形態において、機体１１０は４つ外側部分（たとえばアーム）を含み得る。これらの外側部分は中心部分から広がるようにお互いに離間配置される。別の実施形態においては、機体１１０は、上記と異なる個数の外側部分を含み得る。これらの実施形態のいずれにおいても、個々の外側部分は、ＵＡＶ１００を駆動する推進システムの部を支持することができる。たとえば、個々のアームは、対応するプロペラ１０６を駆動する個々の対応動力装置を支持することができる。

機体１１０は、搭載物１０４、たとえば、撮像装置を搭載することができる。特定の実施形態では、撮像装置は、画像カメラ（たとえば、ビデオデータ、静止画データ、又は両方を捕捉するように構成されたカメラ）及び距離カメラ（たとえば、２つの物体間の距離を測定できる飛行時間（ＴｏＦ）センサーなどの距離センサーを有するカメラ）を含み得る。画像カメラは、可視光線、紫外線、赤外線又はそれらの組み合わせを含む種々の適切な波長帯のいずれにおける波長にも感応し得る。さらに別の実施形態では、搭載物１０４は、他の種類のセンサー、他の種類の積み荷（たとえば、小包又はその他の配送品）、又は両方を含み得る。多数のこれらの実施形態において、搭載物１０４は、ジンバル１０２により機体１１０に対して相対的に支持される。このジンバルは、搭載物が機体１１０に対して独立して位置付けられることを可能にする。したがって、たとえば搭載物１０４が撮像装置１３１を含む場合、撮像装置は標的を追跡するために機体１１０に対して相対的に移動され得る。より具体的には、たとえば、撮像装置は機体１１０に対して相対的に（又は水平面のような他の基準平面に対して相対的に）ある角度だけ（「クレードル角度」と呼ばれる）回転され得る。一部の実施形態では、画像装置により収集された画像はクレードル角度に基づいて調整され得る。関連画像調整については、以下において図３Ｂ及び３Ｃを参照してより詳しく説明する。ＵＡＶ１００が飛行していないときには、着陸装置がＵＡＶ１００を搭載物１０４を保護する位置に支持することができる。

代表的な実施形態において、ＵＡＶ１００は、ＵＡＶ１００に搭載される制御装置１０８を含む。制御装置１０８は、推進システム及び撮像装置の動作を含むがそれらのみに限られない動作を含むＵＡＶ１００の作動を指示する命令を実行する搭載コンピュータの読み取り可能な媒体１０３を含み得る。特定の実施形態では、操作者は、画像装置により識別される自分のジェスチャーによりＵＡＶ１００を遠隔制御することができる。ジェスチャー識別に関する実施形態については、以下においてより詳細に説明する。搭載コンピュータの読み取り可能な媒体１０３は、ＵＡＶ１００から取り外すことができる。

図２は、本技術の代表的実施形態に従って構成されたシステム２００を示す部分概略ブロック図である。一部の実施形態においては、システム２００は、システム２００の部に関連付けられる情報／命令を格納するコンピュータ読み取り可能な媒体を有する装置とすることができる。特定の実施形態では、システム２００は、操作者２０から画像情報及び距離情報を収集するように構成される。収集された画像及び距離情報は、システムに関連付けられている移動装置（ＵＡＶなど）を制御するために使用される。一部の実施形態では、システム２００は移動装置による実装又は搭載が可能である。別の実施形態では、システム２００（又はシステム２００の一部）は移動装置から離れた場所、たとえば、遠隔プロセッサ位置に設置し得る。図２に示すように、システム２００は、プロセッサ２０１、記憶部２０２、画像部２０３、距離測定部２０５、分析部２０７、検証部２０９、及び命令生成部２１１を含んでいる。図示されているように、プロセッサ２０１は、システム２００の他の部と結合され、且つ、それらを制御するように構成されている。記憶部２０２は、システム２００により収集又は生成された情報を永久的又は一時的に記憶するように構成されている。特定の実施形態では、記憶部２０２は、ディスクドライブ、ハードディスク、フラッシュドライブ、メモリ等を含み得る。

画像部２０３は、システム２００の外部の画像を収集するように構成されている。特定の実施形態では、画像部２０３は、操作者２０に対応する画像を収集するように構成されている。一部の実施形態では、画像部２０３は、赤、緑、及び青（ＲＧＢ）のピクセルを有する２次元画像を収集できるカメラとすることができる（２次元画像の例については、さらに以下において図４Ａを参照して説明する）。収集された画像は、その後の処理／分析のために記憶部２０２に格納され得る。別の実施形態では、画像部２０３は、サーマル画像カメラ、暗視カメラ、又は操作者に対応する画像を収集できるその他の適切な装置とすることができる。

特定の実施形態では、距離測定部２０５は、操作者２０とシステム２００との間の距離を測定するように構成される。一部の実施形態では、距離測定部２０５は、適切な信号（光、レーザー等）を発射／受信することにより物体間の距離を測定する飛行時間（ＴｏＦ）センサーを含み得る。一部の実施形態では、距離測定部２０５は、距離カメラとするか、又はそれを含むことができる。別の実施形態では、距離測定部２０５は、操作者２０に関連する２次元距離／深度画像を生成することができる適切な装置とするか、又はそれを含むことができる。２次元距離／深度画像の例については、さらに以下において図４Ｂを参照して説明する。収集された距離情報は、その後の処理／分析のために記憶装置２０２に格納され得る。

収集された画像情報及び測定された距離情報を結合するか又は関連付けることにより、システム２００が両方を利用して操作者のジェスチャーを識別すること（及びオプションとして検証すること）ができるようにする。たとえば、一部の実施形態では、収集された２次元画像の座標軸を２次元距離／深度画像の座標軸と関連付けることができる。それにより、システムは、収集された画像中に位置する任意のピクセルの距離情報を得ること、及びその逆の情報を得ることができる（すなわち、システムは、距離／深度画像中の任意のピクセルのカラー情報を得ることができる）。関連実施形態については、以下において図４Ａ及び４Ｂを参照して詳しく説明する。

特定の実施形態では、分析部２０７は、操作者２０に対応する収集された画像情報及び測定された距離情報を分析するように構成される。システム２００は、収集された画像中の操作者を先ず識別する。一部の実施形態では、収集された画像中の操作者はピクセル分析により識別され得る（たとえば、操作者に対応するピクセルを画像背景に対応するピクセルから区別する）。一部の実施形態では、収集された画像中の操作者は、体の輪郭に基づいて識別され得る（たとえば、サーマル画像におけるユーザーに対応する体の輪郭）。一部の実施形態では、収集された画像中の操作者は、バウンディングボックスを収集された画像上に位置付けること（又は重ねること）により識別され得る（たとえば、図４Ａ及び４Ｂに示すバウンディングボックス、以下においてより詳しく説明する）。このような実施形態では、バウンディングボックスを使用することによりシステム２００は、さらに、収集された画像中の操作者のジェスチャーを識別することができる。たとえば、分析部２０７は、識別される操作者画像部分の境界線とバウンディングボックスとの間の交差（たとえば、図４Ａにおける交差４０９）に基づいてジェスチャーを識別することができる（詳細は以下において図４Ａ及び４Ｂを参照して説明する）。

収集された画像中の操作者が識別された後、一部の実施形態では、分析部２０７は、操作者に対応する測定された距離情報（たとえば、２次元深度画像全体の一部分）を分析して操作者のジェスチャーを識別することができる。たとえば、分析部２０７は、２次元深度画像中の操作者の体のいくつかの部分（たとえば、頭、肩、腕、関節、脚、手、足、指等）を先ず識別することができる。分析部２０７は、次にジェスチャーを識別することができる。一部の実施形態では、分析部２０７は、特定の種類のジェスチャーを予期することができる。たとえば、分析部２０７は、システム２００が長距離モードにあるときに、腕のジェスチャーの識別に集中することができる。別の例として、分析部２０７は、システム２００が短距離モードにあるときに、手のジェスチャーの識別に集中することができる。一部の実施形態では、分析部２０７は、ＣＮＮシミュレーション、ＲＦ計算、ＦＳＭオートマトン等を含む機械学習プロセスに基づいて操作者のジェスチャーを識別することができる。

ジェスチャーが識別された後、識別されたジェスチャーに関連する距離／深度情報は、命令生成部２１１によりさらに処理される。一部の実施形態では、命令生成部２１１は、ＣＮＮシミュレーション、ＲＦ計算、ＦＳＭオートマトン等を含む学習プロセスに基づいて又は学習クラシファイアに基づいて命令を生成することができる。

特定の実施形態では、検証部２０９は、識別されたジェスチャーの整合性を検証するように構成される。検証部２０９は、識別されたジェスチャーに関する画像（たとえば、カラー画像と深度画像の両方を含む）を一定期間にわたり（たとえば、１〜５秒）先ず追跡し、且つ、これらの画像を記憶する（たとえば、多数の関連画像フレーム及び距離画像フレームを記憶する）ことができる。検証部２０９は、記憶された画像を分析してこれらの画像中の識別されたジェスチャーが１つのフレームから別のフレームへ一貫しているか否か判定することができる。一貫している場合、システム２００は、識別されたジェスチャーに基づいて対応する命令を形成する命令生成部２１１の動作を進めることができる。一貫していない場合、システム２００は、操作者に通知するか（たとえば、「ジェスチャーが識別され得ない」ことを示す可視又は可聴信号により）又は別のジェスチャーの識別に進むことができる。一部の実施形態では、検証部２０９は、識別されたジェスチャーを（リモート又はローカル）データベースに格納されている基準情報（たとえば、多数の操作者の手ジェスチャー深度情報の基準群）と比較することによりそれを検証することができる。検証部２０９は、システム２００により行われるジェスチャー識別プロセス及びその結果の命令生成プロセスの正確性を確保するために利用制限タスクを行う。

図３Ａは、本技術の代表的実施形態による画像カメラ３０１及び距離カメラ３０３の視野角を示す概略図である。特定の実施形態では、画像カメラ３０１は、操作者３０の画像３０２（たとえば、ＲＧＢピクセルによるカラー画像）又は操作者３０に対応する画像３０２を収集するように構成される。収集される画像３０２は、水平角（たとえば、図３Ａにおける角Ａ_ｈ）、垂直角（たとえば、図３Ａにおける角Ａ_ｖ）、又は対角（たとえば図３Ａにおける角Ａ_ｄ）に基づいて測定され得る第１視野角において画像カメラ３０１により生成される。より具体的には、画像３０２を収集する画像カメラ３０１の第１視野角は、画像３０２がどのように見えるか、及び操作者３０が画像３０２のどこに位置を占めるかを決定する（たとえば、操作者３０は画像の中心に位置し、且つ、画像３０２の合計画像面積の１／２又は１／４を占め得る）。

距離カメラ３０３（たとえば、ＴｏＦセンサーなどの距離センサーを有する装置）は、距離カメラ３０３と操作者３０との間の距離を測定するように構成される。測定された距離情報は、深度マップ３０４として表現され得る（たとえば、濃淡又はカラーを使用して距離カメラ３０３と被測定物体との間の距離を示す）。深度マップ３０４は、水平角（たとえば、図３Ａにおける角Ｂ_ｈ）、垂直角（たとえば、図３Ａにおける角Ｂ_ｖ）、又は対角（たとえば図３Ａにおける角Ｂ_ｄ）に基づいて測定され得る第２視野角において距離カメラ３０１により生成される。より具体的には、距離を測定するために使用される距離カメラ３０３の第２視野角は、深度マップ３０４の大きさ（たとえば、深度マップの分解能に依存するピクセルの個数）及び操作者３０が深度マップ３０４のどこに位置を占めるか決定する。

図３Ａに示した特定の実施形態において、画像カメラ３０１及び距離カメラ３０３は一般的に同じ位置に置かれ（たとえば、お互いに隣接するか、又は図１を参照して上述した画像カメラ１３１のように同一装置内に併置される）、また、第１視野角と第２視野角は少なくとも近似的に同じである。したがって収集された画像３０２と深度マップ３０４は、一般的に同一座標軸（たとえば図３Ａに示されているＸ軸及びＹ軸）を有し得る。これらは、収集された画像３０２及び深度マップ３０４のピクセルを識別するために使用される。たとえば、収集された画像３０２内の任意の位置に基づいて（たとえば、ジェスチャーに対応するピクセル）、対応する深度情報（たとえば、ジェスチャーに対応する深度情報）を迅速に取り出すことができる。同様に深度マップ３０４内の任意の位置に基づいて、収集された画像３０２内の対応する画像部分を容易に求めることができる。

一部の実施形態では、第１視野角と第２視野角をほぼ同一とする必要はない。かかる実施形態では、収集された画像３０２及び深度マップ３０４の座標軸を相互参照できるように、これらを結合するか又は関連付ける（たとえば、変換により）ことができる。一部の実施形態では、収集された画像３０２及び深度マップ３０４の座標軸は、以下の等式に基づいて結合するか又は関連付けることができる。

上記の等式（１）において、（ｕ_１，ｖ_１）は収集された画像３０２の座標であり、且つ、（ｕ_２，ｖ_２）は深度画像３０４の座標である。パラメータＫ_１及びＫ_２は内部基準行列である。パラメータＲ及びＴは、画像カメラ３０１との関係における距離カメラ３０３の回転及び並進を表す係数である。パラメータαは比率パラメータである。上の等式において、パラメータＫ_１、Ｋ_２及びＴは一定であり、且つ、実証的研究に基づいて計算され得る（たとえば、この等式における一連の既知の座標に基づいて未知パラメータを計算することにより）。クレードル角度（水平面からの回転を示す角度であり、たとえば図３Ｃにおける角度θ）がゼロである場合、パラメータＲは単位行列である。上の等式（１）に基づいて、収集された画像３０２及び深度画像３０４の座標軸を結合するか又は関連付けることができる。

特定の実施形態において、本技術は、収集された画像３０２及び深度マップ３０４の分解能を分析すること（「分解能分析」と呼ばれる）により、収集された画像３０２及び深度マップ３０４の分析方法を決定することができる。たとえば、収集された画像３０２が比較的高い分解能を有しており、そのためにシステムが操作者３０のジェスチャーを当初に識別できる実施形態の場合、システムは、収集された画像３０２のみに基づいて当該ジェスチャーを先ず識別し、次に識別されたジェスチャーを検証するために深度マップ３０４を使用することができる。同様に、深度マップ３０４が比較的高い分解能を有しており、そのためにシステムが操作者３０のジェスチャーを当初に識別できる実施形態の場合、システムは、深度マップ３０４のみに基づいて当該ジェスチャーを先ず識別し、次に識別されたジェスチャーを検証するために収集された画像３０２を使用することができる。この構成により、本技術は、種々の分解能を有する様々な種類の（画像又は距離）カメラにより実現され得る。

図３Ｂ及び３Ｃは、本技術の代表的な実施形態によるクレードル角度θに基づく深度画像調整を示す部分概略図である。図３Ｂにおいて、クレードル角度θはゼロであり、これは距離カメラ３０５の光軸が水平面に平行であることを意味する。かかる実施形態では、操作者３０の基本深度画像は、操作者の画像全体にわたりほぼ同じであり、したがって操作者３０のジェスチャーにより引き起こされた深度変化は容易に識別され得る。よって、かかる実施形態の場合には、クレードル角度θに基づく深度画像調整を行う必要はない。しかし、３Ｃに示した実施形態においては、距離カメラ３０５の光軸は水平面と一定の角度（すなわち、クレードル角度θ）を形成している。その結果、操作者３０の深度画像を撮るとき、操作者３０の基本深度画像は操作者の画像全体にわたって同じではなく（たとえば、それは操作者の頭からつま先にかけて増大する）、したがって操作者３０のジェスチャーにより引き起こされる深度変化は容易に識別できない。

この深度画像は以下の等式（２）により調整され得る。当初の深度画像中の点は、Ｐ＝（ｕ，ｖ，ｚ）として表すことができる。パラメータｕは深度画像のＸ軸（たとえば、図３Ａにおいて示したＸ軸）の値を表し、また、パラメータｖは深度画像のＹ軸（たとえば、図３Ａにおいて示したＹ軸）の値を表す。パラメータｚは深度マップにおける深度値を表す。パラメータＳはＳｉｎ θを表し、パラメータＣはＣｏｓ θを表し、そしてパラメータｆは回転行列の係数である。調整された点
は、（ｕ，ｖ，ｚ'）として表すことができる。言い換えると、深度値ｚは、深度画像調整後にｚ'により置き換えることができる。理論にとらわれずに、深度画像調整は、深度画像調整なしの場合より、深度画像によるジェスチャーの識別において良い結果を与えると考えることができる。

図３Ｄ及び図３Ｅは、深度画像調整の実施前及び後の画像を示す。図３Ｄは深度画像調整なしの当初の深度マップであり、また、図３Ｅは調整された深度値（たとえば、（ｚ'）を有する調整後の深度マップである。図３Ｄ／図３Ｅは、閾深度値に基づく深度マップにおいて決定されている。たとえば、図３Ｄ／図３Ｅは低深度閾値（Ｄ_ｍｉｎ）から高閾深度値（Ｄ_ｍａｘ）までのピクセルから構成されている。図示されているように、図３Ｅにおける操作者の腕のジェスチャーは、図３Ｄにおけるジェスチャーより明瞭である。

図４Ａ及び４Ｂは、本技術の代表的実施形態による画像収集部及び距離測定部により収集された画像を示す部分概略図である。図４Ａは、操作者（たとえば、前出した操作者２０又は３０）に対応する画像部分４０３及び背景画像部分４０５を有するカラー画像４０２を示している。図４Ｂは、操作者に対応する深度画像部分４０６及び背景画像部分４０８を有する深度マップ４０４を示している。深度マップ４０４における種々の濃淡が距離カメラと被測定物体（たとえば、操作者、背景構造物等）間の種々の距離を反映していることに注意されたい。カラー画像４０２及び深度マップ４０４の座標は結合されるか又は関連付けられ（前述したように）、その結果、これらは容易に相互参照可能である。

図４Ａ及び４Ｂに示したように、画像部分４０３は、カラー画像４０２においてバウンディングボックス４０７により識別され得る。一部の実施形態では、関連システム（たとえば、システム２００）は、バウンディングボックス４０７をカラー画像４０２の上に置く（又は重ねる）ことにより、操作者に対応する画像部分４０３の少なくとも一部がバウンディングボックス４０７により囲まれるようにすることができる。このシステムは、次に、画像部分４０３とバウンディングボックス４０７との間の交差４０９を識別することによりカラー画像４０２中の操作者の体の一部分（たとえば、肩関節又は腕）を識別することができる。このシステムは、交差４０９に基づいてジェスチャーを識別することができる。

特定の実施形態では、バウンディングボックス４０７は矩形状である。一部の実施形態では、バウンディングボックス４０７は楕円形とすることができる。別の実施形態では、バウンディングボックス４０７は、正方形、円等の種々の形状とすることができる。一部の実施形態では、バウンディングボックス４０７は、ユーザー入力に基づいて生成され得る（たとえば、ユーザーがユーザーインターフェース経由で多数の候補から１人の操作者を識別する）。一部の実施形態では、バウンディングボックス４０７は、カラー画像４０２の分析に基づいてシステムにより生成され得る（たとえば、特定の種類の衣服を着用している人間操作者に関連する画像部分を自動的に認識するために）。一部の実施形態では、システムは対象分析を行うことができ（たとえば、分析される対象にとって望ましい形状の概略を把握するために）、それに従ってバウンディングボックス４０７の形状を決定することができる（たとえば、直立人間作業者の場合に垂直矩形のバウンディングボックスを選択する）。

交差４０９が識別された後、システムは深度マップ４０４に取りかかり、操作者に対応する深度情報を得ることができる（たとえば、腕の深度画像部分４１０）。システムは、さらに、操作者の体の他の部分（たとえば、頭、肩、手、関節等）の相対的位置及び対応する深度分析に基づいて操作者の体のこれらの部分を識別し得る。したがって、カラー画像４０２及び深度マップ４０４を相互参照することにより、システムは操作者の体による様々な種類のジェスチャーを効果的に識別することができる。別の実施形態では、システムは先ずバウンディングボックス４０７を深度マップ４０４の上に置き、次に上述と同様な方法によりカラー画像４０２においてジェスチャーの画像を得ることができる。

一部の実施形態では、たとえば、システムは先ずカラー画像２０２を使用してバウンディングボックス４０７を識別することができる（たとえば、カラー画像２０２における交差４０９を識別することなく）。システムは、識別したバウンディングボックス４０７を深度マップ４０４に「マップし」、次に深度画像部分４０６とバウンディングボックス４０７との間の交差４０９ｄを識別することができる。システムは、次に交差４０９ｄに基づいてジェスチャーを識別することができる。特定の実施形態では、交差４０９は操作者の肩関節を表すことができる。システムが操作者の肩関節の位置を特定した後、システムは、さらに、少なくとも部分的に深度画像部分４０６の分析に基づいて体の他の部分の位置を特定することができる。特定の実施形態では、システムは、深度画像部分４０６又はバウンディングボックス４０７に対応する深度情報に基づいて操作者の中心点を決定することができる。たとえば、システムは、バウンディングボックス４０７の上側２／３の部分における深度画像部分４０６に対応する深度ピクセルの座標を平均することにより操作者の中心点を決定することができる。操作者の中心点を決定した後、システムは次に中心点との関係における操作者の体の他の部分（たとえば、頭、腕、手等）の相対的位置に基づいてそれらを決定することができる。体のこれらの部分の位置を特定した後、システムは次に関連する画像情報及び距離情報に基づいて対応するジェスチャーを識別することができる。

一部の実施形態では、このシステムは、閾深度値に基づいて深度マップ４０４において操作者に対応する深度画像部分４０６を決定することができる。たとえば、システムは、低深度閾値（Ｄ_ｍｉｎ）から高閾深度値（Ｄ_ｍａｘ）までのピクセルを操作者に対応する深度画像部分４０６と見做すことができる。一部の実施形態では、低深度閾値及び高閾深度値は、ＴｏＦセンサーの特性、背景深度情報、測定環境等を含む種々の要因に基づいて決定され得る。

一部の実施形態では、Ｄ_ｍｉｎ及びＤ_ｍａｘは、下の等式（３）及び等式（４）に基づいて決定することができる。Ｄ_ｂｏｄｙは操作者の代表的深度を示す。一部の実施形態では、Ｄ_ｂｏｄｙは、深度マップにおいて操作者の決定された中心点に基づいて求めることができる（たとえば、システムは、決定された中心点に対応する深度情報を深度マップにおいて検索することによりＤ_ｂｏｄｙを得ることができる）。一部の実施形態では、Ｄ_ｂｏｄｙは、深度画像部分４０６又はバウンディングボックス４０７（又はその一部）に対応する深度情報を平均することにより得ることができる。等式（３）及び（４）において使用される長さの単位はメートルである。パラメータ"０．４"は、人体の平均深度に関する実証的研究に基づいて決定されている。パラメータ"０．５"は、システムにおける距離センサーの種類に応じて変わり得る。
Ｄ_ｍｉｎ＝ｍａｘ（０，Ｄ_ｂｏｄｙ−０．４）等式（３）
Ｄ_ｍａｘ＝ｍｉｎ（５，Ｄ_ｂｏｄｙ＋０．４）等式（４）

図５は、本技術の代表的実施形態による操作者５０に関連するジェスチャーを示す部分概略図である。図５に示されているように、操作者に関連するジェスチャーは、腕ジェスチャー５０１、頭ジェスチャー５０３、肩ジェスチャー５０５、関節ジェスチャー５０７、手ジェスチャー５０９、指ジェスチャー５１０、脚ジェスチャー５１１、足ジェスチャー５１３、又は上記のジェスチャーのいずれかの２つ又は複数の組み合わせを含み得る。たとえば、操作者５０は、自分の右腕と左脚の両方を使用して組み合わせジェスチャーを現示することができる。

図６は、本技術の代表的実施形態において移動装置を制御する方法６００を示すフローチャートである。方法６００は、操作者からの要求により開始され得る。ブロック６０１において、この方法は、（たとえば、描写）操作者に対応する画像を生成する。ブロック６０３は、操作者に対応する第１の一組の距離情報を生成するステップを含む。一部の実施形態では、第１の一組の距離情報は深度マップ画像とすることができる。ブロック６０５において、方法６００は続いて操作者に対応する画像の一部を識別する。一部の実施形態では、操作者に対応する画像の一部分は、操作者の体の一部分の画像、操作者の画像、操作者又は操作者の体の一部分の輪郭、操作者又は操作者の体の一部分の境界線又は枠等とすることができる。

方法６００は、次にブロック６０７において、操作者に対応する画像の識別された部分に少なくとも部分的に基づいて第１の一組の距離情報から第２の一組の距離情報を取り出す。一部の実施形態では、第２の一組の距離情報は、操作者に関連する深度マップ画像の一部分とすることができる。たとえば、第２の一組の距離情報は、身体の枠の距離画像部分、腕の距離画像部分、腕関節の距離画像部分、肩の距離画像部分、手の距離画像部分、身体のその他の適切な部分の距離画像部分、又はそれらの組み合わせとすることができる。

ブロック６０９において、方法６００は、少なくとも部分的に第２の一組の距離情報に基づいて操作者に関連するジェスチャーを識別する。一部の実施形態では、ジェスチャーは、肢、腕ジェスチャー、手ジェスチャー、指ジェスチャー、又はそれらの組み合わせとすることができる。ブロック６１１において、方法６００は、ジェスチャーに基づいて装置に関する命令を生成する。方法６００はここで戻る。

図７は、本技術の代表的実施形態において移動装置を制御する別の方法７００の実施形態を示すフローチャートである。ブロック７０１において、関連システム（たとえば、システム２００）は、操作者からの要求に応じて、操作者に対応する画像を生成する。ブロック７０３において、システムは、要求に応じて、（たとえば、描写）操作者に対応する第１の一組の距離情報を生成する。方法７００は、次にブロック７０５において操作者に対応する画像の一部分を識別することにより継続する。ブロック７０７においてシステムは、操作者に対応する画像の識別された部分に少なくとも部分的に基づいて第１の一組の距離情報から第２の一組の距離情報を取り出す。

ブロック７０９において、システムは、第２の一組の距離情報に少なくとも部分的に基づいて操作者に関連するジェスチャーの種類を決定する。一部の実施形態では、ジェスチャーの種類は、既存データセットとの比較に少なくとも部分的に基づいて決定され得る。さらにブロック７１１において、システムは、ジェスチャーに基づいて装置に関する命令を生成する。一部の実施形態では、命令は、機械学習プロセスに基づいて生成され得る。方法７００はここで戻る。

上記から、本技術の特定の実施形態が本出願において説明のために記述されたが、本技術から逸脱することなく種々の改変が可能であることが理解されるであろう。たとえば、特定の実施形態が上記において移動装置との関連において説明された。別の実施形態においては、これらの移動装置はＵＡＶを含む種々の適切な装置とすることができる。

さらに、本技術の一定の実施形態に関する長所がそれらの実施形態に関して記述されたが、他の実施形態もかかる長所を有し得るものであり、また、本技術の範疇に属するために必ずしもすべての実施形態がかかる長所を呈する必要があるわけではない。したがって、この開示及び関連技術は、本出願において明確に示されていないか又は説明されていない他の実施形態も包含し得る。

この特許文書の開示の少なくとも一部は、著作権保護を受ける内容を含んでいる。その著作権所有者は、この特許文書又は特許開示が特許商標局の特許ファイル又は記録に見られるように、何人によるそれらのいずれのファクシミリ複製にも反対しないが、その他の一切の場合については、すべての著作権を留保する。
［項目１］
画像収集部及び距離測定部を有する装置を制御する方法であって、
上記画像収集部により操作者に対応する画像を生成するステップと、
上記距離測定部により上記操作者に対応する第１の一組の距離情報を生成するステップと、
上記操作者に対応する上記画像の一部分を識別するステップと、
上記操作者に対応する上記画像の上記識別された部分に少なくとも部分的に基づいて、
上記第１の一組の距離情報から第２の一組の距離情報を取り出すステップと、
上記第２の一組の距離情報に少なくとも部分的に基づいて、上記操作者に関連するジェスチャーを識別するステップと、
上記ジェスチャーに少なくとも部分的に基づいて上記装置に関する命令を生成するステップと
を含む方法。
［項目２］
上記第１の一組の距離情報に少なくとも部分的に基づいて上記操作者と上記装置との間の距離を決定するステップをさらに含む項目１に記載の方法。
［項目３］
所定の閾値より大きい上記距離に応じて上記操作者に関連する腕ジェスチャーを識別するために上記第２の一組の距離情報を分析するステップをさらに含む項目２に記載の方法。
［項目４］
上記操作者に関連する身体の枠の距離画像部分に少なくとも部分的に基づいて上記腕ジェスチャーを識別するステップをさらに含む方法であって、上記身体の枠の距離画像部分が上記第２の一組の距離情報に少なくとも部分的に基づいて決定される項目３に記載の方法。
［項目５］
上記操作者に関連する腕関節距離画像部分に少なくとも部分的に基づいて上記腕ジェスチャーを識別するステップをさらに含む方法であって、上記腕関節距離画像部分が上記第２の一組の距離情報に少なくとも部分的に基づいて決定される項目３に記載の方法。
［項目６］
上記操作者に関連する肩距離画像部分に少なくとも部分的に基づいて上記腕ジェスチャーを識別するステップをさらに含む方法であって、上記肩距離画像部分が上記第２の一組の距離情報に少なくとも部分的に基づいて決定される項目３に記載の方法。
［項目７］
上記操作者に関連する手距離画像部分に少なくとも部分的に基づいて上記腕ジェスチャーを識別するステップをさらに含む方法であって、上記手距離画像部分が上記第２の一組の距離情報に少なくとも部分的に基づいて決定される項目３に記載の方法。
［項目８］
所定の閾値より短い上記距離に応じて、上記操作者に関連する手ジェスチャーを識別するために上記第２の一組の距離情報を分析するステップをさらに含む項目２に記載の方法。
［項目９］
上記操作者に関連する指距離画像部分に少なくとも部分的に基づいて上記手ジェスチャーを識別するステップをさらに含む方法であって、上記指距離画像部分が上記第２の一組の距離情報に少なくとも部分的に基づいて決定される項目８に記載の方法。
［項目１０］
上記操作者に対応する上記画像の上記部分が上記操作者の上記画像に対して配置されるバウンディングボックスに少なくとも部分的に基づいて識別される項目１から項目９のいずれか一項に記載の方法。
［項目１１］
上記バウンディングボックスが矩形状である項目１０に記載の方法。
［項目１２］
上記バウンディングボックスが楕円形状である項目１０に記載の方法。
［項目１３］
上記操作者に関連する上記ジェスチャーが肢ジェスチャーであり、且つ、上記方法が上記バウンディングボックスに少なくとも部分的に基づいて上記肢ジェスチャーを識別するステップをさらに含む項目１０に記載の方法。
［項目１４］
上記操作者に対応する上記画像の上記部分の境界線と上記バウンディングボックスとの間の交差に少なくとも部分的に基づいて上記肢ジェスチャーを識別するステップをさらに含む項目１３に記載の方法。
［項目１５］
上記操作者に対応する上記画像の上記部分の上記境界線が上記操作者に関連する身体の輪郭を含む項目１４に記載の方法。
［項目１６］
肢ジェスチャーが腕ジェスチャーを含む項目１４に記載の方法。
［項目１７］
上記操作者について、上記生成される画像の視野角を決定するステップと、
上記視野角に少なくとも部分的に基づいて上記操作者の上記第１の一組の距離情報を生成するステップと
をさらに含む項目１から項目９のいずれか一項に記載の方法。
［項目１８］
上記操作者について、上記生成される第１の一組の距離情報の視野角を決定するステップと、
上記視野角に少なくとも部分的に基づいて上記操作者の上記画像を生成するステップと
をさらに含む項目１から項目９のいずれか一項に記載の方法。
［項目１９］
上記画像収集部の第１分解能を決定するステップと、
上記距離測定部の第２分解能を決定するステップと、
上記第１分解能及び上記第２分解能に少なくとも部分的に基づいて、分解能分析結果を生成するステップと
をさらに含む項目１から項目９のいずれか一項に記載の方法。
［項目２０］
上記分解能分析結果に少なくとも部分的に基づいて、上記操作者の上記画像と上記第１の一組の距離情報との間の関係を生成するステップをさらに含む項目１９に記載の方法。
［項目２１］
上記操作者の上記画像が２次元カラー画像を含み、且つ、上記第１の一組の距離情報が２次元深度画像を含み、且つ、上記方法が上記分解能分析結果に少なくとも部分的に基づいて上記２次元カラー画像のカラーピクセルと上記２次元深度画像の深度ピクセルとの間の関係を決定するステップをさらに含む項目２０に記載の方法。
［項目２２］
上記装置が無人機を含む項目１から項目９のいずれか一項に記載の方法。
［項目２３］
上記画像収集部がカラー感知カメラを含む項目１から項目９のいずれか一項に記載の方法。
［項目２４］
上記距離測定部が飛行時間（ＴｏＦ）センサーを含む項目１から項目９のいずれか一項に記載の方法。
［項目２５］
上記距離測定部が深度感知カメラを含む項目１から項目９のいずれか一項に記載の方法。
［項目２６］
上記操作者に関する上記ジェスチャーを識別するために上記第２の一組の距離情報を分析するステップが上記第２の一組の距離情報を所定のデータセットと比較することを含む項目１から項目９のいずれか一項に記載の方法。
［項目２７］
上記画像収集部に関連するクレードル角度に少なくとも部分的に基づいて上記操作者の上記第１の一組の距離情報を調整するステップをさらに含む項目１から項目９のいずれか一項に記載の方法。
［項目２８］
上記装置に関する上記命令を生成する前に上記識別されたジェスチャーを検証するステップをさらに含む項目１から項目９のいずれか一項に記載の方法。
［項目２９］
上記装置に関する上記命令を生成する前に上記識別されたジェスチャーを検証するステップが
上記画像の上記識別された部分に関連する複数の画像フレームを記憶するステップと、
上記複数の画像フレームのそれぞれを相互の整合性について分析するステップと
を含む項目２８に記載の方法。
［項目３０］
上記装置に関する上記命令を生成する前に上記識別されたジェスチャーを検証するステップが
上記第２の一組の距離情報に関連する複数の距離画像フレームを記憶するステップと、
上記複数の距離画像フレームのそれぞれを相互の整合性について分析するステップと
を含む項目２８に記載の方法。
［項目３１］
装置であって、
処理装置と、
上記処理装置と結合される画像収集部と、
上記処理装置と結合される距離測定部と、
上記処理装置と結合されるコンピュータ読み取り可能媒体であって、
実行されたときに、
操作者からの要求に応じて、上記画像収集部により上記操作者に対応する画像を生成し、
上記要求に応じて、上記距離測定部により、上記操作者に対応する第１の一組の距離情報を生成し、
上記操作者に対応する上記画像の一部分を識別し、
上記操作者に対応する上記画像の上記識別された部分に少なくとも部分的に基づいて、
上記第１の一組の距離情報から第２の一組の距離情報を取り出し、
上記第２の一組の距離情報に少なくとも部分的に基づいて上記操作者に関連するジェスチャーの種類を決定し、且つ
上記ジェスチャーに少なくとも部分的に基づいて上記装置に関する命令を生成する
命令によりプログラムされるコンピュータ読み取り可能媒体と
を含む装置。
［項目３２］
上記ジェスチャーの上記種類が手ジェスチャー、肢ジェスチャー、又は身体ジェスチャーのいずれか１つを含む項目３１に記載の装置。
［項目３３］
実行されたときに、その命令が上記第２の一組の距離情報を分析して学習クラシファイアによる分析結果を生成する項目３１及び３２のいずれか一項に記載の装置。
［項目３４］
実行されたときに、その命令が上記第２の一組の距離情報を分析して有限状態機械による分析結果を生成する項目３１及び３２のいずれか一項に記載の装置。
［項目３５］
実行されたときに、その命令が上記第２の一組の距離情報を分析してランダムフォレスト学習部による分析結果を生成する項目３１及び３２のいずれか一項に記載の装置。
［項目３６］
実行されたときに、その命令が上記第１の一組の距離情報に少なくとも部分的に基づいて上記操作者と上記装置との間の距離を決定し、且つ、上記距離に少なくとも部分的に基づいて上記操作者に関連する上記ジェスチャーを識別する項目３１及び３２のいずれか一項に記載の装置。
［項目３７］
上記操作者に対応する上記画像の上記部分が上記操作者の上記画像に対して配置されたバウンディングボックスに少なくとも部分的に基づいて識別される項目３１及び３２のいずれか一項に記載の装置。
［項目３８］
ユーザー入力に少なくとも部分的に基づいて上記バウンディングボックスの形状が決定される項目３７に記載の装置。
［項目３９］
上記操作者の上記画像の対象分析に少なくとも部分的に基づいて上記バウンディングボックスの形状が決定される項目３７に記載の装置。
［項目４０］
上記対象分析が上記操作者の上記画像中の上記操作者の輪郭を決定することを含む項目３９に記載の装置。
［項目４１］
実行されたときに、その命令が上記ジェスチャーの上記種類を記憶部に格納し、且つ、上記ジェスチャーの上記種類を遠隔装置に送る項目３１及び３２のいずれか一項に記載の装置。
［項目４２］
無人機（ＵＡＶ）制御装置を構成する方法であって、
実行されたときに、
操作者からの要求に応じて、上記操作者に対応する画像を生成し、
上記要求に応じて、上記操作者に対応する第１の一組の距離情報を生成し、
上記操作者に対応する上記画像の一部分を識別し、
上記操作者に対応する上記画像の上記識別された部分に少なくとも部分的に基づいて、上記第１の一組の距離情報から第２の一組の距離情報を取り出し、
上記第２の一組の距離情報に少なくとも部分的に基づいて上記操作者に関連するジェスチャーを識別し、且つ
上記ジェスチャーに少なくとも部分的に基づいて上記ＵＡＶを制御する命令を生成する
命令によりコンピュータ読み取り可能媒体をプログラムするステップを含む方法。
［項目４３］
実行されたときに、その命令が上記第１の一組の距離情報に少なくとも部分的に基づいて上記操作者と上記ＵＡＶとの間の距離を決定し、上記距離に少なくとも部分的に基づいて上記ジェスチャーを識別し、且つ、バウンディングボックスに少なくとも部分的に基づいて上記操作者に対応する上記画像の上記部分を識別する項目４２に記載の方法。
［項目４４］
上記ＵＡＶがカメラ及び深度センサーを搭載し、且つ、実行されたときにその命令が上記操作者に対応する上記画像を上記カメラにより生成し、且つ、上記操作者に対応する上記第１の一組の距離情報を上記深度センサーにより生成する項目４２及び４３のいずれか一項に記載の方法。
［項目４５］
上記ＵＡＶが命令生成部を搭載し、且つ、実行されたときにその命令が上記命令生成部により上記ジェスチャーを上記ジェスチャーに関連する一連の所定基準データと比較する項目４２及び４３のいずれか一項に記載の方法。
［項目４６］
無人機（ＵＡＶ）を制御する装置であって、
処理装置と、
上記処理装置と結合されるコンピュータ読み取り可能媒体であって、
実行されたときに、
操作者からの要求に応じて、上記操作者に対応する画像を生成し、
上記要求に応じて、上記操作者に対応する第１の一組の距離情報を生成し、
上記操作者に対応する上記画像の一部分を識別し、
上記操作者に対応する上記画像の上記識別された部分に少なくとも部分的に基づいて、上記第１の一組の距離情報から第２の一組の距離情報を取り出し、
上記第２の一組の距離情報に少なくとも部分的に基づいて上記操作者に関連するジェスチャーを識別し、且つ
上記ジェスチャーに少なくとも部分的に基づいて上記ＵＡＶを制御する命令を生成する
命令によりプログラムされるコンピュータ読み取り可能媒体と
を含む装置。
［項目４７］
実行されたときに、その命令が上記第１の一組の距離情報に少なくとも部分的に基づいて、上記操作者と上記ＵＡＶとの間の距離を決定する項目４６に記載の装置。
［項目４８］
上記距離に少なくとも部分的に基づいて、上記ジェスチャーが識別される項目４７に記載の装置。
［項目４９］
上記操作者に対応する上記画像に対して配置されたバウンディングボックスに少なくとも部分的に基づいて、上記操作者に対応する上記画像の上記部分が識別される項目４６から４８のいずれか一項に記載の装置。
［項目５０］
上記操作者に対応する上記画像の上記部分の境界線と上記バウンディングボックスとの間の交差に少なくとも部分的に基づいて、上記ジェスチャーを識別するステップをさらに含む項目４９に記載の装置。

Claims

画像収集部及び距離測定部を有する装置を制御する方法であって、
前記画像収集部により操作者に対応する画像を生成するステップと、
前記距離測定部により前記操作者に対応する深度マップを生成するステップと、
前記操作者の前記画像に対して配置されるバウンディングボックスにより、前記操作者に対応する前記画像の一部分を識別するステップと、
前記画像の一部分と前記バウンディングボックスとの間の交差を識別することにより、前記画像中の前記操作者の体の一部を識別するステップと、
前記深度マップから、識別された前記操作者の体の一部に対応する深度画像部分を取り出すステップと、
前記深度画像部分に基づいて、前記操作者に関連するジェスチャーを識別するステップと、
前記ジェスチャーに少なくとも部分的に基づいて前記装置に関する命令を生成するステップと
を含む方法。
前記深度マップに少なくとも部分的に基づいて前記操作者と前記装置との間の距離を決定するステップをさらに含む請求項１に記載の方法。
所定の閾値より大きい前記距離に応じて前記操作者に関連する腕ジェスチャーを識別するために前記深度画像部分を分析するステップをさらに含む請求項２に記載の方法。
前記操作者に関連する身体の枠の距離画像部分に少なくとも部分的に基づいて前記腕ジェスチャーを識別するステップをさらに含む方法であって、前記身体の枠の距離画像部分が前記深度画像部分に少なくとも部分的に基づいて決定される請求項３に記載の方法。
前記操作者に関連する腕関節距離画像部分に少なくとも部分的に基づいて前記腕ジェスチャーを識別するステップをさらに含む方法であって、前記腕関節距離画像部分が前記深度画像部分に少なくとも部分的に基づいて決定される請求項３に記載の方法。
前記操作者に関連する肩距離画像部分に少なくとも部分的に基づいて前記腕ジェスチャーを識別するステップをさらに含む方法であって、前記肩距離画像部分が前記深度画像部分に少なくとも部分的に基づいて決定される請求項３に記載の方法。
前記操作者に関連する手距離画像部分に少なくとも部分的に基づいて前記腕ジェスチャーを識別するステップをさらに含む方法であって、前記手距離画像部分が前記深度画像部分に少なくとも部分的に基づいて決定される請求項３に記載の方法。
所定の閾値より短い前記距離に応じて、前記操作者に関連する手ジェスチャーを識別するために前記深度画像部分を分析するステップをさらに含む請求項２に記載の方法。
前記操作者に関連する指距離画像部分に少なくとも部分的に基づいて前記手ジェスチャーを識別するステップをさらに含む方法であって、前記指距離画像部分が前記深度画像部分に少なくとも部分的に基づいて決定される請求項８に記載の方法。
前記操作者に関連する前記ジェスチャーが肢ジェスチャーである、請求項１から９の何れか１つに記載の方法。
前記操作者に対応する前記画像の一部分の境界線と前記バウンディングボックスとの間の交差に少なくとも部分的に基づいて前記肢ジェスチャーを識別するステップをさらに含む請求項１０に記載の方法。
前記操作者に対応する前記画像の一部分の前記境界線が前記操作者に関連する身体の輪郭を含む請求項１１に記載の方法。
前記深度画像部分を取り出すステップは、前記画像収集部の第１視野角及び前記距離測定部の第２視野角に少なくとも部分的に基づいて、識別された前記操作者の体の一部に対応する深度画像部分を取り出すステップを含む請求項１から請求項１２のいずれか一項に記載の方法。
前記装置が無人機を含む請求項１から請求項１３のいずれか一項に記載の方法。
前記画像収集部がカラー感知カメラを含む請求項１から請求項１４のいずれか一項に記載の方法。
前記距離測定部が飛行時間（ＴｏＦ）センサーを含む請求項１から請求項１５のいずれか一項に記載の方法。
前記距離測定部が深度感知カメラを含む請求項１から請求項１６のいずれか一項に記載の方法。
前記操作者に関する前記ジェスチャーを識別するために前記深度画像部分を分析するステップが前記深度画像部分を所定のデータセットと比較することを含む請求項１から請求項１７のいずれか一項に記載の方法。
前記装置に関する前記命令を生成する前に前記識別されたジェスチャーを検証するステップをさらに含む請求項１から請求項１８のいずれか一項に記載の方法。
前記装置に関する前記命令を生成する前に前記識別されたジェスチャーを検証するステップが、
識別された前記操作者の体の一部に関連する複数の画像フレームを記憶するステップと、
前記複数の画像フレームのそれぞれを相互の整合性について分析するステップと
を含む請求項１９に記載の方法。
前記装置に関する前記命令を生成する前に前記識別されたジェスチャーを検証するステップが、
前記深度画像部分に関連する複数の距離画像フレームを記憶するステップと、
前記複数の距離画像フレームのそれぞれを相互の整合性について分析するステップと
を含む請求項１９に記載の方法。
装置であって、
処理装置と、
前記処理装置と結合される画像収集部と、
前記処理装置と結合される距離測定部と、
前記処理装置と結合されるコンピュータ読み取り可能媒体であって、
実行されたときに、
操作者からの要求に応じて、前記画像収集部により前記操作者に対応する画像を生成し、
前記要求に応じて、前記距離測定部により、前記操作者に対応する深度マップを生成し、
前記操作者の前記画像に対して配置されるバウンディングボックスにより、前記操作者に対応する前記画像の一部分を識別し、
前記画像の一部分と前記バウンディングボックスとの間の交差を識別することにより、前記画像中の前記操作者の体の一部を識別し、
前記深度マップから、識別された前記操作者の体の一部に対応する深度画像部分を取り出し、
前記深度画像部分に基づいて前記操作者に関連するジェスチャーの種類を決定し、且つ、
前記ジェスチャーに少なくとも部分的に基づいて前記装置に関する命令を生成する命令によりプログラムされるコンピュータ読み取り可能媒体と
を含む装置。