JP2022136829A

JP2022136829A - 処理装置、移動体、処理方法、およびプログラム

Info

Publication number: JP2022136829A
Application number: JP2021036624A
Authority: JP
Inventors: 裕司安井; Yuji Yasui
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2022-09-21
Also published as: US20220284736A1; CN115052103A

Abstract

【課題】処理負荷を軽減しつつ、精度よく物標を特定する処理装置、移動体、処理方法及びプログラムを提供する。【解決手段】自律移動型であるロボットの本体２０において、制御装置５０は、認識部５４を有する。認識部５４は、第１画像を第１画像よりも低解像度の第２画像に変換する第１処理部と、第２画像に基づいて第２画像における所定の対象物標を含む物標領域を特定し、特定した第２画像における物標領域に基づいて、第１画像における対象物標を含む物標領域を特定する第２処理部と、を備える。【選択図】図２

Description

本発明は、処理装置、移動体、処理方法、およびプログラムに関する。

従来、２つのカメラにより撮像された画像を解析して物体をトラッキングする情報処理装置が開示されている（例えば、特許文献１参照）。

特開２０１８－８８２３４号公報

しかしながら、上記の技術では、利用する機器の構成が煩雑であったり、処理負荷が高かったりする場合があった。

本発明は、このような事情を考慮してなされたものであり、処理負荷を軽減しつつ、精度よく物標を特定することができる処理装置、移動体、処理方法、およびプログラムを提供することを目的の一つとする。

この発明に係る処理装置、移動体、処理方法、およびプログラムは、以下の構成を採用した。
（１）：この発明の一実施形態に係る処理装置は、第１画像を前記第１画像よりも低解像度の第２画像に変換する第１処理部と、前記第２画像に基づいて前記第２画像における所定の対象物標を含む物標領域を特定し、特定した前記第２画像における前記物標領域に基づいて、前記第１画像における前記対象物標を含む物標領域を特定する第２処理部とを備える。

（２）：上記（１）の態様において、前記第２処理部は、第１時刻に撮像された前記第１画像が変換された前記第２画像および前記第１時刻よりも後の第２時刻に撮像された前記第１画像が変換された前記第２画像を解析して、前記第１時刻に対応する前記第２画像の前記物標領域に含まれる対象物標を、前記第２時刻に対応する前記第２画像においてトラッキングする。

（３）：上記（１）または（２）の態様において、前記第２処理部は、時系列で撮像された第１画像のそれぞれが変換された時系列の第２画像における前記対象物標の位置の変化に基づいて、前記第２画像における前記対象物標をトラッキングする。

（４）：上記（１）から（３）のいずれかの態様において、前記対象物標は人物であり、前記第２処理部は、過去に撮像された前記第１画像が変換された前記第２画像から得られたまたは記憶部に記憶された、前記人物の服の色、前記人物の性別、または前記人物の髪型のうち一以上の情報に基づいて、前記第２画像において前記人物をトラッキングする。

（５）：上記（１）から（４）のいずれかの態様において、前記第２処理部は、前記第２画像の前記物標領域に基づいて、前記第２画像が変換される前の前記第１画像における前記対象物標を含む物標領域を特定し、特定した前記第１画像における前記物標領域に対して所定の画像認識処理を実行する。

（６）：上記（５）の態様において、前記所定の画像認識処理は、前記第１画像における前記物標領域のうちの特定領域の情報に基づいて前記対象物標のジェスチャを認識する処理を含む。

（７）：上記（６）の態様において、前記所定の画像認識処理は、前記特定領域を、前記第１画像における前記物標領域に対して骨格または関節点を認識することに基づき特定することを含む。

（８）：上記（７）の態様において、前記所定の画像認識処理は、前記骨格または関節点の認識結果に基づいて前記対象物標の腕または手を含む領域を前記特定領域とする処理を含む。

（９）：移動体は、上記（６）から（８）のいずれかの態様において、前記所定の画像認識処理は、前記第１画像における前記物標領域のうちの２以上の特定領域のうち、時系列での前記対象物標の動きの変化度合いが大きい特定領域の情報を優先的に利用してジェスチャ認識する処理を含む。

（１０）：上記（９）の態様において、前記２以上の特定領域には、少なくとも、前記対象物標の右腕または右手を含む領域として特定された特定領域および前記対象物標の左腕または左手を含む領域として特定された特定領域とが含まれる。

（１１）：上記（１）から（１０）のいずれかの態様において、前記対象物標は人物であり、前記第２処理部は、前記第１画像における人物の顔を含む領域を抽出し、抽出した領域に含まれる顔の特徴量と、予め記憶部に記憶された人物の顔の特徴量とを照合して、前記対象物標の人物をトラッキングする。

（１２）：上記（１）から（１０）のいずれかの態様において、前記対象物標は人物であり、前記第２処理部は、第１時刻に撮像された前記第１画像が変換された前記第２画像の前記物標領域に含まれる人物を、前記第１時刻よりも後の第２時刻に撮像された前記第１画像が変換された前記第２画像においてトラッキングし、トラッキングの結果に基づいて、前記第２時刻に撮像された前記第１画像における前記トラッキングした前記人物の腕または手を含む領域を抽出し、抽出した領域に基づいて前記人物のジェスチャを認識する。

（１３）：上記（６）、（７）、または（１２）のいずれかの態様において、前記第２処理部が認識したジェスチャに基づいて、移動体を制御する制御部を更に備える。

（１４）：上記（１）から（１３）のいずれかの態様の処理装置を備える移動体である。

（１５）：この発明の一態様に係る処理方法は、コンピュータが、第１画像を前記第１画像よりも低解像度の第２画像に変換し、前記第２画像に基づいて前記第２画像における所定の対象物標を含む物標領域を特定し、特定した前記第２画像における前記物標領域に基づいて、前記第１画像における前記対象物標を含む物標領域を特定する。

（１６）：この発明の一態様に係るプログラムは、コンピュータに、第１画像を前記第１画像よりも低解像度の第２画像に変換させ、前記第２画像に基づいて前記第２画像における所定の対象物標を含む物標領域を特定し、特定した前記第２画像における前記物標領域に基づいて、前記第１画像における前記対象物標を含む物標領域を特定させる。

（１）－（１６）によれば、処理装置が、第１画像を第１画像よりも低解像度の第２画像に変換し、第２画像の対象物標を含む物標領域に基づいて、第１画像において対象物標を含む物標領域を取得することにより、処理負荷を軽減しつつ、精度よく物標を特定することができる。

（４）によれば、処理装置は、人物の特徴を用いることにより、より精度よく人物をトラッキングすることができる。

（６）によれば、処理装置は、人物やロボット、動物など動作の主体となる物体のジェスチャをより精度よく認識することができる。

（９）または（１０）によれば、処理装置は、時系列での変化度合が大きい特定領域の情報を優先的に利用することで、より精度よくジェスチャを認識することができる。

（１１）によれば、処理装置は、人物の顔の特徴量を用いることで、より精度よく人物をトラッキングすることができる。

（１３）によれば、処理装置は、人物が意図したように移動体を制御することができる。

実施形態に係る制御装置を備える移動体１０の一例を示す図である。移動体１０の本体２０に含まれる機能構成の一例を示す図である。トラッキング処理の流れの一例を示すフローチャートである。ユーザの特徴量を抽出する処理および特徴量を登録する処理について説明するための図である。認識部５４がユーザをトラッキングする処理について説明するための図である。特徴量を用いたトラッキング処理について説明するための図である。特徴量を用いたトラッキング処理について説明するための図である。第２処理部５５Ｂがユーザをトラッキングする処理の他の一例について説明するための図である。高解像度画像から周辺にいる人物を含む領域を抽出する処理の一例を示す図である。行動制御処理の流れの一例を示すフローチャートである。ジェスチャを認識する処理について説明するための図（その１）である。ジェスチャを認識する処理について説明するための図（その２）である。ジェスチャを認識する処理について説明するための図（その３）である。ジェスチャを認識する処理について説明するための図である。第１ジェスチャ情報７６に含まれる第１ジェスチャの一例を示す図である。ジェスチャを認識する処理について説明するための図である。第２ジェスチャ情報７８に含まれる第２ジェスチャの一例を示す図である。制御装置５０がジェスチャを認識する処理の一例を示すフローチャートである。

以下、図面を参照し、本発明の実施形態に係る処理装置、移動体、処理方法、およびプログラムについて説明する。

＜第１実施形態＞
[全体構成]
図１は、実施形態に係る処理装置を備える移動体１０の一例を示す図である。移動体１０は、自律移動型のロボットである。移動体１０は、ユーザの行動を支援する。例えば、移動体１０は、店舗の店員や、顧客、施設のスタッフ（以下、これらの人物を「ユーザ」と称する）などの指示に応じて顧客のショッピングまたは接客を支援したり、スタッフの作業の支援をしたりする。

移動体１０は、本体２０と、収容器９２と、一以上の車輪９４（図中、車輪９４Ａ、９４Ｂ）とを備える。移動体１０は、ユーザのジェスチャや音声、移動体１０の入力部（後述するタッチパネル）に対する操作、端末装置（例えばスマートフォン）に対する操作に基づく指示に応じて移動する。移動体１０は、例えば、本体２０に設けられたカメラ２２により撮像された画像に基づいてジェスチャを認識する。

例えば、移動体１０は、車輪９４を駆動させて、ユーザの移動に合わせて顧客に追従するように移動したり、顧客を先導するように移動したりする。この際、移動体１０は、ユーザに商品や作業の説明をしたり、ユーザが探している商品や対象物を案内したりする。また、ユーザは、購入予定の商品や荷物を、これらを収容する収容器９２に収納することができる。

本実施形態では、移動体１０は収容器９２を備えるものとして説明するが、これらに代えて（または加えて）、移動体１０は、ユーザが移動体１０と共に移動するために、着座する着座部や、ユーザが乗り込む筐体、ユーザが足をのせるステップなどが設けられてもよい。

図２は、移動体１０の本体２０に含まれる機能構成の一例を示す図である。本体２０は、カメラ２２と、通信部２４と、位置特定部２６と、スピーカ２８と、マイク３０と、タッチパネル３２と、モータ３４と、制御装置５０（「処理装置」の一例）とを備える。

カメラ２２は、移動体１０の周辺を撮像する。カメラ２２は、例えば、移動体１０の周辺を広角に（例えば３６０度で）撮像可能な魚眼カメラである。カメラ２２は、例えば、移動体１０の上部に取り付けられ、移動体１０の周辺を水平方向に関して広角に撮像する。カメラ２２は、複数のカメラ（水平方向に関して１２０度の範囲や６０度の範囲を撮像する複数のカメラ）を組み合わせて実現されてもよい。カメラ２２は、１台に限らず複数台移動体１０に設けられていてもよい。

通信部２４は、セルラー網やＷｉ－Ｆｉ網、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＤＳＲＣ（Dedicated Short Range Communication）などを利用して他の装置と通信するための通信インターフェイスである。

位置特定部２６は、移動体１０の位置を特定する。位置特定部２６は、移動体１０に内蔵されたＧＰＳ（Global Positioning System）装置（不図示）により移動体１０の位置情報を取得する。位置情報とは、例えば、二次元の地図座標でもよく、緯度経度情報でもよい。

スピーカ２８は、例えば、所定の音声を出力する。マイク３０は、例えば、ユーザが発した音声の入力を受け付ける。

タッチパネル３２は、ＬＣＤ（liquid Crystal Display）や有機ＥＬ（Electroluminescence）などの表示部と、座標検出機構により操作者のタッチ位置が検出可能な入力部とが重畳して構成される。表示部は、操作用のＧＵＩ（Graphical User Interface）スイッチを表示する。入力部は、ＧＵＩスイッチに対するタッチ操作、フリック操作、スワイプ操作などを検出したときに、ＧＵＩスイッチへのタッチ操作がなされたこと示す操作信号を生成して、制御装置５０に出力する。制御装置５０は、操作に応じて、スピーカ２８に音声を出力させたり、タッチパネル３２に画像を表示させたりする。また、制御装置５０は、操作に応じて、移動体１０を移動させてもよい。

モータ３４は、車輪９４を駆動させて、移動体１０を移動させる。車輪９４は、例えば、モータ３４によって回転方向に駆動される駆動輪と、ヨー方向に駆動される非駆動輪である操舵輪とを含む。操舵輪の角度が調整されることによって、移動体１０は進路を変更したり、自転したりすることができる。

本実施形態において、移動体１０は、移動を実現するための機構として車輪９４を備えているが、本実施形態はこの構成に限定されない。例えば、移動体１０は多足歩行型のロボットであってもよい。

制御装置５０は、例えば、取得部５２と、認識部５４と、軌道生成部５６と、走行制御部５８と、情報処理部６０と、記憶部７０とを備える。取得部５２と、認識部５４と、軌道生成部５６と、走行制御部５８と、情報処理部６０との一部または全部は、例えば、ＣＰＵ（Central Processing Unit）などのハードウェアプロセッサがプログラム（ソフトウェア）を実行することにより実現される。これらの機能部の一部または全部は、ＬＳＩ（Large Scale Integration）やＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、ＧＰＵ（Graphics Processing Unit）などのハードウェア（回路部；circuitryを含む）によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの記憶部７０（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体（非一過性の記憶媒体）に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。取得部５２、認識部５４、軌道生成部５６、走行制御部５８、または情報処理部６０は、制御装置５０（移動体１０）とは異なる装置に設けられてよい。例えば、認識部５４は、他の装置に設けられ、制御装置５０は、他の装置の処理結果に基づいて、移動体１０を制御してもよい。また、記憶部７０に記憶される情報の一部または全部も他の装置に格納されてもよい。取得部５２、認識部５４、軌道生成部５６、走行制御部５８、または情報処理部６０のうち、一以上の機能部を含む構成は、システムとして構成されてもよい。

記憶部７０には、地図情報７２や、ジェスチャ情報７４、ユーザ情報８０が記憶されている。地図情報７２は、例えば、道路や施設内の通路を示すリンクと、リンクによって接続されたノードとによって道路や通路の形状が表現された情報である。地図情報７２は、道路の曲率やＰＯＩ（Point Of Interest）情報などを含んでもよい。

ジェスチャ情報７４は、ジェスチャに関する情報（テンプレートの特徴量）と、移動体１０の動作とが互いに対応付けられた情報である。ジェスチャ情報７４は、第１ジェスチャ情報７６および第２ジェスチャ情報７８を含む。ユーザ情報８０は、ユーザの特徴量を示す情報である。ジェスチャ情報７４およびユーザ情報８０の詳細については後述する。

取得部５２は、カメラ２２によって撮像された画像（以下、「周辺画像」と称する）を取得する。取得部５２は、例えば、取得した周辺画像を魚眼カメラ座標系におけるピクセルデータとして保持する。

認識部５４は、例えば、第１処理部５５Ａおよび第２処理部５５Ｂを含む。第１処理部５５Ａは、カメラ２２により撮像された第１画像（例えば高解像度画像）を第１画像よりも低解像度の第２画像（低解像度画像）に変換する。第２処理部５５Ｂは、第２画像に基づいて第２画像の所定の対象物標を含む物標領域を特定し、特定した第２画像における物標領域に基づいて、第１画像において対象物標を含む物標領域を特定する。対象物標とは、例えば、追跡対象の物標である。第１処理部５５Ａおよび第２処理部５５Ｂの処理の詳細については後述する。

また、第２処理部５５Ｂは、一以上の周辺画像に基づいて、ユーザによる身体動作（以下、「ジェスチャ」と称する）を認識する。認識部５４は、周辺画像から抽出したユーザのジェスチャの特徴量とテンプレートの特徴量（ジェスチャを示す特徴量）とを照合することによって、ジェスチャを認識する。特徴量は、例えば、人の指や、指の関節、手首、腕、骨格などの特徴箇所と、それを繋ぐリンクと、リンクの傾きや位置等とを表すデータである。

軌道生成部５６は、ユーザのジェスチャや、ユーザにより設定された目的地、周辺の物体、ユーザの位置、地図情報７２等に基づいて、移動体１０が将来走行すべき軌道を生成する。軌道生成部５６は、円弧を複数組み合わせて、目標地点まで移動体１０が滑らかに移動できるような軌道を生成する。軌道生成部５６は、例えば、３つの円弧を結合させて軌道を生成する。軌道生成部５６は、例えば、ベジェ曲線などの幾何的モデルに状態をフィッティングさせることで軌道を生成してもよい。軌道は、例えば、実際には有限個の軌道点の集まりとして生成される。

軌道生成部５６は、直交座標系と魚眼カメラ座標系との間で座標変換を行う。直交座標系と魚眼カメラ座標系の間では、座標間で一対一の関係が成立し、その関係は対応情報として記憶部７０に記憶されている。軌道生成部５６は、直交座標系における軌道（直交座標系軌道）を生成し、この軌道を魚眼カメラ座標系における軌道（魚眼カメラ座標系軌道）に座標変換する。軌道生成部５６は、魚眼カメラ座標系軌道のリスクを計算する。リスクとは、移動体１０が障害物に接近する可能性の高さを示す指標値である。リスクは、軌道（軌道の軌道点）に対して障害物との距離が小さければ小さいほど高く、軌道に対して障害物との距離が大きければ大きいほどリスクを低くなる傾向である。

軌道生成部５６は、リスクの合計値や、各軌道点のリスクが、予め設定された基準を満たす場合（例えば合計値が閾値Ｔｈ１以下であり、且つ各軌道点のリスクが閾値Ｔｈ２以下である場合）、基準を満たす軌道を移動体が移動する軌道として採用する。

上記の軌道が予め設定された基準を満たさない場合、以下の処理を行ってもよい。軌道生成部５６は、魚眼カメラ座標系において走行可能空間を検出し、検出された魚眼カメラ座標系における走行可能空間を直交座標系における走行可能空間に座標変換する。走行可能空間とは、移動体１０の移動方向の領域のうち障害物およびその障害物の周辺の領域（リスクが設定された領域またはリスクが閾値以上の領域）を除いた空間である。軌道生成部５６は、直交座標系に座標変換された走行可能空間内に軌道が収まるように軌道を修正する。軌道生成部５６は、直交座標系軌道を魚眼カメラ座標系軌道に座標変換して、周辺画像と、魚眼カメラ座標系軌道とに基づいて、魚眼カメラ座標系軌道のリスクを計算する。この処理を繰り返して、上記の予め設定された基準を満たす軌道を探索する。

走行制御部５８は、予め設定された基準を満たす軌道に沿って、移動体１０を走行させる。走行制御部５８は、移動体１０が軌道に沿って走行させるための指令値をモータ３４に出力する。モータ３４は、指令値に従って車輪９４を回転させ、移動体１０を軌道に沿って移動させる。

情報処理部６０は、本体２０に含まれる各種装置や機器を制御する。情報処理部６０は、例えば、スピーカ２８や、マイク３０、タッチパネル３２を制御する。また、情報処理部６０は、マイク３０に入力された音声や、タッチパネル３２に対して行われた操作を認識する。情報処理部６０は、認識の結果に基づいて移動体１０を動作させる。

なお、上記の例では、認識部５４は、移動体１０に設けられたカメラ２２により撮像された画像を各種処理に用いるものとして説明したが、認識部５４は、移動体１０に設けられていないカメラ（移動体１０とは異なる位置に設けられたカメラ）により撮像された画像を用いて各種処理を行ってもよい。この場合、カメラにより撮像された画像は、通信を介して制御装置５０に送信され、制御装置５０は、送信された画像を取得して、取得した画像に基づいて各種処理を実行する。また、認識部５４は、複数の画像を用いて各種処理を実行してもよい。例えば、認識部５４は、カメラ２２により撮像された画像や、移動体１０とは異なる位置に設けられたカメラにより撮像された複数の画像に基づいて、各種処理を実行してもよい。

［支援処理］
移動体１０は、ユーザのショッピングを支援する支援処理を実行する。支援処理は、トラッキングに関する処理と、行動制御に関する処理とを含む。

［トラッキングに関する処理（その１）］
図３は、トラッキング処理の流れの一例を示すフローチャートである。まず、移動体１０の制御装置５０は、ユーザの登録を受け付ける（ステップＳ１００）。次に、制御装置５０は、ステップＳ１００で登録されたユーザをトラッキングする（ステップＳ１０２）。次に、制御装置５０は、トラッキングが成功したか否かを判定する（ステップＳ１０４）。トラッキングを成功した場合、後述する図１０のステップＳ２００の処理に進む。トラッキングに成功しなかった場合、制御装置５０は、ユーザを特定する（ステップＳ１０６）。

（ユーザを登録する処理）
ステップＳ１００のユーザを登録する処理について説明する。移動体１０の制御装置５０は、ユーザ（例えば店舗に来店した顧客）の特定のジェスチャや、音声、タッチパネル３２に対する操作に基づいてユーザの登録の意志を確認する。ユーザの登録の意志が確認できた場合、制御装置５０の認識部５４は、ユーザの特徴量を抽出し、抽出した特徴量を登録する。

図４は、ユーザの特徴量を抽出する処理および特徴量を登録する処理について説明するための図である。制御装置５０の第２処理部５５Ｂは、ユーザが撮像された画像ＩＭ１からユーザを特定し、特定したユーザの関節点や骨格を認識する（スケルトン処理を実行する）。例えば、第２処理部５５Ｂは、画像ＩＭ１からユーザの顔や、顔のパーツ、首、肩、肘、手首、腰、足首などを推定し、推定した各パーツの位置に基づいて、スケルトン処理を実行する。例えば、第２処理部５５Ｂは、ディープラーニングを用いてユーザの関節点や骨格を推定する公知の手法（例えばオープンポーズなどの手法）を用いて、スケルトン処理を実行する。次に、第２処理部５５Ｂは、スケルトン処理の結果に基づいて、ユーザの顔や、上半身、下半身等を特定し、特定した顔、上半身、下半身ごとの特徴量を抽出して、抽出した特徴量をユーザの特徴量として記憶部７０に登録する。顔の特徴量は、例えば、男性、女性、髪型、顔の特徴量である。男性、女性を示す特徴量は、頭部の形状等を示す特徴量であり、髪型は頭部の形状から得られる髪の長さ（ショートヘア、ロングヘアなど）を示す情報である。上半身の特徴量は、例えば、上半身部の色である。下半身の特徴量は、例えば、下半身部の色である。

（ユーザをトラッキングする処理）
第１処理部５５Ａは、単位時間ごとに撮像された高解像度画像のそれぞれを低解像度画像に変換する。解析度が高いとは、例えば、画像における単位領域ごとのピクセル数が、低解像度画像の単位領域ごとのピクセル数よりも多いこと（ｄｐｉが高いこと）である。第１処理部５５Ａは、高解像度画像ＩＭの画素を間引く処理を行って、高解像度画像を低解像度画像に変換したり、所定のアルゴリズムを適用して高解像度画像を低解像度画像に変換したりする。

第２処理部５５Ｂは、第１時刻に撮像された高解像度画像が変換された低解像度画像および第１時刻よりも後の第２時刻に撮像された高解像度画像が変換された低解像度画像を解析して、第１時刻に対応する低解像度画像の追跡する対象の対象物標を含む物標領域に含まれる対象物標を、第２時刻に対応する低解像度画像においてトラッキングする。第２処理部５５Ｂは、時系列で撮像された高解像度画像のそれぞれが変換された時系列の低解像度画像における対象物標の位置の変化に基づいて、低解像度画像における対象物標をトラッキングする。このトラッキングに用いられる低解像度画像は、例えば、直近で撮像された高解像度画像が変換された低解像度画像である。以下、具体的に説明する。

ステップＳ１０２のユーザをトラッキングする処理について説明する。図５は、認識部５４がユーザをトラッキングする処理（図３のステップＳ１０２の処理）について説明するための図である。認識部５４の第１処理部５５Ａは、時刻Ｔで撮像された画像を取得する。この画像は、カメラ２２により撮像された画像（以下、高解像度画像ＩＭ２）である。

認識部５４の第１処理部５５Ａは、高解像度画像ＩＭ２を、高解像度画像ＩＭ２よりも解像度が低い低解像度画像ＩＭ２＃に変換する。次に、第２処理部５５Ｂは、低解像度画像ＩＭ２＃から人物および人物を含む人物検出領域を検出する。

第２処理部５５Ｂは、時刻Ｔ－１（時刻Ｔより以前）に検出した人物の位置（時刻Ｔ－１におけるトラッキングしているユーザの人物検出領域）と人物の移動方向とに基づいて、時刻Ｔにおけるユーザの位置（人物検出領域）を推定する。第２処理部５５Ｂは、時刻Ｔで得られた低解像度画像ＩＭ２において検出したユーザが、時刻Ｔ－１以前のトラッキン対象のユーザの位置または移動方向から推定した位置付近に存在する場合、時刻Ｔで検出したユーザはトラッキングする対象（トラッキング対象）のユーザであると特定する。ユーザが特定可能な場合、トラッキングが成功したとみなされる。

上記のように制御装置５０は、低解像度画像ＩＭ２＃を用いてユーザをトラッキングするため、処理負荷が軽減される。

第２処理部５５Ｂは、トラッキング処理において、上記のように時刻Ｔおよび時刻Ｔ－１におけるユーザの位置に加え、更にユーザの特徴量を用いてユーザをトラッキングしてもよい。図６は、特徴量を用いたトラッキング処理について説明するための図である。例えば、第２処理部５５Ｂは、時刻Ｔにおけるユーザの位置を推定し、推定した位置付近に存在するユーザを特定し、更にそのユーザの特徴量を抽出する。制御装置５０は、抽出した特徴量と、登録された特徴量とが閾値以上合致する場合、特定したユーザをトラッキング対象のユーザであると推定し、トラッキングは成功したと判定する。

例えば、ユーザの特徴量を抽出する際、第２処理部５５Ｂは、人物を含む領域を抽出し、その抽出した領域の画像（高解像度画像）に対してスケルトン処理を行って人物の特徴量を抽出する。これにより、処理負荷が軽減される。

なお、第２処理部５５Ｂは、高解像度画像から得られた特徴量に代えて、低解像度画像から得られた特徴量と、登録された特徴量とが閾値以上合致する場合、特定したユーザをトラッキング対象のユーザであると推定してもよい。この場合、予め記憶部７０には、低解像度画像から得られた特徴量と比較するための特徴量が記憶され、この特徴量が用いられる。また、第２処理部５５Ｂは、登録された特徴量に代えて（または加えて）、例えば、トラッキングしている際に得られた画像から抽出した特徴量と、今回撮像された画像から得られた特徴量とを比較して、ユーザを特定してもよい。

例えば、トラッキング対象のユーザが他の人物と重なったり、交差したりした場合であっても、上記のようにユーザの位置の変化と、ユーザの特徴量とに基づいて、より精度よくユーザがトラッキングされる。

（ユーザを特定する処理）
ステップＳ１０６のユーザを特定する処理について説明する。第２処理部５５Ｂは、ユーザのトラッキングに成功しなかった場合、図７に示すように、周辺にいる人物の特徴量と、登録されたユーザの特徴量とを照合して、トラッキング対象のユーザを特定する。第２処理部５５Ｂは、例えば、画像に含まれる各人物の特徴量を抽出する。第２処理部５５Ｂは、各人物の特徴量と、登録されたユーザの特徴量とを照合して、登録されたユーザの特徴量に閾値以上合致する人物を特定する。第２処理部５５Ｂは、特定したユーザがトラッキング対象のユーザとされる。この時、用いられる特徴量は、低解像度画像から得られた特徴量であってもよいし、高解像度画像から得られた特徴量であってもよい。

上記の処理により、制御装置５０の第２処理部５５Ｂは、ユーザをより精度よくトラッキングすることができる。

［トラッキングに関する処理（その２）］
上記の例では、ユーザは店舗に来店した顧客であるものとして説明したが、ユーザが店舗の店員や施設のスタッフ（例えば施設内で医療に従事する人など）である場合、以下の処理が行われてもよい。

（ユーザを登録する処理）
ステップＳ１０２のユーザをトラッキングする処理は、以下のように行われてもよい。図８は、第２処理部５５Ｂがユーザをトラッキングする処理（図３のステップＳ１０２の処理）の他の一例について説明するための図である。第２処理部５５Ｂは、低解像度画像から人物を含む領域を抽出し、高解像度画像から抽出した領域に対応する領域（当該人物を含む領域）を抽出する。第２処理部５５Ｂは、高解像度画像から抽出した領域から、更に人物の顔部分を含む領域を抽出し、人物の顔部分の特徴量を抽出する。第２処理部５５Ｂは、抽出した顔部分の特徴量と、ユーザ情報８０に予め登録されたトラッキング対象のユーザの顔部分の特徴量とを照合し、これらが合致する場合、画像に含まれる人物はトラッキング対象のユーザであると判定する。

（ユーザを特定する処理）
ステップＳ１０６のユーザを特定する処理は、以下のように行われてもよい。第２処理部５５Ｂは、ユーザのトラッキングに成功しなかった場合、図９に示すように、高解像度画像から周辺にいる人物を含む領域を抽出する。第２処理部５５Ｂは、抽出した領域から人物の顔部分を含む領域を抽出し、人物の顔部分の特徴量を抽出し、周辺にいる人物の顔の特徴量と、登録されたユーザの特徴量とを照合して、特徴量が閾値以上合致する特徴量を有する人物をトラッキング対象のユーザであると特定する。

上記のように、制御装置５０は、ユーザをより精度よくトラッキングすることができる。また、制御装置５０は、低解像度画像を用いて人物を抽出し、更に必要に応じて高解像度画像を用いて人物を抽出するため、処理負荷を軽減することができる。

［行動制御に関する処理］
図１０は、行動制御処理の流れの一例を示すフローチャートである。本処理は、図３のステップＳ１０４の処理後に実行される処理である。制御装置５０は、ユーザのジェスチャを認識し（ステップＳ２００）、認識したジェスチャに基づいて移動体１０の行動を制御する（ステップＳ２０２）。次に、制御装置５０は、サービスを終了するか否かを判定する（ステップＳ２０４）。サービスを終了しない場合、図３のステップＳ１０２の処理に戻り、トラッキングを継続する。サービスを終了する場合、制御装置５０は、ユーザの特徴量などユーザに関連する登録された登録情報を消去する（ステップＳ２０６）。例えば、ユーザがサービスを終了させる意図を示すジェスチャや、操作等を行ったり、音声を入力したりした場合、サービスは終了する。また、ユーザまたは移動体１０がサービスを提供するエリア外との境界に到達した場合、サービスの提供が終了する。これにより、本フローチャートの１ルーチンが終了する。

ステップＳ２００の処理について説明する。図１１は、ジェスチャを認識する処理について説明するための図（その１）である。第２処理部５５Ｂは、時刻Ｔに対応する低解像度画像ＩＭ２＃において検出したトラッキングしているユーザを含む人物検出領域と同じ人物検出領域（物標領域）を、時刻Ｔに対応する高解像度画像ＩＭにおいて特定する。そして、第２処理部５５Ｂは、特定した高解像度画像ＩＭにおける人物検出領域（物標領域）を切り出す（抽出する）。特定される、または切り出される人物検出領域（物標領域）は、上記のトラッキングしているユーザを含む人物検出領域と同じ人物検出領域に限らず、上記のユーザを含む人物検出領域を含む人物検出領域（物標領域）であってもよい。例えば、上記のユーザを含む人物検出領域に加え、別の領域を含む領域が特定され、切り出され、これが物標領域とされてもよい。

第２処理部５５Ｂは、切り出した人物検出領域に対して画像認識処理を実行する。画像認識処理は、人物のジェスチャを認識する処理や、スケルトン処理、人物の腕または手を含む領域を特定する処理、またはユーザの動き（例えば腕または手）の変化度合が大きい領域を抽出する処理を含む。以下、これらについて説明する。

図１２は、ジェスチャを認識する処理について説明するための図（その２）である。第２処理部５５Ｂは、切り出した人物検出領域に含まれるユーザの画像に対してスケルトン処理を行う。第２処理部５５Ｂは、スケルトン処理された結果から腕または手の一方または双方を含む領域（以下、対象領域）を抽出し、抽出した対象領域における腕または手の一方または双方の状態を示す特徴量を抽出する。対象領域（「特定領域」の一例）は、例えば、ジェスチャの認識に用いられる領域である。第２処理部５５Ｂは、上記の状態を示す特徴量にマッチングする特徴量を、ジェスチャ情報７４に含まれる特徴量から特定する。制御装置５０は、ジェスチャ情報７４において、特定した特徴量に関連付けられた移動体１０の動作を移動体１０に実行させる。なお、手を含む領域を抽出するか、腕を含む領域を抽出するかは、移動体１０に対するユーザの位置によって決定される。例えば、ユーザが、移動体１０から所定距離以上離れていない場合、手を含む領域が抽出され、ユーザが、移動体１０から所定距離以上離れている場合、腕を含む領域が抽出される。

図１３は、ジェスチャを認識する処理について説明するための図（その３）である。第２処理部５５Ｂは、時系列での人物の動きの変化度合が大きい領域（各パーツのうち変化度合が大きいパーツを含む領域）の情報を優先的に利用してジェスチャを認識してもよい。第２処理部５５Ｂは、時系列で撮像された高解像度画像に対するスケルトン処理の結果に基づいて、ユーザの左腕または左手の第１変化度合と、ユーザの右腕または右手の第２変化度合とのうち、変化度合が大きい腕または手を含む領域（特定領域）を抽出し、抽出した領域に含まれる腕または手によって行われているユーザのジェスチャを認識する。すなわち、第２処理部５５Ｂは、２以上の領域（特定領域）のうち、時系列での変化度合（例えば腕または手の変化度合）が大きい領域の情報を優先的に利用してジェスチャを認識する。２以上の領域は、少なくとも、対象物標の右腕または右手を含む領域として特定された特定領域と、対象物標の左腕または左手を含む領域として特定された特定領域とを含む。

第２処理部５５Ｂは、例えば、図１３に示すように、ユーザの右腕または右手の時系列の変化度合と、左腕または左手の時系列の変化度合とのうち、変化度合が大きい左腕または左手を含む領域を対象領域として抽出する。第２処理部５５Ｂは、例えば、変化度合が大きい左腕または左手のジェスチャを認識する。

なお、第２処理部５５Ｂは、上記に代えて、ユーザの右腕または右手が移動体１０を制御するためのジェスチャを行っているか、およびユーザの左腕または左手が移動体１０を制御するためのジェスチャを行っているかを判定し、判定の結果に基づいてジェスチャを認識してもよい。

上記の例では、トラッキングの対象は人物であるものとして説明したが、トラッキングの対象は、これに代えて（または加えて）、ロボットや動物など動作の主体となる物体であってもよい。この場合、第２処理部５５Ｂは、ロボットや動物など物体のジェスチャを認識する。

（ジェスチャを認識する処理）
制御装置５０は、移動体１０とユーザとの相対位置に基づいて、ジェスチャ情報７４の第１ジェスチャ情報７６を参照するか、第２ジェスチャ情報７８を参照するかを決定する。図１４に示すように、ユーザが、移動体１０から所定距離離れていない場合、言い換えると、ユーザが移動体１０を基準に設定された第１領域ＡＲ１内に存在する場合、制御装置５０は、ユーザが第１ジェスチャ情報７６に含まれる第１ジェスチャと同じジェスチャを行っているか否かを判定する。

図１５は、第１ジェスチャ情報７６に含まれる第１ジェスチャの一例を示す図である。第１ジェスチャは、例えば、以下に示すような腕を用いず手を用いたジェスチャである。
・移動体１０を前進させるジェスチャ：このジェスチャは、手を前方に突き出すようなジェスチャである。
・前進している移動体１０を停止させるジェスチャ：このジェスチャは、手のひらをユーザの前方方向に正対させるようなジェスチャである。
・移動体１０を左方向に移動させるジェスチャ：このジェスチャは、手を左方向に動かすジェスチャである。
・移動体１０を右方向に移動させるジェスチャ：このジェスチャは、手を右方向に動かすジェスチャである。
・移動体１０を後退させるジェスチャ：このジェスチャは、手のひらを鉛直反対方向に向けて、指先がユーザの方向に向くように（指先を手のひらに近づけるように）指先を動かす動作を繰り返すジェスチャ（手招きするジェスチャ）である。
・移動体１０を左方向に自転させるジェスチャ：このジェスチャは、人差し指および親指（または所定の指）を突き出して左方向に突き出した指を回転させるジェスチャである。
・移動体１０を右方向に自転させるジェスチャ：このジェスチャは、人差し指および親指（または所定の指）を突き出して右方向に突き出した指を回転させるジェスチャである。

図１６に示すように、ユーザが、移動体１０から所定距離離れている場合、言い換えると、ユーザが移動体１０を基準に設定された第２領域ＡＲ２に存在する場合（第１領域ＡＲ１内に存在しない場合）、制御装置５０は、ユーザが第２ジェスチャ情報７８に含まれる第２ジェスチャと同じジェスチャを行っているか否かを判定する。

第２ジェスチャは、腕（肘と手との間の腕）と手とを用いたジェスチャである。なお、第２ジェスチャは、第１ジェスチャよりも大きい身振りや大きい手ぶりなどの身体動作であればよい。大きい身体動作とは、移動体１０にある動作（直進など同じ動作）をさせる場合に、第２ジェスチャの身体動作は第１ジェスチャの身体動作よりも大きいことである。例えば、第１動作は手や指を用いたジェスチャであり、第２ジェスチャは腕を用いたジェスチャであってもよい。例えば、第１動作は膝よりも下の脚を用いたジェスチャであり、第２ジェスチャは下半身を用いたジェスチャであってもよい。例えば、第１動作は手や足などを用いたジェスチャであり、第２ジェスチャはジャンプなど体全体を用いたジェスチャであってもよい。

移動体１０のカメラ２２が、前述した図１４で示したように第１領域ＡＲ１に存在するユーザを撮像すると、腕部分は画像に収まりにくく、手や指が画像に収まる。第１領域ＡＲ１は、認識部５４が第１領域ＡＲ１に存在するユーザが撮像された画像からユーザの腕を認識できない、または認識しづらい領域である。移動体１０のカメラ２２が、図１６に示すように、第２領域ＡＲ２に存在するユーザを撮像すると、腕部分は画像に収まる。このため、上記のように、第１領域ＡＲ１にユーザが存在する場合、認識部５４は、第１ジェスチャ情報７６を用いてジェスチャを認識し、第２領域ＡＲ２にユーザが存在する場合、認識部５４は、第２ジェスチャ情報７８を用いてジェスチャを認識することで、より精度よくユーザのジェスチャを認識することができる。

図１７は、第２ジェスチャ情報７８に含まれる第２ジェスチャの一例を示す図である。
・ユーザの後ろに位置する移動体１０をユーザの前に移動させるジェスチャ：このジェスチャは、ユーザが腕と手とを体付近から体より前に押し出すようなジェスチャである。
・移動体１０を前進させるジェスチャ：このジェスチャは、腕と手とを前方に突き出すようなジェスチャである。
・前進している移動体１０を停止させるジェスチャ：このジェスチャは、前方に突き出した腕と手とのうち、手のひらを前方方向に正対させるようなジェスチャである。
・移動体１０を左方向に移動させるジェスチャ：このジェスチャは、腕と手とを左方向に動かすジェスチャである。
・移動体１０を右方向に移動させるジェスチャ：このジェスチャは、腕と手とを右方向に動かすジェスチャである。
・移動体１０を後退させるジェスチャである。このジェスチャは、手のひらを鉛直反対方向に向けて、指先がユーザの方向に向くように腕または手首を動かす動作を繰り返すジェスチャ（手招きするジェスチャ）である。
・移動体１０を左方向に自転させるジェスチャ：このジェスチャは、人差し指（または所定の指）を突き出して左方向に突き出した指を回転させるジェスチャである。
・移動体１０を右方向に自転させるジェスチャ：このジェスチャは、人差し指（または所定の指）を突き出して右方向に突き出した指を回転させるジェスチャである。

［フローチャート］
図１８は、制御装置５０がジェスチャを認識する処理の一例を示すフローチャートである。まず、制御装置５０は、ユーザが第１領域に存在するか否を判定する（ステップＳ３００）。ユーザが第１領域に存在する場合、制御装置５０は、取得された画像に基づいてユーザの挙動を認識する（ステップＳ３０２）。挙動とは、例えば、時間的に連続して取得された画像から認識されるユーザの動きである。

次に、制御装置５０は、第１ジェスチャ情報７６を参照して、ステップＳ３０２で認識した挙動に合致するジェスチャを特定する（ステップＳ３０４）。なお、ステップＳ３０２で認識した挙動に合致するジェスチャが第１ジェスチャ情報７６に含まれていない場合、移動体１０の動きを制御するジェスチャは行われていないと判定する。次に、制御装置５０は、特定したジェスチャに対応する行動を行う（ステップＳ３０６）。

ユーザが第１領域に存在しない場合（第２領域に存在する場合）、制御装置５０は、取得された画像に基づいてユーザの挙動を認識し（ステップＳ３０８）、第２ジェスチャ情報７８を参照して、ステップＳ３０８で認識した挙動に合致するジェスチャを特定する（ステップＳ３１０）。次に、制御装置５０は、特定したジェスチャに対応する行動を行う（ステップＳ３１２）。これにより、本フローチャートの１ルーチンの処理が終了する。

例えば、上記処理において、認識部５４は、トラッキングしているユーザのジェスチャを認識し、トラッキングしていない人物のジェスチャを認識する処理を行わなくてよい。これにより、制御装置５０は、トラッキングしているユーザのジェスチャに基づいて移動体を制御することを、処理負荷を低減して行うことができる。

上記のように、制御装置５０は、ユーザが存在する領域に基づいて、認識するジェスチャを切り替えることにより、より精度よくユーザのジェスチャを認識し、ユーザの意志に応じて移動体１０を作動させることができる。この結果、ユーザの利便性が向上する。

以上説明した第１実施形態によれば、制御装置５０が、第１画像を第１画像よりも低解像度の第２画像に変換し、第２画像において追跡する対象の対象物標を含む物標領域を取得し、取得した第２画像の前記物標領域に基づいて、第１画像において対象物標を含む物標領域を取得することにより、処理負荷を軽減しつつ、精度よく物標を特定することができる。

上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶した記憶装置と、
ハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記記憶装置に記憶されたプログラムを実行することにより、
第１画像を前記第１画像よりも低解像度の第２画像に変換し、
前記第２画像に基づいて前記第２画像における所定の対象物標を含む物標領域を特定し、特定した前記第２画像における前記物標領域に基づいて、前記第１画像における前記対象物標を含む物標領域を特定する、
処理装置。

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

１０‥移動体、２０‥本体、２２‥カメラ、５０‥制御装置、５２‥取得部、５４‥認識部、５５Ａ‥第１処理部、５５Ｂ‥第２処理部、５６‥軌道生成部、５８‥走行制御部、６０‥情報処理部、７０‥記憶部、７４‥ジェスチャ情報、７６‥第１ジェスチャ情報、７８‥第２ジェスチャ情報、８０‥ユーザ情報

Claims

第１画像を前記第１画像よりも低解像度の第２画像に変換する第１処理部と、
前記第２画像に基づいて前記第２画像における所定の対象物標を含む物標領域を特定し、特定した前記第２画像における前記物標領域に基づいて、前記第１画像における前記対象物標を含む物標領域を特定する第２処理部と、
を備える処理装置。
前記第２処理部は、第１時刻に撮像された前記第１画像が変換された前記第２画像および前記第１時刻よりも後の第２時刻に撮像された前記第１画像が変換された前記第２画像を解析して、前記第１時刻に対応する前記第２画像の前記物標領域に含まれる対象物標を、前記第２時刻に対応する前記第２画像においてトラッキングする、
請求項１に記載の処理装置。
前記第２処理部は、時系列で撮像された第１画像のそれぞれが変換された時系列の第２画像における前記対象物標の位置の変化に基づいて、前記第２画像における前記対象物標をトラッキングする、
請求項１または２に記載の処理装置。
前記対象物標は人物であり、
前記第２処理部は、過去に撮像された前記第１画像が変換された前記第２画像から得られたまたは記憶部に記憶された、前記人物の服の色、前記人物の性別、または前記人物の髪型のうち一以上の情報に基づいて、前記第２画像において前記人物をトラッキングする、
請求項１から３のうちいずれか１項に記載の処理装置。
前記第２処理部は、前記第２画像の前記物標領域に基づいて、前記第２画像が変換される前の前記第１画像における前記対象物標を含む物標領域を特定し、特定した前記第１画像における前記物標領域に対して所定の画像認識処理を実行する、
請求項１から４のうちいずれか１項に記載の処理装置。
前記所定の画像認識処理は、前記第１画像における前記物標領域のうちの特定領域の情報に基づいて前記対象物標のジェスチャを認識する処理を含む、
請求項５に記載の処理装置。
前記所定の画像認識処理は、前記特定領域を、前記第１画像における前記物標領域に対して骨格または関節点を認識することに基づき特定することを含む、
請求項６に記載の処理装置。
前記所定の画像認識処理は、前記骨格または関節点の認識結果に基づいて前記対象物標の腕または手を含む領域を前記特定領域とする処理を含む、
請求項７に記載の処理装置。
前記所定の画像認識処理は、前記第１画像における前記物標領域のうちの２以上の特定領域のうち、時系列での前記対象物標の動きの変化度合いが大きい特定領域の情報を優先的に利用してジェスチャ認識する処理を含む、
請求項６から８のうちいずれか１項に記載の処理装置。
前記２以上の特定領域には、少なくとも、前記対象物標の右腕または右手を含む領域として特定された特定領域および前記対象物標の左腕または左手を含む領域として特定された特定領域とが含まれる、
請求項９に記載の処理装置。
前記対象物標は人物であり、
前記第２処理部は、前記第１画像における人物の顔を含む領域を抽出し、抽出した領域に含まれる顔の特徴量と、予め記憶部に記憶された人物の顔の特徴量とを照合して、前記対象物標の人物をトラッキングする、
請求項１から１０のうちいずれか１項に記載の処理装置。
前記対象物標は人物であり、
前記第２処理部は、
第１時刻に撮像された前記第１画像が変換された前記第２画像の前記物標領域に含まれる人物を、前記第１時刻よりも後の第２時刻に撮像された前記第１画像が変換された前記第２画像においてトラッキングし、
トラッキングの結果に基づいて、前記第２時刻に撮像された前記第１画像における前記トラッキングした前記人物の腕または手を含む領域を抽出し、抽出した領域に基づいて前記人物のジェスチャを認識する、
請求項１から１１のうちいずれか１項に記載の処理装置。
前記第２処理部が認識したジェスチャに基づいて、移動体を制御する制御部を更に備える、
請求項６、７、または１２に記載の処理装置。
請求項１から１３のうちいずれか１項に記載の処理装置が搭載された移動体。
コンピュータが、
第１画像を前記第１画像よりも低解像度の第２画像に変換し、
前記第２画像に基づいて前記第２画像における所定の対象物標を含む物標領域を特定し、特定した前記第２画像における前記物標領域に基づいて、前記第１画像における前記対象物標を含む物標領域を特定する、
処理方法。
コンピュータに、
第１画像を前記第１画像よりも低解像度の第２画像に変換させ、
前記第２画像に基づいて前記第２画像における所定の対象物標を含む物標領域を特定し、特定した前記第２画像における前記物標領域に基づいて、前記第１画像における前記対象物標を含む物標領域を特定させる、
プログラム。