JP2022136829A - 処理装置、移動体、処理方法、およびプログラム - Google Patents
処理装置、移動体、処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2022136829A JP2022136829A JP2021036624A JP2021036624A JP2022136829A JP 2022136829 A JP2022136829 A JP 2022136829A JP 2021036624 A JP2021036624 A JP 2021036624A JP 2021036624 A JP2021036624 A JP 2021036624A JP 2022136829 A JP2022136829 A JP 2022136829A
- Authority
- JP
- Japan
- Prior art keywords
- image
- target
- processing
- gesture
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 177
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 35
- 239000000284 extract Substances 0.000 claims description 28
- 230000008859 change Effects 0.000 claims description 20
- 230000033001 locomotion Effects 0.000 claims description 16
- 230000001815 facial effect Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 22
- 238000001514 detection method Methods 0.000 description 14
- 210000003811 finger Anatomy 0.000 description 14
- 230000009471 action Effects 0.000 description 13
- 230000010365 information processing Effects 0.000 description 9
- 230000006399 behavior Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 241001465754 Metazoa Species 0.000 description 3
- 210000004247 hand Anatomy 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 210000000707 wrist Anatomy 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 210000002683 foot Anatomy 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 210000003423 ankle Anatomy 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000000617 arm Anatomy 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 210000001145 finger joint Anatomy 0.000 description 1
- 210000005224 forefinger Anatomy 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0231—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
- G05D1/0246—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
- G05D1/0253—Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means extracting relative motion information from a plurality of images taken successively, e.g. visual odometry, optical flow
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/01—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
- H04N7/0117—Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
Abstract
【課題】処理負荷を軽減しつつ、精度よく物標を特定する処理装置、移動体、処理方法及びプログラムを提供する。【解決手段】自律移動型であるロボットの本体20において、制御装置50は、認識部54を有する。認識部54は、第1画像を第1画像よりも低解像度の第2画像に変換する第1処理部と、第2画像に基づいて第2画像における所定の対象物標を含む物標領域を特定し、特定した第2画像における物標領域に基づいて、第1画像における対象物標を含む物標領域を特定する第2処理部と、を備える。【選択図】図2
Description
本発明は、処理装置、移動体、処理方法、およびプログラムに関する。
従来、2つのカメラにより撮像された画像を解析して物体をトラッキングする情報処理装置が開示されている(例えば、特許文献1参照)。
しかしながら、上記の技術では、利用する機器の構成が煩雑であったり、処理負荷が高かったりする場合があった。
本発明は、このような事情を考慮してなされたものであり、処理負荷を軽減しつつ、精度よく物標を特定することができる処理装置、移動体、処理方法、およびプログラムを提供することを目的の一つとする。
この発明に係る処理装置、移動体、処理方法、およびプログラムは、以下の構成を採用した。
(1): この発明の一実施形態に係る処理装置は、第1画像を前記第1画像よりも低解像度の第2画像に変換する第1処理部と、前記第2画像に基づいて前記第2画像における所定の対象物標を含む物標領域を特定し、特定した前記第2画像における前記物標領域に基づいて、前記第1画像における前記対象物標を含む物標領域を特定する第2処理部とを備える。
(1): この発明の一実施形態に係る処理装置は、第1画像を前記第1画像よりも低解像度の第2画像に変換する第1処理部と、前記第2画像に基づいて前記第2画像における所定の対象物標を含む物標領域を特定し、特定した前記第2画像における前記物標領域に基づいて、前記第1画像における前記対象物標を含む物標領域を特定する第2処理部とを備える。
(2):上記(1)の態様において、前記第2処理部は、第1時刻に撮像された前記第1画像が変換された前記第2画像および前記第1時刻よりも後の第2時刻に撮像された前記第1画像が変換された前記第2画像を解析して、前記第1時刻に対応する前記第2画像の前記物標領域に含まれる対象物標を、前記第2時刻に対応する前記第2画像においてトラッキングする。
(3):上記(1)または(2)の態様において、前記第2処理部は、時系列で撮像された第1画像のそれぞれが変換された時系列の第2画像における前記対象物標の位置の変化に基づいて、前記第2画像における前記対象物標をトラッキングする。
(4):上記(1)から(3)のいずれかの態様において、前記対象物標は人物であり、前記第2処理部は、過去に撮像された前記第1画像が変換された前記第2画像から得られたまたは記憶部に記憶された、前記人物の服の色、前記人物の性別、または前記人物の髪型のうち一以上の情報に基づいて、前記第2画像において前記人物をトラッキングする。
(5):上記(1)から(4)のいずれかの態様において、前記第2処理部は、前記第2画像の前記物標領域に基づいて、前記第2画像が変換される前の前記第1画像における前記対象物標を含む物標領域を特定し、特定した前記第1画像における前記物標領域に対して所定の画像認識処理を実行する。
(6):上記(5)の態様において、前記所定の画像認識処理は、前記第1画像における前記物標領域のうちの特定領域の情報に基づいて前記対象物標のジェスチャを認識する処理を含む。
(7):上記(6)の態様において、前記所定の画像認識処理は、前記特定領域を、前記第1画像における前記物標領域に対して骨格または関節点を認識することに基づき特定することを含む。
(8):上記(7)の態様において、前記所定の画像認識処理は、前記骨格または関節点の認識結果に基づいて前記対象物標の腕または手を含む領域を前記特定領域とする処理を含む。
(9):移動体は、上記(6)から(8)のいずれかの態様において、前記所定の画像認識処理は、前記第1画像における前記物標領域のうちの2以上の特定領域のうち、時系列での前記対象物標の動きの変化度合いが大きい特定領域の情報を優先的に利用してジェスチャ認識する処理を含む。
(10):上記(9)の態様において、前記2以上の特定領域には、少なくとも、前記対象物標の右腕または右手を含む領域として特定された特定領域および前記対象物標の左腕または左手を含む領域として特定された特定領域とが含まれる。
(11):上記(1)から(10)のいずれかの態様において、前記対象物標は人物であり、前記第2処理部は、前記第1画像における人物の顔を含む領域を抽出し、抽出した領域に含まれる顔の特徴量と、予め記憶部に記憶された人物の顔の特徴量とを照合して、前記対象物標の人物をトラッキングする。
(12):上記(1)から(10)のいずれかの態様において、前記対象物標は人物であり、前記第2処理部は、第1時刻に撮像された前記第1画像が変換された前記第2画像の前記物標領域に含まれる人物を、前記第1時刻よりも後の第2時刻に撮像された前記第1画像が変換された前記第2画像においてトラッキングし、トラッキングの結果に基づいて、前記第2時刻に撮像された前記第1画像における前記トラッキングした前記人物の腕または手を含む領域を抽出し、抽出した領域に基づいて前記人物のジェスチャを認識する。
(13):上記(6)、(7)、または(12)のいずれかの態様において、前記第2処理部が認識したジェスチャに基づいて、移動体を制御する制御部を更に備える。
(14):上記(1)から(13)のいずれかの態様の処理装置を備える移動体である。
(15):この発明の一態様に係る処理方法は、コンピュータが、第1画像を前記第1画像よりも低解像度の第2画像に変換し、前記第2画像に基づいて前記第2画像における所定の対象物標を含む物標領域を特定し、特定した前記第2画像における前記物標領域に基づいて、前記第1画像における前記対象物標を含む物標領域を特定する。
(16):この発明の一態様に係るプログラムは、コンピュータに、第1画像を前記第1画像よりも低解像度の第2画像に変換させ、前記第2画像に基づいて前記第2画像における所定の対象物標を含む物標領域を特定し、特定した前記第2画像における前記物標領域に基づいて、前記第1画像における前記対象物標を含む物標領域を特定させる。
(1)-(16)によれば、処理装置が、第1画像を第1画像よりも低解像度の第2画像に変換し、第2画像の対象物標を含む物標領域に基づいて、第1画像において対象物標を含む物標領域を取得することにより、処理負荷を軽減しつつ、精度よく物標を特定することができる。
(4)によれば、処理装置は、人物の特徴を用いることにより、より精度よく人物をトラッキングすることができる。
(6)によれば、処理装置は、人物やロボット、動物など動作の主体となる物体のジェスチャをより精度よく認識することができる。
(9)または(10)によれば、処理装置は、時系列での変化度合が大きい特定領域の情報を優先的に利用することで、より精度よくジェスチャを認識することができる。
(11)によれば、処理装置は、人物の顔の特徴量を用いることで、より精度よく人物をトラッキングすることができる。
(13)によれば、処理装置は、人物が意図したように移動体を制御することができる。
以下、図面を参照し、本発明の実施形態に係る処理装置、移動体、処理方法、およびプログラムについて説明する。
<第1実施形態>
[全体構成]
図1は、実施形態に係る処理装置を備える移動体10の一例を示す図である。移動体10は、自律移動型のロボットである。移動体10は、ユーザの行動を支援する。例えば、移動体10は、店舗の店員や、顧客、施設のスタッフ(以下、これらの人物を「ユーザ」と称する)などの指示に応じて顧客のショッピングまたは接客を支援したり、スタッフの作業の支援をしたりする。
[全体構成]
図1は、実施形態に係る処理装置を備える移動体10の一例を示す図である。移動体10は、自律移動型のロボットである。移動体10は、ユーザの行動を支援する。例えば、移動体10は、店舗の店員や、顧客、施設のスタッフ(以下、これらの人物を「ユーザ」と称する)などの指示に応じて顧客のショッピングまたは接客を支援したり、スタッフの作業の支援をしたりする。
移動体10は、本体20と、収容器92と、一以上の車輪94(図中、車輪94A、94B)とを備える。移動体10は、ユーザのジェスチャや音声、移動体10の入力部(後述するタッチパネル)に対する操作、端末装置(例えばスマートフォン)に対する操作に基づく指示に応じて移動する。移動体10は、例えば、本体20に設けられたカメラ22により撮像された画像に基づいてジェスチャを認識する。
例えば、移動体10は、車輪94を駆動させて、ユーザの移動に合わせて顧客に追従するように移動したり、顧客を先導するように移動したりする。この際、移動体10は、ユーザに商品や作業の説明をしたり、ユーザが探している商品や対象物を案内したりする。また、ユーザは、購入予定の商品や荷物を、これらを収容する収容器92に収納することができる。
本実施形態では、移動体10は収容器92を備えるものとして説明するが、これらに代えて(または加えて)、移動体10は、ユーザが移動体10と共に移動するために、着座する着座部や、ユーザが乗り込む筐体、ユーザが足をのせるステップなどが設けられてもよい。
図2は、移動体10の本体20に含まれる機能構成の一例を示す図である。本体20は、カメラ22と、通信部24と、位置特定部26と、スピーカ28と、マイク30と、タッチパネル32と、モータ34と、制御装置50(「処理装置」の一例)とを備える。
カメラ22は、移動体10の周辺を撮像する。カメラ22は、例えば、移動体10の周辺を広角に(例えば360度で)撮像可能な魚眼カメラである。カメラ22は、例えば、移動体10の上部に取り付けられ、移動体10の周辺を水平方向に関して広角に撮像する。カメラ22は、複数のカメラ(水平方向に関して120度の範囲や60度の範囲を撮像する複数のカメラ)を組み合わせて実現されてもよい。カメラ22は、1台に限らず複数台移動体10に設けられていてもよい。
通信部24は、セルラー網やWi-Fi網、Bluetooth(登録商標)、DSRC(Dedicated Short Range Communication)などを利用して他の装置と通信するための通信インターフェイスである。
位置特定部26は、移動体10の位置を特定する。位置特定部26は、移動体10に内蔵されたGPS(Global Positioning System)装置(不図示)により移動体10の位置情報を取得する。位置情報とは、例えば、二次元の地図座標でもよく、緯度経度情報でもよい。
スピーカ28は、例えば、所定の音声を出力する。マイク30は、例えば、ユーザが発した音声の入力を受け付ける。
タッチパネル32は、LCD(liquid Crystal Display)や有機EL(Electroluminescence)などの表示部と、座標検出機構により操作者のタッチ位置が検出可能な入力部とが重畳して構成される。表示部は、操作用のGUI(Graphical User Interface)スイッチを表示する。入力部は、GUIスイッチに対するタッチ操作、フリック操作、スワイプ操作などを検出したときに、GUIスイッチへのタッチ操作がなされたこと示す操作信号を生成して、制御装置50に出力する。制御装置50は、操作に応じて、スピーカ28に音声を出力させたり、タッチパネル32に画像を表示させたりする。また、制御装置50は、操作に応じて、移動体10を移動させてもよい。
モータ34は、車輪94を駆動させて、移動体10を移動させる。車輪94は、例えば、モータ34によって回転方向に駆動される駆動輪と、ヨー方向に駆動される非駆動輪である操舵輪とを含む。操舵輪の角度が調整されることによって、移動体10は進路を変更したり、自転したりすることができる。
本実施形態において、移動体10は、移動を実現するための機構として車輪94を備えているが、本実施形態はこの構成に限定されない。例えば、移動体10は多足歩行型のロボットであってもよい。
制御装置50は、例えば、取得部52と、認識部54と、軌道生成部56と、走行制御部58と、情報処理部60と、記憶部70とを備える。取得部52と、認識部54と、軌道生成部56と、走行制御部58と、情報処理部60との一部または全部は、例えば、CPU(Central Processing Unit)などのハードウェアプロセッサがプログラム(ソフトウェア)を実行することにより実現される。これらの機能部の一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。プログラムは、予めHDD(Hard Disk Drive)やフラッシュメモリなどの記憶部70(非一過性の記憶媒体を備える記憶装置)に格納されていてもよいし、DVDやCD-ROMなどの着脱可能な記憶媒体(非一過性の記憶媒体)に格納されており、記憶媒体がドライブ装置に装着されることでインストールされてもよい。取得部52、認識部54、軌道生成部56、走行制御部58、または情報処理部60は、制御装置50(移動体10)とは異なる装置に設けられてよい。例えば、認識部54は、他の装置に設けられ、制御装置50は、他の装置の処理結果に基づいて、移動体10を制御してもよい。また、記憶部70に記憶される情報の一部または全部も他の装置に格納されてもよい。取得部52、認識部54、軌道生成部56、走行制御部58、または情報処理部60のうち、一以上の機能部を含む構成は、システムとして構成されてもよい。
記憶部70には、地図情報72や、ジェスチャ情報74、ユーザ情報80が記憶されている。地図情報72は、例えば、道路や施設内の通路を示すリンクと、リンクによって接続されたノードとによって道路や通路の形状が表現された情報である。地図情報72は、道路の曲率やPOI(Point Of Interest)情報などを含んでもよい。
ジェスチャ情報74は、ジェスチャに関する情報(テンプレートの特徴量)と、移動体10の動作とが互いに対応付けられた情報である。ジェスチャ情報74は、第1ジェスチャ情報76および第2ジェスチャ情報78を含む。ユーザ情報80は、ユーザの特徴量を示す情報である。ジェスチャ情報74およびユーザ情報80の詳細については後述する。
取得部52は、カメラ22によって撮像された画像(以下、「周辺画像」と称する)を取得する。取得部52は、例えば、取得した周辺画像を魚眼カメラ座標系におけるピクセルデータとして保持する。
認識部54は、例えば、第1処理部55Aおよび第2処理部55Bを含む。第1処理部55Aは、カメラ22により撮像された第1画像(例えば高解像度画像)を第1画像よりも低解像度の第2画像(低解像度画像)に変換する。第2処理部55Bは、第2画像に基づいて第2画像の所定の対象物標を含む物標領域を特定し、特定した第2画像における物標領域に基づいて、第1画像において対象物標を含む物標領域を特定する。対象物標とは、例えば、追跡対象の物標である。第1処理部55Aおよび第2処理部55Bの処理の詳細については後述する。
また、第2処理部55Bは、一以上の周辺画像に基づいて、ユーザによる身体動作(以下、「ジェスチャ」と称する)を認識する。認識部54は、周辺画像から抽出したユーザのジェスチャの特徴量とテンプレートの特徴量(ジェスチャを示す特徴量)とを照合することによって、ジェスチャを認識する。特徴量は、例えば、人の指や、指の関節、手首、腕、骨格などの特徴箇所と、それを繋ぐリンクと、リンクの傾きや位置等とを表すデータである。
軌道生成部56は、ユーザのジェスチャや、ユーザにより設定された目的地、周辺の物体、ユーザの位置、地図情報72等に基づいて、移動体10が将来走行すべき軌道を生成する。軌道生成部56は、円弧を複数組み合わせて、目標地点まで移動体10が滑らかに移動できるような軌道を生成する。軌道生成部56は、例えば、3つの円弧を結合させて軌道を生成する。軌道生成部56は、例えば、ベジェ曲線などの幾何的モデルに状態をフィッティングさせることで軌道を生成してもよい。軌道は、例えば、実際には有限個の軌道点の集まりとして生成される。
軌道生成部56は、直交座標系と魚眼カメラ座標系との間で座標変換を行う。直交座標系と魚眼カメラ座標系の間では、座標間で一対一の関係が成立し、その関係は対応情報として記憶部70に記憶されている。軌道生成部56は、直交座標系における軌道(直交座標系軌道)を生成し、この軌道を魚眼カメラ座標系における軌道(魚眼カメラ座標系軌道)に座標変換する。軌道生成部56は、魚眼カメラ座標系軌道のリスクを計算する。リスクとは、移動体10が障害物に接近する可能性の高さを示す指標値である。リスクは、軌道(軌道の軌道点)に対して障害物との距離が小さければ小さいほど高く、軌道に対して障害物との距離が大きければ大きいほどリスクを低くなる傾向である。
軌道生成部56は、リスクの合計値や、各軌道点のリスクが、予め設定された基準を満たす場合(例えば合計値が閾値Th1以下であり、且つ各軌道点のリスクが閾値Th2以下である場合)、基準を満たす軌道を移動体が移動する軌道として採用する。
上記の軌道が予め設定された基準を満たさない場合、以下の処理を行ってもよい。軌道生成部56は、魚眼カメラ座標系において走行可能空間を検出し、検出された魚眼カメラ座標系における走行可能空間を直交座標系における走行可能空間に座標変換する。走行可能空間とは、移動体10の移動方向の領域のうち障害物およびその障害物の周辺の領域(リスクが設定された領域またはリスクが閾値以上の領域)を除いた空間である。軌道生成部56は、直交座標系に座標変換された走行可能空間内に軌道が収まるように軌道を修正する。軌道生成部56は、直交座標系軌道を魚眼カメラ座標系軌道に座標変換して、周辺画像と、魚眼カメラ座標系軌道とに基づいて、魚眼カメラ座標系軌道のリスクを計算する。この処理を繰り返して、上記の予め設定された基準を満たす軌道を探索する。
走行制御部58は、予め設定された基準を満たす軌道に沿って、移動体10を走行させる。走行制御部58は、移動体10が軌道に沿って走行させるための指令値をモータ34に出力する。モータ34は、指令値に従って車輪94を回転させ、移動体10を軌道に沿って移動させる。
情報処理部60は、本体20に含まれる各種装置や機器を制御する。情報処理部60は、例えば、スピーカ28や、マイク30、タッチパネル32を制御する。また、情報処理部60は、マイク30に入力された音声や、タッチパネル32に対して行われた操作を認識する。情報処理部60は、認識の結果に基づいて移動体10を動作させる。
なお、上記の例では、認識部54は、移動体10に設けられたカメラ22により撮像された画像を各種処理に用いるものとして説明したが、認識部54は、移動体10に設けられていないカメラ(移動体10とは異なる位置に設けられたカメラ)により撮像された画像を用いて各種処理を行ってもよい。この場合、カメラにより撮像された画像は、通信を介して制御装置50に送信され、制御装置50は、送信された画像を取得して、取得した画像に基づいて各種処理を実行する。また、認識部54は、複数の画像を用いて各種処理を実行してもよい。例えば、認識部54は、カメラ22により撮像された画像や、移動体10とは異なる位置に設けられたカメラにより撮像された複数の画像に基づいて、各種処理を実行してもよい。
[支援処理]
移動体10は、ユーザのショッピングを支援する支援処理を実行する。支援処理は、トラッキングに関する処理と、行動制御に関する処理とを含む。
移動体10は、ユーザのショッピングを支援する支援処理を実行する。支援処理は、トラッキングに関する処理と、行動制御に関する処理とを含む。
[トラッキングに関する処理(その1)]
図3は、トラッキング処理の流れの一例を示すフローチャートである。まず、移動体10の制御装置50は、ユーザの登録を受け付ける(ステップS100)。次に、制御装置50は、ステップS100で登録されたユーザをトラッキングする(ステップS102)。次に、制御装置50は、トラッキングが成功したか否かを判定する(ステップS104)。トラッキングを成功した場合、後述する図10のステップS200の処理に進む。トラッキングに成功しなかった場合、制御装置50は、ユーザを特定する(ステップS106)。
図3は、トラッキング処理の流れの一例を示すフローチャートである。まず、移動体10の制御装置50は、ユーザの登録を受け付ける(ステップS100)。次に、制御装置50は、ステップS100で登録されたユーザをトラッキングする(ステップS102)。次に、制御装置50は、トラッキングが成功したか否かを判定する(ステップS104)。トラッキングを成功した場合、後述する図10のステップS200の処理に進む。トラッキングに成功しなかった場合、制御装置50は、ユーザを特定する(ステップS106)。
(ユーザを登録する処理)
ステップS100のユーザを登録する処理について説明する。移動体10の制御装置50は、ユーザ(例えば店舗に来店した顧客)の特定のジェスチャや、音声、タッチパネル32に対する操作に基づいてユーザの登録の意志を確認する。ユーザの登録の意志が確認できた場合、制御装置50の認識部54は、ユーザの特徴量を抽出し、抽出した特徴量を登録する。
ステップS100のユーザを登録する処理について説明する。移動体10の制御装置50は、ユーザ(例えば店舗に来店した顧客)の特定のジェスチャや、音声、タッチパネル32に対する操作に基づいてユーザの登録の意志を確認する。ユーザの登録の意志が確認できた場合、制御装置50の認識部54は、ユーザの特徴量を抽出し、抽出した特徴量を登録する。
図4は、ユーザの特徴量を抽出する処理および特徴量を登録する処理について説明するための図である。制御装置50の第2処理部55Bは、ユーザが撮像された画像IM1からユーザを特定し、特定したユーザの関節点や骨格を認識する(スケルトン処理を実行する)。例えば、第2処理部55Bは、画像IM1からユーザの顔や、顔のパーツ、首、肩、肘、手首、腰、足首などを推定し、推定した各パーツの位置に基づいて、スケルトン処理を実行する。例えば、第2処理部55Bは、ディープラーニングを用いてユーザの関節点や骨格を推定する公知の手法(例えばオープンポーズなどの手法)を用いて、スケルトン処理を実行する。次に、第2処理部55Bは、スケルトン処理の結果に基づいて、ユーザの顔や、上半身、下半身等を特定し、特定した顔、上半身、下半身ごとの特徴量を抽出して、抽出した特徴量をユーザの特徴量として記憶部70に登録する。顔の特徴量は、例えば、男性、女性、髪型、顔の特徴量である。男性、女性を示す特徴量は、頭部の形状等を示す特徴量であり、髪型は頭部の形状から得られる髪の長さ(ショートヘア、ロングヘアなど)を示す情報である。上半身の特徴量は、例えば、上半身部の色である。下半身の特徴量は、例えば、下半身部の色である。
(ユーザをトラッキングする処理)
第1処理部55Aは、単位時間ごとに撮像された高解像度画像のそれぞれを低解像度画像に変換する。解析度が高いとは、例えば、画像における単位領域ごとのピクセル数が、低解像度画像の単位領域ごとのピクセル数よりも多いこと(dpiが高いこと)である。第1処理部55Aは、高解像度画像IMの画素を間引く処理を行って、高解像度画像を低解像度画像に変換したり、所定のアルゴリズムを適用して高解像度画像を低解像度画像に変換したりする。
第1処理部55Aは、単位時間ごとに撮像された高解像度画像のそれぞれを低解像度画像に変換する。解析度が高いとは、例えば、画像における単位領域ごとのピクセル数が、低解像度画像の単位領域ごとのピクセル数よりも多いこと(dpiが高いこと)である。第1処理部55Aは、高解像度画像IMの画素を間引く処理を行って、高解像度画像を低解像度画像に変換したり、所定のアルゴリズムを適用して高解像度画像を低解像度画像に変換したりする。
第2処理部55Bは、第1時刻に撮像された高解像度画像が変換された低解像度画像および第1時刻よりも後の第2時刻に撮像された高解像度画像が変換された低解像度画像を解析して、第1時刻に対応する低解像度画像の追跡する対象の対象物標を含む物標領域に含まれる対象物標を、第2時刻に対応する低解像度画像においてトラッキングする。第2処理部55Bは、時系列で撮像された高解像度画像のそれぞれが変換された時系列の低解像度画像における対象物標の位置の変化に基づいて、低解像度画像における対象物標をトラッキングする。このトラッキングに用いられる低解像度画像は、例えば、直近で撮像された高解像度画像が変換された低解像度画像である。以下、具体的に説明する。
ステップS102のユーザをトラッキングする処理について説明する。図5は、認識部54がユーザをトラッキングする処理(図3のステップS102の処理)について説明するための図である。認識部54の第1処理部55Aは、時刻Tで撮像された画像を取得する。この画像は、カメラ22により撮像された画像(以下、高解像度画像IM2)である。
認識部54の第1処理部55Aは、高解像度画像IM2を、高解像度画像IM2よりも解像度が低い低解像度画像IM2#に変換する。次に、第2処理部55Bは、低解像度画像IM2#から人物および人物を含む人物検出領域を検出する。
第2処理部55Bは、時刻T-1(時刻Tより以前)に検出した人物の位置(時刻T-1におけるトラッキングしているユーザの人物検出領域)と人物の移動方向とに基づいて、時刻Tにおけるユーザの位置(人物検出領域)を推定する。第2処理部55Bは、時刻Tで得られた低解像度画像IM2において検出したユーザが、時刻T-1以前のトラッキン対象のユーザの位置または移動方向から推定した位置付近に存在する場合、時刻Tで検出したユーザはトラッキングする対象(トラッキング対象)のユーザであると特定する。ユーザが特定可能な場合、トラッキングが成功したとみなされる。
上記のように制御装置50は、低解像度画像IM2#を用いてユーザをトラッキングするため、処理負荷が軽減される。
第2処理部55Bは、トラッキング処理において、上記のように時刻Tおよび時刻T-1におけるユーザの位置に加え、更にユーザの特徴量を用いてユーザをトラッキングしてもよい。図6は、特徴量を用いたトラッキング処理について説明するための図である。例えば、第2処理部55Bは、時刻Tにおけるユーザの位置を推定し、推定した位置付近に存在するユーザを特定し、更にそのユーザの特徴量を抽出する。制御装置50は、抽出した特徴量と、登録された特徴量とが閾値以上合致する場合、特定したユーザをトラッキング対象のユーザであると推定し、トラッキングは成功したと判定する。
例えば、ユーザの特徴量を抽出する際、第2処理部55Bは、人物を含む領域を抽出し、その抽出した領域の画像(高解像度画像)に対してスケルトン処理を行って人物の特徴量を抽出する。これにより、処理負荷が軽減される。
なお、第2処理部55Bは、高解像度画像から得られた特徴量に代えて、低解像度画像から得られた特徴量と、登録された特徴量とが閾値以上合致する場合、特定したユーザをトラッキング対象のユーザであると推定してもよい。この場合、予め記憶部70には、低解像度画像から得られた特徴量と比較するための特徴量が記憶され、この特徴量が用いられる。また、第2処理部55Bは、登録された特徴量に代えて(または加えて)、例えば、トラッキングしている際に得られた画像から抽出した特徴量と、今回撮像された画像から得られた特徴量とを比較して、ユーザを特定してもよい。
例えば、トラッキング対象のユーザが他の人物と重なったり、交差したりした場合であっても、上記のようにユーザの位置の変化と、ユーザの特徴量とに基づいて、より精度よくユーザがトラッキングされる。
(ユーザを特定する処理)
ステップS106のユーザを特定する処理について説明する。第2処理部55Bは、ユーザのトラッキングに成功しなかった場合、図7に示すように、周辺にいる人物の特徴量と、登録されたユーザの特徴量とを照合して、トラッキング対象のユーザを特定する。第2処理部55Bは、例えば、画像に含まれる各人物の特徴量を抽出する。第2処理部55Bは、各人物の特徴量と、登録されたユーザの特徴量とを照合して、登録されたユーザの特徴量に閾値以上合致する人物を特定する。第2処理部55Bは、特定したユーザがトラッキング対象のユーザとされる。この時、用いられる特徴量は、低解像度画像から得られた特徴量であってもよいし、高解像度画像から得られた特徴量であってもよい。
ステップS106のユーザを特定する処理について説明する。第2処理部55Bは、ユーザのトラッキングに成功しなかった場合、図7に示すように、周辺にいる人物の特徴量と、登録されたユーザの特徴量とを照合して、トラッキング対象のユーザを特定する。第2処理部55Bは、例えば、画像に含まれる各人物の特徴量を抽出する。第2処理部55Bは、各人物の特徴量と、登録されたユーザの特徴量とを照合して、登録されたユーザの特徴量に閾値以上合致する人物を特定する。第2処理部55Bは、特定したユーザがトラッキング対象のユーザとされる。この時、用いられる特徴量は、低解像度画像から得られた特徴量であってもよいし、高解像度画像から得られた特徴量であってもよい。
上記の処理により、制御装置50の第2処理部55Bは、ユーザをより精度よくトラッキングすることができる。
[トラッキングに関する処理(その2)]
上記の例では、ユーザは店舗に来店した顧客であるものとして説明したが、ユーザが店舗の店員や施設のスタッフ(例えば施設内で医療に従事する人など)である場合、以下の処理が行われてもよい。
上記の例では、ユーザは店舗に来店した顧客であるものとして説明したが、ユーザが店舗の店員や施設のスタッフ(例えば施設内で医療に従事する人など)である場合、以下の処理が行われてもよい。
(ユーザを登録する処理)
ステップS102のユーザをトラッキングする処理は、以下のように行われてもよい。図8は、第2処理部55Bがユーザをトラッキングする処理(図3のステップS102の処理)の他の一例について説明するための図である。第2処理部55Bは、低解像度画像から人物を含む領域を抽出し、高解像度画像から抽出した領域に対応する領域(当該人物を含む領域)を抽出する。第2処理部55Bは、高解像度画像から抽出した領域から、更に人物の顔部分を含む領域を抽出し、人物の顔部分の特徴量を抽出する。第2処理部55Bは、抽出した顔部分の特徴量と、ユーザ情報80に予め登録されたトラッキング対象のユーザの顔部分の特徴量とを照合し、これらが合致する場合、画像に含まれる人物はトラッキング対象のユーザであると判定する。
ステップS102のユーザをトラッキングする処理は、以下のように行われてもよい。図8は、第2処理部55Bがユーザをトラッキングする処理(図3のステップS102の処理)の他の一例について説明するための図である。第2処理部55Bは、低解像度画像から人物を含む領域を抽出し、高解像度画像から抽出した領域に対応する領域(当該人物を含む領域)を抽出する。第2処理部55Bは、高解像度画像から抽出した領域から、更に人物の顔部分を含む領域を抽出し、人物の顔部分の特徴量を抽出する。第2処理部55Bは、抽出した顔部分の特徴量と、ユーザ情報80に予め登録されたトラッキング対象のユーザの顔部分の特徴量とを照合し、これらが合致する場合、画像に含まれる人物はトラッキング対象のユーザであると判定する。
(ユーザを特定する処理)
ステップS106のユーザを特定する処理は、以下のように行われてもよい。第2処理部55Bは、ユーザのトラッキングに成功しなかった場合、図9に示すように、高解像度画像から周辺にいる人物を含む領域を抽出する。第2処理部55Bは、抽出した領域から人物の顔部分を含む領域を抽出し、人物の顔部分の特徴量を抽出し、周辺にいる人物の顔の特徴量と、登録されたユーザの特徴量とを照合して、特徴量が閾値以上合致する特徴量を有する人物をトラッキング対象のユーザであると特定する。
ステップS106のユーザを特定する処理は、以下のように行われてもよい。第2処理部55Bは、ユーザのトラッキングに成功しなかった場合、図9に示すように、高解像度画像から周辺にいる人物を含む領域を抽出する。第2処理部55Bは、抽出した領域から人物の顔部分を含む領域を抽出し、人物の顔部分の特徴量を抽出し、周辺にいる人物の顔の特徴量と、登録されたユーザの特徴量とを照合して、特徴量が閾値以上合致する特徴量を有する人物をトラッキング対象のユーザであると特定する。
上記のように、制御装置50は、ユーザをより精度よくトラッキングすることができる。また、制御装置50は、低解像度画像を用いて人物を抽出し、更に必要に応じて高解像度画像を用いて人物を抽出するため、処理負荷を軽減することができる。
[行動制御に関する処理]
図10は、行動制御処理の流れの一例を示すフローチャートである。本処理は、図3のステップS104の処理後に実行される処理である。制御装置50は、ユーザのジェスチャを認識し(ステップS200)、認識したジェスチャに基づいて移動体10の行動を制御する(ステップS202)。次に、制御装置50は、サービスを終了するか否かを判定する(ステップS204)。サービスを終了しない場合、図3のステップS102の処理に戻り、トラッキングを継続する。サービスを終了する場合、制御装置50は、ユーザの特徴量などユーザに関連する登録された登録情報を消去する(ステップS206)。例えば、ユーザがサービスを終了させる意図を示すジェスチャや、操作等を行ったり、音声を入力したりした場合、サービスは終了する。また、ユーザまたは移動体10がサービスを提供するエリア外との境界に到達した場合、サービスの提供が終了する。これにより、本フローチャートの1ルーチンが終了する。
図10は、行動制御処理の流れの一例を示すフローチャートである。本処理は、図3のステップS104の処理後に実行される処理である。制御装置50は、ユーザのジェスチャを認識し(ステップS200)、認識したジェスチャに基づいて移動体10の行動を制御する(ステップS202)。次に、制御装置50は、サービスを終了するか否かを判定する(ステップS204)。サービスを終了しない場合、図3のステップS102の処理に戻り、トラッキングを継続する。サービスを終了する場合、制御装置50は、ユーザの特徴量などユーザに関連する登録された登録情報を消去する(ステップS206)。例えば、ユーザがサービスを終了させる意図を示すジェスチャや、操作等を行ったり、音声を入力したりした場合、サービスは終了する。また、ユーザまたは移動体10がサービスを提供するエリア外との境界に到達した場合、サービスの提供が終了する。これにより、本フローチャートの1ルーチンが終了する。
ステップS200の処理について説明する。図11は、ジェスチャを認識する処理について説明するための図(その1)である。第2処理部55Bは、時刻Tに対応する低解像度画像IM2#において検出したトラッキングしているユーザを含む人物検出領域と同じ人物検出領域(物標領域)を、時刻Tに対応する高解像度画像IMにおいて特定する。そして、第2処理部55Bは、特定した高解像度画像IMにおける人物検出領域(物標領域)を切り出す(抽出する)。特定される、または切り出される人物検出領域(物標領域)は、上記のトラッキングしているユーザを含む人物検出領域と同じ人物検出領域に限らず、上記のユーザを含む人物検出領域を含む人物検出領域(物標領域)であってもよい。例えば、上記のユーザを含む人物検出領域に加え、別の領域を含む領域が特定され、切り出され、これが物標領域とされてもよい。
第2処理部55Bは、切り出した人物検出領域に対して画像認識処理を実行する。画像認識処理は、人物のジェスチャを認識する処理や、スケルトン処理、人物の腕または手を含む領域を特定する処理、またはユーザの動き(例えば腕または手)の変化度合が大きい領域を抽出する処理を含む。以下、これらについて説明する。
図12は、ジェスチャを認識する処理について説明するための図(その2)である。第2処理部55Bは、切り出した人物検出領域に含まれるユーザの画像に対してスケルトン処理を行う。第2処理部55Bは、スケルトン処理された結果から腕または手の一方または双方を含む領域(以下、対象領域)を抽出し、抽出した対象領域における腕または手の一方または双方の状態を示す特徴量を抽出する。対象領域(「特定領域」の一例)は、例えば、ジェスチャの認識に用いられる領域である。第2処理部55Bは、上記の状態を示す特徴量にマッチングする特徴量を、ジェスチャ情報74に含まれる特徴量から特定する。制御装置50は、ジェスチャ情報74において、特定した特徴量に関連付けられた移動体10の動作を移動体10に実行させる。なお、手を含む領域を抽出するか、腕を含む領域を抽出するかは、移動体10に対するユーザの位置によって決定される。例えば、ユーザが、移動体10から所定距離以上離れていない場合、手を含む領域が抽出され、ユーザが、移動体10から所定距離以上離れている場合、腕を含む領域が抽出される。
図13は、ジェスチャを認識する処理について説明するための図(その3)である。第2処理部55Bは、時系列での人物の動きの変化度合が大きい領域(各パーツのうち変化度合が大きいパーツを含む領域)の情報を優先的に利用してジェスチャを認識してもよい。第2処理部55Bは、時系列で撮像された高解像度画像に対するスケルトン処理の結果に基づいて、ユーザの左腕または左手の第1変化度合と、ユーザの右腕または右手の第2変化度合とのうち、変化度合が大きい腕または手を含む領域(特定領域)を抽出し、抽出した領域に含まれる腕または手によって行われているユーザのジェスチャを認識する。すなわち、第2処理部55Bは、2以上の領域(特定領域)のうち、時系列での変化度合(例えば腕または手の変化度合)が大きい領域の情報を優先的に利用してジェスチャを認識する。2以上の領域は、少なくとも、対象物標の右腕または右手を含む領域として特定された特定領域と、対象物標の左腕または左手を含む領域として特定された特定領域とを含む。
第2処理部55Bは、例えば、図13に示すように、ユーザの右腕または右手の時系列の変化度合と、左腕または左手の時系列の変化度合とのうち、変化度合が大きい左腕または左手を含む領域を対象領域として抽出する。第2処理部55Bは、例えば、変化度合が大きい左腕または左手のジェスチャを認識する。
なお、第2処理部55Bは、上記に代えて、ユーザの右腕または右手が移動体10を制御するためのジェスチャを行っているか、およびユーザの左腕または左手が移動体10を制御するためのジェスチャを行っているかを判定し、判定の結果に基づいてジェスチャを認識してもよい。
上記の例では、トラッキングの対象は人物であるものとして説明したが、トラッキングの対象は、これに代えて(または加えて)、ロボットや動物など動作の主体となる物体であってもよい。この場合、第2処理部55Bは、ロボットや動物など物体のジェスチャを認識する。
(ジェスチャを認識する処理)
制御装置50は、移動体10とユーザとの相対位置に基づいて、ジェスチャ情報74の第1ジェスチャ情報76を参照するか、第2ジェスチャ情報78を参照するかを決定する。図14に示すように、ユーザが、移動体10から所定距離離れていない場合、言い換えると、ユーザが移動体10を基準に設定された第1領域AR1内に存在する場合、制御装置50は、ユーザが第1ジェスチャ情報76に含まれる第1ジェスチャと同じジェスチャを行っているか否かを判定する。
制御装置50は、移動体10とユーザとの相対位置に基づいて、ジェスチャ情報74の第1ジェスチャ情報76を参照するか、第2ジェスチャ情報78を参照するかを決定する。図14に示すように、ユーザが、移動体10から所定距離離れていない場合、言い換えると、ユーザが移動体10を基準に設定された第1領域AR1内に存在する場合、制御装置50は、ユーザが第1ジェスチャ情報76に含まれる第1ジェスチャと同じジェスチャを行っているか否かを判定する。
図15は、第1ジェスチャ情報76に含まれる第1ジェスチャの一例を示す図である。第1ジェスチャは、例えば、以下に示すような腕を用いず手を用いたジェスチャである。
・移動体10を前進させるジェスチャ:このジェスチャは、手を前方に突き出すようなジェスチャである。
・前進している移動体10を停止させるジェスチャ:このジェスチャは、手のひらをユーザの前方方向に正対させるようなジェスチャである。
・移動体10を左方向に移動させるジェスチャ:このジェスチャは、手を左方向に動かすジェスチャである。
・移動体10を右方向に移動させるジェスチャ:このジェスチャは、手を右方向に動かすジェスチャである。
・移動体10を後退させるジェスチャ:このジェスチャは、手のひらを鉛直反対方向に向けて、指先がユーザの方向に向くように(指先を手のひらに近づけるように)指先を動かす動作を繰り返すジェスチャ(手招きするジェスチャ)である。
・移動体10を左方向に自転させるジェスチャ:このジェスチャは、人差し指および親指(または所定の指)を突き出して左方向に突き出した指を回転させるジェスチャである。
・移動体10を右方向に自転させるジェスチャ:このジェスチャは、人差し指および親指(または所定の指)を突き出して右方向に突き出した指を回転させるジェスチャである。
・移動体10を前進させるジェスチャ:このジェスチャは、手を前方に突き出すようなジェスチャである。
・前進している移動体10を停止させるジェスチャ:このジェスチャは、手のひらをユーザの前方方向に正対させるようなジェスチャである。
・移動体10を左方向に移動させるジェスチャ:このジェスチャは、手を左方向に動かすジェスチャである。
・移動体10を右方向に移動させるジェスチャ:このジェスチャは、手を右方向に動かすジェスチャである。
・移動体10を後退させるジェスチャ:このジェスチャは、手のひらを鉛直反対方向に向けて、指先がユーザの方向に向くように(指先を手のひらに近づけるように)指先を動かす動作を繰り返すジェスチャ(手招きするジェスチャ)である。
・移動体10を左方向に自転させるジェスチャ:このジェスチャは、人差し指および親指(または所定の指)を突き出して左方向に突き出した指を回転させるジェスチャである。
・移動体10を右方向に自転させるジェスチャ:このジェスチャは、人差し指および親指(または所定の指)を突き出して右方向に突き出した指を回転させるジェスチャである。
図16に示すように、ユーザが、移動体10から所定距離離れている場合、言い換えると、ユーザが移動体10を基準に設定された第2領域AR2に存在する場合(第1領域AR1内に存在しない場合)、制御装置50は、ユーザが第2ジェスチャ情報78に含まれる第2ジェスチャと同じジェスチャを行っているか否かを判定する。
第2ジェスチャは、腕(肘と手との間の腕)と手とを用いたジェスチャである。なお、第2ジェスチャは、第1ジェスチャよりも大きい身振りや大きい手ぶりなどの身体動作であればよい。大きい身体動作とは、移動体10にある動作(直進など同じ動作)をさせる場合に、第2ジェスチャの身体動作は第1ジェスチャの身体動作よりも大きいことである。例えば、第1動作は手や指を用いたジェスチャであり、第2ジェスチャは腕を用いたジェスチャであってもよい。例えば、第1動作は膝よりも下の脚を用いたジェスチャであり、第2ジェスチャは下半身を用いたジェスチャであってもよい。例えば、第1動作は手や足などを用いたジェスチャであり、第2ジェスチャはジャンプなど体全体を用いたジェスチャであってもよい。
移動体10のカメラ22が、前述した図14で示したように第1領域AR1に存在するユーザを撮像すると、腕部分は画像に収まりにくく、手や指が画像に収まる。第1領域AR1は、認識部54が第1領域AR1に存在するユーザが撮像された画像からユーザの腕を認識できない、または認識しづらい領域である。移動体10のカメラ22が、図16に示すように、第2領域AR2に存在するユーザを撮像すると、腕部分は画像に収まる。このため、上記のように、第1領域AR1にユーザが存在する場合、認識部54は、第1ジェスチャ情報76を用いてジェスチャを認識し、第2領域AR2にユーザが存在する場合、認識部54は、第2ジェスチャ情報78を用いてジェスチャを認識することで、より精度よくユーザのジェスチャを認識することができる。
図17は、第2ジェスチャ情報78に含まれる第2ジェスチャの一例を示す図である。
・ユーザの後ろに位置する移動体10をユーザの前に移動させるジェスチャ:このジェスチャは、ユーザが腕と手とを体付近から体より前に押し出すようなジェスチャである。
・移動体10を前進させるジェスチャ:このジェスチャは、腕と手とを前方に突き出すようなジェスチャである。
・前進している移動体10を停止させるジェスチャ:このジェスチャは、前方に突き出した腕と手とのうち、手のひらを前方方向に正対させるようなジェスチャである。
・移動体10を左方向に移動させるジェスチャ:このジェスチャは、腕と手とを左方向に動かすジェスチャである。
・移動体10を右方向に移動させるジェスチャ:このジェスチャは、腕と手とを右方向に動かすジェスチャである。
・移動体10を後退させるジェスチャである。このジェスチャは、手のひらを鉛直反対方向に向けて、指先がユーザの方向に向くように腕または手首を動かす動作を繰り返すジェスチャ(手招きするジェスチャ)である。
・移動体10を左方向に自転させるジェスチャ:このジェスチャは、人差し指(または所定の指)を突き出して左方向に突き出した指を回転させるジェスチャである。
・移動体10を右方向に自転させるジェスチャ:このジェスチャは、人差し指(または所定の指)を突き出して右方向に突き出した指を回転させるジェスチャである。
・ユーザの後ろに位置する移動体10をユーザの前に移動させるジェスチャ:このジェスチャは、ユーザが腕と手とを体付近から体より前に押し出すようなジェスチャである。
・移動体10を前進させるジェスチャ:このジェスチャは、腕と手とを前方に突き出すようなジェスチャである。
・前進している移動体10を停止させるジェスチャ:このジェスチャは、前方に突き出した腕と手とのうち、手のひらを前方方向に正対させるようなジェスチャである。
・移動体10を左方向に移動させるジェスチャ:このジェスチャは、腕と手とを左方向に動かすジェスチャである。
・移動体10を右方向に移動させるジェスチャ:このジェスチャは、腕と手とを右方向に動かすジェスチャである。
・移動体10を後退させるジェスチャである。このジェスチャは、手のひらを鉛直反対方向に向けて、指先がユーザの方向に向くように腕または手首を動かす動作を繰り返すジェスチャ(手招きするジェスチャ)である。
・移動体10を左方向に自転させるジェスチャ:このジェスチャは、人差し指(または所定の指)を突き出して左方向に突き出した指を回転させるジェスチャである。
・移動体10を右方向に自転させるジェスチャ:このジェスチャは、人差し指(または所定の指)を突き出して右方向に突き出した指を回転させるジェスチャである。
[フローチャート]
図18は、制御装置50がジェスチャを認識する処理の一例を示すフローチャートである。まず、制御装置50は、ユーザが第1領域に存在するか否を判定する(ステップS300)。ユーザが第1領域に存在する場合、制御装置50は、取得された画像に基づいてユーザの挙動を認識する(ステップS302)。挙動とは、例えば、時間的に連続して取得された画像から認識されるユーザの動きである。
図18は、制御装置50がジェスチャを認識する処理の一例を示すフローチャートである。まず、制御装置50は、ユーザが第1領域に存在するか否を判定する(ステップS300)。ユーザが第1領域に存在する場合、制御装置50は、取得された画像に基づいてユーザの挙動を認識する(ステップS302)。挙動とは、例えば、時間的に連続して取得された画像から認識されるユーザの動きである。
次に、制御装置50は、第1ジェスチャ情報76を参照して、ステップS302で認識した挙動に合致するジェスチャを特定する(ステップS304)。なお、ステップS302で認識した挙動に合致するジェスチャが第1ジェスチャ情報76に含まれていない場合、移動体10の動きを制御するジェスチャは行われていないと判定する。次に、制御装置50は、特定したジェスチャに対応する行動を行う(ステップS306)。
ユーザが第1領域に存在しない場合(第2領域に存在する場合)、制御装置50は、取得された画像に基づいてユーザの挙動を認識し(ステップS308)、第2ジェスチャ情報78を参照して、ステップS308で認識した挙動に合致するジェスチャを特定する(ステップS310)。次に、制御装置50は、特定したジェスチャに対応する行動を行う(ステップS312)。これにより、本フローチャートの1ルーチンの処理が終了する。
例えば、上記処理において、認識部54は、トラッキングしているユーザのジェスチャを認識し、トラッキングしていない人物のジェスチャを認識する処理を行わなくてよい。これにより、制御装置50は、トラッキングしているユーザのジェスチャに基づいて移動体を制御することを、処理負荷を低減して行うことができる。
上記のように、制御装置50は、ユーザが存在する領域に基づいて、認識するジェスチャを切り替えることにより、より精度よくユーザのジェスチャを認識し、ユーザの意志に応じて移動体10を作動させることができる。この結果、ユーザの利便性が向上する。
以上説明した第1実施形態によれば、制御装置50が、第1画像を第1画像よりも低解像度の第2画像に変換し、第2画像において追跡する対象の対象物標を含む物標領域を取得し、取得した第2画像の前記物標領域に基づいて、第1画像において対象物標を含む物標領域を取得することにより、処理負荷を軽減しつつ、精度よく物標を特定することができる。
上記説明した実施形態は、以下のように表現することができる。
プログラムを記憶した記憶装置と、
ハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記記憶装置に記憶されたプログラムを実行することにより、
第1画像を前記第1画像よりも低解像度の第2画像に変換し、
前記第2画像に基づいて前記第2画像における所定の対象物標を含む物標領域を特定し、特定した前記第2画像における前記物標領域に基づいて、前記第1画像における前記対象物標を含む物標領域を特定する、
処理装置。
プログラムを記憶した記憶装置と、
ハードウェアプロセッサと、を備え、
前記ハードウェアプロセッサが前記記憶装置に記憶されたプログラムを実行することにより、
第1画像を前記第1画像よりも低解像度の第2画像に変換し、
前記第2画像に基づいて前記第2画像における所定の対象物標を含む物標領域を特定し、特定した前記第2画像における前記物標領域に基づいて、前記第1画像における前記対象物標を含む物標領域を特定する、
処理装置。
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
10‥移動体、20‥本体、22‥カメラ、50‥制御装置、52‥取得部、54‥認識部、55A‥第1処理部、55B‥第2処理部、56‥軌道生成部、58‥走行制御部、60‥情報処理部、70‥記憶部、74‥ジェスチャ情報、76‥第1ジェスチャ情報、78‥第2ジェスチャ情報、80‥ユーザ情報
Claims (16)
- 第1画像を前記第1画像よりも低解像度の第2画像に変換する第1処理部と、
前記第2画像に基づいて前記第2画像における所定の対象物標を含む物標領域を特定し、特定した前記第2画像における前記物標領域に基づいて、前記第1画像における前記対象物標を含む物標領域を特定する第2処理部と、
を備える処理装置。 - 前記第2処理部は、第1時刻に撮像された前記第1画像が変換された前記第2画像および前記第1時刻よりも後の第2時刻に撮像された前記第1画像が変換された前記第2画像を解析して、前記第1時刻に対応する前記第2画像の前記物標領域に含まれる対象物標を、前記第2時刻に対応する前記第2画像においてトラッキングする、
請求項1に記載の処理装置。 - 前記第2処理部は、時系列で撮像された第1画像のそれぞれが変換された時系列の第2画像における前記対象物標の位置の変化に基づいて、前記第2画像における前記対象物標をトラッキングする、
請求項1または2に記載の処理装置。 - 前記対象物標は人物であり、
前記第2処理部は、過去に撮像された前記第1画像が変換された前記第2画像から得られたまたは記憶部に記憶された、前記人物の服の色、前記人物の性別、または前記人物の髪型のうち一以上の情報に基づいて、前記第2画像において前記人物をトラッキングする、
請求項1から3のうちいずれか1項に記載の処理装置。 - 前記第2処理部は、前記第2画像の前記物標領域に基づいて、前記第2画像が変換される前の前記第1画像における前記対象物標を含む物標領域を特定し、特定した前記第1画像における前記物標領域に対して所定の画像認識処理を実行する、
請求項1から4のうちいずれか1項に記載の処理装置。 - 前記所定の画像認識処理は、前記第1画像における前記物標領域のうちの特定領域の情報に基づいて前記対象物標のジェスチャを認識する処理を含む、
請求項5に記載の処理装置。 - 前記所定の画像認識処理は、前記特定領域を、前記第1画像における前記物標領域に対して骨格または関節点を認識することに基づき特定することを含む、
請求項6に記載の処理装置。 - 前記所定の画像認識処理は、前記骨格または関節点の認識結果に基づいて前記対象物標の腕または手を含む領域を前記特定領域とする処理を含む、
請求項7に記載の処理装置。 - 前記所定の画像認識処理は、前記第1画像における前記物標領域のうちの2以上の特定領域のうち、時系列での前記対象物標の動きの変化度合いが大きい特定領域の情報を優先的に利用してジェスチャ認識する処理を含む、
請求項6から8のうちいずれか1項に記載の処理装置。 - 前記2以上の特定領域には、少なくとも、前記対象物標の右腕または右手を含む領域として特定された特定領域および前記対象物標の左腕または左手を含む領域として特定された特定領域とが含まれる、
請求項9に記載の処理装置。 - 前記対象物標は人物であり、
前記第2処理部は、前記第1画像における人物の顔を含む領域を抽出し、抽出した領域に含まれる顔の特徴量と、予め記憶部に記憶された人物の顔の特徴量とを照合して、前記対象物標の人物をトラッキングする、
請求項1から10のうちいずれか1項に記載の処理装置。 - 前記対象物標は人物であり、
前記第2処理部は、
第1時刻に撮像された前記第1画像が変換された前記第2画像の前記物標領域に含まれる人物を、前記第1時刻よりも後の第2時刻に撮像された前記第1画像が変換された前記第2画像においてトラッキングし、
トラッキングの結果に基づいて、前記第2時刻に撮像された前記第1画像における前記トラッキングした前記人物の腕または手を含む領域を抽出し、抽出した領域に基づいて前記人物のジェスチャを認識する、
請求項1から11のうちいずれか1項に記載の処理装置。 - 前記第2処理部が認識したジェスチャに基づいて、移動体を制御する制御部を更に備える、
請求項6、7、または12に記載の処理装置。 - 請求項1から13のうちいずれか1項に記載の処理装置が搭載された移動体。
- コンピュータが、
第1画像を前記第1画像よりも低解像度の第2画像に変換し、
前記第2画像に基づいて前記第2画像における所定の対象物標を含む物標領域を特定し、特定した前記第2画像における前記物標領域に基づいて、前記第1画像における前記対象物標を含む物標領域を特定する、
処理方法。 - コンピュータに、
第1画像を前記第1画像よりも低解像度の第2画像に変換させ、
前記第2画像に基づいて前記第2画像における所定の対象物標を含む物標領域を特定し、特定した前記第2画像における前記物標領域に基づいて、前記第1画像における前記対象物標を含む物標領域を特定させる、
プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021036624A JP2022136829A (ja) | 2021-03-08 | 2021-03-08 | 処理装置、移動体、処理方法、およびプログラム |
CN202210184131.4A CN115052103A (zh) | 2021-03-08 | 2022-02-25 | 处理装置、移动体、处理方法及存储介质 |
US17/686,448 US20220284736A1 (en) | 2021-03-08 | 2022-03-04 | Processing apparatus, mobile object, processing method, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021036624A JP2022136829A (ja) | 2021-03-08 | 2021-03-08 | 処理装置、移動体、処理方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022136829A true JP2022136829A (ja) | 2022-09-21 |
Family
ID=83116318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021036624A Pending JP2022136829A (ja) | 2021-03-08 | 2021-03-08 | 処理装置、移動体、処理方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220284736A1 (ja) |
JP (1) | JP2022136829A (ja) |
CN (1) | CN115052103A (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5781353B2 (ja) * | 2011-03-31 | 2015-09-24 | 株式会社ソニー・コンピュータエンタテインメント | 情報処理装置、情報処理方法、および位置情報のデータ構造 |
JP6866467B2 (ja) * | 2017-02-20 | 2021-04-28 | シャープNecディスプレイソリューションズ株式会社 | ジェスチャー認識装置、ジェスチャー認識方法、ジェスチャー認識装置を備えたプロジェクタおよび映像信号供給装置 |
CN110390295B (zh) * | 2019-07-23 | 2022-04-01 | 深圳市道通智能航空技术股份有限公司 | 一种图像信息识别方法、装置及存储介质 |
-
2021
- 2021-03-08 JP JP2021036624A patent/JP2022136829A/ja active Pending
-
2022
- 2022-02-25 CN CN202210184131.4A patent/CN115052103A/zh active Pending
- 2022-03-04 US US17/686,448 patent/US20220284736A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220284736A1 (en) | 2022-09-08 |
CN115052103A (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li | Human–robot interaction based on gesture and movement recognition | |
CN109044651B (zh) | 未知环境中基于自然手势指令的智能轮椅控制方法及系统 | |
US7340100B2 (en) | Posture recognition apparatus and autonomous robot | |
CN110570455A (zh) | 一种面向房间vr的全身三维姿态跟踪方法 | |
Gross et al. | Mobile robotic rehabilitation assistant for walking and orientation training of stroke patients: A report on work in progress | |
JP6771996B2 (ja) | ユーザーインターフェースのリアルタイムインタラクティブ操作のためのシステム及び方法 | |
Patwardhan et al. | Multimodal affect recognition using kinect | |
CN114127806A (zh) | 增强来自机器人设备的视觉输出的系统和方法 | |
JP7045938B2 (ja) | 対話システム及び対話システムの制御方法 | |
Kim et al. | A CNN-based 3D human pose estimation based on projection of depth and ridge data | |
Robinson et al. | Robotic vision for human-robot interaction and collaboration: A survey and systematic review | |
Ehlers et al. | A human-robot interaction interface for mobile and stationary robots based on real-time 3D human body and hand-finger pose estimation | |
Pisharady et al. | Kinect based body posture detection and recognition system | |
JP2022136829A (ja) | 処理装置、移動体、処理方法、およびプログラム | |
Kapgate et al. | Human following robot using kinect in embedded platform | |
US20220276720A1 (en) | Gesture recognition apparatus, mobile object, gesture recognition method, and storage medium | |
Ho et al. | An HMM-based temporal difference learning with model-updating capability for visual tracking of human communicational behaviors | |
Kondori et al. | A direct method for 3d hand pose recovery | |
Frank et al. | Path bending: Interactive human-robot interfaces with collision-free correction of user-drawn paths | |
Durdu et al. | Morphing estimated human intention via human-robot interactions | |
Jain et al. | [POSTER] AirGestAR: Leveraging Deep Learning for Complex Hand Gestural Interaction with Frugal AR Devices | |
JP2832333B2 (ja) | 物体の形状・姿勢検出装置 | |
Hamlet et al. | A gesture recognition system for mobile robots that learns online | |
TWI554910B (zh) | Medical image imaging interactive control method and system | |
Nam et al. | Mouth tracking for hands-free robot control systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231128 |