JP7289406B2 - ジェスチャ検出装置およびジェスチャ検出方法 - Google Patents

ジェスチャ検出装置およびジェスチャ検出方法 Download PDF

Info

Publication number
JP7289406B2
JP7289406B2 JP2022527342A JP2022527342A JP7289406B2 JP 7289406 B2 JP7289406 B2 JP 7289406B2 JP 2022527342 A JP2022527342 A JP 2022527342A JP 2022527342 A JP2022527342 A JP 2022527342A JP 7289406 B2 JP7289406 B2 JP 7289406B2
Authority
JP
Japan
Prior art keywords
frame
face
hand
occupant
hand candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022527342A
Other languages
English (en)
Other versions
JPWO2021240671A1 (ja
Inventor
太郎 熊谷
拓也 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2021240671A1 publication Critical patent/JPWO2021240671A1/ja
Application granted granted Critical
Publication of JP7289406B2 publication Critical patent/JP7289406B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/273Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems

Landscapes

  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本開示は、ジェスチャ検出装置およびジェスチャ検出方法に関する。
車両の乗員による車載機器の操作に関して、乗員の手のジェスチャを検出することにより、乗員がその車載機器に接触することなく、その車載機器を操作するシステムが提案されている。例えば、ジェスチャ検出装置は、車内に設けられたカメラ等によって撮影された映像に基づいて乗員の手を検出する。車載機器は乗員の手のジェスチャに従って動作することから、ジェスチャ検出装置における乗員の手の検出には正確性が求められる。特許文献1には、運転手の顔の領域に基づいて設定されたジェスチャ領域のみから、ユーザの手に関する情報を検出する制御装置が提案されている。
特開2014-119295号公報
ジェスチャ検出装置は、映像に基づいて乗員の手を検出する。そのため、映像の状態によっては、ジェスチャ検出装置は、手以外の物を手として検出する場合がある。
本開示は、上記の課題を解決するためのものであり、乗員のジェスチャにおける手を正確に検出するジェスチャ検出装置の提供を目的とする。
本開示に係るジェスチャ検出装置は、顔枠情報取得部、手候補検出部および判定部を含む。顔枠情報取得部は、顔枠の情報を取得する。その顔枠は、車両に設けられた撮像装置によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される。手候補検出部は、その映像に基づいて、乗員の手の候補である手候補を検出する。判定部は、その映像における顔枠と手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、手候補が検出対象である乗員のジェスチャにおける乗員の手として検出されないように、手候補の情報を棄却する。
本開示によれば、乗員のジェスチャにおける手を正確に検出するジェスチャ検出装置が提供される。
本開示の目的、特徴、局面、および利点は、以下の詳細な説明と添付図面とによって、より明白になる。
実施の形態1におけるジェスチャ検出装置の構成を示す機能ブロック図である。 ジェスチャ検出装置が含む処理回路の構成の一例を示す図である。 ジェスチャ検出装置が含む処理回路の構成の別の一例を示す図である。 実施の形態1におけるジェスチャ検出方法を示すフローチャートである。 実施の形態2におけるジェスチャ検出装置の構成を示す機能ブロック図である。 実施の形態2におけるジェスチャ検出方法を示すフローチャートである。 乗員の顔枠および手候補枠の一例を示す図である。 乗員の顔枠および手候補枠の別の一例を示す図である。 図8における手候補枠が拡大された一例を示す図である。 処理対象のフレームにおける乗員の顔枠および手候補枠の一例を示す図である。 別の処理対象のフレームにおける乗員の顔枠および手候補枠の一例を示す図である。 実施の形態3におけるジェスチャ検出方法を示すフローチャートである。 実施の形態4におけるジェスチャ検出装置およびそれに関連して動作する装置の構成を示すブロック図である。
<実施の形態1>
図1は、実施の形態1におけるジェスチャ検出装置100の構成を示す機能ブロック図である。また、図1には、ジェスチャ検出装置100と関連して動作する装置として、撮像装置110および顔検出部10が示されている。
撮像装置110は、車両に設けられている。撮像装置110は、車両の室内の乗員の映像を撮影する。
顔検出部10は、その映像に基づいて、乗員の顔を検出する。顔検出部10は、その顔を囲むように顔枠を設定する。「顔を囲む」とは、顔の輪郭を全て囲むこと、または、輪郭の全てを囲んでいなくても、予め定められた顔パーツを含んで囲むことを含む。
ジェスチャ検出装置100は、撮像装置110によって撮影された映像に基づいて、車両の乗員の手のジェスチャを検出する。
ジェスチャ検出装置100は、顔枠情報取得部20、手候補検出部30および判定部40を含む。
顔枠情報取得部20は、顔検出部10から乗員の顔枠の情報を取得する。
手候補検出部30は、撮像装置110によって撮影された映像に基づいて、乗員の手の候補である手候補を検出する。手候補検出部30は、例えばその映像における物体の形状のパターン(輝度分布の情報)と予め定められた手の形状のパターンとをマッチングすることにより、手候補を検出する。また、手候補検出部30は、その手候補を囲むように手候補枠を設定する。
判定部40は、その映像における顔枠と手候補枠との重なりに関する予め定められた条件に基づいて、手候補の情報を棄却する。ジェスチャ検出装置100は、棄却された手候補を、乗員のジェスチャを構成する手として識別しない。
図2は、ジェスチャ検出装置100が含む処理回路90の構成の一例を示す図である。顔枠情報取得部20、手候補検出部30および判定部40の各機能は、処理回路90により実現される。すなわち、処理回路90は、顔枠情報取得部20、手候補検出部30および判定部40を有する。
処理回路90が専用のハードウェアである場合、処理回路90は、例えば、単一回路、複合回路、プログラム化されたプロセッサ、並列プログラム化されたプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせた回路等である。顔枠情報取得部20、手候補検出部30および判定部40の各機能は、複数の処理回路により個別に実現されてもよいし、1つの処理回路によりまとめて実現されてもよい。
図3は、ジェスチャ検出装置100が含む処理回路の構成の別の一例を示す図である。処理回路は、プロセッサ91とメモリ92とを有する。プロセッサ91がメモリ92に格納されるプログラムを実行することにより、顔枠情報取得部20、手候補検出部30および判定部40の各機能が実現される。例えば、プログラムとして記載されたソフトウェアまたはファームウェアが、プロセッサ91によって実行されることにより各機能が実現される。このように、ジェスチャ検出装置100は、プログラムを格納するメモリ92と、そのプログラムを実行するプロセッサ91とを有する。
プログラムには、ジェスチャ検出装置100が、車両に設けられた撮像装置110によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される顔枠の情報を取得する機能が記載されている。また、プログラムには、ジェスチャ検出装置100が、その映像に基づいて、乗員の手の候補である手候補を検出する機能が記載されている。さらに、プログラムには、その映像における顔枠と手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、手候補が検出対象である乗員のジェスチャにおける乗員の手として検出されないように、手候補の情報を棄却する機能が記載されている。このように、プログラムは、顔枠情報取得部20、手候補検出部30および判定部40の手順または方法をコンピュータに実行させるものである。
プロセッサ91は、例えば、CPU(Central Processing Unit)、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)等である。メモリ92は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)等の、不揮発性または揮発性の半導体メモリである。または、メモリ92は、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等、今後使用されるあらゆる記憶媒体であってもよい。
上記の顔枠情報取得部20、手候補検出部30および判定部40の各機能は、一部が専用のハードウェアによって実現され、他の一部がソフトウェアまたはファームウェアにより実現されてもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上記の各機能を実現する。
図4は、実施の形態1におけるジェスチャ検出方法を示すフローチャートである。図4に示されるステップS1よりも前に、顔検出部10は、車両に設けられた撮像装置110によって撮影された映像に基づいて乗員の顔を検出し、その顔を囲むように顔枠を設定している。
ステップS1にて、顔枠情報取得部20は、顔検出部10から乗員の顔枠の情報を取得する。
ステップS2にて、手候補検出部30は、撮像装置110によって撮影された映像に基づいて、乗員の手の候補である手候補を検出する。また、手候補検出部30は、その手候補を囲むように手候補枠を設定する。
ステップS3にて、判定部40は、その映像における顔枠と手候補枠との重なりに関する予め定められた条件に基づいて、手候補の情報を棄却するか否かを判定する。判定部40は、その判定結果に従い、手候補の情報を棄却する。棄却された手候補は、検出対象である乗員のジェスチャにおける乗員の手として検出されない。言い換えると、ジェスチャ検出装置100は、棄却された手候補を、乗員のジェスチャを構成する手として識別しない。
まとめると、実施の形態1におけるジェスチャ検出装置100は、顔枠情報取得部20、手候補検出部30および判定部40を含む。顔枠情報取得部20は、顔枠の情報を取得する。その顔枠は、車両に設けられた撮像装置110によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される。手候補検出部30は、その映像に基づいて、乗員の手の候補である手候補を検出する。判定部40は、その映像における顔枠と手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、手候補が検出対象である乗員のジェスチャにおける乗員の手として検出されないように、手候補の情報を棄却する。
このようなジェスチャ検出装置100は、乗員のジェスチャにおける手を正確に検出する。
また、実施の形態1におけるジェスチャ検出方法は、車両に設けられた撮像装置110によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される顔枠の情報を取得する。また、ジェスチャ検出方法は、その映像に基づいて、乗員の手の候補である手候補を検出する。さらにジェスチャ検出方法は、その映像における顔枠と手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、手候補が検出対象である乗員のジェスチャにおける乗員の手として検出されないように、手候補の情報を棄却する。
このようなジェスチャ検出方法によれば、乗員のジェスチャにおける手が正確に検出される。
<実施の形態2>
実施の形態2におけるジェスチャ検出装置およびジェスチャ検出方法を説明する。実施の形態2は実施の形態1の下位概念であり、実施の形態2におけるジェスチャ検出装置は、実施の形態1におけるジェスチャ検出装置100の各構成を含む。なお、実施の形態1と同様の構成および動作については説明を省略する。
図5は、実施の形態2におけるジェスチャ検出装置101の構成を示す機能ブロック図である。また、図5には、ジェスチャ検出装置101と関連して動作する装置として、撮像装置110および車載機器120が示されている。
撮像装置110は、車両の室内の前方中央に設けられている。撮像装置110は、車両の室内を広角で撮影し、運転席および助手席の両方を一度に撮影する。撮像装置110は、例えば、赤外線を検知するカメラ、可視光を検知するカメラ等である。実施の形態2におけるジェスチャ検出装置101は、撮像装置110によって撮影される映像に基づいて、車両の乗員の手のジェスチャを検出する。そのジェスチャは、車載機器120を操作するためのジェスチャである。車載機器120とは、例えば、エアコン、オーディオ等である。ジェスチャ検出装置101によって検出されたジェスチャによって、エアコンの温度調節、オーディオの音量調節等が実行される。ただし、車載機器120はエアコンおよびオーディオに限定されるものではない。
ジェスチャ検出装置101は、映像取得部50、顔検出部10、記憶部60、顔枠情報取得部20、手候補検出部30および判定部40を含む。
映像取得部50は、撮像装置110によって撮影された映像をフレームごとに取得する。
顔検出部10は、その映像のフレームごとに、乗員の顔を検出する。顔検出部10は、その顔に対して顔枠を設定する。つまり、顔枠はフレームごとに設定される。顔枠は、顔の輪郭を全て囲むように設定される必要はなく、例えば、予め定められた顔パーツを囲むように設定されていればよい。また、顔枠の外形は矩形であってもよいし、その他の形状であってもよい。なお顔枠は、顔領域と読み替えてもよい。
記憶部60は、顔検出部10によって顔の検出が成功した場合、フレームごとにその顔枠の情報を記憶する。
顔枠情報取得部20は、フレームごとに、顔枠の情報を取得する。顔枠情報取得部20は、処理対象のフレームにおける乗員の顔が検出されている場合、その処理対象のフレームにおける顔枠の情報を取得する。処理対象のフレームにおける乗員の顔が検出されない場合、顔枠情報取得部20は、以下のように動作する。ここでは、処理対象のフレームよりも前のフレームを第1フレームとし、処理対象のフレームを第2フレームとする。第1フレームにおける乗員の顔は検出される。第2フレームにおける乗員の顔は検出されない。この場合、第2フレームの処理において、顔枠情報取得部20は、第1フレームにおける顔枠の情報を記憶部60から取得する。
その第2フレームは、第1フレームから予め定められたフレーム数以内のフレームである。予め定められたフレーム数は、例えば、ジェスチャ検出装置101に記憶されていてもよいし、外部から入力されたものであってもよい。第1フレームは、第2フレームから遡って直近で乗員の顔が検出されたフレームであることが好ましい。
手候補検出部30は、撮像装置110によって撮影された映像のフレームごとに、乗員の手の候補である手候補を検出する。手候補検出部30は、例えばその映像における物体の形状のパターン(輝度分布の情報)と予め定められた手の形状のパターンとをマッチングすることにより、つまりパターンマッチング処理により、乗員の手候補を検出する。検出対象の手の形状は、開いた状態の手の形状および閉じた状態の手の形状のうちいずれであってもよい。検出対象の手の形状は、例えば、数を示す手の形状、方向を示す手の形状、乗員の意思(OKまたはGoodなど)を示す手の形状等であってもよい。
手候補検出部30は、手候補を囲むように手候補枠を設定する。つまり、手候補枠はフレームごとに設定される。手候補枠の大きさは、例えば、顔枠の大きさに基づいて設定される。例えば、手候補枠の大きさは、手候補枠の中心位置を基準として、顔枠と同じ大きさに設定される。または例えば、手候補枠の大きさは、手候補枠の中心位置を基準として、顔枠が任意の倍率で拡大または縮小された大きさに設定される。その倍率は、手候補の検出についての正確性に応じて、適宜変更可能である。なお、手候補枠は手候補領域と読み替えてもよい。
判定部40は、顔枠と手候補枠との重なりに関する予め定められた条件に基づいて、フレームごとに、手候補の情報を棄却する。予め定められた条件は、例えば、ジェスチャ検出装置101に記憶されていてもよいし、外部から入力されたものであってもよい。予め定められた条件の一例は、後述する。「棄却する」とは、判定部40が手候補を手以外の物として識別することを含んでいてもよい。または、「棄却する」とは、判定部40が手候補の情報を無効にすることを含んでいてもよい。いずれにしても、棄却された手候補は、検出対象である乗員のジェスチャにおける乗員の手として検出されない。言い換えると、ジェスチャ検出装置101は、棄却された手候補を、乗員のジェスチャを構成する手として識別しない。一方で、ジェスチャ検出装置101は、判定部40で棄却されなかった手候補を乗員のジェスチャを構成する手として識別する。ジェスチャ検出装置101によって識別された乗員の手によるジェスチャに基づいて、車載機器120の操作処理等が実行される。なお、図5に示される機能ブロック図において、判定部40と車載機器120との間の処理を行う機能部の図示は省略されている。
実施の形態2における判定部40は、顔枠の少なくとも一部が手候補枠と重なり、かつ、顔枠の中心が手候補枠内に含まれる場合に、手候補の情報を棄却する。つまり、実施の形態2における予め定められた条件とは、顔枠の少なくとも一部が手候補枠と重なり、かつ、顔枠の中心が手候補枠内に含まれることである。
第1フレームと第2フレームとが上記の関係を有する場合、判定部40は、第1フレームにおける顔枠と第2フレームにおける手候補枠との重なりに関する条件に基づいて、第2フレームにおける手候補の情報を棄却する。例えば、判定部40は、第1フレームの顔枠の少なくとも一部が第2フレームの手候補枠と重なり、かつ、第1フレームの顔枠の中心が第2フレームの手候補枠内に含まれる場合に、第2フレームの手候補の情報を棄却する。
上記の顔検出部10、顔枠情報取得部20、手候補検出部30、判定部40、映像取得部50および記憶部60の機能は、図2または図3に示される処理回路によって実現される。
図6は、実施の形態2におけるジェスチャ検出方法を示すフローチャートである。
ステップS10にて、映像取得部50は、撮像装置110によって撮影された映像における処理対象のフレームを取得する。
ステップS20にて、顔検出部10は、処理対象のフレームにおける乗員の顔を検出する。
ステップS30にて、ジェスチャ検出装置101は、乗員の顔が検出されたか否かを判定する。乗員の顔が検出されている場合、ステップS40が実行される。乗員の顔が検出されていない場合、ステップS70が実行される。
ステップS40にて、顔検出部10は、検出された顔に対して顔枠を設定する。
ステップS50にて、記憶部60は、フレームごとに顔枠の情報を記憶する。
ステップS60にて、顔枠情報取得部20は、処理対象のフレームにおける顔枠の情報を取得する。顔枠情報取得部20は、その顔枠の情報を顔検出部10から取得してもよいし、記憶部60から取得してもよい。また、顔枠情報取得部20は、顔枠の中心を算出する。顔枠の中心は、顔検出部10によって算出され、顔枠の情報に含まれていてもよい。
ステップS70にて、顔枠情報取得部20は、処理対象のフレームが、直近で乗員の顔が検出されたフレームから予め定められたフレーム数以内のフレームであるか否かを判定する。処理対象のフレームが予め定められたフレーム数以内のフレームである場合、つまり、この条件が満たされる場合、ステップS80が実行される。この条件が満たされない場合、ジェスチャ検出方法は終了する。
ステップS80にて、顔枠情報取得部20は、直近で乗員の顔が検出されたフレームにおける顔枠の情報を記憶部60から取得する。また、顔枠情報取得部20は、顔枠の中心を算出する。顔枠の中心は、記憶部60に記憶された顔枠の情報に含まれていてもよい。
ステップS90にて、手候補検出部30は、処理対象のフレームにおける乗員の手候補を検出する。手候補検出部30は、その手候補に対して手候補枠を設定する。
ステップS100にて、判定部40は、顔枠と手候補枠との重なりが予め定められた条件を満たすか否かを判定する。ここでは、予め定められた条件は、顔枠の少なくとも一部が手候補枠と重なり、かつ、顔枠の中心が手候補枠内に含まれることである。この条件が満たされる場合、ステップS110が実行される。この条件が満たされない場合、ジェスチャ検出方法は終了する。
図7は、乗員の顔枠12および手候補枠32の一例を示す図である。図7において、乗員は、車載機器120の操作のための手のジェスチャを行っていない。顔検出部10は、正確に乗員の顔11を検出しており、その検出結果に基づいて、顔枠12が設定されている。手候補検出部30は、乗員の顔11を誤って手候補として検出しており、その検出結果に基づいて、手候補枠32が設定されている。図7のように、乗員の頭が丸坊主である場合、手候補検出部30は、その乗員の顔11を、少なくとも一部の指が閉じられた状態の手(サムズアップの手など)であると判断し、それを手候補として検出する場合がある。しかし、図7においては、顔枠12の一部が手候補枠32と重なり、かつ、顔枠12の中心13が手候補枠32内に含まれている。そのため、ステップS110が実行される。
図8は、乗員の顔枠12および手候補枠32の別の一例を示す図である。図8において、乗員は、車載機器120の操作のための手31のジェスチャを、顔11の横で行っている。顔検出部10は、正確に乗員の顔11を検出しており、その検出結果に基づいて、顔枠12が設定されている。手候補検出部30は、乗員の手31を正確に手候補として検出しており、その検出結果に基づいて、手候補枠32が設定されている。顔枠12の一部は手候補枠32と重なっているものの、顔枠12の中心13は手候補枠32内に含まれていない。そのため、判定部40は、手候補の情報を棄却することなく、ジェスチャ検出方法は終了する。
図9は、図8における手候補枠32が拡大された一例を示す図である。手候補検出部30は、乗員の手31を正確に手候補として検出している。ここでは、手31の中心33を基準として、縦横2倍に拡大された手候補枠32が設定されている。顔枠12の一部が手候補枠32と重なり、かつ、顔枠12の中心13が手候補枠32内に含まれている。そのため、ステップS110が実行される。
ステップS110にて、判定部40は、手候補の情報を棄却する。例えば、判定部40は、手候補を手以外の物として識別する。例えば、判定部40は、手候補の検出結果を手以外の物の検出結果に置き換える。このように、判定部40は、顔枠12と手候補枠32との重なりに関する予め定められた条件に基づいて、手候補の情報を棄却する。以上で、ジェスチャ検出方法は終了する。
上記のジェスチャ検出方法において、ジェスチャ検出装置101は、顔11の検出処理および顔枠12の情報の取得処理を行った後、手候補の検出処理および手候補枠32の設定処理を行っている。しかし、ジェスチャ検出装置101は、手候補の検出処理および手候補枠32の設定処理の後に、顔11の検出処理および顔枠12の情報の取得処理を実行してもよい。または、ジェスチャ検出装置101は、手候補の検出処理および手候補枠32の設定処理を、顔11の検出処理および顔枠12の情報の取得処理と並行して実行してもよい。
次に、一例として、映像を構成する第1フレームと第2フレームとが上記の関係を有する場合の、第2フレームにおけるジェスチャ検出方法を説明する。ここでは、顔検出部10は、第1フレームにおいて乗員の顔11の検出に成功し、第1フレームよりも後の第2フレームにおいて乗員の顔11の検出に失敗している。その第1フレームは、第2フレームから遡って直近で乗員の顔11が検出されたフレームである。
ステップS10にて、映像取得部50は、撮像装置110によって撮影された映像の第2フレームを取得する。
ステップS20にて、顔検出部10は、第2フレームにおける乗員の顔11の検出に失敗する。
ステップS30にて、ジェスチャ検出装置101は、乗員の顔11が検出されていないと判定する。ステップS70が実行される。
ステップS70にて、顔枠情報取得部20は、第2フレームが、直近で乗員の顔11が検出された第1フレームから予め定められたフレーム数以内のフレームであるか否かを判定する。上記のように、第1フレームと第2フレームとは、この条件を満たすため、ステップS80が実行される。
ステップS80にて、顔枠情報取得部20は、第1フレームにおける顔枠12の情報を記憶部60から取得する。
ステップS90にて、手候補検出部30は、第2フレームにおける乗員の手候補を検出する。手候補検出部30は、その手候補に対して手候補枠32を設定する。
ステップS100にて、判定部40は、第2フレームの顔枠12の少なくとも一部が第1フレームの手候補枠32と重なり、かつ、第2フレームの顔枠12の中心13が第1フレームの手候補枠32内に含まれるか否かを判定する。この条件が満たされる場合、ステップS110が実行される。この条件が満たされない場合、ジェスチャ検出方法は終了する。
ステップS110にて、判定部40は、第2フレームにおける手候補の情報を棄却する。以上で、ジェスチャ検出方法は終了する。
以上のように、実施の形態2における予め定められた条件は、顔枠12の少なくとも一部が手候補枠32と重なり、かつ、顔枠12の中心13が手候補枠32内に含まれることである。
このようなジェスチャ検出装置101は、乗員の手以外の物が手31として識別されることを低減させる。つまり、ジェスチャ検出装置101は、乗員のジェスチャを構成する手31を正確に検出する。例えば、乗員の頭が丸坊主である場合、手候補検出部30は、その乗員の頭(または顔11)を、少なくとも一部の指が閉じられた状態の手31であると判断し、それを手候補として検出する場合がある(例えば図7)。または例えば、乗員の髪型がスパイキーである場合、手候補検出部30は、その乗員の顔11が手のひらであり、髪型が指である手候補として検出する場合がる。そのような場合、顔枠12と手候補枠32とは、互いに近い距離で重なりあう。実施の形態2におけるジェスチャ検出装置101の判定部40は、顔枠12の少なくとも一部が手候補枠32と重なり、かつ、顔枠12の中心13が手候補枠32内に含まれる場合に、手候補の情報を棄却する。そのため、ジェスチャ検出装置101は、乗員の顔11の形状、髪型等によらず、乗員の手31を正確に検出する。
顔枠12と手候補枠32との重なりに関する予め定められた条件は、上記の条件に限定されるものではない。その条件は、例えば、顔枠12と手候補枠32との重なり領域の面積が予め定められた閾値以上であること、であってもよい。または例えば、その条件は、顔枠12または手候補枠32の面積に対する重なり領域の面積の比率が、予め定められた閾値以上であること、であってもよい。または例えば、その条件は、顔枠12内の予め定められた領域に手候補枠32が重なっていること、であってもよい。その予め定められた領域とは、例えば、撮像装置110が設けられている方向とは反対側の領域である。
実施の形態2におけるジェスチャ検出装置101は、記憶部60を含む。記憶部60は、映像のフレームごとに検出される顔11に対してフレームごとに設定される顔枠12の情報を記憶する。映像の第1フレームにおける乗員の顔11が検出され、かつ、第1フレームよりも後の第2フレームにおける乗員の顔11が検出されなかった場合、顔枠情報取得部20は、第1フレームにおける顔枠12の情報を記憶部60から取得する。その第2フレームは、第1フレームから予め定められたフレーム数以内のフレームである。手候補検出部30は、第2フレームにおける手候補を検出する。判定部40は、予め定められた条件としての、第1フレームにおける顔枠12と第2フレームにおける手候補枠32との重なりに関する条件に基づいて、第2フレームにおける手候補の情報を棄却する。
顔検出のパターンマッチング処理と手候補検出のパターンマッチング処理とは互いに異なるため、顔検出部10が乗員の顔11の検出に失敗した場合であっても、手候補検出部30が乗員の顔11、頭等を手候補として誤って検出する場合がある。そのような場合であっても、実施の形態2におけるジェスチャ検出装置101は、処理対象のフレームよりも前に顔11が検出されたフレームにおける顔枠12と、処理対象のフレームにおける手候補枠32との重なりを判定する。そのため、ジェスチャ検出装置101は、一時的に乗員の顔11が検出されない状態であっても、乗員の顔11または頭が手31として検出されることを防ぐ。その結果、乗員の手31の検出精度が向上する。
実施の形態2における第1フレームは、第2フレームから遡って直近で乗員の顔11が検出されたフレームである。
一時的に乗員の顔11が検出されない状態であっても、ジェスチャ検出装置101は、直近で検出された顔枠12と、処理対象のフレームにおける手候補枠32との重なりを判定する。そのため、ジェスチャ検出装置101は、乗員の手31を正確に検出する。
<実施の形態3>
実施の形態3におけるジェスチャ検出装置およびジェスチャ検出方法を説明する。実施の形態3は実施の形態1の下位概念であり、実施の形態3におけるジェスチャ検出装置は、実施の形態2におけるジェスチャ検出装置101の各構成を含む。なお、実施の形態1または2と同様の構成および動作については説明を省略する。
顔検出部10は、映像のフレームごとに、乗員の顔11を検出する。この際、顔検出部10は、乗員の顔パーツを検出する。顔検出部10は、必ずしも全ての顔パーツを検出しなくても、乗員の顔11を検出できる。例えば、顔検出部10は、少なくとも2つの目を検出することにより乗員の顔11を検出する。その場合、鼻および口の検出は必ずしも必要ない。
顔枠情報取得部20は、顔検出部10によって検出される乗員の顔パーツの情報を取得する。
判定部40は、以下の2つの条件が満たされる場合、手候補の情報を棄却する。1つの条件は、顔枠12と手候補枠32との重なりに関する予め定められた条件が満たされる場合である。実施の形態3におけるその予め定められた条件とは、顔枠12の少なくとも一部が手候補枠32と重なり、かつ、顔枠12の中心13が手候補枠32内に含まれることである。もう1つの条件は、顔検出部10によって検出された顔パーツが予め定められた顔パーツの全てを含むことである。予め定められた顔パーツの情報は、例えば、ジェスチャ検出装置に記憶されていてもよいし、外部から入力されたものであってもよい。
以下、予め定められた顔パーツが2つの目、鼻および口である例を説明する。
図10は、処理対象のフレームにおける乗員の顔枠12および手候補枠32の一例を示す図である。図10において、乗員は、顔11の近くで、車載機器120の操作のための手31のジェスチャを行っている。顔検出部10は、乗員の顔11を検出する際、顔パーツとして2つの目および鼻を検出する。口の大部分は手31の後ろに隠れているため、顔検出部10は顔パーツとして口を検出しない。手候補検出部30は、乗員の顔11の近くの手31を手候補として検出する。顔枠12の一部は手候補枠32と重なり、かつ、顔枠12の中心13が手候補枠32内に含まれている。顔検出部10で検出された顔パーツは、2つの目および鼻のみであり、予め定められた顔パーツとしての2つの目、鼻および口の全てを含んでいるわけではない。言い換えると、顔検出部10で検出された顔パーツは、予め定められた顔パーツの一部のみを含んでいる。したがって、判定部40は、手候補の情報を棄却しない。
図11は、別の処理対象のフレームにおける乗員の顔枠12および手候補枠32の一例を示す図である。図11において、乗員は、手31のジェスチャを行っていない。顔検出部10は、乗員の顔11を検出する際、顔パーツとして2つの目、鼻および口を検出する。手候補検出部30は、乗員の顔11を誤って手候補として検出している。顔枠12の一部は手候補枠32と重なり、顔枠12の中心13が手候補枠32内に含まれている。顔検出部10によって検出された顔パーツは、2つの目、鼻および口であり、予め定めされた顔パーツとしての2つの目、鼻および口の全てを含んでいる。したがって、判定部40は、手候補の情報を棄却する。
上記の顔検出部10、顔枠情報取得部20および判定部40の機能は、図2または図3に示される処理回路によって実現される。
図12は、実施の形態3におけるジェスチャ検出方法を示すフローチャートである。図6に示されるフローチャートに対し、ステップS20がステップS25に置き換えられ、かつ、ステップS102およびS104が追加されている。
ステップS10は、図6に示されるステップS10と同じである。
ステップS25にて、顔検出部10は、乗員の顔パーツおよび顔11を検出する。
ステップS30からS100までは、図6に示されるステップS30からS100と同様である。ステップS100において、顔枠12の一部が手候補枠32と重なり、かつ、顔枠12の中心13が手候補枠32内に含まれている場合、ステップS102が実行される。
ステップS102にて、顔枠情報取得部20は、顔検出部10によって検出される乗員の顔パーツの情報を取得する。
ステップS104にて、判定部40は、顔検出部10によって検出された顔パーツが予め定められた顔パーツの全てを含むか否かを判定する。検出された顔パーツが予め定められた顔パーツの全てを含む場合、ステップS110が実行される。検出された顔パーツが予め定められた顔パーツの全てを含むわけではない場合、判定部40は手候補の情報を棄却せずに、ジェスチャ検出方法は終了する。言い換えると、検出された顔パーツが予め定められた顔パーツの一部のみを含む場合、ジェスチャ検出方法は終了する。
以上をまとめると、実施の形態3における顔枠情報取得部20は、映像に基づいて検出される乗員の顔パーツの情報を取得する。判定部40は、顔枠12と手候補枠32との重なりに関する予め定められた条件が満たされ、かつ、映像に基づいて検出された顔パーツが予め定められた顔パーツの全てを含む場合、手候補の情報を棄却する。
このようなジェスチャ検出装置は、乗員が顔11の近くで車載機器120の操作のための手31のジェスチャを行った場合であっても、正確に手候補の情報を棄却するか否かを判定する。
<実施の形態4>
以上の各実施の形態に示されたジェスチャ検出装置は、ナビゲーション装置と、通信端末と、サーバと、これらにインストールされるアプリケーションの機能とを適宜に組み合わせて構築されるシステムにも適用することができる。ここで、ナビゲーション装置とは、例えば、PND(Portable Navigation Device)などを含む。通信端末とは、例えば、携帯電話、スマートフォンおよびタブレットなどの携帯端末を含む。
図13は、実施の形態4におけるジェスチャ検出装置101およびそれに関連して動作する装置の構成を示すブロック図である。
ジェスチャ検出装置101および通信装置130がサーバ300に設けられている。ジェスチャ検出装置101は、車両1に設けられた撮像装置110で撮影された映像を、通信装置140および通信装置130を介して取得する。ジェスチャ検出装置101は、その映像に基づいて検出される乗員の顔枠12の情報を取得する。ジェスチャ検出装置101は、その映像に基づいて手候補を検出し、手候補枠32を設定する。ジェスチャ検出装置101は、乗員の顔枠12と手候補枠32との重なりに関する予め定められた条件に基づいて、手候補の情報を棄却する。ジェスチャ検出装置101は、棄却されなかった手候補を、乗員のジェスチャを構成する手31として識別する。ジェスチャ検出装置101によって識別された乗員の手31によるジェスチャに基づいて、車載機器120の操作処理等が実行される。
このように、ジェスチャ検出装置101がサーバ300に配置されることにより、車両1に設けられる装置の構成が簡素化される。
また、ジェスチャ検出装置101の機能あるいは構成要素の一部がサーバ300に設けられ、他の一部が車両1に設けられるなど、それらが分散して配置されてもよい。実施の形態1に示されたジェスチャ検出装置100がサーバ300に設けられる場合も同様の効果を奏する。
なお、本開示は、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。
本開示は詳細に説明されたが、上記の説明は、全ての局面において、例示であり、限定されるものではない。例示されていない無数の変形例が、想定され得る。
1 車両、10 顔検出部、11 顔、12 顔枠、13 中心、20 顔枠情報取得部、30 手候補検出部、31 手、32 手候補枠、33 中心、40 判定部、50 映像取得部、60 記憶部、100 ジェスチャ検出装置、101 ジェスチャ検出装置、110 撮像装置、120 車載機器。

Claims (6)

  1. 車両に設けられた撮像装置によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される顔枠の情報を取得する顔枠情報取得部と、
    前記映像に基づいて、前記乗員の手の候補である手候補を検出する手候補検出部と、
    前記映像における前記顔枠と前記手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、前記手候補が検出対象である前記乗員のジェスチャにおける前記乗員の前記手として検出されないように、前記手候補の情報を棄却する判定部と、を備える、ジェスチャ検出装置。
  2. 前記映像のフレームごとに検出される前記顔に対して前記フレームごとに設定される前記顔枠の前記情報を記憶する記憶部をさらに備え、
    前記映像の第1フレームにおける前記乗員の前記顔が検出され、かつ、前記第1フレームから予め定められたフレーム数以内の第2フレームであって前記第1フレームよりも後の前記第2フレームにおける前記乗員の前記顔が検出されなかった場合、
    前記顔枠情報取得部は、前記第1フレームにおける前記顔枠の前記情報を前記記憶部から取得し、
    前記手候補検出部は、前記第2フレームにおける前記手候補を検出し、
    前記判定部は、前記予め定められた条件としての、前記第1フレームにおける前記顔枠と前記第2フレームにおける前記手候補枠との重なりに関する条件に基づいて、前記第2フレームにおける前記手候補の前記情報を棄却する、請求項1に記載のジェスチャ検出装置。
  3. 前記第1フレームは、前記第2フレームから遡って直近で前記乗員の前記顔が検出されたフレームである、請求項2に記載のジェスチャ検出装置。
  4. 前記顔枠情報取得部は、前記映像に基づいて検出される前記乗員の顔パーツの情報をさらに取得し、
    前記判定部は、前記顔枠と前記手候補枠との重なりに関する前記予め定められた条件が満たされ、かつ、前記映像に基づいて検出された前記顔パーツが予め定められた顔パーツの全てを含む場合、前記手候補の前記情報を棄却する、請求項1に記載のジェスチャ検出装置。
  5. 前記予め定められた条件は、
    前記顔枠の少なくとも一部が前記手候補枠と重なり、かつ、前記顔枠の中心が前記手候補枠内に含まれることである、請求項1に記載のジェスチャ検出装置。
  6. 顔枠情報取得部、手候補検出部および判定部を備えたジェスチャ検出装置によるジェスチャ検出方法であって、
    前記顔枠情報取得部が車両に設けられた撮像装置によって撮影された映像に基づいて検出される乗員の顔を囲むように設定される顔枠の情報を取得し、
    前記手候補検出部が前記映像に基づいて、前記乗員の手の候補である手候補を検出し、
    前記判定部が前記映像における前記顔枠と前記手候補を囲むように設定される手候補枠との重なりに関する予め定められた条件に基づいて、前記手候補が検出対象である前記乗員のジェスチャにおける前記乗員の前記手として検出されないように、前記手候補の情報を棄却する、ジェスチャ検出方法。
JP2022527342A 2020-05-27 2020-05-27 ジェスチャ検出装置およびジェスチャ検出方法 Active JP7289406B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/020839 WO2021240671A1 (ja) 2020-05-27 2020-05-27 ジェスチャ検出装置およびジェスチャ検出方法

Publications (2)

Publication Number Publication Date
JPWO2021240671A1 JPWO2021240671A1 (ja) 2021-12-02
JP7289406B2 true JP7289406B2 (ja) 2023-06-09

Family

ID=78723084

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022527342A Active JP7289406B2 (ja) 2020-05-27 2020-05-27 ジェスチャ検出装置およびジェスチャ検出方法

Country Status (3)

Country Link
US (1) US20230154226A1 (ja)
JP (1) JP7289406B2 (ja)
WO (1) WO2021240671A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014197252A (ja) 2013-03-29 2014-10-16 パナソニック株式会社 ジェスチャー操作装置、そのプログラム、およびジェスチャー操作装置を搭載した車両
JP2019536673A (ja) 2017-08-10 2019-12-19 ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド 運転状態監視方法及び装置、運転者監視システム、並びに車両

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6011165B2 (ja) * 2012-08-31 2016-10-19 オムロン株式会社 ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム
WO2017040519A1 (en) * 2015-08-31 2017-03-09 Sri International Method and system for monitoring driving behaviors
DE112016007545T5 (de) * 2016-12-26 2019-09-19 Mitsubishi Electric Corporation Tastfeld-eingabeeinrichtung, tastgesten-beurteilungseinrichtung, tastgesten-beurteilungsverfahren und tastgesten-beurteilungs-programm
US20210197856A1 (en) * 2018-05-31 2021-07-01 Mitsubishi Electric Corporation Image processing device, image processing method, and image processing system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014197252A (ja) 2013-03-29 2014-10-16 パナソニック株式会社 ジェスチャー操作装置、そのプログラム、およびジェスチャー操作装置を搭載した車両
JP2019536673A (ja) 2017-08-10 2019-12-19 ペキン センスタイム テクノロジー ディベロップメント カンパニー リミテッド 運転状態監視方法及び装置、運転者監視システム、並びに車両

Also Published As

Publication number Publication date
WO2021240671A1 (ja) 2021-12-02
US20230154226A1 (en) 2023-05-18
JPWO2021240671A1 (ja) 2021-12-02

Similar Documents

Publication Publication Date Title
CN110688951B (zh) 图像处理方法及装置、电子设备和存储介质
CN105488511B (zh) 图像的识别方法及装置
EP2042976B1 (en) Image processing method
US20170083741A1 (en) Method and device for generating instruction
US20180039819A1 (en) Method and device for identity verification
JP7419495B2 (ja) 投影方法および投影システム
CN110458888A (zh) 基于图像的测距方法、装置、存储介质和电子设备
JP2012121386A (ja) 車載装置
US9560272B2 (en) Electronic device and method for image data processing
EP4095744A1 (en) Automatic iris capturing method and apparatus, computer-readable storage medium, and computer device
CN105446619B (zh) 用于识别物体的装置和方法
JP2024518333A (ja) マルチスクリーンインタラクション方法及び機器、端末装置、及び車両
JP6589796B2 (ja) ジェスチャ検出装置
CN106940802B (zh) 用于使用生物测量学信息的认证的方法和设备
CN104902143A (zh) 一种基于分辨率的图像去噪方法及装置
US20230040665A1 (en) Air-conditioning operation terminal, computer-readable medium and air-conditioning system
US20150278207A1 (en) Electronic device and method for acquiring image data
JP7289406B2 (ja) ジェスチャ検出装置およびジェスチャ検出方法
KR101892390B1 (ko) 사용자 인터페이스, 이동 수단 및 사용자의 손을 인식하기 위한 방법
US11956530B2 (en) Electronic device comprising multi-camera, and photographing method
KR20150027608A (ko) 제스처 기반의 원격 조작 시스템 및 그 조작 방법
WO2019201223A1 (zh) 屏幕显示的切换方法以及装置及存储介质
WO2021240668A1 (ja) ジェスチャ検出装置およびジェスチャ検出方法
CN110308821B (zh) 触控响应方法及电子设备
JP7325625B2 (ja) ジェスチャ検出装置およびジェスチャ検出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220425

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230502

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230530

R150 Certificate of patent or registration of utility model

Ref document number: 7289406

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150