JP7267517B2

JP7267517B2 - ジェスチャ認識装置およびジェスチャ認識方法

Info

Publication number: JP7267517B2
Application number: JP2022573870A
Authority: JP
Inventors: 大貴樋口; 乃輔大橋
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2023-05-01
Anticipated expiration: 2041-01-08
Also published as: JPWO2022149251A1; WO2022149251A1; US20240013575A1

Description

本開示は、ジェスチャ認識装置およびジェスチャ認識方法に関する。

画像内の情報から顔、ジェスチャ、ボディランゲージ等を識別する技術が知られている（例えば、特許文献１）。そのような識別技術は、車両の乗員が操作するＨＭＩ（Human Machine Interface）に利用可能である。例えば、ジェスチャ認識装置は、車両内の映像に基づいて乗員の手のジェスチャを識別する。

特表２０１９－５０５０１１号公報

車両の外部の光源が映像内に車外風景として映り込む場合がある。その光源像が識別対象である乗員の手の像と類似している場合、ジェスチャ認識装置はその光源像を乗員の手の像として判定する可能性がある。誤判定が生じた場合、乗員の手は正確に識別されない。

本開示は、上記の課題を解決するため、識別対象物である手を正確に識別するジェスチャ認識装置を提供する。

本開示に係るジェスチャ認識装置は、手候補識別部、車外風景識別部および誤認識識別部を備える。手候補識別部は、車両の室内の映像に基づいて、映像における車両の乗員の手の候補である少なくとも１つの手候補を識別する。車外風景識別部は、手候補の形状に関する予め定められた条件に基づいて、その少なくとも１つの手候補が車両の外部に存在する光源に起因する光源像に該当するか否かを判定する。誤認識識別部は、光源像に該当しないと判定された手候補を、乗員のジェスチャにおける手として識別する。車外風景識別部は、手候補の形状に関する予め定められた条件を満たす手候補の周辺に、円弧パターン、リングパターンおよび多角形パターンのうち少なくとも１つのパターンが存在するか否かに基づいて、手候補が光源像に該当するか否かを判定する。

本開示によれば、識別対象物である手を正確に識別するジェスチャ認識装置が提供される。

本開示の目的、特徴、局面、および利点は、以下の詳細な説明と添付図面とによって、より明白になる。

実施の形態１におけるジェスチャ認識装置の構成を示す機能ブロック図である。ジェスチャ認識装置が含む処理回路の構成の一例を示す図である。ジェスチャ認識装置が含む処理回路の構成の別の一例を示す図である。実施の形態１におけるジェスチャ認識方法を示すフローチャートである。実施の形態２におけるジェスチャ認識装置の構成を示す機能ブロック図である。実施の形態２におけるジェスチャ認識方法を示すフローチャートである。車内映像の一例を示す図である。車内映像の一例を示す図である。車内映像の一例を示す図である。光源像の一例を示す図である。実施の形態３におけるジェスチャ認識装置の構成を示す機能ブロック図である。実施の形態３におけるジェスチャ認識方法を示すフローチャートである。車内映像の一例を示す図である。車内映像の一例を示す図である。車内映像の一例を示す図である。実施の形態６におけるジェスチャ認識装置およびそれに関連して動作する装置の構成を示す機能ブロック図である。

＜実施の形態１＞
図１は、実施の形態１におけるジェスチャ認識装置１００の構成を示す機能ブロック図である。図１には、ジェスチャ認識装置１００と関連して動作する装置として、撮像装置１１０が示されている。

撮像装置１１０は、車両に設けられている。撮像装置１１０は、車両の室内の乗員の映像を撮影する。

ジェスチャ認識装置１００は、車両内の映像に基づいて乗員の手を識別する。ジェスチャ認識装置１００は、その識別された乗員の手によって示されるジェスチャを検出する。以下、「ジェスチャ」とは、車両に搭載された機器等を操作するための予め定められた「手の形状」を意味するが、それに限定されるものではない。「ジェスチャ」とは、予め定められた「手の動き」であってもよい。

ジェスチャ認識装置１００は、手候補識別部１０、車外風景識別部２０および誤認識識別部３０を備える。

手候補識別部１０は、車両の室内の映像に基づいて、その映像における車両の乗員の手の候補である少なくとも１つの手候補を識別する。

車外風景識別部２０は、手候補の形状に関する予め定められた条件に基づいて、その少なくとも１つの手候補が光源像に該当するか否かを判定する。その光源像は、車両の外部に存在する光源に起因している。光源は、例えば、太陽、街灯、後続車両のヘッドライト等である。光源像は、例えば、光源から出射された光が車両の窓を透過することによって得られる透過像である。または光源像は、光源から出射された光が車両の室内に存在する物体（窓、ミラー、乗員の装身具等）で反射することによって得られる反射像であってもよい。手候補の形状に関する予め定められた条件は、例えば、ジェスチャ認識装置１００に記憶されている。

誤認識識別部３０は、光源像に該当しないと判定された手候補を、乗員のジェスチャにおける手として識別する。誤認識識別部３０は、その手の識別結果を出力する。

図２は、ジェスチャ認識装置１００が含む処理回路９０の構成の一例を示す図である。手候補識別部１０、車外風景識別部２０および誤認識識別部３０の各機能は、処理回路９０により実現される。言い換えると、処理回路９０は、手候補識別部１０、車外風景識別部２０および誤認識識別部３０を有する。

処理回路９０が専用のハードウェアである場合、処理回路９０は、例えば、単一回路、複合回路、プログラム化されたプロセッサ、並列プログラム化されたプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field-Programmable Gate Array）、またはこれらを組み合わせた回路等である。手候補識別部１０、車外風景識別部２０および誤認識識別部３０の各機能は、複数の処理回路により個別に実現されてもよいし、１つの処理回路によりまとめて実現されてもよい。

図３は、ジェスチャ認識装置１００が含む処理回路の構成の別の一例を示す図である。処理回路は、プロセッサ９１とメモリ９２とを有する。プロセッサ９１がメモリ９２に格納されたプログラムを実行することにより、手候補識別部１０、車外風景識別部２０および誤認識識別部３０の各機能が実現される。例えば、プログラムとして記載されたソフトウェアが、プロセッサ９１によって実行されることにより、各機能が実現される。このように、ジェスチャ認識装置１００は、プログラムを格納するメモリ９２と、そのプログラムを実行するプロセッサ９１とを有する。

プログラムには、ジェスチャ認識装置１００が、車両の室内の映像に基づいて、その映像における車両の乗員の手の候補である少なくとも１つの手候補を識別する機能が記載されている。また、プログラムには、ジェスチャ認識装置１００が、手候補の形状に関する予め定められた条件に基づいて、その少なくとも１つの手候補が光源像に該当するか否かを判定する機能が記載されている。その光源像は、車両の外部に存在する光源に起因している。さらに、プログラムには、光源像に該当しないと判定された手候補を、乗員のジェスチャにおける手として識別する機能が記載されている。プログラムは、手候補識別部１０、車外風景識別部２０および誤認識識別部３０の手順または方法をコンピュータに実行させるものである。

プロセッサ９１は、例えば、ＣＰＵ（Central Processing Unit）等である。メモリ９２は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）等の、不揮発性または揮発性の半導体メモリである。または、メモリ９２は、ＨＤＤ（Hard Disk Drive）等の記憶媒体であってもよい。

上記の手候補識別部１０、車外風景識別部２０および誤認識識別部３０の各機能は、一部が専用のハードウェアによって実現され、他の一部がソフトウェアにより実現されてもよい。処理回路は、ハードウェアおよびソフトウェアの組み合わせによって、上記の各機能を実現する。

図４は、実施の形態１におけるジェスチャ認識方法を示すフローチャートである。

ステップＳ１にて、手候補識別部１０は、車両の室内の映像に基づいて少なくとも１つの手候補を識別する。

ステップＳ２にて、車外風景識別部２０は、手候補の形状に関する予め定められた条件に基づいて、その少なくとも１つの手候補が光源像に該当するか否かを判定する。

ステップＳ３にて、誤認識識別部３０は、光源像に該当しないと判定された手候補を、乗員のジェスチャにおける手として識別する。誤認識識別部３０は、その手の識別結果を出力する。

以上をまとめると、実施の形態１におけるジェスチャ認識装置１００は、手候補識別部１０、車外風景識別部２０および誤認識識別部３０を備える。手候補識別部１０は、車両の室内の映像に基づいて、その映像における車両の乗員の手の候補である少なくとも１つの手候補を識別する。車外風景識別部２０は、手候補の形状に関する予め定められた条件に基づいて、その少なくとも１つの手候補が光源像に該当するか否かを判定する。その光源像は、車両の外部に存在する光源に起因している。誤認識識別部３０は、光源像に該当しないと判定された手候補を、乗員のジェスチャにおける手として識別する。

このようなジェスチャ認識装置１００は、識別対象物である手を正確に識別する。

＜実施の形態２＞
実施の形態２におけるジェスチャ認識装置およびジェスチャ認識方法を説明する。実施の形態２は実施の形態１の下位概念である。実施の形態２において、実施の形態１と同様の構成要素には、同一の参照符号を付し、それらの詳細な説明は省略する。

図５は、実施の形態２におけるジェスチャ認識装置１０１の構成を示す機能ブロック図である。また、図５には、ジェスチャ認識装置１０１と関連して動作する装置として、撮像装置１１０および車載機器１２０が示されている。

撮像装置１１０は、例えば、赤外線を検知するカメラ、可視光を検知するカメラ等である。撮像装置１１０は、車両の室内の前方中央に設けられている。撮像装置１１０は、車両の室内の前方から後方を広角で撮影し、運転席および助手席の両方を一度に撮影する。撮像装置１１０によって撮影される映像には、車両の外部に存在する光源像が映る場合がある。例えば、光源から出射された光が車両の後部窓を透過することによって、その光源の透過像が映像に映る。

ジェスチャ認識装置１０１は、映像取得部４０、手候補識別部１０、車外風景識別部２０および誤認識識別部３０を含む。

映像取得部４０は、撮像装置１１０によって撮影された車両の室内の映像のデータを取得する。

手候補識別部１０は、その映像に基づいて、車両の乗員の手の候補である手候補を識別する。実施の形態２における手候補識別部１０は、映像内の予め定められた第１領域における第１手候補と、映像内の予め定められた第２領域における第２手候補とを識別する。第１領域は、例えば、映像における車両の運転席と助手席との間の領域を含む。第１領域は、例えば、車載機器１２０を操作するために乗員が手のジェスチャを行う領域として予め設定されている領域に対応する。第２領域は、車両のハンドルが映っている領域の少なくとも一部と、そのハンドルから予め定められた距離以内の領域とを含む。予め定められた距離は、例えば、ハンドルから車両の運転席と助手席との間の地点までの距離よりも短い距離である。第２領域は、第１領域よりもハンドルに近い領域である。

手候補識別部１０は、例えば各領域内のパターン（例えば、輝度分布の情報）と予め定められた手のパターンとをマッチングして、手候補を検出するつまり識別する。識別対象の手は、開いた状態の手および閉じた状態の手のうちいずれの手であってもよい。識別対象の手は、例えば、グーの手またはパーの手である。識別対象の手は、例えば、数を示す手、方向を示す手、乗員の意思（ＯＫまたはＧｏｏｄなど）を示す手等であってもよい。識別対象の手は、例えば、操作対象の車載機器１２０ごとに定められていてもよいし、操作の種類ごとに定められていてもよい。実施の形態２の第１領域における識別対象の手は、サムズアップの手である。すなわち、手候補識別部１０は、第１領域において、サムズアップの手に類似するパターンを手候補として検出する。第２領域における識別対象の手は、任意であるが、例えば、ハンドルを握っている手である。

車外風景識別部２０は、形状判定部２１Ａおよび検出判定部２１Ｂを含む。形状判定部２１Ａは、手候補の形状に関する予め定められた条件に基づいて、その第１手候補が光源像に該当するか否かを判定する。その際、形状判定部２１Ａは、第１手候補の形状を、第１手候補の映像に基づいて自ら検出してもよいし、手候補識別部１０からその第１手候補の形状の情報を取得してもよい。検出判定部２１Ｂは、第２手候補が第２領域に検出されたか否かを判定する。

光源が、太陽、街灯、後続車両のヘッドライト等である場合、光源像は１つの丸いパターンを有する可能性が高い。そのため、手候補の形状に関する予め定められた条件は、第１手候補の形状が１つの丸いパターンを有するか否かである。丸いパターンは、例えば円形および楕円形のうち少なくともいずれか１つを含む。

光源像が映像に映り込んだ場合、その光源像の中心から径方向に向かって光芒と呼ばれる放射状のパターンが現れる場合がある。よって、手候補の形状に関する予め定められた条件は、第１手候補の形状が１つの丸いパターンと、その丸いパターンの周囲に放射状のパターンとを有するか否かであってもよい。

誤認識識別部３０は、形状判定部２１Ａの判定結果と検出判定部２１Ｂの判定結果とに基づいて、光源像に該当すると判定された手候補を棄却する。そして、誤認識識別部３０は、光源像に該当しないと判定された第１手候補を乗員の手として識別する。

ジェスチャ認識装置１０１は、その識別結果に基づく乗員の手によって示されるジェスチャを検出する。ジェスチャ認識装置１０１は、そのジェスチャに基づく制御信号を車載機器１２０に出力する。車載機器１２０は、その制御信号に基づいて制御される。車載機器１２０とは、例えば、エアコン、オーディオ等である。ジェスチャ認識装置１０１から出力される制御信号に従って、エアコンの温度が調節される、または、オーディオの音量が調節される。ただし、車載機器１２０は、エアコンおよびオーディオに限定されるものではない。

以上の手候補識別部１０、車外風景識別部２０および誤認識識別部３０の機能は、図２または図３に示される処理回路によって実現される。

図６は、実施の形態２におけるジェスチャ認識方法を示すフローチャートである。

ステップＳ１０にて、映像取得部４０は、撮像装置１１０によって撮影された車両の室内の映像を取得する。図７から図９は、車内映像の一例をそれぞれ示す図である。図７から図９においては、右ハンドルの車両が一例として示されているが、車両は左ハンドルの車両であってもよい。図７の映像には、車両の後部窓３に対応する領域に丸い光源像が写っている。図８の映像には、後部窓３に対応する領域に木の影、標識等、光源像以外の物体像が写っている。その物体像の形状は、おおよそ三角形である。図９の映像には、ジェスチャを構成する乗員の手が写っている。図７に示される光源像の形は丸い形状に限定されるものではない。図１０は、光源像の一例を示す図である。図１０に示される光源像は、１つの丸いパターン５Ａと、その丸いパターン５Ａの周囲に放射状のパターン５Ｂとを有する。

ステップＳ２０にて、手候補識別部１０は、その映像に基づいて、第１領域Ａにおける第１手候補１１と第２領域Ｂにおける第２手候補１２とを識別する。ここでは、第１領域Ａは、運転席と助手席との間の領域を含む。第２領域Ｂは、ハンドル２が映っている領域の少なくとも一部と、そのハンドル２から予め定められた距離以内の領域とを含む。第１領域における識別対象の手は、サムズアップの手である。手候補識別部１０は、サムズアップの手に類似するパターンを第１手候補１１として識別する。そのため、手候補識別部１０は、実際にはサムズアップの手の像ではない物体像も第１手候補１１として識別する場合がある。第２領域における識別対象の手は、任意であるが、ここでは、ハンドル２を握っている手である。図７の第１領域Ａおいては、丸いパターンを有する光源像が第１手候補１１として識別されている。第２領域Ｂにおいては、乗員の手の像が第２手候補１２として識別されている。図８の第１領域Ａにおいては、おおよそ三角形を有する物体像が第１手候補１１として識別されている。第２領域Ｂにおいては、乗員の手の像が第２手候補１２として識別されている。図９の第１領域Ａにおいては、乗員の手の像が第１手候補１１として識別されている。第２領域Ｂにおいて第２手候補１２は識別されていない、つまり検出されていない。

ステップＳ３０にて、車外風景識別部２０の形状判定部２１Ａは、第１手候補１１の形状が、その形状に関する予め定められた条件を満たすか否か判定する。ここでは、その条件は、第１手候補１１の形状が１つの丸いパターンを有するか否かである。または、その条件は、第１手候補１１の形状が１つの丸いパターン５Ａと、その丸いパターン５Ａの周囲に放射状のパターン５Ｂとを有するか否かである。図７においては、第１手候補１１の形状は、予め定められた条件を満たす。そのため、ステップＳ５０が実行される。つまり、形状判定部２１Ａは第１手候補１１が光源像に該当すると判定する。言い換えると、形状判定部２１Ａは第１手候補１１が真の手ではないと判定する。図８および図９においては、第１手候補１１の形状は、予め定められた条件を満たさない。そのため、ステップＳ４０が実行される。つまり、形状判定部２１Ａは第１手候補１１が光源像に該当しないと判定する。

ステップＳ４０にて、車外風景識別部２０の検出判定部２１Ｂは、第２手候補１２が第２領域Ｂに検出されたか否かを判定する。図８においては、第２手候補１２が第２領域Ｂに検出されている。そのため、ステップＳ５０が実行される。つまり、ステップＳ３０において、第１手候補１１が光源像に該当しないと判定された場合であっても、第２手候補１２がハンドル２付近に検出された場合、検出判定部２１Ｂは第１手候補１１が真の手でないと判定する。図９においては、第２手候補１２が第２領域Ｂに検出されていない。そのため、ステップＳ６０が実行される。つまり、検出判定部２１Ｂは第１手候補１１が真の手であると判定する。

ステップＳ５０にて、誤認識識別部３０は、真の手でない第１手候補１１を棄却する。ここでは、誤認識識別部３０は、光源像に該当する図７の第１手候補１１に加えて、図８に示される第１手候補１１も棄却する。

ステップＳ６０にて、誤認識識別部３０は、真の手である第１手候補１１を、乗員の手の識別結果として出力する。ここでは、図９に示される第１手候補１１が、手の識別結果として出力される。

このようなジェスチャ認識装置１０１は、識別対象物である手を正確に識別する。特に乗員のうち運転手のジェスチャの認識精度が向上する。

（実施の形態２の変形例１）
車外風景識別部２０は、手候補の形状に関する条件を、任意のタイミングで更新してもよい。手候補の形状に関する条件は、学習済みモデルであってもよい。例えば、車外風景識別部２０は、新しい学習済みモデルを外部から取得し、手候補の形状に関する予め定められた条件として記憶する。言い換えると、手候補の形状に関する条件は、車外風景識別部２０が上記の判定処理を行う際に、予め定められていればよい。

（実施の形態２の変形例２）
手候補が車両のいずれかの窓に対応する領域内に位置する場合、その手候補は、車両の外部の光源に起因する光源像である可能性が高い。よって、第１領域Ａは、映像における車両の窓に対応する領域であってもよい。車両の窓に対応する領域は、例えば実施の形態２に示されたように後部窓３であるが、それ以外の窓であってもよい。手候補識別部１０は、その車両の窓に対応する領域において、第１手候補１１を識別する。

車外風景識別部２０は、手候補の形状に関する予め定められた条件に加えて、第１手候補１１が第２手候補１２の輝度よりも明るい場合に、第１手候補１１が光源像に該当すると判定してもよい。または、車外風景識別部２０は、第１手候補１１の輝度が予め定められた輝度以上である場合に、第１手候補１１が光源像に該当すると判定してもよい。例えば、車外風景識別部２０は、第１手候補１１の丸いパターンの中心部の輝度値が飽和している場合に、第１手候補１１が光源像に該当すると判定してもよい。さらに、車外風景識別部２０は、その第１手候補１１の輝度値が中央から周囲にかけて単調に減少するような分布を有している場合に、第１手候補１１が光源像に該当すると判定してもよい。

光源像が映る映像には、レンズフレアと呼ばれるパターンが現れる場合がある。車外風景識別部２０は、形状に関する予め定められた条件を満たす第１手候補１１の周辺に、円弧パターン、リングパターンおよび多角形パターンのうち少なくとも１つのパターンが存在するか否かに基づいて、その第１手候補１１が光源像に該当するか否かを判定してもよい。

このようなジェスチャ認識装置１０１によれば、第１手候補１１が光源像に該当するか否かの判定精度がさらに向上する。

＜実施の形態３＞
実施の形態３におけるジェスチャ認識装置およびジェスチャ認識方法を説明する。実施の形態３は実施の形態１の下位概念である。実施の形態３において、実施の形態１または２と同様の構成要素には、同一の参照符号を付し、それらの詳細な説明は省略する。

図１１は、実施の形態３におけるジェスチャ認識装置１０２の構成を示す機能ブロック図である。

ジェスチャ認識装置１０２は、映像取得部４０、手候補識別部１０、車外風景識別部２０および誤認識識別部３０を含む。

手候補識別部１０は、少なくとも１つの手候補として、第１手候補１１と第２手候補１２とを識別する。識別対象の手は、任意であるが、例えば、サムズアップの手およびハンドル２を握っている手である。手候補識別部１０は、その映像において、識別対象の手に類似するパターンを手候補として検出する。

車外風景識別部２０は、形状判定部２２Ａおよび位置判定部２２Ｂを含む。形状判定部２２Ａは、手候補の形状に関する予め定められた条件に基づいて、その第１手候補１１が光源像に該当するか否かを判定する。形状に関する条件は、実施の形態２と同様である。位置判定部２２Ｂは、第１手候補１１よりも車両のハンドル２の近くに位置する第２手候補１２が検出されたか否かを判定する。その際、位置判定部２２Ｂは、第１手候補１１および第２手候補１２の位置を、映像に基づいて自ら検出してもよいし、手候補識別部１０からそれら位置の情報を取得してもよい。位置情報は、例えば映像における座標情報である。

誤認識識別部３０は、形状判定部２２Ａの判定結果と位置判定部２２Ｂの判定結果とに基づいて、光源像に該当すると判定された第１手候補１１を棄却する。そして、誤認識識別部３０は、光源像に該当しないと判定された第１手候補１１を乗員の手として識別する。

以上の映像取得部４０、手候補識別部１０、車外風景識別部２０および誤認識識別部３０の機能は、図２または図３に示される処理回路によって実現される。

図１２は、実施の形態３におけるジェスチャ認識方法を示すフローチャートである。

ステップＳ１１０にて、映像取得部４０は、撮像装置１１０によって撮影された車両の室内の映像を取得する。図１３から図１５は、車内映像の一例をそれぞれ示す図である。図１３の映像には、車両の後部窓３に対応する領域に丸い光源像が写っている。図１４の映像には、後部窓３に対応する領域に木の影、標識等、光源像以外の物体像が写っている。図１５の映像には、ジェスチャを構成する乗員の手が写っている。

ステップＳ１２０にて、手候補識別部１０は、その映像に基づいて少なくとも１つの手候補を識別する。ここでは、手候補識別部１０は、予め定められた領域Ｃ内で第１手候補１１と第２手候補１２とを識別する。図１３においては、丸いパターンを有する光源像が第１手候補１１として識別されている。また、ハンドル２を握っている手の像が第２手候補１２として識別されている。図１４においては、おおよそ三角形を有する物体像が第１手候補１１として識別されている。また、ハンドル２を握っている手の像が第２手候補１２として識別されている。図１５においては、乗員の手の像が第１手候補１１として識別されている。第２手候補１２は識別されていない、つまり検出されていない。

ステップＳ１３０にて、車外風景識別部２０の形状判定部２２Ａは、第１手候補１１の形状が、その形状に関する予め定められた条件を満たすか否かを判定する。ここでは、その条件は、実施の形態２と同様である。図１３においては、第１手候補１１は、予め定められた条件を満たす。そのため、ステップＳ１５０が実行される。つまり、形状判定部２２Ａは第１手候補１１が光源像に該当すると判定する。図１４および図１５においては、第１手候補１１は、予め定められた条件を満たさないため、ステップＳ１４０が実行される。つまり、形状判定部２２Ａは第１手候補１１が光源像に該当しないと判定する。

ステップＳ１４０にて、車外風景識別部２０の位置判定部２２Ｂは、第１手候補１１よりも車両のハンドル２の近くに位置する第２手候補１２が検出されたか否かを判定する。図１４においては、第２手候補１２が検出されており、その第２手候補１２は第１手候補１１よりも車両のハンドル２の近くに位置する。そのため、ステップＳ１５０が実行される。つまり、ステップＳ１３０において、第１手候補１１が光源像に該当しないと判定された場合であっても、第２手候補１２が第１手候補１１よりもハンドル２の近くに位置する場合、位置判定部２２Ｂは第１手候補１１が真の手でないと判定する。図１５においては、第２手候補１２が検出されていないため、ステップＳ１６０が実行される。つまり、位置判定部２２Ｂは第１手候補１１が真の手であると判定する。

ステップＳ１５０にて、誤認識識別部３０は、真の手でない第１手候補１１を棄却する。ここでは、誤認識識別部３０は、光源像に該当する図１３の第１手候補１１に加えて、図１４に示される第１手候補１１も棄却する。

ステップＳ１６０にて、誤認識識別部３０は、真の手である第１手候補１１を、乗員の手の識別結果として出力する。ここでは、図１５に示される第１手候補１１が、手の識別結果として出力される。

このようなジェスチャ認識装置１０２は、識別対象物である手を正確に識別する。特に乗員のうち運転手のジェスチャの認識精度が向上する。

＜実施の形態４＞
実施の形態４におけるジェスチャ認識装置およびジェスチャ認識方法を説明する。実施の形態４は実施の形態１の下位概念である。実施の形態４において、実施の形態１から３のいずれかと同様の構成要素には、同一の参照符号を付し、それらの詳細な説明は省略する。

手候補識別部１０は、映像のフレームごとに手候補を識別する。

車外風景識別部２０は、その手候補が光源像に該当するか否かをフレームごとに判定する。

誤認識識別部３０は、１つのフレームにおける手候補が光源像に該当しないと判定された場合であっても、Ｎフレーム連続で同一の形状を有する手候補が識別されない場合には、光源像に該当しないと判定されたその手候補を棄却する。例えば、１つのフレームにおける手候補が真の手であると判定された場合であっても、Ｎフレーム連続で同一の形状を有する手候補が識別されない場合には、誤認識識別部３０は、その手候補を棄却する。「Ｎ」は、予め定められた２以上の整数である。

このようなジェスチャ認識装置によれば、手候補が光源像に該当するか否かの判定精度がさらに向上する。

＜実施の形態５＞
実施の形態５におけるジェスチャ認識装置およびジェスチャ認識方法を説明する。実施の形態５は実施の形態１の下位概念である。実施の形態５において、実施の形態１から４のいずれかと同様の構成要素には、同一の参照符号を付し、それらの詳細な説明は省略する。

誤認識識別部３０は、手候補がＭフレーム連続で光源像に該当すると判定された場合に、手候補を棄却する。「Ｍ」は、予め定められた２以上の整数である。

＜実施の形態６＞
以上の各実施の形態に示されたジェスチャ認識装置は、ナビゲーション装置と、通信端末と、サーバと、これらにインストールされるアプリケーションの機能とを適宜に組み合わせて構築されるシステムにも適用することができる。ここで、ナビゲーション装置とは、例えば、ＰＮＤ（Portable Navigation Device）などを含む。通信端末とは、例えば、携帯電話、スマートフォンおよびタブレットなどの携帯端末を含む。

図１６は、実施の形態６におけるジェスチャ認識装置１００およびそれに関連して動作する装置の構成を示す機能ブロック図である。

ジェスチャ認識装置１００および通信装置１３０がサーバ３００に設けられている。ジェスチャ認識装置１００は、車両１に設けられた撮像装置１１０から通信装置１４０および通信装置１３０を介して車両１の室内の映像を取得する。ジェスチャ認識装置１００は、その映像に基づいて手候補を識別する。ジェスチャ認識装置１００は、手候補の形状に関する予め定められた条件に基づいて、手候補が光源像に該当するか否かを判定する。ジェスチャ認識装置１００は、光源像に該当しないと判定された手候補を、乗員のジェスチャにおける手として識別する。ジェスチャ認識装置１００は、その識別結果に基づく乗員の手によって示されるジェスチャを検出する。ジェスチャ認識装置１００は、そのジェスチャに基づく制御信号を、通信装置１３０，１４０を介して車載機器１２０に出力する。車載機器１２０は、その制御信号に基づいて制御される。

このように、ジェスチャ認識装置１００がサーバ３００に配置されることにより、車両１に設けられる装置の構成が簡素化される。

また、ジェスチャ認識装置１００の機能あるいは構成要素の一部がサーバ３００に設けられ、他の一部が車両１に設けられるなど、それらは分散して配置されてもよい。

なお、本開示は、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。

１車両、２ハンドル、３後部窓、５Ａパターン、５Ｂパターン、１０手候補識別部、１１第１手候補、１２第２手候補、２０車外風景識別部、２１Ａ形状判定部、２１Ｂ検出判定部、２２Ａ形状判定部、２２Ｂ位置判定部、３０誤認識識別部、４０映像取得部、９０処理回路、９１プロセッサ、９２メモリ、１００ジェスチャ認識装置、１０１ジェスチャ認識装置、１０２ジェスチャ認識装置、１１０撮像装置、１２０車載機器、１３０通信装置、１４０通信装置、３００サーバ、Ａ第１領域、Ｂ第２領域、Ｃ領域。

Claims

車両の室内の映像に基づいて、前記映像における前記車両の乗員の手の候補である少なくとも１つの手候補を識別する手候補識別部と、
手候補の形状に関する予め定められた条件に基づいて、前記少なくとも１つの手候補が前記車両の外部に存在する光源に起因する光源像に該当するか否かを判定する車外風景識別部と、
前記光源像に該当しないと判定された手候補を、前記乗員のジェスチャにおける前記手として識別する誤認識識別部と、を備え、
前記車外風景識別部は、前記手候補の前記形状に関する前記予め定められた条件を満たす前記手候補の周辺に、円弧パターン、リングパターンおよび多角形パターンのうち少なくとも１つのパターンが存在するか否かに基づいて、前記手候補が前記光源像に該当するか否かを判定する、ジェスチャ認識装置。
前記誤認識識別部は、前記光源像に該当すると判定された手候補を棄却する、請求項１に記載のジェスチャ認識装置。
車両の室内の映像に基づいて、前記映像における前記車両の乗員の手の候補である少なくとも１つの手候補を識別する手候補識別部と、
手候補の形状に関する予め定められた条件に基づいて、前記少なくとも１つの手候補が前記車両の外部に存在する光源に起因する光源像に該当するか否かを判定する車外風景識別部と、
前記光源像に該当しないと判定された手候補を、前記乗員のジェスチャにおける前記手として識別する誤認識識別部と、を備え、
前記誤認識識別部は、前記光源像に該当すると判定された手候補を棄却し、
前記手候補識別部は、前記少なくとも１つの手候補として、前記映像内の予め定められた第１領域における第１手候補と、前記映像内の予め定められた第２領域における第２手候補とを識別し、
前記車外風景識別部は、
前記手候補の前記形状に関する前記予め定められた条件に基づいて、前記第１手候補が前記光源像に該当するか否かを判定する形状判定部と、
前記第２手候補が前記予め定められた第２領域に検出されたか否かを判定する検出判定部と、を含み、
前記誤認識識別部は、
前記形状判定部の判定結果と前記検出判定部の判定結果とに基づいて、前記光源像に該当すると判定された前記第１手候補を棄却する、ジェスチャ認識装置。
前記手候補の前記形状に関する前記予め定められた条件は、前記手候補の前記形状が１つの丸いパターンを有するか否か、または、前記手候補の前記形状が１つの丸いパターンと前記丸いパターンの周囲に放射状のパターンとを有するか否かである、請求項１から請求項３のうちのいずれか１項に記載のジェスチャ認識装置。
前記予め定められた第１領域は、前記映像における前記車両の運転席と助手席との間の領域を含み、
前記予め定められた第２領域は、前記映像における前記車両のハンドルの少なくとも一部と、前記ハンドルから予め定められた距離以内の領域とを含む、請求項３に記載のジェスチャ認識装置。
前記予め定められた第１領域は、前記映像における前記車両の窓に対応する領域であり、
前記予め定められた第２領域は、前記映像における前記車両のハンドルの少なくとも一部と、前記ハンドルから予め定められた距離以内の領域とを含む、請求項３に記載のジェスチャ認識装置。
前記手候補識別部は、前記少なくとも１つの手候補として、第１手候補と第２手候補とを識別し、
前記車外風景識別部は、
前記手候補の前記形状に関する前記予め定められた条件に基づいて、前記第１手候補が前記光源像に該当するか否かを判定する形状判定部と、
前記第１手候補よりも前記車両のハンドルの近くに位置する前記第２手候補が検出されたか否かを判定する位置判定部と、を含み、
前記誤認識識別部は、
前記形状判定部の判定結果と前記位置判定部の判定結果とに基づいて、前記光源像に該当しないと判定された前記第１手候補を棄却する、請求項２に記載のジェスチャ認識装置。
前記手候補識別部は、前記映像のフレームごとに前記手候補を識別し、
前記誤認識識別部は、前記手候補が前記光源像に該当しないと判定された場合であっても、予め定められた２以上の整数であるＮフレーム連続で同一の形状を有する前記手候補が識別されない場合には、前記光源像に該当しないと判定された前記手候補を棄却する、請求項２または請求項３に記載のジェスチャ認識装置。
前記車外風景識別部は、前記映像のフレームごとに前記手候補が前記光源像に該当するか否かを判定し、
前記誤認識識別部は、前記手候補が予め定められた２以上の整数であるＭフレーム連続で前記光源像に該当すると判定された場合に、前記手候補を棄却する、請求項２または請求項３に記載のジェスチャ認識装置。
手候補識別部は、車両の室内の映像に基づいて、前記映像における前記車両の乗員の手の候補である少なくとも１つの手候補を識別し、
車外風景識別部は、手候補の形状に関する予め定められた条件に基づいて、前記少なくとも１つの手候補が前記車両の外部に存在する光源に起因する光源像に該当するか否かを判定し、かつ、前記手候補の前記形状に関する前記予め定められた条件を満たす前記手候補の周辺に、円弧パターン、リングパターンおよび多角形パターンのうち少なくとも１つのパターンが存在するか否かに基づいて、前記手候補が前記光源像に該当するか否かを判定し、
誤認識識別部は、前記光源像に該当しないと判定された手候補を、前記乗員のジェスチャにおける前記手として識別する、ジェスチャ認識方法。
手候補識別部は、車両の室内の映像に基づいて、前記映像における前記車両の乗員の手の候補である少なくとも１つの手候補として、前記映像内の予め定められた第１領域における第１手候補と、前記映像内の予め定められた第２領域における第２手候補とを識別し、
車外風景識別部は、手候補の形状に関する予め定められた条件に基づいて、前記少なくとも１つの手候補が前記車両の外部に存在する光源に起因する光源像に該当するか否かを判定することとして、前記第１手候補が前記光源像に該当するか否かを判定する第１判定と、前記第２手候補が前記予め定められた第２領域に検出されたか否かを判定する第２判定とを行い、
誤認識識別部は、前記第１判定の結果と、前記第２判定の結果とに基づいて、前記光源像に該当すると判定された前記第１手候補を棄却し、前記光源像に該当しないと判定された手候補を、前記乗員のジェスチャにおける前記手として識別する、ジェスチャ認識方法。