JP2013080433A - ジェスチャ認識装置及びそのプログラム - Google Patents

ジェスチャ認識装置及びそのプログラム Download PDF

Info

Publication number
JP2013080433A
JP2013080433A JP2011221145A JP2011221145A JP2013080433A JP 2013080433 A JP2013080433 A JP 2013080433A JP 2011221145 A JP2011221145 A JP 2011221145A JP 2011221145 A JP2011221145 A JP 2011221145A JP 2013080433 A JP2013080433 A JP 2013080433A
Authority
JP
Japan
Prior art keywords
gesture
graphic
stroke
recognition
trajectory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011221145A
Other languages
English (en)
Inventor
Ryosuke Aoki
良輔 青木
Masayuki Ihara
雅行 井原
Toru Kobayashi
透 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011221145A priority Critical patent/JP2013080433A/ja
Publication of JP2013080433A publication Critical patent/JP2013080433A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

【課題】ジェスチャにより入力された多種類の図形を簡単なアルゴリズムで短時間に認識できるようにし、これによりリアルタイム性の向上を図る。
【解決手段】指位置蓄積部25に格納されたジェスチャの開始から終了までの間の描画点の位置座標の集合をもとに描画軌跡を表す画像を作成し、この描画軌跡を表す画像を含む最小の矩形領域を枠パターンを用いて切り取る。そして、この切り取られた描画軌跡を含む最小面積の矩形領域画像のサイズを正規化したのち、この矩形領域画像をもとにSVM using DtB を応用した認識アルゴリズムにより上記描画軌跡により表される図形を認識する。この認識処理は、矩形領域画像の4辺を一辺ずつ順に選択し、選択された辺から描画軌跡までの距離情報(DtB 情報)を算出してSVMモデルに入力することにより図形を識別する処理を、該当する図形が認識できるまで繰り返すことで行われる。
【選択図】図2

Description

この発明は、例えばテレビジョン受信機や録画再生装置に対し離れた場所からチャネル情報や制御情報等を入力するために用いる、指又は腕の動き又は形状によるジェスチャを認識するジェスチャ認識装置及びそのプログラムに関する。
テレビジョン受信機に取り付け可能なカメラや赤外線距離センサを備える電子機器が安価に簡単に手に入るようになり、リモートコントローラを使わずに、手もしくは指のジェスチャによってテレビジョン受信機のメニュー項目を選択する方式が提案されている。このジェスチャ入力方式は、例えばユーザの指の動きをカメラを用いて撮像し、この撮像された画像データから指の動作軌跡を図形として検出して、この検出された図形を認識するものとなっている。
ジェスチャを認識するための手法には様々あるが、その1つとして一筆書きジェスチャ入力方式が提案されている。この一筆書きジェスチャ入力方式は、入力対象のメニュー項目に対し予め対応付けられたジェスチャを一筆書き操作により入力するもので、直感的で自然な動きによってジェスチャ入力できる利点がある(例えば、非特許文献1を参照)。
青木 良輔、唐津 豊、井原 雅行、前田 篤彦、渡部 智樹、小林 稔、鏡 慎吾:"大型ディスプレイ上のメニュー選択に適したカメラによる一筆書きジェスチャインタフェース"、ヒューマンインタフェース学会研究報告集2010,VOL.12,NO.9,35-42.
一筆書きジェスチャ入力方式は、人の手もしくは指によって描かれた一筆書き直線と円のみの図形を識別しているが、実際にテレビジョン受信機の操作メニューの項目数は多く、より多種類の図形の識別を可能にする必要がある。ジェスチャ認識アルゴリズムとしては、一般に“Hidden Markov Machine”が使用されている。しかし、このアルゴリズムは計算量が大きく、リアルタイム性が求められるテレビジョン受信機のメニュー操作には適さない。
この発明は上記事情に着目してなされたもので、その目的とするところは、ジェスチャにより入力された多種類の図形を簡単なアルゴリズムで短時間に認識できるようにし、これによりリアルタイム性の向上を図ったジェスチャ認識装置及びそのプログラムを提供することにある。
上記目的を達成するためにこの発明の第1の観点は、ジェスチャにより空間に図形を描く動きを撮像してその画像データを出力する撮像装置と、前記撮像装置から出力された画像データをもとに前記ジェスチャにより描かれた図形を認識する機能を有するジェスチャ認識装置とを具備するシステムで使用される上記ジェスチャ認識装置にあって、
上記撮像装置から出力された画像データを所定の周期で取り込むごとに、当該画像データから上記ジェスチャによる描画点の位置情報を検出して記憶手段に格納する。そして、先ずこの格納された描画点の位置情報の集合をもとに上記ジェスチャによる描画軌跡を表す情報を作成し、この作成された描画軌跡を表す情報を含む領域を複数の辺により構成される枠型パターンを用いて切り取る。次に、上記枠型パターンの一辺を選択し、この一辺と上記描画軌跡との間の距離情報を求めて、この距離情報をもとに上記描画軌跡の部分形状を識別し、この識別された描画軌跡の部分形状をもとに上記描画軌跡により表される図形を認識する。この認識処理を、上記枠型パターンの複数の辺を順に選択しながら、当該描画軌跡により表される図形が認識されるまで繰り返し実行する。
また、この発明の第1の観点は、上記切り取られた描画軌跡と当該描画軌跡を切り取るために使用した枠型パターンのサイズを予め定められたサイズに正規化する手段をさらに備え、この正規化された描画軌跡及び枠型パターンをもとに上記図形認識処理を行うことも特徴とする。
したがってこの発明の第1の観点によれば、描画点の軌跡からジェスチャの図形を認識する際に、枠型パターンの一辺と描画軌跡との間の距離から描画軌跡の部分形状を識別して、この識別された部分形状をもとにジェスチャ図形を認識する処理が、枠型パターンの複数の辺を順に選択しながらジェスチャ図形が認識されるまで繰り返し行われる。すなわち、枠型パターンの辺ごとにジェスチャ図形の認識処理が段階的に行われる。このため、ジェスチャ認識アルゴリズムとして“Hidden Markov Machine”を使用する場合は言うに及ばず、例えば常に枠型パターンの全ての辺について描画軌跡の形状を識別しその結果をもとに図形認識を行う場合に比べ、少ない計算処理量でジェスチャ図形を認識することが可能となり、これにより図形認識処理に要する時間を短縮することが可能となる。
また、描画軌跡と枠型パターンのサイズを正規化したのち上記図形認識処理を行うようにすると、描画点の検出や描画軌跡の作成において誤差が発生しても、これらの誤差を吸収して図形認識処理を効率良く行うことができ、これにより図形認識処理に要する時間をさらに短縮することが可能となる。
すなわちこの発明によれば、ジェスチャにより入力された多種類の図形を簡単なアルゴリズムで短時間に認識できるようになり、これによりリアルタイム性の向上を図ったジェスチャ認識装置を提供することができる。
この発明の一実施形態に係わるジェスチャ認識装置を含むシステムの概略構成図。 図1にジェスチャ認識装置として示した情報処理装置の機能構成を示すブロック図。 図2に示した情報処理装置による全体の処理手順と処理内容を示すフローチャート。 図3に示したフローチャートにおける一筆書きジェスチャ認識機能のON/OFF切替処理の処理手順と処理内容を示すフローチャート。 ジェスチャ機能ONのためのユーザの操作例を示す図。 ジェスチャ機能OFFのためのユーザの操作例を示す図。 図3に示したフローチャートにおける一筆書きジェスチャ認識処理の処理手順と処理内容を示すフローチャート。 図7に示した一筆書きジェスチャ認識処理手順のうちの一筆書き図形識別処理の処理手順と処理内容を示すフローチャート。 図8に示した一筆書き図形識別処理の一例を説明するための図。 図8に示した一筆書き図形識別処理の一例を説明するための図。 図8に示した一筆書き図形識別処理により認識される一筆書き図形の一例を示す図。 図8に示した一筆書き図形識別処理の具体例を説明するための図。 図8に示した一筆書き図形識別処理の第1の具体例のステップ1を示す図。 図8に示した一筆書き図形識別処理の第1の具体例のステップ2を示す図。 図8に示した一筆書き図形識別処理の第2の具体例のステップ1を示す図。 図8に示した一筆書き図形識別処理の第2の具体例のステップ2を示す図。 図8に示した一筆書き図形識別処理の第2の具体例のステップ3を示す図。
以下、図面を参照してこの発明に係わる一実施形態を説明する。
[構成]
図1は、この発明の一実施形態に係わるジェスチャ認識装置を用いた操作情報入力システムの概略構成図である。このシステムは、テレビジョン受信機2にカメラ4を装着すると共に、テレビジョン受信機2に情報処理装置3を接続したものとなっている。カメラ4は、ユーザ1の指の動きを用いたジェスチャを撮像し、その撮像画像データをUSBケーブルを介してテレビジョン受信機2へ出力する。なお、ユーザ1の指先には、指先の動きをより認識し易くするために例えばLED(Light Emitting Diode)を用いた発光マーカ6が装着される。
情報処理装置3は、ジェスチャ認識装置としての機能を備えたもので、以下のように構成される。図2は、情報処理装置3の機能構成を示すブロック図である。情報処理装置3は、ジェスチャ認識処理を行うために必要な機能として、指の位置検出ユニット10と、データベース20と、一筆書きジェスチャ認識処理ユニット30と、リアルタイム処理発生ユニット40と、表示画面処理ユニット50を備えている。
データベース20は、記憶媒体として例えばハードディスク又はNAND型フラッシュメモリを使用したもので、この発明を実施するために必要な記憶領域として、カメラ画像蓄積部21と、一筆書き図形蓄積部22と、操作内容蓄積部23と、表示画像・映像蓄積部24と、指位置蓄積部25と、SVM学習データ蓄積部26を有している。
カメラ画像蓄積部21は、指の位置検出ユニット10によりカメラ4から取得された画像データを記憶するために用いられる。指位置蓄積部25は、カメラ画像蓄積部21に蓄積された画像データから検出された指の指示位置と、当該画像データを撮像した時刻とを関連付けて格納するために用いられる。一筆書き図形蓄積部22には、一筆書き図形の認識に用いる一筆書き図形のモデルが予め格納されている。操作内容蓄積部23には、認識されたジェスチャの種類と方向に対応する操作内容を表す情報が予め格納されている。表示画像・映像蓄積部24には、上記操作内容データベース23に格納された操作内容を表す情報に対応付けて、表示画面に表示する画像や映像のデータが予め格納されている。SVM学習データ蓄積部26には、SVM学習モードにおいて切り出し枠の辺ごとに得られた距離情報と、この距離情報をもとに上記辺ごとに作成されたSVMモデルが格納される。
リアルタイム処理発生ユニット40は、タイマを使用して、例えば33msecごとにイベント信号を発行する機能を有する。
撮像画像取得ユニット10はカメラ画像取得部11を備え、上記リアルタイム発生ユニットによりイベント信号が発行されるごとに、カメラ4から画像データを取得して、この画像データを上記カメラ画像蓄積部21に記憶させる機能を有する。
一筆書きジェスチャ認識処理ユニット30は、一筆書きジェスチャ認識機能ON/OFF切替部310と、一筆書きジェスチャ認識処理部320を備えている。
このうち、先ず一筆書きジェスチャ認識機能ON/OFF切替部310は、指位置検出部311と、一筆書きジェスチャ認識機能ON/OFF判断・切替部312を有する。指位置検出部311は、上記カメラ画像蓄積部21に格納された画像データからマーカ5の描画点の位置座標、つまりユーザの指の指示位置を検出し、この検出された描画点の位置座標を上記指位置蓄積部25に格納する。
一筆書きジェスチャ認識機能ON/OFF判断・切替部312は、以下の処理機能を有している。
(1) 一筆書きジェスチャ認識処理部320の機能がOFFに設定されている状態で、カメラ4による撮像範囲、つまりジェスチャの認識領域内に、ジェスチャの始点判定領域(ジェスチャ開始領域)を設定する。そして、上記指位置検出部311により検出された発光マーカ5の描画点が上記ジェスチャ開始領域内に存在するか否かを判定し、存在すると判定された場合に上記一筆書きジェスチャ認識処理部320の機能をONに設定すると共に、ジェスチャの終点を検出するための検出ゾーン(Detection zone)を上記ジェスチャの認識領域内に設定する機能。
(2) ジェスチャ認識処理部320の機能がONに設定されている状態で、上記指位置検出部311により検出された発光マーカ5の描画点が上記ジェスチャ認識領域の外に出たか否かを判定し、ジェスチャ認識領域の外に出たことが検出された場合に、上記一筆書きジェスチャ認識処理部の機能をONからOFFに遷移させる機能。
次に一筆書きジェスチャ認識処理部320は、一筆書きジェスチャ入力判断部321と、一筆書き図形の方向識別部322と、一筆書き図形識別部323を有している。
一筆書きジェスチャ入力判断部321は、一筆書きジェスチャ認識処理部320の機能がONの状態で、上記画像データから検出される描画点が上記ジェスチャ開始領域内に入ったことが検出されたときの位置座標をジェスチャの開始点として検出する。また、上記描画点がジェスチャ開始領域外に出たのち上記検出ゾーン内に戻ったとき、このときの描画点の位置座標をジェスチャの終了点として検出する。
一筆書き図形の方向識別部322は、上記ジェスチャの終了点が検出された場合に、当該ジェスチャによる描画点がジェスチャ開始領域外に出たのち上記検出ゾーン内に戻るまでの軌跡を表す位置座標の集合をもとに当該描画軌跡の重心位置座標を求め、この描画軌跡の重心位置座標とジェスチャの描画開始点との関係をもとに、当該描画開始点に対する描画方向を識別する。
一筆書き図形識別部323は、“Support Vector Machine using Distance to Boarders”(以下、SVM using DtB と称する)を応用した本発明特有の認識アルゴリズムを用いて上記ジェスチャによる描画図形を認識するものである。そして、この図形認識処理に必要な機能として、図形作成機能3231と、図形領域抽出機能3232と、抽出画像正規化機能3233と、4辺DtB情報抽出機能3234と、モード識別機能3235と、学習データ蓄積機能3236と、SVMモデル作成機能3237と、図形認識機能3238を有している。
なお、SVM using DtB それ自体は既知の技術であり、以下の文献に述べられている。
Lafuente-Arroyo, S.; Gil-Jimenez, P.; Maldonado-Bascon, R.; Lopez-Ferreras, F.; Maldonado-Bascon, S.; “traffic sign shape classification evaluation I: SVM using distance to borders”
図形作成機能3231は、指位置蓄積部25に格納されているジェスチャの開始から終了までの間の描画点の位置座標の集合をもとに描画軌跡を表す画像を、つまり指によって描かれた図形を表す画像を作成する処理を行う。
図形領域抽出機能3232は、4辺により構成される矩形の枠パターンを用いて、上記図形作成機能3231により作成された描画軌跡を表す画像から、当該描画軌跡を含む最小面積の矩形領域を切り取る処理を行う。
抽出画像正規化機能3233は、上記図形領域抽出機能3232により切り取られた描画軌跡を含む最小面積の矩形領域の画像サイズを、予め定められたサイズに応じて正規化処理する。
4辺DtB情報抽出機能3234は、上記抽出画像正規化機能3233により正規化された描画軌跡を含む矩形領域の画像について、その各辺から描画軌跡までの距離情報(DtB 情報)を抽出する処理を行う。
モード識別機能3235は、一筆書き図形識別部323の処理モードが学習モードに設定されているか或いは認識モードに設定されているかを判定する。
学習データ蓄積機能3236は、学習モードが設定されている状態において、上記4辺DtB情報抽出機能3234により抽出された、描画軌跡を含む矩形領域の画像の各辺から描画軌跡までの距離情報(DtB 情報)を、学習データとしてSVM学習データ蓄積部26に格納する処理を行う。
SVMモデル作成機能3237は、上記SVM学習データ蓄積部26に格納された学習データから辺ごとにSVMモデルを作成し、この作成されたSVMモデルをSVM学習データ蓄積部26に格納する処理を行う。
図形認識機能3238は、認識モードが設定されている状態で以下の処理を実行する機能を有する。
(1) 描画軌跡を含む矩形領域の画像の辺を順に選択し、この選択された辺ごとに、上記4辺DtB情報抽出機能3234により抽出された描画軌跡までの距離情報(DtB 情報)を、上記SVM学習データ蓄積部26に格納された該当する辺のSVMモデルに入力し、これにより上記描画軌跡の上記選択された辺に対向する部位の形状を識別する処理。
(2) (1) の識別処理により、1つの辺から見た描画軌跡の部分形状が識別されるごとに、当該部分形状をもとに上記描画軌跡の全体形状、つまりジェスチャにより描かれた一筆書き図形の形状を識別する。そして、この識別された図形の形状を、上記一筆書き図形蓄積部22に記憶された一筆書き図形モデルと照合することで、上記一筆書き図形の種類を認識する処理。
表示画面処理ユニット50は表示画面処理部51を有する。表示画面処理部51は、上記一筆書き図形の方向識別部322及び一筆書き図形識別部323によりそれぞれ識別されたジェスチャ図形の描画方向と図形の種類をもとに、操作内容蓄積部23から対応する操作内容を表す情報を読出す。そして、この読み出された操作内容を表す情報をもとに、表示画像・映像蓄積部24から対応する画像や映像の表示データを読出し、この表示データをもとにテレビジョン受信機2の表示画面を更新する。
なお、上記撮像画像取得ユニット10、一筆書きジェスチャ認識処理ユニット30、リアルタイム処理発生ユニット40及び表示画面処理ユニット50の各処理機能は、図示しないプログラムメモリに格納されたアプリケーション・プログラムを中央処理ユニット(Central Processing Unit:CPU)に実行させることにより実現される。
[動作]
次に、以上のように構成された情報処理装置3による、ジェスチャを用いた入力情報の認識動作を説明する。
図3は、その全体の処理手順と処理内容を示すフローチャートである。なお、ここではテレビジョン受信機2のディスプレイに電子番組案内(Electronic Program Guide:EPG)情報を表示させ、このEPG情報に対しユーザ1がジェスチャにより番組の選択操作を行う場合を例にとって説明する。
(1)リアルタイムイベント発生処理
ジェスチャ入力モードが設定されると、ステップS10によりリアルタイム処理発生ユニット40が起動し、タイマの計時時間Tが予め設定された時間、例えば33msecになるごとにステップS11においてイベント信号が発生される。すなわち、ジェスチァ入力モードでは33msec周期でイベント信号が発生される。なお、タイマの計時時間Tはイベント信号が発生されるごとにステップS12でリセットされる。
(2)カメラ画像の取得及び指位置の検出処理
上記リアルタイム処理発生ユニット40からイベント信号が発生されると、先ずステップS20において撮像画像取得ユニット10が起動し、そのカメラ画像取得部11の制御の下で、カメラ4により撮像されたユーザ1の画像データが取り込まれてカメラ画像蓄積部21に記憶される。
そして、上記カメラ画像蓄積部21に新たな画像データが記憶されると、図4に示すステップS311において、上記画像データ中から発光マーカ5の輝点画像を検出する処理が行われる。そして、この検出された輝点画像の画像データ中の重心位置を示す座標が、ユーザ1の指の位置を表す描画点として指位置蓄積部25に記憶される。以上の処理は上記33msec周期で繰り返し行われ、この結果上記指位置蓄積部25にはユーザ1の指の位置を表す描画点の位置座標の集合が、ユーザ1がジェスチャにより描いた図形を示すデータとして記憶される。なお、このときカメラ4の絞り値(F値)を大きく設定して受光光量を制限することで、発光マーカ5の光のみを検出しやすくするとよい。
(3)一筆書きジェスチャ認識機能のON/OFF切替処理
上記指位置蓄積部25に新たな指位置座標が記憶されるごとに、ステップS30のステップS31において一筆書きジェスチャ認識処理ユニット30の一筆書きジェスチャ認識機能ON/OFF切替部310が起動され、この一筆書きジェスチャ認識機能ON/OFF切替部310の制御の下で以下のような処理が実行される。図4中のステップS312はその処理手順と処理内容を示すフローチャートである。
(3−1)一筆書きジェスチャ認識機能をONする場合
先ずステップS3121により一筆書きジェスチャ認識処理部320の機能がONであるか否かが判定される。そして、ここではまだONになっていないのでステップS3125に移行し、カメラ4による撮像範囲、つまりジェスチャの認識領域内に、ジェスチャの始点判定領域(ジェスチャ開始領域)を設定する。例えば図5(a)に示すように、ジェスチャの認識領域Cの中央にジェスチャ開始領域E1を設定する。そして、上記指位置検出処理(ステップS311)により検出された発光マーカ5の描画点の位置座標が上記ジェスチャ開始領域E1内に存在するか否かを判定する。
この状態で、ユーザ1が指の位置を動かし、これにより図5(a)に示すように描画点の位置座標P0が破線L1のように上記ジェスチャ開始領域E0内に入ると、ステップS3126により上記一筆書きジェスチャ認識部320の機能をONに設定する。またそれと共に、ステップS3127により図5(b)に示すようにジェスチャの終点を検出するための検出ゾーン(Detection zone)E2を上記ジェスチャの認識領域C内に設定する。
このとき、検出ゾーンE2のサイズはジェスチャ開始領域E1より大きなサイズに設定される。このようにすると、ユーザ1によるユーザの指の位置が検出ゾーンE2内に戻った後に、震えなどにより当該検出ゾーンE2の境界付近で位置ずれを起こしたとしても、このときの指の位置座標、つまり終点の位置を、終点判定領域としての検出ゾーンE2内に安定的に留めることが可能となる。このため、検出ゾーンE2の境界上でいわゆるチャタリングのような現象が発生しても、これにより後述する描画の終了判定(入力判定)において誤認識が発生しないようにすることができる。
(3−2)一筆書きジェスチャ認識機能をOFFする場合
上記一筆書きジェスチャ認識機能がONとなった状態で、ユーザ1がジェスチャによるテレビジョン受信機2の操作を一旦中止するべく、指の位置を例えば図6(a)のL2に示すようにカメラ4の撮像範囲外、つまりジェスチャの認識領域Cの外へ移動させたとする。そうすると、一筆書きジェスチャ認識機能ON/OFF切替部310は、ステップS3121により一筆書きジェスチャ認識処理部320の機能がONであるか否かを判定し、ここではONになっているのでステップS3122に移行する。そして、指位置検出処理(ステップS311)により検出された発光マーカ5の描画点の位置座標が、上記ジェスチャの認識領域Cの外に出たか否かを判定する。
この判定の結果、図6(a)のL2に示すように、発光マーカ5の描画点の位置座標が上記ジェスチャの認識領域Cの外に出ると、ステップS3123により一筆書きジェスチャ認識処理部320の機能をOFFに遷移させる。かくして、ユーザ1は指の位置をカメラ4の撮像範囲外へ移動させるだけで、一筆書きジェスチャ認識機能をOFFに戻すことが可能となる。
なお、一筆書きジェスチャ認識機能がOFFに復帰すると、次のイベント信号発生(33msec)時に、ステップS3125において図6(b)に示すようにジェスチャの認識領域C内にジェスチャ開始領域E1が設定される。すなわち、一筆書きジェスチャ認識機能がOFFになると、消去された検出ゾーンE2の代わりにそれよりも小さいジェスチャ開始領域E1が再設定される。
(4)一筆書きジェスチャ認識処理
上記一筆書きジェスチャ認識機能がONとなった状態で、一筆書きジェスチャ認識処理部320は以下のようにジェスチャの認識処理を実行する。図7はその全体の処理手順と処理内容を示すフローチャートである。
すなわち、先ずステップS321において一筆書きジェスチャ入力判断部321が起動し、この一筆書きジェスチャ入力判断部321の制御の下で、ユーザ1の指に装着された発光マーカ5による描画点が上記検出ゾーンE2内に入ったか否かをステップS3211により判定する。そして、描画点が上記検出ゾーンE2内に入っていなければ、ステップS3214によりジェスチャ入力中か否かを示すジェスチャフラグ(Gesture Flag)を“TRUE”に設定し、以後イベントが発生するごとに描画点が検出ゾーンE2内に入るか否かを監視する処理を繰り返す。
(4−1)一筆書き図形の方向識別処理
さて、この状態でユーザ1の指に装着された発光マーカ5による描画点が上記検出ゾーンE2内に入ったことが検出されたとする。そうすると、ステップS3212によりジェスチャフラグが“TRUE”になっていることを確認した後、先ずステップS322により一筆書き図形の方向識別処理を実行する。
この一筆書き図形の方向識別処理は以下のように行われる。すなわち、先ず指位置蓄積部25に記憶された指位置座標の集合を読み出し、この指位置座標の集合により表される指の描画軌跡を表す画像をもとに当該描画軌跡を表す画像の重心位置座標を算出する。そして、この算出された描画軌跡画像の重心位置座標と描画開始点における座標との関係から、当該描画開始点に対する上記描画軌跡の描画方向が上下左右の何れであるかを識別することにより行われる。
(4−2)一筆書き図形識別処理
次にステップS323により一筆書き図形識別処理を以下のように実行する。図8はその処理手順と処理内容を示すフローチャートである。
すなわち、先ずステップS3231により、指位置蓄積部25に格納されているジェスチャの開始から終了までの間の描画点の位置座標の集合を読出し、この読み出された描画点の位置座標の集合をもとに描画軌跡を表す画像を、つまり指に装着された発光マーカ5によって描かれた図形を表す画像を作成する。
次にステップS3232において、4辺により構成される矩形の枠パターンを用いて、上記図形作成機能3231により作成された描画軌跡を含む画像データから、当該描画軌跡を含む最小面積の矩形領域を切り取る。例えば、描画軌跡が「円」又はそれに近い「楕円」であれば、図9(a)に示すように当該描画軌跡を含む画像データCから、描画軌跡Vを含む最小面積の矩形領域、つまり描画軌跡Vに4辺が接する矩形の領域を、枠パターンWにより図9(b)に示すように切り取る。
続いてステップS3233において、上記図形領域抽出機能3232により切り取られた描画軌跡Vを含む最小面積の矩形領域の画像サイズを、予め定められたサイズに応じて正規化する。例えば図9(c)に示すように、上記切り取られた描画軌跡Vとこの描画軌跡Vの切り取りに使用した枠パターンWの画像サイズを、それぞれ100pixels×100pixelsからなる「真円」及び「正方形」に正規化する。
次にステップS3234において、上記正規化された描画軌跡V′及び枠パターンW′の画像について、枠パターンW′の各辺から描画軌跡までの距離情報(DtB 情報)を座標値から算出する。例えば、正規化された描画軌跡V′及び枠パターンW′がそれぞれ「真円」及び「正方形」の場合には、図10(a)〜(d)に示すように枠パターンW′の「上」、「右」、「左」、「下」の各辺から描画軌跡V′までの距離dを一定の間隔で算出する。
続いて、一筆書き図形識別部323の処理モードが「学習モード」に設定されているか或いは「認識モード」に設定されているかを、ステップS3235により判定する。この判定の結果、「学習モード」が設定されていれば、ステップS3237により上記ステップS3234により抽出された、描画軌跡を含む矩形領域の画像の各辺から描画軌跡までの距離情報(DtB 情報)を、学習データとしてSVM学習データ蓄積部26に格納する。そして、ステップS3238により、上記SVM学習データ蓄積部26に格納された学習データから辺ごとにSVMモデルを作成し、この作成されたSVMモデルをSVM学習データ蓄積部26に格納する。
すなわち、「学習モード」においては、テレビジョン受信機2の操作に使用する全て或いは代表的な一筆書き図形を実際にジェスチャにより描くことで、その描画軌跡について枠パターンにより切り出された当該描画軌跡を含む最小の矩形領域の各辺から描画軌跡までの距離情報(DtB 情報)がそれぞれ抽出され、さらにこの距離情報(DtB 情報)をもとに辺ごとのSVMモデルがそれぞれ作成されて、SVM学習データ蓄積部26に蓄積される。
一方、一筆書き図形識別部323の処理モードが「認識モード」に設定されている場合には、次のように図形認識処理が行われる。すなわち、先ず上記ステップS3233により正規化された描画軌跡を含む矩形領域の画像について、4つの辺のうち一辺を選択する。次にステップS3234において、上記選択された辺から描画軌跡までの距離情報(DtB 情報)を一定間隔で算出する。続いてステップS3236において、この算出された距離情報(DtB 情報)の集合を、上記SVM学習データ蓄積部26に格納された該当する辺のSVMモデルに入力し、これにより上記描画軌跡の上記選択された辺に対向する部位の形状を識別する。そして、この識別結果をもとに描画軌跡全体の形状、つまりジェスチャにより描かれた図形を識別し、この図形と形状が一致する図形が予め記憶された認識対象の一筆書き図形に存在すれば、この一筆書き図形を認識結果とする。
例えば、いま認識対象の一筆書き図形として図11の(1)〜(8)に示す8種類の図形パターン情報が記憶されていたとする。この場合、描画軌跡を含む矩形領域の画像の上辺を先ず選択し、この上辺と描画軌跡との間の距離情報(DtB 情報)を算出して対応するSVMモデルに入力すれば、図11の(2)及び(4)以外の一筆書き図形を認識することが可能である。
一方、上記図11の(2)及び(4)に示した一筆書き図形のように、矩形領域の上辺と描画軌跡との間の距離情報(DtB 情報)だけでは一筆書き図形を認識できなかったとする。この場合には、次に矩形領域画像の下辺を選択する。そして、この選択された下辺と描画軌跡との間の距離情報(DtB 情報)を算出して対応するSVMモデルに入力し、上記描画軌跡の形状、つまりジェスチャにより描かれた一筆書き図形を識別する。この識別の結果、この描画軌跡により表される図形と形状が一致する一筆書き図形が予め記憶された認識対象の一筆書き図形の中に存在すれば、この一筆書き図形を認識結果とする。かくして、矩形領域画像の上辺からでは認識できなかった図11の(2)及び(4)に示すような一筆書き図形についても認識することができる。
また、上記下辺と描画軌跡との間の距離情報(DtB 情報)を参照しても一筆書き図形を認識できなければ、今度は右辺を選択してこの右辺から描画軌跡までの距離をもとに描画軌跡により表される図形の認識を試みる。さらに、右辺と描画軌跡との間の距離情報(DtB 情報)を参照しても一筆書き図形を認識できなければ、最後に左辺を選択し、この左辺から描画軌跡までの距離をもとに描画軌跡により表される図形を認識する。
すなわち、描画軌跡により表される図形に対応する一筆書き図形を認識できるまで、描画軌跡を含む矩形領域画像の4辺を順に選択して、段階的に上記描画軌跡により表される図形の認識処理を行う。
(5)表示画面の更新処理
上記一筆書きジェスチャの認識処理が終了すると、ステップS40において表示画像処理ユニット50が起動され、この表示画像処理ユニット50の制御の下で、表示画像の更新処理が以下のように行われる。
すなわち、上記一筆書き図形の方向識別部322及び一筆書き図形識別部323によりそれぞれ識別されたジェスチャ図形の描画方向及び図形の種類をもとに、操作内容データベース23から対応する操作内容を表す情報が読出される。そして、この読み出された操作内容を表す情報をもとに、表示画像・映像蓄積部24から対応する画像や映像の表示データが読出され、この表示データをもとにテレビジョン受信機2の表示画面が更新される。
(6)一筆書き図形識別処理の具体例
ここでは、矩形領域画像の4辺のうち、先ず上辺(Top border)を選択して描画図形の識別処理を行い、この上辺による図形識別が不可能な場合に、次に下辺(Bottom border)を選択して描画図形の識別処理を行う場合を例にとって説明する。図12はその識別処理の概要を示す図である。
(6−1)ハート形図形を識別する場合
先ず13に示すように、矩形領域画像の4辺のうち上辺を選択し、この上辺と描画軌跡との間の距離情報(DtB 情報)を算出して対応する上辺SVMモデルに入力する。このとき、上辺SVMモデルとして図14に示すような複数の上辺図形モデルが設定されているとすれば、これらの上辺図形モデルのうち“heart”と形状が一致する。したがって、上記一筆書き描画図形は“heart”であると認識する。
(6−2)逆三角形図形を識別する場合
先ず15に示すように、矩形領域画像の4辺のうち上辺を選択し、この上辺と描画軌跡との間の距離情報(DtB 情報)を算出して対応する上辺SVMモデルに入力する。このとき、上辺SVMモデルとして図16に示したような複数の上辺図形モデルが設定されているものとすると、これらの上辺図形モデルの中には上記描画図形の上辺形状と一致するものは存在しない。
そこで、次に矩形領域画像の4辺のうち下辺を選択し、この下辺と描画軌跡との間の距離情報(DtB 情報)を算出して対応する下辺SVMモデルに入力する。このとき、下辺SVMモデルとして図17に示したような複数の下辺図形モデルが設定されているものとすると、これらの下辺図形モデルのうち“Upside-down triangle” と形状が一致する。したがって、上記一筆書き描画図形は“Upside-down triangle”と認識する。
以上のように矩形領域画像の4辺を順に選択して描画図形の識別処理を段階的に行うようにしているので、常に4辺について全て識別処理を行う場合に比べ、識別処理のための計算量を減らして識別処理時間の短縮を図ることができる。
以上詳述したようにこの実施形態では、指位置蓄積部25に格納されたジェスチャの開始から終了までの間の描画点の位置座標の集合をもとに描画軌跡を表す画像を作成し、この描画軌跡を表す画像を含む最小の矩形領域を枠パターンを用いて切り取る。そして、この切り取られた描画軌跡を含む最小面積の矩形領域画像のサイズを正規化したのち、この矩形領域画像をもとに“SVM using DtB ”を応用した認識アルゴリズムを用いて上記描画軌跡により表される図形を認識する。このとき、図形の認識処理は、矩形領域画像の4辺を一つずつ順に選択し、選択された辺から描画軌跡までの距離情報(DtB 情報)をSVMモデルに入力して上記描画軌跡により表される図形を識別する処理を、該当する図形が認識できるまで繰り返すことで行われる。
したがって、描画点の軌跡からジェスチャの図形を認識する際に、矩形領域画像の一辺と描画軌跡との間の距離から描画軌跡の部分形状を識別して、この識別された部分形状をもとにジェスチャ図形を認識する処理が、矩形領域画像の4つの辺を順に選択しながらジェスチャ図形が認識されるまで段階的に行われる。このため、ジェスチャ認識アルゴリズムとして“Hidden Markov Machine”を使用する場合や、従来の“SVM using DtB ”をそのまま使用した場合に比べ、少ない計算処理量でジェスチャ図形を認識することが可能となり、これにより図形認識処理に要する時間を短縮することが可能となる。
また、描画軌跡と枠型パターンのサイズを正規化したのち上記図形認識処理を行うようにしているので、描画点の検出や描画軌跡の作成において誤差が発生しても、これらの誤差を吸収して図形認識処理を効率良く行うことができ、これにより図形認識処理に要する時間をさらに短縮することが可能となる。
なお、この発明は上記実施形態に限定されるものではない。例えば、前記実施形態では指の動きによって空間に描かれた一筆書き図形を認識する場合を例にとって説明したが、図形の郭枠形状を認識するようにしてもよい。例えば、ユーザがジェスチャとしてピースサインやOKサインを行ったときの指の輪郭形状を認識するようにしてもよい。
また、ジェスチャ認識領域Cをカメラ4の視野範囲に設定したが、カメラ4の視野範囲が大きい場合にはこのカメラ4の視野範囲内に当該視野範囲より小さいジェスチャ認識領域Cを設定するようにしてもよい。この場合のジェスチャ認識領域Cの大きさや形状は任意に設定可能である。
さらに、指の描画点が予め設定された時間以上連続して非検出となった場合に、一筆書きジェスチャ認識処理部320の機能を強制的にOFF状態に遷移させるようにした。しかしそれに限らず、指位置蓄積部25に記憶された指位置の軌跡を表す集合のうち、その一部が予め決められた長さ以上欠損していた場合に、一筆書きジェスチャ認識処理部320の機能を強制的にOFF状態に遷移させるようにしてもよい。
さらに、前記実施形態では本発明に係るジェスチャ認識装置の機能を情報処理装置に設けた場合を例に説明したが、同機能をテレビジョン受信機に設けてもよいし、セットトップボックスやビデオレーダなどに設けてもよい。その他、ジェスチャ認識装置の種類や構成、処理手順と処理内容などについても、この発明の要旨を逸脱しない範囲で種々変形して実施できる。
要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。
1…ユーザ、2…テレビジョン受信機、3…情報処理装置、4…カメラ、5…発光マーカ、10…撮像画像取得ユニット、11…カメラ画像取得部、20…データベース、21…カメラ画像蓄積部、22…一筆書き図形蓄積部、23…操作内容蓄積部、24…表示画像・映像蓄積部、25…指位置蓄積部、26…SVM学習データ蓄積部、30…一筆書きジェスチャ認識処理ユニット、310…一筆書きジェスチャ認識機能ON/OFF切替部、311…指位置検出部、312…一筆書きジェスチャ認識機能ON/OFF判断・切替部、320…一筆書きジェスチャ認識処理部、321…一筆書きジェスチャ入力判断部、322…一筆書き図形の方向識別部、323…一筆書き図形識別部、3231…図形作成機能、3232…図形領域抽出機能、3233…抽出画像正規化機能、3234…4辺DtB情報抽出機能、3235…モード識別機能、3236…学習データ蓄積機能、3237…SVMモデル作成機能、3238…図形認識機能、40…リアルタイム処理発生ユニット、50…表示画面処理ユニット、51…表示画面処理部。

Claims (3)

  1. ジェスチャにより空間に図形を描く動きを撮像してその画像データを出力する撮像装置と、前記撮像装置から出力された画像データをもとに前記ジェスチャにより描かれた図形を認識する機能を有するジェスチャ認識装置とを具備するシステムで使用される前記ジェスチャ認識装置であって、
    前記撮像装置から出力された画像データを所定の周期で取り込む手段と、
    前記画像データが取り込まれるごとに当該画像データから前記ジェスチャによる描画点の位置情報を検出し、この検出された描画点の位置情報を記憶手段に格納する手段と、
    前記記憶手段に格納された描画点の位置情報の集合をもとに前記ジェスチャによる描画軌跡を表す情報を作成する手段と、
    複数の辺により構成される枠型パターンを用いて、前記作成された描画軌跡を表す情報を含む領域を切り取る手段と、
    前記枠型パターンの一辺と前記切り取られた描画軌跡との間の距離を一定の間隔で求め、この距離の集合をもとに前記描画軌跡の部分形状を識別し、この識別された描画軌跡の部分形状をもとに前記描画軌跡により表される図形を認識する処理を行う図形認識手段と
    を具備し、
    前記図形認識手段は、前記描画軌跡により表される図形が認識されるまで、前記枠型パターンの複数の辺を順に選択して前記図形認識処理を繰り返すことを特徴とするジェスチャ認識装置。
  2. 前記切り取られた描画軌跡と当該描画軌跡を切り取るために使用した枠型パターンのサイズを予め定められたサイズに正規化する手段を、さらに具備し、
    前記図形認識手段は、前記正規化された描画軌跡及び枠型パターンをもとに前記図形認識処理を行うことを特徴とする請求項1記載のジェスチャ認識装置。
  3. 請求項1又は請求項2に記載のジェスチャ認識装置が備える各手段の処理をコンピュータに実行させるプログラム。
JP2011221145A 2011-10-05 2011-10-05 ジェスチャ認識装置及びそのプログラム Pending JP2013080433A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011221145A JP2013080433A (ja) 2011-10-05 2011-10-05 ジェスチャ認識装置及びそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011221145A JP2013080433A (ja) 2011-10-05 2011-10-05 ジェスチャ認識装置及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2013080433A true JP2013080433A (ja) 2013-05-02

Family

ID=48526744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011221145A Pending JP2013080433A (ja) 2011-10-05 2011-10-05 ジェスチャ認識装置及びそのプログラム

Country Status (1)

Country Link
JP (1) JP2013080433A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002607A (ja) * 2012-06-19 2014-01-09 Nippon Telegr & Teleph Corp <Ntt> 情報入力装置
CN105719297A (zh) * 2016-01-21 2016-06-29 中国科学院深圳先进技术研究院 基于视频的物体切割方法及装置
CN110532863A (zh) * 2019-07-19 2019-12-03 平安科技(深圳)有限公司 手势操作方法、装置以及计算机设备
JPWO2022149425A1 (ja) * 2021-01-06 2022-07-14

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05135175A (ja) * 1991-03-14 1993-06-01 Fujitsu Ltd 特徴抽出装置
JP2001126081A (ja) * 1999-09-09 2001-05-11 Sony United Kingdom Ltd 画像識別装置及び画像識別方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05135175A (ja) * 1991-03-14 1993-06-01 Fujitsu Ltd 特徴抽出装置
JP2001126081A (ja) * 1999-09-09 2001-05-11 Sony United Kingdom Ltd 画像識別装置及び画像識別方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CSNG201100172006; 青木 良輔: '大型ディスプレイ上のメニュー選択に適したカメラによる一筆書きジェスチャインタフェース' ヒューマンインタフェース学会 研究報告集 2010 [CD-ROM] Vol.12 No.9 SIG-CE-02, 20101108, P.35-42, Human Interface Society *
JPN6014050419; 青木 良輔: '大型ディスプレイ上のメニュー選択に適したカメラによる一筆書きジェスチャインタフェース' ヒューマンインタフェース学会 研究報告集 2010 [CD-ROM] Vol.12 No.9 SIG-CE-02, 20101108, P.35-42, Human Interface Society *
JPN6014050420; S. Lafuente-Arroyo: 'Traffic sign shape classification evaluation I : SVM using Distance to Borders' Intelligent Vehicles Symposium, 2005. Proceedings. IEEE , 20050606, P.557-562, IEEE *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014002607A (ja) * 2012-06-19 2014-01-09 Nippon Telegr & Teleph Corp <Ntt> 情報入力装置
CN105719297A (zh) * 2016-01-21 2016-06-29 中国科学院深圳先进技术研究院 基于视频的物体切割方法及装置
CN110532863A (zh) * 2019-07-19 2019-12-03 平安科技(深圳)有限公司 手势操作方法、装置以及计算机设备
JPWO2022149425A1 (ja) * 2021-01-06 2022-07-14
JP7188644B2 (ja) 2021-01-06 2022-12-13 東洋紡株式会社 繊維を含む製品の画像の解析方法、そのプログラムおよび解析装置

Similar Documents

Publication Publication Date Title
US8970696B2 (en) Hand and indicating-point positioning method and hand gesture determining method used in human-computer interaction system
CN108845668B (zh) 人机交互系统和方法
US9329673B2 (en) Information processing device, information processing method, and recording medium
US20140071042A1 (en) Computer vision based control of a device using machine learning
US9557821B2 (en) Gesture recognition apparatus and control method of gesture recognition apparatus
JP2016520946A (ja) 人間対コンピュータの自然な3次元ハンドジェスチャベースのナビゲーション方法
US20190318200A1 (en) Object detection device, object detection method, and recording medium
KR101898202B1 (ko) 필기 인식을 위한 필기 입력 가이드 장치 및 방법
JP2015153195A (ja) ジェスチャ認識装置およびジェスチャ認識装置の制御方法
US9965041B2 (en) Input device, apparatus, input method, and recording medium
KR101794148B1 (ko) 효율적인 자유 공간 손가락 인식
JP2012058854A (ja) ジェスチャ認識装置及び方法
JP5756762B2 (ja) ジェスチャ認識装置及びそのプログラム
US9525906B2 (en) Display device and method of controlling the display device
JP2013080433A (ja) ジェスチャ認識装置及びそのプログラム
KR101749070B1 (ko) 사용자 인터페이스 평가 장치 및 그 평가 방법
CN105468189A (zh) 识别多点触摸操作的信息处理装置及其控制方法
JP5668005B2 (ja) ジェスチャ認識装置及びそのプログラム
JP5756729B2 (ja) ジェスチャ認識装置及びそのプログラム
CN110007748B (zh) 终端的控制方法、处理装置、存储介质及终端
US20150117712A1 (en) Computer vision based control of a device using machine learning
TWI595429B (zh) 輸入指令
JP5546029B2 (ja) ジェスチャ認識装置及びそのプログラム
CN115097928A (zh) 手势控制方法及装置、电子设备、存储介质
JP5756730B2 (ja) 情報入力装置及びそのプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130515

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141202

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150224