JP2005293061A - ユーザインタフェース装置およびユーザインタフェースプログラム - Google Patents

ユーザインタフェース装置およびユーザインタフェースプログラム Download PDF

Info

Publication number
JP2005293061A
JP2005293061A JP2004105250A JP2004105250A JP2005293061A JP 2005293061 A JP2005293061 A JP 2005293061A JP 2004105250 A JP2004105250 A JP 2004105250A JP 2004105250 A JP2004105250 A JP 2004105250A JP 2005293061 A JP2005293061 A JP 2005293061A
Authority
JP
Japan
Prior art keywords
eye
mouth
state
user
user interface
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004105250A
Other languages
English (en)
Other versions
JP4206053B2 (ja
Inventor
Shinjiro Kawato
慎二郎 川戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004105250A priority Critical patent/JP4206053B2/ja
Publication of JP2005293061A publication Critical patent/JP2005293061A/ja
Application granted granted Critical
Publication of JP4206053B2 publication Critical patent/JP4206053B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

【課題】 顔のジェスチャーをスイッチとして、ユーザの手の動作を不要とし、コンピュータの安定なユーザインタフェースを提供する。
【解決手段】 本発明のユーザインタフェースでは、対象となる画像領域内において、目の位置を抽出し(S402)、検出された目の位置に基づき、目の周りの所定範囲の明度の平均値(画素の平均濃度)を計算して(S406)、予め記憶装置に登録された目を含む画像についての情報との比較に基づいて、目の開閉および視線方向を含む目の状態を判定する(S418〜S428)。システムは、検出された目の状態に応じて、複数の所定の処理のうち、予め対応づけられた処理を選択して実行する。
【選択図】 図8

Description

この発明はカメラ等により撮影されたユーザの画像をコンピュータのユーザインタフェースとして利用するユーザインタフェース装置およびユーザインタフェースプログラムに関する。
コンピュータのユーザインタフェースにおいて、入力デバイスは、従来、たとえば、キーボードやマウスといった人間が手で操作するデバイスが用いられることが一般的である。
一方、いわゆる音声認識技術を用いて、人間の発話により、直接コンピュータに文字等を入力するためのソフトウェアも開発され、汎用のコンピュータの音声入力機能を用いることで、実用的なレベルのものが販売されている。
しかしながら、例えば、事故による脊椎損傷などで首から下の筋肉が動かせなくなり、発話も困難になった人などに対しては、以上のような従来の入力装置では、十分な入力動作を提供できない。
そこで、コンピュータへの入力インタフェースとして、さらには、このようなコンピュータを用いた他人とのコミュニケーションのために、ユーザの視線を検出して文字を綴ることができる装置が提案されている(たとえば、特許文献1を参照)。
しかし、視線のみによる操作は、たとえば、非特許文献1にも記載されているように、ポインティング操作に適していないだけでなく、ポインティングか単なる視線移動かの区別も難しいという問題がある。
また、視線を解析するには目を拡大撮像する必要があるだけでなく、赤外光を照射するなど、カメラ以外の装置が必要になる。頭部に視線を検出する装置を装着するタイプの装置もあるが、障害者が自分で着脱できないので使いづらい。
一方で、撮影された画像中から人物を検出する技術は、ヒューマンコンピュータインタラクション、ジェスチャー認識、セキュリティーなどの分野の発展に欠かせない技術としても、盛んに研究されている。
人物を検出するには、まず顔を検出する手法が有効である。顔は表情など重要な情報を有しており、顔を検出できれば四肢の位置を推測して探索することが容易になる。
これまでに、肌色情報を用いた顔検出システムは報告が数多くなされている(たとえば、特許文献2、非特許文献2〜非特許文献3を参照)。
ただし、これらの手法は、画像から肌色領域を抽出し顔候補領域を求める。顔候補領域を限定できることから、処理の範囲が限定され、計算量を大幅に減らすことができるので、高速なシステムを構築することが可能である。しかし、色情報を利用する手法は照明環境の変動に弱く、一般的な環境下で動作させる場合、安定した性能を期待できない。また、肌色領域を抽出して、領域を限定する前処理が必要な点と、前髪が眉までかかっているような顔は上述のようなパターンが現れないために、検出できない場合がある、といったような問題があった。
大野健彦、"視線を用いたインタフェース"、情報処理、2003年7月号、44巻7号、pp.726―732 川戸慎二郎、鉄谷信二、"リング周波数フィルタを利用した眉間の実時間検出"信学論(D−II),vol.J84−D−II,no12,pp.2577−2584,Dec.2001. 川戸慎二郎、鉄谷信二、"目のリアルタイム検出と追跡",信学技報,PRMU2000−63,pp.15−22、Sept.2000. 特開2000−020196号公報明細書 特開2001−52176号公報明細書
本発明の目的は、顔のジェスチャーをスイッチとして、ユーザの手の動作を不要とし、コンピュータの安定なインタフェースとして利用することが可能なユーザインタフェース装置およびユーザインタフェースプログラムを提供することである。
この発明のある局面に従うと、ユーザインタフェース装置であって、ユーザの顔領域を含む対象画像領域内の各画素の値のデジタルデータを獲得する撮影手段と、対象となる画像領域内において、目の位置を抽出する目検出手段と、検出された目の位置に基づき、予め記憶装置に登録された目を含む画像についての情報との比較に基づいて、目の開閉および視線方向を含む目の状態を判定する目状態判定手段と、少なくとも検出された目の状態に応じて、複数の所定の処理のうち、予め対応づけられた処理を選択して実行する処理手段と、実行された処理に対応する結果を、出力する出力手段とを備える。
好ましくは、ユーザの口の位置を検出して、ユーザの口に対して、予め記憶装置に登録された口を含む画像についての情報との比較に基づいて、開状態および閉状態を含む口の状態を判定する口状態判定手段をさらに備え、処理手段は、目の状態および口の状態の組み合わせに応じて、複数の所定の処理のうち、予め対応づけられた処理を選択して実行する。
好ましくは、予め記憶装置に登録された目を含む画像についての情報は、目の間隔で正規化された目を含む所定の範囲の画素の明度の平均値を含む。
好ましくは、予め記憶装置に登録された口を含む画像についての情報は、目の間隔で正規化された口を含む所定の範囲の画素の明度の平均値を含む。
この発明の他の局面に従うと、コンピュータにユーザインタフェース処理を実行させるためのユーザインタフェースプログラムであって、ユーザの顔領域を含む対象画像領域内の各画素の値のデジタルデータを獲得するステップと、対象となる画像領域内において、目の位置を抽出するステップと、検出された目の位置に基づき、予め記憶装置に登録された目を含む画像についての情報との比較に基づいて、目の開閉および視線方向を含む目の状態を判定するステップと、少なくとも検出された目の状態に応じて、複数の所定の処理のうち、予め対応づけられた処理を選択して実行するステップと、実行された処理に対応する結果を、出力装置に出力するステップとをコンピュータに実行させる。
好ましくは、ユーザの口の位置を検出するステップと、ユーザの口に対して、予め記憶装置に登録された口を含む画像についての情報との比較に基づいて、開状態および閉状態を含む口の状態を判定するステップをさらに備え、実行するステップは、目の状態および口の状態の組み合わせに応じて、複数の所定の処理のうち、予め対応づけられた処理を選択して実行する。
[実施の形態1]
[ハードウェア構成]
以下、本発明の実施の形態にかかるユーザインタフェース装置について説明する。このユーザインタフェース装置は、パーソナルコンピュータまたはワークステーション等、コンピュータ上で実行されるソフトウェアにより実現されるものであって、対象画像から人物の顔を抽出し、さらに人物の顔の映像から、目および口の位置を検出し、さらに目や口の状態を判定して、それらの状態の組み合わせにより、コンピュータの入力装置としての機能を実現するためのものである。
図1は、本発明のユーザインタフェース装置が動作するシステム100の構成を示すブロック図である。
システム100は、CD−ROM(Compact Disc Read-Only Memory )ドライブ50およびFD(Flexible Disk )ドライブ52を備えたコンピュータ本体40と、コンピュータ本体40に接続された表示装置としてのディスプレイ42と、同じくコンピュータ本体40に接続された入力装置としてのキーボード46およびマウス48と、コンピュータ本体40に接続された、画像を取込むためのカメラ30とを含む。この実施の形態の装置では、カメラ30としてはCCD(固体撮像素子)等の固体撮像素子を含むカメラを用い、カメラ30の前にいてこのシステム100を操作する人物の目および口の位置ならびに目および口の状態を検出する処理を行うものとする。
すなわち、カメラ30により、人間の顔領域を含む画像であって対象となる画像領域内の各画素の値のデジタルデータが準備される。
図1に示されるように、このシステム100を構成するコンピュータ本体40は、CD−ROMドライブ50およびFDドライブ52に加えて、それぞれバス66に接続されたCPU(Central Processing Unit )56と、ROM(Read Only Memory) 58と、RAM(Random Access Memory)60と、ハードディスク54と、カメラ30からの画像を取込むための画像取込装置68とを含んでいる。CD−ROMドライブ50にはCD−ROM62が装着される。FDドライブ52にはFD64が装着される。
既に述べたようにこのユーザインタフェース装置の主要部は、コンピュータハードウェアと、CPU56により実行されるソフトウェアとにより実現される。一般的にこうしたソフトウェアはCD−ROM62、FD64等の記憶媒体に格納されて流通し、CD−ROMドライブ50またはFDドライブ52等により記憶媒体から読取られてハードディスク54に一旦格納される。または、当該装置がネットワークに接続されている場合には、ネットワーク上のサーバから一旦ハードディスク54にコピーされる。そうしてさらにハードディスク54からRAM60に読出されてCPU56により実行される。なお、ネットワーク接続されている場合には、ハードディスク54に格納することなくRAM60に直接ロードして実行するようにしてもよい。
図1に示したコンピュータのハードウェア自体およびその動作原理は一般的なものである。したがって、本発明の最も本質的な部分は、FD64、ハードディスク54等の記憶媒体に記憶されたソフトウェアである。なお、記録媒体としては、この他に、メモリカードや、DVD(Digital Versatile Disc)−ROMのようなものであってもよい。この場合には、このような媒体に対応した読取り用のドライブ装置が、本体40に設けられる。
なお、最近の一般的傾向として、コンピュータのオペレーティングシステムの一部として様々なプログラムモジュールを用意しておき、アプリケーションプログラムはこれらモジュールを所定の配列で必要な時に呼び出して処理を進める方式が一般的である。そうした場合、当該ユーザインタフェース装置を実現するためのソフトウェア自体にはそうしたモジュールは含まれず、当該コンピュータでオペレーティングシステムと協働してはじめてユーザインタフェース装置が実現することになる。しかし、一般的なプラットフォームを使用する限り、そうしたモジュールを含ませたソフトウェアを流通させる必要はなく、それらモジュールを含まないソフトウェア自体およびそれらソフトウェアを記録した記録媒体(およびそれらソフトウェアがネットワーク上を流通する場合のデータ信号)が実施の形態を構成すると考えることができる。
[ユーザインタフェース処理]
次に、システム100のユーザインタフェース装置としての動作について説明する。
なお、画像中から人間の顔を検出し、顔内から目の位置を検出する方法については、上述した非特許文献1〜2等に開示されている。また、本願発明者による特許出願の特願2002−338175号や特願2003−391148号にも開示がある。
そこで、以下の説明では、画像中から目の位置の検出については行われているものとの前提で説明する。なお、その後に、特願2002−338175号に開示されている目の位置の検出方法について、説明しておくことにする。
(システム起動時の処理)
システム100は、顔のジェスチャーをスイッチとして、コンピュータのインタフェースとして利用するものである。
そこで、検出した目や口の状態、例えば、目の状態を、「正面を見ている」、「上方を見ている」、「下方を見ている」、「右方向を見ている」、「左方向をみている」、「目をつむっている」、の6状態のデジタルスイッチとし、ロの状態を、「閉じている」、「開けている」、「舌を出している」、の3状態のデジタルスイッチとする。組み合わせると18状態を表現することができる。もちろん、上述のような全ての場合を用いずに、より少ない組み合わせとしてもよい。たとえば、目の状態のみでユーザインタフェースを構成することも可能である。逆に、たとえば、口の状態に、たとえば、「口を大きく開ける」等の状態を付け加えて、さらに多くの組み合わせを表現することとしてもよい。
このために、システム100では、このような口の状態や目の状態をシステム起動時に予め各ユーザについて、登録しておく処理を行う。なお、一度登録すれば、基本的には、同一のユーザについては、2回目以降は、たとえば、ハードディスク54に登録された情報に基づいて、口の状態や目の状態を判断することができる。
図2は、このようなシステム起動時の登録処理について説明するためのフローチャートである。
まず、システム100が起動すると、ディスプレイ42上に、「口を閉じて、モニター画面中央を見て下さい」と表示する(ステップS102)。
後に説明する手続きにしたがって、目と口角を検出して、ディスプレイ42上の画像に検出位置を表示する(ステップS104)。
続いて、「システムは目と口を検出しています。よろしければ舌をだして合図してください。」とディスプレイ42に表示する(ステップS106)。
システム100は、口領域の平均濃度が所定のしきい値以上に明るく変化したことを検知して、変化前と変化後の平均濃度を、口閉じ、舌だしの状態として、たとえば、ハードディスク54に記憶する。同時に、当該ユーザの目間の基準パターン(正面視の状態での両目と目の間を含む矩形領域の基準パターン)と、基準目位置(目間の基準パターンにおける目の位置(黒目の位置)の相対データ:正面視に相当)と、開眼時目領域平均濃度を計算し、ハードディスク54に記憶する(S108)。
続いて、システム100は、「舌を検出しました。次は、口を少し開けて目を閉じ、1から3までゆっくり数えてください。」と表示する(S110)。
口領域の平均濃度が、口閉じ状態よりも暗く変化したことを検知して変化後の平均濃度を口開きの状態として記憶する。同時に、すでに獲得している目間基準パターンと基準目位置相対データから基準目位置を計算し、目領域の平均濃度を閉眼時目領域平均濃度としてハードディスク54に記憶する(ステップS112)。
順次、「右を見てください」、「左を見てください」、「上をみてください」、「下をみてください」と指示して、見ている方向に対応する、目位置の基準目位置からのずれ量を検出し、ハードディスク54に記憶する(ステップS114)。
そして、システム100は、登録処理が終了すると、「初期化処理を完了しました」とディスプレイ42に表示する(ステップS116)。
以後は、システム100は、新しい画像を入力する度に、目の状態を3ビットのデータ、口の状態を2ビットのデータとして判断し、これらの組み合わせに応じて予め定められた処理に対応した処理結果を出力する(ステップS118)。
例えば、システム100を文字編集システムとして使用した場合、舌がでている状態での目の状態の変化でカーソルを移動し、口が開いた変化でクリック動作とみなして、文字を編集するような処理を行うことができる。口が閉じた状態での目の状態変化では、なにも動作させない。こうすることにより、入力を意図した目の状態変化と入力を意図しない、単なる視線移動による目の状態変化を区別することができる。
(口の位置検出フロー)
次に、口の位置の検出フローについて説明する。
上述のとおり、両目位置は、予め検出されているものとして、口検出のフローについて説明する。
カメラ30により撮影された画像は、システム100により、検出された目の位置に基づいて、両目が水平に並ぶように画像は回転補正されているものとする。
このとき、両目間の距離をLeとすると、口は目の下方、例えば0.7Le〜1.4Leの範囲にあり、口の横幅は、口を閉じた普通の状態でほぼLeに等しく、口を開けたり、口をとがらすと、口の横幅はLeより小さくなる。
図3は、口位置の検出を説明するためのフローチャートである。
まず、画像の各走査線(y座標:垂直方向の座標)について、左目のx座標(水平方向の座標)と右目のx座標の間にある画素の平均濃度を計算しプロットする(ステップS202)。
図4は、顔の下半分について、各走査線(水平方向)毎に右目のx座標から左目のx座標までの間の画素の濃度の平均をプロットした図である。
図4に示すとおり、このように、幅Leの平均濃度をみると口の位置が一番暗くなるので、ここを口のy座標として特定できる。すなわち、目の下0.7Leから1.4Leの間で、平均濃度が一番低い(暗い)y座標をみつけ、口のy座標とする。
図5は、左口角テンプレートおよび右口角テンプレートを示す概念図である。
上記のように決定された口のy座標上で、図5に示すような左口角テンプレートおよび右口角テンプレートともっともよくマッチするx座標を探索して、口の左右の端とする。
すなわち、まず、口のy座標上で、左口角テンプレートともっともマッチするx座標を口の左端とする(ステップS206)。
次に、口のy座標上で、右口角テンプレートともっともマッチするx座標を口の右端とする(ステップS208)。
この場合、マッチ度は問わないので、口の開閉に関わらず口の両端を検出することができることになる。
(口の状態検出フロー)
次に、口の状態の検出フローについて説明する。
図6は、検出された口の形状を示す概念図である。
図6において、以下で説明するように、検出した左右の口角の距離をMとする。
図7は、口の状態を検出するための処理を説明するためのフローチャートである。
図7を参照して、まず、検出した左右の口角の距離をMとし(ステップS302)、左右の口角の中点を口の中心とする(ステップS304)。
次に、口の状態を検出するために、図6に示した、例えば、0.7M×0.2Leの矩形内の平均濃度(明るさ)を計算する(ステップS306)。
この平均濃度は、口を開けた状態では口を閉じた状態より暗くなり、舌を出した状態では口を閉じた状態より明るくなる。そこで、上述したように、システムの起動時に、3つの状態をシステム100に教示して、3つの状態の平均濃度をハードディスク54に記憶させておく。
次に、計算された平均濃度に基づいて、その値が上記3つの状態のどれに近いか比較をし(ステップS308)、現在の口の状態を判定する(ステップS310)。
システム稼動時には、口角を検出する度に、この平均濃度を計算して、その値が3つの状態のどれに近いか判定して、口の状態を判定する。
(目の状態の検出フロー)
次に、目の状態の検出フローについて説明する。
図8は、目の状態を検出するための処理を説明するためのフローチャートである。
図8を参照して、システム稼働時には、入力顔画像に対して、まず目間基準パターンのテンプレートマッチングにより目間位置を検出し(ステップS402)、正面視時の目間からの目の相対位置データに基づいて、左右の基準目位置を計算する(ステップS404)。
次に、計算された基準目位置を中心とする、たとえば、0.3Le×0.2Le、の矩形領域の平均濃度を計算する(ステップS406)。計算された平均濃度が閉眼時の値に近いか開眼時の値に近いか比較し、閉眼状態か開眼状態かを判定する(ステップS408)。
閉眼状態ならば(ステップS410)、閉眼状態と判断して、結果をユーザインタフェースのメインルーチンに返す(ステップS428)。
一方、開眼状態ならば(ステップS410)、検出された目位置と基準目位置とのずれを計算し(ステップS412)、そのずれ量がしきい値以下なら(ステップS414)、正面視状態と判定する(ステップS418)。
特に、限定されないが、目の位置のずれの量は、図2で説明したように、正面視の場合の目の部分のテンプレート画像と、目を指定された方向に向けた際の目の部分のテンプレート画像とを、予め獲得してハードディスク54に格納しておき、これらとの比較により特定することが可能である。
ずれがしきい値以上ならば(ステップS414)、左右上下視のどのケースにもっとも近いか比較し(ステップS416)、一番近いケースに応じて、それぞれ、開眼状態で上視(上を見た状態)(ステップS420)、開眼状態で下上視(下を見た状態)(ステップS422)、開眼状態で左視(左を見た状態)(ステップS424)、開眼状態で右視(右を見た状態)(ステップS426)と判断して、結果をユーザインタフェースのメインルーチンに返す。
目の6状態、口の3状態の区別は、USB(Universal Serial Bus)カメラなど安価な画像入力装置により、得られる画像で判別可能であり、赤外線照射も不要なのでズームレンズさえ使えば、ユーザとの距離も自由に設定でき、非装着で操作できる。
このようなユーザインタフェースに基づく処理の他の例としては、たとえば、目の向きで画面上のカーソルを操作し、目をつむることによって、そのカーソル位置のメニューを選択することにする。ただし、舌がでている時には操作目的で目を使っていることとし、舌がでていなければ、単に見る目的で目が動いていると判断する。
以上のような処理では、ユーザの視線がディスプレイ42上のどの位置に向いているか、というような細かい情報は必要ないので、目の状態、口の状態の区別により、簡易にコンピュータとユーザとの間のインタフェースを実現できる。
図9は、このような口の開閉、視線の方向の組み合わせを変化させた画像の一例を示す図である。
図9には、上述した18通りのうち、8通りの画像について示している。
次に、以下では、画像中から人間の顔を検出し、顔内から目の位置を検出する方法の一例として、上述した特許出願の特願2002−338175号に記載されている方法を説明する。
[顔画像の抽出の基本的原理]
まず、目の位置の検出の手続きの概略をまとめると、顔を連続撮影したビデオ画像を処理するにあたり、横が顔幅、縦がその半分程度の大きさの矩形フィルターで画面を走査する。矩形は、たとえば、3×2に6分割されていて、各分割領域の平均明るさが計算され、それらの相対的な明暗関係がある条件を満たすとき、その矩形の中心を眉間候補とする。
連続した画素が眉間候補となるときは、それを取囲む枠の中心候補のみを眉間候補として残す。残った眉間候補を標準パターン(上述した目間の標準パターン)と比較してテンプレートマッチング等を行うことで、上述した手続きで得られた眉間候補のうちから、偽の眉間候補を捨て、真の眉間を抽出する。
以下、本発明の顔検出の手続きについて、さらに詳しく説明する。
(6分割矩形フィルタ)
図10は、上述した3×2に6分割された矩形フィルタ(以下、「6分割矩形フィルタ」と呼ぶ)を示す図である。
6分割矩形フィルタは、1)鼻筋は両目領域よりも明るい、2)目領域は頬部よりも暗い、という顔の特徴を抽出し、顔の眉間位置を求めるフィルタである。点(x、y)を中心として、横i画素、縦j画素(i,j:自然数)の矩形の枠を設ける。
図10のように、この矩形の枠を、横に3等分、縦に2等分して、6個のブロックS1〜S6に分割する。
図11は、このような6分割矩形フィルタを顔画像に当てはめた場合を示す概念図である。図11(a)は6分割矩形フィルタの形状を示し、図11(b)は6分割矩形フィルタを顔画像の両目領域および頬部に当てはめた状態を示す。
なお、鼻筋の部分が目の領域よりも通常は狭いことを考慮すると、ブロックS2およびS5の横幅w2は、ブロックS1,S3,S4およびS6の横幅w1よりも狭い方がより望ましい。好ましくは、幅w2は幅w1の半分とすることができる。図12は、このような場合の6分割矩形フィルタの構成を示す概念図である。
以下の説明では、図12に示すような6分割矩形フィルタを用いるものとする。
また、ブロックS1、S2およびS3の縦幅h1と、ブロックS4、S5およびS6の縦幅h2とは、必ずしも同一である必要もない。ただし、以下の説明では、縦幅h1と縦幅h2とは等しいものとして説明する。
図12に示す6分割矩形フィルタにおいて、それぞれのブロックSi(1≦i≦6)について、画素の輝度の平均値「バーSi」(Siに上付きの“−”をつける)を求める。
ブロックS1に1つの目と眉が存在し、ブロックS3に他の目と眉が存在するものとすると、以下の関係式(1)が成り立つ。
図13は、このような6分割矩形フィルタを走査する対象となる画像を示す概念図である。
図13に示すとおり、顔画像を検知する対象画像は、横方向にM画素、縦方向にN画素のM×N画素から構成される。原理的には、左上隅の画素(0,0)から横方向および縦方向について順次1画素ずつずらせながら、上記6分割矩形フィルタを当てはめて、上記関係式(1)の妥当性をチェックする作業を行えばよいことになる。しかしながら、このように6分割矩形フィルタをずらせるたびに、各ブロック内の輝度の平均値を求めるのでは、効率が悪い。
そこで、本発明では、矩形枠内の画素の総和を求める処理について、公知の文献(P. Viola and M. Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features,” Proc. Of IEEE Conf. CVPR,1,pp.511-518, 2001)がにおいて開示されている、インテグラルイメージ(Integral Image)を利用した計算の高速化手法を取り入れる。
画像i(x、y)から、「インテグラルイメージ」は、次式(2)で定義される。
インテグラルイメージは、以下の繰り返しで求めることができる。
s(x、y)は行の画素の総和を表す。ただしs(x、−1)=0、ii(−1、y)=0とする。重要な点は、画像全体を一回走査するだけで、インテグラルイメージを求めることができることである。
インテグラルイメージを用いると、長方形領域内の画素の輝度値の総和を簡単に求めることができる。図14は、このようなインテグラルイメージを用いて、総和を求める長方形領域を示す図である。
インテグラルイメージを用いて、図14に示す長方形Dの枠内の画素の輝度の総和Srは、以下のように4点の値の計算で求めることができる。
このように、インテグラルイメージを用いることによって、長方形領域内の画素の輝度値の総和、ひいては、画素の輝度値の平均を高速に求めることができるので、高速に6分割矩形フィルタに対する処理を行うことが可能である。
(眉間候補点の抽出処理)
以下では、上述した6分割矩形フィルタを用いて、眉間の候補点を抽出する処理を説明する。
図15は、眉間の候補点を抽出する処理を説明するためのフローチャートである。
図15を参照して、まず、初期化処理として、変数m、nの値を、m=0,n=0とする(ステップS1000)。
続いて、6分割フィルタの左上コーナーを画像の(m,n)画素に合わせる(ステップS1020)。さらに、ブロックSiの領域の画素の平均濃度バーSiを計算する(ステップS1040)。
次に、平均濃度バーSiの値の大小が、式(1)による眉間候補条件を満たすがどうかテストする(ステップS1060)。
テスト条件を満たす場合は(ステップS1080)、フィルタの中心点に相当する(m+i/2,n+j/2)の位置の画素に眉間候補マークをつける(ステップS1100)。一方、テスト条件を満たさない場合は(ステップS1080)、処理はステップS1120に移行する。
ステップS1120では、変数mの値が1だけインクリメントされる。次に、変数mの値が対象画像の中で横方向にフィルタが動ける範囲内であるかが判定される(ステップS1140)。フィルタが動ける範囲内であるときは、処理はステップS1020に復帰する。一方、フィルタが横方向に動ける限界になっているときは、変数mの値を0にリセットし、変数nの値を1だけインクリメントする(ステップS1160)。
次に、変数nの値が対象画像の中で縦方向にフィルタが動ける範囲内であるかが判定される(ステップS1180)。フィルタが動ける範囲内であるときは、処理はステップS1020に復帰する。一方、フィルタが縦方向に動ける限界になっているときは、眉間候補マークのついて、画素の連結性を調べ、各連結要素ごとに連結要素の外形枠の中央の画素を眉間候補点とする(ステップS1200)。ここで、「中央の画素」とは、特に限定されないが、たとえば、各連結要素の重心位置とすることができる。
(目の候補点の抽出および真の眉間候補点の抽出)
以上のようにして抽出された眉間候補点には、真の眉間候補点以外に偽の眉間候補点も含まれる。そこで、以下に説明する手順で、真の眉間候補点を抽出する。
まず、眉間候補点の情報に基づいて、目の位置の候補点を抽出する。
そのために、複数の目の画像を顔画像データベースから抽出し、その平均画像を得る。図16は、このようにして得られた右目のテンプレートを示す図である。左目のテンプレートは、この右目テンプレートを水平方向に反転させればよい。
この右目テンプレートおよび左目のテンプレートを用いて、図10に示した眉間候補点を中心とする6分割矩形フィルタのブロックS1およびS3の領域において、テンプレートマッチング処理を行えば、右目および左目の各々の候補点を抽出できる。
図17は、このような目の候補点の抽出を行った上で、真の眉間候補点の抽出を行う処理を説明するためのフローチャートである。
図17を参照して、まず、眉間候補抽出フィルターのブロックS1とS3のそれぞれの領域において、目のテンプレートともっとも良くマッチする点を探索し、左右の目の候補点とする(ステップS2000)。
次に、眉間候補点位置を左右の目の候補点の中点に修正する(ステップS2020)。続いて、修正眉間候補点位置を中心に左右の目の候補点が水平に並ぶように入力画像を回転する(ステップS2040)。
回転後の修正眉間候補点を中心とするパターンと、後に説明するような手続きで予め形成されている眉間テンプレートとの類似度を計算する(ステップS2060)。
類似度が予め定めたしきい値以上かを判断し(ステップS2080)、しきい値以上であれば、それを真の眉間候補点とする(ステップS2100)。一方、しきい値未満であれば、それを偽の眉間候補点とする(ステップS2120)。
このような処理をすべての眉間候補点について行う。
以下では、上述した「目間の標準パターン」を「眉間テンプレート」と呼ぶことにする。
本願では、眉間テンプレートは、上述したように各ユーザごとに設定することとする。
次に、図17のステップS2060のテンプレートマッチングの処理をさらに詳しく説明する。
図18は、ステップS2060のテンプレートマッチングの手続きを説明するためのフローチャートである。
図18を参照して、まず、眉間候補点を抽出して(ステップS4000)、必要に応じて、眉間候補点を中心に回転を行い、スケール補正を行う(ステップS4020)。
次に、眉間候補点を中心として、テンプレートと同じサイズの画像を切り出す(ステップS4040)。切り出した眉間候補パターンと眉間テンプレートとの相関値を計算して類似度とする(ステップS4060)。
なお、類似度の計算としては、切り出した眉間候補パターンの濃度を正規化(平均ゼロ、分散1.0)して、画素ごとにテンプレートの対応画素との差の2乗を計算し、その総和を求めることとしてもよい。すなわち、この場合、総和の値は、不類似度とみなせるので、この逆数により類似度を評価してもよい。
以上のような手続きで、目の位置を検出することができる。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
本発明にかかるシステム100のハードウェア的構成を示すブロック図である。 システム起動時の登録処理について説明するためのフローチャートである。 口位置の検出を説明するためのフローチャートである。 顔の下半分について、各走査線(水平方向)毎に右目のx座標から左目のx座標までの間の画素の濃度の平均をプロットした図である。 左口角テンプレートおよび右口角テンプレートを示す概念図である。 検出された口の形状を示す概念図である。 口の状態を検出するための処理を説明するためのフローチャートである。 目の状態を検出するための処理を説明するためのフローチャートである。 口の開閉、視線の方向の組み合わせを変化させた画像の一例を示す図である。 6分割矩形フィルタを示す図である。 6分割矩形フィルタを顔画像に当てはめた場合を示す概念図である。 6分割矩形フィルタの他の構成を示す概念図である。 分割矩形フィルタを走査する対象となる画像を示す概念図である。 インテグラルイメージを用いて、総和を求める長方形領域を示す図である。 眉間の候補点を抽出する処理を説明するためのフローチャートである。 右目のテンプレートを示す図である。 目の候補点の抽出を行った上で、真の眉間候補点の抽出を行う処理を説明するためのフローチャートである。 ステップS2060のテンプレートマッチングの手続きを説明するためのフローチャートである。
符号の説明
20 顔位置抽出装置、30 カメラ、40 コンピュータ本体、42 モニタ。

Claims (6)

  1. ユーザの顔領域を含む対象画像領域内の各画素の値のデジタルデータを獲得する撮影手段と、
    前記対象となる画像領域内において、目の位置を抽出する目検出手段と、
    前記検出された目の位置に基づき、予め記憶装置に登録された前記目を含む画像についての情報との比較に基づいて、目の開閉および視線方向を含む目の状態を判定する目状態判定手段と、
    少なくとも検出された前記目の状態に応じて、複数の所定の処理のうち、予め対応づけられた処理を選択して実行する処理手段と、
    実行された前記処理に対応する結果を、出力する出力手段とを備える、ユーザインタフェース装置。
  2. 前記ユーザの口の位置を検出して、前記ユーザの口に対して、予め前記記憶装置に登録された前記口を含む画像についての情報との比較に基づいて、開状態および閉状態を含む口の状態を判定する口状態判定手段をさらに備え、
    前記処理手段は、前記目の状態および前記口の状態の組み合わせに応じて、前記複数の所定の処理のうち、予め対応づけられた処理を選択して実行する、請求項1記載のユーザインタフェース装置。
  3. 前記予め記憶装置に登録された前記目を含む画像についての情報は、前記目の間隔で正規化された前記目を含む所定の範囲の画素の明度の平均値を含む、請求項1記載のユーザインタフェース装置。
  4. 前記予め記憶装置に登録された前記口を含む画像についての情報は、前記目の間隔で正規化された前記口を含む所定の範囲の画素の明度の平均値を含む、請求項2記載のユーザインタフェース装置。
  5. コンピュータにユーザインタフェース処理を実行させるためのユーザインタフェースプログラムであって、
    ユーザの顔領域を含む対象画像領域内の各画素の値のデジタルデータを獲得するステップと、
    前記対象となる画像領域内において、目の位置を抽出するステップと、
    前記検出された目の位置に基づき、予め記憶装置に登録された前記目を含む画像についての情報との比較に基づいて、目の開閉および視線方向を含む目の状態を判定するステップと、
    少なくとも検出された前記目の状態に応じて、複数の所定の処理のうち、予め対応づけられた処理を選択して実行するステップと、
    実行された前記処理に対応する結果を、出力装置に出力するステップとをコンピュータに実行させる、ユーザインタフェースプログラム。
  6. 前記ユーザの口の位置を検出するステップと、
    前記ユーザの口に対して、予め前記記憶装置に登録された前記口を含む画像についての情報との比較に基づいて、開状態および閉状態を含む口の状態を判定するステップをさらに備え、
    前記実行するステップは、前記目の状態および前記口の状態の組み合わせに応じて、前記複数の所定の処理のうち、予め対応づけられた処理を選択して実行する、請求項5記載のユーザインタフェースプログラム。
JP2004105250A 2004-03-31 2004-03-31 ユーザインタフェース装置およびユーザインタフェースプログラム Expired - Fee Related JP4206053B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004105250A JP4206053B2 (ja) 2004-03-31 2004-03-31 ユーザインタフェース装置およびユーザインタフェースプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004105250A JP4206053B2 (ja) 2004-03-31 2004-03-31 ユーザインタフェース装置およびユーザインタフェースプログラム

Publications (2)

Publication Number Publication Date
JP2005293061A true JP2005293061A (ja) 2005-10-20
JP4206053B2 JP4206053B2 (ja) 2009-01-07

Family

ID=35325945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004105250A Expired - Fee Related JP4206053B2 (ja) 2004-03-31 2004-03-31 ユーザインタフェース装置およびユーザインタフェースプログラム

Country Status (1)

Country Link
JP (1) JP4206053B2 (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249595A (ja) * 2006-03-15 2007-09-27 Omron Corp 表示装置、プロジェクタ、表示システム、表示方法、表示プログラム、および記録媒体
WO2008085783A1 (en) * 2007-01-03 2008-07-17 Apple Inc. Gesture learning
WO2008146934A1 (en) * 2007-05-31 2008-12-04 Canon Kabushiki Kaisha Information processing method and apparatus, program, and storage medium
KR100947990B1 (ko) * 2008-05-15 2010-03-18 성균관대학교산학협력단 차영상 엔트로피를 이용한 시선 추적 장치 및 그 방법
WO2010064361A1 (ja) * 2008-12-02 2010-06-10 ブラザー工業株式会社 ヘッドマウントディスプレイ
US7840912B2 (en) 2006-01-30 2010-11-23 Apple Inc. Multi-touch gesture dictionary
WO2011118224A1 (ja) * 2010-03-26 2011-09-29 株式会社ディジタルメディアプロフェッショナル ぼかし画像取得装置及び方法
JP2012190126A (ja) * 2011-03-09 2012-10-04 Nec Casio Mobile Communications Ltd 入力装置、入力方法
US8413075B2 (en) 2008-01-04 2013-04-02 Apple Inc. Gesture movies
US8432367B2 (en) 2009-11-19 2013-04-30 Google Inc. Translating user interaction with a touch screen into input commands
US8810624B2 (en) 2010-11-10 2014-08-19 Samsung Electronics Co., Ltd Apparatus and method for configuring screen for video call using facial expression
JP2015014938A (ja) * 2013-07-05 2015-01-22 由田新技股▲分▼有限公司 車内アイコントロール方法、およびその方法を実現する電子デバイス
US9014483B2 (en) 2009-09-07 2015-04-21 Canon Kabushiki Kaisha Information processing method and apparatus
CN106557735A (zh) * 2015-09-30 2017-04-05 松下知识产权经营株式会社 状态判定装置、闭眼判定装置、状态判定方法和记录介质
JP2020116778A (ja) * 2019-01-21 2020-08-06 キヤノン株式会社 画像形成装置
WO2021260829A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 情報入力装置
WO2021260830A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 情報入力装置
WO2021260831A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 情報入力装置
WO2023181862A1 (ja) * 2022-03-25 2023-09-28 ソニーグループ株式会社 情報処理装置、情報処理方法、記憶媒体

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7840912B2 (en) 2006-01-30 2010-11-23 Apple Inc. Multi-touch gesture dictionary
JP2007249595A (ja) * 2006-03-15 2007-09-27 Omron Corp 表示装置、プロジェクタ、表示システム、表示方法、表示プログラム、および記録媒体
WO2008085783A1 (en) * 2007-01-03 2008-07-17 Apple Inc. Gesture learning
US9311528B2 (en) 2007-01-03 2016-04-12 Apple Inc. Gesture learning
US9021347B2 (en) 2007-05-31 2015-04-28 Canon Kabushiki Kaisha Information processing method and apparatus, program, and storage medium
JP2008299627A (ja) * 2007-05-31 2008-12-11 Canon Inc 情報処理方法及び装置、プログラム、記憶媒体
WO2008146934A1 (en) * 2007-05-31 2008-12-04 Canon Kabushiki Kaisha Information processing method and apparatus, program, and storage medium
US8413075B2 (en) 2008-01-04 2013-04-02 Apple Inc. Gesture movies
KR100947990B1 (ko) * 2008-05-15 2010-03-18 성균관대학교산학협력단 차영상 엔트로피를 이용한 시선 추적 장치 및 그 방법
WO2010064361A1 (ja) * 2008-12-02 2010-06-10 ブラザー工業株式会社 ヘッドマウントディスプレイ
JP2010134057A (ja) * 2008-12-02 2010-06-17 Brother Ind Ltd ヘッドマウントディスプレイ
US9014483B2 (en) 2009-09-07 2015-04-21 Canon Kabushiki Kaisha Information processing method and apparatus
US8432367B2 (en) 2009-11-19 2013-04-30 Google Inc. Translating user interaction with a touch screen into input commands
US8970614B2 (en) 2010-03-26 2015-03-03 Digital Media Professionals Inc. Apparatus and a method for obtaining a blur image
JP5689871B2 (ja) * 2010-03-26 2015-03-25 株式会社ディジタルメディアプロフェッショナル ぼかし画像取得装置及び方法
WO2011118224A1 (ja) * 2010-03-26 2011-09-29 株式会社ディジタルメディアプロフェッショナル ぼかし画像取得装置及び方法
US8810624B2 (en) 2010-11-10 2014-08-19 Samsung Electronics Co., Ltd Apparatus and method for configuring screen for video call using facial expression
JP2012190126A (ja) * 2011-03-09 2012-10-04 Nec Casio Mobile Communications Ltd 入力装置、入力方法
JP2015014938A (ja) * 2013-07-05 2015-01-22 由田新技股▲分▼有限公司 車内アイコントロール方法、およびその方法を実現する電子デバイス
JP2017068576A (ja) * 2015-09-30 2017-04-06 パナソニックIpマネジメント株式会社 状態判定装置、閉眼判定装置、状態判定方法、状態判定プログラムおよび記録媒体
CN106557735A (zh) * 2015-09-30 2017-04-05 松下知识产权经营株式会社 状态判定装置、闭眼判定装置、状态判定方法和记录介质
JP2020116778A (ja) * 2019-01-21 2020-08-06 キヤノン株式会社 画像形成装置
JP7277151B2 (ja) 2019-01-21 2023-05-18 キヤノン株式会社 画像形成装置
WO2021260829A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 情報入力装置
WO2021260830A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 情報入力装置
WO2021260831A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 情報入力装置
JP7409502B2 (ja) 2020-06-24 2024-01-09 日本電信電話株式会社 情報入力装置
WO2023181862A1 (ja) * 2022-03-25 2023-09-28 ソニーグループ株式会社 情報処理装置、情報処理方法、記憶媒体

Also Published As

Publication number Publication date
JP4206053B2 (ja) 2009-01-07

Similar Documents

Publication Publication Date Title
JP4206053B2 (ja) ユーザインタフェース装置およびユーザインタフェースプログラム
EP3332403B1 (en) Liveness detection
JP4824411B2 (ja) 顔抽出装置、半導体集積回路
US9778748B2 (en) Position-of-interest detection device, position-of-interest detection method, and position-of-interest detection program
KR100947990B1 (ko) 차영상 엔트로피를 이용한 시선 추적 장치 및 그 방법
US20170124719A1 (en) Method, device and computer-readable medium for region recognition
EP1271394A2 (en) Method for automatically locating eyes in an image
JP5361524B2 (ja) パターン認識システム及びパターン認識方法
KR101265466B1 (ko) 얼굴표정을 이용한 감정인식 장치, 감정인식 방법 및 그 기록매체
JP2011019192A (ja) 画像表示装置
JP4166143B2 (ja) 顔位置の抽出方法、およびコンピュータに当該顔位置の抽出方法を実行させるためのプログラムならびに顔位置抽出装置
Paul et al. Extraction of facial feature points using cumulative histogram
CN105912126A (zh) 一种手势运动映射到界面的增益自适应调整方法
Kumarage et al. Real-time sign language gesture recognition using still-image comparison & motion recognition
JP2011086259A (ja) 物体識別装置及び物体識別方法
JP2000331167A (ja) 顔画像照合方法及び装置
JP4708835B2 (ja) 顔検出装置、顔検出方法、及び顔検出プログラム
US9501710B2 (en) Systems, methods, and media for identifying object characteristics based on fixation points
EP4343689A1 (en) Body part authentication system and authentication method
EP3702958A1 (en) Method for verifying the identity of a user by identifying an object within an image that has a biometric characteristic of the user and separating a portion of the image comprising the biometric characteristic from other portions of the image
Lin et al. Pose classification of human faces by weighting mask function approach
Dimov et al. CBIR approach to the recognition of a sign language alphabet
CN113128304B (zh) 图像处理的方法及电子设备
Hu et al. Using eye gaze to play mind card-game using neural network
Raees et al. Continuous number signs recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080617

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080930

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081017

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111024

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121024

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131024

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees