JP4030147B2 - オブジェクト操作装置及びオブジェクト操作方法 - Google Patents

オブジェクト操作装置及びオブジェクト操作方法 Download PDF

Info

Publication number
JP4030147B2
JP4030147B2 JP6268197A JP6268197A JP4030147B2 JP 4030147 B2 JP4030147 B2 JP 4030147B2 JP 6268197 A JP6268197 A JP 6268197A JP 6268197 A JP6268197 A JP 6268197A JP 4030147 B2 JP4030147 B2 JP 4030147B2
Authority
JP
Japan
Prior art keywords
window
event
unit
mouse
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP6268197A
Other languages
English (en)
Other versions
JPH10260772A (ja
Inventor
修 山口
和広 福井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP6268197A priority Critical patent/JP4030147B2/ja
Priority to US09/030,213 priority patent/US6118888A/en
Publication of JPH10260772A publication Critical patent/JPH10260772A/ja
Priority to US09/593,296 priority patent/US6345111B1/en
Application granted granted Critical
Publication of JP4030147B2 publication Critical patent/JP4030147B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明はオブジェクト操作装置およびその方法に関する。
【0002】
【従来の技術】
近年、コンピュータ等のヒューマンインタフェースの高度化が重要とされ、より高度な入力デバイスを用いた、簡単かつ容易なインタフェースが発明されている。例えば、視線検出装置を用いたインタフェースとして、マウス、ペンなどのデバイスを用いないで、ウインドウの制御を行うものとして、(特開平4−23027:ウインドウ選択方式)など関連した発明が多数提案されている。
従来から、視線情報を正確にとるための発明もある。
【0003】
【発明が解決しようとする課題】
しかし、非接触な視線検出装置では、注視点と人間の状態(顔の向きや瞳の位置)を対応づけておくためのキャリブレーションが必要である。キャリブレーションは、特別に用意された規定の指標を見ることにより、注視点と瞳の位置との補正を行う。検出精度を高めるためには、かなりの時間と繰り返し動作を強要するものであるため、使用者の負担が大きかった。
【0004】
また、注視点を得るために、近赤外線をあてる(特開昭61−172552、特開平4−23027)ものや、瞳の位置を正確に取出すためにステレオの装置を使う(伴野 明,岸野 文郎,小林 幸雄:”瞳孔の抽出処理と頭部の動きを許容する視線検出装置の試作”,電子通信学会論文誌(D)Vol.J76−D−II,No.3,pp.636−646(1993))など、大掛かりな装置が必要であった。
【0005】
本発明では、厳密な精度の視線方向を算出する視線検出方法を用いることなく、非接触な検出方法でオブジェクトを操作、選択することを可能にする。
本発明の装置において、最初は、従来通り他のデバイスを用いて、オブジェクトに対する作業を行う。作業中はオブジェクトを注視しているため、その作業中に人間の顔を撮影し、画像解析を行って特徴量を取得しておく。その特徴量を用いて認識用の辞書パターンを作成し、オブジェクトの操作内容と関連づけておく。別の時点で、オブジェクトを見ている場合に、同様に顔画像をしとくし、作成された辞書パターンを用いて認識を行い、以前にオブジェクトを操作していたときの顔画像に近い場合には、明示的にデバイスを用いずとも、自動的にそのオブジェクトを操作対象として選択することを実現する。
【0006】
コンピュータのウインドウシステムを例とすると、最初はウインドウのフォーカスをマウスを用いて行い、そのウインドウで作業を行っている間に、その作業中の人間の顔画像を取得し、注視している方向の顔の特徴量を求める。その特徴量を用いて辞書パターンを作成された後は辞書パターンを用いて認識を行い、あるウインドウを見ていたときの顔画像に近い場合、そのウインドウに自動的にフォーカシングが行われることになる。
【0007】
ここで、マウスを操作している場合には、人間は図13のようにマウスカーソルを人物44の目で追従するという、ビジュアルフィードバックを行っており、マウス45のカーソルが表示部46上において常に視線で追うことによって、マウスの位置を制御している。すなわち、マウスの移動操作中は自然に視線位置を取得することができる。この性質を利用すれば、従来法のように特別な指標を用意する必要はなく、指標を見せる形でのキャリブレーションは必要ない。
【0008】
また、ウインドウのようにマウスカーソルにくらべ大きな面積を持つ対象を視線により識別する場合、1)ウインドウの操作中(キー入力など)はウインドウを注視する。2)視線検出の精度を必要としない。
【0009】
これより、ウインドウの操作中に顔画像を取得し、その顔画像を用いて辞書パターンをつくればよい。各ウインドウ毎に、辞書パターンを作成しておき、認識時には、どの辞書に最も近いかを計算することで、ウインドウを選択することができ、視線検出と同様な効果が得られることとなる。
【0010】
適宜辞書パターンを作成することにより、特別な指標を用いたキャリブレーションをあらかじめ行う必要がなくなる。またこれまでの利用形態を崩すことなく、作業をしていく過程で、より使いやすい環境、様式を自動的に獲得、利用できる。
【0011】
【課題を解決するための手段】
以上の目的を達成するために、第1の発明は、画像入力部で撮影された人間の顔の画像の顔領域を検出して、顔領域に含まれる複数の特徴点の組み合わせからなる特徴量を抽出する顔画像処理部と、対象オブジェクトに関連したマウス、キーボード等のデバイスからのイベントが発生した際に前記特徴量を用いて辞書パターンを生成する辞書生成部と、新たに入力された顔画像から抽出された特徴量に最も近い前記辞書パターンを求め、当該最も近い辞書パターンに応じた当該対象オブジェクトの選択制御情報を生成する認識判断部と、その選択制御情報に従い当該オブジェクトを制御するためのオブジェクト制御部と
を備えるオブジェクト操作装置において、前記オブジェクト制御部は、対象オブジェクトに関連して、マウス、キーボード等のデバイスからのイベントが発生した場合には、前記選択制御情報に応じた当該対象オブジェクトの制御に優先して、当該マウス、キーボード等のデバイスからのイベントに対する処理を行なうことを特徴とするオブジェクト操作装置を提供する。
【0012】
また第1の発明において、前記対象オブジェクトは、ウィンドウ表示手段に表示されたウィンドウであって、前記対象オブジェクトの選択制御情報は、前記ウィンドウ表示手段に表示された複数のウィンドウの中から操作対象となるウィンドウを選択するための制御情報であることを特徴とする。
【0013】
また第1の発明において、前記オブジェクト制御部は、前記ウィンドウ表示手段に表示されたマウスカーソルがウィンドウの内部に移動されることにより、複数のウィンドウの中から当該ウィンドウを操作対象とするよう当該ウィンドウを制御する。
【0014】
本願の第2の発明は、撮影された人間の顔の画像の顔領域を検出して、顔領域に含まれる複数の特徴点の組み合わせからなる特徴量を抽出する顔画像処理手段と、対象オブジェクトに関連したマウス、キーボード等のデバイスからのイベントが発生した際に前記特徴量を用いて辞書パターンを生成する辞書生成部と、新たに入力された顔画像から抽出された特徴量に最も近い前記辞書パターンを求め、当該最も近い辞書パターンに応じた当該対象オブジェクトの選択制御情報を生成する認識判断手段と、その選択制御情報に従い当該オブジェクトを制御するためのオブジェクト制御手段とを備えるオブジェクト操作装置が行うオブジェクト操作方法において、前記オブジェクト制御手段は、対象オブジェクトに関連して、マウス、キーボード等のデバイスからのイベントが発生した場合には、前記選択制御情報に応じた当該対象オブジェクトの制御に優先して、当該マウス、キーボード等のデバイスからのイベントに対する処理を行なうことを特徴とするオブジェクト操作方法を提供する。
【0015】
また第2の発明において、前記対象オブジェクトは、ウィンドウ表示手段に表示されたウィンドウであって、前記対象オブジェクトの選択制御情報は、前記ウィンドウ表示手段に表示された複数のウィンドウの中から操作対象となるウィンドウを選択するための制御情報であることを特徴とする。
【0016】
また第2の発明において、前記オブジェクト制御手段は、前記ウィンドウ表示手段に表示されたマウスカーソルがウィンドウの内部に移動されることにより、複数のウィンドウの中から当該ウィンドウを操作対象とするよう当該ウィンドウを制御することを特徴とする。
【0017】
【発明の実施の形態】
以下に本発明の一実施例について説明する。本発明による装置1を図1に示す。装置は画像入力部2、顔画像処理部3、認識判断部4、オブジェクト制御部5の4つの部分からなる。
【0018】
[画像入力部]
画像入力部2は、人間の顔を撮影するための装置で、通常のTVカメラを一つ用いて画像の取得を行う。入力は白黒の画像でよいが、カラー入力の場合は白黒に変換して、顔画像処理部3に送られる。
【0019】
本実施例では、白黒の画像で処理を行うが、顔画像処理部3で色情報などが必要な場合は、カラー画像を出力しても良い。また、画像入力部2には、複数のカメラがあっても良いし、カメラも固定入力カメラだけでなく、ピント(フォーカス)、絞り、ズームなどが制御可能なカメラを用いても良い。カメラの撮影方向を可変にするためのパン、チルト方向に回転可能なカメラを用いてもよい。
【0020】
[顔画像処理部]
顔画像処理部3の一構成例を、図2に示す。本実施例での顔画像処理部6は、顔検出部7、顔部品検出部8、部分画像生成部9からなる。
【0021】
顔検出部7では、入力された画像に対し、アフィン変換(平行移動、拡大縮小、回転)、クロッピング(切り出し)を行い、規定の大きさの部分画像を生成する。具体的には、入力画像を数段階で縮小し、それぞれの縮小画像で、ラスタスキャンを行う要領である大きさ(N pixel×N pixel)の画像を切り出す(図10参照)。切り出された部分画像に対して、あらかじめ用意された顔画像の辞書パターンとの類似度を計算する。ここでは部分空間法を用いて、類似度を算出する。
【0022】
部分空間法は集められたサンプルをK−L展開(主成分分析)し、その正規直交基底(固有ベクトル)を求め、これを辞書パターンとする。テストパターンをそれぞれカテゴリの辞書パターン(固有ベクトル)との内積の総和を求め、これを類似度とする。このときテストパターンは最も高い類似度をもつカテゴリに属するとするものである。
固有ベクトルφ=(φi ,…,φm )を用いて、部分画像Gとの類似度sを求める。
【0023】
【数1】
Figure 0004030147
【0024】
切り出した画像の中で、最も高い類似度をもつ解像度、位置を見つけ、顔が存在すると定める(図10中央下参照)。
顔部品検出部8は、検出された顔領域の中から、目、鼻、口といった顔部品の検出を行う。本実施例では、顔部品である目(瞳孔)、鼻(鼻孔)を検出する。
【0025】
これらの特徴的な部分を抽出する方法として、図11(a)の顔画像に対して、図11(b)に示すように、まず、目鼻の候補として、丸領域の形状をした分離度マスク(山口 修、福井 和広、”分離度特徴を用いた顔画像解析−目 瞳の検出−”、情報処理学会 第52回全国大会(2)−pp.187−188,1996.)を用いて丸領域の検出を行う。なお特徴点抽出の方法は従来法を用いてよいし、方法を問わない。複数の丸領域から、4つの領域の組合せにより、目鼻候補として考えた場合に、もっとも顔らしいと判定された4点を目鼻候補を特定する。この顔らしさの判定は、あらかじめ用意した顔モデルとの比較により検証する。顔モデルは、濃淡情報を用いたもの、バネモデルによる構造特徴量など、従来から提案されている方法を用いればよい。
【0026】
部分画像生成部9は、検出された顔部品の位置(特徴点)を基準として、図11(e)のように、顔領域の切り出しを行う。特徴点として選ばれた4点に基づいて、領域を画像中から再量子化し、規定の大きさの小画像(正規化画像)を生成する。ここでの正規化のサイズは、15×15ピクセルの大きさとして、図に示すように、目鼻の特徴点から2つのベクトル(図11(d))を設定する。そのベクトルの線形和の位置の濃淡値を、切り出した後の画像の濃淡値とする(図11(e))。なお、この切り出しの大きさ(15×15ピクセル)は、これに限らない。また、切り出す部分に関してもこれに制限されない。
【0027】
顔部品の位置を用いて上述したように切り出しを行う場合、顔の向き、瞳の位置の違いにより、図12のように異なる特徴量となる。図12(a)は上、図12(b)は下、図12(c)は右、図12(d)は左を見ていた場合の濃淡値の模式図であり、この濃淡値をそのまま特徴量として利用する。これにより、視線を直接には求めないで、顔の向きなどの特徴量を利用できる。
【0028】
図12のような濃淡の特徴量を識別することによって、顔の向きの違いから、17インチディスプレイ程度の大きさの画面を9分割程度で見分けることができる。しかし、これにはあらかじめキャリブレーションが必要となる。すなわち対応する分割画面を見ている間の顔の特徴量を取得しておき、辞書をあらかじめ生成しておく必要がある。これを用いて簡単なメニュー選択なども可能である。
【0029】
[オブジェクト制御部]
オブジェクト制御部5は、図4に示されているようにオブジェクト状態管理部15、イベント管理部16、オブジェクト状態変更部17から構成される。
【0030】
オブジェクト状態管理部15は、オブジェクトの生成、管理、削除などオブジェクトに関する状態情報を管理する。
イベント管理部16は、オブジェクトを操作するために、用意されたデバイスなどの情報や、オブジェクトに対して行われる処理、またオブジェクトが行う処理から発生するすべてのイベント情報を処理、管理する。なお、イベントとは、システムにおける、オブジェクトの操作情報、操作内容などをあらわし、操作の最小単位を指す。
【0031】
オブジェクト状態変更部17は、各オブジェクトの状態を変更し、オブジェクトの表示などに関しての制御、処理を行う。
本実施例では、コンピュータのウインドウシステムにおける、ウインドウマネージャを例に具体的に説明を行うため、図5のように、オブジェクト制御部18をウインドウ制御部(ウインドウマネージャ)とし、オブジェクト状態管理部をウインドウ管理部19、オブジェクト状態変更部をウインドウ表示変更部21とする。
【0032】
[ウインドウ制御部]
ウインドウ制御部18は、通常のウインドウシステムにおけるウインドウマネージャと同等の機能であるが、次の3つのウインドウ管理部19、イベント管理部20、画面表示変更部21からなるとして説明する。
【0033】
<ウインドウ管理部>
ウインドウ管理部19は、表示されているウインドウの位置、大きさなどの属性情報、ウインドウ同士の重なり方を管理する。それぞれのウインドウは、新たに生成された時点で、そのウインドウの大きさ(w,h)、位置(x,y)、名称(name)、ID番号(idnumber)を次のような
((x,y),(w,h),(name),(idnumber))
というタップルとして、登録する。
【0034】
ウインドウ同士の重なりあいを検出するために各ウインドウの(x,y),(w,h)を用い、どのウインドウがどの別のウインドウに重なっているのかを計算し保持する。
【0035】
<イベント管理部>
イベントとは、ウインドウシステムにおける、マウスの移動、ボタン操作、ウインドウ操作、キー入力など操作の最小単位を指す。
【0036】
イベントは、
(イベントのタイプ、イベントの起ったオブジェクト(ウインドウ)ID、イベントの値(量))
の組みとして表現される。
【0037】
イベント管理部20は、マウス、キーボードといったデバイスからのイベントに対する処理、また、イベントが起った際に画面表示の変更の指示なども行う。
例えばユーザからのキーボードの入力があると、ウインドウシステムからのイベントが発生し、イベント管理部20にそのイベントが送られる。イベントをどのウインドウに送るのかは、このイベント管理部20で処理する。すなわち、ウインドウが選択対象となっているか(フォーカスと呼ぶ)を管理している。
【0038】
<画面表示変更部>
画面表示変更部21では、ウインドウの表示、ウインドウ内の画像、文字、図形などの描画、マウスカーソルの移動など、画面表示を変更する場合など、イベントが起った場合にウインドウの表示を変更する。
【0039】
例えば、マウスの移動によりフォーカスが移動した場合、フォーカスが変更したことをウインドウの枠の色を変化させる。ウインドウを移動した場合、移動を指定された位置に持っていくなどである。
【0040】
[認識判断部]
次に、図1の認識判断部4について説明する。図3にその構成を示す。
認識判断部10は、辞書生成部12、認識部11、判断制御部13からなる。
【0041】
辞書生成部12では、顔画像処理部3で生成された特徴量を用いて、認識用の辞書パターンを生成する。ここでは、切り出しが行われた複数枚の顔の部分画像を用いて認識用の辞書パターンを生成する。辞書生成部12は、判断制御部13からの指示により、図6のような処理を行う。まず、次の判断制御部からの指示がくるまでの間、画像の収集を行う(ステップ22)。そして、ある定数の画像が収集された場合に、それらの画像からの分散共分散行列を構成する(ステップ23)。その行列をK−L展開することにより、行列の固有値、固有ベクトルを計算する(ステップ24)。これは具体的にはyacobi法やLU分解などの行列計算を行えばよい。次に固有値の大きい順に、対応する固有ベクトルを並び替えて、上位いくつかの固有ベクトルのみを取出し、それを辞書パターンとして登録する(ステップ25)。辞書パターンは複数個もつことができ、任意に削除することもできる。
【0042】
<認識部>
認識部11は、辞書生成部12によってつくられた辞書パターンを用いて、別に切り出された画像が、どの辞書パターンにもっとも近いのかを求める。
類似度は、先に説明した部分空間法を用いて、i番目の辞書パターン(固有ベクトル)φi により、部分画像の類似度si を求める。
【0043】
【数2】
Figure 0004030147
【0044】
このとき、すべてのsi について、最も大きなsi をもつ辞書パターンのカテゴリに分類される。
<判断制御部>
判断制御部13では、
1)オブジェクト制御部5からの情報受け取り、2)認識、辞書生成の制御、3)オブジェクト制御部5への指示
を行う。判断制御部13の一実施例として、図7のようにイベント調停部29、イベント検証部27、イベント生成部28からなる。
【0045】
イベント調停部29は、オブジェクト制御部5からイベントを受け取り、関係のあるイベントがどうかを判断し、各イベント検証部27、イベント生成部28、にイベントを振り分ける。ここでは、ウインドウを注視しているかどうかに関連するイベントのみを選択するように、イベントのタイプとイベントの起ったウインドウIDのチェックを行う。すなわち(type,winID,value)で表現されたイベントのtype,winIDを用いて取捨選択する。
【0046】
イベント検証部27は、図8でしめすようなフローチャートで動作する。まず、オブジェクト制御部(ウインドウ制御部)からイベントの情報を受け取る(ステップ30)。イベントがあった場合(ステップ31)、そのイベントが起こったウインドウのIDを確かめる。もし、対象としているウインドウIDからのイベントである場合(ステップ32)、辞書生成部に辞書生成のための画像収集を指示する(ステップ33)。
【0047】
また、ウインドウの移動/削除などウインドウ自身の位置情報などが変更された場合は、認識部に対して辞書パターンの削除を指示する。イベント生成部は、図9で示すようなフローチャートで動作する。オブジェクト制御部からイベントの情報を受け取る(ステップ37)。受け取ったイベントがフォーカスイベントである場合には(ステップ39)、マウスによるフォーカシングが行なわれる(40)。一方、受け取ったイベントがマウスイベントでない場合には(ステップ38)、認識部からの認識結果を受け取り(ステップ42)、あるウインドウを注視している場合にはそのウィンドウへフォーカスを変更する等の関連づけされたイベントを生成し、オブジェクト制御部に送る(ステップ43)。
【0048】
これら各部の動きを実施例にそって動作を説明する。
◆実施例1(ウインドウマネージャ)
本実施例は、パソコン、ワークステーションなどで画面による入力(GUI)を備えたウインドウシステムに適用した例を説明する。
【0049】
ウインドウフォーカスの選択(フォーカシング)を例とする。ウインドウフォーカスとは、複数のウインドウの中から、キーボードによる入力など、操作対象とするウインドウを選択することを指す。
【0050】
従来のウインドウシステムでは、ウインドウフォーカスを行うためには、図14(c)(d)のように2つのウインドウが存在する場合は、それぞれのウインドウ内にマウスを移動させ、マウスカーソルをウインドウの内部に持ってくることによって、そのウインドウを操作対象とするフォーカシングができる。
【0051】
本実施例では、最初は従来通り、ウインドウのフォーカスをマウスを用いて行い、そのウインドウで作業を行っている間に、その作業中の人間の顔画像を取得する。辞書パターンが作成された後は、それらの辞書パターンを用いて認識を行い、あるウインドウを見ていたときの顔画像に近い場合、そのウインドウにフォーカシングを行うことを実現する。
【0052】
パソコンやワークステーションのディスプレイ(表示装置)付近に取りつけられたカメラを入力として、人間の顔の画像を取得する。本実施例では、ディスプレイの下側付近に取りつけ、見上げる角度に設置し、顔をとらえる。
【0053】
図14(a)のように、一つのウインドウが存在する状態から説明する。図14(b)のように新しいウインドウを作成する。その後、ウインドウは図14(c)のようにマウスによってフォーカシングされる。
【0054】
図15は、ウインドウの状態遷移図を表す。楕円で表されたものノードが各状態を示し、アークには操作内容を示すイベントのタイプを表している。
newは新規ウインドウの生成、key push、key releaseはキーボードからの入力、mouse moveはマウスの移動、iconify Deiconifyは、ウインドウのアイコン化、ウインドウ化の指示を表す。
【0055】
例えば(mouse move,123,(x,y))という場合はウインドウID123でマウスが(x,y)の位置に移動したことを表す。
図14(b)から図14(c)への変化は、「ウインドウ生成」の後「フォーカス状態」に遷移することになる。ウインドウが生成された時点で、ウインドウ管理部は、新しいウインドウの(ID、位置、大きさ、名称)を登録する。そして、認識判断部の判断制御部にそのウインドウのIDを送る。
【0056】
「フォーカス状態」と「キー入力状態」を遷移している場合、すなわち、フォーカスしたウインドウで作業を行っているときに、認識判断部の判断制御部は、辞書生成部に対し、辞書パターンを生成するための画像収集を指示する。なお、キー入力の場合は、キーが押された瞬間だけではなく、連続してキーが押されている時間についてすべて、画像収集を行う。
【0057】
辞書生成部は、ウインドウIDに対して、収集枚数がある定数に達した場合に、辞書生成を図6の要領で行う。辞書パターンが生成された場合、辞書生成部は、判断制御部に辞書パターンの情報(辞書とウインドウIDの組)を伝える。
【0058】
判断制御部は認識部に対して、辞書パターンの更新情報を送り認識部は、辞書生成部から新たな辞書パターンを受け取る。なお認識部は、辞書パターンで認識した結果、ウインドウIDを判断部に送出することになる。
【0059】
この例では、ウインドウは2つ存在するため、2つのウインドウそれぞれに対して認識用の辞書を生成すればよい。
判断制御部は、ウインドウ制御部からのイベント情報を受け取り、マウスの移動、ボタンなどがあるかどうかを検知する。マウスに関するイベントが発生していない場合、認識部からの認識結果(ウインドウID)を用いて、マウスを動かしたことと同様に、フォーカスをそのIDのウインドウにあわせるように、イベントを発生し、ウインドウ制御部に送る。
【0060】
これにより、通常図14(e)のように、マウスによるフォーカシングだけでなく、図14(f)のようにマウスがウインドウ内に、入ってなくともフォーカシングでき、つづけてキー入力ができるようになる。
【0061】
ウインドウ制御部は、フォーカスをあわせたウインドウにフォーカスが変更されたことを画面表示するために、画面表示変更部に指示し、フォーカスをそのウインドウに会わせる。
【0062】
次にウインドウを移動/削除した場合について述べる。
これまでは、見ている方向にウインドウがある場合に、そのウインドウにフォーカスを与えることについて述べた。マウス操作により、ウインドウを移動/削除させた場合、それまでフォーカシングに使用していた辞書パターンは使えなくなり、辞書パターンを更新する必要がある。
【0063】
まず、マウス操作によるウインドウの移動/削除の制御が行われた場合、イベント管理部において、ウインドウ移動/削除が検知される。イベント管理部は、判断制御部に対してどのウインドウが移動/削除されたかを判断部に知らせる。判断制御部は認識部に対し、そのウインドウの識別に利用していた辞書パターンを削除するように指示する。さらに判断制御部はそのウインドウIDに対してのマウスによるフォーカシングなどのイベントが発生した場合には、辞書生成部に新たな辞書パターンを生成するように画像収集の指示を与える。
【0064】
また、ウインドウがアイコン化された場合について述べる。アイコン化された場合、認識部では、そのウインドウについての類似度を求めることをやめるよう判断制御部から指示を送る。これにより、アイコン化されたウインドウにフォーカスが与えられなくなる。また、アイコン化されたウインドウをもとのウインドウに戻した場合には、再びその辞書を認識部に組み入れ、認識を行う。
【0065】
◆実施例2(視線検出)
先に説明したように、図12のような濃淡の特徴量を識別することによって、顔の向きの違いから、ディスプレイの画面を9分割程度で見分けることができる。この場合、キャリブレーションが必要である。すなわち対応する分割画面を見ている間の顔の特徴量を取得しておき、辞書をあらかじめ生成しておく必要がある。
【0066】
しかし、本発明を用いることにより、従来と異なり、能動的にマウスを用いた次のようなキャリブレーション法が実現できる。
図16で示すように、9分割の画面があり、マウスを移動することができるようになっている。マウスを移動したときにそのマウスを見ていると図16(a)から図16(b)のように色が変化するようにする。これは、マウスの位置によって色が変化するのではなく、その分割位置を見ているときの人間の顔の撮影画像の枚数に応じて色が濃く変化するようにする。次に図16(c)のようにマウスを動かした場合、右上の色の変化は止まり、中央上の部分を見ている時の撮影画像の枚数に応じて色が変化する。時間が経過すると図16(d)に変化し、先の右上よりも多くの枚数を取得したことになる。図16(e)のように、これをすべての分割位置について逐次行って、図16(f)の状態になったとき、それぞれの顔の特徴量を収集し終わったことになる。
【0067】
実現のためには、9分割のそれぞれ部分にウインドウを割り当て、マウスのおかれたウインドウについて、実施例1で述べたように、辞書の生成を行う。この際、辞書の生成に使用される画像の取得枚数に応じてウインドウの色を変更するように、ウインドウ制御部に指示を出す。すべてのウインドウの色が変化したとき、すべてのウインドウで辞書生成が終わったことになり、人間も知覚しやすいというメリットもある。
【0068】
作成された辞書を用いて認識を行い、簡単なメニュー選択や、従来の視線検出のアプリケーションに応用できる。
なお、もちろん従来のような、システム側から提示する形態のキャリブレーションを行ってもよい。
【0069】
◆実施例3(リモコン)
家電製品を例として、テレビのリモコンによるチャンネルの選択への適用を考える。チャンネルを替える操作をリモコンで行う場合に、図17のような、画面とは別の場所(A,B,C,D)などの別の方向を見ながらリモコン操作でチャンネルを替える。これが先の実施例のイベントに対応する。
【0070】
テレビに画像入力部を設置し、テレビを見ている人の顔画像を取得する。顔画像処理部では同様の処理を行う。判断制御部では、ある方向を見ながら行ったチャンネルの選択内容とを関連づけ、辞書が生成された後は、その方向を見るだけで、チャンネルの変更されるということを可能にする。オブジェクト制御部についてはチャンネルの変更手段が必要となる。
【0071】
この場合、オブジェクトの位置(テレビの位置)は変化しないが、人間の位置が変化することが起る。この場合に、辞書を更新して対応する方法と、人間の位置をイベントの種類としてとらえて、それぞれの人間の位置に関して辞書を生成する方法などで対処できる。
【0072】
◆実施例4(他メディアのサポート)
音声認識のデバイスを加えた例として、音声認識を用いて、家電製品や社会システムを制御する場合を考える。音声認識を用いたシステムの場合、音声認識のみを用いたシステムでは、誤認識する場合が多い。これは、使用者がその指令を送る状態にあるかどうかによって変化するものであり、システムに設置されたマイクの指向性なども要因となり、認識率が低下する。
【0073】
唇の形状を認識に加える例などもあるが、それを取得する場合にも顔の向きは重要である、ここでは、音声登録時の別の種類の情報(顔の情報)の状態情報で補完する例を示す。
【0074】
最初のアクセス時(登録時)に、登録する使用者の顔の特徴量を獲得しておいて辞書登録する。登録する語が複数ある場合、それぞれをイベントとして扱えば、複数の顔の状態情報が登録できる。
【0075】
そして、音声認識を用いて認識を行う場合に、音声認識の結果が悪い場合でも、どの言葉を発生した顔の特徴量に近いかを併用して考えることにより、より確実な認識が可能になる。
【0076】
変形例について述べる。
実施例1、2では主としてウインドウを例に説明したものがあるが、ウインドウはオブジェクトとし、対象とするイベント内容についても実施例3、4のように変更してもよい。すなわち、コンピュータだけではなく、家庭の家電製品や、自動車内、社会システムなどに応用してもよい。
【0077】
判断制御部において、従来におけるマウスのようなデバイスを用いたイベント生成と本発明で述べた顔の向きによるイベント生成は、実施例では、マウスによるデバイスを用いたイベント生成を優先しているが、その優先度を逆にしてもよい。
【0078】
認識部では一定時間、数回の認識を行って、もっとも識別回数の多かった辞書のカテゴリを認識結果としてもよい。
ウインドウシステム上で、キー入力を行っている場合について考えると、キーボードを見ている場合や、別のウインドウに注視してしまった場合も発生する。これを防ぐ場合には、過去の認識の情報を蓄えておき、注視点と特徴量の関係を求めておく機構を設けてもよい。これから概略の向き(キーボードを見ているか、収集対象となっているウインドウ以外をみているかなど)を判定し、外れているものは、収集対象からはずすことにより、辞書の精度を向上させることができる。
【0079】
ウインドウアプリケーションにおいて、エディタのようなキー入力が多い場合、カーソルの位置が頻繁に変わることも考えられる。その場合は、ウインドウの移動に関わらず、辞書の更新を逐次行っても良い。また、アプリケーション毎にこの制御を変更してもよい。
【0080】
顔画像処理部において、上述した実施例では、顔の目、鼻を含む矩形部分の濃淡値を特徴量として用いたが、目の位置も解析して得ているため、目付近だけを同様に濃淡値集合として取出して、瞳の位置変動も考慮にいれて、辞書を生成してもよい。
【0081】
さらにより精度が必要な場合は、従来の視線検出装置と置換、併用なども行っても良い。
オブジェクト制御部については、さまざまなシステムと置換することができ、顔の向きによるインタフェース機能を、容易に機能拡張変更ができる。
【0082】
【発明の効果】
本発明によれば、マウスなどの従来のデバイスを用いて制御していたオブジェクトの制御を、逐次的に学習を行って、顔の向き、視線方向などの情報を用いてオブジェクトの状態を変更、操作することができる。
【0083】
また、従来の視線検出のような、あらかじめキャリブレーションを行う必要がなく、マウスを使わなくとも制御が可能となる。これにより、被験者が特別なキャリブレーションを習得しなくとも、作業の無駄を省き、効率的な作業が可能にできる。
【図面の簡単な説明】
【図1】 システムの構成
【図2】 顔画像処理部の一実施例
【図3】 認識判断部の一実施例
【図4】 オブジェクト制御部の一実施例
【図5】 ウインドウ制御部の一実施例
【図6】 辞書生成のフローチャート
【図7】 判断制御部の一構成例
【図8】 イベント検証部のフローチャート
【図9】 イベント生成部のフローチャート
【図10】 顔検出の説明図
【図11】 特徴点検出と切り出しの方法
【図12】 顔向きと顔特徴量の説明図
【図13】 マウスの使用時の状態の説明図
【図14】 ウインドウフォーカスの説明図
【図15】 ウインドウ状態の状態遷移図
【図16】 キャリブレーションの方法
【図17】 テレビにおける実施例の説明図
【符号の説明】
1…オブジェクト操作装置
2…画像入力部
3…顔画像処理部
4…認識判断部
5…オブジェクト制御部

Claims (6)

  1. 画像入力部で撮影された人間の顔の画像の顔領域を検出して、顔領域に含まれる複数の特徴点の組み合わせからなる特徴量を抽出する顔画像処理部と、
    対象オブジェクトに関連したマウス、キーボード等のデバイスからのイベントが発生した際に前記特徴量を用いて辞書パターンを生成する辞書生成部と
    新たに入力された顔画像から抽出された特徴量に最も近い前記辞書パターンを求め、当該最も近い辞書パターンに応じた当該対象オブジェクトの選択制御情報を生成する認識判断部と、
    その選択制御情報に従い当該オブジェクトを制御するためのオブジェクト制御部と
    を備えるオブジェクト操作装置において、
    前記オブジェクト制御部は、対象オブジェクトに関連して、マウス、キーボード等のデバイスからのイベントが発生した場合には、前記選択制御情報に応じた当該対象オブジェクトの制御に優先して、当該マウス、キーボード等のデバイスからのイベントに対する処理を行なうことを特徴とするオブジェクト操作装置。
  2. 前記対象オブジェクトは、ウィンドウ表示手段に表示されたウィンドウであって、
    前記対象オブジェクトの選択制御情報は、前記ウィンドウ表示手段に表示された複数のウィンドウの中から操作対象となるウィンドウを選択するための制御情報である
    ことを特徴とする請求項1記載のオブジェクト操作装置。
  3. 前記オブジェクト制御部は、前記ウィンドウ表示手段に表示されたマウスカーソルがウィンドウの内部に移動されることにより、複数のウィンドウの中から当該ウィンドウを操作対象とするよう当該ウィンドウを制御することを特徴とする請求項2記載のオブジェクト操作装置。
  4. 撮影された人間の顔の画像の顔領域を検出して、顔領域に含まれる複数の特徴点の組み合わせからなる特徴量を抽出する顔画像処理手段と、
    対象オブジェクトに関連したマウス、キーボード等のデバイスからのイベントが発生した際に前記特徴量を用いて辞書パターンを生成する辞書生成部と
    新たに入力された顔画像から抽出された特徴量に最も近い前記辞書パターンを求め、当該最も近い辞書パターンに応じた当該対象オブジェクトの選択制御情報を生成する認識判断手段と、
    その選択制御情報に従い当該オブジェクトを制御するためのオブジェクト制御手段と
    を備えるオブジェクト操作装置が行うオブジェクト操作方法において、
    前記オブジェクト制御手段は、対象オブジェクトに関連して、マウス、キーボード等のデバイスからのイベントが発生した場合には、前記選択制御情報に応じた当該対象オブジェクトの制御に優先して、当該マウス、キーボード等のデバイスからのイベントに対する処理を行なうことを特徴とするオブジェクト操作方法。
  5. 前記対象オブジェクトは、ウィンドウ表示手段に表示されたウィンドウであって、
    前記対象オブジェクトの選択制御情報は、前記ウィンドウ表示手段に表示された複数のウィンドウの中から操作対象となるウィンドウを選択するための制御情報である
    ことを特徴とする請求項4記載のオブジェクト操作方法。
  6. 前記オブジェクト制御手段は、前記ウィンドウ表示手段に表示されたマウスカーソルがウィンドウの内部に移動されることにより、複数のウィンドウの中から当該ウィンドウを操作対象とするよう当該ウィンドウを制御することを特徴とする請求項5記載のオブジェクト操作方法。
JP6268197A 1997-02-28 1997-03-17 オブジェクト操作装置及びオブジェクト操作方法 Expired - Fee Related JP4030147B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP6268197A JP4030147B2 (ja) 1997-03-17 1997-03-17 オブジェクト操作装置及びオブジェクト操作方法
US09/030,213 US6118888A (en) 1997-02-28 1998-02-25 Multi-modal interface apparatus and method
US09/593,296 US6345111B1 (en) 1997-02-28 2000-06-13 Multi-modal interface apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6268197A JP4030147B2 (ja) 1997-03-17 1997-03-17 オブジェクト操作装置及びオブジェクト操作方法

Publications (2)

Publication Number Publication Date
JPH10260772A JPH10260772A (ja) 1998-09-29
JP4030147B2 true JP4030147B2 (ja) 2008-01-09

Family

ID=13207282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6268197A Expired - Fee Related JP4030147B2 (ja) 1997-02-28 1997-03-17 オブジェクト操作装置及びオブジェクト操作方法

Country Status (1)

Country Link
JP (1) JP4030147B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4839432B2 (ja) * 2003-12-17 2011-12-21 国立大学法人静岡大学 瞳孔位置検出によるポインティング装置及び方法
JP4577771B2 (ja) * 2005-02-15 2010-11-10 Kddi株式会社 顔画像認識装置
CN100343867C (zh) * 2005-06-15 2007-10-17 北京中星微电子有限公司 一种判别视线方向的方法和装置

Also Published As

Publication number Publication date
JPH10260772A (ja) 1998-09-29

Similar Documents

Publication Publication Date Title
US6345111B1 (en) Multi-modal interface apparatus and method
US10095033B2 (en) Multimodal interaction with near-to-eye display
JP3834766B2 (ja) マンマシーン・インターフェース・システム
JP4168940B2 (ja) 映像表示システム
US7844086B2 (en) Head pose assessment methods and systems
US8405712B2 (en) Gesture recognition apparatus and method thereof
JP5197777B2 (ja) インターフェイス装置、方法、およびプログラム
US7852356B2 (en) Magnified display apparatus and magnified image control apparatus
JP5649425B2 (ja) 映像検索装置
JP4267648B2 (ja) インターフェース装置及びその方法
KR20220144890A (ko) 다중 사용자 환경에서 손 제스처를 사용하여 디바이스를 제어하기 위한 방법 및 시스템
JP5662670B2 (ja) 画像処理装置、画像処理方法、及びプログラム
KR100692526B1 (ko) 시스템 자동제어용 제스처 인식 장치 및 그 방법
CN111527468A (zh) 一种隔空交互方法、装置和设备
JP2007163864A (ja) 表示制御装置、表示制御方法、表示制御プログラム、および表示制御プログラム記録媒体
JP2012238293A (ja) 入力装置
JP5077879B2 (ja) 視線入力装置、視線入力方法、及び、視線入力プログラム
CN111984124A (zh) 一种舞台灯光控台的操作方法、介质及舞台灯光控台
CN111626240A (zh) 一种人脸图像识别方法、装置、设备及可读存储介质
Khilari Iris tracking and blink detection for human-computer interaction using a low resolution webcam
JP4030147B2 (ja) オブジェクト操作装置及びオブジェクト操作方法
JP2000172163A (ja) 手動作分節方法および装置
US20230288984A1 (en) Display device and display method
CN113454634A (zh) 信息处理系统、信息处理装置、信息处理方法和程序
KR101824360B1 (ko) 얼굴 특징점 위치정보 생성 장치 및 방법

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040210

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070828

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071016

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101026

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111026

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111026

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121026

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131026

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees