JP4030147B2

JP4030147B2 - オブジェクト操作装置及びオブジェクト操作方法

Info

Publication number: JP4030147B2
Application number: JP6268197A
Authority: JP
Inventors: 修山口; 和広福井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-03-17
Filing date: 1997-03-17
Publication date: 2008-01-09
Anticipated expiration: 2017-03-17
Also published as: JPH10260772A

Description

【０００１】
【発明の属する技術分野】
本発明はオブジェクト操作装置およびその方法に関する。
【０００２】
【従来の技術】
近年、コンピュータ等のヒューマンインタフェースの高度化が重要とされ、より高度な入力デバイスを用いた、簡単かつ容易なインタフェースが発明されている。例えば、視線検出装置を用いたインタフェースとして、マウス、ペンなどのデバイスを用いないで、ウインドウの制御を行うものとして、（特開平４−２３０２７：ウインドウ選択方式）など関連した発明が多数提案されている。
従来から、視線情報を正確にとるための発明もある。
【０００３】
【発明が解決しようとする課題】
しかし、非接触な視線検出装置では、注視点と人間の状態（顔の向きや瞳の位置）を対応づけておくためのキャリブレーションが必要である。キャリブレーションは、特別に用意された規定の指標を見ることにより、注視点と瞳の位置との補正を行う。検出精度を高めるためには、かなりの時間と繰り返し動作を強要するものであるため、使用者の負担が大きかった。
【０００４】
また、注視点を得るために、近赤外線をあてる（特開昭６１−１７２５５２、特開平４−２３０２７）ものや、瞳の位置を正確に取出すためにステレオの装置を使う（伴野明，岸野文郎，小林幸雄：”瞳孔の抽出処理と頭部の動きを許容する視線検出装置の試作”，電子通信学会論文誌（Ｄ）Ｖｏｌ．Ｊ７６−Ｄ−ＩＩ，Ｎｏ．３，ｐｐ．６３６−６４６（１９９３））など、大掛かりな装置が必要であった。
【０００５】
本発明では、厳密な精度の視線方向を算出する視線検出方法を用いることなく、非接触な検出方法でオブジェクトを操作、選択することを可能にする。
本発明の装置において、最初は、従来通り他のデバイスを用いて、オブジェクトに対する作業を行う。作業中はオブジェクトを注視しているため、その作業中に人間の顔を撮影し、画像解析を行って特徴量を取得しておく。その特徴量を用いて認識用の辞書パターンを作成し、オブジェクトの操作内容と関連づけておく。別の時点で、オブジェクトを見ている場合に、同様に顔画像をしとくし、作成された辞書パターンを用いて認識を行い、以前にオブジェクトを操作していたときの顔画像に近い場合には、明示的にデバイスを用いずとも、自動的にそのオブジェクトを操作対象として選択することを実現する。
【０００６】
コンピュータのウインドウシステムを例とすると、最初はウインドウのフォーカスをマウスを用いて行い、そのウインドウで作業を行っている間に、その作業中の人間の顔画像を取得し、注視している方向の顔の特徴量を求める。その特徴量を用いて辞書パターンを作成された後は辞書パターンを用いて認識を行い、あるウインドウを見ていたときの顔画像に近い場合、そのウインドウに自動的にフォーカシングが行われることになる。
【０００７】
ここで、マウスを操作している場合には、人間は図１３のようにマウスカーソルを人物４４の目で追従するという、ビジュアルフィードバックを行っており、マウス４５のカーソルが表示部４６上において常に視線で追うことによって、マウスの位置を制御している。すなわち、マウスの移動操作中は自然に視線位置を取得することができる。この性質を利用すれば、従来法のように特別な指標を用意する必要はなく、指標を見せる形でのキャリブレーションは必要ない。
【０００８】
また、ウインドウのようにマウスカーソルにくらべ大きな面積を持つ対象を視線により識別する場合、１）ウインドウの操作中（キー入力など）はウインドウを注視する。２）視線検出の精度を必要としない。
【０００９】
これより、ウインドウの操作中に顔画像を取得し、その顔画像を用いて辞書パターンをつくればよい。各ウインドウ毎に、辞書パターンを作成しておき、認識時には、どの辞書に最も近いかを計算することで、ウインドウを選択することができ、視線検出と同様な効果が得られることとなる。
【００１０】
適宜辞書パターンを作成することにより、特別な指標を用いたキャリブレーションをあらかじめ行う必要がなくなる。またこれまでの利用形態を崩すことなく、作業をしていく過程で、より使いやすい環境、様式を自動的に獲得、利用できる。
【００１１】
【課題を解決するための手段】
以上の目的を達成するために、第１の発明は、画像入力部で撮影された人間の顔の画像の顔領域を検出して、顔領域に含まれる複数の特徴点の組み合わせからなる特徴量を抽出する顔画像処理部と、対象オブジェクトに関連したマウス、キーボード等のデバイスからのイベントが発生した際に前記特徴量を用いて辞書パターンを生成する辞書生成部と、新たに入力された顔画像から抽出された特徴量に最も近い前記辞書パターンを求め、当該最も近い辞書パターンに応じた当該対象オブジェクトの選択制御情報を生成する認識判断部と、その選択制御情報に従い当該オブジェクトを制御するためのオブジェクト制御部と
を備えるオブジェクト操作装置において、前記オブジェクト制御部は、対象オブジェクトに関連して、マウス、キーボード等のデバイスからのイベントが発生した場合には、前記選択制御情報に応じた当該対象オブジェクトの制御に優先して、当該マウス、キーボード等のデバイスからのイベントに対する処理を行なうことを特徴とするオブジェクト操作装置を提供する。
【００１２】
また第１の発明において、前記対象オブジェクトは、ウィンドウ表示手段に表示されたウィンドウであって、前記対象オブジェクトの選択制御情報は、前記ウィンドウ表示手段に表示された複数のウィンドウの中から操作対象となるウィンドウを選択するための制御情報であることを特徴とする。
【００１３】
また第１の発明において、前記オブジェクト制御部は、前記ウィンドウ表示手段に表示されたマウスカーソルがウィンドウの内部に移動されることにより、複数のウィンドウの中から当該ウィンドウを操作対象とするよう当該ウィンドウを制御する。
【００１４】
本願の第２の発明は、撮影された人間の顔の画像の顔領域を検出して、顔領域に含まれる複数の特徴点の組み合わせからなる特徴量を抽出する顔画像処理手段と、対象オブジェクトに関連したマウス、キーボード等のデバイスからのイベントが発生した際に前記特徴量を用いて辞書パターンを生成する辞書生成部と、新たに入力された顔画像から抽出された特徴量に最も近い前記辞書パターンを求め、当該最も近い辞書パターンに応じた当該対象オブジェクトの選択制御情報を生成する認識判断手段と、その選択制御情報に従い当該オブジェクトを制御するためのオブジェクト制御手段とを備えるオブジェクト操作装置が行うオブジェクト操作方法において、前記オブジェクト制御手段は、対象オブジェクトに関連して、マウス、キーボード等のデバイスからのイベントが発生した場合には、前記選択制御情報に応じた当該対象オブジェクトの制御に優先して、当該マウス、キーボード等のデバイスからのイベントに対する処理を行なうことを特徴とするオブジェクト操作方法を提供する。
【００１５】
また第２の発明において、前記対象オブジェクトは、ウィンドウ表示手段に表示されたウィンドウであって、前記対象オブジェクトの選択制御情報は、前記ウィンドウ表示手段に表示された複数のウィンドウの中から操作対象となるウィンドウを選択するための制御情報であることを特徴とする。
【００１６】
また第２の発明において、前記オブジェクト制御手段は、前記ウィンドウ表示手段に表示されたマウスカーソルがウィンドウの内部に移動されることにより、複数のウィンドウの中から当該ウィンドウを操作対象とするよう当該ウィンドウを制御することを特徴とする。
【００１７】
【発明の実施の形態】
以下に本発明の一実施例について説明する。本発明による装置１を図１に示す。装置は画像入力部２、顔画像処理部３、認識判断部４、オブジェクト制御部５の４つの部分からなる。
【００１８】
［画像入力部］
画像入力部２は、人間の顔を撮影するための装置で、通常のＴＶカメラを一つ用いて画像の取得を行う。入力は白黒の画像でよいが、カラー入力の場合は白黒に変換して、顔画像処理部３に送られる。
【００１９】
本実施例では、白黒の画像で処理を行うが、顔画像処理部３で色情報などが必要な場合は、カラー画像を出力しても良い。また、画像入力部２には、複数のカメラがあっても良いし、カメラも固定入力カメラだけでなく、ピント（フォーカス）、絞り、ズームなどが制御可能なカメラを用いても良い。カメラの撮影方向を可変にするためのパン、チルト方向に回転可能なカメラを用いてもよい。
【００２０】
［顔画像処理部］
顔画像処理部３の一構成例を、図２に示す。本実施例での顔画像処理部６は、顔検出部７、顔部品検出部８、部分画像生成部９からなる。
【００２１】
顔検出部７では、入力された画像に対し、アフィン変換（平行移動、拡大縮小、回転）、クロッピング（切り出し）を行い、規定の大きさの部分画像を生成する。具体的には、入力画像を数段階で縮小し、それぞれの縮小画像で、ラスタスキャンを行う要領である大きさ（Ｎｐｉｘｅｌ×Ｎｐｉｘｅｌ）の画像を切り出す（図１０参照）。切り出された部分画像に対して、あらかじめ用意された顔画像の辞書パターンとの類似度を計算する。ここでは部分空間法を用いて、類似度を算出する。
【００２２】
部分空間法は集められたサンプルをＫ−Ｌ展開（主成分分析）し、その正規直交基底（固有ベクトル）を求め、これを辞書パターンとする。テストパターンをそれぞれカテゴリの辞書パターン（固有ベクトル）との内積の総和を求め、これを類似度とする。このときテストパターンは最も高い類似度をもつカテゴリに属するとするものである。
固有ベクトルφ＝（φ_i ，…，φ_m ）を用いて、部分画像Ｇとの類似度ｓを求める。
【００２３】
【数１】

【００２４】
切り出した画像の中で、最も高い類似度をもつ解像度、位置を見つけ、顔が存在すると定める（図１０中央下参照）。
顔部品検出部８は、検出された顔領域の中から、目、鼻、口といった顔部品の検出を行う。本実施例では、顔部品である目（瞳孔）、鼻（鼻孔）を検出する。
【００２５】
これらの特徴的な部分を抽出する方法として、図１１（ａ）の顔画像に対して、図１１（ｂ）に示すように、まず、目鼻の候補として、丸領域の形状をした分離度マスク（山口修、福井和広、”分離度特徴を用いた顔画像解析−目瞳の検出−”、情報処理学会第５２回全国大会（２）−ｐｐ．１８７−１８８，１９９６．）を用いて丸領域の検出を行う。なお特徴点抽出の方法は従来法を用いてよいし、方法を問わない。複数の丸領域から、４つの領域の組合せにより、目鼻候補として考えた場合に、もっとも顔らしいと判定された４点を目鼻候補を特定する。この顔らしさの判定は、あらかじめ用意した顔モデルとの比較により検証する。顔モデルは、濃淡情報を用いたもの、バネモデルによる構造特徴量など、従来から提案されている方法を用いればよい。
【００２６】
部分画像生成部９は、検出された顔部品の位置（特徴点）を基準として、図１１（ｅ）のように、顔領域の切り出しを行う。特徴点として選ばれた４点に基づいて、領域を画像中から再量子化し、規定の大きさの小画像（正規化画像）を生成する。ここでの正規化のサイズは、１５×１５ピクセルの大きさとして、図に示すように、目鼻の特徴点から２つのベクトル（図１１（ｄ））を設定する。そのベクトルの線形和の位置の濃淡値を、切り出した後の画像の濃淡値とする（図１１（ｅ））。なお、この切り出しの大きさ（１５×１５ピクセル）は、これに限らない。また、切り出す部分に関してもこれに制限されない。
【００２７】
顔部品の位置を用いて上述したように切り出しを行う場合、顔の向き、瞳の位置の違いにより、図１２のように異なる特徴量となる。図１２（ａ）は上、図１２（ｂ）は下、図１２（ｃ）は右、図１２（ｄ）は左を見ていた場合の濃淡値の模式図であり、この濃淡値をそのまま特徴量として利用する。これにより、視線を直接には求めないで、顔の向きなどの特徴量を利用できる。
【００２８】
図１２のような濃淡の特徴量を識別することによって、顔の向きの違いから、１７インチディスプレイ程度の大きさの画面を９分割程度で見分けることができる。しかし、これにはあらかじめキャリブレーションが必要となる。すなわち対応する分割画面を見ている間の顔の特徴量を取得しておき、辞書をあらかじめ生成しておく必要がある。これを用いて簡単なメニュー選択なども可能である。
【００２９】
［オブジェクト制御部］
オブジェクト制御部５は、図４に示されているようにオブジェクト状態管理部１５、イベント管理部１６、オブジェクト状態変更部１７から構成される。
【００３０】
オブジェクト状態管理部１５は、オブジェクトの生成、管理、削除などオブジェクトに関する状態情報を管理する。
イベント管理部１６は、オブジェクトを操作するために、用意されたデバイスなどの情報や、オブジェクトに対して行われる処理、またオブジェクトが行う処理から発生するすべてのイベント情報を処理、管理する。なお、イベントとは、システムにおける、オブジェクトの操作情報、操作内容などをあらわし、操作の最小単位を指す。
【００３１】
オブジェクト状態変更部１７は、各オブジェクトの状態を変更し、オブジェクトの表示などに関しての制御、処理を行う。
本実施例では、コンピュータのウインドウシステムにおける、ウインドウマネージャを例に具体的に説明を行うため、図５のように、オブジェクト制御部１８をウインドウ制御部（ウインドウマネージャ）とし、オブジェクト状態管理部をウインドウ管理部１９、オブジェクト状態変更部をウインドウ表示変更部２１とする。
【００３２】
［ウインドウ制御部］
ウインドウ制御部１８は、通常のウインドウシステムにおけるウインドウマネージャと同等の機能であるが、次の３つのウインドウ管理部１９、イベント管理部２０、画面表示変更部２１からなるとして説明する。
【００３３】
＜ウインドウ管理部＞
ウインドウ管理部１９は、表示されているウインドウの位置、大きさなどの属性情報、ウインドウ同士の重なり方を管理する。それぞれのウインドウは、新たに生成された時点で、そのウインドウの大きさ（ｗ，ｈ）、位置（ｘ，ｙ）、名称（ｎａｍｅ）、ＩＤ番号（ｉｄｎｕｍｂｅｒ）を次のような
（（ｘ，ｙ），（ｗ，ｈ），（ｎａｍｅ），（ｉｄｎｕｍｂｅｒ））
というタップルとして、登録する。
【００３４】
ウインドウ同士の重なりあいを検出するために各ウインドウの（ｘ，ｙ），（ｗ，ｈ）を用い、どのウインドウがどの別のウインドウに重なっているのかを計算し保持する。
【００３５】
＜イベント管理部＞
イベントとは、ウインドウシステムにおける、マウスの移動、ボタン操作、ウインドウ操作、キー入力など操作の最小単位を指す。
【００３６】
イベントは、
（イベントのタイプ、イベントの起ったオブジェクト（ウインドウ）ＩＤ、イベントの値（量））
の組みとして表現される。
【００３７】
イベント管理部２０は、マウス、キーボードといったデバイスからのイベントに対する処理、また、イベントが起った際に画面表示の変更の指示なども行う。
例えばユーザからのキーボードの入力があると、ウインドウシステムからのイベントが発生し、イベント管理部２０にそのイベントが送られる。イベントをどのウインドウに送るのかは、このイベント管理部２０で処理する。すなわち、ウインドウが選択対象となっているか（フォーカスと呼ぶ）を管理している。
【００３８】
＜画面表示変更部＞
画面表示変更部２１では、ウインドウの表示、ウインドウ内の画像、文字、図形などの描画、マウスカーソルの移動など、画面表示を変更する場合など、イベントが起った場合にウインドウの表示を変更する。
【００３９】
例えば、マウスの移動によりフォーカスが移動した場合、フォーカスが変更したことをウインドウの枠の色を変化させる。ウインドウを移動した場合、移動を指定された位置に持っていくなどである。
【００４０】
［認識判断部］
次に、図１の認識判断部４について説明する。図３にその構成を示す。
認識判断部１０は、辞書生成部１２、認識部１１、判断制御部１３からなる。
【００４１】
辞書生成部１２では、顔画像処理部３で生成された特徴量を用いて、認識用の辞書パターンを生成する。ここでは、切り出しが行われた複数枚の顔の部分画像を用いて認識用の辞書パターンを生成する。辞書生成部１２は、判断制御部１３からの指示により、図６のような処理を行う。まず、次の判断制御部からの指示がくるまでの間、画像の収集を行う（ステップ２２）。そして、ある定数の画像が収集された場合に、それらの画像からの分散共分散行列を構成する（ステップ２３）。その行列をＫ−Ｌ展開することにより、行列の固有値、固有ベクトルを計算する（ステップ２４）。これは具体的にはｙａｃｏｂｉ法やＬＵ分解などの行列計算を行えばよい。次に固有値の大きい順に、対応する固有ベクトルを並び替えて、上位いくつかの固有ベクトルのみを取出し、それを辞書パターンとして登録する（ステップ２５）。辞書パターンは複数個もつことができ、任意に削除することもできる。
【００４２】
＜認識部＞
認識部１１は、辞書生成部１２によってつくられた辞書パターンを用いて、別に切り出された画像が、どの辞書パターンにもっとも近いのかを求める。
類似度は、先に説明した部分空間法を用いて、ｉ番目の辞書パターン（固有ベクトル）φ_i により、部分画像の類似度ｓ_i を求める。
【００４３】
【数２】

【００４４】
このとき、すべてのｓ_i について、最も大きなｓ_i をもつ辞書パターンのカテゴリに分類される。
＜判断制御部＞
判断制御部１３では、
１）オブジェクト制御部５からの情報受け取り、２）認識、辞書生成の制御、３）オブジェクト制御部５への指示
を行う。判断制御部１３の一実施例として、図７のようにイベント調停部２９、イベント検証部２７、イベント生成部２８からなる。
【００４５】
イベント調停部２９は、オブジェクト制御部５からイベントを受け取り、関係のあるイベントがどうかを判断し、各イベント検証部２７、イベント生成部２８、にイベントを振り分ける。ここでは、ウインドウを注視しているかどうかに関連するイベントのみを選択するように、イベントのタイプとイベントの起ったウインドウＩＤのチェックを行う。すなわち（ｔｙｐｅ，ｗｉｎＩＤ，ｖａｌｕｅ）で表現されたイベントのｔｙｐｅ，ｗｉｎＩＤを用いて取捨選択する。
【００４６】
イベント検証部２７は、図８でしめすようなフローチャートで動作する。まず、オブジェクト制御部（ウインドウ制御部）からイベントの情報を受け取る（ステップ３０）。イベントがあった場合（ステップ３１）、そのイベントが起こったウインドウのＩＤを確かめる。もし、対象としているウインドウＩＤからのイベントである場合（ステップ３２）、辞書生成部に辞書生成のための画像収集を指示する（ステップ３３）。
【００４７】
また、ウインドウの移動／削除などウインドウ自身の位置情報などが変更された場合は、認識部に対して辞書パターンの削除を指示する。イベント生成部は、図９で示すようなフローチャートで動作する。オブジェクト制御部からイベントの情報を受け取る（ステップ３７）。受け取ったイベントがフォーカスイベントである場合には（ステップ３９）、マウスによるフォーカシングが行なわれる（４０）。一方、受け取ったイベントがマウスイベントでない場合には（ステップ３８）、認識部からの認識結果を受け取り（ステップ４２）、あるウインドウを注視している場合にはそのウィンドウへフォーカスを変更する等の関連づけされたイベントを生成し、オブジェクト制御部に送る（ステップ４３）。
【００４８】
これら各部の動きを実施例にそって動作を説明する。
◆実施例１（ウインドウマネージャ）
本実施例は、パソコン、ワークステーションなどで画面による入力（ＧＵＩ）を備えたウインドウシステムに適用した例を説明する。
【００４９】
ウインドウフォーカスの選択（フォーカシング）を例とする。ウインドウフォーカスとは、複数のウインドウの中から、キーボードによる入力など、操作対象とするウインドウを選択することを指す。
【００５０】
従来のウインドウシステムでは、ウインドウフォーカスを行うためには、図１４（ｃ）（ｄ）のように２つのウインドウが存在する場合は、それぞれのウインドウ内にマウスを移動させ、マウスカーソルをウインドウの内部に持ってくることによって、そのウインドウを操作対象とするフォーカシングができる。
【００５１】
本実施例では、最初は従来通り、ウインドウのフォーカスをマウスを用いて行い、そのウインドウで作業を行っている間に、その作業中の人間の顔画像を取得する。辞書パターンが作成された後は、それらの辞書パターンを用いて認識を行い、あるウインドウを見ていたときの顔画像に近い場合、そのウインドウにフォーカシングを行うことを実現する。
【００５２】
パソコンやワークステーションのディスプレイ（表示装置）付近に取りつけられたカメラを入力として、人間の顔の画像を取得する。本実施例では、ディスプレイの下側付近に取りつけ、見上げる角度に設置し、顔をとらえる。
【００５３】
図１４（ａ）のように、一つのウインドウが存在する状態から説明する。図１４（ｂ）のように新しいウインドウを作成する。その後、ウインドウは図１４（ｃ）のようにマウスによってフォーカシングされる。
【００５４】
図１５は、ウインドウの状態遷移図を表す。楕円で表されたものノードが各状態を示し、アークには操作内容を示すイベントのタイプを表している。
ｎｅｗは新規ウインドウの生成、ｋｅｙｐｕｓｈ、ｋｅｙｒｅｌｅａｓｅはキーボードからの入力、ｍｏｕｓｅｍｏｖｅはマウスの移動、ｉｃｏｎｉｆｙＤｅｉｃｏｎｉｆｙは、ウインドウのアイコン化、ウインドウ化の指示を表す。
【００５５】
例えば（ｍｏｕｓｅｍｏｖｅ，１２３，（ｘ，ｙ））という場合はウインドウＩＤ１２３でマウスが（ｘ，ｙ）の位置に移動したことを表す。
図１４（ｂ）から図１４（ｃ）への変化は、「ウインドウ生成」の後「フォーカス状態」に遷移することになる。ウインドウが生成された時点で、ウインドウ管理部は、新しいウインドウの（ＩＤ、位置、大きさ、名称）を登録する。そして、認識判断部の判断制御部にそのウインドウのＩＤを送る。
【００５６】
「フォーカス状態」と「キー入力状態」を遷移している場合、すなわち、フォーカスしたウインドウで作業を行っているときに、認識判断部の判断制御部は、辞書生成部に対し、辞書パターンを生成するための画像収集を指示する。なお、キー入力の場合は、キーが押された瞬間だけではなく、連続してキーが押されている時間についてすべて、画像収集を行う。
【００５７】
辞書生成部は、ウインドウＩＤに対して、収集枚数がある定数に達した場合に、辞書生成を図６の要領で行う。辞書パターンが生成された場合、辞書生成部は、判断制御部に辞書パターンの情報（辞書とウインドウＩＤの組）を伝える。
【００５８】
判断制御部は認識部に対して、辞書パターンの更新情報を送り認識部は、辞書生成部から新たな辞書パターンを受け取る。なお認識部は、辞書パターンで認識した結果、ウインドウＩＤを判断部に送出することになる。
【００５９】
この例では、ウインドウは２つ存在するため、２つのウインドウそれぞれに対して認識用の辞書を生成すればよい。
判断制御部は、ウインドウ制御部からのイベント情報を受け取り、マウスの移動、ボタンなどがあるかどうかを検知する。マウスに関するイベントが発生していない場合、認識部からの認識結果（ウインドウＩＤ）を用いて、マウスを動かしたことと同様に、フォーカスをそのＩＤのウインドウにあわせるように、イベントを発生し、ウインドウ制御部に送る。
【００６０】
これにより、通常図１４（ｅ）のように、マウスによるフォーカシングだけでなく、図１４（ｆ）のようにマウスがウインドウ内に、入ってなくともフォーカシングでき、つづけてキー入力ができるようになる。
【００６１】
ウインドウ制御部は、フォーカスをあわせたウインドウにフォーカスが変更されたことを画面表示するために、画面表示変更部に指示し、フォーカスをそのウインドウに会わせる。
【００６２】
次にウインドウを移動／削除した場合について述べる。
これまでは、見ている方向にウインドウがある場合に、そのウインドウにフォーカスを与えることについて述べた。マウス操作により、ウインドウを移動／削除させた場合、それまでフォーカシングに使用していた辞書パターンは使えなくなり、辞書パターンを更新する必要がある。
【００６３】
まず、マウス操作によるウインドウの移動／削除の制御が行われた場合、イベント管理部において、ウインドウ移動／削除が検知される。イベント管理部は、判断制御部に対してどのウインドウが移動／削除されたかを判断部に知らせる。判断制御部は認識部に対し、そのウインドウの識別に利用していた辞書パターンを削除するように指示する。さらに判断制御部はそのウインドウＩＤに対してのマウスによるフォーカシングなどのイベントが発生した場合には、辞書生成部に新たな辞書パターンを生成するように画像収集の指示を与える。
【００６４】
また、ウインドウがアイコン化された場合について述べる。アイコン化された場合、認識部では、そのウインドウについての類似度を求めることをやめるよう判断制御部から指示を送る。これにより、アイコン化されたウインドウにフォーカスが与えられなくなる。また、アイコン化されたウインドウをもとのウインドウに戻した場合には、再びその辞書を認識部に組み入れ、認識を行う。
【００６５】
◆実施例２（視線検出）
先に説明したように、図１２のような濃淡の特徴量を識別することによって、顔の向きの違いから、ディスプレイの画面を９分割程度で見分けることができる。この場合、キャリブレーションが必要である。すなわち対応する分割画面を見ている間の顔の特徴量を取得しておき、辞書をあらかじめ生成しておく必要がある。
【００６６】
しかし、本発明を用いることにより、従来と異なり、能動的にマウスを用いた次のようなキャリブレーション法が実現できる。
図１６で示すように、９分割の画面があり、マウスを移動することができるようになっている。マウスを移動したときにそのマウスを見ていると図１６（ａ）から図１６（ｂ）のように色が変化するようにする。これは、マウスの位置によって色が変化するのではなく、その分割位置を見ているときの人間の顔の撮影画像の枚数に応じて色が濃く変化するようにする。次に図１６（ｃ）のようにマウスを動かした場合、右上の色の変化は止まり、中央上の部分を見ている時の撮影画像の枚数に応じて色が変化する。時間が経過すると図１６（ｄ）に変化し、先の右上よりも多くの枚数を取得したことになる。図１６（ｅ）のように、これをすべての分割位置について逐次行って、図１６（ｆ）の状態になったとき、それぞれの顔の特徴量を収集し終わったことになる。
【００６７】
実現のためには、９分割のそれぞれ部分にウインドウを割り当て、マウスのおかれたウインドウについて、実施例１で述べたように、辞書の生成を行う。この際、辞書の生成に使用される画像の取得枚数に応じてウインドウの色を変更するように、ウインドウ制御部に指示を出す。すべてのウインドウの色が変化したとき、すべてのウインドウで辞書生成が終わったことになり、人間も知覚しやすいというメリットもある。
【００６８】
作成された辞書を用いて認識を行い、簡単なメニュー選択や、従来の視線検出のアプリケーションに応用できる。
なお、もちろん従来のような、システム側から提示する形態のキャリブレーションを行ってもよい。
【００６９】
◆実施例３（リモコン）
家電製品を例として、テレビのリモコンによるチャンネルの選択への適用を考える。チャンネルを替える操作をリモコンで行う場合に、図１７のような、画面とは別の場所（Ａ，Ｂ，Ｃ，Ｄ）などの別の方向を見ながらリモコン操作でチャンネルを替える。これが先の実施例のイベントに対応する。
【００７０】
テレビに画像入力部を設置し、テレビを見ている人の顔画像を取得する。顔画像処理部では同様の処理を行う。判断制御部では、ある方向を見ながら行ったチャンネルの選択内容とを関連づけ、辞書が生成された後は、その方向を見るだけで、チャンネルの変更されるということを可能にする。オブジェクト制御部についてはチャンネルの変更手段が必要となる。
【００７１】
この場合、オブジェクトの位置（テレビの位置）は変化しないが、人間の位置が変化することが起る。この場合に、辞書を更新して対応する方法と、人間の位置をイベントの種類としてとらえて、それぞれの人間の位置に関して辞書を生成する方法などで対処できる。
【００７２】
◆実施例４（他メディアのサポート）
音声認識のデバイスを加えた例として、音声認識を用いて、家電製品や社会システムを制御する場合を考える。音声認識を用いたシステムの場合、音声認識のみを用いたシステムでは、誤認識する場合が多い。これは、使用者がその指令を送る状態にあるかどうかによって変化するものであり、システムに設置されたマイクの指向性なども要因となり、認識率が低下する。
【００７３】
唇の形状を認識に加える例などもあるが、それを取得する場合にも顔の向きは重要である、ここでは、音声登録時の別の種類の情報（顔の情報）の状態情報で補完する例を示す。
【００７４】
最初のアクセス時（登録時）に、登録する使用者の顔の特徴量を獲得しておいて辞書登録する。登録する語が複数ある場合、それぞれをイベントとして扱えば、複数の顔の状態情報が登録できる。
【００７５】
そして、音声認識を用いて認識を行う場合に、音声認識の結果が悪い場合でも、どの言葉を発生した顔の特徴量に近いかを併用して考えることにより、より確実な認識が可能になる。
【００７６】
変形例について述べる。
実施例１、２では主としてウインドウを例に説明したものがあるが、ウインドウはオブジェクトとし、対象とするイベント内容についても実施例３、４のように変更してもよい。すなわち、コンピュータだけではなく、家庭の家電製品や、自動車内、社会システムなどに応用してもよい。
【００７７】
判断制御部において、従来におけるマウスのようなデバイスを用いたイベント生成と本発明で述べた顔の向きによるイベント生成は、実施例では、マウスによるデバイスを用いたイベント生成を優先しているが、その優先度を逆にしてもよい。
【００７８】
認識部では一定時間、数回の認識を行って、もっとも識別回数の多かった辞書のカテゴリを認識結果としてもよい。
ウインドウシステム上で、キー入力を行っている場合について考えると、キーボードを見ている場合や、別のウインドウに注視してしまった場合も発生する。これを防ぐ場合には、過去の認識の情報を蓄えておき、注視点と特徴量の関係を求めておく機構を設けてもよい。これから概略の向き（キーボードを見ているか、収集対象となっているウインドウ以外をみているかなど）を判定し、外れているものは、収集対象からはずすことにより、辞書の精度を向上させることができる。
【００７９】
ウインドウアプリケーションにおいて、エディタのようなキー入力が多い場合、カーソルの位置が頻繁に変わることも考えられる。その場合は、ウインドウの移動に関わらず、辞書の更新を逐次行っても良い。また、アプリケーション毎にこの制御を変更してもよい。
【００８０】
顔画像処理部において、上述した実施例では、顔の目、鼻を含む矩形部分の濃淡値を特徴量として用いたが、目の位置も解析して得ているため、目付近だけを同様に濃淡値集合として取出して、瞳の位置変動も考慮にいれて、辞書を生成してもよい。
【００８１】
さらにより精度が必要な場合は、従来の視線検出装置と置換、併用なども行っても良い。
オブジェクト制御部については、さまざまなシステムと置換することができ、顔の向きによるインタフェース機能を、容易に機能拡張変更ができる。
【００８２】
【発明の効果】
本発明によれば、マウスなどの従来のデバイスを用いて制御していたオブジェクトの制御を、逐次的に学習を行って、顔の向き、視線方向などの情報を用いてオブジェクトの状態を変更、操作することができる。
【００８３】
また、従来の視線検出のような、あらかじめキャリブレーションを行う必要がなく、マウスを使わなくとも制御が可能となる。これにより、被験者が特別なキャリブレーションを習得しなくとも、作業の無駄を省き、効率的な作業が可能にできる。
【図面の簡単な説明】
【図１】システムの構成
【図２】顔画像処理部の一実施例
【図３】認識判断部の一実施例
【図４】オブジェクト制御部の一実施例
【図５】ウインドウ制御部の一実施例
【図６】辞書生成のフローチャート
【図７】判断制御部の一構成例
【図８】イベント検証部のフローチャート
【図９】イベント生成部のフローチャート
【図１０】顔検出の説明図
【図１１】特徴点検出と切り出しの方法
【図１２】顔向きと顔特徴量の説明図
【図１３】マウスの使用時の状態の説明図
【図１４】ウインドウフォーカスの説明図
【図１５】ウインドウ状態の状態遷移図
【図１６】キャリブレーションの方法
【図１７】テレビにおける実施例の説明図
【符号の説明】
１…オブジェクト操作装置
２…画像入力部
３…顔画像処理部
４…認識判断部
５…オブジェクト制御部

Claims

画像入力部で撮影された人間の顔の画像の顔領域を検出して、顔領域に含まれる複数の特徴点の組み合わせからなる特徴量を抽出する顔画像処理部と、
対象オブジェクトに関連したマウス、キーボード等のデバイスからのイベントが発生した際に前記特徴量を用いて辞書パターンを生成する辞書生成部と、
新たに入力された顔画像から抽出された特徴量に最も近い前記辞書パターンを求め、当該最も近い辞書パターンに応じた当該対象オブジェクトの選択制御情報を生成する認識判断部と、
その選択制御情報に従い当該オブジェクトを制御するためのオブジェクト制御部と
を備えるオブジェクト操作装置において、
前記オブジェクト制御部は、対象オブジェクトに関連して、マウス、キーボード等のデバイスからのイベントが発生した場合には、前記選択制御情報に応じた当該対象オブジェクトの制御に優先して、当該マウス、キーボード等のデバイスからのイベントに対する処理を行なうことを特徴とするオブジェクト操作装置。
前記対象オブジェクトは、ウィンドウ表示手段に表示されたウィンドウであって、
前記対象オブジェクトの選択制御情報は、前記ウィンドウ表示手段に表示された複数のウィンドウの中から操作対象となるウィンドウを選択するための制御情報である
ことを特徴とする請求項１記載のオブジェクト操作装置。
前記オブジェクト制御部は、前記ウィンドウ表示手段に表示されたマウスカーソルがウィンドウの内部に移動されることにより、複数のウィンドウの中から当該ウィンドウを操作対象とするよう当該ウィンドウを制御することを特徴とする請求項２記載のオブジェクト操作装置。
撮影された人間の顔の画像の顔領域を検出して、顔領域に含まれる複数の特徴点の組み合わせからなる特徴量を抽出する顔画像処理手段と、
対象オブジェクトに関連したマウス、キーボード等のデバイスからのイベントが発生した際に前記特徴量を用いて辞書パターンを生成する辞書生成部と、
新たに入力された顔画像から抽出された特徴量に最も近い前記辞書パターンを求め、当該最も近い辞書パターンに応じた当該対象オブジェクトの選択制御情報を生成する認識判断手段と、
その選択制御情報に従い当該オブジェクトを制御するためのオブジェクト制御手段と
を備えるオブジェクト操作装置が行うオブジェクト操作方法において、
前記オブジェクト制御手段は、対象オブジェクトに関連して、マウス、キーボード等のデバイスからのイベントが発生した場合には、前記選択制御情報に応じた当該対象オブジェクトの制御に優先して、当該マウス、キーボード等のデバイスからのイベントに対する処理を行なうことを特徴とするオブジェクト操作方法。
前記対象オブジェクトは、ウィンドウ表示手段に表示されたウィンドウであって、
前記対象オブジェクトの選択制御情報は、前記ウィンドウ表示手段に表示された複数のウィンドウの中から操作対象となるウィンドウを選択するための制御情報である
ことを特徴とする請求項４記載のオブジェクト操作方法。
前記オブジェクト制御手段は、前記ウィンドウ表示手段に表示されたマウスカーソルがウィンドウの内部に移動されることにより、複数のウィンドウの中から当該ウィンドウを操作対象とするよう当該ウィンドウを制御することを特徴とする請求項５記載のオブジェクト操作方法。