JP2006146479A

JP2006146479A - 入力装置

Info

Publication number: JP2006146479A
Application number: JP2004334315A
Authority: JP
Inventors: Yasuhiro Fukui; 康裕福井; Ayako Kato; 綾子加藤; Kenji Machida; 健治町田
Original assignee: Individual
Current assignee: Individual
Priority date: 2004-11-18
Filing date: 2004-11-18
Publication date: 2006-06-08

Abstract

【課題】人体部位の動作をコンピュータに対する操作命令に対応付け、その人体部位の動作によってコンピュータの操作を可能とした入力装置において、実用に充分な精度を確保することができる入力装置を提供することである。
【解決手段】コンピュータに対する操作命令を入力する入力装置において、前記操作命令を入力する使用者を撮像するカメラと、前記カメラで撮像した画像データの特徴画像の動作を判別する判別手段と、前記判別手段で判別した動作に基づいて定まる前記コンピュータに対する操作命令を、前記コンピュータに引き渡す操作命令引渡手段とを備えた。
【選択図】図２

Description

本発明は入力装置に関し、詳しくはカメラで撮影した画像の変化に応じたコンピュータの操作を可能とした入力装置に関する。

いわゆるパソコンのようなコンピュータを操作しようとしたときにそのコンピュータの使用者が操作命令を入力する入力装置としては、キーボード、マウス、タブレット等がよく知られている。これらの従来の入力装置では、その操作命令の入力に当って指先などをある程度使わなければ入力を行うことができない。

このため、様々な理由で手に何らかの障害があるような場合、コンピュータの操作が非常に困難で、操作できない場合さえもあった。しかしながら、最近ではインターネットの発達にも伴い情報収集など様々な用途にコンピュータが用いられており、健常者も障害者も変わることなくコンピュータを利用できることが望ましい。

そこで特許文献１に記載の「マンマシン・インターフェース」では、使用者の顔画像等を撮像するカメラを設け、このカメラで撮像した画像の動きすなわち顔等の人体部位の動作に応じてコンピュータに対して操作命令を与えられるようにしている。

特開平８−３１５１１８号公報

ところが上述した特許文献１に記載の発明では、撮像した画像において人体部位があらかじめ定めた動作をしたことを判別し、その動作に対応付けたコンピュータ操作をコンピュータにて実行することが提案されているものの、その人体部位の動作の判別方法についての具体的な開示はされておらず、その実施に当っては実用に充分な判別精度を得られず、誤判別のおそれが大きく、使用者の意思どおりにコンピュータを操作することができないという問題があった。

本発明は上記の点にかんがみてなされたもので、人体部位の動作をコンピュータに対する操作命令に対応付け、その人体部位の動作によってコンピュータの操作を可能とした入力装置において、実用に充分な精度を確保することができる入力装置を提供することを目的とする。

本発明は上記の目的を達成するために、コンピュータに対する操作命令を入力する入力装置において、前記操作命令を入力する使用者を撮像するカメラと、前記カメラで撮像した画像データの特徴画像の動作を判別する判別手段と、前記判別手段で判別した動作に基づいて定まる前記コンピュータに対する操作命令を、前記コンピュータに引き渡す操作命令引渡手段とを備えた。

また本発明は請求項１に記載の発明において、前記判別手段がニューラルネットワークによって特徴画像の動作を判別することを特徴とする。

また本発明は請求項２に記載の発明において、前記ニューラルネットワークが自己組織化マップであることを特徴とする請求項２に記載の入力装置。

本発明によれば、人体部位の動作をコンピュータに対する操作命令に対応付け、その人体部位の動作によってコンピュータの操作を可能とした入力装置において、実用に充分な精度を確保することができる入力装置を提供することができる。

以下、本発明の実施の形態を図面を参照して説明する。

図１は、本発明による入力装置の一実施の形態を備えたコンピュータシステムの構成を示すブロック図である。

本実施の形態の入力装置１は、使用者５の動作の判別処理を行うとともに使用者５が操作する対象であってたとえば一般にパーソナルコンピュータ（ＰＣ）と呼ばれるコンピュータ２と、コンピュータ２からの映像信号により映像表示するディスプレイ装置３と、使用者５の動作を撮像してその撮像信号をコンピュータ２に対して出力するカメラ４とを備えたコンピュータシステムに包含され、少なくともカメラ４と使用者５の動作の判別処理を行うコンピュータ２とを有して構成される。

カメラ４としては、コンピュータ２にＵＳＢ接続されるような安価な小型カメラを用いることができる。また、コンピュータ２に内蔵された、コンピュータ２と一体型のカメラを用いてもよい。カメラ４とコンピュータ２とのインターフェイスとしては、有線のＵＳＢ接続のほかに、無線のＵＳＢ接続、ＩＥＥＥ１３９４接続、ＰＣ接続などが可能であり、どのような接続形態であってもかまわない。

本実施の形態では、コンピュータ２に対する操作命令のそれぞれ（たとえば、カーソルの移動、仮想キーボードの起動および表示、仮想キーボードによる文字等の入力、マウスのクリック動作）に対応付けた使用者５の動作（たとえば、目の開閉、凝視方向の変更、口の開閉、発音（ただし、音声を発する必要はなく、口の形状を様々に変えればよい））を、あらかじめコンピュータ２に登録しておき、使用者５がコンピュータ２を操作する際には、使用者５は自身の動作がカメラによって撮像されるように自身とカメラ４との位置調整を行い、所望の操作命令にあらかじめ対応付けた動作を行う。この動作の画像をカメラ４によって得たコンピュータ２では、その動作画像（その動作時の顔の形状、目の形状、口の形状等）を判別し、その動作に対応付けられた操作命令を実行する。

図２は、図１に示した入力装置１の機能構成を示す機能ブロック図である。

画像入力部４１では、使用者５をカメラ４によって撮像して撮像信号を得て、この撮像信号に基づいて撮像した画像の画素ごとのたとえば輝度値から成る画像データを得て、この画像データを、コンピュータ２でソフトウェアプログラムを実行して実現される画像判別部２１に引き渡す。

画像判別部２１は、カメラ４によって撮像された入力画像（後述する入力層のニューロンに相当）がどのような動作の画像であるかを判別するための基準画像（テンプレート、後述する出力層のニューロンに相当）を記憶する画像データベース２２と、入力画像が画像データベース２２の複数の基準画像のうちのどれに分類されるものであったかの情報（たとえば基準画像のＩＤ）をバッファリングするバッファ２３とを有し、基準画像を作成する処理（後述の学習処理）および入力画像が複数の基準画像のうちのいずれに分類されるものであるかを求める処理（後述の分類検索処理）を行う。これが、カメラで撮像した画像データの特徴画像の動作を判別する判別手段である。

画像データベース２２に記憶された複数の基準画像のそれぞれ（使用者５の動作のそれぞれ）（状態遷移パタン２５）は、ＰＣ操作変換部２４において、コンピュータ２に対する操作命令のそれぞれ（操作命令２６）に対応付けられている。また、時系列的な基準画像の組み合わせ（使用者５の動作の遷移）に対してコンピュータ２に対する操作命令のそれぞれを対応付けるようにしてもよい。

ＰＣ操作変換部２４では、この対応付けに基づいて、画像判別部２１によって判別した使用者５の動作に応じたコンピュータ２に対する操作命令を求め、それを出力する。その出力先は、その操作命令を実行する、コンピュータ２で動作するアプリケーション（ソフトウェアプログラム）２７である。アプリケーション２７では入力された操作命令を実行する。なお、このコンピュータ２に対する操作命令のコンピュータ２に対する引渡しは、ＯＳ（オペレーティングシステム）の何らかの機能を介して行われるものであってもよいし、操作するアプリケーションに直接的に引き渡されるものであってもよい。これが、判別手段で判別した動作に基づいて定まるコンピュータに対する操作命令を、コンピュータに引き渡す操作命令引渡手段である。

次に、本実施の形態の入力装置１において、基準画像を作成する処理である学習処理および入力画像が複数の基準画像のうちのいずれに分類されるものであるかを求める処理である分類検索処理について説明する。

図３は、図１に示した入力装置１における学習処理および分類検索処理の概要を説明する図である。

本実施の形態の入力装置１では、ニューラルネットワークの一種である自己組織化マップを利用して学習処理および分類検索処理を行う。本発明はこれに限られるものではなく、自己組織化マップ以外のニューラルネットワークを用いるものであってもかまわない。

自己組織化マップはニューラルネットワークの１つであり、図３に示すように、入力層（データ入力されるデータ層）と出力層（マップ層）とを有する。この自己組織化マップによれば、入力層に入力されたデータセットの特徴を出力層にマッピングすることができる。この出力層へのマッピングが学習である。この学習においては、教師を必要とせず、入力データセットの特徴を出力層にて自動的に分類することができる。これが本実施の形態の入力装置１の学習処理である。出力層のニューロンの数はあらかじめ定めておけばよく、その状態で入力層にデータセットを入力すれば、入力されたデータに基づいてあらかじめ定めた数のニューロンすなわち基準画像（テンプレート）が作成される。

学習の後においては、入力層に入力されたデータは出力層に並ぶ複数のニューロンのうちの１つにマッピングされる。具体的には、あるデータが入力されると、そのデータの特徴に最も近い出力層のただ１つのニューロン（勝ちニューロン）が発火する。これが本実施の形態の入力装置１の分類検索処理であり、勝ちニューロンが検索結果の基準画像（テンプレート）である。

より詳細に説明すると、出力層の個々のニューロンは入力層のすべてのニューロンと固有の結合荷重（たとえばｗ_１１〜ｗ_ｎｍ）がかけられて結合されており、出力層の１つのニューロンに着目すると、ｗ_１ｉ〜ｗ_ｎｉまでの結合荷重はｎ次元のベクトルと考えることができる。また、入力層に入力されるデータ（たとえばａ_１〜ａ_ｎ）もｎ次元のベクトルと考えることができる。したがって、出力層の複数のニューロンのうち、その結合荷重ベクトルが、入力されたデータのデータベクトルと最も近いニューロンが勝ちニューロンとして発火することになる。

本実施の形態の入力装置１では、使用者５を撮像した画像の特徴をマッピングする自己組織化マップを構築している。

入力層のニューロンへは、使用者５を撮像した画像の各画素の輝度値を入力する。このため、入力層のニューロン数は画像データの画素数となる。入力層に入力する画像データは、カメラ４で撮影したそのままのものでもよいし、その中から使用者５の目の部分や口の部分のみを切り出した画像データであってもよい。

また、たとえば使用者５が右を凝視する動作および左を凝視する動作の２種類のみを行うこととし、その分類ができればよいのであれば、出力層のニューロン数は２つあればよい。この使用者５の動作の種類を増やし、出力層のニューロン数を増やせば、それだけ、コンピュータ２に対する操作命令の種類も増やすことができる。ただし、動作を増やしすぎて識別しづらい動作が増えてしまうと、入力データが期待した出力層ニューロンが勝ちニューロンとならないおそれもある。

ここで、自己組織化マップにデータを入力した場合の動作についてさらに詳しく説明する。

まず、画像データベース２２に記憶してある基準画像の画像データのいずれに分類されるかを検索したい画像データを自己組織化マップの入力層に入力する。入力する画像データはあらかじめ２５６階調のグレースケール画像にしておく。このため、入力される画像の各画素の輝度値は０〜２５５の値となる。

ここで、ｎ個の画素から成る入力画像を各画素の輝度値（ａ_１〜ａ_ｎ）を要素としたベクトルｘで表すものとする。また、入力層のｊ番目のニューロンから出力層のｉ番目のニューロンへの結合荷重をｗ_ｊｉとし、入力層のすべてのニューロンから出力層のｉ番目のニューロンへの結合荷重（ｗ_１ｉ〜ｗ_ｎｉ）を要素としたベクトルをｗ_ｉとすると、すなわちｘを数１に示すようにし、ｗ_ｉを数２に示すようにすると、ｘとｗ_ｉとのユークリッド距離ｄ_Ｅは数３に示すようになる。

入力画像ｘを入力した場合の勝ちニューロンは、数３に示すユークリッド距離ｄ_Ｅが最小のニューロンである。

上述したように自己組織化マップを利用することによって、本実施の形態の入力装置１における学習処理および分類検索処理が実現される。

次に、本実施の形態の入力装置１において扱う画像データについて説明する。

上述したように自己組織化マップに入力する画像データは、カメラ４で撮像した画像データの全体でもかまわないが、そうすると画像の画素数が多く処理時間がかかるし、また、たとえば目を動かすという動作を出力層で分類したい場合に、顔全体の画像を入力とする場合では、目の周囲の画像のみを入力とした場合と比べ、画像全体に対する動作する部分（特徴部分）の割合が小さく、動作変化の特徴を捉えづらいものとなってしまう。

このため、入力装置１では、カメラ４で撮像した画像から使用者５の目の部分や口の部分などの必要な部分のみを切り出した画像データを用いる。この必要な部分を切り出す処理（特徴画像の抽出）について図４を参照して説明する。

図４は、図１に示した入力装置１における処理であって、カメラ４で撮像した画像データから必要な部分を切り出す処理（特徴画像の抽出）のフローチャートを示す図である。

カメラ４は対象画像（使用者５）を常時撮像しており、コンピュータ２では、たとえば３０フレーム／秒でキャプチャを行い、動画像を連続的な静止画像に変換する。

次に、画像のフレームごとに特徴画像の抽出を行う。ここでは目と口を特徴画像として抽出する場合について説明する。

まず、画像の粗さやノイズを取り除くために画像全体に平滑化フィルタをかけて平滑化を行う（Ａ−１）。

次に、たとえばラプラシアンフィルタを用いてエッジを強調した後に、そのエッジの抽出を行い（Ａ−２）、エッジで囲まれた個所を抽出する特徴画像の候補として選択しておく（Ａ−３）。

このエッジで囲まれる箇所としては、顔でいえば眉、目、鼻の穴、口などが挙げられる。複数のフレーム画像のうちの最初のフレームの画像では、コンピュータ２では、眉、目、口などの区別がつかないので、１回目すなわち最初のフレームの画像のときには、エッジで囲まれた箇所のうちのどれが目であり、どれが口であるかを、ディスプレイ装置３に表示した画像上で、たとえば使用者５またはその補助者が手動で指定する（Ａ−４、Ａ−５）。この指定には従来からのマウス等の入力装置を用いればよい。

これに対して、最初のフレーム以外の画像である場合には、前フレームの画像で目、口とされた箇所の近傍であって、今回の画像においてエッジで囲まれた箇所が、今回の画像の目、口であると自動的に選択する（Ａ−４、Ａ−６）。

次に、目として指定、選択された２つ（両目に対応）のエッジで囲まれた個所のそれぞれにおいて重心点を求め、この２つの重心点を結ぶ直線を想定し、この直線が水平になるように画像全体を回転させる（Ａ−７）。回転の中心点は、目の重心点を結んだ直線の中心点でもよいし、画像全体の中心点でもよい。このように画像の回転処理を施すのは、使用者５が無意識に少し首を傾けたりして、いつでも水平な画像、同じ角度の画像を撮像できるとは限らないからである。

その後、目、口として指定、選択されたエッジで囲まれた個所のそれぞれを、エッジの外側までを含んだ所定形状で切り出し、これによって部位画像（特徴画像）の抽出を行う（Ａ−８）。この切り出しの際の所定形状は、矩形であってもよいし、楕円形であってもよいが、目や口の形状を考慮すると、楕円形の画像を切り出す、または矩形で切り出した後に楕円形になるようにマスクするのが望ましい。また、目だけまたは口だけを特徴画像としてもよいし、目と口の組み合わせで特徴画像としてもよい。このようにして抽出した特徴画像を、自己組織化マップの入力データとする。

続いて、特徴画像を抽出する処理の要部について画像を示す図５を参照してさらに説明する。

図５は、図１に示した入力装置１における処理であって、カメラ４で撮像した画像データから必要な部分を切り出す処理（特徴画像の抽出）のフローチャートを、その処理を施した画像とともに示す図である。

図４に示した処理と図５の処理とでは、細部において異なるが、特徴画像を抽出する処理の要部は同様である。

まず、画像の粗さやノイズを取り除くために画像全体に平滑化フィルタをかけて平滑化を行い（Ｂ−１）、たとえばラプラシアンフィルタを用いてエッジを強調した後に、そのエッジの抽出を行い（Ｂ−２）、エッジで囲まれた個所のそれぞれにおいて重心点を求める（Ｂ−３）。

その後、図４と同様にして、エッジで囲まれた個所のうち特徴画像として抽出したい箇所、部位を選択する（Ｂ−４）。

続いてたとえば目として選択された２つ（両目に対応）のエッジで囲まれた個所のそれぞれの重心点を結ぶ直線を想定し、この直線が水平になるように画像全体を回転させ（Ｂ−５）、
選択された箇所を、エッジの外側までを含んだ所定形状たとえば楕円形で切り出し、これによって部位画像（特徴画像）の抽出を行う（Ｂ−６）。このようにして抽出した特徴画像を、自己組織化マップの入力データとする。

自己組織化マップの学習処理は、出力層のニューロン数を定義した上で学習用の入力データを入力層に入力することによって行われる。この学習によって得られる出力層のニューロンの例を図６に示す。

図６は、図１に示した入力装置１における学習処理において生成される出力層のニューロンのそれぞれを示す図であって、（ａ）は目を特徴画像とした場合の各ニューロンの画像を示す図であり、（ｂ）は口を特徴画像とした場合の各ニューロンの画像を示す図である。

入出力装置１によれば、使用者５が所定の動作（顔の表情）をした学習用の入力データを、図４や図５を参照して説明したようにして得て、出力層のニューロン数（図６（ａ）、図６（ｂ）の例ではそれぞれ２０）を定義した上で、この入力データを自己組織化マップの入力層に入力することによって、学習処理が行われる。

出力数のニューロンのそれぞれは、図６（ａ）や図６（ｂ）に示すように、入力データに基づいた基準画像（テンプレート）であり、これらが画像データベース２２に記憶されることによって学習が行われたことになる。

このようにして自己組織化マップの出力層のニューロンのそれぞれが得られたならば、それぞれに対して、コンピュータ２に対する操作命令のいずれかを対応させ、その対応付けをＰＣ操作変換部２４にて記憶しておく。この対応付けは、出力層のニューロン１つに対してコンピュータ２に対するいずれかの操作命令１つを対応付けるようにしてもよいし、出力層のニューロンのうちの所定のものが所定の順番で発生したという時系列的な基準画像の組み合わせ（使用者５の動作の遷移）１つに対してコンピュータ２に対するいずれかの操作命令１つを対応付けるようにしてもよいし、逆に、出力層のニューロン１つに対してコンピュータ２に対する複数の操作命令の組み合わせを対応付けるようにしてもよいし、出力層のニューロンのうちの所定のものが所定の順番で発生したという時系列的な基準画像の組み合わせ（使用者５の動作の遷移）１つに対してコンピュータ２に対する複数の操作命令の組み合わせを対応付けるようにしてもよい。

上述したようにして学習や、使用者５の動作とコンピュータ２に対する操作命令との対応付けが完了したならば、使用者５が入力装置１を用いてコンピュータ２に対する操作命令を入力する際の動作について図７を参照して説明する。この図７では、出力層のニューロンのうちの所定のものが所定の順番で発生したという時系列的な基準画像の組み合わせ１つに対してコンピュータ２に対するいずれかの操作命令１つを対応付けるようにした場合について説明する。

図７は、図１に示した入力装置１における処理であって、使用者５が入力装置１を用いてコンピュータ２に対する操作命令を入力する際の動作のフローチャートを示す図である。

上述したように、カメラ４は対象画像（使用者５）を常時撮像しており、コンピュータ２では、たとえば３０フレーム／秒でキャプチャを行い、動画像を連続的な静止画像に変換する。

この状態で使用者５は、自分が実行したいコンピュータ２への操作命令に対してあらかじめ対応付けた動作を行う。

コンピュータ２では、カメラ４によってこの使用者５の動作を撮像し、画像のフレームごとに、図４で説明したのと同様にして特徴画像の抽出を行う。得られた特徴画像は自己組織化マップの入力層に入力され、上述したユークリッド距離ｄ_Ｅが最小である勝ちニューロンが決定され、画像の判別が行われる（Ｃ−１）。これが分類検索処理である。

続いて、使用者５の１つの動作を確定させるのに充分な時間が経過するのを待ち（Ｃ−２）、その時点での勝ちニューロンを第１の動作状態としてバッファ２３に蓄積し（Ｃ−３）、その後、その蓄積結果が、あらかじめ登録、対応付けした状態遷移パタン２５内のいずれかと一致するまで（Ｃ−４）、使用者５の次なる動作による勝ちニューロンをバッファ２３へ順番に追加蓄積していく。

バッファ２３の蓄積結果が、あらかじめ登録、対応付けした状態遷移パタン２５内のいずれかと一致したならば、その一致したパタンに対応付けられた操作命令２６内の操作命令をアプリケーション２７に引渡し（Ｃ−５）、コンピュータ２にて実行する。

次に、使用者５の動作の状態遷移について、図８の例を参照してさらに説明する。

図８は、使用者５の動作の状態遷移と、その動作の自己組織化マップによる判別結果とをグラフに示す図であり、（ａ）は目を特徴画像とした場合を示す図であり、（ｂ）は口を特徴画像とした場合を示す図である。

図８（ａ）および（ｂ）において、横軸は時間の流れに伴なう使用者５の動作の状態遷移を示し、縦軸は図６（ａ）および（ｂ）に示した出力層のニューロンのそれぞれに付した番号を示す。

図８（ａ）を参照すると、目を普通に開いた状態（開眼）では、図６（ａ）のＮｏ．５のニューロンが勝ちニューロンとして発火し、右下を見た状態（右下）では、図６（ａ）のＮｏ．１０のニューロンが勝ちニューロンとして発火し、また、図８（ｂ）を参照すると、「う」と発音した状態（「う」）では、図６（ｂ）のＮｏ．１５のニューロンが勝ちニューロンとして発火し、口を強く閉じた状態（強閉）では、図６（ｂ）のＮｏ．１０のニューロンが勝ちニューロンとして発火する。

このように本実施の形態によれば、動作によって発火するニューロンが異なることによって、精度よく動作の判別を行うことができる。また、より精度の向上が必要な場合には、出力層のニューロン数を減らし、より極端な動作が各ニューロンに対応付けられるようにして、識別性を向上すればよい。

ところで、目の動作を特徴画像としたとき、使用者５がディスプレイ装置３の表示内容を閲覧する際の目の動作が、コンピュータ２の操作命令を入力する際の目の動作と混同してしまうようであると、入力装置１は使い物にならないおそれがある。この点について図９を参照して説明する。

図９は、使用者５がディスプレイ装置３の表示内容を閲覧する際の目の動作と、コンピュータ２の操作命令を入力する際の目の動作との区別について説明する図であり、（ａ）は各動作ごとに、使用者５の動作の状態遷移と、その動作の自己組織化マップによる判別結果とをグラフに示す図であり、（ｂ）はこのときに用いた出力層の各ニューロンの画像を示す図である。

この例では、図９（ｂ）に示すように、自己組織化マップの出力層のニューロン数を１０にしている。

図９（ａ）において、横軸は時間の流れに伴なう使用者５の動作の状態遷移を示し、縦軸は図９（ｂ）に示す出力層のニューロンのそれぞれに付した番号を示す。

図９（ａ）の上段のグラフは、使用者５がコンピュータ２の操作命令を入力する際の目の動作をした場合のものであり、図９（ｂ）の下段のグラフは、使用者５がディスプレイ装置３の表示内容を閲覧する際の目の動作をした場合のものである。

図９（ａ）の下段のグラフに示すように、使用者５がディスプレイ装置３の表示内容を閲覧している場合、出力層の複数のニューロンのうちのある限られたニューロンのみが勝ちニューロンとなっている。そこで、コンピュータ２の操作命令に対応付けるニューロンは、ディスプレイ閲覧時の勝ちニューロンと区別できるもの、またはそれらの組み合わせにすればよい。

ところで、たとえば使用者５の経時的または突発的な顔表情の変化（太ったり、やせたり、しわが増えたり、顔に傷を負ったりなど）によって、動作判別の精度の劣化を防ぐために、本実施の形態の入力装置１によれば随時学習を行うことが可能であり、その時々に応じて出力層のニューロンの書き換えが可能である。

なお、上述した発明の実施の形態では、使用者の顔を撮像し、目や口を特徴画像としたが、本発明はこれに限られるものではなく、使用者の意思で動作可能な身体的部位や使用者が操作する何らかの道具を撮像し、それらを特徴画像としてコンピュータの操作命令に対応付けるものであってもよい。

本発明による入力装置の一実施の形態を備えたコンピュータシステムの構成を示すブロック図である。図１に示した入力装置の機能構成を示す機能ブロック図である。図１に示した入力装置における学習処理および分類検索処理の概要を説明する図である。図１に示した入力装置における処理であって、カメラで撮像した画像データから必要な部分を切り出す処理（特徴画像の抽出）のフローチャートを示す図である。図１に示した入力装置における処理であって、カメラで撮像した画像データから必要な部分を切り出す処理（特徴画像の抽出）のフローチャートを、その処理を施した画像とともに示す図である。図１に示した入力装置における学習処理において生成される出力層のニューロンのそれぞれを示す図であって、（ａ）は目を特徴画像とした場合の各ニューロンの画像を示す図であり、（ｂ）は口を特徴画像とした場合の各ニューロンの画像を示す図である。図１に示した入力装置における処理であって、使用者が入力装置を用いてコンピュータに対する操作命令を入力する際の動作のフローチャートを示す図である。使用者の動作の状態遷移と、その動作の自己組織化マップによる判別結果とをグラフに示す図であり、（ａ）は目を特徴画像とした場合を示す図であり、（ｂ）は口を特徴画像とした場合を示す図である。使用者がディスプレイ装置の表示内容を閲覧する際の目の動作と、コンピュータの操作命令を入力する際の目の動作との区別について説明する図であり、（ａ）は各動作ごとに、使用者の動作の状態遷移と、その動作の自己組織化マップによる判別結果とをグラフに示す図であり、（ｂ）はこのときに用いた出力層の各ニューロンの画像を示す図である。

符号の説明

１入力装置
２コンピュータ
３ディスプレイ装置
４カメラ
５使用者
２１画像判別部
２２画像データベース
２３バッファ
２４ＰＣ操作変換部
２５状態遷移パタン
２６操作命令
２７アプリケーション
４１画像入力部

Claims

コンピュータに対する操作命令を入力する入力装置において、
前記操作命令を入力する使用者を撮像するカメラと、
前記カメラで撮像した画像データの特徴画像の動作を判別する判別手段と、
前記判別手段で判別した動作に基づいて定まる前記コンピュータに対する操作命令を、前記コンピュータに引き渡す操作命令引渡手段と
を備えたことを特徴とする入力装置。
前記判別手段がニューラルネットワークによって特徴画像の動作を判別することを特徴とする請求項１に記載の入力装置。
前記ニューラルネットワークが自己組織化マップであることを特徴とする請求項２に記載の入力装置。