JP2000048206A

JP2000048206A - 画像処理装置および方法、並びに媒体

Info

Publication number: JP2000048206A
Application number: JP11121128A
Authority: JP
Inventors: Chisato Numaoka; 千里沼岡
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1998-05-26
Filing date: 1999-04-28
Publication date: 2000-02-18

Abstract

(57)【要約】【課題】迅速に画像の学習と画像認識処理ができるよ
うにする。【解決手段】画像差分検出装置１５により、フレーム
バッファ１２とフレームバッファ１３に記憶されている
画像の差分を演算し、さらに、その重心を求める。情報
収集装置１６は、画像差分検出装置１５で求められた重
心の周辺の領域の画像データのRGBヒストグラムデータ
と２値化データを生成する。カテゴリ形成装置２１は、
コホネンネットワークにより構成され、RGBヒストグラ
ムデータと２値化データを元に、カテゴリ形成する。カ
テゴリ統計処理装置２２は、カテゴリ形成装置２１の出
力するカテゴリを統計処理し、リカレントニューラルネ
ットワークで構成される学習装置２３に出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、画像処理装置およ
び方法、並びに媒体に関し、特に、入力される画像デー
タを迅速に学習し、リアルタイムで認識することができ
るようにした、画像処理装置および方法、並びに媒体に
関する。

【０００２】

【従来の技術】図１９は、従来の携帯型パーソナルコン
ピュータの構成例を表している。この構成例において
は、携帯型パーソナルコンピュータ２００の本体２０１
に、キーボード２０２が設けられており、本体２０１に
対して開閉自在とされる開閉部２０３には、各種の情報
を表示するLCD２０４が設けられている。

【０００３】このような携帯型パーソナルコンピュータ
２００において、所定のサーバにアクセスし、３次元仮
想現実空間の画像データの提供を受け、LCD２０４に表
示させることができる。

【０００４】このような場合において、ユーザ（また
は、そのアバタ）が仮想現実空間内を移動するとき、そ
の移動位置に対応して、３次元仮想現実空間の画像が変
化する。３次元仮想現実空間における移動位置を入力す
るのに、キーボード２０２を操作したり、図示せぬマウ
スを操作するようにすることも可能であるが、そのよう
な位置入力方法は、操作性並びに機能性が悪いといった
課題がある。

【０００５】そこで、本出願人は、例えば、特願平９−
３０１０９５号として、図１９に示すように、開閉部２
０３にCCDビデオカメラ２０５を取り付け、これによりL
CD２０４の背面の画像を取り込むようにし、CCDビデオ
カメラ２０５により取り込まれた画像の変化から、携帯
型パーソナルコンピュータ２００の向きを検出し、その
向きに対応した仮想現実空間の画像データの提供を受け
るようにすることを先に提案した。

【０００６】先の提案のようにすれば、携帯型パーソナ
ルコンピュータ２００の向きに対応した方向の仮想現実
空間の画像データをLCD２０４に表示させることがで
き、あたかも人間が、仮想現実空間内において、所定の
方向を向いたとき、自分自身の目で確認されるかのごと
き画像をLCD２０４に表示させることが可能となる。

【０００７】

【発明が解決しようとする課題】しかしながら、先の提
案においては、CCDビデオカメラ２０５の出力から、そ
の向きを、迅速に求める方法について開示がなされてい
ない課題があった。

【０００８】本発明はこのような状況に鑑みてなされた
ものであり、演算量を抑制し、迅速に方向を検出するこ
とができるようにするものである。

【０００９】

【課題を解決するための手段】請求項１に記載の画像処
理装置は、入力された画像データと、その画像データを
移動した画像データとの差分の重心を演算する演算手段
と、演算手段により求められた重心の周辺の領域の画像
データの情報を収集する収集手段と、収集手段により収
集された情報から、カテゴリを形成する形成手段と、形
成手段により形成されたカテゴリを学習する学習手段と
を備えることを特徴とする。

【００１０】請求項６に記載の画像処理方法は、入力さ
れた画像データと、その画像データを移動した画像デー
タとの差分の重心を演算する演算ステップと、演算ステ
ップで求められた重心の周辺の領域の画像データの情報
を収集する収集ステップと、収集ステップで収集された
情報から、カテゴリを形成する形成ステップと、形成ス
テップで形成されたカテゴリを学習する学習ステップと
を含むことを特徴とする。

【００１１】請求項１１に記載の媒体のプログラムは、
入力された画像データを処理する画像処理装置に、入力
された画像データと、その画像データを移動した画像デ
ータとの差分の重心を演算する演算ステップと、演算ス
テップで求められた重心の周辺の領域の画像データの情
報を収集する収集ステップと、収集ステップで収集され
た情報から、カテゴリを形成する形成ステップと、形成
ステップで形成されたカテゴリを学習する学習ステップ
とを含む処理を実行させることを特徴とする。

【００１２】請求項１６に記載の画像処理装置は、入力
された画像データと、その画像データを移動した画像デ
ータとの差分の重心を演算する演算手段と、演算手段に
より求められた重心の周辺の領域の画像データの情報を
収集する収集手段と、収集手段により収集された情報か
ら、カテゴリを選択するカテゴリ選択手段と、カテゴリ
選択手段によって選択されたカテゴリから記憶された画
像を選択する画像選択手段とを備えることを特徴とす
る。

【００１３】請求項２０に記載の画像処理方法は、入力
された画像データと、その画像データを移動した画像デ
ータとの差分の重心を演算する演算ステップと、演算ス
テップで求められた重心の周辺の領域の画像データの情
報を収集する収集ステップと、収集ステップで収集され
た情報から、カテゴリを選択するカテゴリ選択ステップ
と、カテゴリ選択手段によって選択されたがカテゴリか
ら記憶された画像を選択する画像選択ステップとを含む
ことを特徴とする。

【００１４】請求項２４に記載の媒体のプログラムは、
入力された画像データを処理する画像処理装置に、入力
された画像データと、その画像データを移動した画像デ
ータとの差分の重心を演算する演算ステップと、演算ス
テップで求められた重心の周辺の領域の画像データの情
報を収集する収集ステップと、収集ステップで収集され
た情報から、カテゴリを選択するカテゴリ選択ステップ
と、カテゴリ選択ステップで選択されたカテゴリから記
憶された画像を選択する画像選択ステップとを含む処理
を実行させることを特徴とする。

【００１５】請求項１に記載の画像処理装置、請求項６
に記載の画像処理方法、および請求項１１に記載の提供
媒体においては、入力された画像データと、その画像デ
ータを移動した画像データとの差分の重心の周辺の領域
の画像データからカテゴリが形成され、カテゴリが学習
される。

【００１６】請求項１６に記載の画像処理装置、請求項
２０に記載の画像処理方法、および請求項２４に記載の
媒体においては、入力された画像データと、その画像デ
ータを移動した画像データとの差分の重心の周辺の領域
の画像データからカテゴリが選択され、認識されたカテ
ゴリに基づいて、記憶された画像が選択される。

【００１７】

【発明の実施の形態】以下に、本発明の実施の形態につ
いて説明する。本発明の画像処理装置も、その外観的構
成は、図１９に示した携帯型パーソナルコンピュータ２
００と同様に構成される。ただし、その内部のCPUによ
り処理されるプログラムは、実質的に、図１の機能ブロ
ック図に示すような構成とされている。

【００１８】図１に示すように、この画像処理装置は、
共通部１、画像学習装置２、画像認識装置３、制御装置
４、および記憶装置５により構成されている。共通部１
は、画像学習処理と画像認識処理のいずれにも用いられ
る。画像学習装置２は、画像学習処理を行う部分であ
り、画像認識装置３は、画像認識処理を行う部分であ
る。制御装置４は、共通部１、画像学習装置２、および
画像認識装置５を制御する。記憶装置５は、例えばハー
ドディスクあるいはCD-Rのような脱着可能媒体で構成さ
れ、画像データをファイルとして記憶する。

【００１９】共通部１の画像入力部１１は、CCDビデオ
カメラ２０５と、図示せぬファイル読み込み装置により
構成され、画像学習動作時においては、記憶装置５から
ファイルを読み込むファイル読み込み装置が用いられ、
画像認識処理を行う場合には、CCDビデオカメラ２０５
が用いられる。

【００２０】画像移動装置１４は、フレームバッファ１
２に記憶されている画像を、一定の時間間隔で、一定の
方向に一定の距離だけ移動した画像を生成し、フレーム
バッファ１２に記憶させる。フレームバッファ１３は、
フレームバッファ１２に記憶された画像データの転送を
受け、記憶する。画像差分検出装置１５は、フレームバ
ッファ１２とフレームバッファ１３に記憶された画像の
各ピクセル値を比較し、変化のあったピクセルを算定
し、変化のあったピクセルの総加平均をとることによ
り、重心に相当するピクセルの位置を演算し、その座標
を情報収集装置１６に出力している。

【００２１】情報収集装置１６は、画像差分検出装置１
５より入力された重心位置を中心に、その周辺のピクセ
ルデータを抽出し、それらのピクセルデータのRGBヒス
トグラムデータを生成するとともに、周辺ピクセルデー
タの赤色成分のみを抽出し、所定の閾値を基準にして、
そのデータを２値化し、さらに、離散化する処理を実行
する。RGBヒストグラムデータと２値化データは、画像
学習装置２のカテゴリ形成装置２１と、画像認識装置３
のカテゴリ選択装置３１に供給されるようになされてい
る。

【００２２】画像学習装置２のカテゴリ形成装置２１
は、例えば、図２に示すように、コホネンネットワーク
（Kohonen network）５１により構成される。図２の例
においては、コホネンネットワーク５１は、入力層６１
と出力層６２により構成され、入力層６１は、２つの入
力層６１−１，６１−２により構成され、入力層６１−
１には、情報収集装置１６から、この例の場合、１２１
ビットの２値化データが入力され、入力層６１−２に
は、情報収集装置１６から、この例の場合、１２ビット
のRGBヒストグラムデータが入力される。コホネンネッ
トワーク５１は、これらの入力に対して所定の係数を乗
算し、相互に加算することで、出力層６２から６４ビッ
トのカテゴリを出力する。

【００２３】カテゴリ統計処理装置２２は、図２に示す
ように、勝利数カウンタ７１を有し、この勝利数カウン
タ７１は、コホネンネットワーク５１の出力層６２のノ
ードに対応するノードを有し、出力層６２の対応するノ
ードが、ウィナー（winner）として選択されたとき、対
応するノードの値を１増加させる。また、勝利数カウン
タ７１は、勝利者カウンタ配列の値をカウンタ値の値の
総和が１になるように正規化し、学習装置２３に出力し
ている。

【００２４】学習装置２３は、例えば、図２に示すよう
に、リカレントニューラルネットワーク８１により構成
される。この構成例においては、リカレントニューラル
ネットワーク８１は、入力層９１、隠れ層９２、および
出力層９３より構成されている。入力層９１は、２つの
入力層９１−１，９１−２により構成されている。入力
層９１−１には、勝利数カウンタ７１の６４ビットの出
力が、各ノードに入力され、入力層９１−２には、隠れ
層９２の８ビットの出力が、各ノードに入力されるよう
になされている。出力層９３は、画像数と同じ数のノー
ドで構成されている。出力層９３の各ノードは、画像番
号に対応している。出力層９３の各ノードの値と、教師
信号（画像番号）との誤差が小さくなるように、バック
プロパゲーションにより学習が行われるようになされて
いる。

【００２５】画像認識装置３のカテゴリ選択装置３１
は、図３に示すように、コホネンネットワーク１０１に
より構成される。このコホネンネットワーク１０１は、
２つの入力層１１１−１，１１１−２を有する入力層１
１１と、出力層１１２から構成されている。このカテゴ
リ選択装置３１を構成するコホネンネットワーク１０１
は、図２のカテゴリ形成装置２１を構成するコホネンネ
ットワーク５１に対応しており、両者は実質的に等しい
ものである。すなわち、カテゴリ形成装置２１のコホネ
ンネットワーク５１が、所定の学習処理を行った結果得
られたネットワークが、コホネンネットワーク１０１で
ある。コホネンネットワーク１０１は、入力データから
カテゴリを選択し、選択したカテゴリを画像選択装置３
２に出力している。

【００２６】画像選択装置３２は、図３に示すように、
リカレントニューラルネットワーク１２１により構成さ
れている。リカレントニューラルネットワーク１２１
は、２つの入力層１３１−１，１３１−２を有する入力
層１３１、隠れ層１３２、および出力層１３３から構成
されている。この画像選択装置３２のリカレントニュー
ラルネットワーク１２１も、図２の学習装置２３のリカ
レントニューラルネットワーク８１に対応するネットワ
ークであり、両者は実質的に等しいものである。すなわ
ち、学習装置２３のリカレントニューラルネットワーク
８１が、学習を行った結果得られたネットワークが、画
像選択装置３２のリカレントニューラルネットワーク１
２１である。

【００２７】図３に示すように、リカレントニューラル
ネットワーク１２１には、画像学習時の場合と異なり、
コホネンネットワーク１０１の出力が、勝利数カウンタ
７１を介さずに、そのまま入力される。このとき、コホ
ネンネットワーク１０１の出力層１１２の出力は、ウィ
ナーノードのみが１で、他のノードは０となるように調
整される。

【００２８】画像選択装置３２のリカレントニューラル
ネットワーク１２１は、出力層１３３のノードの中の最
大の出力値を有するものが、所定の閾値を超えている場
合、その番号を認識画像の番号として画像表示部３３に
出力するようになされている。

【００２９】画像表示部３３は、画像選択装置３２から
の認識画像番号の供給を受けると、対応する画像を仮想
的な表示部に表示させ、必要に応じてLCD２０４に実際
に表示させるようになされている。

【００３０】次に、図４のフローチャートを参照して、
図１の装置の画像学習処理時の動作について説明する。
最初に、ステップＳ１において、学習回数を表す変数ｃ
に値１が初期設定される。ステップＳ２においては、処
理した画像の数を表す変数Ｌに値０が初期設定される。
さらにステップＳ２において、変数Ｌが学習する画像の
数より小さいか否かが判定され、いまの場合、小さいの
で、YESの判定が行われ、ステップＳ３に処理が進む。
ステップＳ３においては、画像入力部１１が、制御装置
４を介して記憶装置５からＬ番目の画像ファイルを読み
出し、フレームバッファ１２のサイズ分の画像データ
を、読み出した画像ファイルから取り出し、フレームバ
ッファ１２に供給し、記憶させる。

【００３１】ステップＳ４においては、カテゴリ学習の
回数を表す変数Ｎに１が初期設定され、変数Ｎが予め設
定されているカテゴリ学習の繰り返し回数と等しいか、
それより小さいか否かが判定される。いまの場合、Ｎ＝
１であるので、Ｎは繰り返し回数より小さいと判定さ
れ、ステップＳ７に進み、ステップＳ７においてカテゴ
リ学習処理が実行される。このカテゴリ学習処理の詳細
は、図５のフローチャートに示されている。

【００３２】カテゴリ学習時には、ステップＳ２１にお
いて、画像差分検出装置１５が、フレームバッファ１２
とフレームバッファ１３に記憶されている各ピクセル値
の差分を演算し、変化のあったピクセルを算定し、変化
のあったピクセルの総加平均を演算して、重心に相当す
るピクセルの位置を演算する。重心座標は、（ｃｇＸ，
ｃｇＹ）に設定される。なお、フレームバッファ１３に
は、初期状態において、黒の画素データが記憶されてい
る。この重心座標は、画像差分検出装置１５から、情報
収集装置１６に出力される。

【００３３】情報収集装置１６は、ステップＳ２２にお
いて、画像差分検出装置１５から供給された重心座標
（ｃｇＸ，ｃｇＹ）の周辺領域のピクセルデータを抽出
する処理を実行する。すなわち、情報収集装置１６は、
重心座標（ｃｇＸ，ｃｇＹ）から、上下左右にｄピクセ
ル分の範囲の領域を周辺領域とし、そのピクセルデータ
を抽出し、これを２次元配列fieldに記憶させる。

【００３４】次に、ステップＳ２３において、情報収集
装置１６は、カラーヒストグラム収集処理を実行する。
すなわち、周辺領域のピクセルデータのRGBのそれぞれ
のヒストグラムを作成する。これにより、例えば、各色
のレベルが０から２５５のいずれかの値で表されると
き、例えば、Ｒ（赤）の０乃至２５５の各レベル毎の画
素数のヒストグラムが生成される。同様に、Ｇ（緑）お
よびＢ（青）の０乃至２５５のレベル毎のピクセルの数
を表すヒストグラムが作成される。

【００３５】情報収集装置１６は、さらに、Ｒのヒスト
グラム中のピーク値をとる色番号（レベル番号）を０乃
至２５５の中から選択し、その値を１６で割算した値を
得る。同様にして、ＧのヒストグラムおよびＢのヒスト
グラム中のピーク値をとる色番号を１６で割算した値が
演算される。これにより、３組の値からなるデータ（以
下、このデータをRGBヒストグラムデータと称する）が
得られる。

【００３６】以上のようにして、RGBヒストグラムデー
タが得られたとき、情報収集装置１６は、さらにステッ
プＳ２４において、データを２値化（白黒化）する処理
を実行する。このデータを２値化する処理の詳細は、図
６に示されている。

【００３７】すなわち、２値化処理においては、最初に
ステップＳ４１において、情報収集装置１６は、次式か
ら、２値化のための閾値となる値ｍを演算する。

【００３８】ｍ＝（ｐｃｔ／１００）×配列fieldのデ
ータ数ここで、ｐｃｔは、周辺領域のピクセルデータの
うち、黒のピクセルデータの割合を表す。

【００３９】次に、ステップＳ４２において、情報収集
装置１６は、Ｒのヒストグラムのデータ値を、レベル０
からレベル２５５の順に、順次累積する演算を実行し、
その累積値が、ステップＳ４１で求めた値ｍを超えたと
きの色番号をｔとする。

【００４０】情報収集装置１６は、ステップＳ４３にお
いて、ステップＳ４２で求めた値ｔと等しいか、それよ
り小さい色番号を有するピクセルを黒とし、値ｔより大
きい色番号を有するピクセルを白とすることで、Ｒのピ
クセルを白と黒のピクセルに２値化する処理を行う。

【００４１】ステップＳ４４において、情報収集装置１
６は、２次元配列fieldの縦と横のサイズを、それぞれ
１／１０に分割する。すなわち、これにより、１０×１
０個の部分領域に周辺領域のピクセルが区分されること
になる。情報収集装置１６は、さらに、各部分領域毎
に、白のピクセルと黒のピクセルの数を数え、黒のピク
セルの数の方が、白のピクセルの数より多い場合には、
その部分領域の値を１とし、そうでなければ０とする。
これにより、周辺領域の離散２値化データが得られる。
次に、ステップＳ４５において、情報収集装置１６は、
周辺領域の１／１００のサイズの配列Ｂ上に、ステップ
Ｓ４４で計算された１と０を、それぞれ代入する。

【００４２】以上に説明したような２値化処理が行われ
た後、図５のステップＳ２５において、情報収集装置１
６は、ステップＳ４５で生成した配列Ｂのデータ数を、
内蔵するバッファのデータ数BUFで割算した値が、予め
設定してある所定の閾値以上であるか否かを判定する。
ここで、BUFは１フレーム前の周辺領域の配列Ｂのデー
タ数であり、前回のフレームの画像データのステップＳ
２６の処理で記憶されたものである。演算結果が、閾値
以上である場合には、すなわち、配列Ｂのデータ数が多
い場合には、ステップＳ２６において、情報収集装置１
６は、ステップＳ４５で得られた配列Ｂのデータを、内
蔵するバッファにコピーする。

【００４３】以上のようにして、情報収集装置１６によ
り、ステップＳ２３において生成されたRGBヒストグラ
ムデータと、ステップＳ２６においてバッファにコピー
された２値化データが、画像学習装置２のカテゴリ形成
装置２１に供給される。カテゴリ形成装置２１は、ステ
ップＳ２７において、コホネンネットワークによりカテ
ゴリ学習処理を実行する。

【００４４】以上の処理を、具体的な図を参照して説明
すると、図７に示すようになる。すなわち、画像差分検
出装置１５が、差分画像の重心を演算すると、情報収集
装置１６は、その重心の周辺領域を切り出し、その周辺
領域におけるRGBヒストグラムデータを生成する。図７
の例においては、（１２，７，３）のRGBヒストグラム
データが生成されている。２進数で表すと、このRGBヒ
ストグラムデータは、（１１０００１１１００１１）と
なる。

【００４５】一方、情報収集装置１６は、ステップＳ４
２において、周辺領域のＲのヒストグラムデータを抽出
し、ステップＳ４３において、このＲ成分を所定の閾値
を基準として２値化する。情報収集装置１６は、さらに
ステップＳ４４において、この２値化データを１０×１
０個の部分領域に区分（メッシュ離散化）し（図７の例
の場合、６×６個に区分されている）、各部分領域を白
と黒のピクセルの数から、１と０を割り当て、離散２値
化データを生成する。情報収集装置１６は、さらにステ
ップＳ４５において、この離散２値化データを配列Ｂに
代入する。

【００４６】ステップＳ２７のコホネンネットワークの
カテゴリ学習処理の詳細は、図８に示されている。図８
のステップＳ５１において、カテゴリ形成装置２１のコ
ホネンネットワーク５１は、情報収集装置１６からステ
ップＳ４５で生成された配列Ｂのデータを１次元展開し
たものを入力層６１−１に入力する。また、コホネンネ
ットワーク５１は、情報収集装置１６がステップＳ２３
で生成したRGBヒストグラムデータの最大値の色番号を
１６で割算した値を、入力層６１−２に入力する。

【００４７】次に、ステップＳ５２において、コホネン
ネットワーク５１は、出力層６２のすべての出力ノード
に関して、次式を演算する。

【００４８】ｖｊ＝Σｊ（ｗｉｊ−ｘｉ）２出力層６２はまた、上記した式により得られたｖのう
ち、最大の値を持つノードｊをウィナー（winner）とす
る。

【００４９】さらに、ステップＳ５３において、コホネ
ンネットワーク５１は、ウィナーのノードに対応する入
力の重み係数ｗｉｊを、次に示す割合だけ変化させる。

【００５０】Δｗｉｊ＝ａ（ｘｉ−ｗｉｊ）より正確には、次式に示す処理が行われる。

【００５１】ｗｉｊ（ｔ＋１）＝ｗｉｊ（ｔ）＋ｄ（ｘ
ｉ−ｗｉｊ（ｔ））以上のようにして、コホネンネットワーク５１により、
ウィナーが決定されると、それがカテゴリ統計処理装置
２２の勝利数カウンタ７１に供給される。勝利数カウン
タ７１は、ステップＳ２８において、そのウィナーのノ
ードの値を１だけ増加させる。

【００５２】ステップＳ２５において、配列Ｂのデータ
数をバッファBUFのデータ数で割算した値が、所定の閾
値より小さいと判定された場合、ステップＳ２６乃至ス
テップＳ２８の処理はスキップされる。すなわち、この
場合には、配列Ｂのデータ量が少ないので、これらの処
理は省略されるのである。

【００５３】図４に戻って、以上のようにして、ステッ
プＳ７でカテゴリ学習処理が実行された後、ステップＳ
８において画像移動装置１４は、フレームバッファ１２
の画像データをフレームバッファ１３に移動させる。画
像移動装置１４は、さらにステップＳ９において、フレ
ームバッファ１２に記憶されている画像データをＸ方向
にａ、並びにＹ方向にｂだけ移動させたものを、画像入
力部１１に、記憶装置５のファイルから読み出させ、フ
レームバッファ１２に記憶させる。

【００５４】例えば、図９に示すように、番号１乃至８
で示す８個の方向のいずれかの方向に移動された画像デ
ータが、フレームバッファ１２に書き込まれる。８個の
方向は、ａの値を、例えば、−４，０または＋４のいず
れかとし、ｂの値を、−４，０または＋４のいずれかと
することで決定される。このとき、画像データのないピ
クセルは、黒のピクセルデータとされる。

【００５５】次に、ステップＳ４に戻り、カテゴリ学習
処理の回数を表す変数Ｎを１だけインクリメントし、そ
の値が、予め設定されている繰り返し回数以下であるか
否かを判定する。Ｎの値が繰り返し回数以下である場合
には、ステップＳ７に進み、上述した場合と同様に、そ
れ以降の処理が実行される。

【００５６】ステップＳ４において、カテゴリ学習回数
Ｎが、予め設定された繰り返し回数より大きくなったと
判定された場合、ステップＳ５に進み、画像移動装置１
４は、ステップＳ９におけるデータのＸ方向の移動量ａ
と、Ｙ方向の移動量ｂの組み合わせとして、他の組み合
わせがあるか否か、すなわち、設定されているａ，ｂの
組み合わせで規定される方向以外に移動すべき方向があ
るか否か、を判定し、他の組み合わせがある場合には、
ステップＳ６に進み、移動量ａとｂの組み合わせを変更
する。そして、ステップＳ３に戻り、それ以降の処理が
繰り返し実行される。

【００５７】ステップＳ５において、移動量ａとｂの組
み合わせに、他の組み合わせが存在しないと判定された
場合、ステップＳ２に戻り、学習に利用した画像パター
ンの数を表す変数Ｌが、１だけインクリメントされる。
そしてその値が、予め用意した画像パターン数と等しい
か、それより大きくなったか否かが判定される。変数Ｌ
が、画像パターン数より小さい場合には、ステップＳ３
に進み、上述した場合と同様の処理が繰り返し実行され
る。

【００５８】ステップＳ２において、値Ｌが、予め用意
した画像パターン数と等しいかそれより大きくなったと
判定された場合、ステップＳ１０に進み、制御装置４
は、画像学習回数を表す変数ｃが、コホネンネットワー
ク５１の学習が収束する回数を表す値Ｍより小さいか否
かを判定する。変数ｃが、値Ｍより小さい場合、すなわ
ち、コホネンネットワーク５１の学習がまだ収束してい
ない場合、制御装置４は、ステップＳ１１に進み、変数
ｃを１だけインクリメントする。その後、ステップＳ２
に戻り、それ以降の処理が繰り返し実行される。

【００５９】ステップＳ１０において、変数ｃが、値Ｍ
と等しいか、それより大きくなったと判定された場合、
すなわち、コホネンネットワーク６１の学習回数が学習
により得られる係数が収束するほど充分行われた場合、
ステップＳ１２に進み、特徴学習処理が実行される。こ
の特徴学習処理の詳細は、図１０に示されている。

【００６０】すなわち、最初にステップＳ６１におい
て、カテゴリ統計処理装置２２は、勝利数カウンタ７１
の配列の値を１に対して正規化し、学習装置２３のリカ
レントニューラルネットワーク８１の入力層９１−１に
出力する。

【００６１】リカレントニューラルネットワーク８１
は、教師信号を、現在特徴分析の対象となっている画像
番号とし、バックプロパゲーション学習処理を実行す
る。

【００６２】以上のようにして、例えば、図１１に示す
ような複数の重心の周辺領域の特徴点からカテゴリに対
する多対一のマッピングが、コホネンネットワーク５１
により学習されたことになる。また、カテゴリの統計的
集合から画像番号へのマッピングがリカレントニューラ
ルネットワーク８１に学習されたことになる。

【００６３】以上のようにして、学習処理が行われた
後、画像認識処理を行うことができる。この場合の処理
が、図１２のフローチャートに示されている。最初にス
テップＳ７１において、画像入力部１１のCCDビデオカ
メラ２０５の出力する画像データが、フレームバッファ
１２に供給され、記憶される。次に、ステップＳ７２に
おいて、カテゴリテスト処理が実行される。このカテゴ
リテスト処理の詳細は、図１３に示されている。

【００６４】図１３のフローチャートに示すステップＳ
８１乃至ステップＳ８８の処理のうち、ステップＳ８１
乃至ステップＳ８６の処理は、図５のステップＳ２１乃
至ステップＳ２６の処理と基本的に同様の処理である。

【００６５】すなわち、ステップＳ８１において、画像
差分検出装置１５は、フレームバッファ１２とフレーム
バッファ１３のデータの差分をとり、その重心座標を
（ｃｇＸ，ｃｇＹ）に設定する。この重心座標は、情報
収集装置１６に供給される。情報収集装置１６は、ステ
ップＳ８２において、重心座標（ｃｇＸ，ｃｇＹ）か
ら、上下左右にｄピクセル分の周辺領域のデータを抽出
し、fieldという２次元配列に取り込む。そして、ステ
ップＳ８３において、RGBヒストグラムデータを生成
し、ステップＳ８４において、データ２値化処理を実行
する。

【００６６】ステップＳ８４において、２値化処理され
たデータは、ステップＳ８５において、バッファBUFの
データ数で割算され、その値が予め設定してある所定の
閾値以上である場合には、ステップＳ８６に進み、配列
Ｂの画像データがバッファにコピーされる。

【００６７】次に、ステップＳ８７において、情報収集
装置１６が、ステップＳ８３で生成したRGBヒストグラ
ムデータが、コホネンネットワーク１０１の入力層１１
１−２に入力され、また、情報収集装置１６が、ステッ
プＳ８６で、バッファにコピーした周辺領域の２値化画
像データは、バッファから読み出され、コホネンネット
ワーク１０１の入力層１１１−１に入力される。上述し
たように、コホネンネットワーク１０１（コホネンネッ
トワーク５１）においては、カテゴリが学習されてお
り、コホネンネットワーク１０１は、ステップＳ８８に
おいて、入力層１１１に入力されたデータに対して係数
ｗｉｊを乗算し、出力ノードの中で最大値を有するノー
ド番号をウィナーとして出力する。すなわち、コホネン
ネットワーク１０１に入力された画像データからカテゴ
リが選択される。

【００６８】ステップＳ８５において、ステップＳ８４
で生成した２値化イメージデータの数をバッファBUFの
データ数で割算して得られた値が、所定の閾値より小さ
い場合には、ステップＳ８６乃至ステップＳ８８の処理
はスキップされる。

【００６９】以上のようにして、図１２のステップＳ７
２のカテゴリテスト処理が終了した後、ステップＳ７３
に進み、特徴テスト処理が実行される。この特徴テスト
処理の詳細は、図１４に示されている。

【００７０】最初にステップＳ９１において、コホネン
ネットワーク１０１のウィナーの値が、画像選択装置３
２のＴ個の配列のｔ％Ｔ番目に代入される。ここでｔ
は、特徴テストシステムを動作させたときを０とした場
合における時刻を表し、ｔ％Ｔは、ｔをＴで割ったとき
の余りを表す。次に、画像選択装置３２は、ステップＳ
９２で、Ｔ個の配列中の値を調べ、配列中に存在する番
号の入力層１３１の入力ノードの値を１とし、それ以外
を０とする。

【００７１】さらに、ステップＳ９３において、画像選
択装置３２のリカレントニューラルネットワーク１２１
は、その出力層１３３から入力層１３１−１に入力され
たデータに対応する画像番号の値を出力する。そして、
画像選択装置３２は、リカレントニューラルネットワー
ク１２１の出力層１３３の各ノードの出力する値のう
ち、最大の値のものが、閾値以上であれば、その出力ノ
ードの番号をrefとして画像表示部３３に出力する。

【００７２】以上のようにして、図１２のステップＳ７
３の特徴テスト処理が完了したとき、ステップＳ７４に
おいて、画像表示部３３は、画像選択装置３２より供給
されたrefに対応する番号の画像を、画像入力部１１に
制御装置４を介して記憶装置５から取り込ませ、仮想的
な表示部に表示させる。

【００７３】すなわち、予めCCDビデオカメラ２０５に
より撮像した画像を記憶装置５に記録しておき、その
後、CCDビデオカメラ２０５から取り込んだ画像を画像
認識し、認識した結果得られた画像を、その記憶装置５
から読み出し、LCD２０４に表示させる場合には、画像
表示部３３は、記憶装置５から読み出した画像をLCD２
０４に実際に表示させればよい。

【００７４】しかしながら、この例の場合、LCD２０４
には、仮想現実空間の画像が表示されており、CCDビデ
オカメラ２０５より取り込んだ画像は、携帯型パーソナ
ルコンピュータ２００の向きを検出するために利用され
ている。そこで、この例の場合においては、画像表示部
３３は、refで参照される番号の画像を記憶装置５から
読み出すと、その画像に対応する方向（この方向も画像
に対応して記憶装置５に記憶されている）を読み出し、
その方向のデータを、必要に応じてサーバに供給し、サ
ーバから双方向に対応する仮想現実空間の画像データの
提供を受け、これをLCD２０４に表示させる。

【００７５】次に、ステップＳ７５において、画像移動
装置１４は、フレームバッファ１２に記憶されている画
像データをフレームバッファ１３にコピーする。その
後、ステップＳ７１に戻り、それ以降の処理が繰り返し
実行される。

【００７６】同一の対象画像であれば、CCDビデオカメ
ラ２０５を移動することによって得られた重心の位置
は、ランダムな位置に発生するのではなく、ある特定の
部位につてのみ選択的に発生することが多い。例えば、
図１１に示すような画像の場合、特徴点として示す位置
にだけ重心の位置が発生する。このことは、CCDビデオ
カメラ２０５の対象画像に対する角度、あるいは周囲の
光の状態などによる影響を受けにくいことを意味する。

【００７７】そこで、上述したように、画像差分の重心
周辺の情報をカテゴリ化してラベルとみなし、１つの対
象画像をラベルの集合体として特徴付け、これらのラベ
ルに関して（カテゴリに関して）、画像学習を行えば、
対象画像全部を処理対象とする場合に較べて、処理対象
とする画像データを少なくすることができ、従って、演
算量を抑制することができ、結果的に、高速なリアルタ
イムでの画像認識処理が可能となる。

【００７８】本発明によれば、次に示すような応用が可
能になる。家の中の風景を、部屋毎に、いろいろな場所
から写真撮影し、これらの撮像を、本発明の画像処理方
法によって学習させる。この学習させた結果を記録した
媒体を装備した状態で、本発明の画像処理装置を動作さ
せることにより、どの部屋をどの辺りから眺めているか
を認識することができる。本発明をPCのようなコンピュ
ータ上に実装したと仮定すると、PC上にある特定のアプ
リケーションプログラムと、特定の撮像を関連付けるよ
うなインタフェースを装備することによって、当該特定
の撮像が認識されるような条件下で、当該特定のアプリ
ケーションプログラムを動作させることが可能になる。

【００７９】例えば、アプリケーションが料理のレシピ
であり、撮像がキッチンであれば、キッチンを認識する
ことによってレシピのアプリケーションが起動されるよ
うにすることができる。またアプリケーションがオーデ
ィオ装置のコントローラであれば、オーディオ装置が配
置されたような撮像と関連付けることにより、オーディ
オ装置周辺のイメージをキャプチャすることにより、オ
ーディオ装置のコントローラが起動されるようになる。

【００８０】レシピの例を、図１５乃至図１７を用いて
説明する。ここで、図１６は、図１４における携帯型パ
ーソナルコンピュータ２００におけるLCD２０４上のス
クリーンイメージを示すものである。まず学習登録モー
ドでは、図１５のステップＳ１０１でアプリケーション
プログラムを選択する。これは、例えば図１６において
LCD２０４上で、レシピ・アプリケーション３０３を起
動させ、これをマウスのようなポインティングデバイス
で選択してもよいし、あるいは特定のインタフェースの
メニューから可能なアプリケーションを選択させるよう
にしてもよい。

【００８１】次にステップＳ１０２でシーンの撮影を行
い、一意的な画像番号を割り当てる。例えば図１６にお
ける撮影対象３０１の周囲を図１９の装置におけるCCD
ビデオカメラ２０５で撮影し、これに対して番号を割り
当てる。その後処理は２つに分かれ、一方ではステップ
Ｓ１０３において本発明における画像学習処理を行い、
もう一方ではステップＳ１０４において画像番号とレシ
ピ・アプリケーション３０３を関連付けてデータベース
に登録する。

【００８２】認識モードについて図１６と図１７を用い
て説明する。まず図１７のステップＳ１１１でシーンの
撮影を行う。このとき、認識装置である携帯型パーソナ
ルコンピュータ２００のモードを認識モードに切り替え
る機能が携帯型パーソナルコンピュータ２００に備わっ
ていると想定することもできるし、常に認識モードにな
っていると考えることも可能である。ここで撮影対象３
０１を撮影することによって、CCDカメラからのイメー
ジ３０２のような撮像が得られる。

【００８３】次に、ステップＳ１１２において、本発明
の画像認識処理を行い、結果としてステップＳ１１３に
おいて認識された画像番号を取り出す。さらに、この認
識された画像番号をキーとして、ステップＳ１１４にお
いて、アプリケーションプログラムであるレシピ・アプ
リケーション３０３を特定し、起動する。

【００８４】なお、ここでは、CCDカメラからのイメー
ジ３０２やレシピ・アプリケーションは全てLCD２０４
上に表示されるとしたが、当然のことながら、他の実施
形態も可能である。例えば、図１８に示すような実施形
態のシステムでは、レシピ・アプリケーションは、IEEE
１３９４のようなホームネットワーク上に結合されたホ
ームサーバ４００上に存在し、携帯型パーソナルコンピ
ュータ４０３から無線基地局４０２などを介して指示さ
れることによって起動される。レシピ・アプリケーショ
ンのイメージは、携帯型パーソナルコンピュータ４０３
上に表示してもよいし、キッチンに配置した壁面ディス
プレイ４０１上に表示することも可能である。

【００８５】ここで携帯型パーソナルコンピュータは、
ホームネットワークに無線リンクによって結合されると
想定したが、当然のことながら赤外線リンクでも、有線
リンクであっても構わない。最後に、本実施例では全て
携帯型パーソナルコンピュータは、図１９に示すような
ものを想定してきたが、これた例えばウェアラブルコン
ピュータ、すなわち、身に着用することができるコンピ
ュータであってもよいことはいうまでもない。

【００８６】

【発明の効果】以上の如く、請求項１に記載の画像処理
装置、請求項６に記載の画像処理方法、および請求項１
１に記載の媒体によれば、１つの画像周辺を移動させな
がら検出される画像の差分の重心周辺領域の画像データ
からカテゴリを形成し、移動中に得られた全てのカテゴ
リの集合に基づいて処理された統計情報を用いて画像学
習をしているので、認識時に認識装置が移動しながら撮
影を行っていることを考慮した迅速な学習が可能とな
る。

【００８７】また請求項１６に記載の画像処理装置、請
求項２０に記載の画像処理方法、および請求項２４に記
載の媒体によれば、１つの画像周辺を移動させながら検
出される画像の差分の重心周辺領域の画像データからカ
テゴリを形成し、移動中に得られたすべてのカテゴリの
集合に基づいて処理された統計情報を利用して画像認識
を行っているので、認識装置が固定されていないような
環境で撮影を行っている場合においてもリアルタイムで
頑健な画像認識を行うことができる。

【図面の簡単な説明】

【図１】本発明の画像処理装置の機能を示すブロック図
である。

【図２】図１の画像学習装置の構成例を示すブロック図
である。

【図３】図１の画像認識装置の構成例を示すブロック図
である。

【図４】図１の装置の画像学習処理を説明するフローチ
ャートである。

【図５】図４のステップＳ７のカテゴリ学習処理を説明
するフローチャートである。

【図６】図５のステップＳ２４のデータの２値化処理を
説明するフローチャートである。

【図７】図５のステップＳ２１乃至ステップＳ２６の処
理を説明する図である。

【図８】図５のステップＳ２７のコホネンネットワーク
によるカテゴリ学習処理を説明するフローチャートであ
る。

【図９】図４のステップＳ９の処理を説明する図であ
る。

【図１０】図４のステップＳ１２の特徴学習処理を説明
するフローチャートである。

【図１１】図１０の処理を説明するフローチャートであ
る。

【図１２】図１の装置の画像認識処理を説明するフロー
チャートである。

【図１３】図１２のステップＳ７２のカテゴリテスト処
理を説明するフローチャートである。

【図１４】図１２のステップＳ７３の特徴テスト処理を
説明するフローチャートである。

【図１５】アプリケーションプログラムと撮像シーンの
関連付けを説明するフローチャートである。

【図１６】撮像シーンの認識によってアプリケーション
プログラムが起動されることを説明する図である。

【図１７】撮像シーンの認識によりアプリケーションプ
ログラムが起動されることを説明するフローチャートで
ある。

【図１８】本発明の実施例の一形態を示すシステム構成
図である。

【図１９】従来の携帯型パーソナルコンピュータの構成
例を示す斜視図である。

【符号の説明】

１共通部，２画像学習装置，３画像認識装
置，１１画像入力部，１２，１３フレームバッ
ファ，１４画像移動装置，１５画像差分検出装
置，１６情報収集装置，２１カテゴリ形成装
置，２１カテゴリ統計処理装置，２３学習装
置，３１カテゴリ選択装置，３２画像選択装
置，３３画像表示部，５１コホネンネットワー
ク，７１勝利数カウンタ，８１リカレントニュ
ーラルネットワーク，１０１コホネンネットワー
ク，１２１リカレントニューラルネットワーク

Claims

【特許請求の範囲】

【請求項１】入力された画像データと、その画像デー
タを移動した画像データとの差分の重心を演算する演算
手段と、前記演算手段により求められた前記重心の周辺の領域の
画像データの情報を収集する収集手段と、前記収集手段により収集された情報から、カテゴリを形
成する形成手段と、前記形成手段により形成されたカテゴリを学習する学習
手段とを備えることを特徴とする画像処理装置。
【請求項２】前記形成手段の出力を統計処理して、前
記学習手段に供給する統計処理手段をさらに備えること
を特徴とする請求項１に記載の画像処理装置。
【請求項３】前記形成手段は、コホネンネットワーク
を有することを特徴とする請求項１に記載の画像処理装
置。
【請求項４】前記収集手段は、前記周辺の領域の画像
データの情報として、RGBヒストグラムデータと２値化
データを生成することを特徴とする請求項１に記載の画
像処理装置。
【請求項５】前記学習手段は、リカレントニューラル
ネットワークを有することを特徴とする請求項１に記載
の画像処理装置。
【請求項６】入力された画像データを処理する画像処
理装置の画像処理方法において、入力された画像データと、その画像データを移動した画
像データとの差分の重心を演算する演算ステップと、前記演算ステップで求められた前記重心の周辺の領域の
画像データの情報を収集する収集ステップと、前記収集ステップで収集された情報から、カテゴリを形
成する形成ステップと、前記形成ステップで形成されたカテゴリを学習する学習
ステップとを含むことを特徴とする画像処理方法。
【請求項７】前記形成ステップでの処理の出力を統計
処理して、前記学習ステップでの学習のために供給する
統計処理ステップをさらに備えることを特徴とする請求
項６に記載の画像処理方法。
【請求項８】前記形成ステップは、コホネンネットワ
ークによって出力を生成するステップを含むことを特徴
とする請求項６に記載の画像処理方法。
【請求項９】前記収集ステップは、前記周辺の領域の
画像データの情報として、RGBヒストグラムデータと２
値化データを生成するステップを含むことを特徴とする
請求項６に記載の画像処理方法。
【請求項１０】前記学習ステップは、リカレントニュ
ーラルネットワークによって学習を行うステップを含む
ことを特徴とする請求項６に記載の画像処理方法。
【請求項１１】入力された画像データを処理する画像
処理装置に、入力された画像データと、その画像データを移動した画
像データとの差分の重心を演算する演算ステップと、前記演算ステップで求められた前記重心の周辺の領域の
画像データの情報を収集する収集ステップと、前記収集ステップで収集された情報から、カテゴリを形
成する形成ステップと、前記形成ステップで形成されたカテゴリを学習する学習
ステップとを含むことを特徴とするプログラムを実行さ
せる媒体。
【請求項１２】前記形成ステップの出力を統計処理し
て、前記学習ステップでの学習のために供給する統計処
理ステップをさらに備えることを特徴とする請求項１１
に記載の媒体。
【請求項１３】前記形成ステップは、コホネンネット
ワークによって出力を生成するステップを含むことを特
徴とする請求項１１に記載の媒体。
【請求項１４】前記収集ステップは、前記周辺の領域
の画像データの情報として、RGBヒストグラムデータと
２値化データを生成するステップを含むことを特徴とす
る請求項１１に記載の媒体。
【請求項１５】前記学習ステップは、リカレントニュ
ーラルネットワークによって学習を行うステップを含む
ことを特徴とする請求項１１に記載の媒体。
【請求項１６】入力された画像データと、その画像デ
ータを移動した画像データとの差分の重心を演算する演
算手段と、前記演算手段により求められた前記重心の周辺の領域の
画像データの情報を収集する収集手段と、前記収集手段により収集された情報から、カテゴリを選
択するカテゴリ選択手段と、前記カテゴリ選択手段によって選択されたカテゴリから
記憶された画像を選択する画像選択手段とを備えること
を特徴とする画像処理装置。
【請求項１７】前記カテゴリ選択手段は、コホネンネ
ットワークを有することを特徴とする請求項１６に記載
の画像処理装置。
【請求項１８】前記収集手段は、前記周辺の領域の画
像データの情報として、RGBヒストグラムデータと２値
化データを生成することを特徴とする請求項１６に記載
の画像処理装置。
【請求項１９】前記画像選択手段は、リカレントニュ
ーラルネットワークを有することを特徴とする請求項１
６に記載の画像処理装置。
【請求項２０】入力された画像データを処理する画像
処理装置の画像処理方法において、入力された画像データと、その画像データを移動した画
像データとの差分の重心を演算する演算ステップと、前記演算ステップで求められた前記重心の周辺の領域の
画像データの情報を収集する収集ステップと、前記収集ステップで収集された情報から、カテゴリを選
択するカテゴリ選択ステップと、前記カテゴリ選択手段によって選択されたがカテゴリか
ら記憶された画像を選択する画像選択ステップとを含む
ことを特徴とする画像処理方法。
【請求項２１】前記カテゴリ選択ステップは、コホネ
ンネットワークによって出力を生成するステップを含む
ことを特徴とする請求項２０に記載の画像処理方法。
【請求項２２】前記収集ステップは、前記周辺の領域
の画像データの情報として、RGBヒストグラムデータと
２値化データを生成するステップを含むことを特徴とす
る請求項２０に記載の画像処理方法。
【請求項２３】前記画像選択ステップは、リカレント
ニューラルネットワークによって画像選択を行うステッ
プを含むことを特徴とする請求項２０に記載の画像処理
方法。
【請求項２４】入力された画像データを処理する画像
処理装置に、入力された画像データと、その画像データを移動した画
像データとの差分の重心を演算する演算ステップと、前記演算ステップで求められた前記重心の周辺の領域の
画像データの情報を収集する収集ステップと、前記収集ステップで収集された情報から、カテゴリを選
択するカテゴリ選択ステップと、前記カテゴリ選択ステップで選択されたカテゴリから記
憶された画像を選択する画像選択ステップとを含むこと
を特徴とするプログラムを実行させる媒体。
【請求項２５】前記カテゴリ選択ステップは、コホネ
ンネットワークによって出力を生成するステップを含む
ことを特徴とする請求項２４に記載の媒体。
【請求項２６】前記収集ステップは、前記周辺の領域
の画像データの情報として、RGBヒストグラムデータと
２値化データを生成するステップを含むことを特徴とす
る請求項２４に記載の媒体。
【請求項２７】前記画像選択ステップは、リカレント
ニューラルネットワークによって画像選択を行うステッ
プを含むことを特徴とする請求項２４に記載の媒体。