JP2002150297A

JP2002150297A - 動画像学習方法およびこのプログラムを記録した記録媒体

Info

Publication number: JP2002150297A
Application number: JP2000338629A
Authority: JP
Inventors: Raichev Biser; ライチェフビセル; Hiroshi Murase; 洋村瀬
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2000-11-07
Filing date: 2000-11-07
Publication date: 2002-05-24
Anticipated expiration: 2020-11-07
Also published as: JP3639520B2

Abstract

(57)【要約】【課題】長時間環境映像データに含まれる多様な変動
を人間の介在なしに教師なしで追加学習する方法を提案
する。【解決手段】ユニット１は、映像データから顔領域を
抽出し、顔画像を時空間的に切り出し顔画像配列を作成
する。ユニット２は、全ての組み合わせの顔画像配列間
で顔画像配列の中に含まれる画像間の距離をもとに顔画
像配列間の距離を計算し、顔画像配列間の距離を用いて
初期サブクラスタを形成し、ｃｏｎｓｉｓｔｅｎｔ／ｉ
ｎｃｏｎｓｉｓｔｅｎｔエッジを用いて全てのサブクラ
スタを結合し、結合された各カテゴリー毎の動画像辞書
を作成しておく。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、人物顔動画像など
の動画認織のための学習技術にかかわり、特に実環境条
件の下で、カテゴリ（人の名前）に対する事前情報が与
えられていない長時間にわたる連続映像データを用いて
自己組織化的に画像を学習する方法に関するものであ
る。

【０００２】

【従来の技術】顔画像認識を例に説明する。顔画像認識
は、学習段階で作成された顔画像モデルと、未知の入力
顔画像とのパターン照合（距離値または類似度の計算）
により、実現される。

【０００３】従来の顔認識法における学習では、制限さ
れた環境条件で撮影され、かつ人手によって人名などの
カテゴリを付けられた少数の顔画像から学習を進めると
いう方法がとられていた。

【０００４】しかし、このアプローチでは、人手による
データの準備作業が必要であるので、多量の顔データを
学習に利用することが困難である。

【０００５】このアプローチを用いて実環境で顔認識を
行う場合には、限られた数の顔画像しか学習に利用でき
ないために、実環境で発生する様々な変動（例えば、照
明条件の変動、カメラ（視点）に対する顔の角度と距離
の変動、顔表情や眼鏡、ヘアスタイルなどによる顔の形
の変動）に単純に対処するだけの十分の学習データを蓄
積することは困難である。

【０００６】従来は、それに対処するために場当たり的
に、前処理を工夫したり、特徴の工夫がなされていた
が、十分な精度は得られていない。つまり、従来の顔認
識は、複雑な変化に富んだ実環境に対応するための柔軟
性が備わっていなかった。

【０００７】一方、人間が行う顔認識の場合では、学習
システムがいつでも動作していて、新しいデータが入力
されると、システムの内部状態を更新し、いつでも新し
いカテゴリを事前情報なしに追加できる。

【０００８】

【発明が解決しようとする課題】前記のように、顔画像
モデルと、未知の入力顔画像とのパターン照合による認
識方法では、人手によるデータの準備作業が必要とし、
多量の顔データを学習に利用することが困難であった。
また、十分な学習データを蓄積すること及び十分な精度
を得るのが困難であった。

【０００９】本発明では、人間によって事前に用意され
た情報を用いることなく、実環境でコンピューターが自
律的に長時間の連続データを自分のタスクの目的に応じ
て自己組織化的に学習し、学習途中で新しいカテゴリを
自然に追加できる方法を提案するものである。つまり、
本発明の目的は、長時間環境映像データに含まれる多様
な変動を人間の介在なしに教師なしで追加学習する方法
を提案することである。

【００１０】また、本発明の目的は、すべての過程（デ
ータ収集、格納、顔領域抽出、学習、認識）が自動的に
行われ、人手による作業は必要としない学習方法を提案
することである。

【００１１】

【課題を解決するための手段】本発明は、上記の目的を
達成するために、長時間環境映像データを用いて、その
中に現れる移動物体を自動的に抽出すると共に、複数の
抽出された移動物体をその情報を利用して自動的に関連
付けることにより、人為的にカテゴリを与えることなく
自動的に移動物体のカテゴリ分けを行うようにしたもの
である。また、カテゴリ分けの際に、対象情報がどのカ
テゴリに含まれるかを映像データに対して補足的に人手
で一部だけカテゴリ付けできるようにするものであり、
以下の学習方法および記録媒体を特徴とする。

【００１２】（学習方法の発明）連続的に撮影した環境
映像データから、映像内で移動する対象物体を教師なし
で自動的に学習する動画像学習方法において、事前に対
象物体のカテゴリ情報が与えられていないデータを撮影
する段階と、前記対象物体の動画像を時空間的に切り出
し動画像配列を作成する段階と、全ての組み合わせの前
記動画像配列間で動画像配列の中に含まれる画像間の距
離をもとに動画像配列間の距離を計算する段階と、前記
動画像配列間の距離を用いて初期サブクラスタを形成す
る段階と、ｃｏｎｓｉｓｔｅｎｔ／ｉｎｃｏｎｓｉｓｔ
ｅｎｔエッジを用いて全てのサブクラスタを結合する段
階と、前記結合された各カテゴリー毎の動画像辞書を作
成する段階と、から構成されることを特徴とする。

【００１３】また、前記切り出した動画像の一部に関し
てカテゴリ分けの事前情報を与える段階を備えたことを
特徴とする。

【００１４】また、前記ｃｏｎｓｉｓｔｅｎｔ／ｉｎｃ
ｏｎｓｉｓｔｅｎｔエッジを用いて全てのサグクラスタ
を結合する段階で、カテゴリ情報を与える段階と、与え
られたカテゴリ情報を基に前記ｃｏｎｓｉｓｔｅｎｔ／
ｉｎｃｏｎｓｉｓｔｅｎｔエッジを変更する段階とを備
えたことを特徴とする。

【００１５】（記録媒体の発明）連続的に撮影した環境
映像データから、映像内で移動する対象物体を教師なし
で自動的に学習する動画像学習方法を、コンピュータに
実行させるためのプログラムを、該コンピュータが読み
取り可能な記録媒体に記録した記録媒体であって、事前
に対象物体のカテゴリ情報が与えられていないデータを
撮影する過程と、前記対象物体の動画像を時空間的に切
り出し動画像配列を作成する過程と、全ての組み合わせ
の前記動画像配列間で動画像配列の中に含まれる画像間
の距離をもとに動画像配列間の距離を計算する過程と、
前記動画像配列間の距離を用いて初期サブクラスタを形
成する過程と、ｃｏｎｓｉｓｔｅｎｔ／ｉｎｃｏｎｓｉ
ｓｔｅｎｔエッジを用いて全てのサブクラスタを結合す
る過程と、前記結合された各カテゴリー毎の動画像辞書
を作成する過程とをプログラムで記録したことを特徴と
する。

【００１６】

【発明の実施の形態】図１は、本発明の実施形態を示す
ブロック構成図である。本実施形態では３つのユニッ
ト、顔領域抽出装置（ユニット１）、学習装置（ユニッ
ト２）、認識装置（ユニット３）から構成される。

【００１７】顔領域抽出装置１は、長時間連続の環境映
像データに出現する人物の顔領域を自動的に抽出し、そ
の大きさを正規化し、画像に人物が出現してから消失す
るまでの一連の顔画像系列（これを動画像配列と呼ぶ）
を作成し、ファイルに格納し、後段の学習／認識装置
２、３に入力情報を提供する。

【００１８】学習装置２は、後述の学習アルゴリズムを
用いて、事前のカテゴリ情報を含まない多数の動画像配
列をカテゴリごとに組織化する。その結果に従って、シ
ステムの内部状態も適切に更新される。ここで、内部状
態とは、動画像配列間のどれとどれが同じカテゴリーに
属するかを示す表現のことを言う。

【００１９】認識装置３は、システムの最新の動画像辞
書（登録された動画像配列）と認識すべき入力データ
（入力動画像から顔領域抽出装置により切り出された動
画像配列）との照合に基づいて顔認識を行い、認識結果
を出力する。

【００２０】はじめに、学習や認識のための準備段階と
しての顔領域抽出装置の一例について、図２のフローチ
ャートを用いて説明する。

【００２１】ステップ２０１では、固定したカメラから
連続的に環境映像データが入力されるが、隣り合った２
枚の画像を引算し、閾値をとってバイナリ差分画像を作
成する。

【００２２】ステップ２０２では、作成された差分画像
から、観察されている環境は変化があったかどうかを判
断する。人物の登場に相当する変化がない場合、変化が
あるまでステップ２０１とステップ２０２を繰り返す
が、変化があった場合にはステップ２０３へ進む。

【００２３】ステップ２０３では、前ステップで作った
バイナリ差分画像からサブサンプリングを繰り返しなが
ら多解像度画像ピラミッドを作成する。サブサンプリン
グは、元の画像の各２×２ピクセル領域を（領域内の
「１」の数に基づいて）「１」または「０」値のピクセ
ルに置き換える。なお、多解像度画像を用いることによ
って、顔領域の座標をもっと安定で正確に計算すること
ができる。すなわち、低い解像度の画像がノイズの影響
を受けにくいので比較的安定に顔領域を決めることがで
きるが、正確ではない。逆に、高い解像度の画像から顔
領域を正確に決めることができるがノイズの影響を受け
やすい。以下で説明する顔領域抽出アルゴリズムは各解
像度の画像でパラレルに行われ、それぞれの計算結果か
後で述べるように、ステップ２０７で統合される。

【００２４】次のステップ２０４では、照明条件の変
動、衣服のテキスチャーなどの原因によるノイズの影響
で人物領域内にできている「０」値の「穴」を埋めるた
めに全画像に、次のようなフィルターを掛ける。

【００２５】画像全体に３×３ピクセルの窓を１ピクセ
ルステップで移動させながら、窓の中に少なくとも２つ
の異なった行と２つの異なった列には同時に値「１」の
ピクセルが存在すれば、窓の中心にあるピクセルを
「１」に置き換える。この操作を左右、右左、上下、下
上方向で何回か（あるいは変化がなくなるまで）行う。

【００２６】次のステップ２０５では、前段階で作成さ
れた画像の重心とｘヒストグラム（画像の各列に含まれ
る「１」の数を表す関数）を計算して、重心からｘヒス
トグラムの全エネルギーの例えば９０％が含まれる領域
を人物領域として切り出す。つまり、人物の面積が、背
景に動く他の物体、陰、ノイズなどの面積よりずっと大
きいと仮定している。

【００２７】ステップ２０６では、ステップ２０５で抽
出された人物領域上に、改めてｘヒストグラムとｙヒス
トグラムを計算し、それらの内容の解析を行うことによ
って顔座標を決定する。

【００２８】ステップ２０７では、各解像度で計算され
た顔領域の座標の中央値（ｍｅｄｉａｎ）が求められ、
最終的な顔領域の座標を得る。

【００２９】ステップ２０８では、上記のように抽出さ
れた顔画像を一定のサイズに正規化する。実際の入力デ
ータから得られた最終的な動画像の一例を図４に示す。

【００３０】その後、ステップ２１０では、カメラから
次の画像が読み取り、背景画像とのバイナリ差分画像を
作成する。

【００３１】ステップ２１１では、ステップ２１０で作
成した差分画像から人物がカメラの視野からいなくなっ
たかどうかを検出する。この検出により、人物がまだい
る場合にはステップ２０３に戻り、収得した画像を処理
する。

【００３２】ステップ２１２では、人物がカメラの視野
からいなくなった場合、その時点までの一連の顔画像の
系列を動画像配列として、動画像ファイルに記憶（格
納）する。

【００３３】次に、本発明の重要な要素である学習装置
２の動作を、図３のフローチャートを用いて以下に説明
する。

【００３４】先ず、最初のステップ３０１では、前段階
で（ｍｏｖｉｅファイルとして）得られた動画像配列
（顔画像が連なったもので、１つの連続した動画像に対
応）をコンピューターのメモリに読み込む。前記のとお
り、それぞれの動画像配列に関するカテゴリ情報は事前
に与えられていない。例えば、Ｘ個の異なった人物に対
するＮ個の動画像配列（Ｎ≧Ｘ）が与えられるが、どの
配列がどの人物に対応するかという情報は予め与えられ
ない。

【００３５】ステップ３０２では、蓄積された２つの動
画像配列間の距離を計算するために、一方の動画像配列
のｉ番目の顔画像と、もう一方の動画像配列に含まれる
ｊ番目の顔画像との間で距離値が計算され、行列Ｄ_ijに
納める。そのとき、２枚の顔画像間の距離の計算の仕方
としては、さまざまのものが考えられるが、ここではそ
の１例として動画像をピクセル毎に引き算し、絶対値を
とり、結果がある閾値より大きければ「１」と見なし、
小さければ「０」とする。このように得られたバイナリ
画像の中に含まれる「１」の総数を両顔画像の間の距離
値として定義される。

【００３６】ステップ３０３では、行列Ｄ_ijを用いて各
動画像配列と他の全ての配列との間の最短距離を選んで
最短距離行列Ｍに納める。例えば、行列Ｍの中のＭ_ijは
配列ｉと配列ｊとの間の最短距離を意味している。両動
画像配列には多数の顔画像が入っているが、その中の一
番近い顔の対を代表として選び、それらの間の距離がＭ
_ijとなる。

【００３７】ステップ３０４では、行列Ｍの値に基づい
て多数の初期サブクラスターグラフを形成する。各配列
が一点のノードとして表示され、各ノードをそれに一番
近いノードだけと（エッジで）結合され、このようにし
て出来上がった各々のグラフを初期サブクラスターグラ
フと名付ける。二つのノードをつなぐエッジを２種類定
義し、片方はｃｏｎｓｉｓｔｅｎｔエッジと呼んで同じ
カテゴリのノード（動画像配列）をつなぐのに用いて、
もう一方はｉｎｃｏｎｓｉｓｔｅｎｔエッジと呼んで異
なるカテゴリのノードをつなぐのに用いる。但し、ステ
ップ３０４で形成される初期サブクラスターグラフの中
のエッジは全てｃｏｓｉｓｔｅｎｔエッジである。

【００３８】次のステップ３０５では、初期サブクラス
ターをノードの数によってソートし、小さいサブクラス
ター（含まれるノードの数が少ない）から開始して、他
のサブクラスターの内一番近いサブクラスターとエッジ
でつなげられる。そのときののエッジの種類は後述する
ルールによって決められる。二つのサブクラスターが結
合されると同時に併合され、新しいサブクラスターが生
成される。この過程は再帰的に、全てのサブクラスター
が一つだけの大きいクラスターに併合されるまで繰り返
される。二つのサブクラスターを最短距離エッジ（例え
ばノードＡとノードＢの間のエッジ）でつなぐときに、
エッジの種類は次のようなルール（ｃｏｎｓｉｓｔｅｎ
ｃｙ基準）で決定される。ノードＡとノードＢとの間の
長さＬのエッジがｃｏｓｉｓｔｅｎｔであるために同時
に満たすべき二つの条件を次に示す。

【００３９】条件１「ノードＡとｃｏｎｓｉｓｔｅｎｔ
エッジで直接につながっているノードの内、ノードＡか
ら最も遠いノード（ＦＮ）との間の距離Ｌ１がＣｘＬよ
り小さいこと。ただし、ここでＣは定数である。」条件２「ノードＢとｃｏｎｓｉｓｔｅｎｔエッジで直接
につながっているノードの内、ノードＢから最も遠いノ
ード（ＦＮ）との間の距離Ｌ２がＣｘＬより小さいこ
と。ただし、ここでＣは定数である。」図５は、ノードＡ、ノードＢとそれぞれのＦＮノードの
関係を示した一例である。条件１と条件２を同時に満た
さないノードはｉｎｃｏｎｓｉｓｔｅｎｔエッジによっ
て結合される。

【００４０】最後のステップ３０６では、上記の過程に
よって形成されたグラフをトラバースしながらｃｏｓｉ
ｓｔｅｎｔエッジでつながっているノードによって表示
されている動画像配列を同じ顔カテゴリとして出力す
る。ここで、ｉｎｃｏｓｉｓｔｅｎｔエッジの役割は、
異なったカテゴリに属するサブクラスターを分離するこ
とである。図６は、実際の入力データを使用したとき、
上記の過程で形成されたグラフの一例を示したものであ
る。図６では、各ノードが一つの動画像配列に相当し、
文字は配列に映されている実際の人物名の頭文字であ
り、番号は配列番号である。実線で表示されているエッ
ジがｃｏｎｓｉｓｔｅｎｔエッジであり、点線はｉｎｃ
ｏｎｓｉｓｔｅｎｔエッジを表し、数字はエッジの長さ
（２つのノードの間の最短距離）を表している。

【００４１】このグラフはシステムの現在の内部状態を
表し、認識過程ではその内部状態を一時的に固定したま
まで入力に相当するノードをステップ３０５で説明した
ｃｏｓｉｓｔｅｎｃｙ基準に基づいて、ｃｏｎｓｉｓｔ
ｅｎｔ／ｉｎｃｏｎｓｉｓｔｅｎｔエッジで内部状態グ
ラフと結合し、そのエッジがｃｏｓｉｓｔｅｎｔエッジ
の場合、入力のカテゴリがエッジの他方にあるノードと
同じカテゴリであると見なす。一方、ｉｎｃｏｓｉｓｔ
ｅｎｔエッジの場合、新しい（まだ登録されていない）
カテゴリに属することとなる。

【００４２】追加学習は下記のアルゴリズムによって行
われる。但し、システムの現在の内部状態がＮ個のノー
ドから構成されたグラフによって表現されると仮定し、
以下では、図７に示す内部状態で入力されるＮ＋１個目
のノードに対して追加学習を行うこととする。

【００４３】ステップ１：新しく入力されたノードに対
して、行列Ｍで新しい（Ｎ＋１）個目の列を計算し追加
する。

【００４４】ステップ２：新しいノードの最も近いノー
ドｋを見つけて、前述のｃｏｎｓｉｓｔｅｎｃｙ基準に
基づいていて両ノードをｃｏｓｉｓｔｅｎｔ／ｉｎｃｏ
ｎｓｉｓｔｅｎｔエッジでつなぐ。ｉｎｃｏｎｓｉｓｔ
ｅｎｔエッジの場合、ステップ４に進む。

【００４５】ステップ３：ノードｋと同じクラスターに
属する全てのノードｌに対して、ノードｌと新しいノー
ドとの間の距離Ｄ₁、そしてノードｌとそれから最も近
いノードｎとの間の距離Ｄ₂を計算する。もし、Ｄ１＜
Ｄ２であれば、ノードｌと新しいノードをｃｏｎｓｉｓ
ｔｅｎｔエッジでつなぐ。その後、ノードｌと直接ｃｏ
ｓｉｓｔｅｎｔエッジでつながっているすべてのノード
ｍに対して（ノードｎも含めて）、ｌとｍとの間の距離
Ｄ（ｌ，ｍ）とｍと新しいノードとの間の距離Ｄ（Ｎ＋
１，ｍ）を計算し、Ｄ（ｌ，ｍ）＜Ｄ（Ｎ＋１，ｍ）で
あれば、ｍとｌとの間のエッジを削除し、ｍと新しいノ
ードとの間に新しいエッジ（もしそんなエッジがまだ存
在しなければ）を入れる。

【００４６】ステップ４：新しいノードが属するクラス
ターＣ_k（図８参照）と、ｉｎｃｏｎｓｉｓｔｅｎｔエ
ッジＥ_ikによってつながっているクラスターＣ_i（そう
いうクラスターが存在すれば）のすべてのノードＰ_iに
対して、新しいノードとの間の距離Ｄ（Ｐ_i，Ｎ＋１）
を計算し、Ｄ（Ｐ_i，Ｎ＋１）＜Ｅ_ikであれば、Ｅ_ikを
削除し、Ｐ_iと新しいノードとの間に新しいエッジＥ_ik
を挿入する（そのエッジの種類をｃｏｓｉｓｔｅｎｃｙ
基準に基づいて決める）。その後、ｉｎｃｏｎｓｉｓｔ
ｅｎｔエッジＥ_ijでつながっているクラスターＣ_iとＣ_j
が存在したら（但し、Ｃ_iがＣ_kとつながってもいいが、
Ｃ_jはＣ_kとはつながっていない場合に限る）、クラスタ
ーＣ_jに属するすべてのノードＰ_jに対して、新しいノー
ドとの間の距離Ｄ（Ｐ_j，Ｎ＋１）を計算し、Ｄ（Ｐ_i，
Ｎ＋１）＜Ｅ_ijが満たされば、Ｅ_ijを削除し、Ｐ_jと新
しいノードの間に新しいエッジＥ_jkを入れる（そのエッ
ジの種類をｃｏｎｓｉｓｔｅｎｃｙ基準に基づいて決め
る）。しかし、Ｃ_iがＣ_kにつながっていなければ、この
操作をＣ_iまたはＣ_jが他のクラスターから切断されない
場合に限って行う。

【００４７】上述の追加学習法は、最初の段階である程
度データが集まってから学習を行い、その後、追加学習
を行う仕組みになっているが、最初から逐次的に学習を
行うこと（所謂オンライン学習）も考えられる。オンラ
インバージョンの場合、最初は２つのノードだけが与え
られ、それらがいくら離れていてもｃｏｎｓｉｓｔｅｎ
ｔエッジでつなぎ、その後、新しく入力されるノードが
上記の追加学習法に基づいてグラフに挿入される。ある
程度データが集まってから定期的に全てのノードに対し
てｃｏｎｓｉｓｔｅｎｃｙチェックを行い、ｃｏｎｓｉ
ｓｔｅｎｃｙ基準を満たさないノードの間のエッジをｉ
ｎｃｏｎｓｉｓｔｅｎｔエッジに置き換える。

【００４８】提案する学習法の特徴としては、追加学習
の場合システムの内部状態を最初から再学習する必要が
なく、新しい部分だけに関連ある結合が更新・追加さ
れ、関連のない部分がそのままに残る。これによって、
生物などが行うような自然な追加学習が実現できるだけ
ではなく、莫大な計算量の節約も可能である。特に、実
環境では、システムの内部状態が長時間のデータに基づ
いて形成されるので、本方法の利用が有利である。

【００４９】なお、上記の実施形態における学習装置２
は、例えば図６の状態で新たな対象情報が入力されたと
きに、そのカテゴリ分けには全てのノードとの比較を行
うことで対象情報のグラフでの位置を自動計算によって
決定する場合を示すが、入力される対象情報があらかじ
めどのカテゴリに含まれるかの情報を人手で一部与える
ことにより、学習をより正確にすることができる。例え
ば、与えられた対象情報がＦで表されているカテゴリで
ある場合には、自動的なカテゴリ分けをすることなく、
直接に図６におけるＦ１〜Ｆ６のノードとの間の距離を
計算し、正確なグラフ位置を決定することができる。

【００５０】また、ｃｏｎｓｉｓｔｅｎｔ／ｉｎｃｏｎ
ｓｉｓｔｅｎｔエッジを用いてサブクラスタを結合する
において、自動学習によるカテゴリ情報または人手で与
えるカテゴリ情報を基にｃｏｎｓｉｓｔｅｎｔ／ｉｎｃ
ｏｎｓｉｓｔｅｎｔエッジを変更するステップを追加す
ることにより、生成されたカテゴリを示すグラフが間違
って繋がれた場合にその修正が可能となる。

【００５１】また、以上までの説明では顔画像を対象と
する場合を示すが、本発明はそれ以外の対象物体につい
ても同様な処理が可能である。

【００５２】また、図２及び図３に示した方法又は図１
に示した装置の一部又は全部をコンピュータプログラム
で記載してそれを実行できるようにし、それをコンピュ
ータが読み取り可能な記録媒体、例えば、フロッピーデ
ィスク（登録商標）や、ＭＯ、ＲＯＭ、メモリカード、
ＣＤ、ＤＶＤ、リムーバブルディスクなどに記録して提
供し、配布することが可能である。

【００５３】

【発明の効果】以上説明したように、本発明によれば以
下の効果が得られる。

【００５４】（１）実環境条件下で、人間によって事前
に用意された情報を用いずに、コンピューターが自律的
に長時間の連続データを自分のタスクの目的に応じて自
己組織化的に学習し、認識することが可能になる。

【００５５】（２）入力データから連続的に抽出される
動画像の顔画像１枚１枚をテンプレートとして使用する
ことによって、照明条件、サイズや視点角度の変動の影
響が受けにくくなるので、学習／認識過程の効率を向上
させることができる。

【００５６】（３）学習途中で新しいカテゴリのデータ
が与えられた場合、システムを最初から再学習する必要
がなく、柔軟性のある自然な追加学習や認識が可能にな
る。

【００５７】（４）本発明の学習方法を利用することに
より、クラス内のサンプルデータが連続的に分布し、ク
ラス間の距離がクラス内の距離より大きい場合でも認識
が可能である。

【００５８】（５）データ収集、格納、顔領域抽出、学
習、認識の全ての過程が自動的に行われるため、人手に
よる作業を大幅に節約できる。

【００５９】（６）本発明の学習法の特徴としては、各
顔カテゴリのサンプル数が極端に異なっても問題にはな
らない。つまり、本発明方法はサンプルの分布の形には
依存しないという利点がある。

【００６０】（７）本発明の学習方法を用いて物体認識
で使用されるさまざまな特徴の評価を行うことができ
る。

【図面の簡単な説明】

【図１】本発明の構成例を示すフロック図。

【図２】本発明の顔領域抽出法を説明するためのフロー
チャート。

【図３】本発明の学習方法を説明するためのフローチャ
ート。

【図４】カメラから入力される画像配列から抽出された
顔画像配列の例

【図５】ｃｏｓｉｓｔｅｎｃｙ基準を説明するための補
助図。

【図６】本発明の学習法によって形成されたシステムの
内部状態の一例。

【図７】本発明における追加学習法（ステップ１〜３）
を説明するための補助図。

【図８】本発明における追加学習法（ステップ４）を説
明するための補助図。

【符号の説明】

１…顔領域抽出装置（ユニット１）２…学習装置（ユニット２）３…認識装置（ユニット３）

Claims

【特許請求の範囲】

【請求項１】連続的に撮影した環境映像データから、
映像内で移動する対象物体を教師なしで自動的に学習す
る動画像学習方法において、事前に対象物体のカテゴリ情報が与えられていないデー
タを撮影する段階と、前記対象物体の動画像を時空間的に切り出し動画像配列
を作成する段階と、全ての組み合わせの前記動画像配列間で動画像配列の中
に含まれる画像間の距離をもとに動画像配列間の距離を
計算する段階と、前記動画像配列間の距離を用いて初期サブクラスタを形
成する段階と、ｃｏｎｓｉｓｔｅｎｔ／ｉｎｃｏｎｓｉｓｔｅｎｔエッ
ジを用いて全てのサブクラスタを結合する段階と、前記結合された各カテゴリー毎の動画像辞書を作成する
段階と、から構成されることを特徴とする動画像学習方
法。
【請求項２】前記切り出した動画像の一部に関してカ
テゴリ分けの事前情報を与える段階を備えたことを特徴
とする請求項１記載の動画像学習方法。
【請求項３】前記ｃｏｎｓｉｓｔｅｎｔ／ｉｎｃｏｎ
ｓｉｓｔｅｎｔエッジを用いて全てのサグクラスタを結
合する段階で、カテゴリ情報を与える段階と、与えられ
たカテゴリ情報を基に前記ｃｏｎｓｉｓｔｅｎｔ／ｉｎ
ｃｏｎｓｉｓｔｅｎｔエッジを変更する段階とを備えた
ことを特徴とする請求項１または２記載の動画像学習方
法。
【請求項４】連続的に撮影した環境映像データから、
映像内で移動する対象物体を教師なしで自動的に学習す
る動画像学習方法を、コンピュータに実行させるための
プログラムを、該コンピュータが読み取り可能な記録媒
体に記録した記録媒体であって、事前に対象物体のカテゴリ情報が与えられていないデー
タを撮影する過程と、前記対象物体の動画像を時空間的
に切り出し動画像配列を作成する過程と、全ての組み合
わせの前記動画像配列間で動画像配列の中に含まれる画
像間の距離をもとに動画像配列間の距離を計算する過程
と、前記動画像配列間の距離を用いて初期サブクラスタ
を形成する過程と、ｃｏｎｓｉｓｔｅｎｔ／ｉｎｃｏｎ
ｓｉｓｔｅｎｔエッジを用いて全てのサブクラスタを結
合する過程と、前記結合された各カテゴリー毎の動画像
辞書を作成する過程と、をプログラムで記録したことを
特徴とする記録媒体。