JP5952942B2

JP5952942B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP5952942B2
Application number: JP2015118567A
Authority: JP
Inventors: 東條　洋; 洋東條; 矢野　光太郎; 光太郎矢野
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-06-11
Filing date: 2015-06-11
Publication date: 2016-07-13
Anticipated expiration: 2031-05-11
Also published as: JP2015165433A

Description

本発明は、情報処理装置及び、情報処理方法、及びプログラムに関する。特に、画像から、人物などの特定の被写体を検出する装置や方法などに適用される情報処理装置及び、情報処理方法、及びプログラムに関する。

カメラで撮影した画像から物体を検出する技術として、背景差分法によって移動物体を検出する方法が知られている。背景差分法は、予め、固定したカメラにより被写体がいない背景の画像を撮影し、その特徴量を背景モデルとして記憶する。その後、カメラから入力された画像中の特徴量と背景モデル中の特徴量とを比較し、入力された画像において特徴量が背景モデルの特徴量と異なる領域を前景（物体）として検出する。

しかしながら、背景は時間と共に変化することがある。例えば、照明変化によって背景の明るさが変化する場合である。これにより、現にカメラで撮影している画像の背景と、過去に撮影し記憶された背景画像との間に差分が生じてしまい、正常な検出が行えなくなる。特許文献１では、背景変化の影響を軽減するために、背景モデルを逐次更新することが記載されている。さらに、特許文献１では、侵入物体を検出すると、更新処理による当該侵入物体の背景化を防ぐため、侵入物体が検知された領域を背景更新の対象領域から除外する方法が記載されている。また、特許文献２では、入力画像から指数平滑法により背景画像を更新する方法が記載されている。

ここで、静止物体、例えば、鞄や花瓶が、新たに出現した場合について考える。このような物体は、人物によって置き去りにされた可能性があるので、しばらくの間は検出し続けることが望ましい。一方で、長時間置かれている物体は、背景の一部として扱う方が望ましい場合もある。しかしながら、特許文献１は、侵入物が検出された領域では背景を更新しないため、当該領域が常に前景として検出され続けることとなる。このため、置かれた物体を後に背景として扱いたい場合、背景モデルを初期化する必要があった。また、特許文献２では、新たに出現した物体は、所定の時間を経過することにより、どのような物体であっても背景として扱われる。このため、検出したい物体の種別や状況によってユーザが検出し続ける時間を変えることができなかった。

これに対し、特許文献３では、画像特徴量の差分だけでなく、画像特徴量が映像中にどのくらいの時間存在していたかを示す時間情報を、撮影画像中の前景と背景とを判定する条件として利用し、物体を検出する方法が記載されている。また、このために、特許文献３では、背景の特徴量のみならず、検出された物体の特徴量も背景モデルの状態として同時に保持する。そして、その物体の特徴量が映像中に出現するたびに、その特徴量に対応する時間情報を更新する。例えば、赤い鞄が置かれると、背景モデルの状態として、赤い特徴量をもつ状態が追加される。そして、赤い鞄がそのまま置き去りにされると、赤い特徴量をもつ状態が常に映像中の同じ位置に存在することとなるため、存在が確認されるたびに時間情報が更新される。これにより、所望の時間が経過するまでは背景以外の物体として検出し、その後は背景として扱うことが可能となる。

特開２００２−０９９９０９号公報特許第２９１３８８２号公報米国特許出願公開第２００９／０２９００２０号明細書

しかしながら、例えば待合室のような場所では、人物はしばしば一定の期間、一か所に停止し、その後に動き出すといった動作を行う。特許文献３のように時間情報を物体の判定条件に加えても、人物が所定時間より長く停止し続けていると背景とみなされてしまう。結果として、人物は常に検出する対象であることが望ましい場合であっても、人物が検出できなくなってしまう。特許文献２でも同様に、停止し続けた人物は背景化され、検出できなくなる。一方、特許文献１によれば、人物は常に検出されるが、今度は前述したように背景として取り扱うべき置き去り物をいつまでも検出し続けてしまうことになる。従って、従来の技術では静止物体の一時的な検出（置き去り物の検出）と、人物など特定の被写体の恒常的な検出を両立させることができないという課題があった。

上記課題を解決するために、本発明における情報処理装置は、画像を取得する取得手段と、前記取得手段により取得された画像に基づいて、領域毎に、特徴量を表す特徴量情報と、被写体としての確信度を表す確信度情報と、出現時間または存在時間を規定する時間情報とを含むモデル情報を記憶する記憶手段と、前記取得手段により取得された被写体検出対象の画像から領域毎に特徴量を抽出する抽出手段と、前記領域毎に、前記被写体検出対象の画像から抽出した特徴量と、前記モデル情報に含まれる特徴量情報の表す特徴量との差分を算出する算出手段と、前記被写体検出対象の画像において、前記差分が閾値未満の領域のうち、前記モデル情報に含まれる確信度情報の表す確信度が所定確信度以上の領域と、前記モデル情報に含まれる時間情報により規定される出現時間または存在時間が所定時間未満の領域とを、前景領域と判定する判定手段と、前記前景領域から被写体を検出する検出手段と、を備えることを特徴とする。

本発明によれば、取得した画像の所定の画素、又は所定の領域における、被写体としての確からしさを示す確信度を用いることにより、被写体である確率が高い領域を前景として検出し続けることができる。

実施形態に係る情報処理装置のハードウェア構成を示すブロック図。実施形態に係る情報処理装置の機能構成を示すブロック図。実施形態に係る情報処理装置の動作を示すフローチャート。差分計算処理の動作を示すフローチャート。背景モデルの一例を表す図。最小差分値情報の一例を表す図。状態判定処理の動作を示すフローチャート。状態判定情報の一例を表す図。前景検出処理の動作を示すフローチャート。前景フラグ情報の一例を表す図。前景領域情報の一例を表す図。被写体検出処理の動作を示すフローチャート。物体領域情報の一例を表す図。確信度分布画像の一例を表す図。確信度分布画像における確信度の一例を表す図。確信度の算出処理の第１の方法の動作を示すフローチャート。累積スコア情報の一例を表す図。確信度情報の一例を表す図。前景フラグにより特定される領域と被写体領域の重なりの一例を表す図。確信度の算出処理の第３の方法の動作を示すフローチャート。背景モデルの更新処理の動作を示すフローチャート。

＜＜実施形態１＞＞
以下、添付図面に従って本発明に係る各実施形態について説明する。

（ハードウェア構成）
図１は本発明の実施形態における情報処理装置のハードウェア構成を示すブロック図である。本実施形態に係る情報処理装置は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、２次記憶装置１０４、画像取得装置１０５、入力装置１０６、表示装置１０７、ネットワークインターフェース（ネットワークＩ／Ｆ）１０８、及びバス１０９を含む。

ＣＰＵ１０１は、ＲＯＭ１０２やＲＡＭ１０３に格納されたプログラムに従って命令を実行する演算装置である。ＲＯＭ１０２は、不揮発性メモリであり、本発明のプログラムやその他の制御に必要なプログラムやデータを格納する。ＲＡＭ１０３は、揮発性メモリであり、画像データやパターンの判別結果などの一時的なデータを記憶する。２次記憶装置１０４は、例えばハードディスクドライブやフラッシュメモリーなどの書き換え可能な２次記憶装置である。２次記憶装置は画像情報や情報処理プログラムや各種設定内容などを記憶し、記憶された情報はＲＡＭ１０３に転送されてから、ＣＰＵ１０１により利用される。

画像取得装置１０５は、例えば、デジタルビデオカメラ、ネットワークカメラ、又は赤外線カメラなどの撮影装置で撮影された画像を取得する。また、画像取得装置１０５は、ハードディスクなどに蓄積された撮影画像を取得してもよい。入力装置１０６は、例えばキーボード、マウス、又はカメラに取り付けられたボタンなどであり、ユーザからの入力の受付、及び入力情報の取得をする。入力装置１０６は、例えばマイクと音声認識装置により構成されてもよく、音声によりユーザからの入力の受付、及び入力情報の取得をしてもよい。表示装置１０７は、ブラウン管ＣＲＴや液晶ディスプレイ、あるいはスピーカなど、ユーザの視覚や聴覚を通じて情報を提示する装置であり、例えば処理結果を画面に表示する。ネットワークＩ／Ｆ１０８は、例えば、インターネットやイントラネットなどのネットワークと接続を行うモデムである。バス１０９は、これらを接続して相互にデータの入出力を行う。本実施形態に係る情報処理装置は、オペレーティングシステムの上で動作するアプリケーションとして実装される。

（機能構成）
図２は本実施形態に係る情報処理装置の機能構成を表すブロック図である。２０１は画像取得手段であり、画像取得装置１０５を用いて解析対象の画像を取得する。２０２は特徴量抽出手段であり、画像取得手段２０１において取得された画像（以下「取得画像」という）を解析し、画像の中に含まれる特徴量を抽出する。２０３は差分算出手段であり、後述の記憶手段２０４に記憶された背景モデルに含まれる特徴量情報と、取得画像の特徴量との差分を求め、背景モデルと解析対象の画像の特徴量を比較するものである。２０４は記憶手段であり、ＲＡＭ１０３、又は２次記憶装置１０４により構成される。記憶手段２０４は、画像中の各位置における状態を、特徴量抽出手段２０２で抽出された特徴量を示す特徴量情報や、後述する確信度を示す確信度情報を含む、背景モデルとして記憶する。ここで画像中の位置とは、例えば画素を表す位置であり、画像中の左上の端点を原点とする座標で表される。２０５は状態判定手段であり、差分算出手段２０３の結果に応じて、記憶手段２０４に記憶された状態の情報の中から、取得画像に類似する状態が存在するか否かを判定する。そして、取得画像に類似する状態が存在しない場合はその旨を示す情報を、取得画像に類似する状態が存在する場合は、その類似する状態を示す情報を出力する。２０６は前景検出手段であり、状態判定手段２０５の結果に基づいて、取得画像中の各位置が前景部分であるか背景部分であるかを判定し、前景である領域を検出する。２０７は被写体判定手段であり、前景検出手段２０６において前景と判定された領域から、検出対象である特定の被写体が存在する領域を検出する。なお、本実施形態では、特定の被写体は人体である例について説明する。２０８は確信度算出手段であり、被写体判定手段２０７の結果に基づいて、画像の各位置の被写体として確信度を算出する。２０９は背景モデル更新手段であり、状態判定手段２０５と確信度算出手段２０８の結果に基づいて、記憶手段２０４に記憶されている背景モデルの更新を行う。

本実施形態に係る情報処理装置は、前景部分と背景部分を区別するために、被写体（例えば人体）が表されていることの確からしさを示す指標である確信度という概念を導入する。そして、情報処理装置は、過去に解析された画像に関する特徴量情報、及び確信度情報を用いて、解析対象の取得画像の領域において、確信度情報が一定の値を超える過去の状態と類似する領域は、時間の経過によらず前景として取り扱う。これにより、人物など特定の被写体を、時間の経過と共に背景と判定することを防ぎ、恒常的に検出することが可能となる。

（動作フロー）
続いて、本実施形態に係る全体の処理の流れについて図３を用いて説明する。まず、画像取得手段２０１は、例えば所定時間ごとに撮像された画像を取得する（Ｓ３０１）。特徴量抽出手段２０２は取得画像から特徴量を抽出する。続いて、差分算出手段２０３は、記憶手段２０４より背景モデルに含まれる特徴量情報を読み出して、取得画像の特徴量との差分を計算する（Ｓ３０２）。

状態判定手段２０５は、差分算出手段２０３の結果に基づいて、記憶手段２０４中に記憶された状態の中から、取得画像の状態に類似する状態が存在するか否かを判定する。そして、類似する状態が存在する場合、その状態がどの状態であるかを判定する（Ｓ３０３）。前景検出手段２０６は、取得画像について、背景モデルに含まれる確信度情報や状態の出現時間などにより前景領域を検出する（Ｓ３０４）。被写体判定手段２０７は、例えば、被写体と同様の特徴を有する画像に基づいて、前景領域に被写体が存在しているか否かの判定を行う（Ｓ３０５）。そして、被写体判定の結果に関する情報が出力される（Ｓ３０６）。ここで、情報処理装置は、出力された情報に基づき、取得画像に矩形を重ね描きして表示装置１０７に表示することにより、ユーザに検出対象の存在を通知することができる。また、情報処理装置は、出力された情報に基づいて、侵入検出や置き去り検出などを実行することができる。

被写体判定手段の検出結果は、確信度算出手段２０８にも入力され、確信度算出手段２０８は、被写体判定手段２０７の検出結果に基づいて確信度を算出する（Ｓ３０７）。背景モデル更新手段２０９は、状態判定手段２０５と確信度算出手段２０８の結果に基づいて、記憶手段２０４に記憶されている背景モデルの更新を行う（Ｓ３０８）。そして、電源ＯＦＦなどによるユーザからの終了指示の判定を行う（Ｓ３０９）。終了指示が行われるまで、Ｓ３０１からＳ３０８の処理を繰り返す。なお、本フローにおいては、Ｓ３０８の後に終了指示の判定を実行するが、これに限られない。例えば、電源ＯＦＦされた場合は、いかなるステップにおいても直ちに処理を中止し、直近のＳ３０１から中止された時点までの処理により得られた情報を破棄することとしてもよい。

上記の説明における各ステップは例示であり、全てのステップが実行されなくてもよい。例えば、画像を取得し（Ｓ３０１）、過去の取得画像に対応する確信度情報を用いて前景検出（Ｓ３０４）を実行し、確信度算出（Ｓ３０７）で確信度を算出して、前景検出後に確信度情報を更新（Ｓ３０８）することとしてもよい。これによれば、確信度情報を用いて前景を検出することで、確信度情報の高い被写体が存在する領域を恒常的に前景として検出し続けることが可能となる。先に計算され記憶された確信度を用いることで、画像を取得（Ｓ３０１）後、高速に前景検出を実行することができる。

（差分算出処理）
Ｓ３０２の差分算出処理の詳細について、図４を用いて説明する。まず、特徴量抽出手段２０２において、各位置における取得画像の状態を表す値として、特徴量を抽出する（Ｓ４０１）。

特徴量は、例えば、輝度、色、エッジを用いることができ、これらを組み合わせたものとしてもよく、また、特にこれらに限定されない。また、特徴量は、例えば画素ごとに抽出してもよく、画素ごとでなく、複数の画素の集合である部分領域ごとに抽出してもよい。なお、本説明においては、画素と部分領域とを区別して説明しているが、これらを区別する必要はなく、１つの画素も、一定の範囲を占めるという意味で領域である。部分領域ごとの特徴量は、例えば、８ピクセル四方の画素ブロック内の画素の平均輝度やＤＣＴ係数である。ＤＣＴ係数とは、計数を求める画像の範囲について、離散コサイン変換（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）を実行した結果の数値である。取得画像がＪＰＥＧ形式で符号化されている場合は、結果として符号化時に特徴量抽出が完了していることとなる。従って、この場合は、ＪＰＥＧ形式の取得画像よりＤＣＴ係数を直接取り出し、これを特徴量として使用するようにしてもよい。なお、本実施形態では、特徴量として、画素ごとの輝度を用いる場合について説明する。また、本実施形態においては、画像の左上の画素を開始点とし、以降、左より右へ、行ごとに下へ（ラスタスキャン順に）移動しながら以降の処理を行う。ただし、処理の順序はラスタスキャン順でなくてもよく、画像全てについて処理が実行されるものであれば、他のどのような順序であってもよい。

続いて、差分算出手段２０３は、記憶手段２０４に記憶されている背景モデルより、処理の対象となる画素の位置に対応する背景モデル情報を取得する（Ｓ４０２）。

ここで、記憶手段２０４に記憶されている背景モデルについて図５を用いて説明する。背景モデルは、画像内での各位置において、画像の特徴量を用いて状態を表したものである。背景モデルは、管理情報と背景モデル情報の２つの部分から構成される。管理情報は、画像内での位置と、各位置における背景モデル情報へのポインタとを対応付けた情報である。画像内での位置は、画像の画素の位置をＸＹ位置で示した値であってもいいし、８ピクセル四方の画素のブロックの位置をラスタスキャン順に割り振った番号であってもよい。なお、本実施形態では、画像の画素の位置をＸＹ位置で示した値とする。

背景モデル情報は、各位置における状態に関する情報を保持する。なお、画像内の一つの位置に対して複数の状態が存在する場合、各状態に対してそれぞれ背景モデル情報の要素が作成される。例えば花瓶などの新たな静止物体が出現することなどにより背景が変化すると、画像のある位置において状態が変化することとなる。この場合、記憶手段２０４は、その位置における状態の情報を新しく作成し、背景モデル情報に含める。この結果、背景モデル情報は、その位置に関して背景変化前と背景変化後の２つの情報を保持することとなる。

背景モデル情報における状態に関する情報は、図５に示すように、例えば、状態番号、特徴量情報、作成時刻、出現時間、及び確信度情報を含む。状態番号とは、画像内の同一の位置における複数の状態を識別するための、１番から順に発番される番号である。作成時刻とは、取得画像で初めてその状態が出現した時刻、または、背景モデル内に、初めてその状態に関する情報が作成された時刻である。出現時間は、作成時刻から現在までに、取得した画像内でその状態、あるいはその状態に類似した状態が出現した通算の期間である。作成時刻及び出現時間は、例えば、時間やフレーム番号及びフレーム数で表現される。なお、本実施形態では作成時間をフレーム番号で、出現時間をフレーム数で表現するものとする。確信度情報とは、その位置が被写体（本実施形態では人体）の一部であると確信される度合いを示す値である。被写体判定手段２０７の検出結果に基づき、確信度算出手段２０８により確信度が算出され、それに基づいて確信度情報が記憶される。なお、確信度または確信度情報は、本実施形態においては、０から１００の範囲に値を持つものとし、最も確信度が高い場合の値を１００とする。確信度及び確信度情報の算出方法については後述する。

画像の同一の位置について複数の状態の情報が作成される場合、背景モデル情報において、それらの情報を、例えばＲＡＭや２次記憶装置の連続した番地に格納する。図５の例では、位置（０、０）について、１２００番地に状態番号１の状態が、続いて、１２０１番地に状態番号２の状態が格納されている。これにより、管理情報において注目する位置とその次の位置のポインタを参照し、注目する位置のアドレスから次の位置のアドレスの一つ前までのデータを読み出すことで、当該位置の複数の状態をまとめて読み出すことができる。

図４の説明に戻る。差分算出手段２０３は、処理の対象となる位置に対応するポインタを管理情報から取得し、取得したポインタに基づいて、背景モデル情報からその位置に関する全ての状態の情報を取得する。図５の例では、画像の注目する位置が（０、０）である場合、差分算出手段２０３は、１２００番地と１２０１番地の情報について、それぞれ状態番号、特徴量情報、作成時刻、出現時間、および確信度情報を取得する。

差分算出手段２０３は、Ｓ４０２で取得した、処理の対象となる位置に関する複数の状態の情報の中から、ひとつの状態について、特徴量情報を読み出す（Ｓ４０３）。そして、差分算出手段２０３は、取得画像の同じ位置の特徴量と、読み出した特徴量情報との差分を計算する（Ｓ４０４）。差分の計算においては、例えば、ここでは２つの特徴量の差の絶対値を用いるが、特にこれに限定されない。例えば、差を２乗した値や、２つの特徴量の比であってもよく、さらに、比の対数値であってもよい。そして差分値は、画像内での位置及び差分を計算した対象の状態番号と関連付けて、ＲＡＭ１０３に一時的に記憶される。続いて、処理の対象となる位置における状態の情報で、差分を計算していないものが存在するか否かを判定する（Ｓ４０５）。そして、差分を計算していない状態の情報が存在する間は、Ｓ４０２で取得した処理の対象となる位置に関する複数の状態の情報の中から、差分の計算を実行していない状態について特徴量情報を読み出し（Ｓ４０６）、Ｓ４０３とＳ４０４の処理を繰り返す。

次に、差分算出手段２０３は、処理の対象となる位置において、Ｓ４０４で一時的に記憶した差分値のうち、最小値（以下、最小差分値という）を与える状態の情報を抽出する（Ｓ４０７）。そして、抽出された状態の情報の画像中の位置、状態番号、作成時刻、出現時間並びに確信度情報、及び取得画像の特徴量を、その状態における最小差分値と関連付けて、ＲＡＭ１０３に一時的に記憶する（Ｓ４０８）。つまり、各位置において、差分算出手段２０３は、最小差分値を与える状態について、特徴量情報を取得画像の特徴量に置き換え、最小差分値を加えたものを一時的に記憶する。なお、以下では、この一時的に記憶された情報を最小差分値情報という。

最小差分値情報の一例を図６に示す。図６では、例えば、図５の背景モデルを用いるときに、画像中の位置（０、０）に注目し、当該位置における取得した画像の特徴量が１０５であった場合の例を示している。この場合、位置（０、０）に対応する状態の情報は、図５に示すように、２つ存在する。まず状態番号が「１」の状態の情報に着目すると、この情報における特徴量は「１００」である。このため、差分値は｜１０５−１００｜＝５となる。一方、状態番号が「２」の場合、差分値は、｜１０５−２３０｜＝１２５となる。このため、最小差分値は５であり、それを与えるのは、状態番号が「１」の状態の情報となる。このため、位置（０、０）における最小差分値情報では、状態番号は「１」、及び当該状態番号に対応して、作成時刻は「０」、出現時間は「３００」、確信度情報は「０」、最小差分値は「５」となる。また、位置（０、０）における取得画像の特徴量は１０５であるので、位置（０、０）における最小差分値情報の、取得画像の特徴量も「１０５」とする。

次に、差分算出手段２０３は、画像中の全ての位置について、処理を実行したか否かを判定する（Ｓ４０９）。実行していなければラスタスキャン順に次の画素へ処理を進め（Ｓ４１０）、Ｓ４０１からＳ４０８までの処理を繰り返す。全位置についてＳ４０１からＳ４０８までの処理を実行した後に、一時記憶した全位置に対応する最小差分値情報を状態判定手段２０５に対して出力する（Ｓ４１１）。

なお、本実施形態に係る情報処理の開始時は背景モデルが記憶されていないため、例えば、最小差分値は取り得る最大値とする。このようにすることにより、後述するように、取得画像の全位置における状態が新規の状態と判定され背景モデルに記憶される。これにより、起動時の取得画像によって背景モデルの初期化を実行することができる。

（状態判定処理）
次に、図３のＳ３０３で実行される状態判定処理の詳細について、図７を用いて説明する。まず、図７の処理が開始されると、画像の左上の位置を開始位置として、最小差分値情報に含まれる位置を参照し、その位置についての最小差分値を取得する（Ｓ７０１）。次に、処理の対象となる位置における最小差分値を第一の所定値（Ａ）と比較する（Ｓ７０２）。状態判定手段２０５は、処理の対象となる位置において、最小差分値が第一の所定値より小さければ、取得画像は最小差分値情報の状態番号で表される状態にあると判定する。一方、状態判定手段２０５は、最小差分値が第一の所定値以上であれば、背景モデルに記憶されているどの状態とも異なる、新しい状態であると判定する。なお、Ｓ３０２の差分算出処理の詳細説明で述べたように、本情報処理装置の開始時の画像については、最小差分値は最大値に設定されるので、全て新規の状態と判定される。

状態判定手段２０５は、Ｓ７０２において最小差分値が第一の所定値より小さいと判定されたときは、処理の対象となる位置における最小差分値情報中の出現時間を増加させ（Ｓ７０３）、Ｓ７０８へ進む。具体的には、本実施形態では出現時間を累積のフレーム数で表現しているため、出現時間を１つ増加（インクリメント）させる。

状態判定手段２０５は、Ｓ７０２において最小差分値が第一の所定値以上であると判定されたときは、処理の対象となる位置における最小差分値情報について、新しい状態を意味する特殊な番号（例：０）を状態番号として設定する（Ｓ７０４）。状態番号は、背景モデル更新手段２０９で、背景モデル更新時に改めて発番され、０以外の番号となる。次に、最小差分値情報の作成時刻を、状態番号０の状態が初めて作成された時刻、つまり、現在時刻に設定する（Ｓ７０５）。なお、本実施形態においては、上述の通り、作成時刻をフレーム番号で表しているため、取得画像のフレーム番号とする。そして、この状態が出現したのは現在の１フレームのみであるため、最小差分値情報の出現時間を１に設定し（Ｓ７０６）、確信度は、まだ被写体検出を行っていないので、０に設定する（Ｓ７０７）。

Ｓ７０３又はＳ７０４〜７０７の処理の結果に基づき、処理の対象となる位置、状態番号、取得画像の特徴量、作成時刻、出現時間、及び確信度情報を関連付けて状態判定情報としてＲＡＭ１０３に一時記憶する（Ｓ７０８）。そして、画像中の全ての位置について上述の処理を実行したか否かを判定し（Ｓ７０９）、実行が完了していなければラスタスキャン順に次の位置へ処理を進め（Ｓ７１０）、Ｓ７０１からＳ７０８までの処理を繰り返す。全位置について上述の処理を完了すると、全位置に対応する状態判定情報を前景検出手段２０６と背景モデル更新手段２０９へ入力する（Ｓ７１１）。

状態判定情報の一例を図８に示す。図８は、図６の最小差分値情報の例において、例えば第一の所定値Ａが１０であった場合の例である。この例の場合、状態判定手段２０５は、位置（０、０）および（１、０）については、最小差分値が第一の所定値より小さいため、状態番号、取得した画像の特徴量、作成時刻、確信度情報はそのままとし、出現時間を１増加させる。一方、位置（２、０）については、最小差分値が第一の所定値以上であるため、状態番号を０に、作成時刻を現在を表すフレーム数である３１６に、出現時間を１に、そして確信度情報を０に設定する。

状態判定処理では、取得画像の特徴量と近い特徴量情報が記憶手段２０４に記憶されているか否かを判定することにより取得画像の状態を察知する。そして、本実施形態に係る情報処理装置は、取得画像の特徴量と近い特徴量情報が記憶手段２０４に記憶されていた場合、当該特徴量情報に対応する情報を用いて後述の処理を実行する。これにより、後述の処理を実行する対象を限定し、処理全体としての処理量を抑えることができ、実行速度を高速化することができる。また、最小差分値が第一の所定値以上である場合、記憶手段２０４に記憶されている特徴量情報で、取得画像の特徴量に近いものは存在しないと判断し、新しい状態に関する情報を作成する。これにより、取得画像の特徴量が、記憶手段２０４に記憶されているいずれの特徴量情報にも近くないにもかかわらず、その記憶された情報に基づいて後述の処理を実行してしまうことを防ぐことができる。

（前景検出処理）
次に、図３のＳ３０４で実行される、前景検出処理の詳細について、図９を用いて説明する。前景検出処理が開始されると、画像の左上の位置を開始位置として、状態判定情報の位置を参照して、その位置の状態判定情報を取得する（Ｓ９０１）。次に、処理の対象となる位置における状態判定情報から確信度情報を抽出し、第二の所定値Ｂと比較する（Ｓ９０２）。前景検出手段２０６は、確信度が第二の所定値以上である場合、処理の対象となる位置における取得画像の状態は、検出対象である被写体の一部として「前景」と判定する（Ｓ９０３）。

一方、前景検出手段２０６は、Ｓ９０２において確信度が第二の所定値より小さい場合は、処理の対象となる位置における取得画像の状態は前景であると確定することができない。このため、前景検出手段２０６は、処理の対象となる位置における取得画像の状態が前景であるか否かを状態判定情報に含まれる時間の情報で判断する。ここで、時間の情報は、例えば、出現時間や、ある状態が初めて出現した時刻から現在までの時間（つまり、現在時刻と作成時刻との差の時間）を表す存在時間などを用いることができる。また、これ以外の情報であってもよい。なお、本実施形態では、出現時間を使用する場合について説明する。前景検出手段２０６は、状態判定情報から出現時間を抽出し、第三の所定値Ｃと比較する（Ｓ９０４）。出現時間が第三の所定値以上であれば、処理の対象となる位置における取得画像の状態は、過去から現在に至るまで撮影された画像に十分に長い時間写り込んでいる背景と判定する（Ｓ９０５）。一方、出現時間が第三の所定値より小さい場合は、処理の対象となる位置における取得画像の状態は、人間や、鞄、花瓶などといった一時的に出現した物体の一部が検出された結果とみなすことができる。このような一時的に出現した物体は前景と判定する（Ｓ９０３）。なお、前述の状態判定処理で、最小差分値が第一の所定値以上であった場合、状態判定情報の出現時間は１であり、作成時刻は現在のフレーム数となっていることから、このステップで前景として検出されることとなる。

前景検出手段２０６は、判定結果に基づき、処理の対象となる位置における取得画像の状態について、前景であるか背景であるかを示す前景フラグを前景フラグ情報として一時記憶する（Ｓ９０６）。前景フラグ情報の例を図１０に示す。前景フラグ情報には、画像中の位置と前景フラグとが関連付けて保存される。そして、処理の対象となる位置における取得画像が、上述の処理で前景と判定された場合は、当該位置における前景フラグを「１」とし、背景と判定された場合は「０」とする。

図１０の例について、図８を参照して説明する。なお、ここでは、第二の所定値Ｂは６０とし、第三の所定値Ｃは３０とする。この場合、位置（１、０）については、確信度情報がＢより大きいため、前景と判定される（Ｓ９０２でＹｅｓ）。一方、位置（０、０）と（２、０）については、確信度情報は共に０であり、この時点では前景と判定されない（Ｓ９０２でＮｏ）。一方、（２、０）については出現時間が１であり、Ｃより小さい。このため、（２、０）は前景と判定される（Ｓ９０３でＹｅｓ）。しかしながら、（０、０）については、出現時間がＣより大きいため、前景と判定されない（Ｓ９０３でＮｏ）。このため、前景フラグは、（０、０）については「０」であり、（１、０）と（２、０）については「１」となる。

次に、画像中の全ての位置について、処理を完了したか否かを判定し（Ｓ９０７）、完了していなければ次の位置へ処理を進め（Ｓ９０８）、Ｓ９０１からＳ９０６までの処理を繰り返す。前景検出手段２０６は、全位置に対してＳ９０１からＳ９０６までの処理を完了すると、連続する前景の位置を統合し、連続して前景である領域を求める処理（Ｓ９０９からＳ９２０）に移行する。

複数の位置における情報を統合するため、前景フラグ＝１の位置を探索したか否かを示す探索フラグ情報を用いる。これは前景フラグ情報と同様に、画像中の位置に探索フラグを関連付けたものであり、探索フラグ＝１によりその位置は探索済みであることを表す。前景検出手段２０６は、まず、全ての位置に対応する探索フラグを０にして、初期化を行う（Ｓ９０９）。

そして、画像の左上の位置を開始位置として、前景フラグ情報に含まれる位置を参照して、その位置の前景フラグを取得し（Ｓ９１０）、現在の位置の前景フラグが１であるか否かをチェックする（Ｓ９１１）。前景フラグが０であれば、その位置は背景であるので、現在の位置から、ラスタスキャン順で次の位置に移る（Ｓ９１２）。そして、次の位置について、前景フラグの取得（Ｓ９１０）及び前景フラグのチェック（Ｓ９１１）を実行する。Ｓ９１１において前景フラグが１であれば、その位置は前景であると判断できる。この場合、現在の位置の探索済みフラグが０か否か、つまり、未探索であるか否かをチェックする（Ｓ９１３）。探索済みフラグが１であればその位置は探索済みであるので、現在の位置から、ラスタスキャン順で次の位置に移る（Ｓ９１２）。

Ｓ９１３において探索済みフラグが０であれば、その位置は未探索であると判断できる。この場合、前景検出手段２０６は、まず、処理の対象となる位置を一時記憶し（Ｓ９１４）、当該位置における探索済みフラグを１にする（Ｓ９１５）。次に、連続して前景となる位置を探索するため、隣接する位置における前景フラグを取得し（Ｓ９１６）、隣接する位置で、前景フラグが１であるものが存在するか否かをチェックする（Ｓ９１７）。ここで、隣接する位置とは、例えば、位置が画素で表されている場合は、その画素に接する周囲の画素であり、位置が領域で表されている場合は、その領域に接する他の領域である。隣接する位置の少なくとも一つにおいて、前景フラグが１である場合、連続して前景となる位置があると判定できる。そして、前景フラグが１の隣接する位置において、探索済みフラグが０であるか否かを判定する（Ｓ９１８）。探索済みフラグが０であれば未探索であるため、その隣接する位置を一時記憶する（Ｓ９１４）と共に、探索済みフラグを１に設定する（Ｓ９１５）。そして、当該隣接する位置のさらに隣接する位置において前景フラグを取得し（Ｓ９１６）、前景フラグが１の場合は探索済みフラグが０であるか否かを確認する。前景フラグが１である隣接する位置が発見できなくなるまで（Ｓ９１７でＮｏ）、又は、前景フラグが１である隣接する位置が全て探索済みとなるまで（Ｓ９１７でＹｅｓ、Ｓ９１８でＮｏ）、Ｓ９１４〜Ｓ９１８の処理を繰り返す。

Ｓ９１４からＳ９１８までの処理で前景の連続する位置が探索されることにより、この連続する位置により所定の領域が定まる。そして、前景検出手段２０６は、この領域を含む外接矩形（以下、この外接矩形を「前景領域」という）を求め、当該前景領域の左上の位置と右下の位置を、ＲＡＭ１０３に一時記憶する（Ｓ９１９）。次に、これらの位置に対応する出現時間を状態判定情報より取得し、その平均値を求め、ＲＡＭ１０３に一時記憶する（Ｓ９２０）。

画像中の全位置について、Ｓ９１０からＳ９２０までの処理を行ったか否かを判定し（Ｓ９２１）、行っていなければ、現在の位置から、ラスタスキャン順で次の画素に移る（Ｓ９１２）。なお、ここで言う「現在の位置」とは、Ｓ９１０で取得された位置のことである。全位置について、Ｓ９１０からＳ９２０までの処理が完了していた場合、一時保存された前景領域の左上の位置と右下の位置の数をカウントする。そして、前景領域の数とともに、前景領域の左上の位置と右下の位置、平均出現時間を、前景領域情報として一時保存する。前景領域情報は、被写体判定手段２０７に入力される（Ｓ９２２）。図１１は前景領域情報の一例である。図１１の例では、前景領域の数が２の場合の例を示している。前景領域の位置及び平均出現時間は、連続したアドレスに記憶され、その先頭アドレスはポインタにより表される。例えば、図１１では、前景領域数が２であり、ポインタが１４００であることから、前景領域の位置及び平均出現時間の情報は、１４００番地と１４０１番地に格納されていることが分かる。

上述の前景検出処理により、確信度が高い被写体（人物）は常に前景と判定する一方で、確信度の低い置き去り物は時間の経過と共に背景とみなすことで、検出対象と、そうでないものを区別して判定することが可能となる。また、一時的に出現した物体は、少なくとも所定の期間は前景として検出し続けることとなり、例えば検出結果を表示装置１０７に表示することで、ユーザに画像の変化を通知することができる。さらに、前景領域を求め、前景領域以外の領域においては後述の処理を実行しないようにすることにより、検出精度を向上させ、また、全体の処理量を抑えることが可能となる。

（被写体判定処理）
次に、図３のＳ３０５で実行される前景領域からの被写体判定処理、及びＳ３０６で実行される物体領域の出力について、図１２を用いて詳細に説明する。被写体判定処理では、被写体判定手段２０７は、上記の前景領域に対して被写体の検出処理を実行し、当該領域に被写体が存在するか否かの判定を行う。処理が開始されると、被写体判定手段２０７には取得画像が入力される（Ｓ１２０１）。次に、Ｓ３０４の前景検出処理で得られた前景領域情報から、一つの前景領域について、その位置に関する情報を取得する（Ｓ１２０２）。続いて、その位置に関する情報で特定される領域において、被写体の検出処理を実行する（Ｓ１２０３）。

被写体の検出処理については、例えば、人体を検出する方法が米国特許出願公開第２００７／０２３７３８７号明細書に記載されている。当該文献では、所定の大きさの検出ウィンドウを入力画像上で走査させ、検出ウィンドウにより画像を切り出し、切り出されたパターン画像に対してその画像が被写体であるか否かの判別を行う。また、当該文献では、当該、この判別に用いる判別器を、多くの弱判別器の組み合わせにより構成している。そして、その弱判別器における学習及び判定を統計的学習方法の一つであるアダブーストを用いて実行することで、処理全体としての判別精度を向上させている。弱判別器はＨｏＧ（Ｈｉｓｔｏｇｒａｍｏｆｏｒｉｅｎｔｅｄｇｒａｄｉｅｎｔｓ）特徴量に基づいて学習及び判定を実行するように構成されている。なお、ＨｏＧ特徴量は、局所領域の輝度の勾配方向をヒストグラム化したものである。また、米国特許出願公開第２００７／０２３７３８７号明細書では、この判別器を直列に繋ぎ、カスケード型の検出器を構成するようにしている。カスケード型の検出器では、前段において単純な判別器を用いて、明らかに被写体でないパターンの候補を除去する。そして、前段の判別器で除去されなかった候補に対して、より高い識別性能を持つ後段の判別器を適用し、被写体か否かの判別を行う。

続いて、被写体判定手段２０７は、Ｓ１２０３において、前景領域内に被写体を検出したか否かを判定し（Ｓ１２０４）、前景領域ごとに被写体フラグを付与し、ＲＡＭ１０３等に一時的に記憶する。被写体フラグは、被写体を検出した前景領域については１とし（Ｓ１２０５）、被写体を検出しなかった前景領域については０とする（Ｓ１２０６）。被写体判定手段２０７は、前景領域情報に含まれる全ての前景領域について処理を実行したか否かを判定する（Ｓ１２０７）。そして、未完了の場合は次の前景領域の処理に移り（Ｓ１２０８）、Ｓ１２０２からＳ１２０６までの処理を繰り返す。全前景領域について処理が完了している場合、上述の前景領域情報に被写体フラグを付加したものを物体領域情報として出力する（Ｓ１２０９）。物体領域情報は、本実施形態に係る情報処理装置の外部、及び確信度算出手段２０８に対して出力される。

図１３に、物体領域情報の一例を示す。物体領域情報には、物体領域の数とポインタ、そして物体領域の詳細情報が含まれる。ここで、物体領域の詳細情報は、前景領域の位置及び平均出現時間に被写体フラグを付加した情報である。物体領域情報におけるポインタは、各物体領域の詳細情報にアクセスするためのポインタである。図１３の例では、ポインタの指し示す１６００番地より１６０１番地まで順に、２つの物体領域のデータが記憶されている。

なお、本実施形態に係る情報処理装置の出力である物体領域情報は、例えば、以下のように利用される。ユーザが指定した画面内の領域への被写体の侵入を検出する装置では、物体領域情報より被写体フラグ＝１の物体領域のみを取得する。そして、物体領域の左上位置と右下位置から、ユーザ指定の範囲に被写体が侵入しているか否かを判定する。また、置き去り物の検出装置では、被写体フラグが０の物体領域のみを取得し、その平均出現時間が、ユーザが指定した時間を超えていれば、置き去り物として検出する。このように本情報処理装置では、置き去り検出のような一時的に検出したい物体の検出と、常に検出したい被写体の検出の両立が可能となる。

なお、上述の説明において、置き去り物の検出を実行しない等の事情により、平均出現時間の情報を利用しない場合は、前景領域情報と物体領域情報の平均出現時間は省略されてもよい。これにより、ＲＡＭ１０３等の記憶容量を節約することができる。

（確信度算出処理）
続いて、図３のＳ３０７で実行される確信度の算出処理について説明する。被写体判定手段２０７で、被写体フラグが１の物体領域（以下、「被写体領域」という。）は、被写体として常に検出したい対象が存在する領域である。このため、この領域は、前景検出処理で常に前景と判定されるのが好ましい。本実施形態に係る情報処理では、被写体判定結果を背景モデルに確信度として反映することにより、前景検出処理において、確信度の高い領域は、動きがなくても常に前景として検出されるようにする。

ただし、被写体判定手段２０７における被写体判定結果は、本来検出されるべきでないものが検出される誤検出が発生する可能性がある。このため、被写体領域をそのまま前景とみなすと、背景モデルの精度が落ちるという問題がある。また、被写体によっては、物体領域の全てが被写体であるとは限らない。例えば、本実施形態では被写体として人体を想定しているところ、人体の共通した特徴は主に人体の輪郭となるため、物体領域として規定される矩形領域には、人体以外の背景の領域が含まれている確率が高い。このため、前景検出処理で高精度な判定をするためには、物体領域内において被写体と背景を区別し、背景の影響を取り除く必要がある。これらの理由により、本実施形態に係る処理では、画像の位置毎に、被写体の一部と確信できる度合いを示す確信度を算出し、背景モデルに追加する。既に説明したように前景検出処理において確信度が高い画素のみを前景として扱うようにすることで、前述の問題を解消する。

確信度の算出方法として、以下に示す３つの方法を例として説明する。ただし、確信度の算出方法はこれらの方法に限定されるものではなく、各位置における確信度を得られる方法であれば他の方法であっても構わない。

＜方法１学習用画像に基づく確信度分布を使用する方法＞
前述の被写体判定手段２０７を構成する弱判別器を機能させるためには、サンプル画像に基づくアダブースト学習（米国特許出願公開第２００７／０２３７３８７号明細書参照）のような機械学習が必要である。この学習においては、サンプル画像として、被写体と同様の特徴を有する正解画像（ポジティブサンプル）と、特徴の異なる非正解画像（ネガティブサンプル）を用いる。同様の特徴を有する画像とは、例えば被写体が人体である場合は人間が写っている画像であり、被写体が鞄の場合は鞄が写っている画像である。機械学習においては、判別器に被写体である人体に共通の特徴（輪郭など）を学習させるため、正解画像として頭の位置や足の位置を所定のサイズの画像内で揃えた複数の画像が使用される。

方法１では、この正解画像を利用して、検出された領域内の各位置における人体としての確からしさを算出する。この算出方法について、図１４の確信度分布を説明する図を用いて詳細に説明する。１４０１は正解画像を含む領域全体を示している。方法１では、正解画像について、各画素値の変化の度合いを示す濃度勾配を求め、全正解画像についての濃度勾配を平均する。そして、平均した結果において、所定の閾値以上の濃度強度を持つ領域の境界を算出する。１４０２はこのようにして算出された領域の境界である。すなわち、１４０２の内部に位置する画素ほど、正解画像における人体の輪郭の位置の内側に存在する確率が高いため、人体である可能性が高い。方法１では、この人体である可能性を、例えば確信度の分布として表現し、これを用いて被写体領域における確信度を算出する。確信度の分布は、例えば、図１５のように正規分布に従うものとする。図１５の横軸は図１４の補助線１４０３上における位置であり、縦軸は確信度を示す。１５０１は正規分布に従った確信度分布を表す曲線であり、１５０２は確信度分布の平均を表し、１５０３、１５０４は平均から標準偏差分離れた位置を示している。なお、１５０２で表される位置における確信度は、確信度の取りうる最大の値とし、例えば１００とする。領域全体１４０１において、位置１５０３と１５０４を補助線１４０３と境界線１４０２との交点に合わせ、１５０２を当該交点の中心点に合わせることにより、確信度分布を決定する。このように被写体（人体）を含む正解画像から、統計的な方法で、１４０１内の全ての位置での確信度を算出することができる。そして、方法１では、算出した各位置での確信度を画素値として規定した、確信度分布画像を用意する。そして、この確信度分布画像を予めＲＯＭ１０２や２次記憶装置１０４に格納しておき、本実施形態に係る情報処理装置の起動時にＲＡＭ１０３に読み込んで、確信度算出手段２０８で参照可能な状態にしておく。

方法１の動作について、図１６のフローチャートを用いて説明する。まず、被写体確信度情報を初期化する（Ｓ１６０１）。被写体確信度情報とは、図１８に例示するように、画像の各位置と確信度とを対応づけて記憶したものである。これを全ての位置に対して確信度を０にすることで初期化する。次に、物体領域情報より、被写体領域を一つ取得する（Ｓ１６０２）。

上述の確信度分布画像は、学習時に使用した画像に基づいて決定されるため、学習に使用された画像のサイズと同様のサイズを有する。このため、確信度算出手段２０８は、被写体領域のサイズと同じサイズとなるように、確信度分布画像を拡大、又は縮小する（Ｓ１６０３）。ここで、拡大、又は縮小は、通常の画像の拡大縮小と同様に最近傍法や線形補完などにより実行される。

次に、被写体領域に相当する領域の確信度を、サイズ変更された確信度分布画像の画素値である確信度に基づき更新する。具体的には、対応する位置において、被写体確信度情報の確信度と確信度分布画像の画素値との和を取り、新たな確信度の値とする（Ｓ１６０４）。このとき、被写体確信度情報を初期化（Ｓ１６０１）の直後である場合は、確信度は全ての位置において０であるため、各位置における確信度は、確信度分布画像の画素値となる。一方、複数の被写体領域に跨る領域では、別の被写体領域についてＳ１６０４において算出された確信度と、確信度分布画像の画素値との和を確信度とする。その後、Ｓ１６０４で更新された確信度の値が、値の範囲（０から１００）を超えているか否かをチェックする（Ｓ１６０５）。そして、超えていれば確信度の範囲内（例えば１００）に補正する（Ｓ１６０６）。次に、全ての被写体領域についてＳ１６０２からＳ１６０６の処理が完了しているか否かを判定する（Ｓ１６０７）。処理が完了していない場合は、次の被写体領域の処理へ移行し（Ｓ１６０８）、完了している場合は、最終的な被写体確信度情報を背景モデル更新手段２０９へ出力する（Ｓ１６０９）。

方法１のように、正解画像から確信度を予め統計的に算出した確信度分布画像を用意しておき、その確信度分布画像を取得画像の被写体領域にあてはめることにより、簡単かつ高速に、確信度を算出することが可能となる。

＜方法２被写体判定処理における累積スコアから推定する方法＞
被写体判定手段２０７は、累積スコアを
Ｆ（ｘ）＝Σ_ｔａ_ｔｈ_ｔ（ｘ）・・・（１）
のように計算する。そして、累積スコアが閾値を超えるか否かを判定することにより、最終的に被写体か否かを判定する（米国特許出願公開第２００７／０２３７３８７号明細書参照）。なお、ａ_ｔは各弱判別器の信頼度、ｘは検出ウィンドウの位置である。ｈ_ｔ（ｘ）は、ｔ番目の弱判別器において被写体と判別したら＋１、非被写体と判別したら−１の２値を取る関数であり、ｔ＝１からＴ個の弱判別器が存在する。また、ａ_ｔは、弱判別器がどの程度信頼できるかを示した値である。つまり、累積スコアは、取得画像に対する複数の判別処理の結果を重み付け加算した値となる。この値は、取得画像が被写体の特徴を有していると考えられる度合いとなる。このため、この値が閾値以上の領域では被写体が含まれている確率が十分高いと判定することが可能となる。

累積スコアＦ（ｘ）は、被写体が出力結果に含まれる確率を直接示した値ではない。そこで、累積スコアをｓｉｇｍｏｉｄ関数により変換し、これを被写体が出力結果に含まれる確率Ｐ（ｙ＝＋１｜ｘ）として扱う。

Ｐ（ｙ＝＋１｜ｘ）＝１／（１＋ｅｘｐ（−ｗ_１Ｆ（ｘ）−ｗ_０））・・・（２）
ここで、ｓｉｇｍｏｉｄ関数の重みｗ_１、ｗ_０は、正解（被写体の位置）のわかっている複数のサンプル画像に対して実際に検出を行い、累積スコアと被写体の検出結果の関係から、最小二乗法などにより求める。

被写体判定手段２０７は、被写体領域を決定する前の各検出ウィンドウについて、累積スコアを検出ウィンドウの中心位置と関連付けて累積スコア情報として出力する。図１７に累積スコア情報の一例を示す。図中の「位置」は画像内における検出ウィンドウの中心の位置である。確信度算出手段２０８では、式（２）で算出した確率を、例えば１００分率に換算するために１００倍して、確信度とすることにより、被写体確信度情報を得ることができる。

以上のように、被写体としての特徴を有すると考えられる度合いである累積スコアを確信度として用いることにより、被写体としての特徴を高確率で有すると考えられる領域には高い確信度が割り当てられる。このため、前景検出処理において、高精度に被写体を検出することが可能となる。

＜方法３前景フラグにより定まる領域と被写体領域の重なりを利用する方法＞
方法１と方法２では、処理中の画像における確信度を直接求めたが、本方法では、確信度算出手段２０８における確信度の算出結果を累積することにより確信度を求める。従って、確信度算出手段２０８における１回の処理では、累積値を時間微分した確信度の変位量を算出する。そして、背景モデル更新手段２０９は、後述するように、この確信度の変位量を背景モデル中の確信度情報に反映させる。

具体的には、確信度算出手段２０８は、被写体と判定された画素、又は領域に対して、確信度の変位量として所定値を与えるようにする。例えば、所定値を１０とし、被写体が１０フレーム連続して同じ画素に存在した場合、当該画素における確信度情報は１０（所定値）ｘ１０（フレーム数）で１００となる。

ここで、被写体判定手段２０７において、特に人体のように被写体判定結果に背景部分が含まれる場合は、被写体領域の全面に対して一律に値を与えると、高い精度の確信度を得ることができない。そこで、このような場合には、更に次のような工夫を行う。

まず、確信度算出手段２０８は、前景検出手段２０６における図９のＳ９０１からＳ９０６までの処理の終了時に生成される前景フラグ情報を取得する。確信度算出手段２０８では、前景フラグ情報から得られる前景フラグが１である位置と、物体領域情報から得られる被写体フラグが１である被写体領域との論理積により定まる重なり領域を求める。図１９に一例を示す。１９０１の多角形で示された領域は、前景検出手段２０６により前景フラグが１に設定された位置で特定される領域である。１９０２の矩形で示した領域は被写体領域である。そして、１９０３の縦線で塗りつぶされた領域は重なり領域であり、前景フラグが１に設定された位置で特定される領域に含まれ、さらに被写体領域でもある領域である。確信度算出手段２０８は、例えば、ここに確信度の変位量として所定の値Ｄを付与する。また、被写体領域１９０２内で重なり領域でない領域１９０４は、背景に相当する領域と考えられるため、被写体の確信度は低いと解釈できる。このため、確信度算出手段２０８は、この領域に対しては、例えば負の値−Ｄを確信度の変位量として付与する。これは、例えば当該領域に、前フレームでは被写体が存在していて、正の確信度の変位量が付与されていたような場合に、現フレームの結果によって打ち消す効果がある。

方法３について、図２０のフローチャートを用いて詳細に説明する。まず、確信度算出手段２０８は、被写体確信度情報を初期化する（Ｓ２００１）。なお、方法３では、前述の通り確信度そのものではなく、変位量が本処理によって格納される。次に、物体領域情報より、被写体領域を一つ取得する（Ｓ２００２）。そして、前景検出手段２０６からの出力である前景フラグ情報によって、被写体領域内の全位置についてその位置が前景か背景かを判定する（Ｓ２００３）。これにより、確信度算出手段２０８は、被写体領域かつ前景領域である領域を抽出し、この結果に基づいて、確信度の変位量を決定する。具体的には、被写体領域内の左上等の端の位置から処理を開始し、各位置について前景フラグ情報を取得し、前景フラグが１であるか否かをチェックする（Ｓ２００３）。前景フラグが１であれば、前景と被写体領域の重なり領域であるので、確信度の変位量として所定の正の値Ｄを付与する。前景フラグが０であれば背景領域と考えられるので、確信度の変位量として所定の負の値−Ｄを付与する。なお、被写体領域で前景フラグが０の領域について確信度の変位量を−Ｄとするだけでなく、被写体領域でない領域についても確信度の変位量を−Ｄとしてもよい。これにより、被写体以外の領域については確信度の値が抑圧され、被写体でない領域を被写体として検出する誤検出を防止することができる。

次に、被写体領域内の全画素について、Ｓ２００３からＳ２００５までの処理を実行したか否かを判定する（Ｓ２００６）。処理が未完了である場合、被写体領域内でラスタスキャン順に次の画素の処理へ移る（Ｓ２００７）。そして、Ｓ２００３からＳ２００５までを繰り返す。処理が完了している場合、全ての被写体領域についてＳ２００２からＳ２００７の処理を完了したか否かを判定する（Ｓ２００８）。処理が未完了である場合は、次の被写体領域へ進む（Ｓ２００９）。処理が完了している場合、最終的な被写体確信度情報を背景モデル更新手段２０９へ出力する（Ｓ２０１０）。

なお、上述の説明では、被写体領域であって前景フラグが０の領域について確信度の変位量を負の値としたが、被写体領域でない領域についても同様としてもよい。これにより、確信度が０でない被写体領域外の画素、又は領域において確信度を下げることで、前景検出処理において誤って前景として検出される確率を低減することができる。

（背景モデル更新処理）
次に、Ｓ３０８の背景モデルの更新処理について図２１を用いて詳細に説明する。まず、背景モデル更新手段２０９は、画像の左上の位置を開始位置として、その位置に対応する状態判定情報を取得する（Ｓ２１０１）。続いて、処理の対象となる位置における状態が新規な状態であるか否かをチェックする（Ｓ２１０２）。具体的には、背景モデル更新手段２０９は、状態判定情報に含まれる状態番号を参照し、０であれば新規の状態であり、０以外であれば背景モデルに存在する既存の状態であると判断する。

既存の状態であれば（Ｓ２１０２でＮｏ）、その既存の状態について背景モデル情報を更新する。具体的には、背景モデル更新手段２０９は、まず、背景モデルの管理情報からポインタを取得し、状態判定情報に含まれる状態番号と一致する背景モデル情報を取得する（Ｓ２１０３）。そして、背景モデル中の特徴量情報を、状態判定情報の取得画像の特徴量を用いて更新する。特徴量情報の更新は、例えば、以下の式に従って実行される。

μ_ｔ＝（１−α）・μ_ｔ−１＋α・Ｉ_ｔ・・・（３）
式（３）において、現在のフレームをｔ、１つ前のフレームをｔ−１とする。μ_ｔ−１は更新前の特徴量情報の値であり、μ_ｔは更新後の特徴量情報の値である。Ｉ_ｔは取得画像の特徴量の値である。αは０から１までの値を持つ重みであり、大きな値であるほど、更新後の値は、入力の値からの影響が強くなり、画像の変動への追随性が増す。逆にαが小さいと、更新後の値は、過去の値による影響を強く受け、収束性能が向上する。なお、ここで、αを１とすることにより、記憶手段２０４に記憶された特徴量情報を、取得画像についての特徴量で置き換えるようにしてもよい。

上述の更新により、取得画像の経時的な特徴量の変化に特徴量情報を追従させ、画像中の物体が移動していないにも関わらず、照明変化などによって前景と判定されてしまうことを防ぐことができる。

続いて、背景モデル更新手段２０９は、背景モデルの出現時間を更新する（Ｓ２１０５）。出現時間は、状態判定手段２０５において最新の状態になっているため、背景モデルにおける背景モデル情報の出現時間を状態判定情報の出現時間に置き換える。

次に、確信度情報の更新に移る。確信度情報の更新では、まず、取得画像について算出された確信度を格納している被写体確信度情報から、処理の対象となる位置に対応する確信度を取得する（Ｓ２１０６）。そして、記憶手段２０４に記憶された確信度情報を、当該確信度情報と被写体確信度情報から取得した確信度に基づいて更新する（Ｓ２１０７）。更新の方法としては、特徴量情報の更新と同様に指数平滑法を用いる方法や、近似メディアンフィルタなどを使用する方法が挙げられる。指数平滑法は具体的には、以下の式に従って実行される。

θ_Ｍ、ｔ＝（１−β）・θ_{Ｍ、ｔ−１}＋β・θ_ｌ、ｔ・・・（４）
式（４）において、現在のフレームをｔ、１つ前のフレームをｔ−１とする。θ_{Ｍ、ｔ−１}は更新前の背景モデル中の確信度情報の値、θ_Ｍ、ｔは更新後の確信度情報の値である。θ_ｌ、ｔは現在の取得画像に対して、確信度算出手段２０８で算出された値である。βは０から１までの値を持つ重みであり、大きな値であるほど、現在処理中の画像から算出された値に強く依存することとなり、追従性が増す。一方、βが小さい値であると、現在処理中の画像から算出された値への依存性が弱まり、収束性が増す。

また、近似メディアンフィルタ法は具体的には、以下の数式を満たす。

θ_Ｍ、ｔ＞θ_{Ｍ、ｔ−１}のとき、θ_Ｍ、ｔ＝θ_{Ｍ、ｔ−１}＋δ・・・（５）
θ_Ｍ、ｔ＜θ_{Ｍ、ｔ−１}のとき、θ_Ｍ、ｔ＝θ_{Ｍ、ｔ−１}−δ・・・（６）
θ_Ｍ、ｔ＝θ_{Ｍ、ｔ−１}のとき、θ_Ｍ、ｔ＝θ_{Ｍ、ｔ−１}・・・（７）
ただし、任意のｔに対して、０≦θ_Ｍ、ｔ≦１００であり、δは所定の値である。この値の範囲内で値を増減させることにより、確信度が突発的に大きく変化した場合でも、追随しすぎることがない、というメリットがある。δは増加させるときの式（５）と減少させるときの式（６）で別の値を与えるようにしてもよい。

確信度情報を、当該確信度情報と取得画像の確信度に基づいて更新することにより、瞬時的に出現した物体による確信度情報への影響を低減しつつ、継続的に出現する被写体について十分に高い確信度情報を与えることが可能となる。

また、確信度算出手段２０８において、方法３として説明したように、確信度の変位量を算出する場合は、例えば、次の式に基づいて更新を行う。

θ_Ｍ、ｔ＝θ_{Ｍ、ｔ−１}＋Δθ_ｌ、ｔ・・・（８）
ただし、任意のｔに対して０≦θ_Ｍ、ｔ≦１００である。式（８）において、Δθ_ｌ、ｔは確信度の変位量であり、前述の通り負の値も取り得る。つまり、方法３を用いる場合、背景モデルに記憶された確信度情報は、確信度の変位量を加算することにより更新される。これにより、被写体である画素、又は領域の確信度情報の値が大きくなるため、精度よく被写体を検出することが可能となる。さらに、確信度の変位量として負の値を用いることにより、被写体以外の領域については確信度の値が抑圧され、さらに被写体の検出精度を向上させることが可能となる。

一方、Ｓ２１０２において、新規の状態と判定された時は、背景モデルへの追加を行う。まず、処理の対象となる位置について、背景モデル中の管理情報を参照し、背景モデル情報のアドレスへのポインタを取得する。そして、当該位置に対応する背景モデル情報の最後の状態番号を取得し（Ｓ２１０８）、新規の状態に対応する状態番号を発番する（Ｓ２１０９）。具体的には、例えば、上述の最後の状態番号の値が「３」である場合、新規の状態に対応する状態番号を、次の値「４」とする。なお、本実施形態に係る情報処理装置の起動時のように初めて背景モデルへ状態を追加するときは、状態番号は「１」を割り当てる。

続いて、当該新規の背景モデル情報に対して、アドレスを割り当てる処理に移る。新規の背景モデル情報は、その新規の背景モデル情報が対応する位置についての最後の背景モデル情報の次に追加される。このため、更新前の背景モデルにおける、新規の背景モデル情報に対応する位置の次の位置の最初の背景モデル情報のアドレスが、更新後の背景モデルにおける当該新規の背景モデル情報のアドレスとなる。このため、背景モデル更新手段２０９は、次の位置に対応する管理情報を参照し、その管理情報に記憶されたポインタを取得する（Ｓ２１１０）。そして、当該ポインタで示されるアドレスに、新規の背景モデル情報を挿入する（Ｓ２１１１）。ここで、新規の背景モデル情報における特徴量情報、作成時刻及び出現時刻は、状態判定情報に含まれる取得画像の特徴量、作成時刻及び出現時間を格納し、状態番号は、Ｓ２１０９で発番された番号を格納する。また、確信度情報は、確信度算出手段２０８で算出した値を格納する。なお、本情報処理装置における処理の開始時は取得画像の全ての位置に対して新規の状態となっているので、各位置における状態は全て背景モデルに追加され、これにより背景モデルは初期化されることとなる。

次に、画像中の全ての位置について、Ｓ２１０１からＳ２１１１までの処理を実行したか否かを判定する（Ｓ２１１２）。実行が完了していない場合、ラスタスキャン順に次の位置の処理へ移行し（Ｓ２１１３）、Ｓ２１０１からＳ２１１１までの処理を繰り返す。実行が完了している場合、本処理を終了する。

本背景モデルの更新処理によって、背景モデル中の各状態に付与されている時間情報と共に、確信度情報へ最新の画像の結果が反映される。従って、前景検出手段２０６による判定が適切に実行されるようになる。すなわち、立ち止まっている人物（本実施形態における被写体）を常に検知することができるようになり、鞄のような静止物体の一時的な検出、及び時間経過に伴う背景化処理を自動で行うことが可能になる。

なお、上述の実施形態においては、カメラ等で取得した全位置について処理を実行したが、これに限られない。例えば、取得画像の上半分などの一部の領域を対象として上述の処理を実行することもできる。これにより、例えば、恒常的に壁等により視界が遮られている場合に、その視界が遮られている部分についての処理を省略することが可能となる。

＜＜その他の実施形態＞＞
図１において各装置はバス１０９によって接続されているが、一部の装置をネットワークＩ／Ｆ１０８により接続して構成しても良い。例えば画像取得装置をネットワークＩ／Ｆ１０８により接続して画像を入力するように構成しても良い。

また、特徴量抽出手段２０２から背景モデル更新手段２０９までの全てを集積回路チップに納め、画像取得装置１０５と一体化させてもよい。或いは、被写体判定手段２０７のみをＰＣ上に構成し、画像と前景領域情報（図１１）を、ＬＡＮケーブルなどを介して受信し、物体領域情報を送信するようにしてもよい。

また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

Claims

画像を取得する取得手段と、
前記取得手段により取得された画像に基づいて、領域毎に、特徴量を表す特徴量情報と、被写体としての確信度を表す確信度情報と、出現時間または存在時間を規定する時間情報とを含むモデル情報を記憶する記憶手段と、
前記取得手段により取得された被写体検出対象の画像から領域毎に特徴量を抽出する抽出手段と、
前記領域毎に、前記被写体検出対象の画像から抽出した特徴量と、前記モデル情報に含まれる特徴量情報の表す特徴量との差分を算出する算出手段と、
前記被写体検出対象の画像において、前記差分が閾値未満の領域のうち、前記モデル情報に含まれる確信度情報の表す確信度が所定確信度以上の領域と、前記モデル情報に含まれる時間情報により規定される出現時間または存在時間が所定時間未満の領域とを、前景領域と判定する判定手段と、
前記前景領域から被写体を検出する検出手段と
を備えることを特徴とする情報処理装置。
前記記憶手段は、前記領域のそれぞれについて、複数の前記モデル情報を記憶可能であり、
前記算出手段は、前記モデル情報が複数記憶された領域については、抽出された前記特徴量と、複数の前記モデル情報のそれぞれに含まれる特徴量情報の表す特徴量との差分値のうち、最小の差分値を前記差分として算出する、
ことを特徴とする請求項１に記載の情報処理装置。
前記記憶手段は、前記最小の差分値が前記閾値以上の領域について、前記抽出手段で抽出された特徴量を特徴量情報とし、前記確信度情報及び前記時間情報を初期値とするモデル情報を新たに記憶する、
ことを特徴とする請求項２に記載の情報処理装置。
前記モデル情報において、前記時間情報は、前記特徴量情報が表す特徴量が前記最小の差分値に対応し、かつ該最小差分値が前記閾値未満である通算の時間を前記出現時間として表す、
ことを特徴とする請求項２または３に記載の情報処理装置。
前記モデル情報において、前記時間情報は、前記確信度情報と前記特徴量情報を初めて記憶した時刻、又は、該確信度情報と該特徴量情報を与える画像を初めて取得した時刻を作成時刻として、該作成時刻から現在時刻までを前記存在時間と規定するための当該作成時刻を表す、
ことを特徴とする請求項２または３に記載の情報処理装置。
記憶手段を備えた情報処理装置における情報処理方法であって、
取得手段が、画像を取得する取得工程と、
記憶制御手段が、前記取得工程で取得された画像に基づいて、領域毎に、特徴量を表す特徴量情報と、被写体としての確信度を表す確信度情報と、出現時間または存在時間を規定する時間情報とを含むモデル情報を前記記憶手段に記憶する記憶制御工程と、
抽出手段が、前記取得工程で取得された被写体検出対象の画像から領域毎に特徴量を抽出する抽出工程と、
算出手段が、前記領域毎に、前記被写体検出対象の画像から抽出した特徴量と、前記モデル情報に含まれる特徴量情報の表す特徴量との差分を算出する算出工程と、
判定手段が、前記被写体検出対象の画像において、前記差分が閾値未満の領域のうち、前記モデル情報に含まれる確信度情報の表す確信度が所定確信度以上の領域と、前記モデル情報に含まれる時間情報により規定される出現時間または存在時間が所定時間未満の領域とを、前景領域と判定する判定工程と、
検出手段が、前記前景領域から被写体を検出する検出工程と
を備えることを特徴とする情報処理方法。
コンピュータを請求項１から５のいずれか１項に記載の情報処理装置が備える各手段として機能させるためのプログラム。