JP2015197816A

JP2015197816A - 画像処理装置、画像処理方法

Info

Publication number: JP2015197816A
Application number: JP2014075716A
Authority: JP
Inventors: 東條　洋; Hiroshi Tojo; 洋東條; 矢野　光太郎; Kotaro Yano; 光太郎矢野; トゥアンクワンファム; Quang Pham Tuan
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-04-01
Filing date: 2014-04-01
Publication date: 2015-11-09
Anticipated expiration: 2034-04-01
Also published as: CN104980622A; KR20150114437A; KR101802146B1; US20150279049A1; EP2927873B1; JP6445775B2; US10438361B2; CN104980622B; US9691155B2; US20170263008A1; EP2927873A1

Abstract

【課題】メモリの消費量及び処理コストを増大させることなく、撮像装置の動きによる入力画像のずれに伴う誤検知の回避を実現するための技術を提供すること。
【解決手段】映像入力手段と、前記映像入力手段で取得した画像をそれぞれの画素の属性が類似する複数の領域に分割する領域分割手段と、前記領域分割手段で分割したそれぞれの領域から特徴を抽出する特徴抽出手段と、背景の特徴から生成された背景モデルを予め記憶した背景モデル記憶手段と、前記特徴抽出手段で抽出した特徴と、前記背景モデル中の特徴と、を比較して前記領域毎に背景か否かを判定する特徴比較手段とを備えることを特徴とする。
【選択図】図１

Description

本発明は、動画像からの物体検知技術に関するものである。

カメラで撮影した画像から物体を検知する技術として、背景差分法が開示されている。背景差分法においては、固定したカメラにおいて予め被写体がいない背景の画像を撮影し、その特徴を背景モデルとして記憶しておく。そしてその後、カメラから入力された画像中の特徴と背景モデル中の特徴との差分を求め、異なる領域を前景（物体）として検知する。

例えば、特許文献１では、画素値を特徴として背景モデルを生成し、画素単位に差分を算出して物体の検知を行っている。このように画素単位で背景モデルを生成すると高解像になるほど多くのメモリを消費し、処理コストも増大する。そこで、特許文献２では、入力画像を８×８画素ブロックに分割し、離散コサイン変換（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）にて符号化した結果であるＤＣＴ係数を特徴として用いている。

特許第２９５０２６７号特許第４６５３１５５号

Radhakrishna Achanta, Appu Shaji, Kevin Smith, Aurelien Lucchi, Pascal Fua, and Sabine Susstrunk. SLIC Superpixels. EPFL Technical Report 149300, June 2010 Felzenszwalb, P., Huttenlocher, D. Efficient graph-based image segmentation. International Journal of Computer Vision. 2004

しかしながら、背景差分法ではカメラが固定されていることを前提としているために、振動などによってカメラに動きが生じると次のような問題が生じる。すなわち、画像内に動く物体がなくても、入力画像がカメラの動きによってずれることにより、特許文献１の方法では時間的に連続している入力画像間で同一の座標にある画像内容が変化する。例えば、赤いドアと青い壁の境界付近の画素は、赤から青へといったように急激に画素値が変化してしまう。また、特許文献２の方法では、赤いドアと青い壁の境界を含むブロックでは、含まれている赤と青の画素の割合が変化してしまう。結果として、特許文献１の方法であっても特許文献２の方法であっても、背景に存在する強いエッジを伴う境界付近においては、誤検知が生じてしまう。

特許文献１の方法であれば、同じ画素値をもつ画素の座標がずれただけであるので、近傍の画素も比較対象に加えれば、誤検知を防ぐことが可能である。しかし、この方法では、メモリ量や処理コストの問題を克服することができない。また、特許文献２の方法では、メモリ量や処理コストは抑えることができるが、ブロックの特徴そのものが変化してしまうので、誤検知の問題は克服できない。従って、従来の技術では、メモリの消費と処理コストを増大させることなくカメラの動きによる入力画像のずれに伴う誤検知の発生を避けることができなかった。

本発明はこのような問題に鑑みてなされたものであり、メモリの消費量及び処理コストを増大させることなく、撮像装置の動きによる入力画像のずれに伴う誤検知の回避を実現するための技術を提供する。

本発明の一様態は、映像入力手段と、前記映像入力手段で取得した画像をそれぞれの画素の属性が類似する複数の領域に分割する領域分割手段と、前記領域分割手段で分割したそれぞれの領域から特徴を抽出する特徴抽出手段と、背景の特徴から生成された背景モデルを予め記憶した背景モデル記憶手段と、前記特徴抽出手段で抽出した特徴と、前記背景モデル中の特徴と、を比較して前記領域毎に背景か否かを判定する特徴比較手段とを備えることを特徴とする。

本発明の構成によれば、メモリの消費量及び処理コストを増大させることなく、撮像装置の動きによる入力画像のずれに伴う誤検知の回避を実現することができる。

コンピュータのハードウェア構成例を示すブロック図。画像処理装置の機能構成例を示すブロック図。画像処理装置が行う処理のフローチャート。ステップＳ３０４における処理の詳細を示すフローチャート。安定度に応じた閾値の求め方及び閾値を安定度に応じて求める意義を説明する図。

以下、添付図面を参照し、本発明の好適な実施形態について説明する。なお、以下説明する実施形態は、本発明を具体的に実施した場合の一例を示すもので、特許請求の範囲に記載した構成の具体的な実施例の１つである。

［第１の実施形態］
本実施形態では、動画像を構成する各フレームの画像を順次取得し、該取得した画像から物体が写っている領域を検出する画像処理装置の一様態について説明する。先ず、本実施形態に係る画像処理装置の機能構成例について、図２のブロック図を用いて説明する。なお、図２の構成はあくまでも一例であり、同等以上の機能を実現する構成であれば、如何なる構成を採用しても構わない。

映像入力部２０１は、動画像を構成する各フレームの画像（フレーム画像）を順次取得し、該取得したフレーム画像を後段の領域分割部２０２に対して送出する。各フレームの画像は、ビデオカメラから順次送出されるものであっても構わないし、外部装置から、例えばストリーミングなどの技術でもって転送されてくるものであっても構わない。

領域分割部２０２は、映像入力部２０１から受けたフレーム画像を、画像特徴（属性）が類似する領域を単位に分割する。特徴抽出部２０３は、領域分割部２０２が分割したそれぞれの領域について、該領域から画像特徴を抽出する処理を行う。近傍領域選択部２０５は、背景モデル記憶部２０４に格納されている領域毎の情報から、領域分割部２０２が分割した領域に近接する領域の情報を読み出して特徴比較部２０６に送出する。

特徴比較部２０６は、領域分割部２０２が分割したそれぞれの領域について、該領域から抽出した画像特徴と、該領域について近傍領域選択部２０５が背景モデル記憶部２０４から読み出した情報と、を比較する。

物体領域出力部２０７は、特徴比較部２０６による比較結果に応じて、フレーム画像について分割したそれぞれの領域のうち、物体が写っている領域を特定し、該特定した領域に係る情報を出力する。

特徴更新部２０８及び安定度算出部２０９は、背景モデル記憶部２０４に格納されている背景モデルを更新する。

次に、フレーム画像から物体が写っている領域を検出するために本実施形態に係る画像処理装置が行う処理について、同処理のフローチャートを示す図３を用いて説明する。

ステップＳ３０１では、映像入力部２０１は、１フレーム分のフレーム画像を取得し、該取得したフレーム画像を、後段の領域分割部２０２に対して送出する。

ステップＳ３０２では、領域分割部２０２は、映像入力部２０１から受けたフレーム画像を、画像特徴が類似している領域を単位に分割する。ここで、近年、輝度や色などの画像特徴が類似している画素群から成る小領域（Superpixelと呼ばれている）を単位に画像を分割する手法が提案されている（例えば、非特許文献１及び２を参照のこと）。

画像分割の手法によっては、Superpixelのサイズがほぼ一定になるもの（非特許文献１）や、画像の内容によって大きく異なるもの（非特許文献２）が存在するが、以下の共通した性質がある。すなわち、Superpixel分割では、輝度や色が類似する画素をまとめることにより、輝度や色が大きく変化する強いエッジの部分で分割されることになる。強いエッジは画像に含まれる物体の境界に見られるため、物体の境界付近のSuperpixelの境界は物体の境界と一致するという性質がある。本実施形態ではこのようなSuperpixelの性質を利用する。

そして領域分割部２０２は、フレーム画像を、画像特徴が類似している領域（すなわちSuperpixel）を単位に分割すると、フレーム画像を構成する各画素に対し、該画素が属するSuperpixelに固有のラベル番号を割り当てると共に、該領域のフレーム画像内における重心位置を、画像処理装置が管理するメモリに登録する。

ステップＳ３０３では、特徴抽出部２０３は、領域分割部２０２が分割したそれぞれのSuperpixelから画像特徴を抽出する。Superpixel単位で画像特徴を抽出することにより、動画像を撮像する撮像装置の動きに伴ってフレーム画像内にずれが起こっても、画像特徴の変化が起きなくなる。前述の赤いドアと青い壁の境界の例では、フレーム画像内にずれが起こっても、赤いドアと青い壁の境界には常にSuperpixelの境界が存在するため、赤と青が混じり合ったSuperpixelから画像特徴を抽出するようなことはない。従って、物体境界付近であってもフレーム画像間で一貫した特徴を抽出することができる。

本実施形態では、Superpixelから抽出する画像特徴として、該Superpixel内の各画素のそれぞれの色成分の平均画素値（例えばＲ，Ｇ，Ｂのそれぞれの成分についての平均画素値）である色特徴を用いる。この他、ＲＧＢなどの色空間を色成分ごとに分割しておき、Superpixel内のそれぞれの画素の色値のヒストグラムを生成するようにしてもよい。色空間は特にＲＧＢの色空間に限定されるものではなく、ＹＣｂＣｒやＣＩＥＬＡＢなどの色空間を使用しても構わない。もちろん、色特徴として適用可能なものは他にも考えられる。

また、本実施形態では、Superpixelから抽出する画像特徴として、該Superpixelの形状を規定する情報である形状特徴も用いる。この「Superpixelの形状を規定する情報」は、例えば、Superpixelの境界上の画素の画素位置であっても構わないし、Superpixel内の各画素の画素位置であっても構わないし、Superpixel内の画素数（Superpixelの面積）であっても構わない。

この他、所定値以上のエッジ強度をもつ領域境界の画素数が周長に対して占める割合を画像特徴として用いてもよい。後述するように、強いエッジに囲まれているほどSuperpixelは安定すると考えられるため、Superpixelの形状を特徴づけるものと見なせるからである。また、各画素の画素位置を（x, y）で表した場合のx座標の二次モーメント、y座標の二次モーメント、xyモーメント、或いは、境界線のフーリエ記述子を用いてもよい。

特徴抽出部２０３は、フレーム画像を構成する各画素に割り当てたラベル番号を用いて、同じラベル番号が割り当てられている画素群から成る領域、すなわちSuperpixelを特定し、該特定したSuperpixelから画像特徴（色特徴及び形状特徴）を抽出する。特徴抽出部２０３は、フレーム画像におけるそれぞれのSuperpixelについて、該Superpixelから抽出したｎ（ｎは２以上の整数）個の画像特徴をｎ次元の特徴ベクトル（上記の例ではSuperpixel内の各画素のそれぞれの色成分の平均画素値と、該Superpixelの形状を規定する情報（ここでは面積とする）と、から成る４次元ベクトル）として上記のメモリに登録する。

ステップＳ３０４における処理を説明する前に、背景モデル記憶部２０４が保持する情報について説明する。背景モデル記憶部２０４には、Superpixelごとの画像特徴の時間的統計量（安定度を含む）が、該Superpixelのラベル番号、重心座標と共に、背景モデルとして登録されている。

ここで、「安定度」とは、Superpixelが時間的に見てどの程度安定しているかを示す量である。動画像では、照明、ホワイトバランス、ノイズなどの変化が生じるため、フレーム画像間で同じ位置の画素でも、その輝度や色は異なる。動画像の各フレーム画像をSuperpixel分割した場合、各Superpixelは以下のようになる。前述の通り、強いエッジを伴う物体境界とSuperpixelの境界は一致するため、フレーム画像間でSuperpixelの色特徴は変化しても形状特徴は変化しにくい。しかしながら、強いエッジを伴わない、輝度や色がなだらかに異なっている領域（照明の当たり方が均一でないカーペットの床など）においては、フレーム画像間でSuperpixelの形状特徴は変化しやすくなる。これは、わずかな各画素の輝度や色の変動もSuperpixel分割結果に影響するからである。結果として、Superpixelに含まれる色の割合も変わる。即ち、Superpixelが不安定になると画像特徴の差が生まれやすくなり、照明の変動などによって誤検知が生じることがある。そこで、安定度を、Superpixelの画像特徴を時間的に見た時のばらつき具合で表すこととする。安定度を求める手法として本実施形態では、特定領域に対応するSuperpixelで画像特徴の各要素の確率分布をガウシアンモデルで近似する方法を挙げる。なお、ここでは説明上、一つのSuperpixel（Superpixel X）に着目するが、全てのSuperpixelについて同様に扱うものとする。tフレーム目のSuperpixel Xの特徴ベクトルをF_t（n次元）としたとき、確率密度関数ηは以下の式になる。

なお、nは特徴ベクトルの次元数、μ_tはｔフレーム目までの各フレームにおけるSuperpixel Xの特徴ベクトルの平均ベクトル（n次元）、Σ_tはその共分散行列（n×n次元）である。添え字のtはtフレーム目であることを示している。後述するようにμ_t、Σ_tはフレーム単位で更新される。なお、本実施形態では特徴ベクトルF_tは、色特徴であるＲＧＢ各成分のSuperpixel内の平均値と、形状特徴である面積と、の４次元の要素からなる。演算を容易にするために特徴ベクトルF_tの各次元は互いに独立であり、更に色特徴は各成分とも標準偏差は同じ値σ_c,tを取るものとし、形状特徴の標準偏差はσ_s,tであるとする。

σ_c,t、σ_s,tが小さくなるほどSuperpixelはより安定していることになる。そこで、これらを安定度として使用する。然るに本実施形態では、Superpixelごとの背景モデルには、該Superpixelの平均ベクトルμ_t、該Superpixelにおける画像特徴の標準偏差σ_c,t,σ_s,t（安定度）、該Superpixelのラベル番号、重心座標、が含まれているものとする。

このような前提の元で近傍領域選択部２０５が行う処理（ステップＳ３０４）について、図４のフローチャートを用いて説明する。なお、図４のフローチャートは、フレーム画像中のある１つのSuperpixel（着目Superpixel）に対する処理を示しており、実際には、フレーム画像中のそれぞれのSuperpixelについて図４のフローチャートに従った処理を実行することになる。

ステップＳ４０１では、背景モデル記憶部２０４から未だ読み出していないSuperpixelの重心位置を読み出す。上記の通り、背景モデル記憶部２０４には、それぞれのSuperpixelの重心位置が登録されているので、本ステップでは、未だ読み出されていない重心位置を読み出す。図４のフローチャートでは、ステップＳ４０１の処理を実行するたびに、例えば、ラベル番号が小さい順に、対応する重心位置を１つ読み出す。

ステップＳ４０２では、着目Superpixelの重心位置と、ステップＳ４０１で読み出した重心位置と、の間の距離を求める。ここでは、重心位置間のユークリッド距離を求めるものとするが、例えば、２つのSuperpixelの重なりの面積の、一方のSuperpixelの面積に対する割合を求めても構わない。

ステップＳ４０３では、ステップＳ４０１で読み出した重心位置と同じ背景モデルに含まれている安定度を背景モデル記憶部２０４から読み出す。例えば、ステップＳ４０１でラベル番号＝１のSuperpixelの重心位置を読み出した場合、ステップＳ４０３では、ラベル番号＝１のSuperpixelの安定度を読み出す。

ステップＳ４０４では、ステップＳ４０３で読み出した安定度に応じた閾値を求める。なお、安定度に応じた閾値の求め方、及び閾値を安定度に応じて求める意義については後述する。

ステップＳ４０５では、ステップＳ４０２で求めた距離とステップＳ４０４で求めた閾値との大小比較を行う。この大小比較の結果、ステップＳ４０２で求めた距離がステップＳ４０４で求めた閾値よりも小さい場合には、処理はステップＳ４０６に進み、ステップＳ４０２で求めた距離がステップＳ４０４で求めた閾値よりも大きい場合には、処理はステップＳ４０７に進む。

ステップＳ４０６では、ステップＳ４０１で読み出した重心位置と同じ背景モデルに含まれているラベル番号を、画像処理装置内の不図示のメモリに登録する。例えば、ステップＳ４０１でラベル番号＝１のSuperpixelの重心位置を読み出した場合、ステップＳ４０６では、ラベル番号＝１をメモリに登録する。

ここで、安定度に応じた閾値の求め方、及び閾値を安定度に応じて求める意義について、図５を用いて説明する。閾値を安定度に関係なく固定値にしてしまうと次のような問題が生じる。図５（ａ）に示す如く、５０３で示す重心位置を有するSuperpixel５０１と、５０４で示す重心位置を有するSuperpixel５０２と、が位置しているとする。Superpixel５０１は水平方向の幅が非常に短いものとなっている。ここで、図５（ａ）に示した状態からずれた撮像位置姿勢でもって撮像されたフレーム画像が図５（ｂ）のフレーム画像であるとする。このとき、Superpixel５０１はSuperpixel５０５となっており、その重心位置５０７は重心位置５０３から若干ずれている。また、Superpixel５０２はSuperpixel５０６となっており、その重心位置５０８は重心位置５０４から若干ずれている。

図５（ａ）と図５（ｂ）とを重ねた状態を図５（ｃ）に示す。ここで、上記の閾値が固定であった場合、重心位置５０３を中心とし且つ該閾値を半径とする円５０９、重心位置５０４を中心とし且つ該閾値を半径とする円５１０を設定することができる。ここで、Superpixel５０５を着目Superpixelとすると、その重心位置５０７は、円５１０内に位置しており、重心位置５０４から閾値の距離以内に位置していることになる。このとき、ステップＳ４０６では、Superpixel５０２のラベル番号を、Superpixel５０５に近接するSuperpixelのラベル番号としてメモリに登録することになるのであるが、本来であれば、Superpixel５０１のラベル番号をメモリに登録するのが正しい。このように、短い方の幅が閾値より狭いSuperpixelについては、正しいSuperpixelを選択することができなくなることがある。

これに対応するためには、閾値を大きくしてより広い範囲から着目Superpixelに対応するSuperpixelを選択すればよい。しかしながら、Superpixelが不安定な場合は、背景モデルに対応しないSuperpixelが偶然類似の形状となってしまうことがあり、結果として誤検知が誘発される。そこで、形状特徴の安定度（標準偏差）σ_s,tを用いて、閾値T1を以下の式で決定するようにする。

なお、Sは平均的なSuperpixelの重心位置の間隔、αは規定の閾値である。Sは、画像の全画素数をN、一つの画像をSuperpixelに分割する数をKとするとＳ＝√（Ｎ／Ｋ）より求めることができる。Superpixelの形状が安定しているほど抽出される特徴量が安定しているため、選択されても、特徴比較部２０６及び物体領域出力部２０７において正しく判定を行える。従って、安定度が高いほどより広い範囲からの選択を可能とする。式（３）において形状が安定しているほどσ_s,tは小さくなるため、閾値の値は大きくなり、より広い範囲を近傍として扱えるようになる。然るに、このような性質を有するように閾値を求めることができるのであれば、安定度から閾値を求める方法は上記の方法に限るものではない。

図４に戻って、ステップＳ４０７では、背景モデル記憶部２０４に格納されている全てのSuperpixelの背景モデルについてステップＳ４０１〜Ｓ４０６の処理を行ったか否かを判断する。この判断の結果、背景モデル記憶部２０４に格納されている全てのSuperpixelの背景モデルについてステップＳ４０１〜Ｓ４０６の処理を行った場合には、処理はステップＳ３０５に進む。一方、背景モデル記憶部２０４に格納されている全てのSuperpixelの背景モデルのうち未だステップＳ４０１〜Ｓ４０６の処理の対象となっていない背景モデルが残っている場合には、処理はステップＳ４０１に戻る。

図４のフローチャートに従った処理を実行することで、背景モデル記憶部２０４に格納されているSuperpixelごとの背景モデルのうち、着目Superpixelの近傍に位置するSuperpixelの背景モデル中のラベル番号をメモリに登録することができる。

図３に戻って、次に、ステップＳ３０５では、特徴比較部２０６は、フレーム画像のそれぞれのSuperpixelから取得した特徴ベクトルと、該Superpixelについてメモリに登録したラベル番号と同じ背景モデルに含まれている平均ベクトルと、を比較する。

具体的には、フレーム画像における着目Superpixelについて、以下に示す２つの式（式（４）、（５））を同時に満たす場合、該着目Superpixelは、背景であると判断する。これらの式におけるF_tは、フレーム画像における着目Superpixelの特徴ベクトルであり、μ_tは、着目Superpixelについてメモリに登録したラベル番号と同じ背景モデルに含まれている平均ベクトルである。また、iは特徴のn次元ベクトルのうちのi次元目であり、k,lは所定の定数である。

前述の通り、Superpixelが不安定になるほど（σ_c,t,σ_s,tが大きくなるほど）特徴の差が生じやすくなる。そこで、式（４）、式（５）のように閾値を安定度であるσ_c,t,σ_s,tに応じて大きな差分を許容するようにする。これにより、不安定なSuperpixelによって誘発される誤検知を防ぐことが可能になる。

また、本実施形態では特徴として色特徴と形状特徴の両方を用いている。色特徴のみを用いると、背景に検知対象である物体と似た色をもつSuperpixelが存在すると誤検知が生じてしまう。例えば、赤い花瓶が置いてある前を赤い色のシャツを着た人物が通過すると、それぞれの形状は明らかに異なるにも関わらず、色が似ていれば背景と判定してしまう。Superpixelの形状は物体の形状を反映している。そこで、形状特徴を使用することによりこの誤検知を防いでいる。なお、着目Superpixelについてメモリに登録したラベル番号が複数個の場合には、この複数個のラベル番号のうち、着目Superpixelの重心位置との距離が最小となる重心位置と同じ背景モデルに含まれているラベル番号を採用すればよい。

このような処理を、フレーム画像中のそれぞれのSuperpixelについて行うことで、該Superpixelが背景であるか否かを判断することができる。

次に、ステップＳ３０６では、物体領域出力部２０７は、フレーム画像中のそれぞれのSuperpixelのうち背景と判断されなかったSuperpixel、即ち、物体が写っているものと判断されたSuperpixelを表す情報を生成して出力する。例えば、フレーム画像を構成する各画素に対し、該画素が背景と判断されたSuperpixelに属する場合には値「０」を割り当て、該画素が背景ではないと判断されたSuperpixelに属する場合には値「１」を割り当てる。そして、フレーム画像を構成するそれぞれの画素に割り当てた値から成る画像をマスク画像として出力する。このマスク画像において、値「１」が割り当てられた画素から成る領域が、背景と判断されなかったSuperpixel、即ち、物体が写っている領域と判断されたSuperpixelである。

次に、ステップＳ３０７では特徴更新部２０８は、背景モデル記憶部２０４に登録されているそれぞれのSuperpixelの平均ベクトルμ_tのうち、背景と判断されたフレーム画像中のSuperpixelの特徴ベクトルとの比較で用いた平均ベクトルμ_tを更新する。この更新は、以下の式（６）に従って行われる。

ρは式（１）の計算結果ηの値を用いる。例えば、フレーム画像中の背景と判断されたSuperpixel AについてステップＳ３０４でSuperpixel P及びSuperpixel Qのラベル番号がメモリに登録されており、且つSuperpixel Pの重心位置よりもSuperpixel Qの重心位置の方がSuperpixel Aの重心位置に近い場合、Superpixel Qの平均ベクトルを、Superpixel Aの特徴ベクトルを用いて更新する。なお、μ_ｔの初期値については、初めに入力されたフレーム画像から取得された特徴ベクトルをそのままμ_ｔとして用いる。

次に、ステップＳ３０８では、安定度算出部２０９は、Superpixel毎に画像特徴が時間軸に対して安定であるかどうかを示す値を安定度として算出する。安定度については上記の通り、ガウシアンモデルで表現した際の標準偏差σとして算出される。安定度は、起動時には適当な初期値を与えるが、フレーム毎に以下の式（７）、（８）に従って更新する。

なお、μ_tは式（６）で更新された結果を用いる。ｔフレーム目における特徴ベクトルＦ_ｔと平均ベクトルμ_tとの差分(F_t−μ_t)は、どのくらいその特徴ベクトルが安定しているかを表している量である。つまり差分が小さいものが続けばその特徴ベクトルは安定していることになる。これを（t-1）フレームまでの特徴ベクトルから算出されたσ_t-1に反映させることにより、時間方向に対する特徴ベクトルの安定度を示すσ_c,t,σ_s,tを得ることができる。ρとして式（１）の計算結果ηを用いる。なお、σ_c,t,σ_s,tの初期値については、σ_c,t=0,σ_s,t=0とする。

このように、本実施形態では、映像入力によって取得した画像を属性が類似する画素からなる複数の小領域に分割（領域分割）し、分割した小領域から該属性に基づいて特徴を抽出する（特徴抽出）。一方で、この抽出した特徴からなる背景モデルを予め記憶しておき（背景モデル記憶）、特徴抽出で抽出した特徴と、背景モデル中の特徴と、を比較して小領域毎に背景か否かを判定する（特徴比較）。

このような構成により、従来技術のカメラの動きに伴う課題を解決することができる。メモリの消費と処理コストの増大を抑制するために画像を分割するが、分割領域の形状やサイズではなく、含まれる画素の色などの属性が均一になるように分割する（Superpixel分割）。そして、同じ属性に基づいた特徴量を抽出するので、画面ずれが起きても物体境界付近の特徴が変化しなくなるため、誤検知を避けることが可能になる。

また、Superpixel境界の形状特徴を利用することにより、Superpxiel内の色特徴が背景モデルと入力画像で類似する場合であっても、誤検出を防ぐことが可能になる。また、Superpixelが不安定となることによって生じる課題も、Superpixelの安定度を導入して安定度に応じて特徴量比較の際の閾値を変更したり、近傍領域選択の範囲を変更したりすることにより、解消することが可能となっている。

［第２の実施形態］
図２に示した各機能部は１つの画像処理装置内に納めても良いが、１以上の機能部を外部機器に含めても良く、その場合、画像処理装置はこの外部機器とネットワークを介してデータ通信可能に接続されている必要がある。もちろん、図２に示した各機能部を１つのチップ上にまとめても構わない。

また、図２の構成は、背景モデル記憶部２０４としても機能するメモリと、図２において背景モデル記憶部２０４以外の各機能部の機能をプロセッサに実行させるためのコンピュータプログラムを実行可能な該プロセッサと、を有するコンピュータであれば、図２に示した構成を有する画像処理装置として機能することができる。このようなコンピュータのハードウェア構成例について、図１のブロック図を用いて説明する。なお、図１に示した構成は、第１の実施形態で説明した画像処理装置に適用可能なコンピュータの一構成例に過ぎず、第１の実施形態で説明した画像処理装置と同等以上の機能を有する構成であれば、如何なる構成を採用しても構わない。

ＣＰＵ１０１は、ＲＯＭ１０２やＲＡＭ１０３に格納されているコンピュータプログラムやデータを用いて各種の処理を実行することで、本コンピュータの動作制御を行うと共に、第１の実施形態で説明した画像処理装置が行うものとして説明した各処理を実行する。

ＲＯＭ１０２には、本コンピュータの設定データやブートプログラムなどが格納されている。ＲＡＭ１０３は、２次記憶装置１０４からロードされたコンピュータプログラムやデータ、画像入力装置１０５から入力された各フレームの画像、ネットワークＩ／Ｆ（インターフェース）１０８を介して外部から受信したデータを記憶するためのエリアを有する。更にＲＡＭ１０３は、ＣＰＵ１０１が各種の処理を実行する際に用いるワークエリアも有する。すなわち、ＲＡＭ１０３は、各種のエリアを適宜提供することができる。

２次記憶装置１０４は、ハードディスクドライブ装置に代表される大容量情報記憶装置である。この２次記憶装置１０４には、ＯＳ（オペレーティングシステム）や、図２において背景モデル記憶部２０４を除く各機能部の機能をＣＰＵ１０１に実現させるためのコンピュータプログラムやデータが保存されている。このデータには、上記の説明において既知の情報として取り扱ったものも含まれている。２次記憶装置１０４に保存されているコンピュータプログラムやデータは、ＣＰＵ１０１による制御に従って適宜ＲＡＭ１０３にロードされ、ＣＰＵ１０１による処理対象となる。なお、背景モデル記憶部２０４など、第１の実施形態でメモリとして説明したものは、ＲＡＭ１０３や２次記憶装置１０４で構成することができる。

画像入力装置１０５は、本コンピュータに動画像を構成する各フレームの画像を入力するための装置であり、例えば、ビデオカメラである。

入力装置１０６は、キーボードやマウスなどにより構成されており、本コンピュータのユーザが操作することで、各種の指示をＣＰＵ１０１に対して入力することができる。

表示装置１０７は、ＣＲＴや液晶画面などにより構成されており、ＣＰＵ１０１による処理結果を画像や文字などでもって表示することができる。例えば、画像入力装置１０５によって本コンピュータに入力された各フレームの画像や、該画像に対する物体検知の結果などを表示することができる。

ネットワークＩ／Ｆ１０８は、本コンピュータをＬＡＮやインターネットなどのネットワークに接続するためのもので、本コンピュータはこのネットワークＩ／Ｆ１０８を介して外部機器とのデータ通信を行うことができる。もちろん、画像入力装置１０５が本コンピュータに入力するものとして説明した各フレームの画像は、外部の機器からストリーミングなどの技術でもって送信されてもよく、その場合、この各フレームの画像はネットワークＩ／Ｆ１０８を介して本コンピュータに入力されることになる。上記の各部は何れも、バス１０９に接続されている。

（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

２０１：映像入力部２０２：領域分割部２０３：特徴抽出部２０４：背景モデル記憶部２０６：特徴比較部

Claims

映像入力手段と、
前記映像入力手段で取得した画像をそれぞれの画素の属性が類似する複数の領域に分割する領域分割手段と、
前記領域分割手段で分割したそれぞれの領域から特徴を抽出する特徴抽出手段と、
背景の特徴から生成された背景モデルを予め記憶した背景モデル記憶手段と、
前記特徴抽出手段で抽出した特徴と、前記背景モデル中の特徴と、を比較して前記領域毎に背景か否かを判定する特徴比較手段と
を備えることを特徴とする画像処理装置。
前記属性は、少なくとも色または輝度を含むことを特徴とする請求項１に記載の画像処理装置。
前記特徴抽出手段で抽出する特徴は領域の境界の形状特徴を含むことを特徴とする請求項１に記載の画像処理装置。
前記形状特徴は、前記領域の境界の周長に対する所定値以上のエッジ強度を持つ領域境界の長さの割合であることを特徴とする請求項３に記載の画像処理装置。
前記背景モデルは、前記特徴抽出手段で背景の領域より抽出した特徴から求めた時間的統計量を含むことを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
更に、
前記領域より抽出された特徴が時間的に安定していることを示す安定度を算出する安定度算出手段を備え、
前記背景モデルの時間的統計量は前記安定度を含み、
前記特徴比較手段は前記安定度に基づいて領域が物体領域か否かを判定する
ことを特徴とする請求項５に記載の画像処理装置。
更に、
前記特徴比較手段で比較する前記背景モデル中の領域を、前記映像入力手段で取得した画像の領域の近傍より前記安定度に基づいて選択する選択手段を備えることを特徴とする請求項６に記載の画像処理装置。
更に、
前記特徴比較手段による判定の結果に基づいて物体領域を出力する出力手段を備えることを特徴とする請求項１乃至７の何れか１項に記載の画像処理装置。
画像処理装置が行う画像処理方法であって、
前記画像処理装置の領域分割手段が、取得した画像をそれぞれの画素の属性が類似する複数の領域に分割する領域分割工程と、
前記画像処理装置の特徴抽出手段が、前記領域分割工程で分割したそれぞれの領域から特徴を抽出する特徴抽出工程と、
前記画像処理装置の特徴比較手段が、前記特徴抽出工程で抽出した特徴と、背景の特徴から生成された背景モデル中の特徴と、を比較して前記領域毎に背景か否かを判定する特徴比較工程と
を備えることを特徴とする画像処理方法。
コンピュータを、請求項１乃至８の何れか１項に記載の画像処理装置の各手段として機能させるためのコンピュータプログラム。