以下、本発明の実施の形態(以下実施形態という)である画像監視装置1について、図面に基づいて説明する。画像監視装置1は所定の空間(監視空間)が撮影された画像(撮影画像)から当該空間における人や不審物等の監視対象の有無等を解析する。特に、画像監視装置1は、撮影画像における影領域を検出する本発明に係る影検出装置を含んで構成され、監視対象を検知する画像処理において影領域の情報を利用する。また、画像監視装置1は本発明に係る学習装置を備え、影検出装置で用いる学習済モデルを生成することができる。
[画像監視装置の構成]
図1は画像監視装置1の概略の構成を示すブロック図である。画像監視装置1はカメラ2、通信部3、記憶部4、画像処理部5および報知部6からなる。
カメラ2は監視カメラであり、通信部3を介して画像処理部5と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部5に入力する撮影手段である。例えば、カメラ2は、監視空間であるイベント会場の一角に設置されたポールに当該監視空間を俯瞰する所定の固定視野を有して設置され、監視空間をフレーム周期1秒で撮影してカラー画像を生成する。なお、カメラ2はカラー画像の代わりにモノクロ画像を生成してもよい。
通信部3は通信回路であり、その一端が画像処理部5に接続され、他端がカメラ2および報知部6と接続される。通信部3はカメラ2から撮影画像を取得して画像処理部5に入力し、画像処理部5から入力された解析結果を報知部6へ出力する。
例えば、カメラ2および報知部6がイベント会場内の監視センターに設置され、通信部3、記憶部4および画像処理部5が遠隔地の画像解析センターに設置される場合、通信部3とカメラ2、および通信部3と報知部6をそれぞれインターネット回線にて接続し、通信部3と画像処理部5はバスで接続する構成とすることができる。その他、例えば各部を同一建屋内に設置する場合は、通信部3とカメラ2を同軸ケーブルまたはLAN(Local Area Network)で接続し、通信部3と報知部6はディスプレイケーブル、通信部3と画像処理部5はバスで接続するなど、各部の設置場所に応じた形態で適宜接続される。
記憶部4は、ROM(Read Only Memory)、RAM(Random Access Memory)等のメモリ装置であり、各種プログラムや各種データを記憶する。記憶部4は画像処理部5と接続されて、画像処理部5との間でこれらの情報を入出力する。
画像処理部5は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、MCU(Micro Control Unit)等の演算装置で構成される。画像処理部5は記憶部4からプログラムを読み出して実行することにより各種処理手段・制御手段として動作し、必要に応じて、各種データを記憶部4から読み出し、生成したデータを記憶部4に記憶させる。また、画像処理部5は、通信部3経由でカメラ2から取得した撮影画像から監視空間における監視対象の有無や位置などに関する解析結果を生成し、通信部3を介して報知部6へ出力する。また、画像処理部5は撮影画像またはコントラスト補正した補正画像を報知部6へ出力してもよい。
報知部6は、液晶ディスプレイまたはCRT(Cathode Ray Tube)ディスプレイ等のディスプレイ装置であり、通信部3から入力された解析結果に含まれる監視対象の有無や位置等の情報を表示することによって監視員に報知する。報知部6には、さらに、注意喚起を強調するためにブザーやランプ等を含めることもできる。監視員は表示された解析結果や画像を視認して対処の要否等を判断し、必要に応じて対処員を急行させる等の対処を行う。
なお、本実施形態においては、通信部3と画像処理部5の組に対してカメラ2が1台である画像監視装置1を例示するが、別の実施形態においては、通信部3と画像処理部5の組に対してカメラ2が2台以上接続された構成とすることもできる。その場合、通信部3は各カメラ2から撮影画像を時分割で受信し、画像処理部5は各カメラ2からの撮影画像を時分割処理または並列処理する。
[学習時における画像監視装置の機能]
図2は画像監視装置1が本発明に係る学習装置として機能する際の概略の機能ブロック図である。図2には専ら、通信部3、記憶部4および画像処理部5の機能が示されており、具体的には、通信部3は撮影画像取得手段30等として機能し、記憶部4は環境モデル記憶手段40、カメラ情報記憶手段41、背景情報記憶手段42、学習用データ記憶手段43および学習済モデル記憶手段44等として機能し、画像処理部5は背景情報生成手段50、学習用データ生成手段51および学習手段52等として機能する。
撮影画像取得手段30はカメラ2から撮影画像を順次取得して、取得した撮影画像を背景情報生成手段50および学習用データ生成手段51に順次出力する。なお、説明の便宜上、学習に用いるときの撮影画像を学習用撮影画像、判定に用いるときの撮影画像を判定用撮影画像と、必要に応じて区別して称する。
環境モデル記憶手段40は、監視空間の背景を構成する複数の構成物(背景構成物)の三次元モデルを三次元背景として記憶する。
背景構成物は例えば、屋外であれば、歩道、道路、建物、標識などの建造物や、樹木などの移動しない自然物である。好適には、道路のうちのアスファルト部分と白線部分、また標識のうちの地色部分と文字・マーク部分のように、反射特性が互いに有意に異なる部分が別の背景構成物として記憶される。
背景構成物の三次元モデルは、監視空間を模したXYZ座標系における各背景構成物の位置、姿勢、立体形状にて表される三次元座標値および各背景構成物の反射特性のデータを含む。反射特性は一般的に、構成物表面の色、テクスチャ、反射率等の要素で構成される。反射率は例えば、鏡面反射成分の反射率および拡散反射成分の反射率、並びにそれらの割合をパラメータとして持つ二色性反射モデルで表現される。
背景構成物の三次元モデルは、建築設計時に作成されたIFC(Industry Foundation Classes)規格の建物情報、三次元CADデータ等あるいは事前の実計測データから取得できる。
また、環境モデル記憶手段40はさらに当該監視空間の照明モデルも予め記憶している。照明モデルは、監視空間を照明する1以上の光源について、監視空間を模したXYZ座標系における当該光源の位置、および当該光源の配光、色温度などで表される照明特性を含む。光源は人工照明や太陽等である。
カメラ情報記憶手段41は監視空間を模したXYZ座標系におけるカメラ2のカメラパラメータを予め記憶している。カメラパラメータは外部パラメータと内部パラメータとからなる。外部パラメータはXYZ座標系におけるカメラ2の位置姿勢である。内部パラメータはカメラ2の焦点距離、中心座標、歪係数などである。カメラパラメータは事前のキャリブレーションによって計測され、カメラ情報記憶手段41に記憶される。このカメラパラメータをピンホールカメラモデルに適用することによってXYZ座標系の座標をカメラ2の撮影面を表すxy座標系に変換できる。
背景情報記憶手段42は、監視空間の背景が撮影された撮影画像(背景画像)にて背景構成物の反射特性が類似する局所領域の集まりである特性類似領域を記憶する。ここで、局所領域は予め設定される。本実施形態においては撮影画像を構成する各画素を局所領域として設定する。ちなみに、局所領域は、2×2画素の領域、3×3画素の領域等、複数の画素からなる領域とすることもできる。特性類似領域を参照することによって、学習用撮影画像中の任意の局所領域および判定用撮影画像中の任意の局所領域について、当該局所領域に背景として撮影され得る背景構成物の反射特性を特定できる。
また、背景情報記憶手段42は、学習用撮影画像において、影が撮影されていると推定された領域(推定影領域)を記憶する。推定影領域の情報は、学習用撮影画像の各局所領域において影が撮影されている可能性の高さを表す学習用影度合いに変換され、学習にて教師データとして利用される。
また、背景情報記憶手段42は、撮影画像に撮影され得る背景構成物の像を表した背景画像を記憶する。背景画像は学習用撮影画像および判定用撮影画像と比較されて各撮影画像において背景構成物以外(前景物体)の像が撮影されている領域(前景領域)を抽出するために用いられる。
背景情報生成手段50は特性類似領域、推定影領域および背景画像を算出し、それらを背景情報記憶手段42に記憶させる。例えば、特性類似領域は、環境モデル記憶手段40に記憶されている環境モデルを、カメラ情報記憶手段41に記憶されているカメラパラメータを用いてレンダリングすることにより算出できる。
具体的には、背景情報生成手段50は、カメラ2のカメラパラメータを用いて環境モデルをカメラ2の撮影面にレンダリングすることによって、撮影面に形成される画像の各画素に投影される背景構成物を特定する。なお、このレンダリングにおいて光源の照明条件は問わず、任意の照明条件を1つ設定すればよい。
その一方で、背景情報生成手段50は環境モデルに含まれる背景構成物の反射特性ごとにその識別子として反射特性IDを付与する。その際、値が完全一致する反射特性に共通の反射特性IDを付与してもよいし、値が同一とみなせる程度に類似する反射特性には共通の反射特性IDを付与することとしてもよい。反射特性の類否は、反射特性を構成する上述した要素、パラメータに基づいて判定される。具体的には、それぞれの要素およびパラメータの差が予め定めた閾値以下であれば反射特性が類似と判断する。なお、元から反射特性ごとのIDが付与されている環境モデルであれば当該IDを利用すればよい。
そして、次に、背景情報生成手段50は撮影画像の各画素に対応する画素を有した反射特性マップを作成し、当該反射特性マップの各画素の画素値に、当該画素に投影される背景構成物の反射特性IDを設定する。この反射特性マップにおいて画素値が同一である画素からなる領域それぞれが特性類似領域となる。
また、推定影領域および背景画像は、撮影画像の照明条件およびカメラ情報記憶手段41に記憶されているカメラパラメータにて、環境モデル記憶手段40に記憶されている環境モデルをレンダリングすることにより算出できる。
具体的には、背景情報生成手段50は、まず、撮影画像が撮影された時点における光源の照明条件の推定および当該照明条件下での環境モデルのレンダリングを行う。すなわち、複数通りの照明条件を設定してレンダリングを行い、撮影画像とレンダリングの結果として得られるレンダリング画像との類似度を算出し、類似度が最大であるレンダリング画像を背景画像として選択する。背景情報生成手段50は次に、背景画像において背景構成物の影が形成されている領域(直接光が背景構成物によって遮られている領域)を推定影領域とする。背景情報生成手段50はこのように算出した背景画像、推定影領域を上述したように背景情報記憶手段42に記憶させる。
なお、背景情報生成手段50は、前景物体が監視空間内に存在しない状態での撮影画像を背景画像とすることもできる。また、背景情報生成手段50は、背景画像の輝度値が予め定めたしきい値未満である領域を推定影領域とすることもできる。
図3は反射特性マップの例を示す模式図である。図3において、反射特性マップ100は、車道の右側に歩道を挟んで建物が存在する曲がり角が写った撮影画像に対応する例である。図に示すように、反射特性マップ100は撮影画像の各画素と対応する画素を有する画像データとすることができ、カメラ2の撮影面と同じxy座標系で表すことができる。
具体的には反射特性マップ100は、それに対応する撮影画像に反射特性が異なる背景構成物として、石畳からなる歩道、アスファルト舗装された道路、当該道路に道路標示として描かれた白線、および建物の壁が写っている場合の例である。ここで例えば、歩道の石畳の反射特性に対しては反射特性IDを「1」と定義し、同様に、アスファルトの路面、白色の道路標示、建物の壁の反射特性に対しては反射特性IDをそれぞれ「2」,「3」,「4」と定義する。
反射特性マップ100には撮影画像における反射特性が異なる背景構成物の領域ごとに反射特性IDが設定される。画像101は反射特性マップ100のうち歩道領域111を斜線で示しており、当該斜線部の画素に反射特性IDとして値「1」が設定される。同様に、画像102,103,104はそれぞれ反射特性マップ100のうちアスファルト領域112、白線領域113、壁領域114を斜線で示しており、当該斜線部の画素に反射特性IDとしてそれぞれ値「2」,「3」,「4」が設定される。
学習用データ記憶手段43は影判定モデルの学習に用いるデータ(学習用データ)を記憶する。学習用データは、1または複数の学習用撮影画像についての、局所領域ごとの、反射特性の情報、画像特徴および学習用影度合いである。影判定モデルは、例えば、ランダムフォレスト(Random Forest)と呼ばれる木構造のモデルとすることができる。
局所領域の反射特性の情報は、例えば、当該局所領域が帰属する特性類似領域に付与されている反射特性IDで表すことができる。また、反射特性の情報は、反射特性を記述するパラメータの一部または全部であってもよい。
局所領域の画像特徴は、例えば、当該局所領域における撮影画像の特徴量、当該局所領域の近傍領域における撮影画像の特徴量、当該局所領域の位置であり、これらの値を要素とするベクトルで表現することができる。
局所領域における撮影画像の特徴量は、例えば、局所領域の画素値とすることができる。撮影画像がカラー画像であればRGB値、モノクロ画像であれば輝度値である。撮影画像がカラー画像の場合、RGB値を別の表色系に変換した値、RGB値をグレースケール変換した輝度値とすることもでき、或いは、RGB値、別の表色系に変換した値、輝度値のうちの2以上とすることもできる。局所領域の画像特徴には、少なくとも局所領域における撮影画像の特徴量を含ませることが好適である。
局所領域の近傍領域における撮影画像の特徴量は、例えば、近傍領域における撮影画像の平均輝度値、最小輝度値など近傍領域における撮影画像の画素値の代表値とすることができる。撮影画像がカラー画像の場合、平均RGB値、RGB値を別の表色系に変換した値の平均値などとすることもできる。或いは、近傍領域における撮影画像の画素値そのもの、上述した値のうちの2以上とすることもできる。近傍領域における撮影画像の特徴量を画像特徴に加えることで、影の空間的な連続性を含めた学習・判定が可能となる。
局所領域の位置は、撮影画像における局所領域のxy座標とすることができる。局所領域が2以上の画素からなる場合は、所定の代表画素(例えば左上の画素)のxy座標とすればよい。局所領域の位置を画像特徴に加えることで、アスファルト上の黒っぽいしみのように小さな経年変化を学習・判定することが可能となる。
局所領域の学習用影度合いは、学習用撮影画像において当該局所領域に影が撮影されている可能性の高さを表す値である。ここで、影判定モデルをランダムフォレストでモデル化した本実施形態においては、例えば、影判定モデルの出力する尤度を値域が[0,1]の連続値とすることができる。当該尤度は1に近いほど影領域である可能性が高く、0に近いほど非影領域である可能性が高いことを意味している。これに対応して推定影領域内の画素の学習用影度合いを1.0、推定影領域外の画素の学習用影度合いを0.0と設定することができる。
学習用データ生成手段51は学習用撮影画像、並びに背景情報記憶手段42に記憶されている反射特性の情報、推定影領域および背景画像から学習用データを生成し、生成した学習用データを学習用データ記憶手段43に記憶させる。
学習用データ生成手段51は、学習用撮影画像が入力されるたびに、当該学習用撮影画像についての、局所領域ごとの学習用データを生成して、学習用データ記憶手段43に蓄積させる。具体的には、局所領域ごとに、学習用撮影画像から当該局所領域の画像特徴を抽出するとともに、当該局所領域が推定影領域に帰属していれば学習用影度合いを1.0、帰属していなければ0.0に設定し、反射特性IDと画像特徴と学習用影度合いとを対応付けて学習用データ記憶手段43に追記する。
このとき、学習用撮影画像において前景物体が撮影されている局所領域は除いて学習用データを生成するのが好適である。そのために、学習用データ生成手段51は、学習用撮影画像と背景画像との背景差分処理または背景相関処理を行って、予め定めたしきい値を超えて背景画像と相違する変化領域を学習用撮影画像から除き、変化領域を除外した学習用撮影画像から学習用データを生成する。
学習済モデル記憶手段44は、撮影画像に設定された局所領域の画像特徴を入力されて当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する影判定モデルを記憶する。学習済モデル記憶手段44が記憶する影判定モデルは、学習用撮影画像における局所領域の画像特徴および当該局所領域について推定された影度合いである学習用影度合いを用いた学習が行われた学習済モデルである。本実施形態においては、特性類似領域ごとの学習済モデルのそれぞれが当該特性類似領域の反射特性IDと対応付けて記憶される。
ちなみに、学習は反復的に行われ、それに伴って影判定モデルは更新される。特に画像監視装置1は後述するように、監視動作においても撮影画像を取得するごとに影判定モデル学習処理を行って影判定モデルを更新する。つまり、学習装置にて扱う判定モデルは、学習済モデルとしての側面と、さらに学習される学習途中のモデルとしての側面とを有する。これを踏まえて学習装置での判定モデルを簡潔に学習モデルと表現すると、学習済モデル記憶手段44は本願発明の学習装置における学習モデル記憶手段に相当する。
学習手段52は学習用データ記憶手段43に記憶された学習用データを用いて、学習済モデル記憶手段44に記憶された影判定モデルを機械学習させ、それにより生成される学習済モデルを学習済モデル記憶手段44に記憶させる。つまり、学習手段52は、学習用撮影画像における局所領域の画像特徴を影判定モデルに入力して得られる影度合いを、当該局所領域の学習用影度合いに近づける更新を影判定モデルに対して行うことで、学習済モデルを生成する。
本実施形態においては、学習手段52は特性類似領域ごとに学習済モデルを生成する。つまり、特性類似領域ごとに、学習用撮影画像における当該特性類似領域に帰属する局所領域の画像特徴を影判定モデルに入力して得られる影度合いを、当該局所領域の学習用影度合いに近づける更新を影判定モデルに対して行うことで、学習済モデルを生成する。
影判定モデルは、ランダムフォレストに代えて、サポートベクターマシーン(Support Vector Machine:SVM)、アダブースト(AdaBoost)型の識別器、または識別型のCNN(Convolutional Neural Network)等、2クラス問題に適用可能な種々の公知のモデルとすることができる。
図4および図5を用いて学習の例を説明する。図4は監視空間の画像の模式図であり、学習用撮影画像200およびレンダリング画像210それぞれの一例を示している。学習用撮影画像200において、背景構成物は図3に示した反射特性マップと共通であり、特性類似領域として反射特性IDの値「1」〜「4」に対応する4つの領域、具体的には、歩道、アスファルト面、白色道路標示、建物壁が存在する。また、学習用撮影画像200には、背景構成物の他に歩道領域に撮影された人物201も撮影されている。また、斜線部が影領域202を表している。
レンダリング画像210は、上述した背景情報生成手段50により環境モデル等からレンダリングで算出される。レンダリング画像210は学習用撮影画像200に対応して生成され、背景画像および推定影領域212(斜線部)が示されている。なお、レンダリング画像210には、学習用撮影画像200における影領域202と日向領域との境界を一点鎖線で示した。これは、推定影領域212が真の影領域202に対して推定誤差があることを例示している。推定影領域の推定に関しては、影領域および非影領域として正しく推定された画素数が誤推定された画素数を十分に上回っていればよく、誤差が許容される。
図5は学習用データを説明する模式図である。画像310〜345の斜線部は学習用撮影画像200において学習用データに用いられる領域である。具体的には、反射特性IDの値をrとすると、画像315の斜線部は学習用撮影画像200のうちレンダリング画像210の推定影領域212(斜線部)のr=1の部分に対応し、画像310の斜線部は学習用撮影画像200のうち推定影領域212以外、つまり非影と推定される領域(推定非影領域)のr=1の部分に対応する。また、画像320,325それぞれの斜線部は学習用撮影画像200のうちr=2の推定非影領域、推定影領域212に対応する部分であり、同様に、画像330,335はr=3、画像340,345はr=4での推定非影領域、推定影領域212に対応する部分を示している。
図5の右側に表形式で示すデータは学習用データ記憶手段43に記憶される学習用データを模式的に表しており、表の各行は1枚の学習用撮影画像の1つの局所領域についてのデータであり、当該データは反射特性ID、画像特徴、学習用影度合いを含む。画像特徴は記号F*,r(m)で表しており、当該表記にてFの添字の*は局所領域が推定影領域に位置するか推定非影領域に位置するかを区別するラベルであり、*の文字がSなら影、Nなら非影を意味する。また、Fの添字のrは反射特性IDであり、mは、影/非影ラベル(*)と反射特性ID(r)との組み合わせごとに複数設定され得る局所領域を区別する番号である。
例えば、歩道において非影領域と推定された領域から前景領域を除いた領域(画像310の斜線部)に帰属する局所領域のうちの1番目の局所領域について、学習用撮影画像200から抽出された画像特徴FN,1(1)が、歩道の反射特性IDである1および学習用影度合い0.0と対応付けられて記憶されている。ここで、学習用影度合いは推定非影領域、つまりラベルがNの局所領域に対しては0.0が設定され、推定影領域、つまりラベルがSの局所領域に対しては1.0が設定される。ちなみに、レンダリング画像210にて一点鎖線と推定影領域212とに挟まれる影領域の推定誤差に位置する局所領域については、推定非影領域となるためラベルがNであり、学習用影度合いは0.0となるが、画像特徴FN,r(m)は学習用撮影画像200から抽出されるので、影に対応する画素値等となる。
上述したように学習手段52は特性類似領域ごとに学習済モデルを生成する。よって、図5の例では、例えば、歩道については、反射特性IDの値「1」と対応付けられた学習データ、具体的には画像特徴FN,1(1),FN,1(2),…およびFS,1(1),FS,1(2),…と、それらに対応付けられた学習用影度合いとを用いて影判定モデルが学習される。また、アスファルト面、白色道路標示、建物壁についての影判定モデルも同様に、それぞれ対応する反射特性IDの学習データを用いて学習される。
[判定時における画像監視装置の機能]
図6は画像監視装置1が本発明に係る影検出装置として機能し、撮影画像にて影判定を行い、その結果を利用して監視空間における監視対象の有無等を解析する際の概略の機能ブロック図である。図6には専ら、通信部3、記憶部4および画像処理部5の機能が示されており、具体的には、通信部3は撮影画像取得手段30、解析結果出力手段31等として機能し、記憶部4は環境モデル記憶手段40、カメラ情報記憶手段41、背景情報記憶手段42および学習済モデル記憶手段44等として機能し、画像処理部5は背景情報生成手段50、影判定手段53、前景抽出手段54および前景情報解析手段55等として機能する。
影検出装置における撮影画像取得手段30、環境モデル記憶手段40、カメラ情報記憶手段41、背景情報記憶手段42、学習済モデル記憶手段44および背景情報生成手段50の機能は、学習装置について上述した内容と同様であるのでここでは説明を省略する。
影判定手段53は、判定用撮影画像の局所領域における画像特徴を、学習済モデル記憶手段44に記憶されている学習済モデルに入力して得られる影度合い(判定用影度合い)を予め定めた基準と比較し、判定用影度合いが基準を超える局所領域を影領域と判定して判定結果を前景抽出手段54に出力する。
本実施形態では、背景情報記憶手段42が記憶している特性類似領域を利用し、影判定手段53は、局所領域の画像特徴を当該局所領域に対応する特性類似領域の学習済モデルに入力して影度合いを得る。
そのために、影判定手段53は、まず、判定用撮影画像の各局所領域から画像特徴を抽出する。抽出する画像特徴は学習用データの画像特徴と同一形式の特徴ベクトルである。また、影判定手段53は、背景情報記憶手段42が記憶している反射特性マップを参照して各局所領域が帰属する特性類似領域の反射特性IDを特定する。影判定手段53は、学習済モデル記憶手段44に記憶されている特性類似領域ごとの学習済モデルのうち当該反射特性IDに対応するものを選択し、各局所領域の画像特徴を当該学習済モデルに入力して判定用影度合いを得る。
ここで、判定の基準を1つのしきい値とし、判定用影度合いが当該しきい値以上である局所領域は影領域であり、一方、判定用影度合いが当該しきい値未満である局所領域は非影領域であると判定することもできるが、本実施形態では前景領域における誤判定を抑制するために判定の基準を2つのしきい値TS,TN(TS>TN)で構成する。すなわち、判定用影度合いがTS以上である局所領域は影領域であると判定して影ラベルを付与し、判定用影度合いがTN未満である局所領域は非影領域であると判定して非影ラベルを付与し、判定用影度合いがTN以上TS未満である局所領域についてはラベル補間処理を行う。
ラベル補間処理は、例えば、各局所領域と対応する画素の画素値として当該局所領域に付与されたラベルを設定したラベル画像を生成して、ラベル画像にて影ラベルが設定された領域と非影ラベルが設定された領域をラベルが不定の領域に向けて膨張させる膨張処理とすることができる。
或いは、ラベル補間処理は、上記ラベル画像においてラベルが不定の領域を穴に見立てて、ラベル画像を穴埋めフィルタで繰り返しフィルタリングする穴埋め処理とすることができる。
或いは、ラベル補間処理は、背景情報生成手段50が推定した推定影領域の情報で置換する処理とすることができる。すなわち、ラベルが不定の局所領域が推定影領域であれば当該局所領域に影ラベルを付与し、ラベルが不定の局所領域が推定影領域でなければ当該局所領域に非影ラベルを付与する。
前景抽出手段54は撮影画像取得手段30から撮影画像を入力されるとともに影判定手段53から当該撮影画像に設定した各局所領域についての影領域か否かの判定結果を入力され、撮影画像から前景物体が写る領域を検出し、検出結果である前景情報を前景情報解析手段55に出力する。
例えば、前景抽出手段54は、入力された撮影画像のうち、ラベル画像にて非影ラベルを付与された領域を日向などが撮影された非影部分画像とし、ラベル画像にて影ラベルを付与された領域を日陰などが撮影された影部分画像とし、これら両部分画像それぞれにて前景領域を検出し、それらを合成して撮影画像における前景情報を求める。
例えば、非影部分画像に対しては、前景抽出手段54は背景画像との差分処理を行う。そして、各画素について画素値の相違度を求め、当該相違度が所定のしきい値より大きい領域を前景領域として検出する。
一方、影部分画像に対しては、前景抽出手段54は背景画像との差分処理を行って各画素について画素値の相違度を求め、当該相違度が所定の第1のしきい値より大きい領域を強変化領域とし、第1のしきい値以下の領域を非強変化領域とする。そして、前景抽出手段54は、影部分画像について、まず強変化領域を前景領域として抽出する。
また、前景抽出手段54は、特性類似領域ごとに、影部分画像の非強変化領域における輝度ヒストグラムを生成する。そして、ヒストグラムに複数の山部がある場合に、当該特性類似領域内の非強変化領域に前景物体が存在するとして、複数の山部のうち背景により生じたもの以外の山部を構成する画素群からなる領域を前景領域として抽出する。ここで、例えば、複数の山部のうち最も高いものを背景により生じたものと推定することができる。また、環境モデルを用いたレンダリング結果から背景による山部を推定することもできる。
前景抽出手段54は、非影部分画像から抽出した前景領域、影部分画像にて強変化領域および非強変化領域に分けて抽出した前景領域を合成して、撮影画像にて前景物体が写る領域を求める。そして、前景物体の有無、前景物体が存在する位置または領域、前景物体の画像(前景画像)等のうちの1以上を含めた前景情報を生成して前景情報解析手段55に出力する。
前景情報解析手段55は、前景抽出手段54が出力した前景物体の画像、位置、動きを解析して、解析結果を解析結果出力手段31へ出力する。前景情報解析手段55は例えば、前景物体からの監視対象の検知、監視対象の姿勢の推定、監視対象の追跡などを行う。
解析結果出力手段31は前景情報解析手段55から入力された解析結果を報知部6へ出力する。
[画像監視装置の動作]
図7は画像監視装置1の動作を説明する概略のフロー図である。
画像処理部5は、まず背景情報生成手段50として機能し、特性類似領域を算出する(ステップS1)。例えば、図3の反射特性マップ100の例では、画像101〜104それぞれの斜線領域が特性類似領域として得られる。背景情報生成手段50は算出した特性類似領域を背景情報記憶手段42に記憶させる。
背景情報記憶手段42に特性類似領域が記憶された状態にて、通信部3は撮影画像取得手段30として動作し、カメラ2から撮影画像を順次取得する(ステップS2)。
画像処理部5は、撮影画像取得手段30から撮影画像を取得するごとに、背景情報生成手段50として動作し、推定影領域を算出する(ステップS3)。具体的には、上述したように、環境モデル記憶手段40、カメラ情報記憶手段41に記憶された環境モデルおよびカメラパラメータを用いたレンダリングにより影領域を推定する。また、背景情報生成手段50は撮影画像を取得するごとに、レンダリングにより背景画像も算出する。撮影画像を取得するたびに、太陽などの光源の変化を考慮してレンダリングを行うことで、当該撮影画像に対応した推定影領域、背景画像が得られる。背景情報生成手段50は算出した推定影領域および背景画像を背景情報記憶手段42に記憶させる。
次に画像処理部5は、学習用データ生成手段51として機能し、ステップS3にて更新された推定影領域および背景画像に基づいて学習用データを生成して学習用データ記憶手段43に記憶・蓄積させる(ステップS4)。
画像処理部5は学習用データ記憶手段43に、推定影領域に帰属する局所領域と帰属しない局所領域の学習用データが全ての特性類似領域について蓄積されているか否かを判定する(ステップS5)。そして、いずれかの特性類似領域に対して推定影領域に帰属する局所領域の学習用データが蓄積されていない場合、または、いずれかの特性類似領域に対して推定影領域に帰属しない局所領域の学習用データが蓄積されていない場合は、蓄積が十分でないと判定し(ステップS5にて「NO」の場合)、十分な蓄積がなされるまでステップS2〜S4の処理を繰り返す。ちなみに、最新の判定用撮影画像が条件を満たせば当該画像1枚分であっても十分な蓄積と判定される。
また、十分な蓄積であるかは、蓄積時間または蓄積データ数で判定してもよい。なお、基本的には、撮影画像の取得レートおよび各画像での取得データ数は一定であるので、蓄積時間による判定と蓄積データ数による判定とは等価となる。また、帰属する/しないデータの有無の条件と、蓄積時間または蓄積データ数の条件とを併用し、いずれかを満たせば十分な蓄積と判定してもよい。
学習用データが十分に蓄積された場合には(ステップS5にて「YES」の場合)、画像処理部5は撮影画像にて監視対象を検知する処理を開始する。
この監視対象検知処理では、まず本発明の学習装置に係る影判定モデル学習処理S6が行われ、次に、本発明の影検出装置に係る影判定処理S7が行われる。
図8は影判定モデル学習処理S6の概略のフロー図である。画像処理部5は学習手段52として機能して当該処理を行う。学習手段52は各特性類似領域を順次、注目領域に設定して(ステップS60)、ステップS61〜S63の処理をループ処理で全特性類似領域に対して行う(ステップS64)。当該ループにて、学習手段52は学習用データ記憶手段43から注目領域の学習用データを読み出して(ステップS61)、注目領域の影判定モデルを生成・更新し(ステップS62)、学習済モデルとして学習済モデル記憶手段44に格納する(ステップS63)。
学習手段52は、このステップS61〜S63の処理を全特性類似領域について終えていない場合(ステップS64にて「NO」の場合)、処理をステップS60に戻して未処理の特性類似領域を注目領域に設定してループ処理を繰り返す。
一方、全ての特性類似領域についてループ処理を終えると(ステップS64にて「YES」の場合)、画像処理部5は処理をステップS7に進める。
図9は影判定処理S7の概略のフロー図である。画像処理部5は影判定手段53として機能して当該処理を行う。ちなみに、ステップS3ではレンダリングにより影領域を推定したが、影判定処理S7では影判定モデルを用いて影領域を再推定する。影判定手段53は撮影画像内の各局所領域を順次、注目局所領域に設定して(ステップS70)、ステップS71〜S76の影領域か否かの推定処理をループ処理で全局所領域に対して繰り返す(ステップS77)。
まず、影判定手段53は、注目局所領域が帰属する特性類似領域の学習済モデルを学習済モデル記憶手段44から読み出し、当該学習済モデルを用いて注目局所領域の影度合いを算出する(ステップS71)。
影判定手段53は注目局所領域の影度合いがしきい値TS以上である場合(ステップS72にて「YES」の場合)、注目局所領域に影ラベルを付与し(ステップS73)、一方、当該影度合いがしきい値TN未満である場合(ステップS72にて「NO」且つステップS74にて「YES」の場合)、非影ラベルを付与する(ステップS75)。
これらラベル付与処理後に影判定手段53は既に説明したラベル補間処理を行う(ステップS76)。ラベル補間処理により、ラベルが未定の注目局所領域についてラベルが定められる。具体的には、影度合いがTN以上TS未満である場合(ステップS72にて「NO」且つステップS74にて「NO」の場合)にラベル補間処理が行われる。
影判定手段53は、このステップS71〜S76の処理を全局所領域について終えていない場合(ステップS77にて「NO」の場合)、処理をステップS70に戻して未処理の局所領域を注目局所領域に設定してループ処理を繰り返す。
一方、全ての局所領域についてループ処理を終えると(ステップS77にて「YES」の場合)、画像処理部5は処理を図7のステップS8に進める。
画像処理部5は前景抽出手段54および前景情報解析手段55として機能し、前景抽出手段54は影判定手段53から入力される影領域の情報を用いて、撮影画像に現れる前景物体を抽出し、前景情報を前景情報解析手段55に出力する(ステップS8)。また、前景情報解析手段55は前景抽出手段54から入力された前景情報を解析して、解析結果を解析結果出力手段31に出力する(ステップS9)。そして、解析結果出力手段31は前景情報解析手段55から入力された解析結果を報知部6へ出力する(ステップS10)。
ステップS2にて取得された撮影画像に対して以上の処理を終えると、処理は再びステップS2に戻され、新たに取得される撮影画像に対して上述した、学習用データの生成、影判定モデルの学習およびそれを用いた影判定を含むステップS3〜S10の処理が繰り返される。
[変形例]
(1)上記実施形態においては背景情報生成手段50が環境モデルをレンダリングして特性類似領域を算出する例を示したが、背景情報生成手段50が背景画像に対してセマンティックセグメンテーションと呼ばれる処理を適用することによって特性類似領域を算出することもできる。
なお、セマンティックセグメンテーションについては、例えば、"Pyramid Scene Parsing Network" Hengshuang Zhao, et al. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017 や、"DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs" LC Chen, et al. IEEE transactions on pattern analysis and machine intelligence 40 (4), 834-848に記されている。
その場合、記憶部4には、背景構成物の画像と監視空間に現れるであろう物体の画像とを含んだ背景・前景構成物の画像のそれぞれを、予め学習した学習済モデルを記憶させておく。そして、背景情報生成手段50は、その学習済モデルを用いた撮影画像の探索によって、撮影画像全体を背景・前景構成物ごとの領域に区分し、区分した領域のうちの背景構成物の領域それぞれに互いに異なる反射特性IDを付与することによって特性類似領域を算出する。
(2)上記実施形態およびその各変形例では、視野が固定され、カメラパラメータが一定値であるカメラ2の例を説明したが、上記実施形態およびその変形例において、パン、チルト、ズームが可能なPTZカメラのように、または車載カメラ、空撮カメラなどのように、カメラパラメータが変化するカメラ2を利用することもできる。その場合、画像処理部5はカメラパラメータの変化を検出した場合に特性類似領域を更新する。
例えば、カメラ2が撮影時のカメラパラメータを都度算出して撮影画像とともに出力する。図7に示した処理フローのステップS2において、撮影画像取得手段30は入力されたカメラパラメータを背景情報生成手段50に出力し、背景情報生成手段50は入力されたカメラパラメータをカメラ情報記憶手段41に記憶されているカメラパラメータと比較して一致するか否かを判定し、一致しなければ入力されたカメラパラメータをカメラ情報記憶手段41に上書き記憶させるとともに図7のステップS1と同様にして特性類似領域を算出し、算出した特性類似領域を背景情報記憶手段42に上書き記憶させる。
(3)上記実施形態およびその各変形例では、学習用データが1枚1枚の学習用撮影画像の局所領域から生成され、それに対応して影判定手段53が判定用データを1枚1枚の判定用撮影画像の局所領域から抽出する例を示したが、上記実施形態および各変形例において、学習用データが局所領域における学習用撮影画像の時系列から生成され、判定用データが局所領域における判定用撮影画像の時系列から抽出されてもよい。
例えば、学習用データにおける画像特徴は10分おきの学習用撮影画像5枚の同一局所領域について抽出された5枚分の特徴ベクトルを時刻の降順に並べて連結したベクトルとすることができる。また、それに対応して、判定用データにおける画像特徴ひとつひとつは、例えば、10分おきの判定用撮影画像5枚の同一局所領域について抽出された5枚分の特徴ベクトルを連結したベクトルとなる。
なお、その場合、学習用影度合いと判定用影度合いもそれぞれ時系列となる。例えば、5枚の撮影画像の時系列を用いる上記例において、学習用影度合いと判定時影度合いはそれぞれ時刻の降順に5つの影度合いが並んだ5次元ベクトルとなり、最新の判定用撮影画像に対する判定時影度合いは5次元ベクトルの先頭の値となる。
このように画像特徴および影度合いを時系列データとすることで、影から非影、非影から影への時間変動も含めて学習し、判定することができるため、より高精度に影を学習し、より高精度に影領域を判定することが可能となる。当該構成は長期間にわたる学習用データの蓄積が許容される場合に有用である。
(4)上記実施形態及びその各変形例では、学習用撮影画像に最新の撮影画像を含める例を示したが、同一視野にて長期間の蓄積がなされた場合は影判定モデルの更新を止めて最新の撮影画像を含めない構成とすることもできる。その場合、例えば、ステップS5で蓄積時間に対して用いるしきい値をT1とするとT1よりも十分に大きなしきい値T2を用い、学習用データ生成手段51は蓄積時間がT2以上であれば学習用データの生成を停止し、学習手段52は、蓄積時間がT2以上であれば影判定モデルの更新を停止する。
(5)上記実施形態およびその各変形例では、影判定手段53は特性類似領域ごとの学習済モデルのうち局所領域が帰属する特性類似領域のものを一意的に選択してこれに当該局所領域の画像特徴を入力する例を示した。この点に関し、上記実施形態および各変形例において、影判定手段53が学習済モデルを択一的に選択せずに、局所領域に対し複数の特性類似領域の学習済モデルを用いて判定してもよい。
例えば、影判定手段53は、判定用撮影画像における局所領域の画像特徴を全ての学習済モデルに入力して当該局所領域について複数の判定用影度合いを得、判定用影度合いの最大値を影判定閾値と比較する。このようにすれば、特性類似領域の設定誤差があっても高精度な影判定が可能となる。
また、全ての学習済モデルに入力する代わりに、当該局所領域が帰属する特性類似領域および当該特性類似領域に隣接する特性類似領域についての学習済モデルに入力してもよい。このようにしても、特性類似領域の設定誤差があっても高精度な影判定が可能となる。
(6)上記実施形態およびその各変形例では、特性類似領域ごとに影判定モデルを学習し、特性類似領域ごとの学習済モデルを用いて影判定を行う例を示したが、上記実施形態および各変形例において、全特性類似領域に共通の影判定モデルを1つ学習し、当該1つの学習済モデルを用いて影判定を行うこともできる。
その場合の学習済モデルは、局所領域の画像特徴および当該局所領域が帰属する特性類似領域についての反射特性の情報(例えば反射特性ID)が入力されて当該局所領域に対する影度合いを出力する学習済モデルとするのが好適である。それに対応して、学習手段52は学習用撮影画像における局所領域の画像特徴および当該局所領域が帰属する特性類似領域についての反射特性の情報を影判定モデルに入力して得られる影度合いを学習用影度合いに近づける更新を当該影判定モデルに対して行うことで学習済モデルを生成する。一方、影判定手段53は判定用撮影画像における局所領域の画像特徴および当該局所領域が帰属する特性類似領域についての反射特性の情報を学習済モデルに入力して得られる影度合いに基づいて当該局所領域が影領域であるか否かの判定を行う。
以上で説明した画像監視装置1においては、影判定手段53が、撮影画像の局所領域の画像特徴が入力されると学習に基づいて当該局所領域の影度合いを出力する学習済モデルを用いて撮影画像の影判定を行う。そのため、背景が複雑な監視空間を撮影した撮影画像における影領域を高精度に判定できる。
特に、画像監視装置1においては、影判定手段53が、特性類似領域ごとに学習された学習済モデルを用いて撮影画像の影判定を行う。これにより、背景が複雑な監視空間を撮影した撮影画像(互いに反射特性が異なる複数の背景構成物からなる背景を撮影した撮影画像)であっても、特性類似領域においては略単一の反射特性の背景となるため、高精度な影判定が可能となる。
また、画像監視装置1においては、学習手段52によって上記モデルを学習することができるので、背景が複雑な監視空間を撮影した撮影画像における影領域を高精度に判定可能な学習済モデルを生成することができる。
特に、画像監視装置1においては、学習手段52が、特性類似領域ごとに学習を行う。これにより、背景が複雑な監視空間を撮影した撮影画像であっても、特性類似領域においては略単一の反射特性の背景となるため、高精度な影判定が可能な学習済モデルを生成できる。