JP2020030750A

JP2020030750A - 影検出装置、影検出方法、影検出プログラム、学習装置、学習方法、及び学習プログラム

Info

Publication number: JP2020030750A
Application number: JP2018157457A
Authority: JP
Inventors: 陽介野中; Yosuke Nonaka
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2020-02-27
Anticipated expiration: 2038-08-24
Also published as: JP7092615B2

Abstract

【課題】背景が複雑な空間を撮影した撮影画像に対して影領域の判定が難しくなることがある。【解決手段】学習済モデル記憶手段４４は、撮影画像に設定された局所領域における画像特徴を入力され、当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習済モデルであって、学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された影度合いである学習用影度合いを用いた学習が行われた学習済モデルを記憶している。影判定手段５３は撮影画像の局所領域における画像特徴を学習済モデルに入力して得られる影度合いを所定の基準と比較し、影度合いが基準を超える局所領域を影領域と判定する。【選択図】図６

Description

本発明は、撮影画像において影が撮影されている影領域を検出する影検出技術、および撮影画像内の局所領域について画像特徴から影度合いを出力する学習済モデルを得る学習技術に関する。

日陰と日向が混在する撮影画像から人等の物体を検知する場合、撮影画像中の日陰部分でのコントラスト不足によって検知精度が低下し得る。そこで、検知精度の低下を防ぐために、撮影画像中の影領域を検出して影領域のコントラストを補正する等の対策が行われている。

例えば、特許文献１に記載の対象物検知装置では、撮影画像中の人候補領域の輝度分布を分析し、単峰性且つ背景画像の輝度分布と類似している場合に人候補領域の全体を影領域と判定し、または双峰性の輝度分布にて低輝度側の山の輝度値を有する領域を影領域と判定して、影領域にコントラスト補正を施すことにより検出精度の低下を防止していた。

特開２０１１−０２８３４８号公報

しかしながら、従来の技術では、背景が複雑な空間を撮影した撮影画像に対して影領域の判定が難しくなることがあるという問題があった。

例えば、２種類の素材からなる背景では、素材の相違に起因して輝度分布が双峰性となり得る。つまり、影が生じていなくても輝度分布が双峰性となるため、２種類の素材のうちの低輝度な方の領域が影領域と誤判定されてしまう。

本発明は上記問題を解決するためになされたものであり、反射特性が相違する複数の背景構成物が存在するといった背景が複雑な空間を撮影した撮影画像であっても当該撮影画像から高精度に影領域を検出可能な影検出技術を提供することを目的とする。

また、本発明は、背景が複雑な空間を撮影した撮影画像であっても当該撮影画像における局所領域の画像に影が撮影されている可能性の高さを高精度に出力できる学習モデルを学習させる学習技術を提供することを別の目的とする。

（１）本発明に係る影検出装置は、所定の空間を撮影した撮影画像において影が撮影されている影領域を検出する装置であって、前記撮影画像に設定された局所領域における画像特徴を入力され、当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習済モデルであって、前記空間を撮影した学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された前記影度合いである学習用影度合いを用いた学習が行われた学習済モデルを記憶している学習済モデル記憶手段と、前記撮影画像の前記局所領域における画像特徴を前記学習済モデルに入力して得られる前記影度合いを所定の基準と比較し、前記影度合いが前記基準を超える局所領域を前記影領域と判定する影判定手段と、を備える。

（２）上記（１）に記載の影検出装置において、前記学習済モデル記憶手段は、前記撮影画像に撮影され得る背景構成物の反射特性が類似する特性類似領域ごとに前記学習が行われた、前記特性類似領域ごとの前記学習済モデルを記憶する構成とすることができる。

（３）上記（２）に記載の影検出装置において、前記特性類似領域を記憶している背景情報記憶手段、をさらに備え、前記影判定手段は、前記局所領域の画像特徴を当該局所領域に対応する前記特性類似領域の前記学習済モデルに入力して前記影度合いを得る構成とすることができる。

（４）上記（１）に記載の影検出装置において、前記撮影画像に撮影され得る背景構成物の反射特性が類似する特性類似領域を記憶している背景情報記憶手段、をさらに備え、前記学習済モデル記憶手段は、前記学習用撮影画像に設定された前記局所領域についての前記画像特徴及び前記学習用影度合いに加えて、当該局所領域が帰属する前記特性類似領域を示す帰属情報も用いて前記学習が行われた前記学習済モデルを記憶し、前記影判定手段は、前記局所領域の画像特徴及び当該局所領域についての前記帰属情報を前記学習済モデルに入力して前記影度合いを得る構成とすることができる。

（５）本発明に係る学習装置は、所定の空間を撮影した撮影画像に設定された局所領域における画像特徴を入力されて当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習モデルを学習させる装置であって、前記学習モデルを記憶する学習モデル記憶手段と、少なくとも、前記空間を撮影した学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された前記影度合いである学習用影度合いを記憶している学習用データ記憶手段と、前記学習モデルに少なくとも前記学習用撮影画像における前記局所領域の画像特徴を入力し、得られた前記影度合いの当該局所領域の前記学習用影度合いに対する誤差に基づいて前記学習モデルを更新する学習を行う学習手段と、を備える。

（６）上記（５）に記載の学習装置において、前記学習モデル記憶手段は、前記撮影画像に撮影され得る背景構成物の反射特性が類似する特性類似領域ごとに前記学習モデルを記憶し、前記学習手段は、前記特性類似領域ごとの前記学習モデルについて前記学習を行う構成とすることができる。

（７）本発明に係る影検出方法は、所定の空間を撮影した撮影画像において影が撮影されている影領域を検出する方法であって、前記撮影画像に設定された局所領域における画像特徴を入力され、当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習済モデルであって、前記空間を撮影した学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された前記影度合いである学習用影度合いを用いた学習が行われた学習済モデルを用い、前記撮影画像の前記局所領域における画像特徴を前記学習済モデルに入力する入力ステップと、前記学習済モデルから出力される前記影度合いを所定の基準と比較し、前記影度合いが前記基準を超える局所領域を前記影領域と判定する影判定ステップと、を含む。

（８）本発明に係る影検出プログラムは、所定の空間を撮影した撮影画像において影が撮影されている影領域を検出する処理をコンピュータに行わせるためのプログラムであって、当該コンピュータを、前記撮影画像に設定された局所領域における画像特徴を入力され、当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習済モデルであって、前記空間を撮影した学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された前記影度合いである学習用影度合いを用いた学習が行われた学習済モデルを記憶している学習済モデル記憶手段、及び、前記撮影画像の前記局所領域における画像特徴を前記学習済モデルに入力して得られる前記影度合いを所定の基準と比較し、前記影度合いが前記基準を超える局所領域を前記影領域と判定する影判定手段、として機能させる。

（９）本発明に係る学習方法は、所定の空間を撮影した撮影画像に設定された局所領域における画像特徴を入力されて当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習モデルを学習させる方法であって、前記学習モデルを記憶する学習モデル記憶手段と、少なくとも、前記空間を撮影した学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された前記影度合いである学習用影度合いを記憶している学習用データ記憶手段と、を用い、前記学習モデルに少なくとも前記学習用撮影画像における前記局所領域の画像特徴を入力する入力ステップと、前記学習モデルから出力される前記影度合いの当該局所領域の前記学習用影度合いに対する誤差に基づいて前記学習モデルを更新する学習を行う学習ステップと、を含む。

（１０）本発明に係る学習プログラムは、所定の空間を撮影した撮影画像に設定された局所領域における画像特徴を入力されて当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習モデルを学習させる処理をコンピュータに行わせるためのプログラムであって、当該コンピュータを、前記学習モデルを記憶する学習モデル記憶手段、少なくとも、前記空間を撮影した学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された前記影度合いである学習用影度合いを記憶している学習用データ記憶手段、及び、前記学習モデルに少なくとも前記学習用撮影画像における前記局所領域の画像特徴を入力し、得られた前記影度合いの当該局所領域の前記学習用影度合いに対する誤差に基づいて前記学習モデルを更新する学習を行う学習手段、として機能させる。

本発明の影検出技術によれば、撮影画像における各局所領域が影領域であるか否かを、撮影画像を用いた学習に基づいて判定するので、背景が複雑な空間を撮影した撮影画像であっても影領域を高精度に検出できる。

また、本発明の学習技術は、撮影画像を用いて撮影画像における局所領域の画像に影が撮影されている可能性の高さを表す影度合いを学習するので、背景が複雑な空間を撮影した撮影画像であってもその局所領域の影度合いを高精度に出力可能な学習モデルを学習させることができる。

本発明の実施形態に係る画像監視装置の概略の構成を示すブロック図である。本発明の実施形態に係る画像監視装置が学習装置として機能する際の概略の機能ブロック図である。反射特性マップの例を示す模式図である。監視空間の学習用撮影画像およびレンダリング画像それぞれの一例を示す模式図である。学習用データを説明する模式図である。本発明の実施形態に係る画像監視装置が影検出装置として機能する際の概略の機能ブロック図である。本発明の実施形態に係る画像監視装置の動作を説明する概略のフロー図である。影判定モデル学習処理の概略のフロー図である。影判定処理の概略のフロー図である。

以下、本発明の実施の形態（以下実施形態という）である画像監視装置１について、図面に基づいて説明する。画像監視装置１は所定の空間（監視空間）が撮影された画像（撮影画像）から当該空間における人や不審物等の監視対象の有無等を解析する。特に、画像監視装置１は、撮影画像における影領域を検出する本発明に係る影検出装置を含んで構成され、監視対象を検知する画像処理において影領域の情報を利用する。また、画像監視装置１は本発明に係る学習装置を備え、影検出装置で用いる学習済モデルを生成することができる。

［画像監視装置の構成］
図１は画像監視装置１の概略の構成を示すブロック図である。画像監視装置１はカメラ２、通信部３、記憶部４、画像処理部５および報知部６からなる。

カメラ２は監視カメラであり、通信部３を介して画像処理部５と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部５に入力する撮影手段である。例えば、カメラ２は、監視空間であるイベント会場の一角に設置されたポールに当該監視空間を俯瞰する所定の固定視野を有して設置され、監視空間をフレーム周期１秒で撮影してカラー画像を生成する。なお、カメラ２はカラー画像の代わりにモノクロ画像を生成してもよい。

通信部３は通信回路であり、その一端が画像処理部５に接続され、他端がカメラ２および報知部６と接続される。通信部３はカメラ２から撮影画像を取得して画像処理部５に入力し、画像処理部５から入力された解析結果を報知部６へ出力する。

例えば、カメラ２および報知部６がイベント会場内の監視センターに設置され、通信部３、記憶部４および画像処理部５が遠隔地の画像解析センターに設置される場合、通信部３とカメラ２、および通信部３と報知部６をそれぞれインターネット回線にて接続し、通信部３と画像処理部５はバスで接続する構成とすることができる。その他、例えば各部を同一建屋内に設置する場合は、通信部３とカメラ２を同軸ケーブルまたはＬＡＮ（Local Area Network）で接続し、通信部３と報知部６はディスプレイケーブル、通信部３と画像処理部５はバスで接続するなど、各部の設置場所に応じた形態で適宜接続される。

記憶部４は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等のメモリ装置であり、各種プログラムや各種データを記憶する。記憶部４は画像処理部５と接続されて、画像処理部５との間でこれらの情報を入出力する。

画像処理部５は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）等の演算装置で構成される。画像処理部５は記憶部４からプログラムを読み出して実行することにより各種処理手段・制御手段として動作し、必要に応じて、各種データを記憶部４から読み出し、生成したデータを記憶部４に記憶させる。また、画像処理部５は、通信部３経由でカメラ２から取得した撮影画像から監視空間における監視対象の有無や位置などに関する解析結果を生成し、通信部３を介して報知部６へ出力する。また、画像処理部５は撮影画像またはコントラスト補正した補正画像を報知部６へ出力してもよい。

報知部６は、液晶ディスプレイまたはＣＲＴ（Cathode Ray Tube）ディスプレイ等のディスプレイ装置であり、通信部３から入力された解析結果に含まれる監視対象の有無や位置等の情報を表示することによって監視員に報知する。報知部６には、さらに、注意喚起を強調するためにブザーやランプ等を含めることもできる。監視員は表示された解析結果や画像を視認して対処の要否等を判断し、必要に応じて対処員を急行させる等の対処を行う。

なお、本実施形態においては、通信部３と画像処理部５の組に対してカメラ２が１台である画像監視装置１を例示するが、別の実施形態においては、通信部３と画像処理部５の組に対してカメラ２が２台以上接続された構成とすることもできる。その場合、通信部３は各カメラ２から撮影画像を時分割で受信し、画像処理部５は各カメラ２からの撮影画像を時分割処理または並列処理する。

［学習時における画像監視装置の機能］
図２は画像監視装置１が本発明に係る学習装置として機能する際の概略の機能ブロック図である。図２には専ら、通信部３、記憶部４および画像処理部５の機能が示されており、具体的には、通信部３は撮影画像取得手段３０等として機能し、記憶部４は環境モデル記憶手段４０、カメラ情報記憶手段４１、背景情報記憶手段４２、学習用データ記憶手段４３および学習済モデル記憶手段４４等として機能し、画像処理部５は背景情報生成手段５０、学習用データ生成手段５１および学習手段５２等として機能する。

撮影画像取得手段３０はカメラ２から撮影画像を順次取得して、取得した撮影画像を背景情報生成手段５０および学習用データ生成手段５１に順次出力する。なお、説明の便宜上、学習に用いるときの撮影画像を学習用撮影画像、判定に用いるときの撮影画像を判定用撮影画像と、必要に応じて区別して称する。

環境モデル記憶手段４０は、監視空間の背景を構成する複数の構成物（背景構成物）の三次元モデルを三次元背景として記憶する。

背景構成物は例えば、屋外であれば、歩道、道路、建物、標識などの建造物や、樹木などの移動しない自然物である。好適には、道路のうちのアスファルト部分と白線部分、また標識のうちの地色部分と文字・マーク部分のように、反射特性が互いに有意に異なる部分が別の背景構成物として記憶される。

背景構成物の三次元モデルは、監視空間を模したＸＹＺ座標系における各背景構成物の位置、姿勢、立体形状にて表される三次元座標値および各背景構成物の反射特性のデータを含む。反射特性は一般的に、構成物表面の色、テクスチャ、反射率等の要素で構成される。反射率は例えば、鏡面反射成分の反射率および拡散反射成分の反射率、並びにそれらの割合をパラメータとして持つ二色性反射モデルで表現される。

背景構成物の三次元モデルは、建築設計時に作成されたＩＦＣ（Industry Foundation Classes）規格の建物情報、三次元ＣＡＤデータ等あるいは事前の実計測データから取得できる。

また、環境モデル記憶手段４０はさらに当該監視空間の照明モデルも予め記憶している。照明モデルは、監視空間を照明する１以上の光源について、監視空間を模したＸＹＺ座標系における当該光源の位置、および当該光源の配光、色温度などで表される照明特性を含む。光源は人工照明や太陽等である。

カメラ情報記憶手段４１は監視空間を模したＸＹＺ座標系におけるカメラ２のカメラパラメータを予め記憶している。カメラパラメータは外部パラメータと内部パラメータとからなる。外部パラメータはＸＹＺ座標系におけるカメラ２の位置姿勢である。内部パラメータはカメラ２の焦点距離、中心座標、歪係数などである。カメラパラメータは事前のキャリブレーションによって計測され、カメラ情報記憶手段４１に記憶される。このカメラパラメータをピンホールカメラモデルに適用することによってＸＹＺ座標系の座標をカメラ２の撮影面を表すｘｙ座標系に変換できる。

背景情報記憶手段４２は、監視空間の背景が撮影された撮影画像（背景画像）にて背景構成物の反射特性が類似する局所領域の集まりである特性類似領域を記憶する。ここで、局所領域は予め設定される。本実施形態においては撮影画像を構成する各画素を局所領域として設定する。ちなみに、局所領域は、２×２画素の領域、３×３画素の領域等、複数の画素からなる領域とすることもできる。特性類似領域を参照することによって、学習用撮影画像中の任意の局所領域および判定用撮影画像中の任意の局所領域について、当該局所領域に背景として撮影され得る背景構成物の反射特性を特定できる。

また、背景情報記憶手段４２は、学習用撮影画像において、影が撮影されていると推定された領域（推定影領域）を記憶する。推定影領域の情報は、学習用撮影画像の各局所領域において影が撮影されている可能性の高さを表す学習用影度合いに変換され、学習にて教師データとして利用される。

また、背景情報記憶手段４２は、撮影画像に撮影され得る背景構成物の像を表した背景画像を記憶する。背景画像は学習用撮影画像および判定用撮影画像と比較されて各撮影画像において背景構成物以外（前景物体）の像が撮影されている領域（前景領域）を抽出するために用いられる。

背景情報生成手段５０は特性類似領域、推定影領域および背景画像を算出し、それらを背景情報記憶手段４２に記憶させる。例えば、特性類似領域は、環境モデル記憶手段４０に記憶されている環境モデルを、カメラ情報記憶手段４１に記憶されているカメラパラメータを用いてレンダリングすることにより算出できる。

具体的には、背景情報生成手段５０は、カメラ２のカメラパラメータを用いて環境モデルをカメラ２の撮影面にレンダリングすることによって、撮影面に形成される画像の各画素に投影される背景構成物を特定する。なお、このレンダリングにおいて光源の照明条件は問わず、任意の照明条件を１つ設定すればよい。

その一方で、背景情報生成手段５０は環境モデルに含まれる背景構成物の反射特性ごとにその識別子として反射特性ＩＤを付与する。その際、値が完全一致する反射特性に共通の反射特性ＩＤを付与してもよいし、値が同一とみなせる程度に類似する反射特性には共通の反射特性ＩＤを付与することとしてもよい。反射特性の類否は、反射特性を構成する上述した要素、パラメータに基づいて判定される。具体的には、それぞれの要素およびパラメータの差が予め定めた閾値以下であれば反射特性が類似と判断する。なお、元から反射特性ごとのＩＤが付与されている環境モデルであれば当該ＩＤを利用すればよい。

そして、次に、背景情報生成手段５０は撮影画像の各画素に対応する画素を有した反射特性マップを作成し、当該反射特性マップの各画素の画素値に、当該画素に投影される背景構成物の反射特性ＩＤを設定する。この反射特性マップにおいて画素値が同一である画素からなる領域それぞれが特性類似領域となる。

また、推定影領域および背景画像は、撮影画像の照明条件およびカメラ情報記憶手段４１に記憶されているカメラパラメータにて、環境モデル記憶手段４０に記憶されている環境モデルをレンダリングすることにより算出できる。

具体的には、背景情報生成手段５０は、まず、撮影画像が撮影された時点における光源の照明条件の推定および当該照明条件下での環境モデルのレンダリングを行う。すなわち、複数通りの照明条件を設定してレンダリングを行い、撮影画像とレンダリングの結果として得られるレンダリング画像との類似度を算出し、類似度が最大であるレンダリング画像を背景画像として選択する。背景情報生成手段５０は次に、背景画像において背景構成物の影が形成されている領域（直接光が背景構成物によって遮られている領域）を推定影領域とする。背景情報生成手段５０はこのように算出した背景画像、推定影領域を上述したように背景情報記憶手段４２に記憶させる。

なお、背景情報生成手段５０は、前景物体が監視空間内に存在しない状態での撮影画像を背景画像とすることもできる。また、背景情報生成手段５０は、背景画像の輝度値が予め定めたしきい値未満である領域を推定影領域とすることもできる。

図３は反射特性マップの例を示す模式図である。図３において、反射特性マップ１００は、車道の右側に歩道を挟んで建物が存在する曲がり角が写った撮影画像に対応する例である。図に示すように、反射特性マップ１００は撮影画像の各画素と対応する画素を有する画像データとすることができ、カメラ２の撮影面と同じｘｙ座標系で表すことができる。

具体的には反射特性マップ１００は、それに対応する撮影画像に反射特性が異なる背景構成物として、石畳からなる歩道、アスファルト舗装された道路、当該道路に道路標示として描かれた白線、および建物の壁が写っている場合の例である。ここで例えば、歩道の石畳の反射特性に対しては反射特性ＩＤを「１」と定義し、同様に、アスファルトの路面、白色の道路標示、建物の壁の反射特性に対しては反射特性ＩＤをそれぞれ「２」，「３」，「４」と定義する。

反射特性マップ１００には撮影画像における反射特性が異なる背景構成物の領域ごとに反射特性ＩＤが設定される。画像１０１は反射特性マップ１００のうち歩道領域１１１を斜線で示しており、当該斜線部の画素に反射特性ＩＤとして値「１」が設定される。同様に、画像１０２，１０３，１０４はそれぞれ反射特性マップ１００のうちアスファルト領域１１２、白線領域１１３、壁領域１１４を斜線で示しており、当該斜線部の画素に反射特性ＩＤとしてそれぞれ値「２」，「３」，「４」が設定される。

学習用データ記憶手段４３は影判定モデルの学習に用いるデータ（学習用データ）を記憶する。学習用データは、１または複数の学習用撮影画像についての、局所領域ごとの、反射特性の情報、画像特徴および学習用影度合いである。影判定モデルは、例えば、ランダムフォレスト（Random Forest）と呼ばれる木構造のモデルとすることができる。

局所領域の反射特性の情報は、例えば、当該局所領域が帰属する特性類似領域に付与されている反射特性ＩＤで表すことができる。また、反射特性の情報は、反射特性を記述するパラメータの一部または全部であってもよい。

局所領域の画像特徴は、例えば、当該局所領域における撮影画像の特徴量、当該局所領域の近傍領域における撮影画像の特徴量、当該局所領域の位置であり、これらの値を要素とするベクトルで表現することができる。

局所領域における撮影画像の特徴量は、例えば、局所領域の画素値とすることができる。撮影画像がカラー画像であればＲＧＢ値、モノクロ画像であれば輝度値である。撮影画像がカラー画像の場合、ＲＧＢ値を別の表色系に変換した値、ＲＧＢ値をグレースケール変換した輝度値とすることもでき、或いは、ＲＧＢ値、別の表色系に変換した値、輝度値のうちの２以上とすることもできる。局所領域の画像特徴には、少なくとも局所領域における撮影画像の特徴量を含ませることが好適である。

局所領域の近傍領域における撮影画像の特徴量は、例えば、近傍領域における撮影画像の平均輝度値、最小輝度値など近傍領域における撮影画像の画素値の代表値とすることができる。撮影画像がカラー画像の場合、平均ＲＧＢ値、ＲＧＢ値を別の表色系に変換した値の平均値などとすることもできる。或いは、近傍領域における撮影画像の画素値そのもの、上述した値のうちの２以上とすることもできる。近傍領域における撮影画像の特徴量を画像特徴に加えることで、影の空間的な連続性を含めた学習・判定が可能となる。

局所領域の位置は、撮影画像における局所領域のｘｙ座標とすることができる。局所領域が２以上の画素からなる場合は、所定の代表画素（例えば左上の画素）のｘｙ座標とすればよい。局所領域の位置を画像特徴に加えることで、アスファルト上の黒っぽいしみのように小さな経年変化を学習・判定することが可能となる。

局所領域の学習用影度合いは、学習用撮影画像において当該局所領域に影が撮影されている可能性の高さを表す値である。ここで、影判定モデルをランダムフォレストでモデル化した本実施形態においては、例えば、影判定モデルの出力する尤度を値域が［０，１］の連続値とすることができる。当該尤度は１に近いほど影領域である可能性が高く、０に近いほど非影領域である可能性が高いことを意味している。これに対応して推定影領域内の画素の学習用影度合いを１．０、推定影領域外の画素の学習用影度合いを０．０と設定することができる。

学習用データ生成手段５１は学習用撮影画像、並びに背景情報記憶手段４２に記憶されている反射特性の情報、推定影領域および背景画像から学習用データを生成し、生成した学習用データを学習用データ記憶手段４３に記憶させる。

学習用データ生成手段５１は、学習用撮影画像が入力されるたびに、当該学習用撮影画像についての、局所領域ごとの学習用データを生成して、学習用データ記憶手段４３に蓄積させる。具体的には、局所領域ごとに、学習用撮影画像から当該局所領域の画像特徴を抽出するとともに、当該局所領域が推定影領域に帰属していれば学習用影度合いを１．０、帰属していなければ０．０に設定し、反射特性ＩＤと画像特徴と学習用影度合いとを対応付けて学習用データ記憶手段４３に追記する。

このとき、学習用撮影画像において前景物体が撮影されている局所領域は除いて学習用データを生成するのが好適である。そのために、学習用データ生成手段５１は、学習用撮影画像と背景画像との背景差分処理または背景相関処理を行って、予め定めたしきい値を超えて背景画像と相違する変化領域を学習用撮影画像から除き、変化領域を除外した学習用撮影画像から学習用データを生成する。

学習済モデル記憶手段４４は、撮影画像に設定された局所領域の画像特徴を入力されて当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する影判定モデルを記憶する。学習済モデル記憶手段４４が記憶する影判定モデルは、学習用撮影画像における局所領域の画像特徴および当該局所領域について推定された影度合いである学習用影度合いを用いた学習が行われた学習済モデルである。本実施形態においては、特性類似領域ごとの学習済モデルのそれぞれが当該特性類似領域の反射特性ＩＤと対応付けて記憶される。

ちなみに、学習は反復的に行われ、それに伴って影判定モデルは更新される。特に画像監視装置１は後述するように、監視動作においても撮影画像を取得するごとに影判定モデル学習処理を行って影判定モデルを更新する。つまり、学習装置にて扱う判定モデルは、学習済モデルとしての側面と、さらに学習される学習途中のモデルとしての側面とを有する。これを踏まえて学習装置での判定モデルを簡潔に学習モデルと表現すると、学習済モデル記憶手段４４は本願発明の学習装置における学習モデル記憶手段に相当する。

学習手段５２は学習用データ記憶手段４３に記憶された学習用データを用いて、学習済モデル記憶手段４４に記憶された影判定モデルを機械学習させ、それにより生成される学習済モデルを学習済モデル記憶手段４４に記憶させる。つまり、学習手段５２は、学習用撮影画像における局所領域の画像特徴を影判定モデルに入力して得られる影度合いを、当該局所領域の学習用影度合いに近づける更新を影判定モデルに対して行うことで、学習済モデルを生成する。

本実施形態においては、学習手段５２は特性類似領域ごとに学習済モデルを生成する。つまり、特性類似領域ごとに、学習用撮影画像における当該特性類似領域に帰属する局所領域の画像特徴を影判定モデルに入力して得られる影度合いを、当該局所領域の学習用影度合いに近づける更新を影判定モデルに対して行うことで、学習済モデルを生成する。

影判定モデルは、ランダムフォレストに代えて、サポートベクターマシーン（Support Vector Machine：ＳＶＭ）、アダブースト（AdaBoost）型の識別器、または識別型のＣＮＮ（Convolutional Neural Network）等、２クラス問題に適用可能な種々の公知のモデルとすることができる。

図４および図５を用いて学習の例を説明する。図４は監視空間の画像の模式図であり、学習用撮影画像２００およびレンダリング画像２１０それぞれの一例を示している。学習用撮影画像２００において、背景構成物は図３に示した反射特性マップと共通であり、特性類似領域として反射特性ＩＤの値「１」〜「４」に対応する４つの領域、具体的には、歩道、アスファルト面、白色道路標示、建物壁が存在する。また、学習用撮影画像２００には、背景構成物の他に歩道領域に撮影された人物２０１も撮影されている。また、斜線部が影領域２０２を表している。

レンダリング画像２１０は、上述した背景情報生成手段５０により環境モデル等からレンダリングで算出される。レンダリング画像２１０は学習用撮影画像２００に対応して生成され、背景画像および推定影領域２１２（斜線部）が示されている。なお、レンダリング画像２１０には、学習用撮影画像２００における影領域２０２と日向領域との境界を一点鎖線で示した。これは、推定影領域２１２が真の影領域２０２に対して推定誤差があることを例示している。推定影領域の推定に関しては、影領域および非影領域として正しく推定された画素数が誤推定された画素数を十分に上回っていればよく、誤差が許容される。

図５は学習用データを説明する模式図である。画像３１０〜３４５の斜線部は学習用撮影画像２００において学習用データに用いられる領域である。具体的には、反射特性ＩＤの値をｒとすると、画像３１５の斜線部は学習用撮影画像２００のうちレンダリング画像２１０の推定影領域２１２（斜線部）のｒ＝１の部分に対応し、画像３１０の斜線部は学習用撮影画像２００のうち推定影領域２１２以外、つまり非影と推定される領域（推定非影領域）のｒ＝１の部分に対応する。また、画像３２０，３２５それぞれの斜線部は学習用撮影画像２００のうちｒ＝２の推定非影領域、推定影領域２１２に対応する部分であり、同様に、画像３３０，３３５はｒ＝３、画像３４０，３４５はｒ＝４での推定非影領域、推定影領域２１２に対応する部分を示している。

図５の右側に表形式で示すデータは学習用データ記憶手段４３に記憶される学習用データを模式的に表しており、表の各行は１枚の学習用撮影画像の１つの局所領域についてのデータであり、当該データは反射特性ＩＤ、画像特徴、学習用影度合いを含む。画像特徴は記号Ｆ_＊，ｒ（ｍ）で表しており、当該表記にてＦの添字の＊は局所領域が推定影領域に位置するか推定非影領域に位置するかを区別するラベルであり、＊の文字がＳなら影、Ｎなら非影を意味する。また、Ｆの添字のｒは反射特性ＩＤであり、ｍは、影／非影ラベル（＊）と反射特性ＩＤ（ｒ）との組み合わせごとに複数設定され得る局所領域を区別する番号である。

例えば、歩道において非影領域と推定された領域から前景領域を除いた領域（画像３１０の斜線部）に帰属する局所領域のうちの１番目の局所領域について、学習用撮影画像２００から抽出された画像特徴Ｆ_Ｎ，１（１）が、歩道の反射特性ＩＤである１および学習用影度合い０．０と対応付けられて記憶されている。ここで、学習用影度合いは推定非影領域、つまりラベルがＮの局所領域に対しては０．０が設定され、推定影領域、つまりラベルがＳの局所領域に対しては１．０が設定される。ちなみに、レンダリング画像２１０にて一点鎖線と推定影領域２１２とに挟まれる影領域の推定誤差に位置する局所領域については、推定非影領域となるためラベルがＮであり、学習用影度合いは０．０となるが、画像特徴Ｆ_Ｎ，ｒ（ｍ）は学習用撮影画像２００から抽出されるので、影に対応する画素値等となる。

上述したように学習手段５２は特性類似領域ごとに学習済モデルを生成する。よって、図５の例では、例えば、歩道については、反射特性ＩＤの値「１」と対応付けられた学習データ、具体的には画像特徴Ｆ_Ｎ，１（１），Ｆ_Ｎ，１（２），…およびＦ_Ｓ，１（１），Ｆ_Ｓ，１（２），…と、それらに対応付けられた学習用影度合いとを用いて影判定モデルが学習される。また、アスファルト面、白色道路標示、建物壁についての影判定モデルも同様に、それぞれ対応する反射特性ＩＤの学習データを用いて学習される。

［判定時における画像監視装置の機能］
図６は画像監視装置１が本発明に係る影検出装置として機能し、撮影画像にて影判定を行い、その結果を利用して監視空間における監視対象の有無等を解析する際の概略の機能ブロック図である。図６には専ら、通信部３、記憶部４および画像処理部５の機能が示されており、具体的には、通信部３は撮影画像取得手段３０、解析結果出力手段３１等として機能し、記憶部４は環境モデル記憶手段４０、カメラ情報記憶手段４１、背景情報記憶手段４２および学習済モデル記憶手段４４等として機能し、画像処理部５は背景情報生成手段５０、影判定手段５３、前景抽出手段５４および前景情報解析手段５５等として機能する。

影検出装置における撮影画像取得手段３０、環境モデル記憶手段４０、カメラ情報記憶手段４１、背景情報記憶手段４２、学習済モデル記憶手段４４および背景情報生成手段５０の機能は、学習装置について上述した内容と同様であるのでここでは説明を省略する。

影判定手段５３は、判定用撮影画像の局所領域における画像特徴を、学習済モデル記憶手段４４に記憶されている学習済モデルに入力して得られる影度合い（判定用影度合い）を予め定めた基準と比較し、判定用影度合いが基準を超える局所領域を影領域と判定して判定結果を前景抽出手段５４に出力する。

本実施形態では、背景情報記憶手段４２が記憶している特性類似領域を利用し、影判定手段５３は、局所領域の画像特徴を当該局所領域に対応する特性類似領域の学習済モデルに入力して影度合いを得る。

そのために、影判定手段５３は、まず、判定用撮影画像の各局所領域から画像特徴を抽出する。抽出する画像特徴は学習用データの画像特徴と同一形式の特徴ベクトルである。また、影判定手段５３は、背景情報記憶手段４２が記憶している反射特性マップを参照して各局所領域が帰属する特性類似領域の反射特性ＩＤを特定する。影判定手段５３は、学習済モデル記憶手段４４に記憶されている特性類似領域ごとの学習済モデルのうち当該反射特性ＩＤに対応するものを選択し、各局所領域の画像特徴を当該学習済モデルに入力して判定用影度合いを得る。

ここで、判定の基準を１つのしきい値とし、判定用影度合いが当該しきい値以上である局所領域は影領域であり、一方、判定用影度合いが当該しきい値未満である局所領域は非影領域であると判定することもできるが、本実施形態では前景領域における誤判定を抑制するために判定の基準を２つのしきい値Ｔ_Ｓ，Ｔ_Ｎ（Ｔ_Ｓ＞Ｔ_Ｎ）で構成する。すなわち、判定用影度合いがＴ_Ｓ以上である局所領域は影領域であると判定して影ラベルを付与し、判定用影度合いがＴ_Ｎ未満である局所領域は非影領域であると判定して非影ラベルを付与し、判定用影度合いがＴ_Ｎ以上Ｔ_Ｓ未満である局所領域についてはラベル補間処理を行う。

ラベル補間処理は、例えば、各局所領域と対応する画素の画素値として当該局所領域に付与されたラベルを設定したラベル画像を生成して、ラベル画像にて影ラベルが設定された領域と非影ラベルが設定された領域をラベルが不定の領域に向けて膨張させる膨張処理とすることができる。

或いは、ラベル補間処理は、上記ラベル画像においてラベルが不定の領域を穴に見立てて、ラベル画像を穴埋めフィルタで繰り返しフィルタリングする穴埋め処理とすることができる。

或いは、ラベル補間処理は、背景情報生成手段５０が推定した推定影領域の情報で置換する処理とすることができる。すなわち、ラベルが不定の局所領域が推定影領域であれば当該局所領域に影ラベルを付与し、ラベルが不定の局所領域が推定影領域でなければ当該局所領域に非影ラベルを付与する。

前景抽出手段５４は撮影画像取得手段３０から撮影画像を入力されるとともに影判定手段５３から当該撮影画像に設定した各局所領域についての影領域か否かの判定結果を入力され、撮影画像から前景物体が写る領域を検出し、検出結果である前景情報を前景情報解析手段５５に出力する。

例えば、前景抽出手段５４は、入力された撮影画像のうち、ラベル画像にて非影ラベルを付与された領域を日向などが撮影された非影部分画像とし、ラベル画像にて影ラベルを付与された領域を日陰などが撮影された影部分画像とし、これら両部分画像それぞれにて前景領域を検出し、それらを合成して撮影画像における前景情報を求める。

例えば、非影部分画像に対しては、前景抽出手段５４は背景画像との差分処理を行う。そして、各画素について画素値の相違度を求め、当該相違度が所定のしきい値より大きい領域を前景領域として検出する。

一方、影部分画像に対しては、前景抽出手段５４は背景画像との差分処理を行って各画素について画素値の相違度を求め、当該相違度が所定の第１のしきい値より大きい領域を強変化領域とし、第１のしきい値以下の領域を非強変化領域とする。そして、前景抽出手段５４は、影部分画像について、まず強変化領域を前景領域として抽出する。

また、前景抽出手段５４は、特性類似領域ごとに、影部分画像の非強変化領域における輝度ヒストグラムを生成する。そして、ヒストグラムに複数の山部がある場合に、当該特性類似領域内の非強変化領域に前景物体が存在するとして、複数の山部のうち背景により生じたもの以外の山部を構成する画素群からなる領域を前景領域として抽出する。ここで、例えば、複数の山部のうち最も高いものを背景により生じたものと推定することができる。また、環境モデルを用いたレンダリング結果から背景による山部を推定することもできる。

前景抽出手段５４は、非影部分画像から抽出した前景領域、影部分画像にて強変化領域および非強変化領域に分けて抽出した前景領域を合成して、撮影画像にて前景物体が写る領域を求める。そして、前景物体の有無、前景物体が存在する位置または領域、前景物体の画像（前景画像）等のうちの１以上を含めた前景情報を生成して前景情報解析手段５５に出力する。

前景情報解析手段５５は、前景抽出手段５４が出力した前景物体の画像、位置、動きを解析して、解析結果を解析結果出力手段３１へ出力する。前景情報解析手段５５は例えば、前景物体からの監視対象の検知、監視対象の姿勢の推定、監視対象の追跡などを行う。

解析結果出力手段３１は前景情報解析手段５５から入力された解析結果を報知部６へ出力する。

［画像監視装置の動作］
図７は画像監視装置１の動作を説明する概略のフロー図である。

画像処理部５は、まず背景情報生成手段５０として機能し、特性類似領域を算出する（ステップＳ１）。例えば、図３の反射特性マップ１００の例では、画像１０１〜１０４それぞれの斜線領域が特性類似領域として得られる。背景情報生成手段５０は算出した特性類似領域を背景情報記憶手段４２に記憶させる。

背景情報記憶手段４２に特性類似領域が記憶された状態にて、通信部３は撮影画像取得手段３０として動作し、カメラ２から撮影画像を順次取得する（ステップＳ２）。

画像処理部５は、撮影画像取得手段３０から撮影画像を取得するごとに、背景情報生成手段５０として動作し、推定影領域を算出する（ステップＳ３）。具体的には、上述したように、環境モデル記憶手段４０、カメラ情報記憶手段４１に記憶された環境モデルおよびカメラパラメータを用いたレンダリングにより影領域を推定する。また、背景情報生成手段５０は撮影画像を取得するごとに、レンダリングにより背景画像も算出する。撮影画像を取得するたびに、太陽などの光源の変化を考慮してレンダリングを行うことで、当該撮影画像に対応した推定影領域、背景画像が得られる。背景情報生成手段５０は算出した推定影領域および背景画像を背景情報記憶手段４２に記憶させる。

次に画像処理部５は、学習用データ生成手段５１として機能し、ステップＳ３にて更新された推定影領域および背景画像に基づいて学習用データを生成して学習用データ記憶手段４３に記憶・蓄積させる（ステップＳ４）。

画像処理部５は学習用データ記憶手段４３に、推定影領域に帰属する局所領域と帰属しない局所領域の学習用データが全ての特性類似領域について蓄積されているか否かを判定する（ステップＳ５）。そして、いずれかの特性類似領域に対して推定影領域に帰属する局所領域の学習用データが蓄積されていない場合、または、いずれかの特性類似領域に対して推定影領域に帰属しない局所領域の学習用データが蓄積されていない場合は、蓄積が十分でないと判定し（ステップＳ５にて「ＮＯ」の場合）、十分な蓄積がなされるまでステップＳ２〜Ｓ４の処理を繰り返す。ちなみに、最新の判定用撮影画像が条件を満たせば当該画像１枚分であっても十分な蓄積と判定される。

また、十分な蓄積であるかは、蓄積時間または蓄積データ数で判定してもよい。なお、基本的には、撮影画像の取得レートおよび各画像での取得データ数は一定であるので、蓄積時間による判定と蓄積データ数による判定とは等価となる。また、帰属する／しないデータの有無の条件と、蓄積時間または蓄積データ数の条件とを併用し、いずれかを満たせば十分な蓄積と判定してもよい。

学習用データが十分に蓄積された場合には（ステップＳ５にて「ＹＥＳ」の場合）、画像処理部５は撮影画像にて監視対象を検知する処理を開始する。

この監視対象検知処理では、まず本発明の学習装置に係る影判定モデル学習処理Ｓ６が行われ、次に、本発明の影検出装置に係る影判定処理Ｓ７が行われる。

図８は影判定モデル学習処理Ｓ６の概略のフロー図である。画像処理部５は学習手段５２として機能して当該処理を行う。学習手段５２は各特性類似領域を順次、注目領域に設定して（ステップＳ６０）、ステップＳ６１〜Ｓ６３の処理をループ処理で全特性類似領域に対して行う（ステップＳ６４）。当該ループにて、学習手段５２は学習用データ記憶手段４３から注目領域の学習用データを読み出して(ステップＳ６１）、注目領域の影判定モデルを生成・更新し（ステップＳ６２）、学習済モデルとして学習済モデル記憶手段４４に格納する（ステップＳ６３）。

学習手段５２は、このステップＳ６１〜Ｓ６３の処理を全特性類似領域について終えていない場合（ステップＳ６４にて「ＮＯ」の場合）、処理をステップＳ６０に戻して未処理の特性類似領域を注目領域に設定してループ処理を繰り返す。

一方、全ての特性類似領域についてループ処理を終えると（ステップＳ６４にて「ＹＥＳ」の場合）、画像処理部５は処理をステップＳ７に進める。

図９は影判定処理Ｓ７の概略のフロー図である。画像処理部５は影判定手段５３として機能して当該処理を行う。ちなみに、ステップＳ３ではレンダリングにより影領域を推定したが、影判定処理Ｓ７では影判定モデルを用いて影領域を再推定する。影判定手段５３は撮影画像内の各局所領域を順次、注目局所領域に設定して（ステップＳ７０）、ステップＳ７１〜Ｓ７６の影領域か否かの推定処理をループ処理で全局所領域に対して繰り返す（ステップＳ７７）。

まず、影判定手段５３は、注目局所領域が帰属する特性類似領域の学習済モデルを学習済モデル記憶手段４４から読み出し、当該学習済モデルを用いて注目局所領域の影度合いを算出する（ステップＳ７１）。

影判定手段５３は注目局所領域の影度合いがしきい値Ｔ_Ｓ以上である場合（ステップＳ７２にて「ＹＥＳ」の場合）、注目局所領域に影ラベルを付与し（ステップＳ７３）、一方、当該影度合いがしきい値Ｔ_Ｎ未満である場合（ステップＳ７２にて「ＮＯ」且つステップＳ７４にて「ＹＥＳ」の場合）、非影ラベルを付与する（ステップＳ７５）。

これらラベル付与処理後に影判定手段５３は既に説明したラベル補間処理を行う（ステップＳ７６）。ラベル補間処理により、ラベルが未定の注目局所領域についてラベルが定められる。具体的には、影度合いがＴ_Ｎ以上Ｔ_Ｓ未満である場合（ステップＳ７２にて「ＮＯ」且つステップＳ７４にて「ＮＯ」の場合）にラベル補間処理が行われる。

影判定手段５３は、このステップＳ７１〜Ｓ７６の処理を全局所領域について終えていない場合（ステップＳ７７にて「ＮＯ」の場合）、処理をステップＳ７０に戻して未処理の局所領域を注目局所領域に設定してループ処理を繰り返す。

一方、全ての局所領域についてループ処理を終えると（ステップＳ７７にて「ＹＥＳ」の場合）、画像処理部５は処理を図７のステップＳ８に進める。

画像処理部５は前景抽出手段５４および前景情報解析手段５５として機能し、前景抽出手段５４は影判定手段５３から入力される影領域の情報を用いて、撮影画像に現れる前景物体を抽出し、前景情報を前景情報解析手段５５に出力する（ステップＳ８）。また、前景情報解析手段５５は前景抽出手段５４から入力された前景情報を解析して、解析結果を解析結果出力手段３１に出力する（ステップＳ９）。そして、解析結果出力手段３１は前景情報解析手段５５から入力された解析結果を報知部６へ出力する（ステップＳ１０）。

ステップＳ２にて取得された撮影画像に対して以上の処理を終えると、処理は再びステップＳ２に戻され、新たに取得される撮影画像に対して上述した、学習用データの生成、影判定モデルの学習およびそれを用いた影判定を含むステップＳ３〜Ｓ１０の処理が繰り返される。

［変形例］
（１）上記実施形態においては背景情報生成手段５０が環境モデルをレンダリングして特性類似領域を算出する例を示したが、背景情報生成手段５０が背景画像に対してセマンティックセグメンテーションと呼ばれる処理を適用することによって特性類似領域を算出することもできる。

なお、セマンティックセグメンテーションについては、例えば、"Pyramid Scene Parsing Network" Hengshuang Zhao, et al. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017 や、"DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs" LC Chen, et al. IEEE transactions on pattern analysis and machine intelligence 40 (4), 834-848に記されている。

その場合、記憶部４には、背景構成物の画像と監視空間に現れるであろう物体の画像とを含んだ背景・前景構成物の画像のそれぞれを、予め学習した学習済モデルを記憶させておく。そして、背景情報生成手段５０は、その学習済モデルを用いた撮影画像の探索によって、撮影画像全体を背景・前景構成物ごとの領域に区分し、区分した領域のうちの背景構成物の領域それぞれに互いに異なる反射特性ＩＤを付与することによって特性類似領域を算出する。

（２）上記実施形態およびその各変形例では、視野が固定され、カメラパラメータが一定値であるカメラ２の例を説明したが、上記実施形態およびその変形例において、パン、チルト、ズームが可能なＰＴＺカメラのように、または車載カメラ、空撮カメラなどのように、カメラパラメータが変化するカメラ２を利用することもできる。その場合、画像処理部５はカメラパラメータの変化を検出した場合に特性類似領域を更新する。

例えば、カメラ２が撮影時のカメラパラメータを都度算出して撮影画像とともに出力する。図７に示した処理フローのステップＳ２において、撮影画像取得手段３０は入力されたカメラパラメータを背景情報生成手段５０に出力し、背景情報生成手段５０は入力されたカメラパラメータをカメラ情報記憶手段４１に記憶されているカメラパラメータと比較して一致するか否かを判定し、一致しなければ入力されたカメラパラメータをカメラ情報記憶手段４１に上書き記憶させるとともに図７のステップＳ１と同様にして特性類似領域を算出し、算出した特性類似領域を背景情報記憶手段４２に上書き記憶させる。

（３）上記実施形態およびその各変形例では、学習用データが１枚１枚の学習用撮影画像の局所領域から生成され、それに対応して影判定手段５３が判定用データを１枚１枚の判定用撮影画像の局所領域から抽出する例を示したが、上記実施形態および各変形例において、学習用データが局所領域における学習用撮影画像の時系列から生成され、判定用データが局所領域における判定用撮影画像の時系列から抽出されてもよい。

例えば、学習用データにおける画像特徴は１０分おきの学習用撮影画像５枚の同一局所領域について抽出された５枚分の特徴ベクトルを時刻の降順に並べて連結したベクトルとすることができる。また、それに対応して、判定用データにおける画像特徴ひとつひとつは、例えば、１０分おきの判定用撮影画像５枚の同一局所領域について抽出された５枚分の特徴ベクトルを連結したベクトルとなる。

なお、その場合、学習用影度合いと判定用影度合いもそれぞれ時系列となる。例えば、５枚の撮影画像の時系列を用いる上記例において、学習用影度合いと判定時影度合いはそれぞれ時刻の降順に５つの影度合いが並んだ５次元ベクトルとなり、最新の判定用撮影画像に対する判定時影度合いは５次元ベクトルの先頭の値となる。

このように画像特徴および影度合いを時系列データとすることで、影から非影、非影から影への時間変動も含めて学習し、判定することができるため、より高精度に影を学習し、より高精度に影領域を判定することが可能となる。当該構成は長期間にわたる学習用データの蓄積が許容される場合に有用である。

（４）上記実施形態及びその各変形例では、学習用撮影画像に最新の撮影画像を含める例を示したが、同一視野にて長期間の蓄積がなされた場合は影判定モデルの更新を止めて最新の撮影画像を含めない構成とすることもできる。その場合、例えば、ステップＳ５で蓄積時間に対して用いるしきい値をＴ_１とするとＴ_１よりも十分に大きなしきい値Ｔ_２を用い、学習用データ生成手段５１は蓄積時間がＴ_２以上であれば学習用データの生成を停止し、学習手段５２は、蓄積時間がＴ_２以上であれば影判定モデルの更新を停止する。

（５）上記実施形態およびその各変形例では、影判定手段５３は特性類似領域ごとの学習済モデルのうち局所領域が帰属する特性類似領域のものを一意的に選択してこれに当該局所領域の画像特徴を入力する例を示した。この点に関し、上記実施形態および各変形例において、影判定手段５３が学習済モデルを択一的に選択せずに、局所領域に対し複数の特性類似領域の学習済モデルを用いて判定してもよい。

例えば、影判定手段５３は、判定用撮影画像における局所領域の画像特徴を全ての学習済モデルに入力して当該局所領域について複数の判定用影度合いを得、判定用影度合いの最大値を影判定閾値と比較する。このようにすれば、特性類似領域の設定誤差があっても高精度な影判定が可能となる。

また、全ての学習済モデルに入力する代わりに、当該局所領域が帰属する特性類似領域および当該特性類似領域に隣接する特性類似領域についての学習済モデルに入力してもよい。このようにしても、特性類似領域の設定誤差があっても高精度な影判定が可能となる。

（６）上記実施形態およびその各変形例では、特性類似領域ごとに影判定モデルを学習し、特性類似領域ごとの学習済モデルを用いて影判定を行う例を示したが、上記実施形態および各変形例において、全特性類似領域に共通の影判定モデルを１つ学習し、当該１つの学習済モデルを用いて影判定を行うこともできる。

その場合の学習済モデルは、局所領域の画像特徴および当該局所領域が帰属する特性類似領域についての反射特性の情報（例えば反射特性ＩＤ）が入力されて当該局所領域に対する影度合いを出力する学習済モデルとするのが好適である。それに対応して、学習手段５２は学習用撮影画像における局所領域の画像特徴および当該局所領域が帰属する特性類似領域についての反射特性の情報を影判定モデルに入力して得られる影度合いを学習用影度合いに近づける更新を当該影判定モデルに対して行うことで学習済モデルを生成する。一方、影判定手段５３は判定用撮影画像における局所領域の画像特徴および当該局所領域が帰属する特性類似領域についての反射特性の情報を学習済モデルに入力して得られる影度合いに基づいて当該局所領域が影領域であるか否かの判定を行う。

以上で説明した画像監視装置１においては、影判定手段５３が、撮影画像の局所領域の画像特徴が入力されると学習に基づいて当該局所領域の影度合いを出力する学習済モデルを用いて撮影画像の影判定を行う。そのため、背景が複雑な監視空間を撮影した撮影画像における影領域を高精度に判定できる。

特に、画像監視装置１においては、影判定手段５３が、特性類似領域ごとに学習された学習済モデルを用いて撮影画像の影判定を行う。これにより、背景が複雑な監視空間を撮影した撮影画像（互いに反射特性が異なる複数の背景構成物からなる背景を撮影した撮影画像）であっても、特性類似領域においては略単一の反射特性の背景となるため、高精度な影判定が可能となる。

また、画像監視装置１においては、学習手段５２によって上記モデルを学習することができるので、背景が複雑な監視空間を撮影した撮影画像における影領域を高精度に判定可能な学習済モデルを生成することができる。

特に、画像監視装置１においては、学習手段５２が、特性類似領域ごとに学習を行う。これにより、背景が複雑な監視空間を撮影した撮影画像であっても、特性類似領域においては略単一の反射特性の背景となるため、高精度な影判定が可能な学習済モデルを生成できる。

１画像監視装置、２カメラ、３通信部、４記憶部、５画像処理部、６報知部、３０撮影画像取得手段、３１解析結果出力手段、４０環境モデル記憶手段、４１カメラ情報記憶手段、４２背景情報記憶手段、４３学習用データ記憶手段４３、４４学習済モデル記憶手段、５０背景情報生成手段、５１学習用データ生成手段、５２学習手段、５３影判定手段、５４前景抽出手段、５５前景情報解析手段。

Claims

所定の空間を撮影した撮影画像において影が撮影されている影領域を検出する影検出装置であって、
前記撮影画像に設定された局所領域における画像特徴を入力され、当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習済モデルであって、前記空間を撮影した学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された前記影度合いである学習用影度合いを用いた学習が行われた学習済モデルを記憶している学習済モデル記憶手段と、
前記撮影画像の前記局所領域における画像特徴を前記学習済モデルに入力して得られる前記影度合いを所定の基準と比較し、前記影度合いが前記基準を超える局所領域を前記影領域と判定する影判定手段と、
を備えたことを特徴とする影検出装置。
前記学習済モデル記憶手段は、前記撮影画像に撮影され得る背景構成物の反射特性が類似する特性類似領域ごとに前記学習が行われた、前記特性類似領域ごとの前記学習済モデルを記憶すること、を特徴とする請求項１に記載の影検出装置。
前記特性類似領域を記憶している背景情報記憶手段、をさらに備え、
前記影判定手段は、前記局所領域の画像特徴を当該局所領域に対応する前記特性類似領域の前記学習済モデルに入力して前記影度合いを得ること、
を特徴とする請求項２に記載の影検出装置。
前記撮影画像に撮影され得る背景構成物の反射特性が類似する特性類似領域を記憶している背景情報記憶手段、をさらに備え、
前記学習済モデル記憶手段は、前記学習用撮影画像に設定された前記局所領域についての前記画像特徴及び前記学習用影度合いに加えて、当該局所領域が帰属する前記特性類似領域を示す帰属情報も用いて前記学習が行われた前記学習済モデルを記憶し、
前記影判定手段は、前記局所領域の画像特徴及び当該局所領域についての前記帰属情報を前記学習済モデルに入力して前記影度合いを得ること、
を特徴とする請求項１に記載の影検出装置。
所定の空間を撮影した撮影画像に設定された局所領域における画像特徴を入力されて当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習モデルを学習させる学習装置であって、
前記学習モデルを記憶する学習モデル記憶手段と、
少なくとも、前記空間を撮影した学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された前記影度合いである学習用影度合いを記憶している学習用データ記憶手段と、
前記学習モデルに少なくとも前記学習用撮影画像における前記局所領域の画像特徴を入力し、得られた前記影度合いの当該局所領域の前記学習用影度合いに対する誤差に基づいて前記学習モデルを更新する学習を行う学習手段と、
を備えたことを特徴とする学習装置。
前記学習モデル記憶手段は、前記撮影画像に撮影され得る背景構成物の反射特性が類似する特性類似領域ごとに前記学習モデルを記憶し、
前記学習手段は、前記特性類似領域ごとの前記学習モデルについて前記学習を行うこと、
を特徴とする請求項５に記載の学習装置。
所定の空間を撮影した撮影画像において影が撮影されている影領域を検出する影検出方法であって、
前記撮影画像に設定された局所領域における画像特徴を入力され、当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習済モデルであって、前記空間を撮影した学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された前記影度合いである学習用影度合いを用いた学習が行われた学習済モデルを用い、
前記撮影画像の前記局所領域における画像特徴を前記学習済モデルに入力する入力ステップと、
前記学習済モデルから出力される前記影度合いを所定の基準と比較し、前記影度合いが前記基準を超える局所領域を前記影領域と判定する影判定ステップと、
を含むことを特徴とする影検出方法。
所定の空間を撮影した撮影画像において影が撮影されている影領域を検出する処理をコンピュータに行わせるためのプログラムであって、当該コンピュータを、
前記撮影画像に設定された局所領域における画像特徴を入力され、当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習済モデルであって、前記空間を撮影した学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された前記影度合いである学習用影度合いを用いた学習が行われた学習済モデルを記憶している学習済モデル記憶手段、及び、
前記撮影画像の前記局所領域における画像特徴を前記学習済モデルに入力して得られる前記影度合いを所定の基準と比較し、前記影度合いが前記基準を超える局所領域を前記影領域と判定する影判定手段、
として機能させることを特徴とする影検出プログラム。
所定の空間を撮影した撮影画像に設定された局所領域における画像特徴を入力されて当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習モデルを学習させる学習方法であって、
前記学習モデルを記憶する学習モデル記憶手段と、
少なくとも、前記空間を撮影した学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された前記影度合いである学習用影度合いを記憶している学習用データ記憶手段と、を用い、
前記学習モデルに少なくとも前記学習用撮影画像における前記局所領域の画像特徴を入力する入力ステップと、
前記学習モデルから出力される前記影度合いの当該局所領域の前記学習用影度合いに対する誤差に基づいて前記学習モデルを更新する学習を行う学習ステップと、
を含むことを特徴とする学習方法。
所定の空間を撮影した撮影画像に設定された局所領域における画像特徴を入力されて当該局所領域に影が撮影されている可能性の高さを表す影度合いを出力する学習モデルを学習させる処理をコンピュータに行わせるためのプログラムであって、当該コンピュータを、
前記学習モデルを記憶する学習モデル記憶手段、
少なくとも、前記空間を撮影した学習用撮影画像に設定された局所領域における画像特徴及び当該局所領域について推定された前記影度合いである学習用影度合いを記憶している学習用データ記憶手段、及び、
前記学習モデルに少なくとも前記学習用撮影画像における前記局所領域の画像特徴を入力し、得られた前記影度合いの当該局所領域の前記学習用影度合いに対する誤差に基づいて前記学習モデルを更新する学習を行う学習手段、
として機能させることを特徴とする学習プログラム。