JP2020113055A

JP2020113055A - 画像認識装置、画像認識方法、及び画像認識プログラム

Info

Publication number: JP2020113055A
Application number: JP2019003597A
Authority: JP
Inventors: 裕二中沢; Yuji Nakazawa; 黒川　高晴; Takaharu Kurokawa; 高晴黒川
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2019-01-11
Filing date: 2019-01-11
Publication date: 2020-07-27
Anticipated expiration: 2039-01-11
Also published as: JP6801020B2

Abstract

【課題】ＣＮＮを用いた画像認識における対象の認識精度の向上を図る。【解決手段】入力画像の解像度以下の範囲にて互いに分離して設定された複数の解像度区間を、低解像度側から順にＲ１，Ｒ２，…，Ｒｎとする。画像縮小手段は入力画像を縮小させることで解像度を低下させて、ｎ以下の各自然数ｋについてＲｋに属する解像度の第ｋ処理画像（５１０〜５１２）を生成する。特徴量抽出手段５２０〜５２２は、第ｋ処理画像それぞれから、Ｒｋ内の解像度にて特徴量を抽出する処理を行って第ｋの特徴量を取得する。対象認識手段５２３は、第１の特徴量を０次合成特徴量とし、ｎ−１以下の自然数ｊについて、ｊ−１次合成特徴量の解像度を第ｊ＋１の特徴量の解像度に揃える変換処理と、当該変換後のｊ−１次合成特徴量と第ｊ＋１の特徴量とを合成してｊ次合成特徴量を生成する処理とをｊの昇順に行い、ｎ−１次合成特徴量から所定対象を認識する。【選択図】図４

Description

本発明は、入力画像に現れた所定対象（人など）を認識する画像認識装置、画像認識方法および画像認識プログラムに関する。

近年、深層学習（Deep Learning）に基づいた画像認識が盛んに研究されており、そのモデルとして畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）が広く用いられている。

従前のＣＮＮは、非特許文献１に示されるように、畳み込み層やプーリング層が接続された多層のネットワーク構造となっており、近傍画素の特徴量を畳み込んだ特徴量を解像度を下げながら求めていくことで周囲の画素との関係を集約していき、被写体を認識する。

"Convolutional Pose Machines", Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser Sheikh (arXiv:1602.00134[cs.CV] 12 Apr 2016)

しかしながら、従前のＣＮＮでは、周囲の画素との関係が集約し切れていない上層で生じた誤差が下層に伝搬されるため、当該伝搬による誤差の蓄積が認識精度低下の要因となる場合があった。

また、従前のＣＮＮにおいては下層で得られる特徴量は解像度が低いため、認識結果の解像度も低かった。例えば、被写体の位置の認識に適用した場合、認識結果として得られる位置は曖昧さを含んだものとなっていた。

また、従前のＣＮＮの上層では顕著な特徴を示す画素が散在しがちであり、上層の畳み込み層が出力する特徴量を可視化、すなわち画像として表示し観察可能としても当該畳み込み層までの処理を解釈することが困難であった（いわゆるブラックボックス問題）。そのため、畳み込み層で用いられるフィルタ係数等のパラメータを改善することが難しいという問題があった。

本発明は上記問題を鑑みてなされたものであり、上層から下層への誤差の伝搬を抑制しつつ、所定対象の特徴量を高解像度で抽出することで、所定対象を高精度に認識できる画像認識装置、画像認識方法および画像認識プログラムを提供することを第一の目的とする。また、本発明は、各処理段階に利用者が手を加え易く、認識精度の改善を容易に行うことができる画像認識装置、画像認識方法および画像認識プログラムを提供することを第二の目的とする。

（１）本発明に係る画像認識装置は、入力画像に現れた所定対象を認識する画像認識装置であって、前記入力画像の解像度以下の範囲において互いに分離して設定されたｎ個（ｎは２以上の自然数である。）の解像度区間を、低解像度の側から順に第１から第ｎの区間とし、前記入力画像を縮小させて、ｎ以下の各自然数ｋについて第ｋの前記区間に属する解像度を有する第ｋの処理画像を生成する画像縮小手段と、前記第ｋの処理画像それぞれから、前記第ｋの区間内の解像度にて特徴量を抽出する処理を行って第ｋの特徴量を取得する特徴量抽出手段と、第１の前記特徴量を０次合成特徴量とし、ｎ−１以下の自然数ｊについて、ｊ−１次合成特徴量の解像度を第ｊ＋１の前記特徴量の解像度に揃える変換処理と、当該変換後の前記ｊ−１次合成特徴量と前記第ｊ＋１の特徴量とを合成してｊ次合成特徴量を生成する処理とを前記ｊの昇順に行い、生成されたｎ次合成特徴量から前記所定対象を認識する対象認識手段と、を備える。

（２）上記（１）に記載の画像認識装置は、前記処理画像の局所領域ごとに当該局所領域に対応する前記特徴量の大きさに応じた画素値を設定した表示用画像を出力する可視化手段、をさらに備えることができる。

（３）上記（１），（２）に記載の画像認識装置は、前記特徴量抽出手段が前記特徴量の抽出に用いるフィルタのフィルタ係数を記憶するフィルタ係数記憶手段と、利用者からの前記フィルタ係数の更新値の入力を受け付けて、前記フィルタ係数記憶手段に記憶されている前記フィルタ係数を前記更新値で置き換えるフィルタ係数更新手段と、をさらに備えることができる。

（４）上記（１）〜（３）に記載の画像認識装置において、前記特徴量抽出手段は、少なくとも１つの前記ｋについて前記第ｋの特徴量を抽出するための１又は複数の畳み込み層を含んで構成され、前記対象認識手段は、少なくとも１つの前記ｋについての前記変換処理を行うためのアンプーリング層を含んで構成されるものとすることができる。

（５）本発明に係る画像認識方法は、入力画像に現れた所定対象を認識する画像認識方法であって、前記入力画像の解像度以下の範囲において互いに分離して設定されたｎ個（ｎは２以上の自然数である。）の解像度区間を、低解像度の側から順に第１から第ｎの区間とし、前記入力画像を縮小させることにより、ｎ以下の各自然数ｋについて第ｋの前記区間に属する解像度を有する第ｋの処理画像を生成する画像縮小ステップと、前記第ｋの処理画像それぞれから、前記第ｋの区間内の解像度にて特徴量を抽出する処理を行って第ｋの特徴量を取得する特徴量抽出ステップと、第１の前記特徴量を０次合成特徴量とし、ｎ−１以下の自然数ｊについて、ｊ−１次合成特徴量の解像度を第ｊ＋１の前記特徴量の解像度に揃える変換処理と、当該変換後の前記ｊ−１次合成特徴量と前記第ｊ＋１の特徴量とを合成してｊ次合成特徴量を生成する処理とを前記ｊの昇順に行い、生成されたｎ次合成特徴量から前記所定対象を認識する対象認識ステップと、を備える。

（６）本発明に係る画像認識プログラムは、コンピュータに、入力画像に現れた所定対象を認識する処理を行わせるための画像認識プログラムであって、前記入力画像の解像度以下の範囲において互いに分離して設定されたｎ個（ｎは２以上の自然数である。）の解像度区間を、低解像度の側から順に第１から第ｎの区間とし、当該コンピュータを、前記入力画像を縮小させることにより、ｎ以下の各自然数ｋについて第ｋの前記区間に属する解像度を有する第ｋの処理画像を生成する画像縮小手段、前記第ｋの処理画像それぞれから、前記第ｋの区間内の解像度にて特徴量を抽出する処理を行って第ｋの特徴量を取得する特徴量抽出手段、及び、第１の前記特徴量を０次合成特徴量とし、ｎ−１以下の自然数ｊについてｊ−１次合成特徴量の解像度を第ｊ＋１の前記特徴量の解像度に揃える変換処理と、当該変換後の前記ｊ−１次合成特徴量と前記第ｊ＋１の特徴量とを合成してｊ次合成特徴量を生成する処理とを前記ｊの昇順に行い、生成されたｎ次合成特徴量から前記所定対象を認識する対象認識手段、として機能させる。

本発明によれば、上層で生じた誤差の下層への伝搬を抑制しつつ、所定対象の特徴量を高解像度で抽出できるため、所定対象を高精度に認識できる。また、本発明によれば、各処理段階に手を加え易いため、認識精度の改善を容易に行うことができる。

本発明の実施形態における認識対象である手の関節位置を説明する模式図である。本発明の実施形態に係る画像監視システムの概略の構成を示すブロック図である。本発明の実施形態に係る画像監視システムの概略の機能ブロック図である。本発明の実施形態に係る画像監視システムにおける関節推定手段を構成するＣＮＮの一例の模式図である。本発明の実施形態に係る画像監視システムによる認識結果の一例を説明する模式図である。本発明の実施形態における関節推定手段の処理過程で観察される特徴マップの例を示す模式図である。本発明の実施形態に係る画像監視システムの学習段階での概略の機能ブロック図である。本発明の実施形態に係る画像監視システムの動作に関する概略のフロー図である。本発明の実施形態に係る画像監視システムの動作に関する概略のフロー図である。

以下、本発明の実施の形態（以下実施形態という）である画像監視システム１について、図面に基づいて説明する。本実施形態にて一例として示す画像監視システム１は、監視空間を撮影して撮影画像から監視空間に現れた人の不審行動を検知し、検知結果を表示する。画像監視システム１は本発明に係る画像認識装置を含み、当該画像認識装置は、撮影画像から切り出された画像であり人の手が撮影された画像（手画像）を入力され、当該手の関節の位置を出力する。すなわち、本実施形態において画像認識装置における入力画像は手画像であり、認識の対象（認識対象）は手の関節である。ここで、手の関節は予め定義され、本実施形態では図１に示すように、５本の指の指先、第一関節、第二関節、第三関節、および手首の計２１箇所とする。

［画像監視システム１の構成］
図２は画像監視システム１の概略の構成を示すブロック図である。画像監視システム１は撮影部２、通信部３、記憶部４、画像処理部５、表示部６および操作入力部７からなる。

撮影部２は監視カメラであり、通信部３を介して画像処理部５と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部５に入力する撮影手段である。例えば、撮影部２は、監視空間であるイベント会場の一角に設置されたポールに当該監視空間を俯瞰する所定の固定視野を有して設置され、監視空間をフレーム周期１秒で撮影してカラー画像を生成する。なお、撮影部２はカラー画像の代わりにモノクロ画像を生成してもよい。

通信部３は通信回路であり、その一端が画像処理部５に接続され、他端が撮影部２、表示部６および操作入力部７と接続される。通信部３は撮影部２から撮影画像を取得して画像処理部５に入力し、画像処理部５から入力された検知結果や表示用画像を表示部６へ出力し、また、操作入力部７から利用者が入力するパラメータの更新値などを画像処理部５へ渡す。

なお、撮影部２、通信部３、記憶部４、画像処理部５、表示部６および操作入力部７の間は各部の設置場所に応じた形態で適宜接続される。例えば、撮影部２と通信部３および画像処理部５とが遠隔に設置される場合、撮影部２と通信部３との間をインターネット回線にて接続することができる。また、通信部３と画像処理部５との間はバスで接続する構成とすることができる。その他、接続手段として、ＬＡＮ（Local Area Network）、各種ケーブルなどを用いることができる。

記憶部４は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等のメモリ装置であり、各種プログラムや各種データを記憶する。記憶部４は画像処理部５と接続されて、画像処理部５との間でこれらの情報を入出力する。例えば、記憶部４と画像処理部５との間で、不審行動の検知に必要な情報、検知処理の過程で生じた情報が入出力され、当該情報には手の関節の認識に必要なパラメータ等の情報、認識処理の過程で生じた情報を可視化した表示用画像が含まれる。

画像処理部５は、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＣＵ（Micro Control Unit）等の演算装置で構成される。画像処理部５は記憶部４からプログラムを読み出して実行することにより各種の処理手段・制御手段として動作し、必要に応じて、各種データを記憶部４から読み出し、生成したデータを記憶部４に記憶させる。また、画像処理部５は、通信部３経由で撮影部２から取得した撮影画像から手の関節を認識し、手の動作などから監視空間における人の不審行動を検知して、検知結果を通信部３を介して表示部６へ出力する。また、画像処理部５は、手の関節の認識結果を表す画像であって、認識精度改善のために保守員が確認する表示用画像を生成し、通信部３を介して表示部６へ出力する。また、画像処理部５は認識処理に用いるパラメータを、操作入力部７から通信部３を介して入力される更新値で更新する処理を行う。

表示部６は、液晶ディスプレイまたはＣＲＴ（Cathode Ray Tube）ディスプレイ等のディスプレイ装置であり、通信部３から入力された検知結果を表示する。監視員は表示された検知結果に応じて対処の要否等を判断し、必要に応じて対処員を急行させる等の対処を行う。また表示部６は上述の表示用画像を表示し、保守員は当該表示用画像に基づいて認識処理の適否を判断しパラメータの調整などを行う。

操作入力部７は画像処理部５に対する入力機器であり、キーボードおよびマウス等で構成される。

なお、撮影部２を構成するカメラは１台に限定されず、複数台であってもよい。複数台のカメラを用いる場合、通信部３は各カメラから撮影画像を時分割で受信し、画像処理部５は各カメラからの撮影画像を時分割処理または並列処理する。

［機能ブロック］
図３は画像監視システム１の概略の機能ブロック図であり、記憶部４がフィルタ係数記憶手段４０および特徴量記憶手段４１として機能し、画像処理部５が不審行動検知手段５０、画像縮小手段５１、関節推定手段５２、特徴量可視化手段５３およびフィルタ係数更新手段５４として機能する。また、表示部６と通信部３とが表示手段６０として機能し、操作入力部７と通信部３とがフィルタ係数入力手段７０として機能する。

不審行動検知手段５０は監視空間に現れた人の不審行動を撮影画像から検知する。具体的には、不審行動検知手段５０は、撮影画像を入力され、当該撮影画像中の手を検出して手画像を切り出し、切り出した手画像を画像縮小手段５１に出力する。例えば、不審行動検知手段５０は、手を検出した位置を中心とする２００×２００画素の領域を手画像として切り出す。一方、不審行動検知手段５０は、関節推定手段５２が手画像ごとに推定した当該手画像における手の関節位置を入力され、当該関節位置を基に手の姿勢を推定し、手の姿勢を加味して人の不審行動を検知し、検知結果を通信部３を介して表示部６へ出力する。

画像縮小手段５１は不審行動検知手段５０から入力された手画像（入力画像）を縮小させて解像度を低下させる処理を行うことにより、解像度が互いに異なる複数の処理画像を生成し、生成した複数の処理画像を関節推定手段５２に出力する。

本実施形態では、処理画像として互いに解像度が異なる３つの画像を生成する例を説明する。解像度が低い順に、第１の処理画像、第２の処理画像、第３の処理画像とする。すなわち、ｋ＝１，２，３として第ｋの処理画像の解像度をρ_ｋと表すと、ρ_１＜ρ_２＜ρ_３≦ρ_INとなる。なお、ここで、ρ_INは入力画像の解像度である。本実施形態では、第３の処理画像として入力画像を用いる例を説明することとし、この場合、ρ_３＝ρ_INとなる。

直交座標系ＸＹを画像に対し設定すると、各処理画像の解像度ρ_ｋは、フィルタ処理高速化の観点で、Ｘ方向、Ｙ方向のそれぞれについてρ_１の整数倍となる関係を有することが望ましい。そこで、第２の処理画像、第１の処理画像は第３の処理画像をそれぞれＸ方向、Ｙ方向それぞれに１／２、１／４に縮小した画像とする。すなわち、本実施形態では、入力画像を基準として第３処理画像は１／１縮小画像、第２処理画像は１／２縮小画像、また第１処理画像は１／４縮小画像となり、解像度ρ_１，ρ_２は基本的にはρ_３の１／４、１／２となる。具体的には、入力画像の解像度ρ_INは画素数を単位として２００×２００となり、これに対して、ρ_１，ρ_２，ρ_３はそれぞれ５０×５０，１００×１００，２００×２００となる。この場合、第３処理画像をＸＹ各方向について１画素ごとにサンプリングして第２処理画像を得ることができ、また、第２処理画像を１画素ごとにサンプリングして第１処理画像を得ることができる。なお、入力画像に１／２縮小処理、１／４縮小処理を施して第２処理画像、第１処理画像を生成してもよい。

ちなみに、画像におけるパターンを識別するネットワークは、平滑化した画像を学習に用いると、パターンの位置のオフセットやテクスチャの微小変化に対してロバストになることが知られている。そこで、第１乃至第３処理画像は、ガウシアンフィルタなどで平滑化してもよい。

なお、画像縮小手段５１が生成する処理画像の数、つまり解像度の種類は３つには限られず、任意の複数とすることができる。つまり、ｎを２以上の任意の自然数として、本発明に係る画像認識装置は、画像縮小手段５１が第１乃至第ｎの処理画像を生成する構成とすることができる。この場合、入力画像の解像度ρ_IN以下の範囲において互いに分離して設定されたｎ個の解像度区間Ｒ_１〜Ｒ_ｎを、低解像度の側から順にＲ_１，Ｒ_２，…，Ｒ_ｎとし、画像縮小手段５１は、入力画像を縮小させ当該縮小と共に解像度を低下させて、ｎ以下の各自然数ｋについて第ｋの区間Ｒ_ｋに属する解像度ρ_ｋを有する第ｋの処理画像を生成する。

ちなみに、各解像度区間は分離しているので、区間Ｒ_ｋの上限supＲ_ｋと区間Ｒ_ｋ＋１の下限infＲ_ｋ＋１とはsupＲ_ｋ≦infＲ_ｋ＋１の関係にある。例えば、本実施形態ではsupＲ_ｋ＝infＲ_ｋ＋１として、Ｒ_１＝（０，ρ_IN/４］、Ｒ_２＝（ρ_IN/４，ρ_IN/２］、Ｒ_３＝（ρ_IN/２，ρ_IN］とすることができる。

関節推定手段５２は画像縮小手段５１から入力された複数の処理画像を解析して認識対象として定義された手の関節位置を推定し、推定した関節位置を不審行動検知手段５０に出力する。関節推定手段５２は特徴量抽出手段と対象認識手段を含む。特徴量抽出手段はｎ種類の解像度の処理画像それぞれから特徴量を抽出する処理を行う。具体的には、ｋをｎ以下の任意の自然数として、第ｋの処理画像から、第ｋの区間Ｒ_ｋ内の解像度にて特徴量を抽出する処理を行って第ｋの特徴量を取得する。対象認識手段は、第１の特徴量を０次合成特徴量とし、ｎ−１以下の自然数ｊについてｊ−１次合成特徴量の解像度を第ｊ＋１の特徴量の解像度に揃える変換処理と、当該変換後のｊ−１次合成特徴量と第ｊ＋１の特徴量とを合成してｊ次合成特徴量を生成する処理とをｊの昇順に行い、生成されたｎ−１次合成特徴量から所定対象を認識する。

関節推定手段５２はＣＮＮを用いて構成される。図４は関節推定手段５２を構成するＣＮＮの一例の模式図である。本実施形態では、ｎ＝３の場合に対応して、関節推定手段５２は特徴量抽出手段として、第１の特徴量抽出手段５２０、第２の特徴量抽出手段５２１、第３の特徴量抽出手段５２２を有する。第１の特徴量抽出手段５２０は第１処理画像５１０から特徴量を抽出し、第２の特徴量抽出手段５２１は第２処理画像５１１から特徴量を抽出し、第３の特徴量抽出手段５２２は第３処理画像５１２から特徴量を抽出する。特徴量抽出手段５２０，５２１，５２２は対象認識手段５２３に接続され、対象認識手段５２３は特徴量抽出手段５２０，５２１，５２２が抽出した特徴量を入力され、認識結果５２４として２１箇所の関節位置を不審行動検知手段５０へ出力する。図４に示すＣＮＮについてはさらに後述する。

フィルタ係数記憶手段４０は、関節推定手段５２が用いる畳み込みフィルタの係数（フィルタ係数）を記憶する。すなわち、関節推定手段５２のＣＮＮは複数の畳み込みフィルタを含んで構成され、フィルタ係数記憶手段４０は当該畳み込みフィルタごとのフィルタ係数を記憶する。ちなみに、フィルタ係数の初期値は予めの学習によって定められ、また、フィルタ係数の一部は保守員によって入力された更新値に置換され得る。

特徴量記憶手段４１は、関節推定手段５２が認識処理の中間結果として算出した特徴量を循環記憶する。例えば、特徴量記憶手段４１は各入力画像について、関節推定手段５２を構成するフィルタごとの特徴量を記憶する。

図３に示すブロックのうち特徴量可視化手段５３、フィルタ係数更新手段５４、表示手段６０、フィルタ係数入力手段７０については後述することとし、次に、関節推定手段５２のＣＮＮの構成について図４を参照しつつ説明する。

関節推定手段５２における解析は複数の畳み込み層による段階的な畳み込み処理を含む。関節推定手段５２はフィルタ係数記憶手段４０に記憶されたフィルタ係数を読み出して、各畳み込み層の畳み込みフィルタを構成し、当該フィルタを用いて畳み込み処理を行う。図４のＣＮＮはレイヤー（層）としてＡ１〜Ａ３，Ｂ１〜Ｂ３，Ｃ１〜Ｃ３，Ｄ１〜Ｄ９を有し、さらに特徴量合成器５２３０，５２３１を有する。レイヤーのうち、層Ａ１〜Ａ３，Ｂ１〜Ｂ３，Ｃ１〜Ｃ３，Ｄ２〜Ｄ４，Ｄ６〜Ｄ９は畳み込み層であり、フィルタ係数記憶手段４０に記憶されたフィルタ係数を用いた畳み込みフィルタで構成される。一方、層Ｄ１，Ｄ５はアンプーリング層である。

第１の特徴量抽出手段５２０は畳み込み層Ａ１〜Ａ３を含み、層Ａ１，Ａ２，Ａ３はこの順に直列に接続される。第２の特徴量抽出手段５２１は畳み込み層Ｂ１〜Ｂ３を含み、層Ｂ１，Ｂ２，Ｂ３はこの順に直列に接続される。第３の特徴量抽出手段５２２は畳み込み層Ｃ１〜Ｃ３を含み、層Ｃ１，Ｃ２，Ｃ３はこの順に直列に接続される。

対象認識手段５２３は畳み込み層Ｄ２〜Ｄ４，Ｄ６〜Ｄ９、アンプーリング層Ｄ１，Ｄ５および特徴量合成器５２３０，５２３１を構成要素として含む。これら対象認識手段５２３の構成要素は、層Ｄ１、特徴量合成器５２３０、層Ｄ２，Ｄ３，Ｄ４，Ｄ５、特徴量合成器５２３１、層Ｄ６，Ｄ７，Ｄ８，Ｄ９の順に直列接続される。

また、第１の特徴量抽出手段５２０の層Ａ３の後ろに対象認識手段５２３の層Ｄ１が接続される。第２の特徴量抽出手段５２１の層Ｂ３が特徴量合成器５２３０に接続され、第３の特徴量抽出手段５２２の層Ｃ３が特徴量合成器５２３１に接続される。

関節推定手段５２への入力は画像縮小手段５１が入力画像から生成する処理画像５１０〜５１２である。第１処理画像５１０は特徴量抽出手段５２０の先頭の層Ａ１に入力され、Ａ１は第１処理画像５１０に畳み込みフィルタリングを施して特徴量を算出する。同様に、第２処理画像５１１、第３処理画像５１２はそれぞれ特徴量抽出手段５２１，５２２の先頭の層Ｂ１，Ｃ１に入力され、Ｂ１は第２処理画像５１１に、またＣ１は第３処理画像５１２にそれぞれ畳み込みフィルタリングを施して特徴量を算出する。

なお、Ａ１，Ｂ１，Ｃ１以外の畳み込み層は直上層、つまり直前のレイヤーから出力される特徴量に畳み込みフィルタリングを施して特徴量を算出する。層Ａ１〜Ａ３，Ｂ１〜Ｂ３，Ｃ１〜Ｃ３，Ｄ２〜Ｄ４，Ｄ６〜Ｄ８での畳み込み処理によって少なくとも認識処理の中間結果である特徴量が算出される。関節推定手段５２はこれらの各畳み込み層で算出された特徴量を、直下層、つまり当該畳み込み層の後ろに接続されるレイヤーへ出力する。また、関節推定手段５２は各畳み込み層で算出された特徴量を当該層の識別子および入力画像の識別子と関連付けて特徴量記憶手段４１に記憶させる。

各レイヤーが扱う特徴量は、画像のＸＹ座標系に対応する２つの次元と、１画素当たりの特徴量の要素数に対応する１つの次元とを有する３次元のデータである。要素数の次元に対応してＺ座標を定義して、以下、当該３次元のデータとしての特徴量のサイズを、ＸＹＺ各方向のサイズｘ，ｙ，ｚを用い、ｘ×ｙ×ｚの形で表現する。また、Ｚ座標が同一のデータを特徴マップと呼ぶ。つまり、特徴マップは画像と同様の２次元のデータであり、３次元の特徴量はｚ枚の特徴マップの集合である。

特徴マップのサイズはｘ×ｙで表される。関節推定手段５２の各レイヤーについて、特徴マップのサイズに基づき、画像と同様にして解像度を定義することができる。ちなみに、図４において、各レイヤーの解像度の大小を当該フィルタを表す細い矩形の縦方向の大きさで表現している。

第１の特徴量抽出手段５２０は上述した区間Ｒ_１に属する解像度ρ_１を有する処理画像５１０を入力され、区間Ｒ_１内の解像度にて特徴量を抽出する処理を行う。具体的には、畳み込み層Ａ１は解像度ρ_１である。また、畳み込み層Ａ２，Ａ３の解像度も区間Ｒ_１内にて設定される。つまり、層Ａ２，Ａ３の解像度はρ_１以下にて任意に設定することができる。ここで、関節推定手段５２の精度を確保する上で、通常は層Ａ２，Ａ３の解像度はρ_１からの低下が小さい値に設定することが好ましく、本実施形態では層Ａ１と同一の解像度ρ_１に設定する。

本実施形態では畳み込み層Ａ１は、解像度ρ_１に対応してサイズが５０×５０画素である処理画像５１０を入力とし、畳み込み処理を行って、サイズが５０×５０×８０である特徴量を生成し、次の畳み込み層Ａ２へ出力する。具体的には、Ａ１は、処理画像における３×３画素の部分画像を入力とし１×１×８０の部分特徴量を出力するフィルタを用い、処理画像５１０の各画素を部分画像の中心として当該フィルタを適用する。これによりＡ１の出力には解像度がρ_１に維持された８０枚の特徴マップからなる特徴量が得られる。

畳み込み層Ａ２，Ａ３はそれぞれ、直上層の畳み込み層からサイズが５０×５０×８０である特徴量を入力され、当該サイズの特徴量を出力する。具体的には、Ａ２，Ａ３はそれぞれ、３×３×８０の部分特徴量を入力とし１×１×８０の部分特徴量を出力するフィルタを用いる。そして、５０×５０画素の特徴マップの各画素を中心として３×３画素の部分領域を設定し、当該部分領域に対応する３×３×８０の部分特徴量に当該フィルタを適用する。これによりＡ２，Ａ３の出力には解像度がρ_１に維持された８０枚の特徴マップからなる特徴量が得られる。

第２の特徴量抽出手段５２１は区間Ｒ_２に属する解像度ρ_２を有する処理画像５１１を入力され、区間Ｒ_２内の解像度にて特徴量を抽出する処理を行う。つまり、特徴量抽出手段５２１における解像度は特徴量抽出手段５２０よりも高い。具体的には、畳み込み層Ｂ１は解像度ρ_２である。また、畳み込み層Ｂ２，Ｂ３の解像度も区間Ｒ_２内にて設定される。よって、基本的には層Ｂ２，Ｂ３の解像度は、ρ_２以下、且つρ_１より高い範囲にて任意に設定することができる。但し、関節推定手段５２の精度を確保する上で、通常は層Ｂ２，Ｂ３の解像度はρ_２からの低下が小さい値に設定することが好ましく、本実施形態では層Ｂ１と同一の解像度ρ_２に設定する。

ここで、層Ｂ３の解像度を、特徴量合成器５２３０にて出力を合成される相手である層Ａ３の解像度よりも高くすることで、第２の特徴量抽出手段５２１により第１の特徴量抽出手段５２０での誤差が特徴量合成器５２３０の出力にて訂正される可能性を高くする効果と、対象認識手段５２３における特徴量の解像度を第１の特徴量抽出手段５２０で得られた解像度よりも上げた状態とする効果が得られる。この点で、基本的に層Ａ３に対する層Ｂ３の解像度の差は大きいことが好適であり、よって、上述のように層Ｂ３の解像度を区間Ｒ_２の上限値ρ_２に設定する。

特徴量抽出手段５２１は、扱うデータのＸおよびＹ方向のサイズが処理画像５１１に対応して特徴量抽出手段５２０より大きい点を除けば、基本的に上述した特徴量抽出手段５２０と同様の構成である。すなわち、本実施形態では畳み込み層Ｂ１は、解像度ρ_２に対応してサイズが１００×１００画素である処理画像を入力とし、畳み込み処理を行って、サイズが１００×１００×８０である特徴量を生成し、次の畳み込み層Ｂ２へ出力する。具体的には、Ｂ１は上述したＡ１と同様、３×３画素の部分画像を入力とし１×１×８０の部分特徴量を出力するフィルタを、処理画像５１１の各画素を部分画像の中心にして適用する。これによりＢ１の出力には解像度がρ_２に維持された８０枚の特徴マップからなる特徴量が得られる。

畳み込み層Ｂ２，Ｂ３はそれぞれ、直上層の畳み込み層からサイズが１００×１００×８０である特徴量を入力され、当該サイズの特徴量を出力する。具体的には、Ｂ２，Ｂ３はそれぞれ上述したＡ２，Ａ３と同様、３×３×８０の部分特徴量を入力とし１×１×８０の部分特徴量を出力するフィルタを、入力特徴量のＸＹ座標の各位置にて適用する。これによりＢ２，Ｂ３の出力には解像度がρ_２に維持された８０枚の特徴マップからなる特徴量が得られる。

第３の特徴量抽出手段５２２は区間Ｒ_３に属する解像度ρ_３を有する処理画像５１２を入力され、区間Ｒ_３内の解像度にて特徴量を抽出する処理を行う。つまり、特徴量抽出手段５２２における解像度は特徴量抽出手段５２０，５２１よりも高い。具体的には、畳み込み層Ｃ１は解像度ρ_３である。また、畳み込み層Ｃ２，Ｃ３の解像度も区間Ｒ_３内にて設定される。よって、基本的には層Ｃ２，Ｃ３の解像度は、ρ_３以下、且つρ_２より高い範囲にて任意に設定することができる。但し、関節推定手段５２の精度を確保する上で、通常は層Ｃ２，Ｃ３の解像度はρ_３からの低下が小さい値に設定することが好ましく、本実施形態では層Ｃ１と同一の解像度ρ_３に設定する。

後述するように、層Ｃ３から出力される特徴量は特徴量合成器５２３１にて、層Ａ３および層Ｂ３の出力特徴量と合成される。そこで、層Ｃ３の解像度を合成される相手である層Ａ３およびＢ３の解像度よりも高くすることで、第３の特徴量抽出手段５２２により第１の特徴量抽出手段５２０および第２の特徴量抽出手段５２１での誤差が特徴量合成器５２３１の出力にて訂正される可能性を高くする効果と、対象認識手段５２３における特徴量の解像度を第２の特徴量抽出手段５２１で得られた解像度よりも上げた状態とする効果が得られる。この点で、基本的に層Ｂ３に対する層Ｃ３の解像度の差は大きいことが好適であり、よって、上述のように層Ｃ３の解像度をρ_３に設定する。

特徴量抽出手段５２２は、扱うデータのＸおよびＹ方向のサイズが処理画像５１２に対応して特徴量抽出手段５２０，５２１より大きい点を除けば、基本的に上述した特徴量抽出手段５２０，５２１と同様の構成である。すなわち、本実施形態では畳み込み層Ｃ１は、解像度ρ_３に対応してサイズが２００×２００画素である処理画像を入力とし、畳み込み処理を行って、サイズが２００×２００×８０である特徴量を生成し、次の畳み込み層Ｃ２へ出力する。具体的には、Ｃ１は上述したＡ１およびＢ１と同様、３×３画素の部分画像を入力とし１×１×８０の部分特徴量を出力するフィルタを、処理画像５１２の各画素を部分画像の中心にして適用する。これによりＣ１の出力には解像度がρ_３に維持された８０枚の特徴マップからなる特徴量が得られる。

畳み込み層Ｃ２，Ｃ３はそれぞれ、直上層の畳み込み層からサイズが２００×２００×８０である特徴量を入力され、当該サイズの特徴量を出力する。具体的には、Ｃ２，Ｃ３はそれぞれ上述したＡ２，Ａ３などと同様、３×３×８０の部分特徴量を入力とし１×１×８０の部分特徴量を出力するフィルタを、入力特徴量のＸＹ座標の各位置にて適用する。これによりＣ２，Ｃ３の出力には解像度がρ_３に維持された８０枚の特徴マップからなる特徴量が得られる。

対象認識手段５２３は先頭のアンプーリング層Ｄ１に特徴量抽出手段５２０の出力特徴量を入力される。アンプーリング層Ｄ１は入力された特徴量に対し、Ｘ方向およびＹ方向のサイズを拡大する処理を行い、解像度が見かけ上、高くなった特徴量を生成する。具体的には、アンプーリング層Ｄ１は第１の特徴量抽出手段５２０から入力される特徴量に対し、その解像度を、第２の特徴量抽出手段５２１から入力される特徴量の解像度に上げる処理を行う。つまり、本実施形態では、畳み込み層Ａ３から入力される特徴量に対し、解像度をρ_１からρ_２に上げる処理を行う。これにより、アンプーリング層Ｄ１は５０×５０×８０の入力特徴量をＸ方向およびＹ方向にそれぞれ２倍に拡大して１００×１００×８０の特徴量を生成し、これを特徴量合成器５２３０へ出力する。ちなみに、この拡大処理は基本的には、入力特徴量における１画素の値を、出力特徴量における２×２画素にコピーする。

特徴量合成器５２３０は、アンプーリング層Ｄ１で拡大された第１の特徴量抽出手段５２０の出力特徴量と、第２の特徴量抽出手段５２１の出力特徴量とを入力され、それらを合成して出力する。具体的には、特徴量合成器５２３０は入力された両特徴量を、解像度に対応する次元を維持して合成する。つまり、両特徴量を構成する複数の特徴マップを、ＸＹ座標を変更せずに、予め定めた順序でＺ方向に並べる。これにより、特徴量合成器５２３０の出力には１００×１００×１６０の特徴量、つまり解像度ρ_２の特徴量が得られる。

ここまでの対象認識手段５２３の処理にて、第１の特徴量抽出手段５２０から入力される第１の特徴量を０次合成特徴量とし、アンプーリング層Ｄ１が当該０次合成特徴量の解像度を第２の特徴量抽出手段５２１から入力される第２の特徴量の解像度に揃える変換処理を行い、特徴量合成器５２３０が当該変換後の０次合成特徴量と第２の特徴量とを合成して１次合成特徴量を生成する処理を行う。そして、以降の対象認識手段５２３の処理にて、合成特徴量から手の関節位置を認識する処理が行われる。このように本発明のＣＮＮの構造では、解像度が低い特徴量と高い特徴量とを合成する際に、解像度を高い方に揃える。そして、高い解像度の合成特徴量を対象認識に用いる。本発明の当該構造を、Coarse to Fineネットワークと呼ぶことにする。

Coarse to Fineネットワークでは、互いに分離して設定された解像度区間ごとに特徴量抽出手段を備え、各区間にて設定した解像度ごとに独立に画像からの特徴抽出を行っているため、或る解像度における特徴に誤りが発生しても、他の解像度における特徴はその誤りの影響を受けないし、また同様の誤りが発生する可能性も低い。つまり、基本的に複数の解像度の特徴のうち少なくとも一部の解像度では特徴が正しく求まり、最終的な推定結果は正しく求まっている特徴により補正されることが期待できる。

この効果は、Coarse to Fineネットワークを多段に構成することで強化することができる。すなわち、上述したように、ｎを２以上の任意の自然数としてｎ個の解像度区間Ｒ_１〜Ｒ_ｎごとに処理画像から特徴量を抽出し、低解像度の特徴量に順次、高解像度の特徴量を合成し、ｎ−１次合成特徴量を生成し、当該ｎ−１次合成特徴量から所定対象を認識する構成とすることができる。

本実施形態ではその例として、ｎ＝３を示しており、関節推定手段５２は、上述した第１の特徴量抽出手段５２０の出力特徴量と第２の特徴量抽出手段５２１の出力特徴量とを合成して１次合成特徴量を生成する１段目に、さらに第３の特徴量抽出手段５２２の出力特徴量を合成して２次合成特徴量を生成する２段目が後続した構成を有する。以下、この後続部分について説明する。

特徴量合成器５２３０にて生成された合成特徴量（１次合成特徴量）は、畳み込み層Ｄ２，Ｄ３，Ｄ４を経てアンプーリング層Ｄ５に入力される。畳み込み層Ｄ２，Ｄ３，Ｄ４が出力する特徴量の解像度は解像度区間Ｒ_２内に保たれる。すなわち、当該解像度は第１処理画像５１０が属する解像度区間Ｒ_１よりも一段高い解像度区間Ｒ_２に属する。これにより、Coarse to Fineネットワークの１段目にて得られる上述の効果が維持される。ここで、当該効果維持の観点からは、畳み込み層Ｄ２，Ｄ３，Ｄ４での解像度は特徴量合成器５２３０の出力での解像度ρ_２からの低下が小さい値に設定することが好ましく、本実施形態では特徴量合成器５２３０の出力特徴量と同一の解像度ρ_２に維持される。

具体的には、Ｄ２は、３×３×１６０の部分特徴量を入力とし１×１×８０の部分特徴量を出力するフィルタを、特徴量合成器５２３０の出力に得られる１００×１００×１６０の特徴量のＸＹ座標の各位置にて適用し、１００×１００×８０の特徴量を生成する。これによりＤ２の出力には解像度がρ_２に維持された８０枚の特徴マップからなる特徴量が得られる。

畳み込み層Ｄ３，Ｄ４はそれぞれ、直上層の畳み込み層からサイズが１００×１００×８０である特徴量を入力され、当該サイズの特徴量を出力する。具体的には、Ｄ３，Ｄ４は、３×３×８０の部分特徴量を入力とし１×１×８０の部分特徴量を出力するフィルタを、入力特徴量のＸＹ座標の各位置にて適用し、１００×１００×８０の特徴量を生成する。これによりＤ３，Ｄ４の出力には解像度がρ_２に維持された８０枚の特徴マップからなる特徴量が得られる。

Ｄ４の出力特徴量はアンプーリング層Ｄ５に入力される。アンプーリング層Ｄ５はＤ１と同様、入力された特徴量に対し、Ｘ方向およびＹ方向のサイズを拡大する処理を行い１次合成特徴量の解像度を第３の特徴量抽出手段５２２から入力される特徴量の解像度に上げる変換処理を行う。つまり、本実施形態では、畳み込み層Ｄ４から入力される特徴量に対し、解像度をρ_２からρ_３に上げる処理を行う。これにより、アンプーリング層Ｄ５は１００×１００×８０の入力特徴量をＸ方向およびＹ方向にそれぞれ２倍に拡大して２００×２００×８０の特徴量を生成し、これを特徴量合成器５２３１へ出力する。

特徴量合成器５２３１は、畳み込み層Ｄ４から出力されアンプーリング層Ｄ５で拡大された１次合成特徴量と、第３の特徴量抽出手段５２２の出力特徴量とを入力され、それらを合成して２次合成特徴量を生成し出力する。特徴量合成器５２３１は上述した特徴量合成器５２３０と基本的に同様に、入力された両特徴量を、解像度に対応する次元を維持して合成する。これにより、特徴量合成器５２３１の出力には２００×２００×１６０の特徴量、つまり解像度ρ_３の特徴量が得られる。

ここまでが基本的にCoarse to Fineネットワークの２段目となる。つまり、ここまでの対象認識手段５２３の処理により、アンプーリング層Ｄ５が１次合成特徴量の解像度を第３の特徴量抽出手段５２２から入力される第３の特徴量の解像度に揃える変換処理を行い、特徴量合成器５２３１が当該変換後の１次合成特徴量と第３の特徴量とを合成して２次合成特徴量を生成する処理を行う。そして、以降の対象認識手段５２３の処理にて、合成特徴量から手の関節位置を認識する処理が行われる。

このように、関節推定手段５２は、第１の解像度を有する第１の特徴量抽出手段５２０の出力特徴量と、それより高い第２の解像度を有する第２の特徴量抽出手段５２１の出力特徴量とを合成して第２の解像度の１次合成特徴量を生成することで、上述のCoarse to Fineネットワークの効果を得ることができ、さらに、１次合成特徴量とそれより高い第３の解像度を有する第３の特徴量抽出手段５２２の出力特徴量とを合成して第３の解像度の２次合成特徴量を生成することで、当該効果を累積的に得ることができる。

特徴量合成器５２３１にて生成された２次合成特徴量は、畳み込み層Ｄ６，Ｄ７，Ｄ８を経て畳み込み層Ｄ９に入力される。畳み込み層Ｄ６〜Ｄ９が出力する特徴量の解像度は解像度区間Ｒ_３内に保たれる。すなわち、当該解像度は第２処理画像５１１が属する解像度区間Ｒ_２よりも一段高い解像度区間Ｒ_３に属する。これにより、Coarse to Fineネットワークの２段目にて得られる上述の効果が維持される。ここで、当該効果維持の観点からは、畳み込み層Ｄ６〜Ｄ９での解像度は特徴量合成器５２３１の出力での解像度ρ_３からの低下が小さい値に設定することが好ましく、本実施形態では特徴量合成器５２３１の出力特徴量と同一の解像度ρ_３に維持される。

具体的には、Ｄ６は、３×３×１６０の部分特徴量を入力とし１×１×８０の部分特徴量を出力するフィルタを、特徴量合成器５２３１の出力に得られる２００×２００×１６０の特徴量のＸＹ座標の各位置にて適用し、２００×２００×８０の特徴量を生成する。これによりＤ６の出力には解像度がρ_３に維持された８０枚の特徴マップからなる特徴量が得られる。

畳み込み層Ｄ７，Ｄ８はそれぞれ、直上層の畳み込み層からサイズが２００×２００×８０である特徴量を入力され、当該サイズの特徴量を出力する。具体的には、Ｄ７，Ｄ８は、３×３×８０の部分特徴量を入力とし１×１×８０の部分特徴量を出力するフィルタを、入力特徴量のＸＹ座標の各位置にて適用し、２００×２００×８０の特徴量を生成する。これによりＤ７，Ｄ８の出力には解像度がρ_３に維持された８０枚の特徴マップからなる特徴量が得られる。

畳み込み層Ｄ９は、直上層の畳み込み層Ｄ８からサイズが２００×２００×８０である特徴量を入力され、２００×２００×２１の特徴量を出力する。具体的には、Ｄ９は、３×３×８０の部分特徴量を入力とし１×１×２１の部分特徴量を出力するフィルタを、入力特徴量のＸＹ座標の各位置にて適用し、２００×２００×２１の特徴量を生成する。これによりＤ９の出力には解像度がρ_３に維持された２１枚の特徴マップからなる特徴量が得られる。当該２１枚の特徴マップは関節推定手段５２における認識結果であり、認識対象である手の２１箇所の関節位置と一対一に対応する。すなわち、Ｄ９の出力の特徴マップごとに１つの関節が推定される。

図５は認識結果の一例を説明する模式図である。図５（ａ）は入力画像であり、図５（ｂ−１）から（ｂ−４）までは当該入力画像に対する認識結果５２４として得られた関節位置を表す画像である。具体的には図５（ｂ−１）〜（ｂ−４）の順に、小指の指先、第一関節、第二関節、第三関節の認識結果５２４の特徴マップを二値化した画像であり、関節位置を白、それ以外を黒とした二値画像で表現されている。関節推定手段５２は当該特徴マップにおけるピーク座標を検出することで各関節座標を検知する。

なお、上述した特徴量抽出手段５２０〜５２２における畳み込み層の数は一例であり、１以上の任意の数とすることができる。また、対象認識手段５２３における畳み込み層の数も一例であり、基本的には、認識結果５２４を抽出する上述のＤ９に相当する１つの畳み込み層は必要であるが、それ以外の畳み込み層の数は０以上の任意の数とすることができる。

以上、図３の機能ブロック図のうち、主に、画像監視システム１の監視動作にて機能する部分、特に、所定対象の画像認識処理に関する部分について説明した。そこで説明した本発明の画像認識の技術では、複数の解像度での特徴量を順次統合することで誤りの訂正を図り上層から下層への誤差の伝搬を抑制する。また、従来のネットワークでは、高い解像度から低い解像度へ向けて情報を集約することで特徴を抽出するので認識対象の推定座標精度が下がってしまう問題があるのに対し、本発明のネットワークでは最終レイヤーにおいて高い解像度の特徴量で座標を推定するため、従来のネットワークに比べ高い精度での位置推定が可能である。よって、本発明によれば所定対象を高精度に認識できる。

また、画像監視システム１は、関節推定手段５２における各処理段階に利用者が手を加え易く、認識精度の改善を容易に行うことができる機能を備えている。当該機能は、認識結果に至る途中の処理を見えやすくする、つまり可視化容易性の実現を図る機能と、畳み込み層のフィルタ係数を学習後に変更する機能とを含み、図３に示すブロックのうち特徴量可視化手段５３および表示手段６０が前者の機能に関係し、フィルタ係数更新手段５４およびフィルタ係数入力手段７０が後者の機能に関係する。

まず、可視化容易性について説明する。特徴量可視化手段５３は、処理画像の局所領域ごとに当該局所領域に対応する特徴量の大きさに応じた画素値を設定した表示用画像を生成し表示手段６０へ出力する。表示手段６０は特徴量可視化手段５３が生成した表示用画像を表示部６に表示する。

例えば、特徴量可視化手段５３は各畳み込み層の各特徴マップを人が目視で理解しやすいように加工する。具体的には、或る１つの畳み込み層の全特徴マップを可視化する際、それら全特徴マップにおける最大値を求め、これが表示上の最大輝度値の２５５になるように各特徴マップの値をスケーリングする。こうすることで、特徴マップの反応の強さを畳み込み層ごとに規格化して観察することができる。この際、処理画像の上に特徴マップを重ねて表示したり、特徴マップの輝度に色付けして表示したりしても良い。また、反応の強い特徴を強調して表示する等しても良い。

ここで、従来のネットワークとして、処理画像をプーリング層により段階的に縮小することで情報を集約して対象を検知する構造が知られている。当該構造では、画像を入力した初期の段階で高い解像度の特徴が抽出されるため、特徴マップを観察しても認識の過程を人が直感的に把握するのが困難である。これに対し、本発明のネットワーク、つまりCoarse to Fineネットワークでは、おおまかな特徴から先に捉えるという考え方を応用し、対象認識手段５２３の入力側から出力側に向けて徐々に特徴マップの解像度を上げる。また、単に解像度を上げるだけではなく、複数の解像度ごとの特徴量をそれぞれ求め、それらを段階的に合成することで情報量の確保を図る。

この本ネットワークの構成において例えば、第１処理画像５１０の特徴は畳み込み層Ａ３、第２処理画像５１１の特徴は畳み込み層Ｂ３、第３処理画像５１２の特徴は畳み込み層Ｃ３でそれぞれ観察することで、解像度ごとにどのような形で特徴が生成されているかがわかる。また、これら解像度ごとの特徴が合成されることで、畳み込み層Ｄ２，Ｄ３，Ｄ４では区間Ｒ_１に属する低解像度での特徴と区間Ｒ_２に属する中解像度での特徴とによる新しい特徴が生成され、また畳み込み層Ｄ６，Ｄ７，Ｄ８，Ｄ９ではそれに更に区間Ｒ_３に属する高解像度での特徴が加わった新しい特徴が生成され、各畳み込み層で特徴の生成過程が観察できる。

この例を図６に示す。図６は生成過程で観察される特徴マップの例を示す模式図であり、図６（ａ）は処理画像、図６（ｂ−１）〜（ｂ−５）はそれぞれ特徴量可視化手段５３により可視化された特徴マップの例である。なお、図６（ｂ−１）〜（ｂ−５）の特徴マップの画像は図５と同様、二値画像で関節の位置を表すとともに、利用者の理解を容易とするために、手の輪郭を重ねて表示している。図６（ｂ−１）は畳み込み層Ａ３にて得られる低解像度の特徴マップの画像であり、この例では５本の指の指先が活性化している。図６（ｂ−２）は畳み込み層Ｂ３にて得られる中解像度の特徴マップの画像であり、この例では多くの関節付近で活性化領域ができている。ちなみに、中解像度なので解像度が低めの特徴である。図６（ｂ−３）は畳み込み層Ｄ４にて得られる特徴マップの画像であり、この例ではいくつかの関節付近で活性化領域ができている。図６（ｂ−４）は畳み込み層Ｃ３にて得られる高解像度の特徴マップの画像であり、この例では多くの関節付近で活性化領域ができている。図６（ｂ−５）は最終の畳み込み層Ｄ９にて得られる特徴マップの画像であり、ここでは小指の指先が活性化しており、これが最終的に求まった小指の指先位置である。

ＣＮＮに関しては、その内部でどのような処理が行われているのかが人には理解しづらいことが問題とされている。この問題に関し、本ネットワークは従来ＣＮＮに比べ内部状態が観察しやすいことを図６を参照しつつ説明する。内部状態を人が理解するには、できるだけ人が意味的に捉えられる特徴量が生成されることが重要である。しかし、解像度をプーリング層によって段階的に下げる従来ＣＮＮでは、高解像度の画像や高解像度・中解像度の特徴量を処理する上・中層での特徴マップは多数の大きな値が散在したものとなりがちであり、指先のような人が意味的に捉えることのできる位置が活性化する様子を観察するのが難しい。一方、上層で低解像度の画像や低解像度の特徴量を処理する本ネットワークでは図６（ｂ−１）の５本の指先が活性化している例が示すように、上層で人が意味的に捉え易い特徴量が求まる傾向があることが分かった。つまり、上層に低解像度の第１処理画像を処理する第１の特徴量抽出手段５２０を有するネットワーク構造としたことで、上層の畳み込みフィルタが内部状態を観察しやすい特徴量を抽出するように学習され易くなることが分かった。さらに本ネットワークでは図６（ｂ−２）〜（ｂ−５）の例が示すように中・下層の特徴マップにおいても人が意味的に捉え易い特徴量が求まる傾向があることが分かった。つまり、中解像度・高解像度の第２・第３処理画像や中解像度・高解像度の特徴量を処理する第２の特徴量抽出手段５２１や第３の特徴量抽出手段５２２を、内部状態を観察しやすい特徴量を抽出する第１の特徴量抽出手段５２０の下層で結合するネットワーク構造としたことで、第２の特徴量抽出手段５２１や第３の特徴量抽出手段５２２の畳み込みフィルタも内部状態を観察しやすい特徴量を抽出するように学習され易くなることが分かった。

この可視化容易性により、利用者が特徴マップを観察することで問題のある特徴を見つけることも容易となる。そして、問題のある特徴に対する修正を可能とする。画像監視システム１が当該修正に関し提供する機能が、上述した畳み込み層のフィルタ係数を学習後に変更する機能である。これにより、特徴量に存在する問題を除去・修正し、関節推定手段５２、ひいては画像監視システム１の性能向上を図ることが可能となる。なお、フィルタ係数を変えて認識性能を向上させることを、ここではパラメータチューニングと呼ぶ。

フィルタ係数更新手段５４は、保守者（利用者）がフィルタ係数入力手段７０を用いて入力したフィルタ係数の更新値を受け付けて、フィルタ係数記憶手段４０に記憶されているフィルタ係数を更新値に置き換える。フィルタ係数入力手段７０は、利用者が操作入力部７を操作して入力する修正の指示・内容を受け付け、それをフィルタ係数更新手段５４へ渡す。

Coarse to Fineネットワークが有する、一部分の変化がネットワーク全体に影響しにくいという性質はパラメータチューニングの際にも役立つ。つまり、パラメータチューニングにおいて重要なのは、他の個所に副作用を与えずに問題個所に対してのみ効果を与えることだが、Coarse to Fineネットワークだと変更の影響が全体に及びにくいため、副作用を抑えながら部分的に性能を変更するのに適している。

図７は画像監視システム１の学習段階での概略の機能ブロック図であり、記憶部４がフィルタ係数記憶手段４０および学習用データ記憶手段４２として機能し、画像処理部５が画像縮小手段５５および関節推定モデル学習手段５６として機能する。

フィルタ係数記憶手段４０は図３に示したフィルタ係数記憶手段４０と共通である。

学習用データ記憶手段４２は、多数の学習用の手画像（学習用画像）と、各学習用画像に撮影されている手における関節位置の情報を予め記憶している。なお、学習用画像に対する関節位置の情報は人手によって予め作成される。ちなみに、この関節位置の情報のように画像の注釈として加えられた情報はアノテーションと呼ばれる。

画像縮小手段５５は上述した画像縮小手段５１と同様、画像を縮小させて解像度が異なる複数の処理画像を生成する。ただし、画像縮小手段５５における縮小の対象は学習用画像である。すなわち、画像縮小手段５５は、学習用データ記憶手段４２から各学習用画像を読み出し、各学習用画像を縮小させて解像度が異なる複数の処理画像を生成し、生成した複数の処理画像を関節推定モデル学習手段５６に出力する。

関節推定モデル学習手段５６は、上述した第１の特徴量抽出手段５２０と第２の特徴量抽出手段５２１と第３の特徴量抽出手段５２２と対象認識手段５２３とからなるモデルに対して、画像縮小手段５５が各学習用画像から生成した処理画像を入力値とし、当該学習用画像における関節位置の情報を出力値の目標値とする学習を行う。目標値とする関節位置の情報は、例えば、関節ごとに当該関節の位置に対応する画素の画素値を１に設定し、それ以外の画素の画素値を０に設定した二値画像で表される。当該二値画像は対象認識手段５２３の最終段の畳み込み層Ｄ９の出力特徴量である認識結果５２４を構成する２１枚の特徴マップに相当し、当該出力特徴量に対応させて、２１枚の当該二値画像は互いの画素位置を合わせて所定順序で並べたデータ形式で表現される。好適には、当該各二値画像の、関節位置に対応する画素を中心とする領域に二次元ガウシアンフィルタリングを施した平滑化画像を、画素位置を合わせて所定順序で並べたデータとすることができる。関節推定モデル学習手段５６は学習済みモデルにおけるフィルタ係数等のパラメータをフィルタ係数記憶手段４０に記憶させる。

［画像監視システム１の動作］
図８および図９は画像監視システム１の動作に関する概略のフロー図である。

画像監視システム１が監視動作を開始すると（ステップＳ１００）、画像処理部５は、フィルタ係数記憶手段４０として機能する記憶部４から、関節推定手段５２にて用いるフィルタ係数を読み込む（ステップＳ１０１）。

撮影部２が監視空間を撮影すると（ステップＳ１０２）、その撮影画像が画像処理部５に送られる。画像処理部５は不審行動検知手段５０として機能し、撮影画像中の手を検出する処理を行う（ステップＳ１０３）。

不審行動検知手段５０は、手を検出すると（ステップＳ１０４にて「ＹＥＳ」の場合）、撮影画像から手画像を切り出す（ステップＳ１０５）。本実施形態では、手を検出した位置を中心とする２００×２００画素の領域を手画像としている。

画像処理部５は画像縮小手段５１として機能し、不審行動検知手段５０から渡される手画像に対し、予め定められた倍率で画像縮小処理を行い、解像度が異なる複数種類の処理画像を生成する（ステップＳ１０６）。本実施形態では画像縮小手段５１での処理により、手画像の１／１縮小画像、１／２縮小画像、１／４縮小画像が得られ、これらが処理画像とされる。ここで、１／４縮小画像を第１処理画像（解像度ρ_１）、１／２縮小画像を第２処理画像（解像度ρ_２）、１／１縮小画像を第３処理画像（解像度ρ_３）とし、よって、ρ_１＜ρ_２＜ρ_３である。

処理画像が得られると、画像処理部５は関節推定手段５２として機能し、関節位置の推定を行う（ステップＳ１０７）。すなわち、関節推定手段５２は上述したように、第１の特徴量抽出手段５２０に第１処理画像を入力して特徴量を抽出し、同様に、第２の特徴量抽出手段５２１に第２処理画像、第３の特徴量抽出手段５２２に第３処理画像をそれぞれ入力して特徴量を抽出する。特徴量抽出手段５２０〜５２２はそれぞれに入力される処理画像に関するρ_１＜ρ_２＜ρ_３という解像度の大小関係に対応して、互いに異なる解像度で特徴量を抽出する処理を行う。つまり、ρ_１〜ρ_３がそれぞれ属する区間Ｒ_１〜Ｒ_３により、解像度を低解像度、中解像度、高解像度に分けると、第１の特徴量抽出手段５２０は低解像度にて特徴量抽出処理を行い、第２の特徴量抽出手段５２１は中解像度にて特徴量抽出処理を行い、第３の特徴量抽出手段５２２は高解像度にて特徴量抽出処理を行う。そして、対象認識手段５２３は、第１の特徴量抽出手段５２０の低解像度の出力特徴量をアンプーリング層で中解像度へ変換し、これに第２の特徴量抽出手段５２１の出力特徴量を合成し、また、その中解像度の合成特徴量をアンプーリング層で高解像度へ変換し、これに第３の特徴量抽出手段５２２の出力特徴量を合成し、その高解像度の合成特徴量から関節位置の推定結果として認識結果５２４を生成する。

また、関節推定手段５２は当該推定処理にて各畳み込み層で生成された特徴量を特徴量記憶手段４１である記憶部４に保存する（ステップＳ１０８）。

なお、撮影画像中に手が検出されなかった場合は（ステップＳ１０４にて「ＮＯ」の場合）、画像処理部５はステップＳ１０５〜Ｓ１０８の処理は行われずに、不審行動検知手段５０が行動認識処理（ステップＳ１０９）に進む。

不審行動検知手段５０は撮影画像に基づいて人の行動認識処理を行う（ステップＳ１０９）。その際、当該撮影画像から手画像が切り出されている場合には、不審行動検知手段５０は関節推定手段５２からの認識結果５２４に基づき手の姿勢を推定し、手の姿勢を加味して行動認識処理を行う。

不審行動検知手段５０は、ステップＳ１０２にて得られた撮影画像に関して、当該行動認識処理にて不審行動を検知すると（ステップＳ１１０にて「ＹＥＳ」の場合）、表示部６などを介して警報を発する（ステップＳ１１１）。一方、不審行動が検知されなかった場合（ステップＳ１１０にて「ＮＯ」の場合）、ステップＳ１１１の処理は省略される。

また、ステップＳ１０２にて得られた撮影画像に関して利用者から可視化要請があった場合（ステップＳ１１２にて「ＹＥＳ」の場合）、画像処理部５は特徴量可視化手段５３として機能し、手の関節位置の推定処理にて保存された特徴量を特徴量記憶手段４１から読み出して特徴マップの画像を生成する特徴量可視化処理を行い（ステップＳ１１３）、生成した画像を表示部６に表示する（ステップＳ１１４）。利用者は表示部６で表示された特徴マップを観察しながら、どの特徴マップに性能的な問題があるかを特定することができる。一方、可視化要請がなければ（ステップＳ１１２にて「ＮＯ」の場合）、ステップＳ１１３，Ｓ１１４の処理は省略される。

利用者は例えば、フィルタ係数を変更して、特徴マップにて特定された問題を修正することができる。利用者からフィルタ係数の更新値の入力があった場合（ステップＳ１１５にて「ＹＥＳ」の場合）、画像処理部５はフィルタ係数更新手段５４として機能し、当該更新値でフィルタ係数記憶手段４０に記憶されているフィルタ係数を置き換える（ステップＳ１１６）。一方、更新値の入力がなければ（ステップＳ１１５にて「ＮＯ」の場合）、ステップＳ１１６の処理は省略され、処理はステップＳ１０２に戻り、次の撮影画像についての上述のステップＳ１０２〜Ｓ１１６の処理を行う。

なお、ここでは２００×２００画素の画像を切り出して入力画像とする例を示したが、入力画像のサイズは任意に定めることができる。例えば、撮影画像そのものを入力画像としてもよい。また、検出した手に応じた大きさの入力画像としてもよい。また、例えば、検出した手の外接矩形で与えられる領域、または当該外接矩形を所定倍した領域を切り出して入力画像としてもよい。

［変形例］
（１）上記実施形態の画像監視システム１では本発明の画像認識の技術の例として、解像度が異なる３つの処理画像を用いる例を示したが、既に述べたように、処理画像の数（解像度の種類）は任意の複数とすることができ、例えば、２つの処理画像を用いる構成とすることもでき、または４以上の処理画像を用いる構成とすることもできる。処理画像を幾つとするかは、事前実験を通じ、認識対象と認識精度のバランスから選択される。

２つの処理画像を用いる構成の場合、第３の特徴量抽出手段５２２を有さず、対象認識手段５２３にアンプーリング層Ｄ５、特徴量合成器５２３１、畳み込み層Ｄ６，Ｄ７，Ｄ８を含まない構成となり、畳み込み層Ｄ９は畳み込み層Ｄ４の出力の解像度に適合させた畳み込みフィルタとなる。

４以上の処理画像を用いる構成の場合、入力画像の解像度ρ_ＩＮ以下の範囲において、低解像度の側から順にＲ_１，Ｒ_２，Ｒ_３，Ｒ_４の４つの解像度区間を互いに分離して設定し、各解像度区間内の解像度を有する処理画像を生成し、それらから抽出した特徴量を低解像度側から順に合成する。例えば、図４の構成において、画像縮小手段５１からρ_３より高い解像度を有する第４の処理画像がさらに入力され、当該処理画像から特徴量を抽出する第４の特徴量抽出手段をさらに設ける。そして、第４の特徴量抽出手段から抽出される区間Ｒ_４の解像度（ρ_４とする。）の特徴量との合成のために、畳み込み層Ｄ８の出力特徴量を解像度ρ_４に変換するアンプーリング層、その出力と第４の特徴量抽出手段の出力とを合成する特徴量合成器、当該特徴量合成器の解像度ρ_４の出力側に解像度区間Ｒ_４内にて畳み込み処理を行う１又は複数の畳み込み層をさらに設ける。この構成では例えば、第１処理画像を１／８縮小画像、第２処理画像を１／４縮小画像、第３処理画像を１／２縮小画像、第４処理画像を１／１縮小画像とすることができる。

なお、このように処理画像の倍率は１／４よりも低くすることができる。何倍の縮小画像までを用いるかは、画像サイズや画像中の手の映りの大きさのバランス等から決めることができる。例えば、画像中における手の映りが大きい場合には倍率が低い処理画像を用いることが可能となる。

（２）上記実施形態では対象を手とし、手の関節位置を回帰により認識する例を示したが、他の種々の物体や事象を認識の対象とすることもできる。例えば、人の全身を対象とし頭頂・両肩・両肘・…・両足先の代表点（キーポイント）を回帰により認識することもできるし、人の上半身または顔を対象とし、それぞれに応じたキーポイントを回帰により認識することもできる。

また、例えば、人の全身、人の上半身、顔、車両、特定の動物などのいずれかを対象とし、対象か否かを識別することもできる。その場合、例えば、上述の実施形態では畳み込み層とした最終層Ｄ９を全結合層に置き換えて対象識別モデルを構成し、全結合層の出力値を対象であれば１、対象でなければ０を目標値とするスカラとなるように設計することができる。

また、例えば、人、車両、特定の動物などを対象とし、いずれの対象であるか、およびいずれの対象でもないかを分類することもできる。その場合も、層Ｄ９を全結合層に置き換えて対象識別モデルを構成することができる。全結合層の出力値を人であれば（１，０，０，…，０）、車両であれば（０，１，０，…，０）、特定の動物であれば（０，０，１，…，０）、いずれの対象でもなければ（０，０，０，…，１）を目標値とするベクトルとなるように設計することができる。

同様に、人が混雑する事象を対象とし、人の混雑の度合いを回帰し、あるいは人の混雑の度合いを分類することもできる。

なお、上記全結合層は１層であってもよいし、２層以上であってもよい。

１画像監視システム、２撮影部、３通信部、４記憶部、５画像処理部、６表示部、７操作入力部、４０フィルタ係数記憶手段、４１特徴量記憶手段、４２学習用データ記憶手段、５０不審行動検知手段、５１，５５画像縮小手段、５２関節推定手段、５３特徴量可視化手段、５４フィルタ係数更新手段、５６関節推定モデル学習手段、６０表示手段、７０フィルタ係数入力手段、５１０第１処理画像、５１１第２処理画像、５１２第３処理画像、５２０，５２１，５２２特徴量抽出手段、５２３対象認識手段，５２３０，５２３１特徴量合成器。

Claims

入力画像に現れた所定対象を認識する画像認識装置であって、
前記入力画像の解像度以下の範囲において互いに分離して設定されたｎ個（ｎは２以上の自然数である。）の解像度区間を、低解像度の側から順に第１から第ｎの区間とし、
前記入力画像を縮小させて、ｎ以下の各自然数ｋについて第ｋの前記区間に属する解像度を有する第ｋの処理画像を生成する画像縮小手段と、
前記第ｋの処理画像それぞれから、前記第ｋの区間内の解像度にて特徴量を抽出する処理を行って第ｋの特徴量を取得する特徴量抽出手段と、
第１の前記特徴量を０次合成特徴量とし、ｎ−１以下の自然数ｊについて、ｊ−１次合成特徴量の解像度を第ｊ＋１の前記特徴量の解像度に揃える変換処理と、当該変換後の前記ｊ−１次合成特徴量と前記第ｊ＋１の特徴量とを合成してｊ次合成特徴量を生成する処理とを前記ｊの昇順に行い、生成されたｎ−１次合成特徴量から前記所定対象を認識する対象認識手段と、
を備えたことを特徴とする画像認識装置。
前記処理画像の局所領域ごとに当該局所領域に対応する前記特徴量の大きさに応じた画素値を設定した表示用画像を出力する可視化手段、
をさらに備えたことを特徴とする請求項１に記載の画像認識装置。
前記特徴量抽出手段が前記特徴量の抽出に用いるフィルタのフィルタ係数を記憶するフィルタ係数記憶手段と、
利用者からの前記フィルタ係数の更新値の入力を受け付けて、前記フィルタ係数記憶手段に記憶されている前記フィルタ係数を前記更新値で置き換えるフィルタ係数更新手段と、
をさらに備えたことを特徴とする請求項１又は請求項２に記載の画像認識装置。
前記特徴量抽出手段は、少なくとも１つの前記ｋについて前記第ｋの特徴量を抽出するための１又は複数の畳み込み層を含んで構成され、
前記対象認識手段は、少なくとも１つの前記ｋについての前記変換処理を行うためのアンプーリング層を含んで構成されること、
を特徴とする請求項１から請求項３のいずれか１つに記載の画像認識装置。
入力画像に現れた所定対象を認識する画像認識方法であって、
前記入力画像の解像度以下の範囲において互いに分離して設定されたｎ個（ｎは２以上の自然数である。）の解像度区間を、低解像度の側から順に第１から第ｎの区間とし、
前記入力画像を縮小させることにより、ｎ以下の各自然数ｋについて第ｋの前記区間に属する解像度を有する第ｋの処理画像を生成する画像縮小ステップと、
前記第ｋの処理画像それぞれから、前記第ｋの区間内の解像度にて特徴量を抽出する処理を行って第ｋの特徴量を取得する特徴量抽出ステップと、
第１の前記特徴量を０次合成特徴量とし、ｎ−１以下の自然数ｊについて、ｊ−１次合成特徴量の解像度を第ｊ＋１の前記特徴量の解像度に揃える変換処理と、当該変換後の前記ｊ−１次合成特徴量と前記第ｊ＋１の特徴量とを合成してｊ次合成特徴量を生成する処理とを前記ｊの昇順に行い、生成されたｎ−１次合成特徴量から前記所定対象を認識する対象認識ステップと、
を備えたことを特徴とする画像認識方法。
コンピュータに、入力画像に現れた所定対象を認識する処理を行わせるための画像認識プログラムであって、
前記入力画像の解像度以下の範囲において互いに分離して設定されたｎ個（ｎは２以上の自然数である。）の解像度区間を、低解像度の側から順に第１から第ｎの区間とし、
当該コンピュータを、
前記入力画像を縮小させることにより、ｎ以下の各自然数ｋについて第ｋの前記区間に属する解像度を有する第ｋの処理画像を生成する画像縮小手段、
前記第ｋの処理画像それぞれから、前記第ｋの区間内の解像度にて特徴量を抽出する処理を行って第ｋの特徴量を取得する特徴量抽出手段、及び、
第１の前記特徴量を０次合成特徴量とし、ｎ−１以下の自然数ｊについてｊ−１次合成特徴量の解像度を第ｊ＋１の前記特徴量の解像度に揃える変換処理と、当該変換後の前記ｊ−１次合成特徴量と前記第ｊ＋１の特徴量とを合成してｊ次合成特徴量を生成する処理とを前記ｊの昇順に行い、生成されたｎ−１次合成特徴量から前記所定対象を認識する対象認識手段、
として機能させることを特徴とする画像認識プログラム。