JP2020113055A - 画像認識装置、画像認識方法、及び画像認識プログラム - Google Patents

画像認識装置、画像認識方法、及び画像認識プログラム Download PDF

Info

Publication number
JP2020113055A
JP2020113055A JP2019003597A JP2019003597A JP2020113055A JP 2020113055 A JP2020113055 A JP 2020113055A JP 2019003597 A JP2019003597 A JP 2019003597A JP 2019003597 A JP2019003597 A JP 2019003597A JP 2020113055 A JP2020113055 A JP 2020113055A
Authority
JP
Japan
Prior art keywords
feature amount
resolution
image
feature
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019003597A
Other languages
English (en)
Other versions
JP6801020B2 (ja
Inventor
裕二 中沢
Yuji Nakazawa
裕二 中沢
黒川 高晴
Takaharu Kurokawa
高晴 黒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP2019003597A priority Critical patent/JP6801020B2/ja
Publication of JP2020113055A publication Critical patent/JP2020113055A/ja
Application granted granted Critical
Publication of JP6801020B2 publication Critical patent/JP6801020B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】CNNを用いた画像認識における対象の認識精度の向上を図る。【解決手段】入力画像の解像度以下の範囲にて互いに分離して設定された複数の解像度区間を、低解像度側から順にR1,R2,…,Rnとする。画像縮小手段は入力画像を縮小させることで解像度を低下させて、n以下の各自然数kについてRkに属する解像度の第k処理画像(510〜512)を生成する。特徴量抽出手段520〜522は、第k処理画像それぞれから、Rk内の解像度にて特徴量を抽出する処理を行って第kの特徴量を取得する。対象認識手段523は、第1の特徴量を0次合成特徴量とし、n−1以下の自然数jについて、j−1次合成特徴量の解像度を第j+1の特徴量の解像度に揃える変換処理と、当該変換後のj−1次合成特徴量と第j+1の特徴量とを合成してj次合成特徴量を生成する処理とをjの昇順に行い、n−1次合成特徴量から所定対象を認識する。【選択図】図4

Description

本発明は、入力画像に現れた所定対象(人など)を認識する画像認識装置、画像認識方法および画像認識プログラムに関する。
近年、深層学習(Deep Learning)に基づいた画像認識が盛んに研究されており、そのモデルとして畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)が広く用いられている。
従前のCNNは、非特許文献1に示されるように、畳み込み層やプーリング層が接続された多層のネットワーク構造となっており、近傍画素の特徴量を畳み込んだ特徴量を解像度を下げながら求めていくことで周囲の画素との関係を集約していき、被写体を認識する。
"Convolutional Pose Machines", Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser Sheikh (arXiv:1602.00134[cs.CV] 12 Apr 2016)
しかしながら、従前のCNNでは、周囲の画素との関係が集約し切れていない上層で生じた誤差が下層に伝搬されるため、当該伝搬による誤差の蓄積が認識精度低下の要因となる場合があった。
また、従前のCNNにおいては下層で得られる特徴量は解像度が低いため、認識結果の解像度も低かった。例えば、被写体の位置の認識に適用した場合、認識結果として得られる位置は曖昧さを含んだものとなっていた。
また、従前のCNNの上層では顕著な特徴を示す画素が散在しがちであり、上層の畳み込み層が出力する特徴量を可視化、すなわち画像として表示し観察可能としても当該畳み込み層までの処理を解釈することが困難であった(いわゆるブラックボックス問題)。そのため、畳み込み層で用いられるフィルタ係数等のパラメータを改善することが難しいという問題があった。
本発明は上記問題を鑑みてなされたものであり、上層から下層への誤差の伝搬を抑制しつつ、所定対象の特徴量を高解像度で抽出することで、所定対象を高精度に認識できる画像認識装置、画像認識方法および画像認識プログラムを提供することを第一の目的とする。また、本発明は、各処理段階に利用者が手を加え易く、認識精度の改善を容易に行うことができる画像認識装置、画像認識方法および画像認識プログラムを提供することを第二の目的とする。
(1)本発明に係る画像認識装置は、入力画像に現れた所定対象を認識する画像認識装置であって、前記入力画像の解像度以下の範囲において互いに分離して設定されたn個(nは2以上の自然数である。)の解像度区間を、低解像度の側から順に第1から第nの区間とし、前記入力画像を縮小させて、n以下の各自然数kについて第kの前記区間に属する解像度を有する第kの処理画像を生成する画像縮小手段と、前記第kの処理画像それぞれから、前記第kの区間内の解像度にて特徴量を抽出する処理を行って第kの特徴量を取得する特徴量抽出手段と、第1の前記特徴量を0次合成特徴量とし、n−1以下の自然数jについて、j−1次合成特徴量の解像度を第j+1の前記特徴量の解像度に揃える変換処理と、当該変換後の前記j−1次合成特徴量と前記第j+1の特徴量とを合成してj次合成特徴量を生成する処理とを前記jの昇順に行い、生成されたn次合成特徴量から前記所定対象を認識する対象認識手段と、を備える。
(2)上記(1)に記載の画像認識装置は、前記処理画像の局所領域ごとに当該局所領域に対応する前記特徴量の大きさに応じた画素値を設定した表示用画像を出力する可視化手段、をさらに備えることができる。
(3)上記(1),(2)に記載の画像認識装置は、前記特徴量抽出手段が前記特徴量の抽出に用いるフィルタのフィルタ係数を記憶するフィルタ係数記憶手段と、利用者からの前記フィルタ係数の更新値の入力を受け付けて、前記フィルタ係数記憶手段に記憶されている前記フィルタ係数を前記更新値で置き換えるフィルタ係数更新手段と、をさらに備えることができる。
(4)上記(1)〜(3)に記載の画像認識装置において、前記特徴量抽出手段は、少なくとも1つの前記kについて前記第kの特徴量を抽出するための1又は複数の畳み込み層を含んで構成され、前記対象認識手段は、少なくとも1つの前記kについての前記変換処理を行うためのアンプーリング層を含んで構成されるものとすることができる。
(5)本発明に係る画像認識方法は、入力画像に現れた所定対象を認識する画像認識方法であって、前記入力画像の解像度以下の範囲において互いに分離して設定されたn個(nは2以上の自然数である。)の解像度区間を、低解像度の側から順に第1から第nの区間とし、前記入力画像を縮小させることにより、n以下の各自然数kについて第kの前記区間に属する解像度を有する第kの処理画像を生成する画像縮小ステップと、前記第kの処理画像それぞれから、前記第kの区間内の解像度にて特徴量を抽出する処理を行って第kの特徴量を取得する特徴量抽出ステップと、第1の前記特徴量を0次合成特徴量とし、n−1以下の自然数jについて、j−1次合成特徴量の解像度を第j+1の前記特徴量の解像度に揃える変換処理と、当該変換後の前記j−1次合成特徴量と前記第j+1の特徴量とを合成してj次合成特徴量を生成する処理とを前記jの昇順に行い、生成されたn次合成特徴量から前記所定対象を認識する対象認識ステップと、を備える。
(6)本発明に係る画像認識プログラムは、コンピュータに、入力画像に現れた所定対象を認識する処理を行わせるための画像認識プログラムであって、前記入力画像の解像度以下の範囲において互いに分離して設定されたn個(nは2以上の自然数である。)の解像度区間を、低解像度の側から順に第1から第nの区間とし、当該コンピュータを、前記入力画像を縮小させることにより、n以下の各自然数kについて第kの前記区間に属する解像度を有する第kの処理画像を生成する画像縮小手段、前記第kの処理画像それぞれから、前記第kの区間内の解像度にて特徴量を抽出する処理を行って第kの特徴量を取得する特徴量抽出手段、及び、第1の前記特徴量を0次合成特徴量とし、n−1以下の自然数jについてj−1次合成特徴量の解像度を第j+1の前記特徴量の解像度に揃える変換処理と、当該変換後の前記j−1次合成特徴量と前記第j+1の特徴量とを合成してj次合成特徴量を生成する処理とを前記jの昇順に行い、生成されたn次合成特徴量から前記所定対象を認識する対象認識手段、として機能させる。
本発明によれば、上層で生じた誤差の下層への伝搬を抑制しつつ、所定対象の特徴量を高解像度で抽出できるため、所定対象を高精度に認識できる。また、本発明によれば、各処理段階に手を加え易いため、認識精度の改善を容易に行うことができる。
本発明の実施形態における認識対象である手の関節位置を説明する模式図である。 本発明の実施形態に係る画像監視システムの概略の構成を示すブロック図である。 本発明の実施形態に係る画像監視システムの概略の機能ブロック図である。 本発明の実施形態に係る画像監視システムにおける関節推定手段を構成するCNNの一例の模式図である。 本発明の実施形態に係る画像監視システムによる認識結果の一例を説明する模式図である。 本発明の実施形態における関節推定手段の処理過程で観察される特徴マップの例を示す模式図である。 本発明の実施形態に係る画像監視システムの学習段階での概略の機能ブロック図である。 本発明の実施形態に係る画像監視システムの動作に関する概略のフロー図である。 本発明の実施形態に係る画像監視システムの動作に関する概略のフロー図である。
以下、本発明の実施の形態(以下実施形態という)である画像監視システム1について、図面に基づいて説明する。本実施形態にて一例として示す画像監視システム1は、監視空間を撮影して撮影画像から監視空間に現れた人の不審行動を検知し、検知結果を表示する。画像監視システム1は本発明に係る画像認識装置を含み、当該画像認識装置は、撮影画像から切り出された画像であり人の手が撮影された画像(手画像)を入力され、当該手の関節の位置を出力する。すなわち、本実施形態において画像認識装置における入力画像は手画像であり、認識の対象(認識対象)は手の関節である。ここで、手の関節は予め定義され、本実施形態では図1に示すように、5本の指の指先、第一関節、第二関節、第三関節、および手首の計21箇所とする。
[画像監視システム1の構成]
図2は画像監視システム1の概略の構成を示すブロック図である。画像監視システム1は撮影部2、通信部3、記憶部4、画像処理部5、表示部6および操作入力部7からなる。
撮影部2は監視カメラであり、通信部3を介して画像処理部5と接続され、監視空間を所定の時間間隔で撮影して撮影画像を生成し、撮影画像を順次、画像処理部5に入力する撮影手段である。例えば、撮影部2は、監視空間であるイベント会場の一角に設置されたポールに当該監視空間を俯瞰する所定の固定視野を有して設置され、監視空間をフレーム周期1秒で撮影してカラー画像を生成する。なお、撮影部2はカラー画像の代わりにモノクロ画像を生成してもよい。
通信部3は通信回路であり、その一端が画像処理部5に接続され、他端が撮影部2、表示部6および操作入力部7と接続される。通信部3は撮影部2から撮影画像を取得して画像処理部5に入力し、画像処理部5から入力された検知結果や表示用画像を表示部6へ出力し、また、操作入力部7から利用者が入力するパラメータの更新値などを画像処理部5へ渡す。
なお、撮影部2、通信部3、記憶部4、画像処理部5、表示部6および操作入力部7の間は各部の設置場所に応じた形態で適宜接続される。例えば、撮影部2と通信部3および画像処理部5とが遠隔に設置される場合、撮影部2と通信部3との間をインターネット回線にて接続することができる。また、通信部3と画像処理部5との間はバスで接続する構成とすることができる。その他、接続手段として、LAN(Local Area Network)、各種ケーブルなどを用いることができる。
記憶部4は、ROM(Read Only Memory)、RAM(Random Access Memory)等のメモリ装置であり、各種プログラムや各種データを記憶する。記憶部4は画像処理部5と接続されて、画像処理部5との間でこれらの情報を入出力する。例えば、記憶部4と画像処理部5との間で、不審行動の検知に必要な情報、検知処理の過程で生じた情報が入出力され、当該情報には手の関節の認識に必要なパラメータ等の情報、認識処理の過程で生じた情報を可視化した表示用画像が含まれる。
画像処理部5は、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、MCU(Micro Control Unit)等の演算装置で構成される。画像処理部5は記憶部4からプログラムを読み出して実行することにより各種の処理手段・制御手段として動作し、必要に応じて、各種データを記憶部4から読み出し、生成したデータを記憶部4に記憶させる。また、画像処理部5は、通信部3経由で撮影部2から取得した撮影画像から手の関節を認識し、手の動作などから監視空間における人の不審行動を検知して、検知結果を通信部3を介して表示部6へ出力する。また、画像処理部5は、手の関節の認識結果を表す画像であって、認識精度改善のために保守員が確認する表示用画像を生成し、通信部3を介して表示部6へ出力する。また、画像処理部5は認識処理に用いるパラメータを、操作入力部7から通信部3を介して入力される更新値で更新する処理を行う。
表示部6は、液晶ディスプレイまたはCRT(Cathode Ray Tube)ディスプレイ等のディスプレイ装置であり、通信部3から入力された検知結果を表示する。監視員は表示された検知結果に応じて対処の要否等を判断し、必要に応じて対処員を急行させる等の対処を行う。また表示部6は上述の表示用画像を表示し、保守員は当該表示用画像に基づいて認識処理の適否を判断しパラメータの調整などを行う。
操作入力部7は画像処理部5に対する入力機器であり、キーボードおよびマウス等で構成される。
なお、撮影部2を構成するカメラは1台に限定されず、複数台であってもよい。複数台のカメラを用いる場合、通信部3は各カメラから撮影画像を時分割で受信し、画像処理部5は各カメラからの撮影画像を時分割処理または並列処理する。
[機能ブロック]
図3は画像監視システム1の概略の機能ブロック図であり、記憶部4がフィルタ係数記憶手段40および特徴量記憶手段41として機能し、画像処理部5が不審行動検知手段50、画像縮小手段51、関節推定手段52、特徴量可視化手段53およびフィルタ係数更新手段54として機能する。また、表示部6と通信部3とが表示手段60として機能し、操作入力部7と通信部3とがフィルタ係数入力手段70として機能する。
不審行動検知手段50は監視空間に現れた人の不審行動を撮影画像から検知する。具体的には、不審行動検知手段50は、撮影画像を入力され、当該撮影画像中の手を検出して手画像を切り出し、切り出した手画像を画像縮小手段51に出力する。例えば、不審行動検知手段50は、手を検出した位置を中心とする200×200画素の領域を手画像として切り出す。一方、不審行動検知手段50は、関節推定手段52が手画像ごとに推定した当該手画像における手の関節位置を入力され、当該関節位置を基に手の姿勢を推定し、手の姿勢を加味して人の不審行動を検知し、検知結果を通信部3を介して表示部6へ出力する。
画像縮小手段51は不審行動検知手段50から入力された手画像(入力画像)を縮小させて解像度を低下させる処理を行うことにより、解像度が互いに異なる複数の処理画像を生成し、生成した複数の処理画像を関節推定手段52に出力する。
本実施形態では、処理画像として互いに解像度が異なる3つの画像を生成する例を説明する。解像度が低い順に、第1の処理画像、第2の処理画像、第3の処理画像とする。すなわち、k=1,2,3として第kの処理画像の解像度をρと表すと、ρ<ρ<ρ≦ρINとなる。なお、ここで、ρINは入力画像の解像度である。本実施形態では、第3の処理画像として入力画像を用いる例を説明することとし、この場合、ρ=ρINとなる。
直交座標系XYを画像に対し設定すると、各処理画像の解像度ρは、フィルタ処理高速化の観点で、X方向、Y方向のそれぞれについてρの整数倍となる関係を有することが望ましい。そこで、第2の処理画像、第1の処理画像は第3の処理画像をそれぞれX方向、Y方向それぞれに1/2、1/4に縮小した画像とする。すなわち、本実施形態では、入力画像を基準として第3処理画像は1/1縮小画像、第2処理画像は1/2縮小画像、また第1処理画像は1/4縮小画像となり、解像度ρ,ρは基本的にはρの1/4、1/2となる。具体的には、入力画像の解像度ρINは画素数を単位として200×200となり、これに対して、ρ,ρ,ρはそれぞれ50×50,100×100,200×200となる。この場合、第3処理画像をXY各方向について1画素ごとにサンプリングして第2処理画像を得ることができ、また、第2処理画像を1画素ごとにサンプリングして第1処理画像を得ることができる。なお、入力画像に1/2縮小処理、1/4縮小処理を施して第2処理画像、第1処理画像を生成してもよい。
ちなみに、画像におけるパターンを識別するネットワークは、平滑化した画像を学習に用いると、パターンの位置のオフセットやテクスチャの微小変化に対してロバストになることが知られている。そこで、第1乃至第3処理画像は、ガウシアンフィルタなどで平滑化してもよい。
なお、画像縮小手段51が生成する処理画像の数、つまり解像度の種類は3つには限られず、任意の複数とすることができる。つまり、nを2以上の任意の自然数として、本発明に係る画像認識装置は、画像縮小手段51が第1乃至第nの処理画像を生成する構成とすることができる。この場合、入力画像の解像度ρIN以下の範囲において互いに分離して設定されたn個の解像度区間R〜Rを、低解像度の側から順にR,R,…,Rとし、画像縮小手段51は、入力画像を縮小させ当該縮小と共に解像度を低下させて、n以下の各自然数kについて第kの区間Rに属する解像度ρを有する第kの処理画像を生成する。
ちなみに、各解像度区間は分離しているので、区間Rの上限supRと区間Rk+1の下限infRk+1とはsupR≦infRk+1の関係にある。例えば、本実施形態ではsupR=infRk+1として、R=(0,ρIN/4]、R=(ρIN/4,ρIN/2]、R=(ρIN/2,ρIN]とすることができる。
関節推定手段52は画像縮小手段51から入力された複数の処理画像を解析して認識対象として定義された手の関節位置を推定し、推定した関節位置を不審行動検知手段50に出力する。関節推定手段52は特徴量抽出手段と対象認識手段を含む。特徴量抽出手段はn種類の解像度の処理画像それぞれから特徴量を抽出する処理を行う。具体的には、kをn以下の任意の自然数として、第kの処理画像から、第kの区間R内の解像度にて特徴量を抽出する処理を行って第kの特徴量を取得する。対象認識手段は、第1の特徴量を0次合成特徴量とし、n−1以下の自然数jについてj−1次合成特徴量の解像度を第j+1の特徴量の解像度に揃える変換処理と、当該変換後のj−1次合成特徴量と第j+1の特徴量とを合成してj次合成特徴量を生成する処理とをjの昇順に行い、生成されたn−1次合成特徴量から所定対象を認識する。
関節推定手段52はCNNを用いて構成される。図4は関節推定手段52を構成するCNNの一例の模式図である。本実施形態では、n=3の場合に対応して、関節推定手段52は特徴量抽出手段として、第1の特徴量抽出手段520、第2の特徴量抽出手段521、第3の特徴量抽出手段522を有する。第1の特徴量抽出手段520は第1処理画像510から特徴量を抽出し、第2の特徴量抽出手段521は第2処理画像511から特徴量を抽出し、第3の特徴量抽出手段522は第3処理画像512から特徴量を抽出する。特徴量抽出手段520,521,522は対象認識手段523に接続され、対象認識手段523は特徴量抽出手段520,521,522が抽出した特徴量を入力され、認識結果524として21箇所の関節位置を不審行動検知手段50へ出力する。図4に示すCNNについてはさらに後述する。
フィルタ係数記憶手段40は、関節推定手段52が用いる畳み込みフィルタの係数(フィルタ係数)を記憶する。すなわち、関節推定手段52のCNNは複数の畳み込みフィルタを含んで構成され、フィルタ係数記憶手段40は当該畳み込みフィルタごとのフィルタ係数を記憶する。ちなみに、フィルタ係数の初期値は予めの学習によって定められ、また、フィルタ係数の一部は保守員によって入力された更新値に置換され得る。
特徴量記憶手段41は、関節推定手段52が認識処理の中間結果として算出した特徴量を循環記憶する。例えば、特徴量記憶手段41は各入力画像について、関節推定手段52を構成するフィルタごとの特徴量を記憶する。
図3に示すブロックのうち特徴量可視化手段53、フィルタ係数更新手段54、表示手段60、フィルタ係数入力手段70については後述することとし、次に、関節推定手段52のCNNの構成について図4を参照しつつ説明する。
関節推定手段52における解析は複数の畳み込み層による段階的な畳み込み処理を含む。関節推定手段52はフィルタ係数記憶手段40に記憶されたフィルタ係数を読み出して、各畳み込み層の畳み込みフィルタを構成し、当該フィルタを用いて畳み込み処理を行う。図4のCNNはレイヤー(層)としてA1〜A3,B1〜B3,C1〜C3,D1〜D9を有し、さらに特徴量合成器5230,5231を有する。レイヤーのうち、層A1〜A3,B1〜B3,C1〜C3,D2〜D4,D6〜D9は畳み込み層であり、フィルタ係数記憶手段40に記憶されたフィルタ係数を用いた畳み込みフィルタで構成される。一方、層D1,D5はアンプーリング層である。
第1の特徴量抽出手段520は畳み込み層A1〜A3を含み、層A1,A2,A3はこの順に直列に接続される。第2の特徴量抽出手段521は畳み込み層B1〜B3を含み、層B1,B2,B3はこの順に直列に接続される。第3の特徴量抽出手段522は畳み込み層C1〜C3を含み、層C1,C2,C3はこの順に直列に接続される。
対象認識手段523は畳み込み層D2〜D4,D6〜D9、アンプーリング層D1,D5および特徴量合成器5230,5231を構成要素として含む。これら対象認識手段523の構成要素は、層D1、特徴量合成器5230、層D2,D3,D4,D5、特徴量合成器5231、層D6,D7,D8,D9の順に直列接続される。
また、第1の特徴量抽出手段520の層A3の後ろに対象認識手段523の層D1が接続される。第2の特徴量抽出手段521の層B3が特徴量合成器5230に接続され、第3の特徴量抽出手段522の層C3が特徴量合成器5231に接続される。
関節推定手段52への入力は画像縮小手段51が入力画像から生成する処理画像510〜512である。第1処理画像510は特徴量抽出手段520の先頭の層A1に入力され、A1は第1処理画像510に畳み込みフィルタリングを施して特徴量を算出する。同様に、第2処理画像511、第3処理画像512はそれぞれ特徴量抽出手段521,522の先頭の層B1,C1に入力され、B1は第2処理画像511に、またC1は第3処理画像512にそれぞれ畳み込みフィルタリングを施して特徴量を算出する。
なお、A1,B1,C1以外の畳み込み層は直上層、つまり直前のレイヤーから出力される特徴量に畳み込みフィルタリングを施して特徴量を算出する。層A1〜A3,B1〜B3,C1〜C3,D2〜D4,D6〜D8での畳み込み処理によって少なくとも認識処理の中間結果である特徴量が算出される。関節推定手段52はこれらの各畳み込み層で算出された特徴量を、直下層、つまり当該畳み込み層の後ろに接続されるレイヤーへ出力する。また、関節推定手段52は各畳み込み層で算出された特徴量を当該層の識別子および入力画像の識別子と関連付けて特徴量記憶手段41に記憶させる。
各レイヤーが扱う特徴量は、画像のXY座標系に対応する2つの次元と、1画素当たりの特徴量の要素数に対応する1つの次元とを有する3次元のデータである。要素数の次元に対応してZ座標を定義して、以下、当該3次元のデータとしての特徴量のサイズを、XYZ各方向のサイズx,y,zを用い、x×y×zの形で表現する。また、Z座標が同一のデータを特徴マップと呼ぶ。つまり、特徴マップは画像と同様の2次元のデータであり、3次元の特徴量はz枚の特徴マップの集合である。
特徴マップのサイズはx×yで表される。関節推定手段52の各レイヤーについて、特徴マップのサイズに基づき、画像と同様にして解像度を定義することができる。ちなみに、図4において、各レイヤーの解像度の大小を当該フィルタを表す細い矩形の縦方向の大きさで表現している。
第1の特徴量抽出手段520は上述した区間Rに属する解像度ρを有する処理画像510を入力され、区間R内の解像度にて特徴量を抽出する処理を行う。具体的には、畳み込み層A1は解像度ρである。また、畳み込み層A2,A3の解像度も区間R内にて設定される。つまり、層A2,A3の解像度はρ以下にて任意に設定することができる。ここで、関節推定手段52の精度を確保する上で、通常は層A2,A3の解像度はρからの低下が小さい値に設定することが好ましく、本実施形態では層A1と同一の解像度ρに設定する。
本実施形態では畳み込み層A1は、解像度ρに対応してサイズが50×50画素である処理画像510を入力とし、畳み込み処理を行って、サイズが50×50×80である特徴量を生成し、次の畳み込み層A2へ出力する。具体的には、A1は、処理画像における3×3画素の部分画像を入力とし1×1×80の部分特徴量を出力するフィルタを用い、処理画像510の各画素を部分画像の中心として当該フィルタを適用する。これによりA1の出力には解像度がρに維持された80枚の特徴マップからなる特徴量が得られる。
畳み込み層A2,A3はそれぞれ、直上層の畳み込み層からサイズが50×50×80である特徴量を入力され、当該サイズの特徴量を出力する。具体的には、A2,A3はそれぞれ、3×3×80の部分特徴量を入力とし1×1×80の部分特徴量を出力するフィルタを用いる。そして、50×50画素の特徴マップの各画素を中心として3×3画素の部分領域を設定し、当該部分領域に対応する3×3×80の部分特徴量に当該フィルタを適用する。これによりA2,A3の出力には解像度がρに維持された80枚の特徴マップからなる特徴量が得られる。
第2の特徴量抽出手段521は区間Rに属する解像度ρを有する処理画像511を入力され、区間R内の解像度にて特徴量を抽出する処理を行う。つまり、特徴量抽出手段521における解像度は特徴量抽出手段520よりも高い。具体的には、畳み込み層B1は解像度ρである。また、畳み込み層B2,B3の解像度も区間R内にて設定される。よって、基本的には層B2,B3の解像度は、ρ以下、且つρより高い範囲にて任意に設定することができる。但し、関節推定手段52の精度を確保する上で、通常は層B2,B3の解像度はρからの低下が小さい値に設定することが好ましく、本実施形態では層B1と同一の解像度ρに設定する。
ここで、層B3の解像度を、特徴量合成器5230にて出力を合成される相手である層A3の解像度よりも高くすることで、第2の特徴量抽出手段521により第1の特徴量抽出手段520での誤差が特徴量合成器5230の出力にて訂正される可能性を高くする効果と、対象認識手段523における特徴量の解像度を第1の特徴量抽出手段520で得られた解像度よりも上げた状態とする効果が得られる。この点で、基本的に層A3に対する層B3の解像度の差は大きいことが好適であり、よって、上述のように層B3の解像度を区間Rの上限値ρに設定する。
特徴量抽出手段521は、扱うデータのXおよびY方向のサイズが処理画像511に対応して特徴量抽出手段520より大きい点を除けば、基本的に上述した特徴量抽出手段520と同様の構成である。すなわち、本実施形態では畳み込み層B1は、解像度ρに対応してサイズが100×100画素である処理画像を入力とし、畳み込み処理を行って、サイズが100×100×80である特徴量を生成し、次の畳み込み層B2へ出力する。具体的には、B1は上述したA1と同様、3×3画素の部分画像を入力とし1×1×80の部分特徴量を出力するフィルタを、処理画像511の各画素を部分画像の中心にして適用する。これによりB1の出力には解像度がρに維持された80枚の特徴マップからなる特徴量が得られる。
畳み込み層B2,B3はそれぞれ、直上層の畳み込み層からサイズが100×100×80である特徴量を入力され、当該サイズの特徴量を出力する。具体的には、B2,B3はそれぞれ上述したA2,A3と同様、3×3×80の部分特徴量を入力とし1×1×80の部分特徴量を出力するフィルタを、入力特徴量のXY座標の各位置にて適用する。これによりB2,B3の出力には解像度がρに維持された80枚の特徴マップからなる特徴量が得られる。
第3の特徴量抽出手段522は区間Rに属する解像度ρを有する処理画像512を入力され、区間R内の解像度にて特徴量を抽出する処理を行う。つまり、特徴量抽出手段522における解像度は特徴量抽出手段520,521よりも高い。具体的には、畳み込み層C1は解像度ρである。また、畳み込み層C2,C3の解像度も区間R内にて設定される。よって、基本的には層C2,C3の解像度は、ρ以下、且つρより高い範囲にて任意に設定することができる。但し、関節推定手段52の精度を確保する上で、通常は層C2,C3の解像度はρからの低下が小さい値に設定することが好ましく、本実施形態では層C1と同一の解像度ρに設定する。
後述するように、層C3から出力される特徴量は特徴量合成器5231にて、層A3および層B3の出力特徴量と合成される。そこで、層C3の解像度を合成される相手である層A3およびB3の解像度よりも高くすることで、第3の特徴量抽出手段522により第1の特徴量抽出手段520および第2の特徴量抽出手段521での誤差が特徴量合成器5231の出力にて訂正される可能性を高くする効果と、対象認識手段523における特徴量の解像度を第2の特徴量抽出手段521で得られた解像度よりも上げた状態とする効果が得られる。この点で、基本的に層B3に対する層C3の解像度の差は大きいことが好適であり、よって、上述のように層C3の解像度をρに設定する。
特徴量抽出手段522は、扱うデータのXおよびY方向のサイズが処理画像512に対応して特徴量抽出手段520,521より大きい点を除けば、基本的に上述した特徴量抽出手段520,521と同様の構成である。すなわち、本実施形態では畳み込み層C1は、解像度ρに対応してサイズが200×200画素である処理画像を入力とし、畳み込み処理を行って、サイズが200×200×80である特徴量を生成し、次の畳み込み層C2へ出力する。具体的には、C1は上述したA1およびB1と同様、3×3画素の部分画像を入力とし1×1×80の部分特徴量を出力するフィルタを、処理画像512の各画素を部分画像の中心にして適用する。これによりC1の出力には解像度がρに維持された80枚の特徴マップからなる特徴量が得られる。
畳み込み層C2,C3はそれぞれ、直上層の畳み込み層からサイズが200×200×80である特徴量を入力され、当該サイズの特徴量を出力する。具体的には、C2,C3はそれぞれ上述したA2,A3などと同様、3×3×80の部分特徴量を入力とし1×1×80の部分特徴量を出力するフィルタを、入力特徴量のXY座標の各位置にて適用する。これによりC2,C3の出力には解像度がρに維持された80枚の特徴マップからなる特徴量が得られる。
対象認識手段523は先頭のアンプーリング層D1に特徴量抽出手段520の出力特徴量を入力される。アンプーリング層D1は入力された特徴量に対し、X方向およびY方向のサイズを拡大する処理を行い、解像度が見かけ上、高くなった特徴量を生成する。具体的には、アンプーリング層D1は第1の特徴量抽出手段520から入力される特徴量に対し、その解像度を、第2の特徴量抽出手段521から入力される特徴量の解像度に上げる処理を行う。つまり、本実施形態では、畳み込み層A3から入力される特徴量に対し、解像度をρからρに上げる処理を行う。これにより、アンプーリング層D1は50×50×80の入力特徴量をX方向およびY方向にそれぞれ2倍に拡大して100×100×80の特徴量を生成し、これを特徴量合成器5230へ出力する。ちなみに、この拡大処理は基本的には、入力特徴量における1画素の値を、出力特徴量における2×2画素にコピーする。
特徴量合成器5230は、アンプーリング層D1で拡大された第1の特徴量抽出手段520の出力特徴量と、第2の特徴量抽出手段521の出力特徴量とを入力され、それらを合成して出力する。具体的には、特徴量合成器5230は入力された両特徴量を、解像度に対応する次元を維持して合成する。つまり、両特徴量を構成する複数の特徴マップを、XY座標を変更せずに、予め定めた順序でZ方向に並べる。これにより、特徴量合成器5230の出力には100×100×160の特徴量、つまり解像度ρの特徴量が得られる。
ここまでの対象認識手段523の処理にて、第1の特徴量抽出手段520から入力される第1の特徴量を0次合成特徴量とし、アンプーリング層D1が当該0次合成特徴量の解像度を第2の特徴量抽出手段521から入力される第2の特徴量の解像度に揃える変換処理を行い、特徴量合成器5230が当該変換後の0次合成特徴量と第2の特徴量とを合成して1次合成特徴量を生成する処理を行う。そして、以降の対象認識手段523の処理にて、合成特徴量から手の関節位置を認識する処理が行われる。このように本発明のCNNの構造では、解像度が低い特徴量と高い特徴量とを合成する際に、解像度を高い方に揃える。そして、高い解像度の合成特徴量を対象認識に用いる。本発明の当該構造を、Coarse to Fineネットワークと呼ぶことにする。
Coarse to Fineネットワークでは、互いに分離して設定された解像度区間ごとに特徴量抽出手段を備え、各区間にて設定した解像度ごとに独立に画像からの特徴抽出を行っているため、或る解像度における特徴に誤りが発生しても、他の解像度における特徴はその誤りの影響を受けないし、また同様の誤りが発生する可能性も低い。つまり、基本的に複数の解像度の特徴のうち少なくとも一部の解像度では特徴が正しく求まり、最終的な推定結果は正しく求まっている特徴により補正されることが期待できる。
この効果は、Coarse to Fineネットワークを多段に構成することで強化することができる。すなわち、上述したように、nを2以上の任意の自然数としてn個の解像度区間R〜Rごとに処理画像から特徴量を抽出し、低解像度の特徴量に順次、高解像度の特徴量を合成し、n−1次合成特徴量を生成し、当該n−1次合成特徴量から所定対象を認識する構成とすることができる。
本実施形態ではその例として、n=3を示しており、関節推定手段52は、上述した第1の特徴量抽出手段520の出力特徴量と第2の特徴量抽出手段521の出力特徴量とを合成して1次合成特徴量を生成する1段目に、さらに第3の特徴量抽出手段522の出力特徴量を合成して2次合成特徴量を生成する2段目が後続した構成を有する。以下、この後続部分について説明する。
特徴量合成器5230にて生成された合成特徴量(1次合成特徴量)は、畳み込み層D2,D3,D4を経てアンプーリング層D5に入力される。畳み込み層D2,D3,D4が出力する特徴量の解像度は解像度区間R内に保たれる。すなわち、当該解像度は第1処理画像510が属する解像度区間Rよりも一段高い解像度区間Rに属する。これにより、Coarse to Fineネットワークの1段目にて得られる上述の効果が維持される。ここで、当該効果維持の観点からは、畳み込み層D2,D3,D4での解像度は特徴量合成器5230の出力での解像度ρからの低下が小さい値に設定することが好ましく、本実施形態では特徴量合成器5230の出力特徴量と同一の解像度ρに維持される。
具体的には、D2は、3×3×160の部分特徴量を入力とし1×1×80の部分特徴量を出力するフィルタを、特徴量合成器5230の出力に得られる100×100×160の特徴量のXY座標の各位置にて適用し、100×100×80の特徴量を生成する。これによりD2の出力には解像度がρに維持された80枚の特徴マップからなる特徴量が得られる。
畳み込み層D3,D4はそれぞれ、直上層の畳み込み層からサイズが100×100×80である特徴量を入力され、当該サイズの特徴量を出力する。具体的には、D3,D4は、3×3×80の部分特徴量を入力とし1×1×80の部分特徴量を出力するフィルタを、入力特徴量のXY座標の各位置にて適用し、100×100×80の特徴量を生成する。これによりD3,D4の出力には解像度がρに維持された80枚の特徴マップからなる特徴量が得られる。
D4の出力特徴量はアンプーリング層D5に入力される。アンプーリング層D5はD1と同様、入力された特徴量に対し、X方向およびY方向のサイズを拡大する処理を行い1次合成特徴量の解像度を第3の特徴量抽出手段522から入力される特徴量の解像度に上げる変換処理を行う。つまり、本実施形態では、畳み込み層D4から入力される特徴量に対し、解像度をρからρに上げる処理を行う。これにより、アンプーリング層D5は100×100×80の入力特徴量をX方向およびY方向にそれぞれ2倍に拡大して200×200×80の特徴量を生成し、これを特徴量合成器5231へ出力する。
特徴量合成器5231は、畳み込み層D4から出力されアンプーリング層D5で拡大された1次合成特徴量と、第3の特徴量抽出手段522の出力特徴量とを入力され、それらを合成して2次合成特徴量を生成し出力する。特徴量合成器5231は上述した特徴量合成器5230と基本的に同様に、入力された両特徴量を、解像度に対応する次元を維持して合成する。これにより、特徴量合成器5231の出力には200×200×160の特徴量、つまり解像度ρの特徴量が得られる。
ここまでが基本的にCoarse to Fineネットワークの2段目となる。つまり、ここまでの対象認識手段523の処理により、アンプーリング層D5が1次合成特徴量の解像度を第3の特徴量抽出手段522から入力される第3の特徴量の解像度に揃える変換処理を行い、特徴量合成器5231が当該変換後の1次合成特徴量と第3の特徴量とを合成して2次合成特徴量を生成する処理を行う。そして、以降の対象認識手段523の処理にて、合成特徴量から手の関節位置を認識する処理が行われる。
このように、関節推定手段52は、第1の解像度を有する第1の特徴量抽出手段520の出力特徴量と、それより高い第2の解像度を有する第2の特徴量抽出手段521の出力特徴量とを合成して第2の解像度の1次合成特徴量を生成することで、上述のCoarse to Fineネットワークの効果を得ることができ、さらに、1次合成特徴量とそれより高い第3の解像度を有する第3の特徴量抽出手段522の出力特徴量とを合成して第3の解像度の2次合成特徴量を生成することで、当該効果を累積的に得ることができる。
特徴量合成器5231にて生成された2次合成特徴量は、畳み込み層D6,D7,D8を経て畳み込み層D9に入力される。畳み込み層D6〜D9が出力する特徴量の解像度は解像度区間R内に保たれる。すなわち、当該解像度は第2処理画像511が属する解像度区間Rよりも一段高い解像度区間Rに属する。これにより、Coarse to Fineネットワークの2段目にて得られる上述の効果が維持される。ここで、当該効果維持の観点からは、畳み込み層D6〜D9での解像度は特徴量合成器5231の出力での解像度ρからの低下が小さい値に設定することが好ましく、本実施形態では特徴量合成器5231の出力特徴量と同一の解像度ρに維持される。
具体的には、D6は、3×3×160の部分特徴量を入力とし1×1×80の部分特徴量を出力するフィルタを、特徴量合成器5231の出力に得られる200×200×160の特徴量のXY座標の各位置にて適用し、200×200×80の特徴量を生成する。これによりD6の出力には解像度がρに維持された80枚の特徴マップからなる特徴量が得られる。
畳み込み層D7,D8はそれぞれ、直上層の畳み込み層からサイズが200×200×80である特徴量を入力され、当該サイズの特徴量を出力する。具体的には、D7,D8は、3×3×80の部分特徴量を入力とし1×1×80の部分特徴量を出力するフィルタを、入力特徴量のXY座標の各位置にて適用し、200×200×80の特徴量を生成する。これによりD7,D8の出力には解像度がρに維持された80枚の特徴マップからなる特徴量が得られる。
畳み込み層D9は、直上層の畳み込み層D8からサイズが200×200×80である特徴量を入力され、200×200×21の特徴量を出力する。具体的には、D9は、3×3×80の部分特徴量を入力とし1×1×21の部分特徴量を出力するフィルタを、入力特徴量のXY座標の各位置にて適用し、200×200×21の特徴量を生成する。これによりD9の出力には解像度がρに維持された21枚の特徴マップからなる特徴量が得られる。当該21枚の特徴マップは関節推定手段52における認識結果であり、認識対象である手の21箇所の関節位置と一対一に対応する。すなわち、D9の出力の特徴マップごとに1つの関節が推定される。
図5は認識結果の一例を説明する模式図である。図5(a)は入力画像であり、図5(b−1)から(b−4)までは当該入力画像に対する認識結果524として得られた関節位置を表す画像である。具体的には図5(b−1)〜(b−4)の順に、小指の指先、第一関節、第二関節、第三関節の認識結果524の特徴マップを二値化した画像であり、関節位置を白、それ以外を黒とした二値画像で表現されている。関節推定手段52は当該特徴マップにおけるピーク座標を検出することで各関節座標を検知する。
なお、上述した特徴量抽出手段520〜522における畳み込み層の数は一例であり、1以上の任意の数とすることができる。また、対象認識手段523における畳み込み層の数も一例であり、基本的には、認識結果524を抽出する上述のD9に相当する1つの畳み込み層は必要であるが、それ以外の畳み込み層の数は0以上の任意の数とすることができる。
以上、図3の機能ブロック図のうち、主に、画像監視システム1の監視動作にて機能する部分、特に、所定対象の画像認識処理に関する部分について説明した。そこで説明した本発明の画像認識の技術では、複数の解像度での特徴量を順次統合することで誤りの訂正を図り上層から下層への誤差の伝搬を抑制する。また、従来のネットワークでは、高い解像度から低い解像度へ向けて情報を集約することで特徴を抽出するので認識対象の推定座標精度が下がってしまう問題があるのに対し、本発明のネットワークでは最終レイヤーにおいて高い解像度の特徴量で座標を推定するため、従来のネットワークに比べ高い精度での位置推定が可能である。よって、本発明によれば所定対象を高精度に認識できる。
また、画像監視システム1は、関節推定手段52における各処理段階に利用者が手を加え易く、認識精度の改善を容易に行うことができる機能を備えている。当該機能は、認識結果に至る途中の処理を見えやすくする、つまり可視化容易性の実現を図る機能と、畳み込み層のフィルタ係数を学習後に変更する機能とを含み、図3に示すブロックのうち特徴量可視化手段53および表示手段60が前者の機能に関係し、フィルタ係数更新手段54およびフィルタ係数入力手段70が後者の機能に関係する。
まず、可視化容易性について説明する。特徴量可視化手段53は、処理画像の局所領域ごとに当該局所領域に対応する特徴量の大きさに応じた画素値を設定した表示用画像を生成し表示手段60へ出力する。表示手段60は特徴量可視化手段53が生成した表示用画像を表示部6に表示する。
例えば、特徴量可視化手段53は各畳み込み層の各特徴マップを人が目視で理解しやすいように加工する。具体的には、或る1つの畳み込み層の全特徴マップを可視化する際、それら全特徴マップにおける最大値を求め、これが表示上の最大輝度値の255になるように各特徴マップの値をスケーリングする。こうすることで、特徴マップの反応の強さを畳み込み層ごとに規格化して観察することができる。この際、処理画像の上に特徴マップを重ねて表示したり、特徴マップの輝度に色付けして表示したりしても良い。また、反応の強い特徴を強調して表示する等しても良い。
ここで、従来のネットワークとして、処理画像をプーリング層により段階的に縮小することで情報を集約して対象を検知する構造が知られている。当該構造では、画像を入力した初期の段階で高い解像度の特徴が抽出されるため、特徴マップを観察しても認識の過程を人が直感的に把握するのが困難である。これに対し、本発明のネットワーク、つまりCoarse to Fineネットワークでは、おおまかな特徴から先に捉えるという考え方を応用し、対象認識手段523の入力側から出力側に向けて徐々に特徴マップの解像度を上げる。また、単に解像度を上げるだけではなく、複数の解像度ごとの特徴量をそれぞれ求め、それらを段階的に合成することで情報量の確保を図る。
この本ネットワークの構成において例えば、第1処理画像510の特徴は畳み込み層A3、第2処理画像511の特徴は畳み込み層B3、第3処理画像512の特徴は畳み込み層C3でそれぞれ観察することで、解像度ごとにどのような形で特徴が生成されているかがわかる。また、これら解像度ごとの特徴が合成されることで、畳み込み層D2,D3,D4では区間Rに属する低解像度での特徴と区間Rに属する中解像度での特徴とによる新しい特徴が生成され、また畳み込み層D6,D7,D8,D9ではそれに更に区間Rに属する高解像度での特徴が加わった新しい特徴が生成され、各畳み込み層で特徴の生成過程が観察できる。
この例を図6に示す。図6は生成過程で観察される特徴マップの例を示す模式図であり、図6(a)は処理画像、図6(b−1)〜(b−5)はそれぞれ特徴量可視化手段53により可視化された特徴マップの例である。なお、図6(b−1)〜(b−5)の特徴マップの画像は図5と同様、二値画像で関節の位置を表すとともに、利用者の理解を容易とするために、手の輪郭を重ねて表示している。図6(b−1)は畳み込み層A3にて得られる低解像度の特徴マップの画像であり、この例では5本の指の指先が活性化している。図6(b−2)は畳み込み層B3にて得られる中解像度の特徴マップの画像であり、この例では多くの関節付近で活性化領域ができている。ちなみに、中解像度なので解像度が低めの特徴である。図6(b−3)は畳み込み層D4にて得られる特徴マップの画像であり、この例ではいくつかの関節付近で活性化領域ができている。図6(b−4)は畳み込み層C3にて得られる高解像度の特徴マップの画像であり、この例では多くの関節付近で活性化領域ができている。図6(b−5)は最終の畳み込み層D9にて得られる特徴マップの画像であり、ここでは小指の指先が活性化しており、これが最終的に求まった小指の指先位置である。
CNNに関しては、その内部でどのような処理が行われているのかが人には理解しづらいことが問題とされている。この問題に関し、本ネットワークは従来CNNに比べ内部状態が観察しやすいことを図6を参照しつつ説明する。内部状態を人が理解するには、できるだけ人が意味的に捉えられる特徴量が生成されることが重要である。しかし、解像度をプーリング層によって段階的に下げる従来CNNでは、高解像度の画像や高解像度・中解像度の特徴量を処理する上・中層での特徴マップは多数の大きな値が散在したものとなりがちであり、指先のような人が意味的に捉えることのできる位置が活性化する様子を観察するのが難しい。一方、上層で低解像度の画像や低解像度の特徴量を処理する本ネットワークでは図6(b−1)の5本の指先が活性化している例が示すように、上層で人が意味的に捉え易い特徴量が求まる傾向があることが分かった。つまり、上層に低解像度の第1処理画像を処理する第1の特徴量抽出手段520を有するネットワーク構造としたことで、上層の畳み込みフィルタが内部状態を観察しやすい特徴量を抽出するように学習され易くなることが分かった。さらに本ネットワークでは図6(b−2)〜(b−5)の例が示すように中・下層の特徴マップにおいても人が意味的に捉え易い特徴量が求まる傾向があることが分かった。つまり、中解像度・高解像度の第2・第3処理画像や中解像度・高解像度の特徴量を処理する第2の特徴量抽出手段521や第3の特徴量抽出手段522を、内部状態を観察しやすい特徴量を抽出する第1の特徴量抽出手段520の下層で結合するネットワーク構造としたことで、第2の特徴量抽出手段521や第3の特徴量抽出手段522の畳み込みフィルタも内部状態を観察しやすい特徴量を抽出するように学習され易くなることが分かった。
この可視化容易性により、利用者が特徴マップを観察することで問題のある特徴を見つけることも容易となる。そして、問題のある特徴に対する修正を可能とする。画像監視システム1が当該修正に関し提供する機能が、上述した畳み込み層のフィルタ係数を学習後に変更する機能である。これにより、特徴量に存在する問題を除去・修正し、関節推定手段52、ひいては画像監視システム1の性能向上を図ることが可能となる。なお、フィルタ係数を変えて認識性能を向上させることを、ここではパラメータチューニングと呼ぶ。
フィルタ係数更新手段54は、保守者(利用者)がフィルタ係数入力手段70を用いて入力したフィルタ係数の更新値を受け付けて、フィルタ係数記憶手段40に記憶されているフィルタ係数を更新値に置き換える。フィルタ係数入力手段70は、利用者が操作入力部7を操作して入力する修正の指示・内容を受け付け、それをフィルタ係数更新手段54へ渡す。
Coarse to Fineネットワークが有する、一部分の変化がネットワーク全体に影響しにくいという性質はパラメータチューニングの際にも役立つ。つまり、パラメータチューニングにおいて重要なのは、他の個所に副作用を与えずに問題個所に対してのみ効果を与えることだが、Coarse to Fineネットワークだと変更の影響が全体に及びにくいため、副作用を抑えながら部分的に性能を変更するのに適している。
図7は画像監視システム1の学習段階での概略の機能ブロック図であり、記憶部4がフィルタ係数記憶手段40および学習用データ記憶手段42として機能し、画像処理部5が画像縮小手段55および関節推定モデル学習手段56として機能する。
フィルタ係数記憶手段40は図3に示したフィルタ係数記憶手段40と共通である。
学習用データ記憶手段42は、多数の学習用の手画像(学習用画像)と、各学習用画像に撮影されている手における関節位置の情報を予め記憶している。なお、学習用画像に対する関節位置の情報は人手によって予め作成される。ちなみに、この関節位置の情報のように画像の注釈として加えられた情報はアノテーションと呼ばれる。
画像縮小手段55は上述した画像縮小手段51と同様、画像を縮小させて解像度が異なる複数の処理画像を生成する。ただし、画像縮小手段55における縮小の対象は学習用画像である。すなわち、画像縮小手段55は、学習用データ記憶手段42から各学習用画像を読み出し、各学習用画像を縮小させて解像度が異なる複数の処理画像を生成し、生成した複数の処理画像を関節推定モデル学習手段56に出力する。
関節推定モデル学習手段56は、上述した第1の特徴量抽出手段520と第2の特徴量抽出手段521と第3の特徴量抽出手段522と対象認識手段523とからなるモデルに対して、画像縮小手段55が各学習用画像から生成した処理画像を入力値とし、当該学習用画像における関節位置の情報を出力値の目標値とする学習を行う。目標値とする関節位置の情報は、例えば、関節ごとに当該関節の位置に対応する画素の画素値を1に設定し、それ以外の画素の画素値を0に設定した二値画像で表される。当該二値画像は対象認識手段523の最終段の畳み込み層D9の出力特徴量である認識結果524を構成する21枚の特徴マップに相当し、当該出力特徴量に対応させて、21枚の当該二値画像は互いの画素位置を合わせて所定順序で並べたデータ形式で表現される。好適には、当該各二値画像の、関節位置に対応する画素を中心とする領域に二次元ガウシアンフィルタリングを施した平滑化画像を、画素位置を合わせて所定順序で並べたデータとすることができる。関節推定モデル学習手段56は学習済みモデルにおけるフィルタ係数等のパラメータをフィルタ係数記憶手段40に記憶させる。
[画像監視システム1の動作]
図8および図9は画像監視システム1の動作に関する概略のフロー図である。
画像監視システム1が監視動作を開始すると(ステップS100)、画像処理部5は、フィルタ係数記憶手段40として機能する記憶部4から、関節推定手段52にて用いるフィルタ係数を読み込む(ステップS101)。
撮影部2が監視空間を撮影すると(ステップS102)、その撮影画像が画像処理部5に送られる。画像処理部5は不審行動検知手段50として機能し、撮影画像中の手を検出する処理を行う(ステップS103)。
不審行動検知手段50は、手を検出すると(ステップS104にて「YES」の場合)、撮影画像から手画像を切り出す(ステップS105)。本実施形態では、手を検出した位置を中心とする200×200画素の領域を手画像としている。
画像処理部5は画像縮小手段51として機能し、不審行動検知手段50から渡される手画像に対し、予め定められた倍率で画像縮小処理を行い、解像度が異なる複数種類の処理画像を生成する(ステップS106)。本実施形態では画像縮小手段51での処理により、手画像の1/1縮小画像、1/2縮小画像、1/4縮小画像が得られ、これらが処理画像とされる。ここで、1/4縮小画像を第1処理画像(解像度ρ)、1/2縮小画像を第2処理画像(解像度ρ)、1/1縮小画像を第3処理画像(解像度ρ)とし、よって、ρ<ρ<ρである。
処理画像が得られると、画像処理部5は関節推定手段52として機能し、関節位置の推定を行う(ステップS107)。すなわち、関節推定手段52は上述したように、第1の特徴量抽出手段520に第1処理画像を入力して特徴量を抽出し、同様に、第2の特徴量抽出手段521に第2処理画像、第3の特徴量抽出手段522に第3処理画像をそれぞれ入力して特徴量を抽出する。特徴量抽出手段520〜522はそれぞれに入力される処理画像に関するρ<ρ<ρという解像度の大小関係に対応して、互いに異なる解像度で特徴量を抽出する処理を行う。つまり、ρ〜ρがそれぞれ属する区間R〜Rにより、解像度を低解像度、中解像度、高解像度に分けると、第1の特徴量抽出手段520は低解像度にて特徴量抽出処理を行い、第2の特徴量抽出手段521は中解像度にて特徴量抽出処理を行い、第3の特徴量抽出手段522は高解像度にて特徴量抽出処理を行う。そして、対象認識手段523は、第1の特徴量抽出手段520の低解像度の出力特徴量をアンプーリング層で中解像度へ変換し、これに第2の特徴量抽出手段521の出力特徴量を合成し、また、その中解像度の合成特徴量をアンプーリング層で高解像度へ変換し、これに第3の特徴量抽出手段522の出力特徴量を合成し、その高解像度の合成特徴量から関節位置の推定結果として認識結果524を生成する。
また、関節推定手段52は当該推定処理にて各畳み込み層で生成された特徴量を特徴量記憶手段41である記憶部4に保存する(ステップS108)。
なお、撮影画像中に手が検出されなかった場合は(ステップS104にて「NO」の場合)、画像処理部5はステップS105〜S108の処理は行われずに、不審行動検知手段50が行動認識処理(ステップS109)に進む。
不審行動検知手段50は撮影画像に基づいて人の行動認識処理を行う(ステップS109)。その際、当該撮影画像から手画像が切り出されている場合には、不審行動検知手段50は関節推定手段52からの認識結果524に基づき手の姿勢を推定し、手の姿勢を加味して行動認識処理を行う。
不審行動検知手段50は、ステップS102にて得られた撮影画像に関して、当該行動認識処理にて不審行動を検知すると(ステップS110にて「YES」の場合)、表示部6などを介して警報を発する(ステップS111)。一方、不審行動が検知されなかった場合(ステップS110にて「NO」の場合)、ステップS111の処理は省略される。
また、ステップS102にて得られた撮影画像に関して利用者から可視化要請があった場合(ステップS112にて「YES」の場合)、画像処理部5は特徴量可視化手段53として機能し、手の関節位置の推定処理にて保存された特徴量を特徴量記憶手段41から読み出して特徴マップの画像を生成する特徴量可視化処理を行い(ステップS113)、生成した画像を表示部6に表示する(ステップS114)。利用者は表示部6で表示された特徴マップを観察しながら、どの特徴マップに性能的な問題があるかを特定することができる。一方、可視化要請がなければ(ステップS112にて「NO」の場合)、ステップS113,S114の処理は省略される。
利用者は例えば、フィルタ係数を変更して、特徴マップにて特定された問題を修正することができる。利用者からフィルタ係数の更新値の入力があった場合(ステップS115にて「YES」の場合)、画像処理部5はフィルタ係数更新手段54として機能し、当該更新値でフィルタ係数記憶手段40に記憶されているフィルタ係数を置き換える(ステップS116)。一方、更新値の入力がなければ(ステップS115にて「NO」の場合)、ステップS116の処理は省略され、処理はステップS102に戻り、次の撮影画像についての上述のステップS102〜S116の処理を行う。
なお、ここでは200×200画素の画像を切り出して入力画像とする例を示したが、入力画像のサイズは任意に定めることができる。例えば、撮影画像そのものを入力画像としてもよい。また、検出した手に応じた大きさの入力画像としてもよい。また、例えば、検出した手の外接矩形で与えられる領域、または当該外接矩形を所定倍した領域を切り出して入力画像としてもよい。
[変形例]
(1)上記実施形態の画像監視システム1では本発明の画像認識の技術の例として、解像度が異なる3つの処理画像を用いる例を示したが、既に述べたように、処理画像の数(解像度の種類)は任意の複数とすることができ、例えば、2つの処理画像を用いる構成とすることもでき、または4以上の処理画像を用いる構成とすることもできる。処理画像を幾つとするかは、事前実験を通じ、認識対象と認識精度のバランスから選択される。
2つの処理画像を用いる構成の場合、第3の特徴量抽出手段522を有さず、対象認識手段523にアンプーリング層D5、特徴量合成器5231、畳み込み層D6,D7,D8を含まない構成となり、畳み込み層D9は畳み込み層D4の出力の解像度に適合させた畳み込みフィルタとなる。
4以上の処理画像を用いる構成の場合、入力画像の解像度ρIN以下の範囲において、低解像度の側から順にR,R,R,Rの4つの解像度区間を互いに分離して設定し、各解像度区間内の解像度を有する処理画像を生成し、それらから抽出した特徴量を低解像度側から順に合成する。例えば、図4の構成において、画像縮小手段51からρより高い解像度を有する第4の処理画像がさらに入力され、当該処理画像から特徴量を抽出する第4の特徴量抽出手段をさらに設ける。そして、第4の特徴量抽出手段から抽出される区間Rの解像度(ρとする。)の特徴量との合成のために、畳み込み層D8の出力特徴量を解像度ρに変換するアンプーリング層、その出力と第4の特徴量抽出手段の出力とを合成する特徴量合成器、当該特徴量合成器の解像度ρの出力側に解像度区間R内にて畳み込み処理を行う1又は複数の畳み込み層をさらに設ける。この構成では例えば、第1処理画像を1/8縮小画像、第2処理画像を1/4縮小画像、第3処理画像を1/2縮小画像、第4処理画像を1/1縮小画像とすることができる。
なお、このように処理画像の倍率は1/4よりも低くすることができる。何倍の縮小画像までを用いるかは、画像サイズや画像中の手の映りの大きさのバランス等から決めることができる。例えば、画像中における手の映りが大きい場合には倍率が低い処理画像を用いることが可能となる。
(2)上記実施形態では対象を手とし、手の関節位置を回帰により認識する例を示したが、他の種々の物体や事象を認識の対象とすることもできる。例えば、人の全身を対象とし頭頂・両肩・両肘・…・両足先の代表点(キーポイント)を回帰により認識することもできるし、人の上半身または顔を対象とし、それぞれに応じたキーポイントを回帰により認識することもできる。
また、例えば、人の全身、人の上半身、顔、車両、特定の動物などのいずれかを対象とし、対象か否かを識別することもできる。その場合、例えば、上述の実施形態では畳み込み層とした最終層D9を全結合層に置き換えて対象識別モデルを構成し、全結合層の出力値を対象であれば1、対象でなければ0を目標値とするスカラとなるように設計することができる。
また、例えば、人、車両、特定の動物などを対象とし、いずれの対象であるか、およびいずれの対象でもないかを分類することもできる。その場合も、層D9を全結合層に置き換えて対象識別モデルを構成することができる。全結合層の出力値を人であれば(1,0,0,…,0)、車両であれば(0,1,0,…,0)、特定の動物であれば(0,0,1,…,0)、いずれの対象でもなければ(0,0,0,…,1)を目標値とするベクトルとなるように設計することができる。
同様に、人が混雑する事象を対象とし、人の混雑の度合いを回帰し、あるいは人の混雑の度合いを分類することもできる。
なお、上記全結合層は1層であってもよいし、2層以上であってもよい。
1 画像監視システム、2 撮影部、3 通信部、4 記憶部、5 画像処理部、6 表示部、7 操作入力部、40 フィルタ係数記憶手段、41 特徴量記憶手段、42 学習用データ記憶手段、50 不審行動検知手段、51,55 画像縮小手段、52 関節推定手段、53 特徴量可視化手段、54 フィルタ係数更新手段、56 関節推定モデル学習手段、60 表示手段、70 フィルタ係数入力手段、510 第1処理画像、511 第2処理画像、512 第3処理画像、520,521,522 特徴量抽出手段、523 対象認識手段,5230,5231 特徴量合成器。

Claims (6)

  1. 入力画像に現れた所定対象を認識する画像認識装置であって、
    前記入力画像の解像度以下の範囲において互いに分離して設定されたn個(nは2以上の自然数である。)の解像度区間を、低解像度の側から順に第1から第nの区間とし、
    前記入力画像を縮小させて、n以下の各自然数kについて第kの前記区間に属する解像度を有する第kの処理画像を生成する画像縮小手段と、
    前記第kの処理画像それぞれから、前記第kの区間内の解像度にて特徴量を抽出する処理を行って第kの特徴量を取得する特徴量抽出手段と、
    第1の前記特徴量を0次合成特徴量とし、n−1以下の自然数jについて、j−1次合成特徴量の解像度を第j+1の前記特徴量の解像度に揃える変換処理と、当該変換後の前記j−1次合成特徴量と前記第j+1の特徴量とを合成してj次合成特徴量を生成する処理とを前記jの昇順に行い、生成されたn−1次合成特徴量から前記所定対象を認識する対象認識手段と、
    を備えたことを特徴とする画像認識装置。
  2. 前記処理画像の局所領域ごとに当該局所領域に対応する前記特徴量の大きさに応じた画素値を設定した表示用画像を出力する可視化手段、
    をさらに備えたことを特徴とする請求項1に記載の画像認識装置。
  3. 前記特徴量抽出手段が前記特徴量の抽出に用いるフィルタのフィルタ係数を記憶するフィルタ係数記憶手段と、
    利用者からの前記フィルタ係数の更新値の入力を受け付けて、前記フィルタ係数記憶手段に記憶されている前記フィルタ係数を前記更新値で置き換えるフィルタ係数更新手段と、
    をさらに備えたことを特徴とする請求項1又は請求項2に記載の画像認識装置。
  4. 前記特徴量抽出手段は、少なくとも1つの前記kについて前記第kの特徴量を抽出するための1又は複数の畳み込み層を含んで構成され、
    前記対象認識手段は、少なくとも1つの前記kについての前記変換処理を行うためのアンプーリング層を含んで構成されること、
    を特徴とする請求項1から請求項3のいずれか1つに記載の画像認識装置。
  5. 入力画像に現れた所定対象を認識する画像認識方法であって、
    前記入力画像の解像度以下の範囲において互いに分離して設定されたn個(nは2以上の自然数である。)の解像度区間を、低解像度の側から順に第1から第nの区間とし、
    前記入力画像を縮小させることにより、n以下の各自然数kについて第kの前記区間に属する解像度を有する第kの処理画像を生成する画像縮小ステップと、
    前記第kの処理画像それぞれから、前記第kの区間内の解像度にて特徴量を抽出する処理を行って第kの特徴量を取得する特徴量抽出ステップと、
    第1の前記特徴量を0次合成特徴量とし、n−1以下の自然数jについて、j−1次合成特徴量の解像度を第j+1の前記特徴量の解像度に揃える変換処理と、当該変換後の前記j−1次合成特徴量と前記第j+1の特徴量とを合成してj次合成特徴量を生成する処理とを前記jの昇順に行い、生成されたn−1次合成特徴量から前記所定対象を認識する対象認識ステップと、
    を備えたことを特徴とする画像認識方法。
  6. コンピュータに、入力画像に現れた所定対象を認識する処理を行わせるための画像認識プログラムであって、
    前記入力画像の解像度以下の範囲において互いに分離して設定されたn個(nは2以上の自然数である。)の解像度区間を、低解像度の側から順に第1から第nの区間とし、
    当該コンピュータを、
    前記入力画像を縮小させることにより、n以下の各自然数kについて第kの前記区間に属する解像度を有する第kの処理画像を生成する画像縮小手段、
    前記第kの処理画像それぞれから、前記第kの区間内の解像度にて特徴量を抽出する処理を行って第kの特徴量を取得する特徴量抽出手段、及び、
    第1の前記特徴量を0次合成特徴量とし、n−1以下の自然数jについてj−1次合成特徴量の解像度を第j+1の前記特徴量の解像度に揃える変換処理と、当該変換後の前記j−1次合成特徴量と前記第j+1の特徴量とを合成してj次合成特徴量を生成する処理とを前記jの昇順に行い、生成されたn−1次合成特徴量から前記所定対象を認識する対象認識手段、
    として機能させることを特徴とする画像認識プログラム。
JP2019003597A 2019-01-11 2019-01-11 画像認識装置、画像認識方法、及び画像認識プログラム Active JP6801020B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019003597A JP6801020B2 (ja) 2019-01-11 2019-01-11 画像認識装置、画像認識方法、及び画像認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019003597A JP6801020B2 (ja) 2019-01-11 2019-01-11 画像認識装置、画像認識方法、及び画像認識プログラム

Publications (2)

Publication Number Publication Date
JP2020113055A true JP2020113055A (ja) 2020-07-27
JP6801020B2 JP6801020B2 (ja) 2020-12-16

Family

ID=71666313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019003597A Active JP6801020B2 (ja) 2019-01-11 2019-01-11 画像認識装置、画像認識方法、及び画像認識プログラム

Country Status (1)

Country Link
JP (1) JP6801020B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230064837A (ko) * 2021-11-04 2023-05-11 중앙대학교 산학협력단 코스-투-파인 컨볼루션 뉴럴 네트워크 기반 다중 레이블 클래스 분류 방법 및 장치
JP7385681B2 (ja) 2019-05-21 2023-11-22 マジック リープ, インコーポレイテッド 手姿勢推定

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014203135A (ja) * 2013-04-01 2014-10-27 キヤノン株式会社 信号処理装置、信号処理方法、及び、信号処理システム
JP2017033529A (ja) * 2015-03-06 2017-02-09 パナソニックIpマネジメント株式会社 画像認識方法、画像認識装置およびプログラム
JP2018010626A (ja) * 2016-06-30 2018-01-18 キヤノン株式会社 情報処理装置、情報処理方法
JP2018181124A (ja) * 2017-04-18 2018-11-15 Kddi株式会社 エンコーダデコーダ畳み込みニューラルネットワークにおける解像感を改善するプログラム
JP2018534694A (ja) * 2015-11-04 2018-11-22 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. 物体検出のためのサブカテゴリ認識機能付き畳み込みニューラルネットワーク

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014203135A (ja) * 2013-04-01 2014-10-27 キヤノン株式会社 信号処理装置、信号処理方法、及び、信号処理システム
JP2017033529A (ja) * 2015-03-06 2017-02-09 パナソニックIpマネジメント株式会社 画像認識方法、画像認識装置およびプログラム
JP2018534694A (ja) * 2015-11-04 2018-11-22 エヌイーシー ラボラトリーズ アメリカ インクNEC Laboratories America, Inc. 物体検出のためのサブカテゴリ認識機能付き畳み込みニューラルネットワーク
JP2018010626A (ja) * 2016-06-30 2018-01-18 キヤノン株式会社 情報処理装置、情報処理方法
JP2018181124A (ja) * 2017-04-18 2018-11-15 Kddi株式会社 エンコーダデコーダ畳み込みニューラルネットワークにおける解像感を改善するプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7385681B2 (ja) 2019-05-21 2023-11-22 マジック リープ, インコーポレイテッド 手姿勢推定
KR20230064837A (ko) * 2021-11-04 2023-05-11 중앙대학교 산학협력단 코스-투-파인 컨볼루션 뉴럴 네트워크 기반 다중 레이블 클래스 분류 방법 및 장치
WO2023080321A1 (ko) * 2021-11-04 2023-05-11 중앙대학교 산학협력단 코스-투-파인 컨볼루션 뉴럴 네트워크 기반 다중 레이블 클래스 분류 방법 및 장치
KR102635607B1 (ko) 2021-11-04 2024-02-08 중앙대학교 산학협력단 코스-투-파인 컨볼루션 뉴럴 네트워크 기반 다중 레이블 클래스 분류 방법 및 장치

Also Published As

Publication number Publication date
JP6801020B2 (ja) 2020-12-16

Similar Documents

Publication Publication Date Title
WO2020224403A1 (zh) 分类任务模型的训练方法、装置、设备及存储介质
CN112287940A (zh) 一种基于深度学习的注意力机制的语义分割的方法
CN109389552A (zh) 一种基于上下文相关多任务深度学习的图像超分辨算法
US20080123975A1 (en) Abnormal Action Detector and Abnormal Action Detecting Method
JP6397379B2 (ja) 変化領域検出装置、方法、及びプログラム
JP6265132B2 (ja) 画像認識処理適性表示システム、方法およびプログラム
JP2018072938A (ja) 目的物個数推定装置、目的物個数推定方法及びプログラム
CN110879982A (zh) 一种人群计数系统及方法
WO2020186385A1 (zh) 图像处理方法、电子设备及计算机可读存储介质
JP6801020B2 (ja) 画像認識装置、画像認識方法、及び画像認識プログラム
WO2019102797A1 (ja) ニューラルネットワークの学習方法、学習装置、学習済みモデル及びプログラム
CN116128883A (zh) 一种光伏板数量统计方法、装置、电子设备及存储介质
JP7001150B2 (ja) 識別システム、モデル再学習方法およびプログラム
JP2016139397A (ja) 画像処理装置、画像処理方法、画像表示装置およびコンピュータプログラム
US20220383616A1 (en) Information processing apparatus and image processing method
CN115601684A (zh) 突发事件预警方法、装置、电子设备及存储介质
JP2020095526A (ja) 画像処理装置、方法、及びプログラム
CN113240611A (zh) 一种基于图片序列的异物检测方法
CN109492755B (zh) 图像处理方法、图像处理装置和计算机可读存储介质
JP2016040731A (ja) 画像検索装置、画像検索方法及びプログラム
CN111860323A (zh) 一种基于yolov3算法识别监控画面中初期火灾的方法
CN113034420A (zh) 一种频率空间域特征的工业产品表面缺陷分割方法及系统
CN114299375B (zh) 融合YOLOv4与可变形卷积的水下群体目标检测方法
WO2024048639A1 (ja) 方法、学習モデル評価システム、及びプログラム
JP5836728B2 (ja) 画像検索装置、画像検索方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190726

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201028

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201125

R150 Certificate of patent or registration of utility model

Ref document number: 6801020

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250