JP7441656B2

JP7441656B2 - 認識装置、学習装置、認識システム、認識方法、及び認識プログラム

Info

Publication number: JP7441656B2
Application number: JP2020008942A
Authority: JP
Inventors: 友祐佐野; 健糸賀
Original assignee: Secom Co Ltd
Current assignee: Secom Co Ltd
Priority date: 2020-01-23
Filing date: 2020-01-23
Publication date: 2024-03-01
Anticipated expiration: 2040-01-23
Also published as: JP2021117565A

Description

本発明は、処理対象データ中の領域が認識対象を表しているか否かを認識するための認識装置、学習装置、認識システム、認識方法、及び認識プログラムに関する。

雑踏を撮影した画像を基に特定の人物を検出する、画像内の人や車両を検出するなどの各種認識処理においては、一般に、画像内の全域に様々な大きさで検査領域を設定し、設定した検査領域の数だけ特徴量抽出と特徴量比較を繰り返す必要がある。この特徴量は、検査領域ごとに抽出し直すのが最も高精度であるが膨大な処理となってしまう。そのため検査領域の特徴量抽出などに対する高速化が強く望まれている。

特許文献１には、予めブロックごとに抽出された特徴量を利用する画像特徴量比較装置が記載されている。すなわち、異なる基準でブロック分割された２つの画像をブロック単位で比較する際、一方の画像のブロックに重なる他方の画像の複数のブロックの特徴量を、重なっている部分の面積の割合で重みづけ加算して他方の画像の特徴量としている。

このように、予めブロックごとに抽出した特徴量を統合して任意の検査領域の特徴量を近似的に算出すれば、高速な特徴量抽出が可能となる。

特開２００２－０４２１３４号公報

しかしながら、従来技術では、ブロック（区分領域）のサイズと検査領域のサイズとの差が大きな場合が考慮されておらず、区分領域と検査領域のサイズの違いに起因して統合した特徴量（統合特徴量）が大きく変動してしまい、その結果、認識精度が低下する問題があった。

区分領域と検査領域のサイズの差が大きくなると、検査領域と区分領域とが包含関係に無い重複パターンだけでなく、検査領域に包含される区分領域を含む重複パターンや、検査領域が区分領域に包含される重複パターンが生じ、検査領域と区分領域の重複パターンが多様化することで、上記の統合特徴量の変動が生じると考えられる。同様の問題は、三次元データなど、二次元画像以外の各種処理対象データでも生じる。

そこで、本発明は、上記問題を鑑みてなされたものであり、様々なサイズの検査領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出でき、認識対象を高速且つ高精度に認識できる認識装置、学習装置、認識システム、認識方法、及び認識プログラムを提供することを目的とする。

上記の目的を達成するために本発明に係る認識装置は、区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出する特徴量抽出手段と、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段と、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段と、を含んで構成されている。

本発明に係る認識装置によれば、特徴量抽出手段によって、区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出する。重み計算手段によって、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する。統合手段によって、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める。認識手段によって、前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する。

このように、区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出し、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算し、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、重みを用いて統合する。これにより、様々なサイズの検査領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出でき、認識対象を高速且つ高精度に認識できる。

また、前記特徴量抽出手段は、前記入力データを、前記複数種類の区分に対応する複数種類のサイズに変更した正規化データを生成するマルチデータ生成手段を更に含み、前記複数種類の区分に対し、前記区分に対応する前記正規化データの、前記区分での前記区分領域毎に特徴量を抽出することができる。

また、前記重み計算手段は、前記複数種類の区分に前記検査領域と重複する区分領域の数が所定範囲外である区分が存在する場合に、当該検査領域に対する当該区分の前記区分領域に対する重みを０とすることができる。
また、前記重み計算手段は、前記複数種類の区分に前記検査領域に包含される前記区分領域を含んだ区分が存在する場合に、当該検査領域に対する当該区分の前記区分領域に対する重みを０とすることができる。

また、前記検査領域を、位置又は大きさの少なくとも一方を異ならせて複数設定し、前記重み計算手段は、前記検査領域毎に、当該検査領域と重複する前記区分領域の各々について前記重みを計算し、前記統合手段は、前記検査領域毎に、前記統合特徴量を求め、前記認識手段は、前記検査領域毎に、当該検査領域が、前記認識対象を表しているか否かを認識することができる。

また、前記特徴量抽出手段は、前記複数種類の区分での前記区分領域毎の特徴量を抽出するための特徴量抽出モデルを用いて、前記複数種類の区分に対し、前記入力データの前記区分領域毎に特徴量を抽出することができる。

本発明に係る学習装置は、処理対象データを入力とし、区分領域の大きさ又は間隔が異なる複数種類の区分での前記区分領域毎の特徴量を抽出するための特徴量抽出モデルを用いて、前記複数種類の区分に対し、学習用の前記処理対象データの前記区分領域毎に特徴量を抽出する特徴量抽出手段と、認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段と、前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する学習手段と、を含んで構成されている。

本発明に係る学習装置によれば、特徴量抽出手段によって、区分領域の大きさ又は間隔が異なる複数種類の区分での前記区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、前記複数種類の区分に対し、学習用の処理対象データの前記区分領域毎に特徴量を抽出する。重み計算手段によって、認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する。統合手段によって、前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める。学習手段によって、前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する。

このように、区分領域の大きさ又は間隔が異なる複数種類の区分での前記区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、前記複数種類の区分に対し、学習用の処理対象データの前記区分領域毎に特徴量を抽出し、認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算し、前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、重みを用いて統合し、前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する。これにより、様々なサイズの認識対象領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出できるため、認識対象を高速且つ高精度に認識するための特徴量抽出モデルを学習することができる。

本発明に係る認識システムは、上記の認識装置と、上記の学習装置とを含み、前記認識装置の前記特徴量抽出手段は、前記学習装置によって学習された前記特徴量抽出モデルを用いて、前記複数種類の区分に対し、前記入力データの前記区分領域毎に特徴量を抽出する。

本発明に係る認識方法は、特徴量抽出手段が、区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出し、重み計算手段が、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算し、統合手段が、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求め、認識手段が、前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する。

本発明に係る認識プログラムは、コンピュータを、区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出する特徴量抽出手段、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段、及び前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段として機能させるためのプログラムである。

以上説明したように、本発明に係る認識装置、認識システム、認識方法、及び認識プログラムによれば、様々なサイズの検査領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出でき、認識対象を高速且つ高精度に認識できる、という効果が得られる。

また、本発明に係る学習装置によれば、様々なサイズの認識対象領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出できるよう特徴量抽出モデルを学習するため、認識対象を高速且つ高精度に認識するための特徴量抽出モデルを学習することができる、という効果が得られる。

本発明の実施の形態に係る認識システムの構成を示す概略図である。本発明の実施の形態に係る学習装置の構成を示すブロック図である。区分領域の設定と重みの例を示す図である。本発明の実施の形態に係る学習装置の特徴量抽出手段の構成を示すブロック図である。本発明の実施の形態に係る学習装置による学習処理の動作を示すフローチャートである。本発明の実施の形態に係る認識装置の構成を示すブロック図である。本発明の実施の形態に係る認識装置による認識処理の動作を示すフローチャートである。本発明の実施の形態の他の例に係る学習装置及び認識装置の特徴量抽出手段の構成を示すブロック図である。区分領域画像と拡張区分領域画像の例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、認識システムの実施形態の一例として、特定人物の立位全身のテンプレートが指定され、さらに複数の撮影部（カメラ）のうちのどれを検索範囲とするかが指定されると、検索範囲のカメラによって撮影された画像内に検査領域を順次設定して各検査領域の特徴量をテンプレートと照合し、テンプレートと同一人物の立位全身の像が撮影されている領域を検出する人物同定システムを説明する。
すなわち、本実施形態において、処理対象データは画像であり、認識処理は照合ないしＲｅＩＤ（再同定）であり、認識対象は特定人物の立位全身である。

＜認識システムの構成＞
以下、本発明を適用した認識システム１の概略構成を示した図１を参照し、本発明の実施の形態の構成を説明する。

認識システム１は、撮影部２ａ，２ｂ，２ｃ，…、通信部３、記憶部４、画像処理部５、表示部６、及び操作入力部７を有する。

撮影部２ａ，２ｂ，２ｃ，…は、所定の領域を監視する目的で設置される監視カメラであり、異なる監視対象領域の各々について、当該領域内に滞在する人物が撮影できる位置に取り付けられる。撮影部２ａ，２ｂ，２ｃ，…で撮影した画像は通信部３を介して画像処理部５に送信される。

通信部３は、撮影部２ａ，２ｂ，２ｃ、画像処理部５、及び表示部６の間でデータの送受信を行なう。ＬＡＮ（Local Area Network）や、インターネット等の公衆回線を利用できる。

記憶部４は、ＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）等で構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。

画像処理部５は、ＣＰＵ、ＭＰＵ、周辺回路、端子、各種メモリ等で構成され、撮影部２ａ，２ｂ，２ｃ，…が撮影した画像に対して画像処理を施した結果を、通信部３を介して表示部６に送信する。

表示部６は、例えば、液晶ディスプレイであり、各種の情報を表示する。

操作入力部７は、ユーザーにより操作され、テンプレートや検索範囲の指定入力を受け付けるためのマウスやキーボード等である。

認識システム１は、後述する学習装置２００及び認識装置６００として機能する。

＜学習装置の構成例＞
認識システム１が図２に示す学習装置２００として機能するとき、記憶部４は、学習用データ記憶手段４０、区分領域情報記憶手段４１、及び特徴量抽出モデル記憶手段４２として機能する。画像処理部５は、特徴量抽出手段５０、重み計算手段５１、統合手段５２、及び学習手段５３として機能する。

［学習用データ記憶手段４０］
学習用データ記憶手段４０は、多数の学習用画像、認識対象領域、及び教師特徴量を含む学習用データを記憶する。

学習用画像は、例えば、認識対象である人が撮影された画像である。認識対象領域は画像において認識対象が撮影されている領域である。学習用データ記憶手段４０に記憶される認識対象領域は、各学習用画像における認識対象領域を意味し、例えば、学習用画像内の人の像の外接矩形である。この外接矩形は、認識対象ではない背景の部分が少なくなるよう設定される。なお、矩形ではなく楕円でもよいし、認識対象の外形そのものであってもよい。認識対象領域は、例えば、予め学習用データの作成者が目視確認の上、手作業により設定される。認識対象を自動認識する処理により仮設定した後に作成者が修正して設定されてもよい。

また、認識対象領域それぞれの情報は、当該領域が設定された学習用画像と対応付けて、学習用データ記憶手段４０に記憶される。ちなみに１枚の学習用画像に複数の認識対象が撮影されている場合、学習用画像と認識対象領域が１対多で対応付けて記憶される。

教師特徴量は、認識対象領域における学習用画像の特徴量である。教師特徴量は、計算時間を度外視して、後述する認識手段５６に入力されたときの認識精度を追求した特徴量である。教師特徴量は、特徴量抽出モデルの学習において、後述する統合手段５２が出力する統合特徴量の目標値となる。

教師特徴量は、少なくとも統合特徴量とデータ形式が同一である。本実施形態では、教師特徴量は、Ｃチャンネル分の次元数を有するベクトル（Ｃ≧２）である。また、本実施形態では、教師特徴量は、後述する区分特徴量及び統合特徴量と同種のＣＮＮ特徴量である。

例えば、特徴量抽出モデルとは別に教師特徴量抽出モデルを用意し、上述した学習用データに認識手段５６が出力すべき正解データを加えた学習用データを用いて当該教師特徴量抽出モデルの学習を十分に行い、学習済みの教師特徴量抽出モデルに学習用データを入力して得られる特徴量を教師特徴量とすることができる。
具体的には、例えば、教師特徴量抽出モデルを特徴量抽出モデルよりも多層のＣＮＮとし、教師特徴量抽出モデルの出力値が認識手段５６に入力されるよう教師特徴量抽出モデルと認識手段５６を接続した装置を用意する。この装置に、学習用画像から認識対象領域を切り出した切り出し画像を入力して得られる出力値（認識手段５６の出力値）が正解データとなるよう十分に反復させて教師特徴量抽出モデルを学習する。そして、学習済みの教師特徴量抽出モデルに再び各切り出し画像を入力して得られる出力値を認識対象領域に対応する教師特徴量とすることができる。

［区分領域情報記憶手段４１］
区分領域情報記憶手段４１は、画像を所定サイズの複数の領域に区分する区分領域の設定を表す区分領域情報を予め記憶している。区分領域情報は、区分領域そのものを定めた情報とすることができ、具体的には各区分領域の位置及び大きさ（幅、高さ）である。区分の対象となる画像は学習用画像及び入力画像である。なお、本実施形態では、学習用画像のサイズは入力画像のサイズと同一とする。

好適には、区分領域は、様々なサイズの検査領域に適応するために、大きさや間隔が異なる複数種類の区分にて設定される。
本実施形態では、図３に示すように、１２８×１２８画素の画像８００に対し、複数種類の区分８０３、８０４、８０５にて設定される。区分８０３は、幅、高さ、及び間隔がそれぞれ６４画素の２×２区分である。また、区分８０４は、幅、高さ、及び間隔がそれぞれ３２画素の４×４区分である。また、区分８０５は、幅、高さ、及び間隔がそれぞれ１６画素の８×８区分である。また、これら３種類の区分８０３、８０４、８０５の区分領域に０から８３までの通し番号を付与しておく。

なお、区分領域そのものを定めた設定に代えて「区分するための設定」を記憶してもよい。区分するための設定とは、区分領域の大きさ、及び区分領域間の間隔である。

また、区分領域間の間隔は、後述する検査領域設定手段５５が検査領域を設定する間隔よりも大きいという条件を満たす範囲内であれば、隣り合う区分領域同士のオーバーラップを許容して区分領域の幅及び高さより小さく設定してもよい。

［特徴量抽出モデル記憶手段４２］
特徴量抽出モデル記憶手段４２は、特徴量抽出モデルを記憶する。本実施形態においては、特徴量抽出モデルを深層学習（Deep Learning）で用いられるような多層のネットワークで構成された畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）でモデル化する。すなわち、特徴量抽出モデルは、畳み込み層や活性化関数、プーリング（pooling）層などの複数の層が直列に接続されたネットワーク構造を有し、特徴量抽出モデル記憶手段４２は、ネットワークを構成するフィルタのフィルタ係数やネットワーク構造などを含めた情報を記憶する。

そして、上記フィルタ係数など、これら各層のパラメータが学習によって更新される。

［特徴量抽出手段５０］
特徴量抽出手段５０は、特徴量抽出モデルを用いて、区分領域の各々についての画像の特徴量を抽出する。以下、区分領域の各々についての特徴量を区分特徴量と称する。抽出の対象となる画像は学習用画像及び入力画像である。

学習装置２００の特徴量抽出手段５０は、特徴量抽出モデル記憶手段４２から特徴量抽出モデルを、区分領域情報記憶手段４１から区分領域情報をそれぞれ読み出すとともに、学習用データ記憶手段４０から学習用画像を読み出す。そして、特徴量抽出手段５０は、学習用画像を特徴量抽出モデルに入力し、各区分領域に対応して特徴量抽出モデルが出力した特徴量のそれぞれを当該学習用画像における当該区分領域の区分特徴量として統合手段５２に出力する。

ＣＮＮでモデル化された特徴量抽出モデルは少なくとも畳み込み層を含み、特徴量抽出手段５０は近傍画素の特徴量を畳み込んだ特徴量マップを求める処理を繰り返し行うことで周囲の画素との関係を集約して区分特徴量を抽出することとなる。

より具体的には、図４に示すように、特徴量抽出手段５０は、マルチスケール画像生成手段５００と畳み込み手段５０１を備える。これらの手段を用いた特徴量抽出手段５０の処理を、図４を参照して説明する。

［マルチスケール画像生成手段５００］
マルチスケール画像生成手段５００は、区分の種類によらず１区分領域当たりの画素数が同一となるよう、画像をスケーリング処理して区分の種類ごとの正規化画像を生成する。処理の対象となる画像は学習用画像及び入力画像である。マルチスケール画像生成手段５００は本発明におけるマルチスケールデータ生成手段であり、正規化画像は本発明における正規化データである。

学習装置２００のマルチスケール画像生成手段５００は、学習用画像及び区分領域情報を入力とし、学習用画像をスケーリング処理して区分の種類ごとの正規化画像を生成し、生成した正規化画像を畳み込み手段５０１に出力する。

図３に例示した３種類の区分を用いる本実施形態においては、例えば、８×８区分を基準とし、１２８×１２８画素の画像に対して１区分領域当たり２５６画素となるようなスケーリング処理を施す。区分の各種類に対するスケーリング処理の倍率は、当該種類における区分領域の幅または高さの、基準とする種類における区分領域の幅または高さに対する比となる。例えば、８×８区分を基準とする場合、２×２区分、４×４区分、８×８区分に対応する倍率はそれぞれ１／４、１／２、１／１である。

［畳み込み手段５０１］
畳み込み手段５０１は、ＣＮＮでモデル化された特徴量抽出モデルを用いて、マルチスケール画像生成手段５００から入力された複数の正規化画像から複数種類の区分の区分特徴量を抽出し、抽出した区分特徴量を統合手段５２に出力する。

学習装置２００の畳み込み手段５０１は、正規化画像それぞれを特徴量抽出モデルに入力し、各区分領域に対応して特徴量抽出モデルが出力した特徴量のそれぞれを学習用画像における当該区分領域の区分特徴量とする。

ここで、図４を参照して、図３に例示した３種類の区分で１２８×１２８の画像から特徴量を算出する例について説明する。
特徴量抽出手段５０のマルチスケール画像生成手段５００が１／４縮小処理を行って２×２区分用の１／４画像９００を生成し、特徴量抽出手段５０の畳み込み手段５０１が特徴量抽出モデルに１／４画像９００を入力し、その出力値として要素数が２×２×Ｃ個のテンソルデータ９１０を得る。テンソルデータ９１０は、ｘｙ方向に２×２の配置で区分領域＃０～＃３の区分特徴量が束になったものである。つまり、各区分特徴量はＣチャンネル分の要素を有するベクトルである。
また、マルチスケール画像生成手段５００は４×４区分用の１／２画像９０１を生成し、畳み込み手段５０１は特徴量抽出モデルに１／２画像９０１を入力して区分特徴量＃４～＃１９が束になった４×４×Ｃ要素のテンソルデータ９１１を得る。
また、マルチスケール画像生成手段５００は元の画像をそのまま出力して８×８区分用の１／１画像９０２を生成し、畳み込み手段５０１は特徴量抽出モデルに１／１画像９０２を入力して区分特徴量＃２０～＃８３が束になった８×８×Ｃ要素のテンソルデータ９１２を得る。

［重み計算手段５１］
重み計算手段５１は、任意の注目領域と重複する区分領域の各々について重複度合いに応じた重みを算出する。好適には、注目領域に対する重みは、総和が一定値になるように正規化される。

学習装置２００の重み計算手段５１は、区分領域情報記憶手段４１から区分領域情報を読み出すとともに、学習用データ記憶手段４０から学習用画像及び認識対象領域を読み出し、認識対象領域ごとに、当該認識対象領域と重複する区分領域の各々について、重複度合いに応じた重みを算出する。算出した重みの情報は統合手段５２に入力される。

ここで、重みの情報とは、重み、その算出の基となった画像、注目領域、及び区分領域との対応関係である。本実施形態では、注目領域と重複しない区分領域に対しても重みとして０を設定し、重みと注目領域と区分領域との対応関係を、注目領域ごとに全ての区分領域に対する重みを区分領域の通し番号順に並べたベクトルで表す。

また、重複度合いは、ＩｏＵ（Intersection Of Union）または領域の重心間の距離の逆数と領域の面積一致率との積などとすることができる。例えば、注目領域と区分領域の重複部分（Intersection）の面積をＩ、２つの領域の和領域（Union）の面積をＵとすると、ＩｏＵ＝Ｉ／Ｕである。ＩｏＵの値域は０～１で、０に近いほど２つの領域の重なり度合いが低いことを表す。領域の重心間の距離は注目領域の重心と区分領域の重心の間の距離であり、面積一致率は、ＭＩＮ（区分領域の面積，注目領域の面積）／ＭＡＸ（区分領域の面積，注目領域の面積）であり、これらの積が重複度合いである。

本実施形態では、重み計算手段５１は、注目領域ごとに各区分領域とのＩｏＵを算出し、注目領域ごとの総和が１となるように正規化したＩｏＵを重みとする。

上記図３の例では、画像８００に設定した２つの認識対象領域８０２，８１２に対して、それぞれ重みのベクトル８０６，８１６が算出される。
重みのベクトル８０６は、６個の区分領域＃１，＃７，＃２６，＃２７，＃３４，＃３５に認識対象領域８０２との重複部分があり、それぞれに対する重みが０．０６，０．２０，０．０９，０．１６，０．１６，０．３３であること、上記６個の区分領域以外は認識対象領域８０２との重複部分を有さないこと、を表している。
重みのベクトル８１６は、２３個の区分領域＃０，＃２，＃８，＃９，＃１２，＃１３，＃１６，＃１７，＃４４～＃４６，＃５２～＃５５，＃６０～＃６２，＃６８～＃７０，＃７６～＃７８に認識対象領域８１２との重複部分があり、それぞれに対する重みが０．０２５，０．３７５，…，０．０１５，０．００５であること、上記２０個の区分領域以外は認識対象領域８１２との重複部分を有さないこと、を表している。
なお、重みのベクトル８０６，８１６それぞれの要素の総和は１になっている。

ここで、特徴量抽出モデルの学習の収束性を高め、それを以って当該特徴量抽出モデルによる認識の精度を高めるためには、統合特徴量に対して支配的に寄与する重複パターンが少ない方が望ましい。

図３の例では、認識対象領域８０２が８×８区分８０５における４つの区分領域と重複するパターン、認識対象領域８１２が２×２区分８０３における２つの区分領域と重複するパターン、認識対象領域８１２が４×４区分８０４における６つの区分領域と重複するパターン、および０．９以上などの高い重複度合いで１つの区分領域と重複するパターンの４パターン程度が望ましい。つまり図３の例では、認識対象領域８０２と２×２区分８０３の例のように、低い重複度合いで１つの区分領域と重複するパターンについては、統合特徴量に対する寄与を極小化することが望ましいし、認識対象領域８１２と８×８区分８０５の例のように、７つ以上の区分領域と重複するパターンについても統合特徴量に対する寄与を極小化することが望ましい。図３の例では、これらのパターンに係る重みを、他のパターンに比べて十分に小さくすることができている。これは、上述したように、重み計算手段５１が、複数種類の区分に係る重みを、認識対象領域ごとに総和が一定値になるように正規化する処理の効果である。

［統合手段５２］
統合手段５２は、注目領域が重複する区分領域について抽出された区分特徴量を、当該区分領域のそれぞれについて計算された重みにて重みづけて統合して当該注目領域の統合特徴量を求める。

学習装置２００の統合手段５２は、特徴量抽出手段５０から各区分領域の区分特徴量を入力されるとともに、重み計算手段５１から各区分領域の重みを入力され、認識対象領域ごとに、当該認識対象領域が重複する区分領域について抽出された区分特徴量を、当該区分領域のそれぞれについて計算された重みにて重みづけて統合して統合特徴量を算出し、算出した統合特徴量を学習手段５３へ出力する。

本実施形態では、統合手段５２は区分特徴量の重みづけ和を求めることで統合する。すなわち、統合手段５２は、区分領域ごとに当該区分領域の区分特徴量の全要素に当該区分領域の重みを乗じた上で、全ての区分領域について対応する要素同士を足し合わせる。

このとき、上位の重みに対応する区分特徴量のみを用いてもよい。例えば、統合手段５２は、重みの大きい区分領域から順に重みを累積し、累積値が予め定めた閾値に達するまでの区分領域を統合対象とし、それ以外の区分領域を統合対象外とする。

［学習手段５３］
学習手段５３は、認識対象を表している認識対象領域の統合特徴量が、認識対象を表す画像から予め求められた特徴量と一致するように特徴量抽出モデルを学習する。具体的には、学習手段５３は、認識対象領域について統合手段５２が算出した統合特徴量の、当該領域について学習用データ記憶手段４０に記憶されている教師特徴量に対する誤差を最小化する特徴量抽出モデルを学習する。

例えば、統合特徴量と教師特徴量の平均２乗誤差を算出して当該誤差をエネルギー関数とする勾配法や座標降下法によって当該誤差を小さくするための特徴量抽出モデルのパラメータ更新量を算出し、当該更新量だけ特徴量抽出モデルを更新しては再び統合特徴量を算出させて平均２乗誤差を評価するという処理を、反復終了条件を満たすまで反復する。
ここで、反復終了条件としては、例えば、誤差が予め定めた閾値以下となる、または反復回数（特徴量抽出モデルの更新回数）が予め定めた上限回数に達することとすればよい。

＜学習装置の動作例＞
次に、図５を参照して、学習装置２００の動作例について説明する。

まず、ステップＳ１００にて、重み計算手段５１は、区分領域情報記憶手段４１が記憶している区分領域と、学習用データ記憶手段４０が記憶している認識対象領域を比較し、認識対象領域のそれぞれに対して各区分領域との重複度合いに応じた重みを算出する。そして、重み計算手段５１は認識対象領域ごとの重みの情報を記憶部４に一時記憶させる。

ステップＳ１０１にて、特徴量抽出手段５０のマルチスケール画像生成手段５００は、学習用データ記憶手段４０が記憶している学習用画像を区分の種類のそれぞれと対応する倍率でスケーリング処理する。そして、マルチスケール画像生成手段５００は、処理結果である正規化画像を元となった学習用画像及び区分の種類と対応付けて記憶部４に一時記憶させる。

ステップＳ１０２にて、特徴量抽出手段５０の畳み込み手段５０１は、ステップＳ１０１にて生成した各正規化画像を特徴量抽出モデル記憶手段４２が記憶している特徴量抽出モデルに入力する。その出力値として、当該正規化画像に対応した学習用画像と、当該正規化画像に対応した種類の区分領域それぞれとの組み合わせについての区分特徴量が得られる。そして、畳み込み手段５０１は取得した区分特徴量を学習用画像及び区分領域と対応付けて記憶部４に一時記憶させる。

ステップＳ１０３にて、統合手段５２は、学習用データ記憶手段４０が記憶している学習用画像の認識対象領域ごとに、当該画像に対してステップＳ１０２で算出した区分特徴量を、当該領域に対してステップＳ１０１で算出した重みにて重みづけ加算して、当該領域の統合特徴量を算出する。そして、統合手段５２は、算出した統合特徴量を算出対象の認識対象領域と対応付けて記憶部４に一時記憶させる。

ステップＳ１０４にて、学習手段５３は、認識対象領域ごとに、当該領域についてステップＳ１０３で算出した統合特徴量の、当該領域について学習用データ記憶手段４０が記憶している教師特徴量との誤差を算出する。

ステップＳ１０５にて、学習手段５３は、特徴量抽出モデルのパラメータについてステップＳ１０４で算出した誤差を小さくするための更新量を求め、特徴量抽出モデル記憶手段４２が記憶している特徴量抽出モデルのパラメータを当該更新量だけ更新する。

ステップＳ１０６にて、学習手段５３は、学習が反復終了条件を満たすか否かを判定する。すなわち、ステップＳ１０４で算出した誤差が予め定めた閾値以下であるか、または、ステップＳ１０２～Ｓ１０４を反復した回数が予め定めた上限回数に達したかを判定する。

誤差が閾値を超えており且つ反復が上限回数に達していない場合は、反復終了条件を満たしていないとして処理をステップＳ１０２に戻して反復を続ける。反復継続に際し、ステップＳ１０２～Ｓ１０３での一時記憶結果はクリアする。

誤差が閾値以下であったまたは反復が上限回数に達した場合は、反復終了条件を満たしたとして学習を終了する。

以上説明したように、本発明の実施の形態に係る学習装置によれば、区分領域の大きさ又は間隔が異なる複数種類の区分での区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、複数種類の区分に対し、学習用の処理対象データの区分領域毎に特徴量を抽出し、認識対象を表している認識対象領域と重複する区分領域の各々について、重複度合いに応じた重みを計算し、認識対象領域と重複する区分領域の各々について抽出された特徴量を、重みを用いて統合し、認識対象領域の統合特徴量が、認識対象を表すデータから予め求められた教師特徴量と一致するように特徴量抽出モデルを学習する。これにより、様々なサイズの認識対象領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出できるため、認識対象を高速且つ高精度に認識するための特徴量抽出モデルを学習することができる。

すなわち、統合特徴量は重みを用いた区分特徴量の統合によって高速に求まる。

そしてその際に、背景を含んだ区分領域について抽出される区分特徴量を統合することによって検査領域（学習時は認識対象領域）に現れている認識対象の特徴量を精度よく近似するには、背景の成分が極力除かれて認識対象の成分が支配的な区分特徴量を抽出できる特徴量抽出モデルを得る必要がある。教師特徴量として極力背景の成分を除いて抽出した特徴量を用い、そのような教師特徴量に統合特徴量を近づける学習により、背景を含んだ区分領域に対して認識対象の成分が支配的な区分特徴量を抽出するような特徴量抽出モデルを得ることができる。よって、教師特徴量に統合特徴量を近づける学習により、統合に適した特徴量抽出モデルを得ることができる。
また、精度の高い認識を可能にする特徴量は、認識対象について近傍のデータ（画像の例では近傍の画素）の関係を記述したものであることが多い。精度を追求した教師特徴量もそのような特徴量である。例示したＣＮＮは、畳み込み層やプーリング層の働きによって近傍のデータ同士の関係を記述できる。よって、特徴量抽出モデルをＣＮＮでモデル化して教師特徴量に統合特徴量が一致するように学習を行うことにより、精度の高い認識（すなわち、統合特徴量による教師特徴量の高精度な近似）を可能にし、且つ統合に適した特徴量抽出モデルを得ることができる。

また、上述したように、複数種類の区分を設定して各種類の区分領域との重複度合いに応じた重みで区分特徴量を統合することで、様々な大きさの検査領域（学習時は認識対象領域）に対して適切な大きさの区分領域を含ませることができる。よって、処理対象データ上の大きさが様々な認識対象に対して、精度の高い認識を可能にする特徴量抽出モデルを得ることができる。

また、マルチスケール画像生成手段５００により正規化画像を生成することにより得られる効果について以下説明する。

特徴量が記述する近傍範囲は受容野などと呼ばれる。ＣＮＮ特徴量の場合、受容野の上限は畳み込み層におけるフィルタのサイズやプーリング層における単位領域のサイズ等の固定値により決まり、実質上の受容野は学習を経たパラメータ（畳み込み層の重み等）により決まる。
図３の画像８００において小さく撮影されている人物８０１と大きく撮影されている人物８１１とで認識の精度の格差が生じないようにするには、人物に対する相対的な受容野の大きさが同じであることが望ましい。つまり、様々な大きさの認識対象の像に対して精度の高い認識を行うためには様々な大きさの区分領域に対して相対的な受容野の大きさが同じであることが望ましい。

そこで、本実施の形態では、マルチスケール画像生成手段５００によって１区分領域当たりの画素数を正規化した画像を特徴量抽出モデルに入力する構成としている。これにより、区分の種類によらず共通の特徴量抽出モデルで区分領域に対して相対的な受容野の大きさを同程度にでき、区分間で認識の精度の格差が生じにくくなる。
また、様々な大きさの区分領域の区分特徴量を１つの特徴量抽出モデルで抽出できるように特徴量抽出モデルを学習させている。これにより学習用の処理対象データの多様性が確保されて、認識の精度を向上せしめることができる。

よって、特徴量抽出手段５０を、マルチスケールデータ生成手段によって１区分領域当たりのデータ数を正規化した処理対象データを１つの特徴量抽出モデルに入力する構成として特徴量抽出モデルを学習することで、区分の種類が複数であっても精度の高い認識（すなわち、統合特徴量による教師特徴量の高精度な近似）を可能にする特徴量抽出モデルを得ることができる。

＜認識装置の構成例＞
認識システム１が図６に示す認識装置６００として機能するとき、通信部３は、画像入力手段３０として動作するとともに、表示部６と協働して認識結果出力手段３１として機能する。記憶部４は、区分領域情報記憶手段４１、特徴量抽出モデル記憶手段４２、及びテンプレート特徴量記憶手段４３として機能する。画像処理部５は、検査領域設定手段５５、特徴量抽出手段５０、重み計算手段５１、統合手段５２、及び認識手段５６として機能する。

［画像入力手段３０］
画像入力手段３０は、撮影部２ａ，２ｂ，２ｃ，…が撮影した画像のうち、検索範囲として指定された画像を画像処理部５の特徴量抽出手段５０及び検査領域設定手段５５に入力する。画像入力手段３０により入力される画像を入力画像と称する。画像入力手段３０は本発明におけるデータ入力手段であり、入力画像は本発明における入力データである。

［区分領域情報記憶手段４１］
区分領域情報記憶手段４１は学習装置２００の構成として上述した同手段と同様の情報を記憶する。すなわち、認識装置６００の区分領域情報記憶手段４１は、入力画像を所定サイズの複数の領域に区分する区分領域の設定を表す区分領域情報を予め記憶する。好適には、区分領域は、様々なサイズの検査領域に適応するために、大きさや間隔が異なる複数種類の区分にて設定される。本実施形態では、区分領域の設定は、学習装置２００の構成で上述した設定と共通設定とする。

［特徴量抽出モデル記憶手段４２］
特徴量抽出モデル記憶手段４２は学習装置２００の構成として上述した同手段と同様の情報を記憶する。特徴量抽出モデル記憶手段４２に記憶される特徴量抽出モデルは、上述した学習を経て得られた学習済みの特徴量抽出モデルである。

［検査領域設定手段５５］
検査領域設定手段５５は、入力画像に対して検査領域を設定し、検査領域の情報を重み計算手段５１へ出力する。ここで、検査領域とは認識対象領域の候補として任意に設定される領域である。検査領域の情報とは、検査領域の位置及び大きさであり、例えば矩形領域の１頂点の座標と高さと幅である。

入力画像に撮影されている認識対象の位置及び大きさは未知であり、入力画像に認識対象が撮影されていない場合もある。そのため、検査領域設定手段５５は、検査領域を、位置又は大きさの少なくとも一方を異ならせて複数設定する。本実施形態では、入力画像内の全域に予め定めた間隔で予め定めた８種の大きさの検査領域を設定する。
例えば、１２８×１２８画素の入力画像に、２画素間隔で、１０×２０、１６×３２、２０×４０、２４×４８、３２×６４、４０×８０、４８×９６、６４×１２８画素の検査領域を設定する。なお、別途の画像処理または外部指示によって検査領域の位置を限定してもよい。例えば、背景差分処理を行って差分領域とその周辺の位置にのみ検査領域を設定するようにしてもよい。また、撮影条件を参照して、または外部指示によって、検査領域の大きさを限定してもよい。例えば、入力画像の上部２／３は上記８種の大きさのうち１０×２０～４０×８０画素の大きさのみを設定し、下部２／３は２０×４０～６４×１２８画素の大きさのみを設定するようにしてもよい。また、検査領域の形状を、楕円形状としてもよい。

認識装置６００の特徴量抽出手段５０、マルチスケール画像生成手段５００、畳み込み手段５０１、重み計算手段５１、及び統合手段５２のそれぞれは学習装置２００の構成として上述した同手段と入出力先が一部異なり、入出力されるデータの形式やデータの処理方法は同様である。

［特徴量抽出手段５０］
認識装置６００の特徴量抽出手段５０は、特徴量抽出モデルを用いて、区分領域の各々についての入力画像の区分特徴量を抽出し、抽出した区分特徴量を統合手段５２に出力する。すなわち、特徴量抽出手段５０は、特徴量抽出モデル記憶手段４２から特徴量抽出モデルを、区分領域情報記憶手段４１から区分領域の設定をそれぞれ読み出し、画像入力手段３０から入力された入力画像を特徴量抽出モデルに入力し、各区分領域に対応して特徴量抽出モデルが出力した特徴量のそれぞれを当該入力画像における当該区分領域の区分特徴量とする。

［マルチスケール画像生成手段５００］
認識装置６００のマルチスケール画像生成手段５００は、入力画像及び区分領域情報を入力され、入力画像をスケーリング処理して区分の種類ごとの正規化画像を生成し、生成した正規化画像を畳み込み手段５０１に出力する。

［畳み込み手段５０１］
認識装置６００の畳み込み手段５０１は、ＣＮＮでモデル化された特徴量抽出モデルを用いて、区分領域の各々についての正規化画像の区分特徴量を抽出し、抽出した区分特徴量を対応する入力画像の区分特徴量として統合手段５２に出力する。すなわち、畳み込み手段５０１は、特徴量抽出モデル記憶手段４２から特徴量抽出モデルを読み出し、マルチスケール画像生成手段５００から入力された複数の正規化画像それぞれを特徴量抽出モデルに入力し、各区分領域に対応して特徴量抽出モデルが出力した特徴量のそれぞれを入力画像における当該区分領域の区分特徴量とする。

［重み計算手段５１］
認識装置６００の重み計算手段５１は、区分領域情報記憶手段４１から区分領域の設定を読み出し、画像入力手段３０から入力画像が入力され、当該入力画像に対する検査領域が検査領域設定手段５５から入力されると、検査領域ごとに、当該検査領域と重複する区分領域の各々について、重複度合いに応じた重みを算出し、算出した重みの情報を統合手段５２へ出力する。

重複度合いは学習装置２００と共通であり、本実施形態ではＩｏＵを用いる。また、学習装置２００と同様、重みは、検査領域ごとに総和が一定値になるように正規化される。

［統合手段５２］
認識装置６００の統合手段５２は、特徴量抽出手段５０から各区分領域の区分特徴量を入力されるとともに、重み計算手段５１から各区分領域の重みを入力され、検査領域ごとに、当該検査領域が重複する区分領域について抽出された区分特徴量を、当該区分領域のそれぞれについて計算された重みにて重みづけて統合して統合特徴量を算出し、算出した統合特徴量を認識手段５６に出力する。

統合手段５２における統合方法は学習装置２００と共通であり、本実施形態では全要素についての重みづけ和により統合を行う。

［テンプレート特徴量記憶手段４３］
本実施形態における認識システム１の目的は、指定された入力画像の中から、指定された特定人物の像が撮影されている領域を検出することである。これに対応して、テンプレート特徴量記憶手段４３は当該特定人物のテンプレート特徴量を記憶する。

例えば、特定人物を指定するために通信部３が外部から当該人物のテンプレート特徴量を受信してテンプレート特徴量記憶手段４３が当該特徴量を記憶してもよい。
また、他の例として、特定人物を指定するために通信部３が外部から当該人物の画像を受信する。または認識システム１のユーザーが操作入力部７を操作して撮影部２からの画像上で当該人物の領域を指定する。このように画像で指定された場合、認識手段５６が、教師特徴量の抽出と同様の手法で特徴量を抽出するテンプレート特徴量抽出手段（不図示）を備え、テンプレート特徴量抽出手段を用いて特定人物の画像からテンプレート特徴量を抽出し、テンプレート特徴量記憶手段４３に記憶させてもよい。または、テンプレート特徴量抽出手段の代わりに、特徴量抽出手段５０、重み計算手段５１、及び統合手段５２が協働して特定人物の領域についての統合特徴量をテンプレート特徴量として求めてもよい。

なお、特定人物１人に対してテンプレート特徴量は１つであってもよいし複数であってもよい。

［認識手段５６］
認識手段５６は、統合特徴量を用いて、検査領域が認識対象を表しているか否かを認識する。

例えば、認識手段５６は、テンプレート特徴量が１つの場合、検査領域について算出された統合特徴量とテンプレート特徴量の距離を算出して予め定めた閾値と比較し、距離が閾値以下であれば当該検査領域にテンプレート特徴量が表す特定人物が撮影されていると判断し、その旨を認識結果出力手段３１に出力する。

また、認識手段５６は、テンプレート特徴量が複数の場合、統合特徴量を入力して特定人物か否かを出力するようモデル化したロジスティック回帰モデルやＳＶＭ（サポートベクターマシーン）等の線形識別モデルを、テンプレート特徴量を用いて学習し、学習済みの線形識別モデルに検査領域について算出された統合特徴量を入力して特定人物であるとの出力が得られた検査領域を認識結果出力手段３１に出力する。

［認識結果出力手段３１］
認識結果出力手段３１は、認識手段５６による認識結果を出力する。例えば、認識結果出力手段３１は、認識手段５６から入力された検査領域を表す矩形を当該認識対象が設定された入力画像に重畳して、重畳した画像を表示部６にて表示する。

＜認識装置の動作＞
次に、図７を参照して、認識装置６００の動作例について説明する。

まず、ステップＳ２００にて、画像処理部５は、通信部３により外部からテンプレート特徴量を受信してテンプレート特徴量記憶手段４３に記憶させ、操作入力部７によりユーザーから検索範囲として指定された撮影部２を識別する情報を記憶部４に記憶させる。

ステップＳ２０１にて、検査領域設定手段５５は、入力画像中に検査領域を設定する。

ステップＳ２０２にて、重み計算手段５１は、区分領域情報記憶手段４１が記憶している区分領域と、検査領域設定手段５５が設定した検査領域を比較し、検査領域のそれぞれに対して各区分領域との重複度合いに応じた重みを算出する。そして、重み計算手段５１は、検査領域ごとの重みの情報を記憶部４に一時記憶させる。

ステップＳ２０３にて、ステップＳ２００にて検索範囲に指定された撮像部２からの入力画像を画像入力手段３０により取得する。

ステップＳ２０４にて、特徴量抽出手段５０のマルチスケール画像生成手段５００は、入力画像を区分の種類のそれぞれと対応する倍率でスケーリング処理し、処理結果である正規化画像を区分の種類と対応付けて特徴量抽出手段５０の畳み込み手段５０１に出力する。

ステップＳ２０５にて、畳み込み手段５０１は入力された各正規化画像を特徴量抽出モデル記憶手段４２が記憶している特徴量抽出モデルに入力し、その出力値として当該画像に対応した種類の区分領域それぞれについての区分特徴量を取得する。そして、畳み込み手段５０１は取得した区分特徴量を区分領域と対応付けて記憶部４に一時記憶させる。

ステップＳ２０６にて、画像処理部５は、設定した全ての検査領域について、順次、注目領域に設定する。

ステップＳ２０７にて、統合手段５２は、ステップＳ２０５で算出した区分特徴量を、注目領域に対してステップＳ２０２で算出した重みにて重みづけ加算して、注目領域の統合特徴量を算出し、算出した統合特徴量を認識手段５６に出力する。

ステップＳ２０８にて、認識手段５６は、入力された統合特徴量をテンプレート特徴量記憶手段４３に記憶されているテンプレート特徴量と比較して、統合特徴量が表しているものが認識対象であるか否か（すなわち注目領域に特定人物が撮影されているか否か）を判定する。認識手段５６は認識対象であると判定した注目領域（認識対象領域）と入力画像を記憶部４に記憶させる。

ステップＳ２０９にて、画像処理部５は、全ての検査領域について、上記ステップＳ２０６～ステップＳ２０８の処理を実行したか否かを判定する。上記ステップＳ２０６～ステップＳ２０８の処理を実行していない検査領域が存在する場合には、上記ステップＳ２０６へ戻り、当該検査領域を注目領域に設定する。一方、全ての検査領域について、上記ステップＳ２０６～ステップＳ２０８の処理を実行した場合には、ステップＳ２１０へ移行する。

ステップＳ２１０にて、画像処理部５は、検索範囲の入力画像の全てについて上記ステップＳ２０３～ステップＳ２０９の処理を実行したか否かを判定する。上記ステップＳ２０３～ステップＳ２０９の処理を実行していない入力画像が存在する場合には、上記ステップＳ２０３へ戻り、当該入力画像を取得する。一方、検索範囲の入力画像の全てについて、上記ステップＳ２０３～ステップＳ２０９の処理を実行した場合には、ステップＳ２１１へ移行する。

ステップＳ２１１にて、認識結果出力手段３１は、ステップＳ２０８にて認識手段５６が認識した認識対象領域と入力画像の情報を認識結果として表示する。

以上説明したように、本発明の実施の形態に係る認識装置によれば、区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、上記区分での区分領域毎に特徴量を抽出し、検査領域と重複する区分領域の各々について、重複度合いに応じた重みを計算し、検査領域と重複する区分領域の各々について抽出された特徴量を、重みを用いて統合する。これにより、様々なサイズの検査領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出でき、認識対象を高速且つ高精度に認識できる。

すなわち、特徴量抽出手段５０が入力データからの区分特徴量の抽出を一度行い、任意の検査領域の特徴量は、当該領域の特徴量を抽出し直すよりも格段に処理量の少ない重み計算手段５１と、同じく格段に処理量の少ない統合手段５２によって算出するので、入力データ内の任意の検査領域の特徴量に基づく対象の認識を高速に行うことが可能となる。
さらに、上述したように、複数種類の区分を設定して各種類の区分領域との重複度合いに応じた重みで区分特徴量を統合することで、様々な大きさの検査領域に対して適切な大きさの区分領域を含ませることができる。
よって、様々なサイズの検査領域を設定してもサイズに依存した変動を抑制して高精度な統合特徴量を算出でき、高速且つ高精度な認識が可能となる。

また、上述したように、学習装置２００により学習した特徴量抽出モデルは、教師特徴量に統合特徴量を近づける学習により、精度の高い認識（すなわち、統合特徴量による教師特徴量の高精度な近似）を可能にし、且つ統合に適した区分特徴量を抽出可能なものとなっている。よって、教師特徴量に統合特徴量を一致させる学習が行われた特徴量抽出モデルを用いて区分特徴量を抽出することにより、近似精度の高い統合特徴量を高速に算出して、対象を高速且つ高精度に認識することが可能となる。

また、上述したように、特徴量抽出手段５０を、マルチスケールデータ生成手段によって１区分領域当たりのデータ数を正規化した処理対象データを１つの特徴量抽出モデルに入力する構成として学習した特徴量抽出モデルは、区分の種類が複数であってもより精度の高い認識を可能にするものとなっている。よって、様々なサイズの検査領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出でき、対象を高速且つ高精度に認識できる。

＜変形例＞
なお、本発明は、上述した実施形態の装置構成及び作用に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

上記実施形態では、特定人物の立位全身を認識対象とする例を示したが、上半身、顔など、他の部分を認識対象としてもよい。また、人を認識対象としても良い（人であるか否かを認識）。また、車両、犬など、人以外を認識対象としても良い。また、個体や物体の種類ではなく、姿勢、笑顔など、状態を認識対象としても良い。なお、例えば特定人物の上半身を認識対象とする場合は学習用画像における認識対象領域を上半身の外接矩形とし且つ教師特徴量を上半身による認識のために特化した学習を行ったＣＮＮに入力して得られた特徴量とするなど、認識対象に適合した学習用データを用意して学習装置２００に供すればよい。

また、処理対象データを二次元の可視光画像とする例を示したが、処理対象データは近赤外画像、距離画像など他の二次元画像としてもよい。また、撮影部２の代わりに多視点カメラや三次元計測器を用い、処理対象データを多視点の二次元画像から構築した三次元データやポイントクラウドなどの三次元データとしてもよい。その場合の区分領域、検査領域、認識対象領域は三次元の領域となる。また、処理対象データを二次元画像の時系列、三次元データの時系列としてもよい。その場合の区分領域、検査領域、認識対象領域は時空間での領域となる。また、処理対象データは、例えば二次元画像にエッジオペレータを施したエッジ画像、或いは二次元画像から各画素における認識対象の存在度を解析した存在度マップなど、上述したデータを一次加工したデータであってもよい。

また、学習装置２００と認識装置６００を別体として構成してもよい。この場合、両装置に共通の処理手段については共通のプログラムを複製して各装置の記憶部に記憶させ、学習装置２００での学習を終えた特徴量抽出モデルを認識装置６００の特徴量抽出モデルに複製すればよい。その場合、学習装置２００と認識装置６００は１対多であってもよい。また、撮影部２に代えて録画機や外部ストレージを接続してもよい。データ入力手段は、録画機から順次出力される画像を特徴量抽出手段５０等に入力し、または外部ストレージが記憶している画像を順次読み出して特徴量抽出手段５０等に入力してもよい。

また、教師特徴量が、区分特徴量及び統合特徴量と同種とする例を示したが、区分特徴量及び統合特徴量とは異種の特徴量であってもよい。例えば、区分特徴量及び統合特徴量がＣＮＮ特徴量である場合に、教師特徴量がＨＯＧ（Histogram of Oriented Gradient）特徴量、ＬＢＰ（Local Binary Pattern）特徴量、あるいはそれらの特徴量及びＣＮＮ特徴量のうちの２以上の組み合わせ、などであってもよい。

また、学習手段５３による更新量の算出では、ＣＮＮのようにパラメータが微分可能な特徴量抽出モデルの場合は勾配法や座標降下法で更新量を算出でき、パラメータが微分不能な特徴量抽出モデルの場合は、焼きなまし法等で更新量を算出できる。

また、教師特徴量が、区分特徴量及び統合特徴量とデータ形式（ベクトルの次元数など）を同一とする例を示したが、データ形式が異なっていてもよい。ただしデータ形式を異ならせる場合は、学習手段５３に教師特徴量と統合特徴量のデータ形式を同一にするデータ形式変換手段を備えさせ、学習手段５３はデータ形式変換手段によりデータ形式を同一にした統合特徴量と教師特徴量の間の誤差を算出すればよい。例えば、教師特徴量が、区分特徴量及び統合特徴量とベクトルの次元数が異なっている場合には、データ形式変換手段により、ベクトルの次元数を同一にするように変換する。また、教師特徴量が行列形式で、区分特徴量及び統合特徴量がベクトル形式である場合には、データ形式変換手段により、行列形式及びベクトル形式の何れか一方に合わせるように変換する。

また、区分の種類は、２種類であってもよいし、４種類以上であってもよい。

また、区分特徴量としてＣＮＮ特徴量に代えてパワースペクトル特徴量を抽出してもよい。

その場合の特徴量抽出手段５０の構成図を、図８に示す。特徴量抽出手段５０は、拡張区分領域画像切り出し手段５０２及びパワースペクトル算出手段５０３を備えている。

拡張区分領域画像切り出し手段５０２は、入力画像から、区分領域情報で記述される区分領域に従って、区分領域の各々に対応する拡張区分領域画像を切り出し、同一サイズにスケーリング処理する。拡張区分領域とは、近傍の区分領域も含めて記述する為に、各区分領域を拡大させた領域のことである。例えば、区分領域を中心にしてその大きさを１．５倍した領域を、拡張区分領域として設定しても良い。

図８の例では、２×２区分用の区分領域＃０～＃３を１．５倍した９６×９６画素の画像４枚を切り出し、それぞれを３２×３２画素にスケーリング処理した４枚の拡張区分領域画像９５０を生成している。なお、拡張区分領域画像９５０内の太線は元の区分領域を示している。また、４×４区分用の区分領域＃４～＃１９を１．５倍した４８×４８画素の画像１６枚を切り出し、それぞれを３２×３２画素にした１６枚の拡張区分領域画像９５１を生成している。また、８×８区分用の区分領域＃２０～＃８３を１．５倍した２４×２４画素の画像６４枚を切り出し、それぞれを３２×３２画素にした６４枚の拡張区分領域画像９５２を生成している。

また、図９に、拡張区分領域及び拡張区分領域画像の例を示す。図９の例では、８×８区分において認識対象領域８０２と重複する区分領域＃２６，＃２７，＃３４，＃３５のうち、区分領域＃２６の区分領域画像９８０ａ，９８０ｂに対して、区分領域＃２６の拡張区分領域画像９８１ａ，９８１ｂを切り出している。また、区分領域＃２７の区分領域画像９８２ａ，９８２ｂに対して、区分領域＃２７の拡張区分領域画像９８３ａ，９８３ｂを切り出している。また、区分領域＃３４の区分領域画像９８４ａ，９８４ｂに対して、区分領域＃３４の拡張区分領域画像９８５ａ，９８５ｂを切り出している。また、区分領域＃３５の区分領域画像９８６ａ，９８６ｂに対して、区分領域＃３５の拡張区分領域画像９８７ａ，９８７ｂを切り出している。

パワースペクトル算出手段５０３は、バンドパスフィルタを読み込み、各拡張区分領域画像をバンドパスフィルタに入力して拡張区分領域ごとのパワースペクトル特徴量を出力させる。このバンドパスフィルタは事前の実験を通じて認識処理や認識対象に応じて予め適宜に設計しておけばよい。つまり、ここで示しているのは学習が不要な特徴量抽出手段５０の例である。そして、パワースペクトル算出手段５０３は各拡張区分領域のパワースペクトル特徴量を区分領域の配置通りに並べる。上記図８に示すように、各拡張区分領域画像９５０、９５１、９５２に対してテンソルデータ９６０、９６１、９６２が算出される。このパワースペクトル特徴量は、拡張区分により周辺との関係が記述でき、バンド数だけの次元を有する特徴量である。

このように、区分領域の各々に対応する拡張区分領域画像を同一サイズにする処理を含んでパワースペクトル特徴量を算出する特徴量抽出手段５０によっても、検査領域のサイズに依存した変動を抑制して高精度な統合特徴量を算出できる。
なお、ＣＮＮ特徴量やパワースペクトル特徴量以外にも公知の特徴量のうちの、周辺との関係を記述可能な多次元の特徴量を採用することもできる。

また、複数種類の区分の全てを用いて統合特徴量を算出する例を示したが、区分の種類について選択的に用いて統合特徴量を算出してもよい。
例えば、重み計算手段５１は、各注目領域（学習時は認識対象領域、認識時は検査領域）と重複する区分領域を区分の種類ごとに計数し、複数種類の区分のうち、いずれかの注目領域と重複する区分領域の数が所定範囲外である区分が存在した場合に、当該注目領域ついて当該区分の区分領域に対する重みを０とする。すなわち、図３の例において所定範囲を１個以上６個以下に設定した場合、８×８区分８０５が注目領域８１２に対する不適合サイズとして明示的に統合から除外される。また、所定範囲を２個以上６個以下に設定すれば２×２区分８０３と４×４区分８０４が注目領域８０２に対する不適合サイズとして除外される。こうすることによってもサイズ違いに起因する統合特徴量の変動を抑制した高精度な認識を実現できる。

また、重み計算手段５１は、各注目領域に包含される区分領域の有無を区分の種類ごとに判定し、いずれかの注目領域に包含される区分領域を有する区分が存在する場合に、当該注目領域に対する当該区分の区分領域に対する重みを０としてもよい。すなわち、図３の例では、注目領域８０２について２×２区分８０３と４×４区分８０４が、注目領域８１２について８×８区分８０５が、それぞれ不適合サイズとして明示的に除外される。こうすることによってもサイズ違いに起因する統合特徴量の変動を抑制した高精度な認識を実現できる。

以上のように、当業者は本発明の範囲内で、実施される形態に合わせて様々な変更を行うことができる。

１認識システム
２撮影部
３通信部
４記憶部
５画像処理部
６表示部
７操作入力部
３０画像入力手段
３１認識結果出力手段
４０学習用データ記憶手段
４１区分領域情報記憶手段
４２特徴量抽出モデル記憶手段
４３テンプレート特徴量記憶手段
５０特徴量抽出手段
５１重み計算手段
５２統合手段
５３学習手段
５５検査領域設定手段
５６認識手段
２００学習装置
５００マルチスケール画像生成手段
５０１畳み込み手段
５０２拡張区分領域画像切り出し手段
５０３パワースペクトル算出手段
６００認識装置

Claims

区分領域の大きさ又は間隔が異なる複数種類の区分それぞれに対し、前記区分領域毎に入力データから特徴量を抽出する特徴量抽出手段と、
前記複数種類の区分それぞれに対し、前記入力データに設定される検査領域と重複する前記区分領域の各々について、当該検査領域との重複度合いに応じた重みを計算する重み計算手段と、
前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、
前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段と、
を含み、
前記重み計算手段は、前記複数種類の区分について前記区分領域ごとに求めた前記重複度合いを示す値の総和が一定値となるよう正規化して前記区分領域毎の前記重みを計算する認識装置。
前記特徴量抽出手段は、前記入力データを、前記複数種類の区分に対応する複数種類のサイズに変更した正規化データを生成するマルチデータ生成手段を更に含み、
前記複数種類の区分に対し、前記区分に対応する前記正規化データの、前記区分での前記区分領域毎に特徴量を抽出する請求項１記載の認識装置。
区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出する特徴量抽出手段と、
検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段と、
前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、
前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段と、
を含み、
前記重み計算手段は、前記複数種類の区分のうち、前記検査領域と重複する区分領域の数が所定範囲外である区分が存在する場合に、当該検査領域に対する当該区分の前記区分領域に対する重みを０とする認識装置。
区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出する特徴量抽出手段と、
検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段と、
前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、
前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段と、
を含み、
前記重み計算手段は、前記複数種類の区分のうち、前記検査領域に包含される前記区分領域を含んだ区分が存在する場合に、当該検査領域に対する当該区分の前記区分領域に対する重みを０とする認識装置。
前記検査領域を、位置又は大きさの少なくとも一方を異ならせて複数設定し、
前記重み計算手段は、前記検査領域毎に、当該検査領域と重複する前記区分領域の各々について前記重みを計算し、
前記統合手段は、前記検査領域毎に、前記統合特徴量を求め、
前記認識手段は、前記検査領域毎に、当該検査領域が、前記認識対象を表しているか否かを認識する請求項１～４のいずれかひとつに記載の認識装置。
前記特徴量抽出手段は、前記複数種類の区分での区分領域毎の特徴量を抽出するための特徴量抽出モデルを用いて、前記複数種類の区分に対し、前記入力データの区分領域毎に特徴量を抽出する請求項１～５のいずれかひとつに記載の認識装置。
処理対象データを入力とし、区分領域の大きさ又は間隔が異なる複数種類の区分での前記区分領域毎の特徴量を抽出するための特徴量抽出モデルを用いて、前記複数種類の区分に対し、学習用の前記処理対象データの前記区分それぞれの前記区分領域毎に特徴量を抽出する特徴量抽出手段と、
前記複数種類の区分それぞれに対し、認識対象を表している認識対象領域と重複する前記区分領域の各々について、当該認識対象領域との重複度合いに応じた重みを計算する重み計算手段と、
前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、
前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する学習手段と、
を含み、
前記重み計算手段は、前記複数種類の区分について前記区分領域ごとに求めた前記重複度合いを示す値の総和が一定値となるよう正規化して前記区分領域毎の前記重みを計算する学習装置。
請求項１～６のいずれかひとつに記載の認識装置と、
請求項７に記載の学習装置とを含み、
前記認識装置の前記特徴量抽出手段は、前記学習装置によって学習された前記特徴量抽出モデルを用いて、前記複数種類の区分に対し、前記入力データの前記区分領域毎に特徴量を抽出する
認識システム。
特徴量抽出手段が、区分領域の大きさ又は間隔が異なる複数種類の区分それぞれに対し、前記区分領域毎に入力データから特徴量を抽出し、
重み計算手段が、前記複数種類の区分それぞれに対し、前記入力データに設定される検査領域と重複する前記区分領域の各々について、当該検査領域との重複度合いに応じた重みを計算し、
統合手段が、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求め、
認識手段が、前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識し、
前記重み計算手段は、前記複数種類の区分について前記区分領域ごとに求めた前記重複度合いを示す値の総和が一定値となるよう正規化して前記区分領域毎の前記重みを計算する認識方法。
コンピュータを、
区分領域の大きさ又は間隔が異なる複数種類の区分それぞれに対し、前記区分領域毎に入力データから特徴量を抽出する特徴量抽出手段、
前記複数種類の区分それぞれに対し、前記入力データに設定される検査領域と重複する前記区分領域の各々について、当該検査領域との重複度合いに応じた重みを計算する重み計算手段、
前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段、及び
前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段
として機能させ、
前記重み計算手段は、前記複数種類の区分について前記区分領域ごとに求めた前記重複度合いを示す値の総和が一定値となるよう正規化して前記区分領域毎の前記重みを計算するように機能させるための認識プログラム。