JP7441656B2 - 認識装置、学習装置、認識システム、認識方法、及び認識プログラム - Google Patents

認識装置、学習装置、認識システム、認識方法、及び認識プログラム Download PDF

Info

Publication number
JP7441656B2
JP7441656B2 JP2020008942A JP2020008942A JP7441656B2 JP 7441656 B2 JP7441656 B2 JP 7441656B2 JP 2020008942 A JP2020008942 A JP 2020008942A JP 2020008942 A JP2020008942 A JP 2020008942A JP 7441656 B2 JP7441656 B2 JP 7441656B2
Authority
JP
Japan
Prior art keywords
segmented
feature
recognition
area
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020008942A
Other languages
English (en)
Other versions
JP2021117565A (ja
Inventor
友祐 佐野
健 糸賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP2020008942A priority Critical patent/JP7441656B2/ja
Publication of JP2021117565A publication Critical patent/JP2021117565A/ja
Application granted granted Critical
Publication of JP7441656B2 publication Critical patent/JP7441656B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、処理対象データ中の領域が認識対象を表しているか否かを認識するための認識装置、学習装置、認識システム、認識方法、及び認識プログラムに関する。
雑踏を撮影した画像を基に特定の人物を検出する、画像内の人や車両を検出するなどの各種認識処理においては、一般に、画像内の全域に様々な大きさで検査領域を設定し、設定した検査領域の数だけ特徴量抽出と特徴量比較を繰り返す必要がある。この特徴量は、検査領域ごとに抽出し直すのが最も高精度であるが膨大な処理となってしまう。そのため検査領域の特徴量抽出などに対する高速化が強く望まれている。
特許文献1には、予めブロックごとに抽出された特徴量を利用する画像特徴量比較装置が記載されている。すなわち、異なる基準でブロック分割された2つの画像をブロック単位で比較する際、一方の画像のブロックに重なる他方の画像の複数のブロックの特徴量を、重なっている部分の面積の割合で重みづけ加算して他方の画像の特徴量としている。
このように、予めブロックごとに抽出した特徴量を統合して任意の検査領域の特徴量を近似的に算出すれば、高速な特徴量抽出が可能となる。
特開2002-042134号公報
しかしながら、従来技術では、ブロック(区分領域)のサイズと検査領域のサイズとの差が大きな場合が考慮されておらず、区分領域と検査領域のサイズの違いに起因して統合した特徴量(統合特徴量)が大きく変動してしまい、その結果、認識精度が低下する問題があった。
区分領域と検査領域のサイズの差が大きくなると、検査領域と区分領域とが包含関係に無い重複パターンだけでなく、検査領域に包含される区分領域を含む重複パターンや、検査領域が区分領域に包含される重複パターンが生じ、検査領域と区分領域の重複パターンが多様化することで、上記の統合特徴量の変動が生じると考えられる。同様の問題は、三次元データなど、二次元画像以外の各種処理対象データでも生じる。
そこで、本発明は、上記問題を鑑みてなされたものであり、様々なサイズの検査領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出でき、認識対象を高速且つ高精度に認識できる認識装置、学習装置、認識システム、認識方法、及び認識プログラムを提供することを目的とする。
上記の目的を達成するために本発明に係る認識装置は、区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出する特徴量抽出手段と、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段と、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段と、を含んで構成されている。
本発明に係る認識装置によれば、特徴量抽出手段によって、区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出する。重み計算手段によって、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する。統合手段によって、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める。認識手段によって、前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する。
このように、区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出し、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算し、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、重みを用いて統合する。これにより、様々なサイズの検査領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出でき、認識対象を高速且つ高精度に認識できる。
また、前記特徴量抽出手段は、前記入力データを、前記複数種類の区分に対応する複数種類のサイズに変更した正規化データを生成するマルチデータ生成手段を更に含み、前記複数種類の区分に対し、前記区分に対応する前記正規化データの、前記区分での前記区分領域毎に特徴量を抽出することができる。
また、前記重み計算手段は、前記複数種類の区分に前記検査領域と重複する区分領域の数が所定範囲外である区分が存在する場合に、当該検査領域に対する当該区分の前記区分領域に対する重みを0とすることができる。
また、前記重み計算手段は、前記複数種類の区分に前記検査領域に包含される前記区分領域を含んだ区分が存在する場合に、当該検査領域に対する当該区分の前記区分領域に対する重みを0とすることができる。
また、前記検査領域を、位置又は大きさの少なくとも一方を異ならせて複数設定し、前記重み計算手段は、前記検査領域毎に、当該検査領域と重複する前記区分領域の各々について前記重みを計算し、前記統合手段は、前記検査領域毎に、前記統合特徴量を求め、前記認識手段は、前記検査領域毎に、当該検査領域が、前記認識対象を表しているか否かを認識することができる。
また、前記特徴量抽出手段は、前記複数種類の区分での前記区分領域毎の特徴量を抽出するための特徴量抽出モデルを用いて、前記複数種類の区分に対し、前記入力データの前記区分領域毎に特徴量を抽出することができる。
本発明に係る学習装置は、処理対象データを入力とし、区分領域の大きさ又は間隔が異なる複数種類の区分での前記区分領域毎の特徴量を抽出するための特徴量抽出モデルを用いて、前記複数種類の区分に対し、学習用の前記処理対象データの前記区分領域毎に特徴量を抽出する特徴量抽出手段と、認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段と、前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する学習手段と、を含んで構成されている。
本発明に係る学習装置によれば、特徴量抽出手段によって、区分領域の大きさ又は間隔が異なる複数種類の区分での前記区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、前記複数種類の区分に対し、学習用の処理対象データの前記区分領域毎に特徴量を抽出する。重み計算手段によって、認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する。統合手段によって、前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める。学習手段によって、前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する。
このように、区分領域の大きさ又は間隔が異なる複数種類の区分での前記区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、前記複数種類の区分に対し、学習用の処理対象データの前記区分領域毎に特徴量を抽出し、認識対象を表している認識対象領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算し、前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、重みを用いて統合し、前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する。これにより、様々なサイズの認識対象領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出できるため、認識対象を高速且つ高精度に認識するための特徴量抽出モデルを学習することができる。
本発明に係る認識システムは、上記の認識装置と、上記の学習装置とを含み、前記認識装置の前記特徴量抽出手段は、前記学習装置によって学習された前記特徴量抽出モデルを用いて、前記複数種類の区分に対し、前記入力データの前記区分領域毎に特徴量を抽出する。
本発明に係る認識方法は、特徴量抽出手段が、区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出し、重み計算手段が、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算し、統合手段が、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求め、認識手段が、前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する。
本発明に係る認識プログラムは、コンピュータを、区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出する特徴量抽出手段、検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段、及び前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段として機能させるためのプログラムである。
以上説明したように、本発明に係る認識装置、認識システム、認識方法、及び認識プログラムによれば、様々なサイズの検査領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出でき、認識対象を高速且つ高精度に認識できる、という効果が得られる。
また、本発明に係る学習装置によれば、様々なサイズの認識対象領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出できるよう特徴量抽出モデルを学習するため、認識対象を高速且つ高精度に認識するための特徴量抽出モデルを学習することができる、という効果が得られる。
本発明の実施の形態に係る認識システムの構成を示す概略図である。 本発明の実施の形態に係る学習装置の構成を示すブロック図である。 区分領域の設定と重みの例を示す図である。 本発明の実施の形態に係る学習装置の特徴量抽出手段の構成を示すブロック図である。 本発明の実施の形態に係る学習装置による学習処理の動作を示すフローチャートである。 本発明の実施の形態に係る認識装置の構成を示すブロック図である。 本発明の実施の形態に係る認識装置による認識処理の動作を示すフローチャートである。 本発明の実施の形態の他の例に係る学習装置及び認識装置の特徴量抽出手段の構成を示すブロック図である。 区分領域画像と拡張区分領域画像の例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、認識システムの実施形態の一例として、特定人物の立位全身のテンプレートが指定され、さらに複数の撮影部(カメラ)のうちのどれを検索範囲とするかが指定されると、検索範囲のカメラによって撮影された画像内に検査領域を順次設定して各検査領域の特徴量をテンプレートと照合し、テンプレートと同一人物の立位全身の像が撮影されている領域を検出する人物同定システムを説明する。
すなわち、本実施形態において、処理対象データは画像であり、認識処理は照合ないしReID(再同定)であり、認識対象は特定人物の立位全身である。
<認識システムの構成>
以下、本発明を適用した認識システム1の概略構成を示した図1を参照し、本発明の実施の形態の構成を説明する。
認識システム1は、撮影部2a,2b,2c,…、通信部3、記憶部4、画像処理部5、表示部6、及び操作入力部7を有する。
撮影部2a,2b,2c,…は、所定の領域を監視する目的で設置される監視カメラであり、異なる監視対象領域の各々について、当該領域内に滞在する人物が撮影できる位置に取り付けられる。撮影部2a,2b,2c,…で撮影した画像は通信部3を介して画像処理部5に送信される。
通信部3は、撮影部2a,2b,2c、画像処理部5、及び表示部6の間でデータの送受信を行なう。LAN(Local Area Network)や、インターネット等の公衆回線を利用できる。
記憶部4は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等で構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
画像処理部5は、CPU、MPU、周辺回路、端子、各種メモリ等で構成され、撮影部2a,2b,2c,…が撮影した画像に対して画像処理を施した結果を、通信部3を介して表示部6に送信する。
表示部6は、例えば、液晶ディスプレイであり、各種の情報を表示する。
操作入力部7は、ユーザーにより操作され、テンプレートや検索範囲の指定入力を受け付けるためのマウスやキーボード等である。
認識システム1は、後述する学習装置200及び認識装置600として機能する。
<学習装置の構成例>
認識システム1が図2に示す学習装置200として機能するとき、記憶部4は、学習用データ記憶手段40、区分領域情報記憶手段41、及び特徴量抽出モデル記憶手段42として機能する。画像処理部5は、特徴量抽出手段50、重み計算手段51、統合手段52、及び学習手段53として機能する。
[学習用データ記憶手段40]
学習用データ記憶手段40は、多数の学習用画像、認識対象領域、及び教師特徴量を含む学習用データを記憶する。
学習用画像は、例えば、認識対象である人が撮影された画像である。認識対象領域は画像において認識対象が撮影されている領域である。学習用データ記憶手段40に記憶される認識対象領域は、各学習用画像における認識対象領域を意味し、例えば、学習用画像内の人の像の外接矩形である。この外接矩形は、認識対象ではない背景の部分が少なくなるよう設定される。なお、矩形ではなく楕円でもよいし、認識対象の外形そのものであってもよい。認識対象領域は、例えば、予め学習用データの作成者が目視確認の上、手作業により設定される。認識対象を自動認識する処理により仮設定した後に作成者が修正して設定されてもよい。
また、認識対象領域それぞれの情報は、当該領域が設定された学習用画像と対応付けて、学習用データ記憶手段40に記憶される。ちなみに1枚の学習用画像に複数の認識対象が撮影されている場合、学習用画像と認識対象領域が1対多で対応付けて記憶される。
教師特徴量は、認識対象領域における学習用画像の特徴量である。教師特徴量は、計算時間を度外視して、後述する認識手段56に入力されたときの認識精度を追求した特徴量である。教師特徴量は、特徴量抽出モデルの学習において、後述する統合手段52が出力する統合特徴量の目標値となる。
教師特徴量は、少なくとも統合特徴量とデータ形式が同一である。本実施形態では、教師特徴量は、Cチャンネル分の次元数を有するベクトル(C≧2)である。また、本実施形態では、教師特徴量は、後述する区分特徴量及び統合特徴量と同種のCNN特徴量である。
例えば、特徴量抽出モデルとは別に教師特徴量抽出モデルを用意し、上述した学習用データに認識手段56が出力すべき正解データを加えた学習用データを用いて当該教師特徴量抽出モデルの学習を十分に行い、学習済みの教師特徴量抽出モデルに学習用データを入力して得られる特徴量を教師特徴量とすることができる。
具体的には、例えば、教師特徴量抽出モデルを特徴量抽出モデルよりも多層のCNNとし、教師特徴量抽出モデルの出力値が認識手段56に入力されるよう教師特徴量抽出モデルと認識手段56を接続した装置を用意する。この装置に、学習用画像から認識対象領域を切り出した切り出し画像を入力して得られる出力値(認識手段56の出力値)が正解データとなるよう十分に反復させて教師特徴量抽出モデルを学習する。そして、学習済みの教師特徴量抽出モデルに再び各切り出し画像を入力して得られる出力値を認識対象領域に対応する教師特徴量とすることができる。
[区分領域情報記憶手段41]
区分領域情報記憶手段41は、画像を所定サイズの複数の領域に区分する区分領域の設定を表す区分領域情報を予め記憶している。区分領域情報は、区分領域そのものを定めた情報とすることができ、具体的には各区分領域の位置及び大きさ(幅、高さ)である。区分の対象となる画像は学習用画像及び入力画像である。なお、本実施形態では、学習用画像のサイズは入力画像のサイズと同一とする。
好適には、区分領域は、様々なサイズの検査領域に適応するために、大きさや間隔が異なる複数種類の区分にて設定される。
本実施形態では、図3に示すように、128×128画素の画像800に対し、複数種類の区分803、804、805にて設定される。区分803は、幅、高さ、及び間隔がそれぞれ64画素の2×2区分である。また、区分804は、幅、高さ、及び間隔がそれぞれ32画素の4×4区分である。また、区分805は、幅、高さ、及び間隔がそれぞれ16画素の8×8区分である。また、これら3種類の区分803、804、805の区分領域に0から83までの通し番号を付与しておく。
なお、区分領域そのものを定めた設定に代えて「区分するための設定」を記憶してもよい。区分するための設定とは、区分領域の大きさ、及び区分領域間の間隔である。
また、区分領域間の間隔は、後述する検査領域設定手段55が検査領域を設定する間隔よりも大きいという条件を満たす範囲内であれば、隣り合う区分領域同士のオーバーラップを許容して区分領域の幅及び高さより小さく設定してもよい。
[特徴量抽出モデル記憶手段42]
特徴量抽出モデル記憶手段42は、特徴量抽出モデルを記憶する。本実施形態においては、特徴量抽出モデルを深層学習(Deep Learning)で用いられるような多層のネットワークで構成された畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)でモデル化する。すなわち、特徴量抽出モデルは、畳み込み層や活性化関数、プーリング(pooling)層などの複数の層が直列に接続されたネットワーク構造を有し、特徴量抽出モデル記憶手段42は、ネットワークを構成するフィルタのフィルタ係数やネットワーク構造などを含めた情報を記憶する。
そして、上記フィルタ係数など、これら各層のパラメータが学習によって更新される。
[特徴量抽出手段50]
特徴量抽出手段50は、特徴量抽出モデルを用いて、区分領域の各々についての画像の特徴量を抽出する。以下、区分領域の各々についての特徴量を区分特徴量と称する。抽出の対象となる画像は学習用画像及び入力画像である。
学習装置200の特徴量抽出手段50は、特徴量抽出モデル記憶手段42から特徴量抽出モデルを、区分領域情報記憶手段41から区分領域情報をそれぞれ読み出すとともに、学習用データ記憶手段40から学習用画像を読み出す。そして、特徴量抽出手段50は、学習用画像を特徴量抽出モデルに入力し、各区分領域に対応して特徴量抽出モデルが出力した特徴量のそれぞれを当該学習用画像における当該区分領域の区分特徴量として統合手段52に出力する。
CNNでモデル化された特徴量抽出モデルは少なくとも畳み込み層を含み、特徴量抽出手段50は近傍画素の特徴量を畳み込んだ特徴量マップを求める処理を繰り返し行うことで周囲の画素との関係を集約して区分特徴量を抽出することとなる。
より具体的には、図4に示すように、特徴量抽出手段50は、マルチスケール画像生成手段500と畳み込み手段501を備える。これらの手段を用いた特徴量抽出手段50の処理を、図4を参照して説明する。
[マルチスケール画像生成手段500]
マルチスケール画像生成手段500は、区分の種類によらず1区分領域当たりの画素数が同一となるよう、画像をスケーリング処理して区分の種類ごとの正規化画像を生成する。処理の対象となる画像は学習用画像及び入力画像である。マルチスケール画像生成手段500は本発明におけるマルチスケールデータ生成手段であり、正規化画像は本発明における正規化データである。
学習装置200のマルチスケール画像生成手段500は、学習用画像及び区分領域情報を入力とし、学習用画像をスケーリング処理して区分の種類ごとの正規化画像を生成し、生成した正規化画像を畳み込み手段501に出力する。
図3に例示した3種類の区分を用いる本実施形態においては、例えば、8×8区分を基準とし、128×128画素の画像に対して1区分領域当たり256画素となるようなスケーリング処理を施す。区分の各種類に対するスケーリング処理の倍率は、当該種類における区分領域の幅または高さの、基準とする種類における区分領域の幅または高さに対する比となる。例えば、8×8区分を基準とする場合、2×2区分、4×4区分、8×8区分に対応する倍率はそれぞれ1/4、1/2、1/1である。
[畳み込み手段501]
畳み込み手段501は、CNNでモデル化された特徴量抽出モデルを用いて、マルチスケール画像生成手段500から入力された複数の正規化画像から複数種類の区分の区分特徴量を抽出し、抽出した区分特徴量を統合手段52に出力する。
学習装置200の畳み込み手段501は、正規化画像それぞれを特徴量抽出モデルに入力し、各区分領域に対応して特徴量抽出モデルが出力した特徴量のそれぞれを学習用画像における当該区分領域の区分特徴量とする。
ここで、図4を参照して、図3に例示した3種類の区分で128×128の画像から特徴量を算出する例について説明する。
特徴量抽出手段50のマルチスケール画像生成手段500が1/4縮小処理を行って2×2区分用の1/4画像900を生成し、特徴量抽出手段50の畳み込み手段501が特徴量抽出モデルに1/4画像900を入力し、その出力値として要素数が2×2×C個のテンソルデータ910を得る。テンソルデータ910は、xy方向に2×2の配置で区分領域#0~#3の区分特徴量が束になったものである。つまり、各区分特徴量はCチャンネル分の要素を有するベクトルである。
また、マルチスケール画像生成手段500は4×4区分用の1/2画像901を生成し、畳み込み手段501は特徴量抽出モデルに1/2画像901を入力して区分特徴量#4~#19が束になった4×4×C要素のテンソルデータ911を得る。
また、マルチスケール画像生成手段500は元の画像をそのまま出力して8×8区分用の1/1画像902を生成し、畳み込み手段501は特徴量抽出モデルに1/1画像902を入力して区分特徴量#20~#83が束になった8×8×C要素のテンソルデータ912を得る。
[重み計算手段51]
重み計算手段51は、任意の注目領域と重複する区分領域の各々について重複度合いに応じた重みを算出する。好適には、注目領域に対する重みは、総和が一定値になるように正規化される。
学習装置200の重み計算手段51は、区分領域情報記憶手段41から区分領域情報を読み出すとともに、学習用データ記憶手段40から学習用画像及び認識対象領域を読み出し、認識対象領域ごとに、当該認識対象領域と重複する区分領域の各々について、重複度合いに応じた重みを算出する。算出した重みの情報は統合手段52に入力される。
ここで、重みの情報とは、重み、その算出の基となった画像、注目領域、及び区分領域との対応関係である。本実施形態では、注目領域と重複しない区分領域に対しても重みとして0を設定し、重みと注目領域と区分領域との対応関係を、注目領域ごとに全ての区分領域に対する重みを区分領域の通し番号順に並べたベクトルで表す。
また、重複度合いは、IoU(Intersection Of Union)または領域の重心間の距離の逆数と領域の面積一致率との積などとすることができる。例えば、注目領域と区分領域の重複部分(Intersection)の面積をI、2つの領域の和領域(Union)の面積をUとすると、IoU=I/Uである。IoUの値域は0~1で、0に近いほど2つの領域の重なり度合いが低いことを表す。領域の重心間の距離は注目領域の重心と区分領域の重心の間の距離であり、面積一致率は、MIN(区分領域の面積,注目領域の面積)/MAX(区分領域の面積,注目領域の面積)であり、これらの積が重複度合いである。
本実施形態では、重み計算手段51は、注目領域ごとに各区分領域とのIoUを算出し、注目領域ごとの総和が1となるように正規化したIoUを重みとする。
上記図3の例では、画像800に設定した2つの認識対象領域802,812に対して、それぞれ重みのベクトル806,816が算出される。
重みのベクトル806は、6個の区分領域#1,#7,#26,#27,#34,#35に認識対象領域802との重複部分があり、それぞれに対する重みが0.06,0.20,0.09,0.16,0.16,0.33であること、上記6個の区分領域以外は認識対象領域802との重複部分を有さないこと、を表している。
重みのベクトル816は、23個の区分領域#0,#2,#8,#9,#12,#13,#16,#17,#44~#46,#52~#55,#60~#62,#68~#70,#76~#78に認識対象領域812との重複部分があり、それぞれに対する重みが0.025,0.375,…,0.015,0.005であること、上記20個の区分領域以外は認識対象領域812との重複部分を有さないこと、を表している。
なお、重みのベクトル806,816それぞれの要素の総和は1になっている。
ここで、特徴量抽出モデルの学習の収束性を高め、それを以って当該特徴量抽出モデルによる認識の精度を高めるためには、統合特徴量に対して支配的に寄与する重複パターンが少ない方が望ましい。
図3の例では、認識対象領域802が8×8区分805における4つの区分領域と重複するパターン、認識対象領域812が2×2区分803における2つの区分領域と重複するパターン、認識対象領域812が4×4区分804における6つの区分領域と重複するパターン、および0.9以上などの高い重複度合いで1つの区分領域と重複するパターンの4パターン程度が望ましい。つまり図3の例では、認識対象領域802と2×2区分803の例のように、低い重複度合いで1つの区分領域と重複するパターンについては、統合特徴量に対する寄与を極小化することが望ましいし、認識対象領域812と8×8区分805の例のように、7つ以上の区分領域と重複するパターンについても統合特徴量に対する寄与を極小化することが望ましい。図3の例では、これらのパターンに係る重みを、他のパターンに比べて十分に小さくすることができている。これは、上述したように、重み計算手段51が、複数種類の区分に係る重みを、認識対象領域ごとに総和が一定値になるように正規化する処理の効果である。
[統合手段52]
統合手段52は、注目領域が重複する区分領域について抽出された区分特徴量を、当該区分領域のそれぞれについて計算された重みにて重みづけて統合して当該注目領域の統合特徴量を求める。
学習装置200の統合手段52は、特徴量抽出手段50から各区分領域の区分特徴量を入力されるとともに、重み計算手段51から各区分領域の重みを入力され、認識対象領域ごとに、当該認識対象領域が重複する区分領域について抽出された区分特徴量を、当該区分領域のそれぞれについて計算された重みにて重みづけて統合して統合特徴量を算出し、算出した統合特徴量を学習手段53へ出力する。
本実施形態では、統合手段52は区分特徴量の重みづけ和を求めることで統合する。すなわち、統合手段52は、区分領域ごとに当該区分領域の区分特徴量の全要素に当該区分領域の重みを乗じた上で、全ての区分領域について対応する要素同士を足し合わせる。
このとき、上位の重みに対応する区分特徴量のみを用いてもよい。例えば、統合手段52は、重みの大きい区分領域から順に重みを累積し、累積値が予め定めた閾値に達するまでの区分領域を統合対象とし、それ以外の区分領域を統合対象外とする。
[学習手段53]
学習手段53は、認識対象を表している認識対象領域の統合特徴量が、認識対象を表す画像から予め求められた特徴量と一致するように特徴量抽出モデルを学習する。具体的には、学習手段53は、認識対象領域について統合手段52が算出した統合特徴量の、当該領域について学習用データ記憶手段40に記憶されている教師特徴量に対する誤差を最小化する特徴量抽出モデルを学習する。
例えば、統合特徴量と教師特徴量の平均2乗誤差を算出して当該誤差をエネルギー関数とする勾配法や座標降下法によって当該誤差を小さくするための特徴量抽出モデルのパラメータ更新量を算出し、当該更新量だけ特徴量抽出モデルを更新しては再び統合特徴量を算出させて平均2乗誤差を評価するという処理を、反復終了条件を満たすまで反復する。
ここで、反復終了条件としては、例えば、誤差が予め定めた閾値以下となる、または反復回数(特徴量抽出モデルの更新回数)が予め定めた上限回数に達することとすればよい。
<学習装置の動作例>
次に、図5を参照して、学習装置200の動作例について説明する。
まず、ステップS100にて、重み計算手段51は、区分領域情報記憶手段41が記憶している区分領域と、学習用データ記憶手段40が記憶している認識対象領域を比較し、認識対象領域のそれぞれに対して各区分領域との重複度合いに応じた重みを算出する。そして、重み計算手段51は認識対象領域ごとの重みの情報を記憶部4に一時記憶させる。
ステップS101にて、特徴量抽出手段50のマルチスケール画像生成手段500は、学習用データ記憶手段40が記憶している学習用画像を区分の種類のそれぞれと対応する倍率でスケーリング処理する。そして、マルチスケール画像生成手段500は、処理結果である正規化画像を元となった学習用画像及び区分の種類と対応付けて記憶部4に一時記憶させる。
ステップS102にて、特徴量抽出手段50の畳み込み手段501は、ステップS101にて生成した各正規化画像を特徴量抽出モデル記憶手段42が記憶している特徴量抽出モデルに入力する。その出力値として、当該正規化画像に対応した学習用画像と、当該正規化画像に対応した種類の区分領域それぞれとの組み合わせについての区分特徴量が得られる。そして、畳み込み手段501は取得した区分特徴量を学習用画像及び区分領域と対応付けて記憶部4に一時記憶させる。
ステップS103にて、統合手段52は、学習用データ記憶手段40が記憶している学習用画像の認識対象領域ごとに、当該画像に対してステップS102で算出した区分特徴量を、当該領域に対してステップS101で算出した重みにて重みづけ加算して、当該領域の統合特徴量を算出する。そして、統合手段52は、算出した統合特徴量を算出対象の認識対象領域と対応付けて記憶部4に一時記憶させる。
ステップS104にて、学習手段53は、認識対象領域ごとに、当該領域についてステップS103で算出した統合特徴量の、当該領域について学習用データ記憶手段40が記憶している教師特徴量との誤差を算出する。
ステップS105にて、学習手段53は、特徴量抽出モデルのパラメータについてステップS104で算出した誤差を小さくするための更新量を求め、特徴量抽出モデル記憶手段42が記憶している特徴量抽出モデルのパラメータを当該更新量だけ更新する。
ステップS106にて、学習手段53は、学習が反復終了条件を満たすか否かを判定する。すなわち、ステップS104で算出した誤差が予め定めた閾値以下であるか、または、ステップS102~S104を反復した回数が予め定めた上限回数に達したかを判定する。
誤差が閾値を超えており且つ反復が上限回数に達していない場合は、反復終了条件を満たしていないとして処理をステップS102に戻して反復を続ける。反復継続に際し、ステップS102~S103での一時記憶結果はクリアする。
誤差が閾値以下であったまたは反復が上限回数に達した場合は、反復終了条件を満たしたとして学習を終了する。
以上説明したように、本発明の実施の形態に係る学習装置によれば、区分領域の大きさ又は間隔が異なる複数種類の区分での区分領域毎の特徴量を抽出する特徴量抽出モデルを用いて、複数種類の区分に対し、学習用の処理対象データの区分領域毎に特徴量を抽出し、認識対象を表している認識対象領域と重複する区分領域の各々について、重複度合いに応じた重みを計算し、認識対象領域と重複する区分領域の各々について抽出された特徴量を、重みを用いて統合し、認識対象領域の統合特徴量が、認識対象を表すデータから予め求められた教師特徴量と一致するように特徴量抽出モデルを学習する。これにより、様々なサイズの認識対象領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出できるため、認識対象を高速且つ高精度に認識するための特徴量抽出モデルを学習することができる。
すなわち、統合特徴量は重みを用いた区分特徴量の統合によって高速に求まる。
そしてその際に、背景を含んだ区分領域について抽出される区分特徴量を統合することによって検査領域(学習時は認識対象領域)に現れている認識対象の特徴量を精度よく近似するには、背景の成分が極力除かれて認識対象の成分が支配的な区分特徴量を抽出できる特徴量抽出モデルを得る必要がある。教師特徴量として極力背景の成分を除いて抽出した特徴量を用い、そのような教師特徴量に統合特徴量を近づける学習により、背景を含んだ区分領域に対して認識対象の成分が支配的な区分特徴量を抽出するような特徴量抽出モデルを得ることができる。よって、教師特徴量に統合特徴量を近づける学習により、統合に適した特徴量抽出モデルを得ることができる。
また、精度の高い認識を可能にする特徴量は、認識対象について近傍のデータ(画像の例では近傍の画素)の関係を記述したものであることが多い。精度を追求した教師特徴量もそのような特徴量である。例示したCNNは、畳み込み層やプーリング層の働きによって近傍のデータ同士の関係を記述できる。よって、特徴量抽出モデルをCNNでモデル化して教師特徴量に統合特徴量が一致するように学習を行うことにより、精度の高い認識(すなわち、統合特徴量による教師特徴量の高精度な近似)を可能にし、且つ統合に適した特徴量抽出モデルを得ることができる。
また、上述したように、複数種類の区分を設定して各種類の区分領域との重複度合いに応じた重みで区分特徴量を統合することで、様々な大きさの検査領域(学習時は認識対象領域)に対して適切な大きさの区分領域を含ませることができる。よって、処理対象データ上の大きさが様々な認識対象に対して、精度の高い認識を可能にする特徴量抽出モデルを得ることができる。
また、マルチスケール画像生成手段500により正規化画像を生成することにより得られる効果について以下説明する。
特徴量が記述する近傍範囲は受容野などと呼ばれる。CNN特徴量の場合、受容野の上限は畳み込み層におけるフィルタのサイズやプーリング層における単位領域のサイズ等の固定値により決まり、実質上の受容野は学習を経たパラメータ(畳み込み層の重み等)により決まる。
図3の画像800において小さく撮影されている人物801と大きく撮影されている人物811とで認識の精度の格差が生じないようにするには、人物に対する相対的な受容野の大きさが同じであることが望ましい。つまり、様々な大きさの認識対象の像に対して精度の高い認識を行うためには様々な大きさの区分領域に対して相対的な受容野の大きさが同じであることが望ましい。
そこで、本実施の形態では、マルチスケール画像生成手段500によって1区分領域当たりの画素数を正規化した画像を特徴量抽出モデルに入力する構成としている。これにより、区分の種類によらず共通の特徴量抽出モデルで区分領域に対して相対的な受容野の大きさを同程度にでき、区分間で認識の精度の格差が生じにくくなる。
また、様々な大きさの区分領域の区分特徴量を1つの特徴量抽出モデルで抽出できるように特徴量抽出モデルを学習させている。これにより学習用の処理対象データの多様性が確保されて、認識の精度を向上せしめることができる。
よって、特徴量抽出手段50を、マルチスケールデータ生成手段によって1区分領域当たりのデータ数を正規化した処理対象データを1つの特徴量抽出モデルに入力する構成として特徴量抽出モデルを学習することで、区分の種類が複数であっても精度の高い認識(すなわち、統合特徴量による教師特徴量の高精度な近似)を可能にする特徴量抽出モデルを得ることができる。
<認識装置の構成例>
認識システム1が図6に示す認識装置600として機能するとき、通信部3は、画像入力手段30として動作するとともに、表示部6と協働して認識結果出力手段31として機能する。記憶部4は、区分領域情報記憶手段41、特徴量抽出モデル記憶手段42、及びテンプレート特徴量記憶手段43として機能する。画像処理部5は、検査領域設定手段55、特徴量抽出手段50、重み計算手段51、統合手段52、及び認識手段56として機能する。
[画像入力手段30]
画像入力手段30は、撮影部2a,2b,2c,…が撮影した画像のうち、検索範囲として指定された画像を画像処理部5の特徴量抽出手段50及び検査領域設定手段55に入力する。画像入力手段30により入力される画像を入力画像と称する。画像入力手段30は本発明におけるデータ入力手段であり、入力画像は本発明における入力データである。
[区分領域情報記憶手段41]
区分領域情報記憶手段41は学習装置200の構成として上述した同手段と同様の情報を記憶する。すなわち、認識装置600の区分領域情報記憶手段41は、入力画像を所定サイズの複数の領域に区分する区分領域の設定を表す区分領域情報を予め記憶する。好適には、区分領域は、様々なサイズの検査領域に適応するために、大きさや間隔が異なる複数種類の区分にて設定される。本実施形態では、区分領域の設定は、学習装置200の構成で上述した設定と共通設定とする。
[特徴量抽出モデル記憶手段42]
特徴量抽出モデル記憶手段42は学習装置200の構成として上述した同手段と同様の情報を記憶する。特徴量抽出モデル記憶手段42に記憶される特徴量抽出モデルは、上述した学習を経て得られた学習済みの特徴量抽出モデルである。
[検査領域設定手段55]
検査領域設定手段55は、入力画像に対して検査領域を設定し、検査領域の情報を重み計算手段51へ出力する。ここで、検査領域とは認識対象領域の候補として任意に設定される領域である。検査領域の情報とは、検査領域の位置及び大きさであり、例えば矩形領域の1頂点の座標と高さと幅である。
入力画像に撮影されている認識対象の位置及び大きさは未知であり、入力画像に認識対象が撮影されていない場合もある。そのため、検査領域設定手段55は、検査領域を、位置又は大きさの少なくとも一方を異ならせて複数設定する。本実施形態では、入力画像内の全域に予め定めた間隔で予め定めた8種の大きさの検査領域を設定する。
例えば、128×128画素の入力画像に、2画素間隔で、10×20、16×32、20×40、24×48、32×64、40×80、48×96、64×128画素の検査領域を設定する。なお、別途の画像処理または外部指示によって検査領域の位置を限定してもよい。例えば、背景差分処理を行って差分領域とその周辺の位置にのみ検査領域を設定するようにしてもよい。また、撮影条件を参照して、または外部指示によって、検査領域の大きさを限定してもよい。例えば、入力画像の上部2/3は上記8種の大きさのうち10×20~40×80画素の大きさのみを設定し、下部2/3は20×40~64×128画素の大きさのみを設定するようにしてもよい。また、検査領域の形状を、楕円形状としてもよい。
認識装置600の特徴量抽出手段50、マルチスケール画像生成手段500、畳み込み手段501、重み計算手段51、及び統合手段52のそれぞれは学習装置200の構成として上述した同手段と入出力先が一部異なり、入出力されるデータの形式やデータの処理方法は同様である。
[特徴量抽出手段50]
認識装置600の特徴量抽出手段50は、特徴量抽出モデルを用いて、区分領域の各々についての入力画像の区分特徴量を抽出し、抽出した区分特徴量を統合手段52に出力する。すなわち、特徴量抽出手段50は、特徴量抽出モデル記憶手段42から特徴量抽出モデルを、区分領域情報記憶手段41から区分領域の設定をそれぞれ読み出し、画像入力手段30から入力された入力画像を特徴量抽出モデルに入力し、各区分領域に対応して特徴量抽出モデルが出力した特徴量のそれぞれを当該入力画像における当該区分領域の区分特徴量とする。
[マルチスケール画像生成手段500]
認識装置600のマルチスケール画像生成手段500は、入力画像及び区分領域情報を入力され、入力画像をスケーリング処理して区分の種類ごとの正規化画像を生成し、生成した正規化画像を畳み込み手段501に出力する。
[畳み込み手段501]
認識装置600の畳み込み手段501は、CNNでモデル化された特徴量抽出モデルを用いて、区分領域の各々についての正規化画像の区分特徴量を抽出し、抽出した区分特徴量を対応する入力画像の区分特徴量として統合手段52に出力する。すなわち、畳み込み手段501は、特徴量抽出モデル記憶手段42から特徴量抽出モデルを読み出し、マルチスケール画像生成手段500から入力された複数の正規化画像それぞれを特徴量抽出モデルに入力し、各区分領域に対応して特徴量抽出モデルが出力した特徴量のそれぞれを入力画像における当該区分領域の区分特徴量とする。
[重み計算手段51]
認識装置600の重み計算手段51は、区分領域情報記憶手段41から区分領域の設定を読み出し、画像入力手段30から入力画像が入力され、当該入力画像に対する検査領域が検査領域設定手段55から入力されると、検査領域ごとに、当該検査領域と重複する区分領域の各々について、重複度合いに応じた重みを算出し、算出した重みの情報を統合手段52へ出力する。
重複度合いは学習装置200と共通であり、本実施形態ではIoUを用いる。また、学習装置200と同様、重みは、検査領域ごとに総和が一定値になるように正規化される。
[統合手段52]
認識装置600の統合手段52は、特徴量抽出手段50から各区分領域の区分特徴量を入力されるとともに、重み計算手段51から各区分領域の重みを入力され、検査領域ごとに、当該検査領域が重複する区分領域について抽出された区分特徴量を、当該区分領域のそれぞれについて計算された重みにて重みづけて統合して統合特徴量を算出し、算出した統合特徴量を認識手段56に出力する。
統合手段52における統合方法は学習装置200と共通であり、本実施形態では全要素についての重みづけ和により統合を行う。
[テンプレート特徴量記憶手段43]
本実施形態における認識システム1の目的は、指定された入力画像の中から、指定された特定人物の像が撮影されている領域を検出することである。これに対応して、テンプレート特徴量記憶手段43は当該特定人物のテンプレート特徴量を記憶する。
例えば、特定人物を指定するために通信部3が外部から当該人物のテンプレート特徴量を受信してテンプレート特徴量記憶手段43が当該特徴量を記憶してもよい。
また、他の例として、特定人物を指定するために通信部3が外部から当該人物の画像を受信する。または認識システム1のユーザーが操作入力部7を操作して撮影部2からの画像上で当該人物の領域を指定する。このように画像で指定された場合、認識手段56が、教師特徴量の抽出と同様の手法で特徴量を抽出するテンプレート特徴量抽出手段(不図示)を備え、テンプレート特徴量抽出手段を用いて特定人物の画像からテンプレート特徴量を抽出し、テンプレート特徴量記憶手段43に記憶させてもよい。または、テンプレート特徴量抽出手段の代わりに、特徴量抽出手段50、重み計算手段51、及び統合手段52が協働して特定人物の領域についての統合特徴量をテンプレート特徴量として求めてもよい。
なお、特定人物1人に対してテンプレート特徴量は1つであってもよいし複数であってもよい。
[認識手段56]
認識手段56は、統合特徴量を用いて、検査領域が認識対象を表しているか否かを認識する。
例えば、認識手段56は、テンプレート特徴量が1つの場合、検査領域について算出された統合特徴量とテンプレート特徴量の距離を算出して予め定めた閾値と比較し、距離が閾値以下であれば当該検査領域にテンプレート特徴量が表す特定人物が撮影されていると判断し、その旨を認識結果出力手段31に出力する。
また、認識手段56は、テンプレート特徴量が複数の場合、統合特徴量を入力して特定人物か否かを出力するようモデル化したロジスティック回帰モデルやSVM(サポートベクターマシーン)等の線形識別モデルを、テンプレート特徴量を用いて学習し、学習済みの線形識別モデルに検査領域について算出された統合特徴量を入力して特定人物であるとの出力が得られた検査領域を認識結果出力手段31に出力する。
[認識結果出力手段31]
認識結果出力手段31は、認識手段56による認識結果を出力する。例えば、認識結果出力手段31は、認識手段56から入力された検査領域を表す矩形を当該認識対象が設定された入力画像に重畳して、重畳した画像を表示部6にて表示する。
<認識装置の動作>
次に、図7を参照して、認識装置600の動作例について説明する。
まず、ステップS200にて、画像処理部5は、通信部3により外部からテンプレート特徴量を受信してテンプレート特徴量記憶手段43に記憶させ、操作入力部7によりユーザーから検索範囲として指定された撮影部2を識別する情報を記憶部4に記憶させる。
ステップS201にて、検査領域設定手段55は、入力画像中に検査領域を設定する。
ステップS202にて、重み計算手段51は、区分領域情報記憶手段41が記憶している区分領域と、検査領域設定手段55が設定した検査領域を比較し、検査領域のそれぞれに対して各区分領域との重複度合いに応じた重みを算出する。そして、重み計算手段51は、検査領域ごとの重みの情報を記憶部4に一時記憶させる。
ステップS203にて、ステップS200にて検索範囲に指定された撮像部2からの入力画像を画像入力手段30により取得する。
ステップS204にて、特徴量抽出手段50のマルチスケール画像生成手段500は、入力画像を区分の種類のそれぞれと対応する倍率でスケーリング処理し、処理結果である正規化画像を区分の種類と対応付けて特徴量抽出手段50の畳み込み手段501に出力する。
ステップS205にて、畳み込み手段501は入力された各正規化画像を特徴量抽出モデル記憶手段42が記憶している特徴量抽出モデルに入力し、その出力値として当該画像に対応した種類の区分領域それぞれについての区分特徴量を取得する。そして、畳み込み手段501は取得した区分特徴量を区分領域と対応付けて記憶部4に一時記憶させる。
ステップS206にて、画像処理部5は、設定した全ての検査領域について、順次、注目領域に設定する。
ステップS207にて、統合手段52は、ステップS205で算出した区分特徴量を、注目領域に対してステップS202で算出した重みにて重みづけ加算して、注目領域の統合特徴量を算出し、算出した統合特徴量を認識手段56に出力する。
ステップS208にて、認識手段56は、入力された統合特徴量をテンプレート特徴量記憶手段43に記憶されているテンプレート特徴量と比較して、統合特徴量が表しているものが認識対象であるか否か(すなわち注目領域に特定人物が撮影されているか否か)を判定する。認識手段56は認識対象であると判定した注目領域(認識対象領域)と入力画像を記憶部4に記憶させる。
ステップS209にて、画像処理部5は、全ての検査領域について、上記ステップS206~ステップS208の処理を実行したか否かを判定する。上記ステップS206~ステップS208の処理を実行していない検査領域が存在する場合には、上記ステップS206へ戻り、当該検査領域を注目領域に設定する。一方、全ての検査領域について、上記ステップS206~ステップS208の処理を実行した場合には、ステップS210へ移行する。
ステップS210にて、画像処理部5は、検索範囲の入力画像の全てについて上記ステップS203~ステップS209の処理を実行したか否かを判定する。上記ステップS203~ステップS209の処理を実行していない入力画像が存在する場合には、上記ステップS203へ戻り、当該入力画像を取得する。一方、検索範囲の入力画像の全てについて、上記ステップS203~ステップS209の処理を実行した場合には、ステップS211へ移行する。
ステップS211にて、認識結果出力手段31は、ステップS208にて認識手段56が認識した認識対象領域と入力画像の情報を認識結果として表示する。
以上説明したように、本発明の実施の形態に係る認識装置によれば、区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、上記区分での区分領域毎に特徴量を抽出し、検査領域と重複する区分領域の各々について、重複度合いに応じた重みを計算し、検査領域と重複する区分領域の各々について抽出された特徴量を、重みを用いて統合する。これにより、様々なサイズの検査領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出でき、認識対象を高速且つ高精度に認識できる。
すなわち、特徴量抽出手段50が入力データからの区分特徴量の抽出を一度行い、任意の検査領域の特徴量は、当該領域の特徴量を抽出し直すよりも格段に処理量の少ない重み計算手段51と、同じく格段に処理量の少ない統合手段52によって算出するので、入力データ内の任意の検査領域の特徴量に基づく対象の認識を高速に行うことが可能となる。
さらに、上述したように、複数種類の区分を設定して各種類の区分領域との重複度合いに応じた重みで区分特徴量を統合することで、様々な大きさの検査領域に対して適切な大きさの区分領域を含ませることができる。
よって、様々なサイズの検査領域を設定してもサイズに依存した変動を抑制して高精度な統合特徴量を算出でき、高速且つ高精度な認識が可能となる。
また、上述したように、学習装置200により学習した特徴量抽出モデルは、教師特徴量に統合特徴量を近づける学習により、精度の高い認識(すなわち、統合特徴量による教師特徴量の高精度な近似)を可能にし、且つ統合に適した区分特徴量を抽出可能なものとなっている。よって、教師特徴量に統合特徴量を一致させる学習が行われた特徴量抽出モデルを用いて区分特徴量を抽出することにより、近似精度の高い統合特徴量を高速に算出して、対象を高速且つ高精度に認識することが可能となる。
また、上述したように、特徴量抽出手段50を、マルチスケールデータ生成手段によって1区分領域当たりのデータ数を正規化した処理対象データを1つの特徴量抽出モデルに入力する構成として学習した特徴量抽出モデルは、区分の種類が複数であってもより精度の高い認識を可能にするものとなっている。よって、様々なサイズの検査領域を設定してもサイズに依存した変動を抑制して高速に統合特徴量を算出でき、対象を高速且つ高精度に認識できる。
<変形例>
なお、本発明は、上述した実施形態の装置構成及び作用に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
上記実施形態では、特定人物の立位全身を認識対象とする例を示したが、上半身、顔など、他の部分を認識対象としてもよい。また、人を認識対象としても良い(人であるか否かを認識)。また、車両、犬など、人以外を認識対象としても良い。また、個体や物体の種類ではなく、姿勢、笑顔など、状態を認識対象としても良い。なお、例えば特定人物の上半身を認識対象とする場合は学習用画像における認識対象領域を上半身の外接矩形とし且つ教師特徴量を上半身による認識のために特化した学習を行ったCNNに入力して得られた特徴量とするなど、認識対象に適合した学習用データを用意して学習装置200に供すればよい。
また、処理対象データを二次元の可視光画像とする例を示したが、処理対象データは近赤外画像、距離画像など他の二次元画像としてもよい。また、撮影部2の代わりに多視点カメラや三次元計測器を用い、処理対象データを多視点の二次元画像から構築した三次元データやポイントクラウドなどの三次元データとしてもよい。その場合の区分領域、検査領域、認識対象領域は三次元の領域となる。また、処理対象データを二次元画像の時系列、三次元データの時系列としてもよい。その場合の区分領域、検査領域、認識対象領域は時空間での領域となる。また、処理対象データは、例えば二次元画像にエッジオペレータを施したエッジ画像、或いは二次元画像から各画素における認識対象の存在度を解析した存在度マップなど、上述したデータを一次加工したデータであってもよい。
また、学習装置200と認識装置600を別体として構成してもよい。この場合、両装置に共通の処理手段については共通のプログラムを複製して各装置の記憶部に記憶させ、学習装置200での学習を終えた特徴量抽出モデルを認識装置600の特徴量抽出モデルに複製すればよい。その場合、学習装置200と認識装置600は1対多であってもよい。また、撮影部2に代えて録画機や外部ストレージを接続してもよい。データ入力手段は、録画機から順次出力される画像を特徴量抽出手段50等に入力し、または外部ストレージが記憶している画像を順次読み出して特徴量抽出手段50等に入力してもよい。
また、教師特徴量が、区分特徴量及び統合特徴量と同種とする例を示したが、区分特徴量及び統合特徴量とは異種の特徴量であってもよい。例えば、区分特徴量及び統合特徴量がCNN特徴量である場合に、教師特徴量がHOG(Histogram of Oriented Gradient)特徴量、LBP(Local Binary Pattern)特徴量、あるいはそれらの特徴量及びCNN特徴量のうちの2以上の組み合わせ、などであってもよい。
また、学習手段53による更新量の算出では、CNNのようにパラメータが微分可能な特徴量抽出モデルの場合は勾配法や座標降下法で更新量を算出でき、パラメータが微分不能な特徴量抽出モデルの場合は、焼きなまし法等で更新量を算出できる。
また、教師特徴量が、区分特徴量及び統合特徴量とデータ形式(ベクトルの次元数など)を同一とする例を示したが、データ形式が異なっていてもよい。ただしデータ形式を異ならせる場合は、学習手段53に教師特徴量と統合特徴量のデータ形式を同一にするデータ形式変換手段を備えさせ、学習手段53はデータ形式変換手段によりデータ形式を同一にした統合特徴量と教師特徴量の間の誤差を算出すればよい。例えば、教師特徴量が、区分特徴量及び統合特徴量とベクトルの次元数が異なっている場合には、データ形式変換手段により、ベクトルの次元数を同一にするように変換する。また、教師特徴量が行列形式で、区分特徴量及び統合特徴量がベクトル形式である場合には、データ形式変換手段により、行列形式及びベクトル形式の何れか一方に合わせるように変換する。
また、区分の種類は、2種類であってもよいし、4種類以上であってもよい。
また、区分特徴量としてCNN特徴量に代えてパワースペクトル特徴量を抽出してもよい。
その場合の特徴量抽出手段50の構成図を、図8に示す。特徴量抽出手段50は、拡張区分領域画像切り出し手段502及びパワースペクトル算出手段503を備えている。
拡張区分領域画像切り出し手段502は、入力画像から、区分領域情報で記述される区分領域に従って、区分領域の各々に対応する拡張区分領域画像を切り出し、同一サイズにスケーリング処理する。拡張区分領域とは、近傍の区分領域も含めて記述する為に、各区分領域を拡大させた領域のことである。例えば、区分領域を中心にしてその大きさを1.5倍した領域を、拡張区分領域として設定しても良い。
図8の例では、2×2区分用の区分領域#0~#3を1.5倍した96×96画素の画像4枚を切り出し、それぞれを32×32画素にスケーリング処理した4枚の拡張区分領域画像950を生成している。なお、拡張区分領域画像950内の太線は元の区分領域を示している。また、4×4区分用の区分領域#4~#19を1.5倍した48×48画素の画像16枚を切り出し、それぞれを32×32画素にした16枚の拡張区分領域画像951を生成している。また、8×8区分用の区分領域#20~#83を1.5倍した24×24画素の画像64枚を切り出し、それぞれを32×32画素にした64枚の拡張区分領域画像952を生成している。
また、図9に、拡張区分領域及び拡張区分領域画像の例を示す。図9の例では、8×8区分において認識対象領域802と重複する区分領域#26,#27,#34,#35のうち、区分領域#26の区分領域画像980a,980bに対して、区分領域#26の拡張区分領域画像981a,981bを切り出している。また、区分領域#27の区分領域画像982a,982bに対して、区分領域#27の拡張区分領域画像983a,983bを切り出している。また、区分領域#34の区分領域画像984a,984bに対して、区分領域#34の拡張区分領域画像985a,985bを切り出している。また、区分領域#35の区分領域画像986a,986bに対して、区分領域#35の拡張区分領域画像987a,987bを切り出している。
パワースペクトル算出手段503は、バンドパスフィルタを読み込み、各拡張区分領域画像をバンドパスフィルタに入力して拡張区分領域ごとのパワースペクトル特徴量を出力させる。このバンドパスフィルタは事前の実験を通じて認識処理や認識対象に応じて予め適宜に設計しておけばよい。つまり、ここで示しているのは学習が不要な特徴量抽出手段50の例である。そして、パワースペクトル算出手段503は各拡張区分領域のパワースペクトル特徴量を区分領域の配置通りに並べる。上記図8に示すように、各拡張区分領域画像950、951、952に対してテンソルデータ960、961、962が算出される。このパワースペクトル特徴量は、拡張区分により周辺との関係が記述でき、バンド数だけの次元を有する特徴量である。
このように、区分領域の各々に対応する拡張区分領域画像を同一サイズにする処理を含んでパワースペクトル特徴量を算出する特徴量抽出手段50によっても、検査領域のサイズに依存した変動を抑制して高精度な統合特徴量を算出できる。
なお、CNN特徴量やパワースペクトル特徴量以外にも公知の特徴量のうちの、周辺との関係を記述可能な多次元の特徴量を採用することもできる。
また、複数種類の区分の全てを用いて統合特徴量を算出する例を示したが、区分の種類について選択的に用いて統合特徴量を算出してもよい。
例えば、重み計算手段51は、各注目領域(学習時は認識対象領域、認識時は検査領域)と重複する区分領域を区分の種類ごとに計数し、複数種類の区分のうち、いずれかの注目領域と重複する区分領域の数が所定範囲外である区分が存在した場合に、当該注目領域ついて当該区分の区分領域に対する重みを0とする。すなわち、図3の例において所定範囲を1個以上6個以下に設定した場合、8×8区分805が注目領域812に対する不適合サイズとして明示的に統合から除外される。また、所定範囲を2個以上6個以下に設定すれば2×2区分803と4×4区分804が注目領域802に対する不適合サイズとして除外される。こうすることによってもサイズ違いに起因する統合特徴量の変動を抑制した高精度な認識を実現できる。
また、重み計算手段51は、各注目領域に包含される区分領域の有無を区分の種類ごとに判定し、いずれかの注目領域に包含される区分領域を有する区分が存在する場合に、当該注目領域に対する当該区分の区分領域に対する重みを0としてもよい。すなわち、図3の例では、注目領域802について2×2区分803と4×4区分804が、注目領域812について8×8区分805が、それぞれ不適合サイズとして明示的に除外される。こうすることによってもサイズ違いに起因する統合特徴量の変動を抑制した高精度な認識を実現できる。
以上のように、当業者は本発明の範囲内で、実施される形態に合わせて様々な変更を行うことができる。
1 認識システム
2 撮影部
3 通信部
4 記憶部
5 画像処理部
6 表示部
7 操作入力部
30 画像入力手段
31 認識結果出力手段
40 学習用データ記憶手段
41 区分領域情報記憶手段
42 特徴量抽出モデル記憶手段
43 テンプレート特徴量記憶手段
50 特徴量抽出手段
51 重み計算手段
52 統合手段
53 学習手段
55 検査領域設定手段
56 認識手段
200 学習装置
500 マルチスケール画像生成手段
501 畳み込み手段
502 拡張区分領域画像切り出し手段
503 パワースペクトル算出手段
600 認識装置

Claims (10)

  1. 区分領域の大きさ又は間隔が異なる複数種類の区分それぞれに対し、前記区分領域毎に入力データから特徴量を抽出する特徴量抽出手段と、
    前記複数種類の区分それぞれに対し、前記入力データに設定される検査領域と重複する前記区分領域の各々について、当該検査領域との重複度合いに応じた重みを計算する重み計算手段と、
    前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、
    前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段と、
    を含み、
    前記重み計算手段は、前記複数種類の区分について前記区分領域ごとに求めた前記重複度合いを示す値の総和が一定値となるよう正規化して前記区分領域毎の前記重みを計算する認識装置。
  2. 前記特徴量抽出手段は、前記入力データを、前記複数種類の区分に対応する複数種類のサイズに変更した正規化データを生成するマルチデータ生成手段を更に含み、
    前記複数種類の区分に対し、前記区分に対応する前記正規化データの、前記区分での前記区分領域毎に特徴量を抽出する請求項1記載の認識装置。
  3. 区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出する特徴量抽出手段と、
    検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段と、
    前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、
    前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段と、
    を含み、
    前記重み計算手段は、前記複数種類の区分のうち、前記検査領域と重複する区分領域の数が所定範囲外である区分が存在する場合に、当該検査領域に対する当該区分の前記区分領域に対する重みを0とする認識装置。
  4. 区分領域の大きさ又は間隔が異なる複数種類の区分に対し、入力データの、前記区分での前記区分領域毎に特徴量を抽出する特徴量抽出手段と、
    検査領域と重複する前記区分領域の各々について、重複度合いに応じた重みを計算する重み計算手段と、
    前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、
    前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段と、
    を含み、
    前記重み計算手段は、前記複数種類の区分のうち、前記検査領域に包含される前記区分領域を含んだ区分が存在する場合に、当該検査領域に対する当該区分の前記区分領域に対する重みを0とする認識装置。
  5. 前記検査領域を、位置又は大きさの少なくとも一方を異ならせて複数設定し、
    前記重み計算手段は、前記検査領域毎に、当該検査領域と重複する前記区分領域の各々について前記重みを計算し、
    前記統合手段は、前記検査領域毎に、前記統合特徴量を求め、
    前記認識手段は、前記検査領域毎に、当該検査領域が、前記認識対象を表しているか否かを認識する請求項1~4のいずれかひとつに記載の認識装置。
  6. 前記特徴量抽出手段は、前記複数種類の区分での区分領域毎の特徴量を抽出するための特徴量抽出モデルを用いて、前記複数種類の区分に対し、前記入力データの区分領域毎に特徴量を抽出する請求項1~5のいずれかひとつに記載の認識装置。
  7. 処理対象データを入力とし、区分領域の大きさ又は間隔が異なる複数種類の区分での前記区分領域毎の特徴量を抽出するための特徴量抽出モデルを用いて、前記複数種類の区分に対し、学習用の前記処理対象データの前記区分それぞれの前記区分領域毎に特徴量を抽出する特徴量抽出手段と、
    前記複数種類の区分それぞれに対し、認識対象を表している認識対象領域と重複する前記区分領域の各々について、当該認識対象領域との重複度合いに応じた重みを計算する重み計算手段と、
    前記認識対象領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段と、
    前記認識対象領域の前記統合特徴量が、前記認識対象を表すデータから予め求められた特徴量と一致するように前記特徴量抽出モデルを学習する学習手段と、
    を含み、
    前記重み計算手段は、前記複数種類の区分について前記区分領域ごとに求めた前記重複度合いを示す値の総和が一定値となるよう正規化して前記区分領域毎の前記重みを計算する学習装置。
  8. 請求項1~6のいずれかひとつに記載の認識装置と、
    請求項7に記載の学習装置とを含み、
    前記認識装置の前記特徴量抽出手段は、前記学習装置によって学習された前記特徴量抽出モデルを用いて、前記複数種類の区分に対し、前記入力データの前記区分領域毎に特徴量を抽出する
    認識システム。
  9. 特徴量抽出手段が、区分領域の大きさ又は間隔が異なる複数種類の区分それぞれに対し、前記区分領域毎に入力データから特徴量を抽出し、
    重み計算手段が、前記複数種類の区分それぞれに対し、前記入力データに設定される検査領域と重複する前記区分領域の各々について、当該検査領域との重複度合いに応じた重みを計算し、
    統合手段が、前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求め、
    認識手段が、前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識し、
    前記重み計算手段は、前記複数種類の区分について前記区分領域ごとに求めた前記重複度合いを示す値の総和が一定値となるよう正規化して前記区分領域毎の前記重みを計算する認識方法。
  10. コンピュータを、
    区分領域の大きさ又は間隔が異なる複数種類の区分それぞれに対し、前記区分領域毎に入力データから特徴量を抽出する特徴量抽出手段、
    前記複数種類の区分それぞれに対し、前記入力データに設定される検査領域と重複する前記区分領域の各々について、当該検査領域との重複度合いに応じた重みを計算する重み計算手段、
    前記検査領域と重複する前記区分領域の各々について抽出された前記特徴量を、前記計算された重みを用いて統合した統合特徴量を求める統合手段、及び
    前記統合特徴量を用いて、前記検査領域が、認識対象を表しているか否かを認識する認識手段
    として機能させ
    前記重み計算手段は、前記複数種類の区分について前記区分領域ごとに求めた前記重複度合いを示す値の総和が一定値となるよう正規化して前記区分領域毎の前記重みを計算するように機能させるための認識プログラム。
JP2020008942A 2020-01-23 2020-01-23 認識装置、学習装置、認識システム、認識方法、及び認識プログラム Active JP7441656B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020008942A JP7441656B2 (ja) 2020-01-23 2020-01-23 認識装置、学習装置、認識システム、認識方法、及び認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020008942A JP7441656B2 (ja) 2020-01-23 2020-01-23 認識装置、学習装置、認識システム、認識方法、及び認識プログラム

Publications (2)

Publication Number Publication Date
JP2021117565A JP2021117565A (ja) 2021-08-10
JP7441656B2 true JP7441656B2 (ja) 2024-03-01

Family

ID=77174850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020008942A Active JP7441656B2 (ja) 2020-01-23 2020-01-23 認識装置、学習装置、認識システム、認識方法、及び認識プログラム

Country Status (1)

Country Link
JP (1) JP7441656B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295776A (ja) 2003-03-28 2004-10-21 Minolta Co Ltd 画像認識装置および画像認識プログラム
WO2014030399A1 (ja) 2012-08-23 2014-02-27 日本電気株式会社 物体識別装置、物体識別方法、及びプログラム
JP2019016298A (ja) 2017-07-10 2019-01-31 キヤノン株式会社 画像処理装置、画像処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295776A (ja) 2003-03-28 2004-10-21 Minolta Co Ltd 画像認識装置および画像認識プログラム
WO2014030399A1 (ja) 2012-08-23 2014-02-27 日本電気株式会社 物体識別装置、物体識別方法、及びプログラム
JP2019016298A (ja) 2017-07-10 2019-01-31 キヤノン株式会社 画像処理装置、画像処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
映像からのオブジェクト識別技術,NHK技研R&D No.142 ,2013年11月15日,企業技報201300118006

Also Published As

Publication number Publication date
JP2021117565A (ja) 2021-08-10

Similar Documents

Publication Publication Date Title
WO2020253629A1 (zh) 检测模型训练方法、装置、计算机设备和存储介质
EP3779774A1 (en) Training method for image semantic segmentation model and server
CN110599537A (zh) 基于Mask R-CNN的无人机图像建筑物面积计算方法及系统
CN111627050B (zh) 一种目标跟踪模型的训练方法和装置
CN110991513B (zh) 一种具有类人连续学习能力的图像目标识别系统及方法
CN110490262B (zh) 图像处理模型生成方法、图像处理方法、装置及电子设备
CN111461213A (zh) 一种目标检测模型的训练方法、目标快速检测方法
CN110879982A (zh) 一种人群计数系统及方法
CN113221956B (zh) 基于改进的多尺度深度模型的目标识别方法及装置
CN112884782B (zh) 生物对象分割方法、装置、计算机设备和存储介质
CN112749726B (zh) 目标检测模型的训练方法、装置、计算机设备和存储介质
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN112861970A (zh) 一种基于特征融合的细粒度图像分类方法
CN112802197A (zh) 动态场景下基于全卷积神经网络的视觉slam方法及系统
CN114549462A (zh) 基于视角解耦Transformer模型的病灶检测方法、装置、设备及介质
CN110472640B (zh) 一种目标检测模型预测框处理方法及装置
Aristoteles et al. Identification of human sperm based on morphology using the you only look once version 4 algorithm
CN113780145A (zh) 精子形态检测方法、装置、计算机设备和存储介质
CN112927215A (zh) 一种消化道活检病理切片自动分析方法
JP7441656B2 (ja) 認識装置、学習装置、認識システム、認識方法、及び認識プログラム
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及系统
CN112488996A (zh) 非齐次三维食管癌能谱ct弱监督自动标注方法与系统
CN113887455B (zh) 一种基于改进fcos的人脸口罩检测系统及方法
CN112699898B (zh) 一种基于多层特征融合的图像方向识别方法
JP7441654B2 (ja) 認識装置、学習装置、認識システム、認識方法、認識プログラム、学習方法、及び学習プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240219

R150 Certificate of patent or registration of utility model

Ref document number: 7441656

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150