JP2020098455A

JP2020098455A - 物体識別システム、物体識別方法、並びに、画像識別プログラム

Info

Publication number: JP2020098455A
Application number: JP2018236091A
Authority: JP
Inventors: 青野　雅樹; Masaki Aono; 雅樹青野; 雄哉山重; Yuya Yamashige
Original assignee: Toyohashi University of Technology NUC
Current assignee: Toyohashi University of Technology NUC
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2020-06-25

Abstract

【課題】高い検出精度を有し、リアルタイムに処理が可能な物体識別システムを提供する。【解決手段】物体識別システムは、識別対象画像を入力する入力部と、識別対象画像について特徴マップを作成する特徴マップ作成部と、物体を予測する物体予測部と、該物体予測部によって予測された結果を出力する出力部からなる。特徴マップ生成部は、畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成処理部と、各層における特徴マップの意味情報を補間する特徴マップ意味情報補間処理部とを備える。特徴マップ意味情報補間処理部は、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行う。【選択図】図２

Description

本発明は、画像に記録された物体の識別を行うシステムに関する。特に、畳み込みニューラルネットワーク及び深層学習を用いて画像識別を行うものである。

2次元画像における物体の識別、あるいは物体検出及び認識に関し深層学習を用いた研究開発が数多くなされている。例えば、特許文献１で示されている手法はFaster R-CNN (CNN : Convolutional Neural Network)と呼ばれ、高速かつ正確な物体検出の先進となった手法である。それ以前の手法であるR-CNN (Region with CNN features)やFast R-CNNでは実現できなかった高速検出及びニューラルネットワークのエンドツーエンドな訓練を実現した点が優れている。

なお、深層学習を用いる物体検出手法は、R-CNN、YOLO (You Only Look Once)、SSD (Single Shot MultiBox Detector)の3タイプに大別される。特に、SSD (SSD300)は、検出精度と処理速度を両立した物体検出手法である（例えば、非特許文献１を参照）。SSD300は、The PASCAL Visual Object Classes Challenge 2007において提示されたPASCAL VOC2007testに対して検出精度が77.2[mAP]を記録している。

また、SSDは様々な改良が示されており、例としてRefineDetが派生形として挙げられる（例えば、非特許文献２を参照）。RefineDetはTPASCAL VOC2007testデータセットに対して80.0[mAP]を記録し、NVIDIA(登録商標) Titan Xと呼ばれるGPU (Graphics Processing Unit)を使用した際の処理速度は40.3[FPS]であり、高性能な物体検出手法として有用である。

深層学習を用いる従来の物体検出手法は改良が続けられているが、その多くが検出精度の向上に焦点が置かれており、処理速度については、SSD及びそれから派生した手法を除き、技術的検討が十分になされていない。

米国特許第9,858,496号明細書

Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy,Scott Reed, Cheng-Yang Fu, and Alexander C. Berg, "SSD: Single Shot MultiBox Detector," in ECCV2016. Shifeng Zhang, Longyin Wen, Xiao Bian, Zhen Lei, and Stan Z. Li, "Single-Shot Refinement Neural Network for Object Detection," in CVPR2018.

従来のR-CNNは入力画像上から予め物体と思われる領域を抽出し、それらを畳み込みニューラルネットワーク(CNN : Convolutional Neural Network)に入力することで、どんな物体であるかを判別するシステムであり、リアルタイムで処理できないという課題がある。

また、YOLOは、処理は高速だが、複数の小さな物体の検出が困難であり、かつ物体検出の精度が低いという課題がある。

それに対し、SSDは、前記二つのシステムに対し中程度の検出精度であるが、YOLOと比べて処理が低速である点に課題がある。

本発明は、上記の課題を鑑みてなされたものであり、リアルタイムで処理が可能であり、かつ複数の小さな物体であっても検出可能な精度を有する物体識別システムを提供することを課題としている。

本発明係る第一の物体識別システムは、画像に記録された物体の識別を行うシステムであって、識別対象画像を入力する入力部と、入力された識別対象画像について特徴マップを作成する特徴マップ作成部と、識別対象画像中の物体を予測する物体予測部と、該物体予測部によって予測された結果を出力する出力部とを備え、前記特徴マップ生成部は、畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成処理部と、各層における特徴マップの意味情報を補間する特徴マップ意味情報補間処理部とを備え、さらに、特徴マップ意味情報補間処理部は、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものであり、前記特徴マップ意味情報補間処理部による意味情報の補間が複数の層において繰り返されるものであることを特徴とするものである。

本発明に係る第二の物体識別システムは、前記第一の物体識別システムであって、前記特徴マップ生成部における畳み込みニューラルネットワークによる特徴マップの生成は、７層以下の特徴マップを生成するものであることを特徴とするものである。

本発明に係る第三の物体識別システムは、前記第一の物体識別システムまたは第二の物体識別システムであって、前記特徴マップ意味情報補間処理部による補間処理は、最も深い層の特徴マップから最も浅い層の特徴マップに至る範囲に順次画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された各層における特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものであることを特徴とするものである。

本発明に係る第四の物体識別システムは、前記第一から第三の物体識別システムいずれかであって、前記物体予測部は、前記平滑化された特徴マップ上に、デフォルトボックスを配置するデフォルトボックス配置処理部と、前記デフォルトボックスが配置された特徴マップに対して畳み込みフィルタを用いて物体の確信度をクラス単位の確率で算出し、かつ物体の位置およびサイズを算出するクラス確信度・オフセット算出部と、前記物体として確信度の高いデフォルトボックスの数と低いデフォルトボックスの数の割合を所定の割合となるようにデフォルトボックスの数を調整するデフォルトボックス数調整部とを備えることを特徴とするものである。

本発明に係る第五の物体識別システムは、前記第四の物体識別システムであって、前記デフォルトボックス数調整部は、前記確信度について所定の閾値以下のデフォルトボックスを削除する処理を含むものである。

本発明に係る物体識別方法は、画像に記録された物体の識別を行う方法であって、識別対象画像を入力する画像入力ステップと、入力された識別対象画像について畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成ステップと、前記特徴マップの複数層における意味情報を補間する特徴マップ意味情報補間処理ステップと、意味情報が補間された特徴マップ上にデフォルトボックスを配置するデフォルトボックス配置処理ステップと、前記デフォルトボックスが配置された特徴マップに対して畳み込みフィルタを用いて物体の確信度をクラス単位の確率で算出し、かつ物体の位置およびサイズを算出するクラス確信度・オフセット算出ステップと、前記物体として確信度の高いデフォルトボックスの数と低いデフォルトボックスの数の割合を所定の割合となるようにデフォルトボックスの数を調整するデフォルトボックス数調整ステップとを含み、前記特徴マップ意味情報補間処理ステップは、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものであることを特徴とする。

本発明に係る画像識別プログラムは、画像に記録された物体の識別を行うためのコンピュータプログラムであって、コンピュータを、識別対象画像を入力する画像入力手段と、入力された識別対象画像について畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成手段と、前記特徴マップの複数層における意味情報を補間する特徴マップ意味情報補間処理手段と、意味情報が補間された特徴マップ上にデフォルトボックスを配置するデフォルトボックス配置処理手段と、前記デフォルトボックスが配置された特徴マップに対して畳み込みフィルタを用いて物体の確信度をクラス単位の確率で算出し、かつ物体の位置およびサイズを算出するクラス確信度・オフセット算出手段と、前記物体として確信度の高いデフォルトボックスの数と低いデフォルトボックスの数の割合を所定の割合となるようにデフォルトボックスの数を調整するデフォルトボックス数調整手段として機能させるものであり、前記特徴マップ意味情報補間処理手段は、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものであることを特徴とする。

本発明により、画像上に記録された物体について、物体の種類と物体の領域を特定するリアルタイム処理および高精度な物体検出を実現できる。また、本発明に係る物体識別システムは、従来技術より少ないメモリ量で実行できるため、安価な画像処理装置を使用して高速に処理できるようになる。

本発明に係る畳み込みニューラルネットワークに対する訓練時に関するフローチャートである。本発明に係る畳み込みニューラルネットワークに対するテスト時に関するフローチャートである。意味情報補間処理の概略図である。確信度閾値増加による検出精度の遷移を示すグラフである。確信度閾値増加による検出速度の遷移を示すグラフである。本発明の実施例に係る小さな物体の検出例1である。本発明の実施例に係る小さな物体の検出例2である。本発明の実施例に係る物体集団の同時検出例である。本発明の実施例に係るオクルージョン時の検出例である。

本発明に係る物体識別システムは、汎用演算処理装置（ＣＰＵ等）と、ランダムアクセスメモリ（ＲＡＭ）と、リードオンリーメモリ（ＲＯＭ）等の主要なハードウェア装置を統合して制御するプログラムを格納する記憶媒体と、外部記憶装置（ハードディスク装置等）と、外部画像処理装置（ＧＰＵ）と、ディスプレイ及びカメラやキーボード等の入出力機器（システム入力部及び出力部）とを電気的に接続されてなる汎用計算機のハードウェアと密に連携し、逐次、所定の規則に則って処理を実行するシステムである。

以下に、本発明を実施するための形態に関し、図及び数式を使用して詳述する。ただし、本発明に係る物体識別システムの実装は、汎用計算機に限られるものではない。

本発明に係る物体識別システムは教師あり深層学習を用いており、深層学習を行うための訓練時（以下、訓練時に係る畳み込みニューラルネットワークを訓練部ということがある。）と物体を検出し予測するテスト時（以下、テスト時に係る畳み込みニューラルネットワークをテスト部ということがある。）から構成される。訓練時及びテスト時の流れ（フローチャート）をそれぞれ図１及び図２に示す。

畳み込みニューラルネットワークの訓練部は、次に示す処理Ｌ１、Ｌ２、Ｔ１、Ｌ３、Ｔ２から構成され、畳み込みニューラルネットワークのテスト部は、処理Ｌ４、Ｔ３，Ｌ５、Ｔ４、Ｌ６、Ｔ５、Ｌ７、Ｌ８、Ｔ６から構成される。

まず、図１に示す訓練時のフローチャートについて説明する。

＜データ拡張 (処理Ｌ１)＞
データ拡張ステップ（処理Ｌ１）では、訓練用画像数の増加を目的とした処理を行う。まず、訓練用画像を切り取った画像を以下の3つの手法に従って生成する。

１）（切り取らないで）画像全体を用いる

２）物体とのJaccard overlap (数1を参照)が適当な値（例 0.1, 0.3, 0.5, 0.7または0.9）になるように切り取る

３）ランダムに領域を切り取る

ここで、Jaccard overlapは、切り取る領域をX、物体の領域をYとした場合、以下の数式で計算される値である。

さらに、切り取った画像に対してリサイズ、水平回転、輝度変換などを行うことで訓練用画像数を増幅（データ・オーグメンテーション）させる。

次に、図１及び図２における特徴マップ生成（処理Ｌ２及び処理Ｔ１）について説明する。

＜特徴マップ生成(処理Ｌ２, 処理Ｔ１)＞
特徴マップ生成ステップ（処理Ｌ２, 処理Ｔ２）は、比較的少ない層の畳み込み型ネットワーク群からなる。

特徴マップとは、それぞれの層で入力される画像に対し、様々な画像フィルタを適用して得られる2次元の画像群である。

従来手法でも特徴マップ生成ステップに相当する処理は存在するが、ニューラルネットワーク中間層数が多く、計算時間を消費するものであった。本発明では、後続の特徴マップ意味情報補間処理との協調動作により、７層まで層数を減らすことができる。

次に、図３を用いて、特徴マップ意味情報補間（処理Ｌ３及び処理Ｔ２）について説明する。

＜特徴マップ意味情報補間 (処理Ｌ３，処理Ｔ２)＞
図3は、意味情報補間処理の概要図である。色が黒い特徴マップほど抽象度が高く意味情報も多いことを意味し、同図中、円で囲まれた十字記号は多次元データの要素ごとの和を計算することを意味する。

一般的にネットワークの深い層では、解像度が低く、抽象的な意味情報を持った特徴マップが得られる。対して、浅い層では、特徴マップの解像度は高いが抽象的な意味情報が不足している、という問題が知られている。

そこで、前記の問題を解決するために、高解像度の特徴マップの意味情報を補間する。以下、本発明に係る物体識別システムのニューラルネットワークをFPSSD7（Feature Pyramid SSD7）と記す。

Ａ）まず最も深い層の特徴マップについて、線形補間法による画像サイズの拡大を行う。その後、ゼロパディングと呼ばれる処理を行う。ここでゼロパディングとは、画素値が0の行または列を加え、画像サイズを調整する処理である。

Ｂ）次に、カーネルサイズが1×1の畳み込みによってチャンネル数(特徴マップの数)を調整し、抽象度が低い特徴マップと同画素の要素和を取る。

Ｃ）さらに、サイズ拡大によるエイリアシング（拡大に伴う画像のぎざぎざ等の異常な現象）を低減するために、3×3カーネルサイズの畳み込みにより平滑化を行う。

前記Ａ）からＣ）の三つの処理を繰り返していき解像度の高い特徴マップに抽象的な意味情報を伝播させ、こうして得られた新たな特徴マップを物体予測へと入力する。

次に、図１及び図２における物体予測について以下に説明する。

＜デフォルトボックス配置(処理Ｌ４，処理Ｔ３)＞
前記特徴マップ生成ステップ（処理Ｌ２，処理Ｔ１）で得られた特徴マップ上に、デフォルトボックスと呼ばれる矩形領域を特徴マップ上に敷き詰める。この時、デフォルトボックスのスケールは以下の数式によって、特徴マップのサイズ別にスケール（拡大率）を計算する。

ただし、mはデフォルトボックス配置の予測に用いる特徴マップの数でm=4とし、S_min=0.2でS_max=0.9である。

＜クラス確信度・オフセット計算 (処理Ｌ５，処理Ｔ４)＞
前記デフォルトボックスを配置した特徴マップに対して、3×3のカーネルサイズを持つ畳み込みフィルタを適用する。これにより、各デフォルトボックスのクラス確信度及びオフセットが計算される。

クラス確信度は、Softmax関数（多次元の確率値を出す関数）で計算され、その物体が何のクラスであるかということを表した確率である。

一方、オフセットは物体との位置及びサイズの差分を示した値である。

前記クラス確信度及びオフセットの計算では、後続の処理Ｌ８によって計算される修正量をフィードバックし、FPSSD7の特徴マップ生成部および物体予測部を構成するニューラルネットワークの重みパラメータを最適化する。

＜訓練用デフォルトボックス数調整(処理Ｌ６)＞
前記クラス確信度・オフセット計算ステップ (処理Ｌ５，処理Ｔ４)の処理を終えたデフォルトボックスのほとんどは背景として分類されているため、最適化に多くの計算を要する。そこで、物体と判別された正のデフォルトボックス数と、背景と分類された負のデフォルトボックス数の比率が１：３となるようにボックスの削減を行う。さらに、クラスごとにJaccard overlapが閾値以上のデフォルトボックスを統合する。実施例では閾値を0.45としている。

＜テスト用デフォルトボックス数調整(処理Ｔ５)＞
テスト時には、デフォルトボックス数調整処理をさらに高速化するために、クラス確信度閾値を用いたボックス削減を行う。これは、前記訓練用デフォルトボックス数調整を終えたボックスに対して、クラス確信度が閾値以下のものを除去する処理である。これにより、統合するボックスが大幅に削減され、さらなる高速化を実現できる。

＜損失計算(処理Ｌ７)＞
ニューラルネットワーク全体の損失は、クラス確信度損失と位置特定損失の重み付き和で計算される。

ここで、cはクラスの確信度を表す。α、βは正の実数値で損失関数の重みを制御する。また、Nはマッチしたボックス数、lは予測領域、gは正解領域を意味し、xは正解なら1、そうでなければ0をとる。

L_conf(x, c)は正解ボックスと対応づけられた正例の予測誤差和と正解ボックスと対応づけられなかった負例の予測誤差和で求める。

位置特定誤差L_ioc(x, l, g)は予測位置と正解位置の誤差が1より小さい場合は大きい値として出力し、それ以外の時は極端に外れた値を取らないように抑えた値として出力する。

＜パラメータ最適化(処理Ｌ８)＞
前記特徴マップ生成及びクラス確信度・オフセット計算を行うためのパラメータの修正量を計算し最適化する。

＜予測結果出力(処理Ｔ６)＞
最終的に得られるデフォルトボックスについて、確信度が最も高いクラスを分類クラスとして出力する。また、領域については、デフォルトボックスの領域をそのまま出力する。

これら領域を、入力画像上に描画するなどして、物体予測の処理を終了する。

実施例のデータセット
Udacity Annotated Driving Datasetと呼ばれるデータセットを使用する。(インターネットＵＲＬ https://github.com/udacity/self-driving-car/tree/master/annotationsにて公開)。

なお、訓練の高速化のため解像度は480×300に縮小したものを用いる。クラスは車、トラック、歩行者、バイク(自転車)、信号機の計5クラスから構成され、それらの物体が存在する矩形領域が同時に与えられている。また、訓練データは18,000個、テスト用の未知データは4,241個を用いる。

評価
まず、訓練データを用いて訓練したネットワークに未知データを入力する。その後、各クラスのAverage Precision(AP)、その平均のmean Average Precision(mAP)と呼ばれる指標を用いて検出精度を評価する。さらに、クラス確信度閾値を0.02から0.7まで変化させた場合のmAP及び検出速度[FPS]（1秒間あたりの画像数）を測定し従来手法との比較を行う。また、使用するGPUメモリは2793[MB]に統一する。

実験結果
表1にクラス確信度閾値を0.02にした場合の各クラスのAP、mAP、FPSの値を比較した結果を示す。まず、本発明に係るFPSSD7では従来のSSDシステムと比較してFPSの値が大きく向上し、リアルタイムで検出が可能な30FPSを記録した。また、mAPの値についてはSSD300よりは低下しているが、車クラスのAPの値は向上した結果となった。

図4及び図5にクラス確信度閾値を0.02から0.7まで0.01刻みで増加させた際の検出精度及び処理速度の遷移を示す。これより、検出精度に関しては従来のSSD300が常に高い結果となったが、処理速度については最も低く、確信度閾値を高くしても30[FPS]付近で頭打ちになっていることが見て取れる。対して、FPSSD7ではSSD7より検出精度では劣るものの最大で80[FPS]程度の処理速度を記録した。

以上より、リアルタイム処理を重視し検出精度をある程度の犠牲を許容するのであれば、さらに、より省メモリを備える安価なGPUを用いたとしても高速に検出できると推測される。従って、本発明に係る物体識別システムは検出精度、リアルタイム処理、マシンコストの側面でバランスが取れた物体識別システムであると言える。

また、FPSSD7の検出結果例を示す。図6、図7より、遠くに映る小さい物体（10×10画素サイズ）であってもクラスを識別し検出ができていることが見て取れる。また、図8では駐車中の車の集団を正確に検出できている。さらに、図9のようにトラックの後ろに隠れてしまっている物体も正確に検出可能であることが分かる。つまり、本発明は物体検出で困難な小さい物体や物体の集団、オクルージョン時(物体が裏に隠れている状態)にも対応可能な物体識別システムであると言える。

Claims

画像に記録された物体の識別を行うシステムであって、
識別対象画像を入力する入力部と、入力された識別対象画像について特徴マップを作成する特徴マップ作成部と、識別対象画像中の物体を予測する物体予測部と、該物体予測部によって予測された結果を出力する出力部とを備え、
前記特徴マップ生成部は、畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成処理部と、各層における特徴マップの意味情報を補間する特徴マップ意味情報補間処理部とを備え、さらに、特徴マップ意味情報補間処理部は、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものであり、
前記特徴マップ意味情報補間処理部による意味情報の補間が複数の層において繰り返されるものであることを特徴とする物体識別システム。
前記特徴マップ生成部における畳み込みニューラルネットワークによる特徴マップの生成は、７層以下の特徴マップを生成するものであることを特徴とする請求項１に記載の物体識別システム。
前記特徴マップ意味情報補間処理部による補間処理は、最も深い層の特徴マップから最も浅い層の特徴マップに至る範囲に順次画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された各層における特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものであることを特徴とする請求項１または２に記載の物体識別システム。
前記物体予測部は、前記平滑化された特徴マップ上に、デフォルトボックスを配置するデフォルトボックス配置処理部と、
前記デフォルトボックスが配置された特徴マップに対して畳み込みフィルタを用いて物体の確信度をクラス単位の確率で算出し、かつ物体の位置およびサイズを算出するクラス確信度・オフセット算出部と、
前記物体として確信度の高いデフォルトボックスの数と低いデフォルトボックスの数の割合を所定の割合となるようにデフォルトボックスの数を調整するデフォルトボックス数調整部とを備える
ことを特徴とする請求項１〜３のいずれかに記載の物体識別システム。
前記デフォルトボックス数調整部は、前記確信度について所定の閾値以下のデフォルトボックスを削除する処理を含むものである請求項４に記載の物体識別システム。
画像に記録された物体の識別を行う方法であって、
識別対象画像を入力する画像入力ステップと、
入力された識別対象画像について畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成ステップと、
前記特徴マップの複数層における意味情報を補間する特徴マップ意味情報補間処理ステップと、
意味情報が補間された特徴マップ上にデフォルトボックスを配置するデフォルトボックス配置処理ステップと、
前記デフォルトボックスが配置された特徴マップに対して畳み込みフィルタを用いて物体の確信度をクラス単位の確率で算出し、かつ物体の位置およびサイズを算出するクラス確信度・オフセット算出ステップと、
前記物体として確信度の高いデフォルトボックスの数と低いデフォルトボックスの数の割合を所定の割合となるようにデフォルトボックスの数を調整するデフォルトボックス数調整ステップとを含み、
前記特徴マップ意味情報補間処理ステップは、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものである
ことを特徴とする物体識別方法。
画像に記録された物体の識別を行うためのコンピュータプログラムであって、コンピュータを、
識別対象画像を入力する画像入力手段と、
入力された識別対象画像について畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成手段と、
前記特徴マップの複数層における意味情報を補間する特徴マップ意味情報補間処理手段と、
意味情報が補間された特徴マップ上にデフォルトボックスを配置するデフォルトボックス配置処理手段と、
前記デフォルトボックスが配置された特徴マップに対して畳み込みフィルタを用いて物体の確信度をクラス単位の確率で算出し、かつ物体の位置およびサイズを算出するクラス確信度・オフセット算出手段と、
前記物体として確信度の高いデフォルトボックスの数と低いデフォルトボックスの数の割合を所定の割合となるようにデフォルトボックスの数を調整するデフォルトボックス数調整手段として機能させるものであり、
前記特徴マップ意味情報補間処理手段は、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものである
ことを特徴とする画像識別プログラム。