JP2020098455A - 物体識別システム、物体識別方法、並びに、画像識別プログラム - Google Patents
物体識別システム、物体識別方法、並びに、画像識別プログラム Download PDFInfo
- Publication number
- JP2020098455A JP2020098455A JP2018236091A JP2018236091A JP2020098455A JP 2020098455 A JP2020098455 A JP 2020098455A JP 2018236091 A JP2018236091 A JP 2018236091A JP 2018236091 A JP2018236091 A JP 2018236091A JP 2020098455 A JP2020098455 A JP 2020098455A
- Authority
- JP
- Japan
- Prior art keywords
- feature map
- default
- image
- unit
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】高い検出精度を有し、リアルタイムに処理が可能な物体識別システムを提供する。【解決手段】物体識別システムは、識別対象画像を入力する入力部と、識別対象画像について特徴マップを作成する特徴マップ作成部と、物体を予測する物体予測部と、該物体予測部によって予測された結果を出力する出力部からなる。特徴マップ生成部は、畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成処理部と、各層における特徴マップの意味情報を補間する特徴マップ意味情報補間処理部とを備える。特徴マップ意味情報補間処理部は、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行う。【選択図】図2
Description
本発明は、画像に記録された物体の識別を行うシステムに関する。特に、畳み込みニューラルネットワーク及び深層学習を用いて画像識別を行うものである。
2次元画像における物体の識別、あるいは物体検出及び認識に関し深層学習を用いた研究開発が数多くなされている。例えば、特許文献1で示されている手法はFaster R-CNN (CNN : Convolutional Neural Network)と呼ばれ、高速かつ正確な物体検出の先進となった手法である。それ以前の手法であるR-CNN (Region with CNN features)やFast R-CNNでは実現できなかった高速検出及びニューラルネットワークのエンドツーエンドな訓練を実現した点が優れている。
なお、深層学習を用いる物体検出手法は、R-CNN、YOLO (You Only Look Once)、SSD (Single Shot MultiBox Detector)の3タイプに大別される。特に、SSD (SSD300)は、検出精度と処理速度を両立した物体検出手法である(例えば、非特許文献1を参照)。SSD300は、The PASCAL Visual Object Classes Challenge 2007において提示されたPASCAL VOC2007testに対して検出精度が77.2[mAP]を記録している。
また、SSDは様々な改良が示されており、例としてRefineDetが派生形として挙げられる(例えば、非特許文献2を参照)。RefineDetはTPASCAL VOC2007testデータセットに対して80.0[mAP]を記録し、NVIDIA(登録商標) Titan Xと呼ばれるGPU (Graphics Processing Unit)を使用した際の処理速度は40.3[FPS]であり、高性能な物体検出手法として有用である。
深層学習を用いる従来の物体検出手法は改良が続けられているが、その多くが検出精度の向上に焦点が置かれており、処理速度については、SSD及びそれから派生した手法を除き、技術的検討が十分になされていない。
Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy,Scott Reed, Cheng-Yang Fu, and Alexander C. Berg, "SSD: Single Shot MultiBox Detector," in ECCV2016.
Shifeng Zhang, Longyin Wen, Xiao Bian, Zhen Lei, and Stan Z. Li, "Single-Shot Refinement Neural Network for Object Detection," in CVPR2018.
従来のR-CNNは入力画像上から予め物体と思われる領域を抽出し、それらを畳み込みニューラルネットワーク(CNN : Convolutional Neural Network)に入力することで、どんな物体であるかを判別するシステムであり、リアルタイムで処理できないという課題がある。
また、YOLOは、処理は高速だが、複数の小さな物体の検出が困難であり、かつ物体検出の精度が低いという課題がある。
それに対し、SSDは、前記二つのシステムに対し中程度の検出精度であるが、YOLOと比べて処理が低速である点に課題がある。
本発明は、上記の課題を鑑みてなされたものであり、リアルタイムで処理が可能であり、かつ複数の小さな物体であっても検出可能な精度を有する物体識別システムを提供することを課題としている。
本発明係る第一の物体識別システムは、画像に記録された物体の識別を行うシステムであって、識別対象画像を入力する入力部と、入力された識別対象画像について特徴マップを作成する特徴マップ作成部と、識別対象画像中の物体を予測する物体予測部と、該物体予測部によって予測された結果を出力する出力部とを備え、前記特徴マップ生成部は、畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成処理部と、各層における特徴マップの意味情報を補間する特徴マップ意味情報補間処理部とを備え、さらに、特徴マップ意味情報補間処理部は、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものであり、前記特徴マップ意味情報補間処理部による意味情報の補間が複数の層において繰り返されるものであることを特徴とするものである。
本発明に係る第二の物体識別システムは、前記第一の物体識別システムであって、前記特徴マップ生成部における畳み込みニューラルネットワークによる特徴マップの生成は、7層以下の特徴マップを生成するものであることを特徴とするものである。
本発明に係る第三の物体識別システムは、前記第一の物体識別システムまたは第二の物体識別システムであって、前記特徴マップ意味情報補間処理部による補間処理は、最も深い層の特徴マップから最も浅い層の特徴マップに至る範囲に順次画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された各層における特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものであることを特徴とするものである。
本発明に係る第四の物体識別システムは、前記第一から第三の物体識別システムいずれかであって、前記物体予測部は、前記平滑化された特徴マップ上に、デフォルトボックスを配置するデフォルトボックス配置処理部と、前記デフォルトボックスが配置された特徴マップに対して畳み込みフィルタを用いて物体の確信度をクラス単位の確率で算出し、かつ物体の位置およびサイズを算出するクラス確信度・オフセット算出部と、前記物体として確信度の高いデフォルトボックスの数と低いデフォルトボックスの数の割合を所定の割合となるようにデフォルトボックスの数を調整するデフォルトボックス数調整部とを備えることを特徴とするものである。
本発明に係る第五の物体識別システムは、前記第四の物体識別システムであって、前記デフォルトボックス数調整部は、前記確信度について所定の閾値以下のデフォルトボックスを削除する処理を含むものである。
本発明に係る物体識別方法は、画像に記録された物体の識別を行う方法であって、識別対象画像を入力する画像入力ステップと、入力された識別対象画像について畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成ステップと、前記特徴マップの複数層における意味情報を補間する特徴マップ意味情報補間処理ステップと、意味情報が補間された特徴マップ上にデフォルトボックスを配置するデフォルトボックス配置処理ステップと、前記デフォルトボックスが配置された特徴マップに対して畳み込みフィルタを用いて物体の確信度をクラス単位の確率で算出し、かつ物体の位置およびサイズを算出するクラス確信度・オフセット算出ステップと、前記物体として確信度の高いデフォルトボックスの数と低いデフォルトボックスの数の割合を所定の割合となるようにデフォルトボックスの数を調整するデフォルトボックス数調整ステップとを含み、前記特徴マップ意味情報補間処理ステップは、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものであることを特徴とする。
本発明に係る画像識別プログラムは、画像に記録された物体の識別を行うためのコンピュータプログラムであって、コンピュータを、識別対象画像を入力する画像入力手段と、入力された識別対象画像について畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成手段と、前記特徴マップの複数層における意味情報を補間する特徴マップ意味情報補間処理手段と、意味情報が補間された特徴マップ上にデフォルトボックスを配置するデフォルトボックス配置処理手段と、前記デフォルトボックスが配置された特徴マップに対して畳み込みフィルタを用いて物体の確信度をクラス単位の確率で算出し、かつ物体の位置およびサイズを算出するクラス確信度・オフセット算出手段と、前記物体として確信度の高いデフォルトボックスの数と低いデフォルトボックスの数の割合を所定の割合となるようにデフォルトボックスの数を調整するデフォルトボックス数調整手段として機能させるものであり、前記特徴マップ意味情報補間処理手段は、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものであることを特徴とする。
本発明により、画像上に記録された物体について、物体の種類と物体の領域を特定するリアルタイム処理および高精度な物体検出を実現できる。また、本発明に係る物体識別システムは、従来技術より少ないメモリ量で実行できるため、安価な画像処理装置を使用して高速に処理できるようになる。
本発明に係る物体識別システムは、汎用演算処理装置(CPU等)と、ランダムアクセスメモリ(RAM)と、リードオンリーメモリ(ROM)等の主要なハードウェア装置を統合して制御するプログラムを格納する記憶媒体と、外部記憶装置(ハードディスク装置等)と、外部画像処理装置(GPU)と、ディスプレイ及びカメラやキーボード等の入出力機器(システム入力部及び出力部)とを電気的に接続されてなる汎用計算機のハードウェアと密に連携し、逐次、所定の規則に則って処理を実行するシステムである。
以下に、本発明を実施するための形態に関し、図及び数式を使用して詳述する。ただし、本発明に係る物体識別システムの実装は、汎用計算機に限られるものではない。
本発明に係る物体識別システムは教師あり深層学習を用いており、深層学習を行うための訓練時(以下、訓練時に係る畳み込みニューラルネットワークを訓練部ということがある。)と物体を検出し予測するテスト時(以下、テスト時に係る畳み込みニューラルネットワークをテスト部ということがある。)から構成される。訓練時及びテスト時の流れ(フローチャート)をそれぞれ図1及び図2に示す。
畳み込みニューラルネットワークの訓練部は、次に示す処理L1、L2、T1、L3、T2から構成され、畳み込みニューラルネットワークのテスト部は、処理L4、T3,L5、T4、L6、T5、L7、L8、T6から構成される。
まず、図1に示す訓練時のフローチャートについて説明する。
<データ拡張 (処理L1)>
データ拡張ステップ(処理L1)では、訓練用画像数の増加を目的とした処理を行う。まず、訓練用画像を切り取った画像を以下の3つの手法に従って生成する。
データ拡張ステップ(処理L1)では、訓練用画像数の増加を目的とした処理を行う。まず、訓練用画像を切り取った画像を以下の3つの手法に従って生成する。
1)(切り取らないで)画像全体を用いる
2)物体とのJaccard overlap (数1を参照)が適当な値(例 0.1, 0.3, 0.5, 0.7または0.9)になるように切り取る
3)ランダムに領域を切り取る
ここで、Jaccard overlapは、切り取る領域をX、物体の領域をYとした場合、以下の数式で計算される値である。
さらに、切り取った画像に対してリサイズ、水平回転、輝度変換などを行うことで訓練用画像数を増幅(データ・オーグメンテーション)させる。
次に、図1及び図2における特徴マップ生成(処理L2及び処理T1)について説明する。
<特徴マップ生成(処理L2, 処理T1)>
特徴マップ生成ステップ(処理L2, 処理T2)は、比較的少ない層の畳み込み型ネットワーク群からなる。
特徴マップ生成ステップ(処理L2, 処理T2)は、比較的少ない層の畳み込み型ネットワーク群からなる。
特徴マップとは、それぞれの層で入力される画像に対し、様々な画像フィルタを適用して得られる2次元の画像群である。
従来手法でも特徴マップ生成ステップに相当する処理は存在するが、ニューラルネットワーク中間層数が多く、計算時間を消費するものであった。本発明では、後続の特徴マップ意味情報補間処理との協調動作により、7層まで層数を減らすことができる。
次に、図3を用いて、特徴マップ意味情報補間(処理L3及び処理T2)について説明する。
<特徴マップ意味情報補間 (処理L3,処理T2)>
図3は、意味情報補間処理の概要図である。色が黒い特徴マップほど抽象度が高く意味情報も多いことを意味し、同図中、円で囲まれた十字記号は多次元データの要素ごとの和を計算することを意味する。
図3は、意味情報補間処理の概要図である。色が黒い特徴マップほど抽象度が高く意味情報も多いことを意味し、同図中、円で囲まれた十字記号は多次元データの要素ごとの和を計算することを意味する。
一般的にネットワークの深い層では、解像度が低く、抽象的な意味情報を持った特徴マップが得られる。対して、浅い層では、特徴マップの解像度は高いが抽象的な意味情報が不足している、という問題が知られている。
そこで、前記の問題を解決するために、高解像度の特徴マップの意味情報を補間する。以下、本発明に係る物体識別システムのニューラルネットワークをFPSSD7(Feature Pyramid SSD7)と記す。
A)まず最も深い層の特徴マップについて、線形補間法による画像サイズの拡大を行う。その後、ゼロパディングと呼ばれる処理を行う。ここでゼロパディングとは、画素値が0の行または列を加え、画像サイズを調整する処理である。
B)次に、カーネルサイズが1×1の畳み込みによってチャンネル数(特徴マップの数)を調整し、抽象度が低い特徴マップと同画素の要素和を取る。
C)さらに、サイズ拡大によるエイリアシング(拡大に伴う画像のぎざぎざ等の異常な現象)を低減するために、3×3カーネルサイズの畳み込みにより平滑化を行う。
前記A)からC)の三つの処理を繰り返していき解像度の高い特徴マップに抽象的な意味情報を伝播させ、こうして得られた新たな特徴マップを物体予測へと入力する。
次に、図1及び図2における物体予測について以下に説明する。
<デフォルトボックス配置(処理L4,処理T3)>
前記特徴マップ生成ステップ(処理L2,処理T1)で得られた特徴マップ上に、デフォルトボックスと呼ばれる矩形領域を特徴マップ上に敷き詰める。この時、デフォルトボックスのスケールは以下の数式によって、特徴マップのサイズ別にスケール(拡大率)を計算する。
前記特徴マップ生成ステップ(処理L2,処理T1)で得られた特徴マップ上に、デフォルトボックスと呼ばれる矩形領域を特徴マップ上に敷き詰める。この時、デフォルトボックスのスケールは以下の数式によって、特徴マップのサイズ別にスケール(拡大率)を計算する。
<クラス確信度・オフセット計算 (処理L5,処理T4)>
前記デフォルトボックスを配置した特徴マップに対して、3×3のカーネルサイズを持つ畳み込みフィルタを適用する。これにより、各デフォルトボックスのクラス確信度及びオフセットが計算される。
前記デフォルトボックスを配置した特徴マップに対して、3×3のカーネルサイズを持つ畳み込みフィルタを適用する。これにより、各デフォルトボックスのクラス確信度及びオフセットが計算される。
クラス確信度は、Softmax関数(多次元の確率値を出す関数)で計算され、その物体が何のクラスであるかということを表した確率である。
一方、オフセットは物体との位置及びサイズの差分を示した値である。
前記クラス確信度及びオフセットの計算では、後続の処理L8によって計算される修正量をフィードバックし、FPSSD7の特徴マップ生成部および物体予測部を構成するニューラルネットワークの重みパラメータを最適化する。
<訓練用デフォルトボックス数調整(処理L6)>
前記クラス確信度・オフセット計算ステップ (処理L5,処理T4)の処理を終えたデフォルトボックスのほとんどは背景として分類されているため、最適化に多くの計算を要する。そこで、物体と判別された正のデフォルトボックス数と、背景と分類された負のデフォルトボックス数の比率が1:3となるようにボックスの削減を行う。さらに、クラスごとにJaccard overlapが閾値以上のデフォルトボックスを統合する。実施例では閾値を0.45としている。
前記クラス確信度・オフセット計算ステップ (処理L5,処理T4)の処理を終えたデフォルトボックスのほとんどは背景として分類されているため、最適化に多くの計算を要する。そこで、物体と判別された正のデフォルトボックス数と、背景と分類された負のデフォルトボックス数の比率が1:3となるようにボックスの削減を行う。さらに、クラスごとにJaccard overlapが閾値以上のデフォルトボックスを統合する。実施例では閾値を0.45としている。
<テスト用デフォルトボックス数調整(処理T5)>
テスト時には、デフォルトボックス数調整処理をさらに高速化するために、クラス確信度閾値を用いたボックス削減を行う。これは、前記訓練用デフォルトボックス数調整を終えたボックスに対して、クラス確信度が閾値以下のものを除去する処理である。これにより、統合するボックスが大幅に削減され、さらなる高速化を実現できる。
テスト時には、デフォルトボックス数調整処理をさらに高速化するために、クラス確信度閾値を用いたボックス削減を行う。これは、前記訓練用デフォルトボックス数調整を終えたボックスに対して、クラス確信度が閾値以下のものを除去する処理である。これにより、統合するボックスが大幅に削減され、さらなる高速化を実現できる。
<損失計算(処理L7)>
ニューラルネットワーク全体の損失は、クラス確信度損失と位置特定損失の重み付き和で計算される。
ニューラルネットワーク全体の損失は、クラス確信度損失と位置特定損失の重み付き和で計算される。
Lconf(x, c)は正解ボックスと対応づけられた正例の予測誤差和と正解ボックスと対応づけられなかった負例の予測誤差和で求める。
位置特定誤差Lioc(x, l, g)は予測位置と正解位置の誤差が1より小さい場合は大きい値として出力し、それ以外の時は極端に外れた値を取らないように抑えた値として出力する。
<パラメータ最適化(処理L8)>
前記特徴マップ生成及びクラス確信度・オフセット計算を行うためのパラメータの修正量を計算し最適化する。
前記特徴マップ生成及びクラス確信度・オフセット計算を行うためのパラメータの修正量を計算し最適化する。
<予測結果出力(処理T6)>
最終的に得られるデフォルトボックスについて、確信度が最も高いクラスを分類クラスとして出力する。また、領域については、デフォルトボックスの領域をそのまま出力する。
最終的に得られるデフォルトボックスについて、確信度が最も高いクラスを分類クラスとして出力する。また、領域については、デフォルトボックスの領域をそのまま出力する。
これら領域を、入力画像上に描画するなどして、物体予測の処理を終了する。
実施例のデータセット
Udacity Annotated Driving Datasetと呼ばれるデータセットを使用する。(インターネットURL https://github.com/udacity/self-driving-car/tree/master/annotationsにて公開)。
Udacity Annotated Driving Datasetと呼ばれるデータセットを使用する。(インターネットURL https://github.com/udacity/self-driving-car/tree/master/annotationsにて公開)。
なお、訓練の高速化のため解像度は480×300に縮小したものを用いる。クラスは車、トラック、歩行者、バイク(自転車)、信号機の計5クラスから構成され、それらの物体が存在する矩形領域が同時に与えられている。また、訓練データは18,000個、テスト用の未知データは4,241個を用いる。
評価
まず、訓練データを用いて訓練したネットワークに未知データを入力する。その後、各クラスのAverage Precision(AP)、その平均のmean Average Precision(mAP)と呼ばれる指標を用いて検出精度を評価する。さらに、クラス確信度閾値を0.02から0.7まで変化させた場合のmAP及び検出速度[FPS](1秒間あたりの画像数)を測定し従来手法との比較を行う。また、使用するGPUメモリは2793[MB]に統一する。
まず、訓練データを用いて訓練したネットワークに未知データを入力する。その後、各クラスのAverage Precision(AP)、その平均のmean Average Precision(mAP)と呼ばれる指標を用いて検出精度を評価する。さらに、クラス確信度閾値を0.02から0.7まで変化させた場合のmAP及び検出速度[FPS](1秒間あたりの画像数)を測定し従来手法との比較を行う。また、使用するGPUメモリは2793[MB]に統一する。
実験結果
表1にクラス確信度閾値を0.02にした場合の各クラスのAP、mAP、FPSの値を比較した結果を示す。まず、本発明に係るFPSSD7では従来のSSDシステムと比較してFPSの値が大きく向上し、リアルタイムで検出が可能な30FPSを記録した。また、mAPの値についてはSSD300よりは低下しているが、車クラスのAPの値は向上した結果となった。
表1にクラス確信度閾値を0.02にした場合の各クラスのAP、mAP、FPSの値を比較した結果を示す。まず、本発明に係るFPSSD7では従来のSSDシステムと比較してFPSの値が大きく向上し、リアルタイムで検出が可能な30FPSを記録した。また、mAPの値についてはSSD300よりは低下しているが、車クラスのAPの値は向上した結果となった。
図4及び図5にクラス確信度閾値を0.02から0.7まで0.01刻みで増加させた際の検出精度及び処理速度の遷移を示す。これより、検出精度に関しては従来のSSD300が常に高い結果となったが、処理速度については最も低く、確信度閾値を高くしても30[FPS]付近で頭打ちになっていることが見て取れる。対して、FPSSD7ではSSD7より検出精度では劣るものの最大で80[FPS]程度の処理速度を記録した。
以上より、リアルタイム処理を重視し検出精度をある程度の犠牲を許容するのであれば、さらに、より省メモリを備える安価なGPUを用いたとしても高速に検出できると推測される。従って、本発明に係る物体識別システムは検出精度、リアルタイム処理、マシンコストの側面でバランスが取れた物体識別システムであると言える。
また、FPSSD7の検出結果例を示す。図6、図7より、遠くに映る小さい物体(10×10画素サイズ)であってもクラスを識別し検出ができていることが見て取れる。また、図8では駐車中の車の集団を正確に検出できている。さらに、図9のようにトラックの後ろに隠れてしまっている物体も正確に検出可能であることが分かる。つまり、本発明は物体検出で困難な小さい物体や物体の集団、オクルージョン時(物体が裏に隠れている状態)にも対応可能な物体識別システムであると言える。
Claims (7)
- 画像に記録された物体の識別を行うシステムであって、
識別対象画像を入力する入力部と、入力された識別対象画像について特徴マップを作成する特徴マップ作成部と、識別対象画像中の物体を予測する物体予測部と、該物体予測部によって予測された結果を出力する出力部とを備え、
前記特徴マップ生成部は、畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成処理部と、各層における特徴マップの意味情報を補間する特徴マップ意味情報補間処理部とを備え、さらに、特徴マップ意味情報補間処理部は、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものであり、
前記特徴マップ意味情報補間処理部による意味情報の補間が複数の層において繰り返されるものであることを特徴とする物体識別システム。 - 前記特徴マップ生成部における畳み込みニューラルネットワークによる特徴マップの生成は、7層以下の特徴マップを生成するものであることを特徴とする請求項1に記載の物体識別システム。
- 前記特徴マップ意味情報補間処理部による補間処理は、最も深い層の特徴マップから最も浅い層の特徴マップに至る範囲に順次画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された各層における特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものであることを特徴とする請求項1または2に記載の物体識別システム。
- 前記物体予測部は、前記平滑化された特徴マップ上に、デフォルトボックスを配置するデフォルトボックス配置処理部と、
前記デフォルトボックスが配置された特徴マップに対して畳み込みフィルタを用いて物体の確信度をクラス単位の確率で算出し、かつ物体の位置およびサイズを算出するクラス確信度・オフセット算出部と、
前記物体として確信度の高いデフォルトボックスの数と低いデフォルトボックスの数の割合を所定の割合となるようにデフォルトボックスの数を調整するデフォルトボックス数調整部とを備える
ことを特徴とする請求項1〜3のいずれかに記載の物体識別システム。 - 前記デフォルトボックス数調整部は、前記確信度について所定の閾値以下のデフォルトボックスを削除する処理を含むものである請求項4に記載の物体識別システム。
- 画像に記録された物体の識別を行う方法であって、
識別対象画像を入力する画像入力ステップと、
入力された識別対象画像について畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成ステップと、
前記特徴マップの複数層における意味情報を補間する特徴マップ意味情報補間処理ステップと、
意味情報が補間された特徴マップ上にデフォルトボックスを配置するデフォルトボックス配置処理ステップと、
前記デフォルトボックスが配置された特徴マップに対して畳み込みフィルタを用いて物体の確信度をクラス単位の確率で算出し、かつ物体の位置およびサイズを算出するクラス確信度・オフセット算出ステップと、
前記物体として確信度の高いデフォルトボックスの数と低いデフォルトボックスの数の割合を所定の割合となるようにデフォルトボックスの数を調整するデフォルトボックス数調整ステップとを含み、
前記特徴マップ意味情報補間処理ステップは、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものである
ことを特徴とする物体識別方法。 - 画像に記録された物体の識別を行うためのコンピュータプログラムであって、コンピュータを、
識別対象画像を入力する画像入力手段と、
入力された識別対象画像について畳み込みニューラルネットワークによって複数層ごとの特徴マップを生成する特徴マップ生成手段と、
前記特徴マップの複数層における意味情報を補間する特徴マップ意味情報補間処理手段と、
意味情報が補間された特徴マップ上にデフォルトボックスを配置するデフォルトボックス配置処理手段と、
前記デフォルトボックスが配置された特徴マップに対して畳み込みフィルタを用いて物体の確信度をクラス単位の確率で算出し、かつ物体の位置およびサイズを算出するクラス確信度・オフセット算出手段と、
前記物体として確信度の高いデフォルトボックスの数と低いデフォルトボックスの数の割合を所定の割合となるようにデフォルトボックスの数を調整するデフォルトボックス数調整手段として機能させるものであり、
前記特徴マップ意味情報補間処理手段は、特定の層における特徴マップについて線形補間法による画像サイズの拡大およびゼロパディングを行い、特徴マップの数を調整して前記特徴マップ生成処理部で生成された特徴マップと同じ画素の要素和を算出したうえで、畳み込み処理により平滑化を行うものである
ことを特徴とする画像識別プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018236091A JP2020098455A (ja) | 2018-12-18 | 2018-12-18 | 物体識別システム、物体識別方法、並びに、画像識別プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018236091A JP2020098455A (ja) | 2018-12-18 | 2018-12-18 | 物体識別システム、物体識別方法、並びに、画像識別プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020098455A true JP2020098455A (ja) | 2020-06-25 |
Family
ID=71106556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018236091A Pending JP2020098455A (ja) | 2018-12-18 | 2018-12-18 | 物体識別システム、物体識別方法、並びに、画像識別プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020098455A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733792A (zh) * | 2021-01-21 | 2021-04-30 | 高新兴科技集团股份有限公司 | 一种基于监控视频的倒地行为检测方法 |
JP2023508641A (ja) * | 2020-07-23 | 2023-03-03 | 株式会社アーバンベース | データ増強基盤事物分析モデル学習装置及び方法 |
-
2018
- 2018-12-18 JP JP2018236091A patent/JP2020098455A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023508641A (ja) * | 2020-07-23 | 2023-03-03 | 株式会社アーバンベース | データ増強基盤事物分析モデル学習装置及び方法 |
JP7336033B2 (ja) | 2020-07-23 | 2023-08-30 | 株式会社アーバンベース | データ増強基盤事物分析モデル学習装置及び方法 |
CN112733792A (zh) * | 2021-01-21 | 2021-04-30 | 高新兴科技集团股份有限公司 | 一种基于监控视频的倒地行为检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110189255B (zh) | 基于两级检测的人脸检测方法 | |
AU2019213369B2 (en) | Non-local memory network for semi-supervised video object segmentation | |
JP4125786B2 (ja) | 疎配列画像の相関付け | |
CN109993095B (zh) | 一种面向视频目标检测的帧级别特征聚合方法 | |
KR20190100320A (ko) | 이미지 처리를 위한 신경망 모델 훈련 방법, 장치 및 저장 매체 | |
CN109711401B (zh) | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 | |
US11314989B2 (en) | Training a generative model and a discriminative model | |
CN112906816B (zh) | 基于光微分与双通道神经网络的目标检测方法和装置 | |
CN112241008B (zh) | 用于对象检测的方法和系统 | |
CN111767962A (zh) | 基于生成对抗式网络的一阶段目标检测方法、系统及装置 | |
CN111079669A (zh) | 一种图像处理方法、装置及存储介质 | |
GB2579262A (en) | Space-time memory network for locating target object in video content | |
CN110909615A (zh) | 基于多尺度输入混合感知神经网络的目标检测方法 | |
JP2015524946A (ja) | 画像解像度が改善された超解像画像を形成するための方法及び測定装置 | |
JP2020098455A (ja) | 物体識別システム、物体識別方法、並びに、画像識別プログラム | |
CN116266387A (zh) | 基于重参数化残差结构和坐标注意力机制的yolov4的图像识别算法及系统 | |
CN112101113B (zh) | 一种轻量化的无人机图像小目标检测方法 | |
CN116311004B (zh) | 基于稀疏光流提取的视频运动目标检测方法 | |
CN113542868A (zh) | 视频关键帧选取方法、装置、电子设备、存储介质 | |
JP5976126B2 (ja) | ターゲットサイズを見積もるためのシステム及び方法 | |
CN112784828B (zh) | 基于方向梯度直方图的图像检测方法、装置、计算机设备 | |
CN114463300A (zh) | 钢材表面缺陷检测方法、电子设备、存储介质 | |
CN114863108A (zh) | 点云处理的方法、系统、电子设备及计算机可读存储介质 | |
CN112560834B (zh) | 一种坐标预测模型生成方法、装置及图形识别方法、装置 | |
CN109492755B (zh) | 图像处理方法、图像处理装置和计算机可读存储介质 |