JP2020113000A - 物体検出認識装置、方法、及びプログラム - Google Patents

物体検出認識装置、方法、及びプログラム Download PDF

Info

Publication number
JP2020113000A
JP2020113000A JP2019002803A JP2019002803A JP2020113000A JP 2020113000 A JP2020113000 A JP 2020113000A JP 2019002803 A JP2019002803 A JP 2019002803A JP 2019002803 A JP2019002803 A JP 2019002803A JP 2020113000 A JP2020113000 A JP 2020113000A
Authority
JP
Japan
Prior art keywords
feature map
hierarchical
layer
unit
shallow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019002803A
Other languages
English (en)
Other versions
JP7103240B2 (ja
Inventor
泳青 孫
Yongqing Sun
泳青 孫
島村 潤
Jun Shimamura
潤 島村
淳 嵯峨田
Atsushi Sagata
淳 嵯峨田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2019002803A priority Critical patent/JP7103240B2/ja
Priority to PCT/JP2019/051148 priority patent/WO2020145180A1/ja
Priority to US17/422,092 priority patent/US20220101628A1/en
Publication of JP2020113000A publication Critical patent/JP2020113000A/ja
Application granted granted Critical
Publication of JP7103240B2 publication Critical patent/JP7103240B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像が表す物体のカテゴリ及び領域を精度よく認識できる。【解決手段】第1階層型特徴マップ生成部23が、前記CNNの各層で出力される特徴マップに基づいて、深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップを生成する。第2階層型特徴マップ生成部24が、浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップを生成する。統合部25が、対応する層の特徴マップ同士を統合することにより、階層型特徴マップを生成する。物体領域検出部26が、物体候補領域を各々検出して、物体認識部27が、物体候補領域の各々について、物体候補領域が表す物体のカテゴリ及び領域を認識する。【選択図】図1

Description

本発明は、物体検出認識装置、方法、及びプログラムに係り、特に、画像の物体を検出し、認識するための物体検出認識装置、方法、及びプログラムに関する。
セマンティック画像分割と認識は、映像や画像中の画素をオブジェクトカテゴリに割当てようとする技術である。自動運転や医用画像の解析、状態とポーズ推定などによく応用されている。近年、深層学習を用いた画素毎の画像分割技術は盛んに研究されている。代表的な処理の流れの例である、Mask RCNNという手法(非特許文献1)は、図6に示すとおり、まず、入力画像に対して、CNNベースのbackboneネットワークを通して、特徴マップ抽出を行う(図6のa部分)。つぎに、前記特徴マップにおいて、物体に関連する候補領域(物体らしい領域)を検出する(図6のb部分)。最後に、前記候補領域から物体位置検出や画素の割り当てを行う(図6のc部分)。また、Mask RCNNの特徴マップ抽出処理についてCNNの深い層の出力しか利用してないことに対して、図7(A)、(B)に示すように、浅い層の情報を含め複数層の出力も利用する、FPN(Feature Pyramid Network)という階層的な特徴マップ抽出方法(非特許文献2)も提案されている。
Mask R-CNN, Kaiming He,Georgia Gkioxari,Piotr Dollar,Ross Girshick,ICCV2017 Feature Pyramid Networks for Object Detection, Tsung-Yi Lin, Piotr Dollar , Ross Girshick , Kaiming He , Bharath Hariharan, and Serge Belongie,CVPR2017
CNNベースの物体分割と認識手法について以下の観察がある。
第一に、CNNベースのbackboneネットワークの浅い層では、入力画像の低レベル画像特徴を表している。つまり、物体の線や点、模様などの細部を表現している。
第二に、CNN層が深くなるにつれて、画像の高レベル特徴を抽出することができる。たとえば、物体の特徴な輪郭や物体間のコンテキスト関係などを表す特徴を抽出することができる。
上記の非特許文献1に示すMask RCNNという手法はCNNの深い層から生成した特徴マップだけを用いて、次の物体領域候補検出と画素毎のセグメンテーションを行うこととなる。従って、物体の細部を表現する低レベル特徴量を失うめ、物体検出位置のずれやセグメンテーション(画素の割り当て)の精度が低くなる問題が生じる。
一方、非特許文献2のFPNという方法はCNNのbackboneネットワークに対して、深い層の特徴マップからアップサンプリングしながら、セマンティックな情報を浅い層へ伝搬していく。そして、複数の特徴マップを用いて物体分割を行うことにより、物体分割精度はある程度改善されるが、実際に高レベル特徴マップ(up layer)に対して低レベル特徴を取り入れてないため、物体分割と認識の精度問題が生じる。
本発明は、上記問題点を解決するために成されたものであり、画像が表す物体のカテゴリ及び領域を精度よく認識できる物体検出認識装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る物体検出認識装置は、認識対象となる画像を、CNN(Convolutional Neural Network)に入力して、前記CNNの各層で出力される特徴マップに基づいて、深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップを生成する第1階層型特徴マップ生成部と、前記CNNの各層で出力される特徴マップに基づいて、浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップを生成する第2階層型特徴マップ生成部と、前記深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップ、及び前記浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップについて、対応する層の特徴マップ同士を統合することにより、階層型特徴マップを生成する統合部と、前記統合部により生成された階層型特徴マップに基づいて、物体候補領域を各々検出する物体領域検出部と、前記統合部により生成された階層型特徴マップに基づいて、前記物体候補領域の各々について、前記物体候補領域が表す物体のカテゴリ及び領域を認識する物体認識部と、を含んで構成されている。
また、第1の発明に係る物体検出認識装置において、前記第1階層型特徴マップ生成部は、深い層から浅い層まで順に特徴マップを計算し、深い層から浅い層まで順に計算された特徴マップからなる階層型特徴マップを生成し、前記第2階層型特徴マップ生成部は、浅い層から深い層まで順に特徴マップを計算し、浅い層から深い層まで順に計算された特徴マップからなる階層型特徴マップを生成し、前記統合部は、順番が対応する特徴マップ同士を統合することにより、階層型特徴マップを生成するようにしてもよい。また、前記第1階層型特徴マップ生成部は、深い層から浅い層まで順に、当該層の一つ前に計算された特徴マップをアップサンプリングしたものと、当該層で出力される特徴マップとを足し合わせるように計算された特徴マップを求め、深い層から浅い層まで順に計算された特徴マップからなる階層型特徴マップを生成し、前記第2階層型特徴マップ生成部は、浅い層から深い層まで順に、当該層の一つ前に計算された特徴マップをダウンサンプリングしたものと、当該層で出力される特徴マップとを足し合わせるように計算された特徴マップを求め、浅い層から深い層まで順に計算された特徴マップからなる階層型特徴マップを生成するようにしてもよい。
また、第1の発明に係る物体検出認識装置において、前記物体認識部は、前記統合部により生成された階層型特徴マップに基づいて、前記物体候補領域の各々について、前記物体候補領域が表す物体のカテゴリ、位置、及び領域を認識するようにしてもよい。
第2の発明に係る物体検出認識方法は、第1階層型特徴マップ生成部が、認識対象となる画像を、CNN(Convolutional Neural Network)に入力して、前記CNNの各層で出力される特徴マップに基づいて、深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップを生成し、第2階層型特徴マップ生成部が、前記CNNの各層で出力される特徴マップに基づいて、浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップを生成し、統合部が、前記深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップ、及び前記浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップについて、対応する層の特徴マップ同士を統合することにより、階層型特徴マップを生成し、物体領域検出部が、前記統合部により生成された階層型特徴マップに基づいて、物体候補領域を各々検出し、物体認識部が、前記統合部により生成された階層型特徴マップに基づいて、前記物体候補領域の各々について、前記物体候補領域が表す物体のカテゴリ及び領域を認識する。
第3の発明に係るプログラムは、コンピュータを、第1の発明に記載の物体検出認識装置の各部として機能させるためのプログラムである。
本発明の物体検出認識装置、方法、及びプログラムによれば、前記CNNの各層で出力される特徴マップに基づいて、深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップと、浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップとを生成し、対応する層の特徴マップ同士を統合することにより、階層型特徴マップを生成し、物体候補領域を各々検出して、前記物体候補領域の各々について、前記物体候補領域が表す物体のカテゴリ及び領域を認識することにより、画像が表す物体のカテゴリ及び領域を精度よく認識できる、という効果が得られる。
本発明の実施の形態に係る物体検出認識装置の構成を示すブロック図である。 本発明の実施の形態に係る物体検出認識装置における物体検出認識処理ルーチンを示すフローチャートである。 階層型特徴マップを生成する方法と階層型特徴マップを統合する方法とを説明するための図である。 bottom-up augmentation処理を説明するための図である。 物体の検出と認識の方法を説明するための図である。 従来技術であるMask RCNNの処理を説明するための図である。 (A)従来技術であるFPNの処理を説明するための図、及び(B)アップサンプリング処理による深い層から浅い層までの階層型特徴マップの生成方法を説明するための図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
上述した課題を踏まえて、特徴抽出のCNNベースのbackboneネットワークにおいて、浅い層からの情報伝搬と深い層からの情報伝搬との、バランスのよい両方向の情報伝搬パースを用いれば、精度のよい物体検出と認識に対して有効だと考えられる。
そこで、本発明の実施の形態では、物体検出と認識の対象となる画像を取得し、画像に対して、CNNのbackboneネットワークを通して、たとえば、FPNにより、深い層から階層的な特徴マップを生成し、画像のCNNのbackboneネットワークにおいて、Reversed FPNにより、浅い層から階層的な特徴マップを生成する。そして、生成された深い層からの階層的な特徴マップと浅い層からの階層的な特徴マップとを統合し、階層的な特徴マップを生成し、生成された階層的な特徴マップを用いて、物体検出と認識を行う。
<本発明の実施の形態に係る物体検出認識装置の構成>
次に、本発明の実施の形態に係る物体検出認識装置の構成について説明する。図1に示すように、本発明の実施の形態に係る物体検出認識装置100は、CPUと、RAMと、後述する物体検出認識処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この物体検出認識装置100は、機能的には図1に示すように、入力部10と、演算部20とを含んで構成されている。
演算部20は、蓄積部21と、画像取得部22と、第1階層型特徴マップ生成部23と、第2階層型特徴マップ生成部24と、統合部25と、物体領域検出部26と、物体認識部27と、学習部28とを含んで構成されている。
蓄積部21には、物体の検出及び認識の対象となる画像を蓄積する。蓄積部21は、画像取得部22から処理指示を受け取ると、画像取得部22に対して画像を出力する。また、物体認識部27で求められた検出結果及び認識結果を蓄積部21に格納する。なお、学習時には、検出結果及び認識結果が予め付与された画像が、蓄積部21に格納されている。
画像取得部22は、蓄積部21に処理指示を出力し、蓄積部21に格納された画像を取得し、取得した画像を、第1階層型特徴マップ生成部23と、第2階層型特徴マップ生成部24とへ出力する。
第1階層型特徴マップ生成部23は、画像取得部22から画像を受け取って、当該画像を、CNN(Convolutional Neural Network)に入力して、CNNの各層で出力される特徴マップに基づいて、深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップを生成する。生成された階層型特徴マップは統合部25へ出力される。
第2階層型特徴マップ生成部24は、画像取得部22から画像を受け取って、当該画像を、CNN(Convolutional Neural Network)に入力して、CNNの各層で出力される特徴マップに基づいて、浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップを生成する。生成された階層型特徴マップは統合部25へ出力される。
統合部25は、第1階層型特徴マップ生成部23から生成された階層型特徴マップと、第2階層型特徴マップ生成部24から生成された階層型特徴マップを受け取って、統合処理を行う。
具体的には、統合部25は、第1階層型特徴マップ生成部23により生成された、深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップ、及び第2階層型特徴マップ生成部24により生成された、浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップについて、対応する層の特徴マップ同士を統合することにより、階層型特徴マップを生成し、物体領域検出部26と、物体認識部27とへ出力する。
物体領域検出部26は、統合部25により生成された階層型特徴マップに基づいて、deep learningベースの物体検出(たとえば、図6に示すMask RCNNのbの処理)を用いて、入力画像に対して、画素毎の物体分割を行うことにより、物体候補領域を各々検出する。
物体認識部27は、統合部25により生成された階層型特徴マップに基づいて、物体候補領域の各々について、deep learningベースの認識手法(たとえば、図6に示すMask RCNNのcの処理)を用いて、当該物体候補領域が表す物体のカテゴリ、位置、及び領域を認識する。物体のカテゴリ、位置、及び領域の認識結果が蓄積部21に格納される。
学習部28は、蓄積部21に格納された、検出結果及び認識結果が予め付与された画像の各々についての物体認識部27による認識結果と、画像の各々について予め付与された検出結果及び認識結果とを用いて、第1階層型特徴マップ生成部23と、第2階層型特徴マップ生成部24と、物体領域検出部26と、物体認識部27との各々で用いられるニューラルネットワークのパラメータを学習する。学習は誤差逆伝播法などの一般的なニューラルネットワークの学習手法を用いればよい。学習部28の学習により、第1階層型特徴マップ生成部23と、第2階層型特徴マップ生成部24と、物体領域検出部26と、物体認識部27との各々では、パラメータがチューニングされたニューラルネットワークを用いて各処理が可能となる。
なお、学習部28の処理については、画像取得部22と、第1階層型特徴マップ生成部23と、第2階層型特徴マップ生成部24と、統合部25と、物体領域検出部26と、物体認識部27とによる一連の物体の検出及び認識の処理とは別個に、任意のタイミングで行えばよい。
<本発明の実施の形態に係る物体検出認識装置の作用>
次に、本発明の実施の形態に係る物体検出認識装置100の物体の検出及び認識に関する作用について説明する。物体検出認識装置100は、図2に示す物体検出認識処理ルーチンを実行する。
まず、ステップS101では、画像取得部22は、蓄積部21に処理指示を出力し、蓄積部21に格納された画像を取得する。
次に、ステップS102では、第1階層型特徴マップ生成部23は、上記ステップS101で取得した画像を、CNNベースのbackboneネットワークを入力し、各層から出力された特徴マップを取得する。ここで、VGGやResnetなどのCNNネットワークを使えばよい。そして、図3のFPNに示すdata augmentation手法により、深い層から浅い層まで順に、特徴マップを求め、深い層から浅い層まで順に計算された特徴マップからなる階層型特徴マップを生成する。このとき、深い層から浅い層まで順に特徴マップを計算する際には、図4に示す処理とは反対の処理となるように、当該層の一つ前に計算された特徴マップをアップサンプリングしたものと、当該層で出力される特徴マップとを足し合わせるように特徴マップを計算する。
このような階層型特徴マップでは、up layerのセマンティックな情報(物体の特徴な輪郭、物体間のコンテキスト情報)を下の特徴マップへも伝搬でき、物体検出の際に、物体輪郭はなめらかで、検出漏れなく精度よい効果が期待できる。
ステップS103では、第2階層型特徴マップ生成部24は、上記ステップS101で取得した画像を、ステップS102と同じくCNNベースのbackboneネットワークを入力し、各層から出力された特徴マップを取得する。そして、図3のReversed FPNに示すように、浅い層から深い層まで順に、特徴マップを求め、浅い層から深い層まで順に計算された特徴マップからなる階層型特徴マップを生成する。このとき、浅い層から深い層まで順に特徴マップを計算する際には、上記図4に示すように、当該層の一つ前に計算された特徴マップをダウンサンプリングしたものと、当該層で出力される特徴マップとを足し合わせるように特徴マップを計算する。
このような特徴マップは物体に関する詳細な情報(線、点、模様などの情報)をup layerの特徴マップへも伝搬でき、物体分割の際に、物体輪郭はより正確で、特に小さいサイズの物体も漏れなく検出できる効果が期待できる。
ステップS104では、統合部25は、図3に示すように、順番が対応する特徴マップ同士で足し合わせるように統合することにより、階層型特徴マップを生成する。このとき、上記図4と同様に、data augmentation方法(bottom-up augmentation)を用いて、下の層から順に、当該層の一つ前に計算された特徴マップをダウンサンプリングしたものと、当該層で足し合わせて得られた特徴マップとを足し合わせるように計算された特徴マップを求め、順に計算された特徴マップからなる階層型特徴マップを生成する。
なお、上記ではdata augmentation方法を用いて統合する場合を例に説明したが、他の統合方法を実施してもよい。例えば、順番が対応する特徴マップ同士で平均を取るように統合してもよいし、順番が対応する特徴マップ同士で最大値を取るように統合してもよい。あるいは、順番が対応する特徴マップ同士を単に足し合わせるように統合してもよい。また、重みづけの足し算により統合してもよい。たとえば、複雑な背景で被写体はある程度一定サイズ以上であれば、上記ステップS102で得られた特徴マップについて大きな重みづけをしてもよい。また、画像中にサイズの小さい被写体が複数存在する場合、上記ステップS103で得られる、低レベル特徴を強調する特徴マップに大きな重みづけをしてもよい。また、上記図4とは異なるdata augmentation方法を用いて統合してもよい。
ステップS105では、物体領域検出部26は、上記ステップS104で生成された階層型特徴マップに基づいて、物体候補領域を各々検出する。
例えば、各層の特徴マップについて、RPN(Region Proposal Network)により物体であるスコアを画素毎に計算し、各層で対応する領域のスコアが高くなる物体候補領域を検出する。
ステップS106では、物体認識部27は、上記ステップS104で生成された階層型特徴マップに基づいて、上記ステップS105で検出された物体候補領域の各々について、当該物体候補領域が表す物体のカテゴリ、位置、及び領域を認識する。
例えば、図5(A)に示すように、階層型特徴マップの各層の特徴マップの、当該物体候補領域に対応する部分を各々用いて、固定サイズの特徴マップを生成し、図5(C)に示すように、固定サイズの特徴マップを、FCN(Fully Convolutional Network)に入力することにより、当該物体候補領域が表す物体の領域を認識する。また、図5(B)に示すように、固定サイズの特徴マップを、全結合層に入力することにより、当該物体候補領域が表す物体のカテゴリ及び当該物体を囲うボックス位置を認識する。そして、当該物体候補領域が表す物体のカテゴリ、位置、及び領域の認識結果を、蓄積部21に格納する。
ステップS107では、蓄積部21に格納された全ての画像について処理を終了したかを判定し、終了していれば物体検出認識処理ルーチンを終了し、終了していなければステップS101に戻って次の画像を取得して処理を繰り返す。
以上説明したように、本発明の実施の形態に係る物体検出認識装置によれば、CNNの各層で出力される特徴マップに基づいて、深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップと、浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップとを生成し、対応する層の特徴マップ同士を統合することにより、階層型特徴マップを生成し、物体候補領域を各々検出して、物体候補領域の各々について、前記物体候補領域が表す物体のカテゴリ及び領域を認識することにより、画像が表す物体のカテゴリ及び領域を精度よく認識できる。
また、CNNのネットワークにおける全部の畳込み層の情報である、物体の意味情報を表す高レベル特徴(上のlayer)と物体の細部情報を表現する低レベル特徴(下のlayer)を有効利用できるようになるため、より精度のよい物体分割と認識が可能となる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、学習部28を物体検出認識装置100に含める場合を例に説明したが、これに限定されるものではなく、物体検出認識装置100とは別個の学習装置として構成するようにしてもよい。
10 入力部
20 演算部
21 蓄積部
22 画像取得部
23 第1階層型特徴マップ生成部
24 第2階層型特徴マップ生成部
25 統合部
26 物体領域検出部
27 物体認識部
28 学習部
100 物体検出認識装置

Claims (6)

  1. 認識対象となる画像を、CNN(Convolutional Neural Network)に入力して、前記CNNの各層で出力される特徴マップに基づいて、深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップを生成する第1階層型特徴マップ生成部と、
    前記CNNの各層で出力される特徴マップに基づいて、浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップを生成する第2階層型特徴マップ生成部と、
    前記深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップ、及び前記浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップについて、対応する層の特徴マップ同士を統合することにより、階層型特徴マップを生成する統合部と、
    前記統合部により生成された階層型特徴マップに基づいて、物体候補領域を各々検出する物体領域検出部と、
    前記統合部により生成された階層型特徴マップに基づいて、前記物体候補領域の各々について、前記物体候補領域が表す物体のカテゴリ及び領域を認識する物体認識部と、
    を含む物体検出認識装置。
  2. 前記第1階層型特徴マップ生成部は、深い層から浅い層まで順に特徴マップを計算し、深い層から浅い層まで順に計算された特徴マップからなる階層型特徴マップを生成し、
    前記第2階層型特徴マップ生成部は、浅い層から深い層まで順に特徴マップを計算し、浅い層から深い層まで順に計算された特徴マップからなる階層型特徴マップを生成し、
    前記統合部は、順番が対応する特徴マップ同士を統合することにより、階層型特徴マップを生成する請求項1記載の物体検出認識装置。
  3. 前記第1階層型特徴マップ生成部は、深い層から浅い層まで順に、当該層の一つ前に計算された特徴マップをアップサンプリングしたものと、当該層で出力される特徴マップとを足し合わせるように計算された特徴マップを求め、深い層から浅い層まで順に計算された特徴マップからなる階層型特徴マップを生成し、
    前記第2階層型特徴マップ生成部は、浅い層から深い層まで順に、当該層の一つ前に計算された特徴マップをダウンサンプリングしたものと、当該層で出力される特徴マップとを足し合わせるように計算された特徴マップを求め、浅い層から深い層まで順に計算された特徴マップからなる階層型特徴マップを生成する請求項2記載の物体検出認識装置。
  4. 前記物体認識部は、
    前記統合部により生成された階層型特徴マップに基づいて、前記物体候補領域の各々について、前記物体候補領域が表す物体のカテゴリ、位置、及び領域を認識する請求項1〜請求項3の何れか1項記載の物体検出認識装置。
  5. 第1階層型特徴マップ生成部が、認識対象となる画像を、CNN(Convolutional Neural Network)に入力して、前記CNNの各層で出力される特徴マップに基づいて、深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップを生成し、
    第2階層型特徴マップ生成部が、前記CNNの各層で出力される特徴マップに基づいて、浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップを生成し、
    統合部が、前記深い層から浅い層までの階層的な特徴マップからなる階層型特徴マップ、及び前記浅い層から深い層までの階層的な特徴マップからなる階層型特徴マップについて、対応する層の特徴マップ同士を統合することにより、階層型特徴マップを生成し、
    物体領域検出部が、前記統合部により生成された階層型特徴マップに基づいて、物体候補領域を各々検出し、
    物体認識部が、前記統合部により生成された階層型特徴マップに基づいて、前記物体候補領域の各々について、前記物体候補領域が表す物体のカテゴリ及び領域を認識する
    物体検出認識方法。
  6. コンピュータを、請求項1〜請求項4のいずれか1項に記載の物体検出認識装置の各部として機能させるためのプログラム。
JP2019002803A 2019-01-10 2019-01-10 物体検出認識装置、方法、及びプログラム Active JP7103240B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019002803A JP7103240B2 (ja) 2019-01-10 2019-01-10 物体検出認識装置、方法、及びプログラム
PCT/JP2019/051148 WO2020145180A1 (ja) 2019-01-10 2019-12-26 物体検出認識装置、方法、及びプログラム
US17/422,092 US20220101628A1 (en) 2019-01-10 2019-12-26 Object detection and recognition device, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019002803A JP7103240B2 (ja) 2019-01-10 2019-01-10 物体検出認識装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020113000A true JP2020113000A (ja) 2020-07-27
JP7103240B2 JP7103240B2 (ja) 2022-07-20

Family

ID=71521305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019002803A Active JP7103240B2 (ja) 2019-01-10 2019-01-10 物体検出認識装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US20220101628A1 (ja)
JP (1) JP7103240B2 (ja)
WO (1) WO2020145180A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022070250A1 (ja) * 2020-09-29 2022-04-07 日本電気株式会社 情報処理装置、情報処理方法、および、プログラム
WO2022137476A1 (ja) * 2020-12-25 2022-06-30 三菱電機株式会社 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法
JP2022173321A (ja) * 2021-10-15 2022-11-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド オブジェクトの検出方法、装置、デバイス、媒体及びプログラム
WO2023151237A1 (zh) * 2022-02-11 2023-08-17 深圳须弥云图空间科技有限公司 人脸位姿估计方法、装置、电子设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11741712B2 (en) * 2020-09-28 2023-08-29 Nec Corporation Multi-hop transformer for spatio-temporal reasoning and localization
CN112507888A (zh) * 2020-12-11 2021-03-16 北京建筑大学 建筑物识别方法及装置
CN113192104B (zh) * 2021-04-14 2023-04-28 浙江大华技术股份有限公司 一种目标特征提取方法及其设备
CN116071607B (zh) * 2023-03-08 2023-08-08 中国石油大学(华东) 基于残差网络的水库航拍图像分类及图像分割方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10452959B1 (en) * 2018-07-20 2019-10-22 Synapse Tehnology Corporation Multi-perspective detection of objects
CN113591750A (zh) * 2018-11-16 2021-11-02 北京市商汤科技开发有限公司 关键点检测方法及装置、电子设备和存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HE, KAIMING, ET AL.: ""Mask R-CNN"", PROCEEDINGS OF THE 2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV 2017), JPN6020010438, 29 October 2017 (2017-10-29), pages 2980 - 2988, XP033283165, ISSN: 0004792401, DOI: 10.1109/ICCV.2017.322 *
LIN, TSUNG-YI, ET AL.: ""Feature Pyramid Networks for Object Detection"", PROCEEDINGS OF THE 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2017), JPN6020010439, 26 July 2017 (2017-07-26), pages 936 - 944, XP033249432, ISSN: 0004792402, DOI: 10.1109/CVPR.2017.106 *
SABYASACHI MOHANTY, ET AL.: ""Robust Scene Text Detection with Deep Feature Pyramid Network and CNN based NMS Model"", PROCEEDINGS OF 2018 24TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR), JPN6022022472, 24 August 2018 (2018-08-24), pages 3741 - 3746, XP033453977, ISSN: 0004792403, DOI: 10.1109/ICPR.2018.8545099 *
WU, XIONGWEI, ET AL.: ""Single-Shot Bidirectional Pyramid Networks for High-Quality Object Detection"", ARXIV:1803.08208V1, vol. version v1, JPN6020010437, 22 March 2018 (2018-03-22), pages 1 - 10, ISSN: 0004792400 *
山下 隆義, 「イラストで学ぶ ディープラーニング」, vol. 改訂第2版, JPN6022022471, 19 November 2018 (2018-11-19), JP, pages 104 - 111, ISSN: 0004792404 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022070250A1 (ja) * 2020-09-29 2022-04-07 日本電気株式会社 情報処理装置、情報処理方法、および、プログラム
JPWO2022070250A1 (ja) * 2020-09-29 2022-04-07
JP7380904B2 (ja) 2020-09-29 2023-11-15 日本電気株式会社 情報処理装置、情報処理方法、および、プログラム
WO2022137476A1 (ja) * 2020-12-25 2022-06-30 三菱電機株式会社 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法
JP7361949B2 (ja) 2020-12-25 2023-10-16 三菱電機株式会社 物体検出装置、モニタリング装置、学習装置、及び、モデル生成方法
JP2022173321A (ja) * 2021-10-15 2022-11-18 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド オブジェクトの検出方法、装置、デバイス、媒体及びプログラム
JP7387847B2 (ja) 2021-10-15 2023-11-28 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド オブジェクトの検出方法、装置、デバイス、媒体及びプログラム
WO2023151237A1 (zh) * 2022-02-11 2023-08-17 深圳须弥云图空间科技有限公司 人脸位姿估计方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
JP7103240B2 (ja) 2022-07-20
WO2020145180A1 (ja) 2020-07-16
US20220101628A1 (en) 2022-03-31

Similar Documents

Publication Publication Date Title
WO2020145180A1 (ja) 物体検出認識装置、方法、及びプログラム
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
Raid et al. Image restoration based on morphological operations
CN111160085A (zh) 一种人体图像关键点姿态估计方法
KR101656566B1 (ko) 생체 특징 벡터 추출 장치, 생체 특징 벡터 추출 방법, 및 생체 특징 벡터 추출 프로그램
JP2018081674A (ja) 手書きテキスト画像に対する行及び単語切り出し方法
CN113591719B (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
US20220076119A1 (en) Device and method of training a generative neural network
KR101888647B1 (ko) 이미지 분류 장치 및 방법
CN110546687B (zh) 图像处理装置及二维图像生成用程序
CN114863431A (zh) 一种文本检测方法、装置及设备
JP4570995B2 (ja) マッチング方法およびマッチング装置ならびにプログラム
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
CN116630245A (zh) 一种基于显著性图引导和不确定性语义增强的息肉分割方法
CN116543437A (zh) 一种基于遮挡-特征映射关系的遮挡人脸识别方法
JP7323849B2 (ja) 分割認識方法、分割認識装置及びプログラム
US11288534B2 (en) Apparatus and method for image processing for machine learning
JP7238510B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR20150094108A (ko) 배경 영상의 위치를 이용한 관심맵 생성 방법 및 이를 기록한 기록 매체
Wang et al. Learning to remove reflections for text images
CN112613470A (zh) 一种人脸静默活体检测方法、装置、终端及存储介质
Verma et al. Text deblurring using OCR word confidence
JP2016085694A (ja) 画像処理装置及びその制御方法、プログラム
Avatavului et al. A Hierarchical Cluster Tree Approach Leveraging Delaunay Triangulation
WO2020261324A1 (ja) 物体検出認識装置、物体検出認識方法、及び物体検出認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220620

R150 Certificate of patent or registration of utility model

Ref document number: 7103240

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150