JP7251692B2 - オブジェクト検出方法、オブジェクト検出装置及びプログラム - Google Patents

オブジェクト検出方法、オブジェクト検出装置及びプログラム Download PDF

Info

Publication number
JP7251692B2
JP7251692B2 JP2022528753A JP2022528753A JP7251692B2 JP 7251692 B2 JP7251692 B2 JP 7251692B2 JP 2022528753 A JP2022528753 A JP 2022528753A JP 2022528753 A JP2022528753 A JP 2022528753A JP 7251692 B2 JP7251692 B2 JP 7251692B2
Authority
JP
Japan
Prior art keywords
point
image
model
learning
object detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022528753A
Other languages
English (en)
Other versions
JPWO2021246217A1 (ja
JPWO2021246217A5 (ja
Inventor
大気 関井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Publication of JPWO2021246217A1 publication Critical patent/JPWO2021246217A1/ja
Publication of JPWO2021246217A5 publication Critical patent/JPWO2021246217A5/ja
Application granted granted Critical
Publication of JP7251692B2 publication Critical patent/JP7251692B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/469Contour-based spatial representations, e.g. vector-coding
    • G06V10/476Contour-based spatial representations, e.g. vector-coding using statistical shape modelling, e.g. point distribution models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Description

本開示は、画像から所定のオブジェクトを検出するオブジェクト検出方法、オブジェクト検出装置及びプログラムに関する。
カメラで撮影された映像から人物や車両などのオブジェクトを検出するオブジェクト検出技術は、監視カメラシステムや車載カメラシステムなどのアプリケーションの基礎技術として利用されている。近年、オブジェクト検出技術として、ディープラーニングが使用されている。ディープラーニングによるオブジェクト検出方法としては、例えば、ExtremeNet(非特許文献1参照)、YOLO(非特許文献2参照)などが挙げられる。
非特許文献1では、学習済みのニューラルネットワークを用いて、画像上におけるオブジェクトの境界に係る4つの端点(X軸において最小値となる点、X軸において最大値となる点、Y軸において最小値となる点、Y軸において最大値となる点)を検出する。そして、それら4つの端点を用いてオブジェクトを囲む矩形領域(BB:Bounding Box)を決定することにより、オブジェクトの位置の検出の精度を向上させている。
非特許文献2では、従来のニューラルネットワークでは別々に行っていた、画像におけるオブジェクトが含まれる領域の位置を特定する「検出」と、検出したオブジェクトが検出対象のオブジェクトクラスのいずれに該当するかを特定する「識別」とを、画像全体を一度評価するだけで同時に行うことにより、高速なオブジェクト検出を実現している。
Xingyi Zhou, Jiacheng Zhuo, Philipp Krahenbuhl, "Bottom-up Object Detection by Grouping Extreme and Center Points", Computer Vision and Pattern Recognition (CVPR) 2019 Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, "You Only Look Once: Unified, Real-Time Object Detection", Computer Vision and Pattern Recognition (CVPR) 2016
しかしながら、非特許文献1では、画像上においてオブジェクトの境界となっていない点はキーポイントとして検出することが困難である。また、非特許文献2は、オブジェクトの位置をバウンディングボックスとして検出するものであり、画像上で特徴的な点をキーポイントとして検出するものではない。
本開示は、上記課題に鑑みてなされたもので、従来の手法では検出できなかった点をキーポイントとして検出可能なオブジェクト検出方法及びオブジェクト検出装置を提供することを目的とする。
本開示の一態様のオブジェクト検出方法は、所定カテゴリの一以上のオブジェクトが含まれる画像から各オブジェクトを検出するオブジェクト検出方法であって、前記画像内の各オブジェクトのキーポイントの候補である点候補を推定するキーポイント推定ステップと、推定された点候補に基づいて各オブジェクトのキーポイントを検出する検出ステップと、を有し、前記キーポイントは、オブジェクトの形状をモデル化したオブジェクトモデルを考えたとき、前記オブジェクトモデルの境界を示す点集合を所定の座標軸に射影した点集合の中で、所定の条件を満たす点であり、前記所定の座標軸は、前記オブジェクトモデルの中心を原点とし、前記オブジェクトモデルに対して設定される極座標系において所定の偏角方向をなし、前記所定の条件は、前記射影した点集合の中で、前記座標軸上で極大値となる点及び極小値となる点のうち、正の範囲で最大値又は最小値となることであるとしてもよい。
また、前記画像における各オブジェクトの中心位置の候補である中心候補とその尤もらしさ示す信頼度を推定する中心位置推定ステップを更に有し、前記検出ステップは、前記信頼度を用いて前記中心候補から各オブジェクトの中心位置を検出し、決定した各中心位置を用いて前記点候補から各オブジェクトのキーポイントを検出するとしてもよい。
また、前記キーポイント推定ステップは、各オブジェクトの大きさに応じたサイズの小領域として前記点候補を推定するとしてもよい。
また、前記キーポイント推定ステップが、前記オブジェクトを検出するための機械学習を行った学習モデルにより実行されるとしてもよい。
また、前記キーポイント推定ステップと前記中心位置推定ステップとが、前記オブジェクトを検出するための機械学習を行った学習モデルにより実行されるとしてもよい。
また、前記学習モデルは、畳み込みニューラルネットワークであり、前記畳み込みニューラルネットワークのパラメータは、検出対象のオブジェクトを含む学習用画像と、前記学習用画像における検出対象のオブジェクトの中心位置の真値と、前記学習用画像における検出対象のオブジェクトのキーポイントの真値と、に基づく機械学習により、定められるとしてもよい。
本開示の一態様のオブジェクト検出装置は、所定カテゴリの一以上のオブジェクトが含まれる画像から各オブジェクトを検出するオブジェクト検出装置であって、前記画像内の各オブジェクトのキーポイントの候補である点候補を推定するキーポイント推定処理を実行する、前記オブジェクトを検出するための機械学習を行った学習モデルと、推定された点候補に基づいて各オブジェクトのキーポイントを検出する検出部と、を備え、前記キーポイントは、オブジェクトの形状をモデル化したオブジェクトモデルを考えたとき、前記オブジェクトモデルの境界を示す点集合を所定の座標軸に射影した点集合の中で、所定の条件を満たす点であり、前記所定の座標軸は、前記オブジェクトモデルの中心を原点とし、前記オブジェクトモデルに対して設定される極座標系において所定の偏角方向をなし、前記所定の条件は、前記射影した点集合の中で、前記座標軸上で極大値となる点及び極小値となる点のうち、正の範囲で最大値又は最小値となることであるとしてもよい。
本開示の一態様は、上述のオブジェクト検出方法をコンピューターに実行させるプログラムであってもよい。

本開示によると、オブジェクトの形状をモデル化したオブジェクトモデルに対して設定される極座標系で所定の条件を満たす点をキーポイントとして検出するので、入力画像における直交座標系での条件を満たすキーポイントとは異なる特徴点を検出することができる。
実施の形態1に係るオブジェクト検出装置1の概略構成を示すブロック図である。 オブジェクト検出装置1の動作を示すフローチャートである。 CNN130の入力となるカメラ200の撮影画像の一例を示す図である。 W×Hのグリッドセルに分割された撮影画像を示す図である。 (a)はCNN130の出力するオブジェクト推定データのデータ構造を示す図である。(b)はオブジェクト推定データの表す情報を視覚的に示した図である。 オブジェクトモデル及びオブジェクトモデルに対して設定される座標軸を示す模式図である。 オブジェクトモデルにおける点の座標軸への射影を示す図である。 教師データの一例を示す図である。 各グリッドセルに対して行われたクラス分類の分類結果の例を示す図である。 (a)はBB除去処理の後、残ったOBと第1PBの例を示すである。(b)はOBと対応付けられた第1PBの例を示す図である。(c)はOBと対応付けられた各PBの例を示す図である。 オブジェクト検出結果を模式的に示す図である。 検出したオブジェクトの概形を示す図である。 オブジェクト検出結果と入力画像とを重畳した図である。 CNN130の構成を示すブロック図である。 (a)CNN130の一つのニューロンUを示す模式図である。(b)CNN130の学習済みパラメータのデータ構造を示す図である。 (a)は学習時のデータ伝播を模式的に示す図である。(b)推定時のデータ伝播を模式的に示す図である。
1.実施の形態1
以下、実施の形態1に係るオブジェクト検出装置1について説明する。
1.1 構成
図1は、オブジェクト検出装置100の構成を示すブロック図である。図に示すように、オブジェクト検出装置100は、カメラ200と、制御部110と、不揮発性の記憶部120と、CNN130と、オブジェクト検出部140と、AI学習部150とを備える。
カメラ200は、CMOS(Complementary Metal-Oxide-Semiconductor field-effect transistor)イメージセンサーやCCD(Charge-Coupled Device)イメージセンサー等の撮像素子を備え、撮像素子上に結像した光を光電変換で電気信号に変換することにより所定サイズの画像を出力する。カメラ200の出力画像のサイズとCNN130の入力画像のサイズが異なる場合は、カメラ200の出力画像をリサイズする構成を備えてもよい。
制御部110は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random access memory)、などから構成される。RAMには、ROMや記憶部120に格納されたコンピュータプログラムやデータがロードされ、CPUが、RAM上のコンピュータプログラムやデータにしたがって動作することにより、各処理部(CNN130、オブジェクト検出部140、AI学習部150)を実現する。
記憶部120は、一例として、ハードディスクから構成されている。記憶部120は、不揮発性の半導体メモリから構成されている、としてもよい。記憶部120は、オブジェクト検出結果121、学習済みパラメータ122、学習用データ123を記憶している。学習用パラメータ123は、学習用画像123a及び教師データ123bを含む。
CNN130は、オブジェクトを検出するための機械学習を行った畳み込みニューラルネットワークである。CNN130は、入力された所定サイズの画像から、画像全体を一度評価することにより、オブジェクト推定データを出力する。オブジェクト推定データは、入力画像上の検出対象のオブジェクトを囲むBB(OB)や、入力画像上で検出対象のオブジェクトのキーポイントが含まれるBB(PB)、OBが囲むオブジェクトが検出対象のオブジェクトクラスのいずれに該当するかを示すクラス確率などのデータを含む。
オブジェクト検出部140は、CNN130の出力したオブジェクト推定データから、信頼度スコアが閾値よりも低いOBや、より信頼度スコアの高いOBとの重複度合いの高いOBを除去する。同様に、重複BB除去部は、信頼度スコアが閾値よりも低いPBや、より信頼度スコアの高いPBとの重複度合いの高いPBを除去する。信頼度スコアは、オブジェクト推定データに含まれるOBやPBの信頼度及びクラス確率を用いて算出する。また、オブジェクト検出部140は、除去されずに残ったOBとPBとの対応付けを行い、対応付けられたOBとPBとを、オブジェクト検出結果121として記憶部120に保存する。
AI学習部150は、記憶部120に記憶されている学習用データ123を用いてCNNの学習を行い、学習結果を学習用パラメータ122として記憶部120に保存する。
整形後のオブジェクトBBの位置及びサイズと当該オブジェクトBBのクラス確率に基づくクラス判定値を検出結果として記憶する。
1.2 CNN130
畳み込みニューラルネットワークの一例として、図14に示すニューラルネットワーク300について、説明する。
(1)ニューラルネットワーク300の構造
ニューラルネットワーク300は、この図に示すように、入力層300a、特徴抽出層300b及び出力層300cを有する階層型のニューラルネットワークである。
ここで、ニューラルネットワークとは、人間の神経ネットワークを模倣した情報処理システムのことである。ニューラルネットワーク300において、神経細胞に相当する工学的なニューロンのモデルを、ここではニューロンUと呼ぶ。入力層300a、特徴抽出層300b及び出力層300cは、それぞれ複数のニューロンUを有して構成されている。
入力層300aは、通常、1層からなる。入力層300aの各ニューロンUは、例えば1枚の画像を構成する各画素の画素値をそれぞれ受信する。受信した画像値は、入力層300aの各ニューロンUから特徴抽出層300bにそのまま出力される。特徴抽出層300bは、入力層300aから受信したデータから特徴を抽出して出力層300cに出力する。出力層300cは、特徴抽出層300bにより抽出された特徴を用いてオブジェクト検出を行う。
ニューロンUとして、通常、図15(a)に示すように、多入力1出力の素子が用いられる。信号は一方向にだけ伝わり、入力された信号xi(i=1、2、・・・、n)に、あるニューロン加重値(SUwi)が乗じられて、ニューロンUに入力される。ニューロン加重値は、学習によって変化させることができる。ニューロンUからは、ニューロン加重値SUwiが乗じられたそれぞれの入力値(SUwi×xi)の総和が活性化関数f(X)による変形を受けた後、出力される。つまり、ニューロンUの出力値yは、以下の数式で表される。
y=f(X)
ここで、
X=Σ(SUwi×xi)
である。なお、活性化関数としては、例えば、ReLUやシグモイド関数を用いることができる。
ニューラルネットワーク300の学習方法としては、例えば、正解を示す値(教師データ)とCNN300の出力値(オブジェクト推定データ)とから所定の誤差関数を用いて誤差を算出し、この誤差が最小となるように、最急降下法等を用いて特徴抽出層300bのニューロン加重値等及び出力層300cのニューロン加重値を順次変化させていく誤差逆伝播法(バックプロパゲーション)が用いられる。
(2)学習工程
ニューラルネットワーク300における学習工程について説明する。
学習工程は、ニューラルネットワーク300の事前学習を行う工程である。学習工程では、事前に入手した学習用データ123を用いて、ニューラルネットワーク300の事前学習を行う。
図16(a)に、事前学習の際のデータの伝播モデルを模式的に示している。
学習用画像123aは、画像1枚毎に、ニューラルネットワーク300の入力層300aに入力され、入力層300aから特徴抽出層300bに出力される。特徴抽出層300bの各ニューロンUでは、入力データに対してニューロン加重値付きの演算が行われ、抽出した特徴を示すデータが、出力層300cに出力される。出力層300cの各ニューロンUでは、入力データに対するニューロン加重値付きの演算が行われる(ステップS11)。これによって、上記特徴に基づくオブジェクト推定が行われる。オブジェクト推定の結果を示すデータは、出力層300cから出力される。
出力層300cの出力値(オブジェクト推定データ)は、教師データ123bと比較され、所定の誤差関数を用いて、誤差(ロス)が算出される(ステップS12)。この誤差が小さくなるように、出力層300cのニューロン加重値等及び特徴抽出層300bのニューロン加重値等を順次変化させる(バックプロパゲーション)(ステップS13)。これにより、CNN300の学習を行う。
(3)学習結果
学習結果は、学習済みパラメータ122として記憶部120に記憶される。学習済みパラメータ122は、図15(b)に示すように、複数のニューロン情報122-1から構成されている。各ニューロン情報122-1は、特徴抽出層300b及び出力層300cの各ニューロンUに対応する。
各ニューロン情報122-1は、ニューロン番号122-2及びニューロン加重値122-3を含んでいる。
ニューロン番号122-2は、特徴抽出層300b及び出力層300cの各ニューロンUを識別する番号である。
ニューロン加重値122-3は、それぞれ、特徴抽出層300b及び出力層300cの各ニューロンUのニューロン加重値である。
(4)推定工程
ニューラルネットワーク300における推定工程について説明する。
図16(b)は、上記の学習工程によって学習されたニューラルネットワーク300を用い、カメラ200で得られた画像データを入力としてオブジェクト推定を行う場合のデータの伝播モデルを示している。
ニューラルネットワーク300における推定工程においては、学習された特徴抽出層300bと、学習された出力層300cとを用いて、特徴抽出及びオブジェクト推定が行われる(ステップS14)。
(5)CNN130
実施の形態に係るCNN130は、ニューラルネットワーク300と同様の構成をしており、ニューラルネットワーク300と同様に学習及び推定を行う。
CNN130は、入力画像を分割したW×Hのグリッドセルそれぞれに対して、オブジェクト推定データを出力する。
図3は、CNN130の入力画像の例であり、図4は、入力画像をグリッドセルに分割したものである。図4の例では、入力画像を8×6のグリッドセルに分割している。
図5(a)は、グリッドセル毎のオブジェクト推定データのデータ構造を示す。図5(a)に示すように、オブジェクト推定データ400は、OB情報、第1PB情報、第2PB情報、……、第2NPB情報、及び、クラス確率からなる。
OB情報は、グリッドセルに対する相対位置(X軸及びY軸)、サイズ(X軸及びY軸)、及び信頼度からなる。グリッドセルに対する相対位置は、推定されたOBの位置を示す情報であり、対応するグリッドセルの左上の座標を原点としたときのOBの左上の座標を示す。サイズは、OBのサイズを示す情報であり、OBの左上の座標を原点としたときのOBの右下の座標を示す。信頼度は、OB内に検出対象のオブジェクトクラスのいずれかに該当するオブジェクトが存在するのか、存在する場合にその位置やサイズを正確に検出できているかを示す情報である。信頼度は、OBに検出対象のオブジェクトクラスに該当するオブジェクトが存在すると推定される場合は1に近い値となり、存在しないと推定される場合は0に近い値となる。また、信頼度は、位置やサイズを正確に検出できていると推定される場合は1に近い値となり、位置やサイズを正確に検出できていないと推定される場合は0に近い値となる。
第1PB情報、第2PB情報、……、第2NPB情報も同様に、それぞれグリッドセルに対する相対位置(X軸及びY軸)、サイズ(X軸及びY軸)、及び信頼度からなる。
クラス確率は、対応するグリッドセルのオブジェクトBB内に含まれるオブジェクトが検出対象のオブジェクトクラスのいずれに該当するかの推定値を示す情報である。例えば、オブジェクトクラスのクラス数がC個であり、各オブジェクトクラスが、クラス1(人)、クラス2(車)、……であるとすると、オブジェクトBB内に人が含まれると推定される場合は人(クラス1)の確率が高くなり(1に近い値をとる)、車が含まれると推定される場合は車(クラス2)の確率が高くなる(1に近い値をとる)。
このように、CNN130は、一つのグリッドセルに対し、各5次元のBB情報(OB情報、第1PB情報、……、第2NPB情報)とC次元のクラス確率の(5×(1+2N)+C)次元のオブジェクト推定データを出力する。これがW×Hのグリッド毎に算出されるので、学習済AIモデル20が出力するオブジェクト推定データはW×H×(5×(1+2N)+C)次元のデータとなる。
図5(b)は、入力画像に対して出力されたオブジェクト推定データのうち、グリッドセル301に対するオブジェクトデータを視覚的に示した例である。ここではN=5として、第1PB~第10PBの計10個のPBが出力されている。符号302がグリッドセル301に対して推定されたOBであり、符号302-311がグリッドセル301に対して推定された10個のPBである。そして、符号312が、OB302に含まれるオブジェクトのクラス確率である。
(7)CNN130が推定するキーポイントの定義
上述したようにPBは、キーポイントが含まれると推定されるBBのことである。ここでは、CNN130が出力するオブジェクト推定データに含まれるPB(第1PB-第2NPB)に含まれるキーポイントについて説明する。
検出対象のオブジェクトクラスのオブジェクトを立体的にモデル化したオブジェクトモデルを考える。ここでは、検出対象のオブジェクトクラスが車である場合について説明する。
図6は、検出対象のオブジェククラスである車のオブジェクトモデル600と、当該オブジェクトモデル600に対して設定された座標軸601、602を示す図である。ここで、座標軸601、602の原点は、オブジェクトモデル600の中心である。また、座標軸601、602は、それぞれ、オブジェクトモデル600の中心を原点として設定された極座標系において所定の偏角方向をなしている。
オブジェクトモデル600上の点集合603~607を、座標軸601、602に射影した点について考える。
図7は、オブジェクトモデル600上の点を座標軸601、602に射影させた点を示す図である。
図7に示すように、オブジェクトモデル600上の点集合603~607は、座標軸601の点集合701~705に射影される。同様に、オブジェクトモデル600上の点集合603~607は、座標軸602の点集合711~715に射影される。
オブジェクトモデル600の表面上の各点において、特徴的な部分を示す点、例えば、他の部分よりも突出している点や他の部分よりも凹んでいる点は、座標軸601や602がなす極座標系の偏角方向を適切に選べば、座標軸601、602に射影された点集合において、極大値又は極小値となる点である。逆にいうと、座標軸601、602に射影された点集合うち、極大値又は極小値となる点は、オブジェクトモデル600の表面上の各点において、特徴的な部分を示す点といえる。本実施の形態で、このように座標軸上にオブジェクトモデル600の表面上の各点を射影した点集合のうち、極大値となる点及び極小値となる点をそれぞれ求め、それらの中から正の範囲で最大値となる点と最小値となる点をキーポイントと定義する。また、N個の偏角方向を設定し、N個の座標軸に対してそれぞれ2つずつキーポイントを定義することで、合計2N個のキーポイントを定義する。
このようにして、オブジェクトモデル600の表面上の各点において、他の部分よりも突出している点や他の部分よりも凹んでいる2N個の点をキーポイントとして定義する。
(8)学習用データ
上記で定義されるキーポイントを推定するための学習用データについて説明する。
図8は、上記の定義されるキーポイントを推定するための学習用データを模式的に示す図である。画像800は、学習用画像であり、画像内に検出対象のオブジェクトクラスに該当するオブジェクトが含まれる。符号801-806は、教師データであり、符号801は、学習用画像800に含まれる検出対象のオブジェクトクラスのオブジェクトを含むBB(OBT)の位置及びサイズの真値を示す。また、符号802-816は、OBT801に含まれるオブジェクトの各キーポイントを含むBB(PBT)の位置及びサイズの真値を示す。ここで、各PBTの中心位置は上記キーポイントの定義に従って設定される。PBTのサイズは、各キーポイント間の距離の最小値の定数倍としてもよい。
また、教師データには、OBTに含まれるオブジェクトのオブジェクトクラスを示すクラス確率の真値(ワンホット化されたクラス確率)が含まれる。
(9)誤差関数
上記で定義されるキーポイントを推定するための誤差関数について説明する。学習時には、まず、学習用画像800に対して、推定時と同様にオブジェクト推定データを出力する。そして、出力されたオブジェクト推定データと、教師データとを比較し、誤差関数に基づいて誤差を算出する。
誤差関数においては、5つの誤差を算出する。1つ目の誤差は、教師データのOBTの中心が存在するグリッドセルにおける、オブジェクト推定データのOB及びPBの位置と、教師データのOBT及びPBTの位置の誤差である。2つ目の誤差は、教師データのOBTの中心が存在するグリッドセルにおける、オブジェクト推定データのOB及び各PBのサイズと、教師データのOBT及びPBTのサイズとの誤差である。3つめの誤差は、教師データのOBTの中心が存在するグリッドセルにおける、オブジェクト推定データのOB及び各PBの信頼度と、教師データのOBT及びPBTの信頼度との誤差である。4つ目の誤差は、教師データのOBTの中心が存在しないグリッドセルにおける、オブジェクト推定データのOB及びPBの信頼度と非オブジェクト信頼度との誤差である。5つ目の誤差は、教師データのOBTの中心が存在するグリッドセルにおける、オブジェクト推定データのクラス確率と、教師データのクラス確率との誤差である。なお、教師データのOBT及びPBTの信頼度はそれぞれ1として計算してもよく、非オブジェクト信頼度は0として計算してもよい。
1.3 オブジェクト検出部140
オブジェクト検出部140の実行する処理について説明する。
オブジェクト検出部140は、CNN130の出力したオブジェクト推定データに基づいて、各グリッドセルのクラス分類を行う。オブジェクト検出部140は、各グリッドセルについて、信頼度スコアを算出し、信頼度スコアが所定の閾値(例えば、0.6)以下のグリッドセルを、オブジェクトが含まれない背景のグリッドセルと判定する。オブジェクト検出部140は、背景以外のグリッドセルについて、最もクラス確率の高いオブジェクトクラスのグリッドセルと判定する。図9は、各グリッドセルに対して行われたクラス分類の分類結果の例となる。
信頼度スコアは、例えば、最も確率の高いオブジェクトクラスのクラス確率とオブジェクトBBの信頼度の積とする。なお、オブジェクトBBの信頼度をそのまま信頼度スコアとして用いてもよいし、最も確率の高いオブジェクトクラスのクラス確率を信頼度スコアとして用いてもよい。
オブジェクト検出部140は、背景と判定されたグリッドセルのOB及び各PBを除去する。
オブジェクト検出部140は、背景以外のオブジェクトクラスと判定されたグリッドセルについて、判定されたオブジェクトクラスの種別毎に、より信頼度スコアが高いグリッドセルのOBとの重複度合いが高いOBを除去する。具体的に、一つのオブジェクトクラスについて、最も信頼度スコアの高いグリッドセルのOBと他のグリッドセルのOBとの重複度合いを算出し、算出した重複度合いが所定の閾値(例えば0.6)以上のOBを除去する。その後、除去されなかったOBの中で最も信頼度スコアの高いグリッドセルのOBと他のグリッドセルのOBとの重複度合いを算出して、重複度合いが高ければ除去するという処理を繰り返す。
このように、より信頼度スコアの高いOBとの重複度合いが高いOBを除去することにより、同じオブジェクトに対して複数のOBが検出された場合でも、一つのオブジェクトとして検出することができる。
重複度合いとして、例えば、IoU(Intersection-over-Union)を用いることができる。IoUは、領域1と領域2が重複している場合に、領域1のうち領域2と共通していない部分の面積をA、領域2のうち領域1と共通していない部分の面積をB、領域1と領域2の共通部分の面積をCとしたときに、IoU=C/(A+B+C)として計算することができる。
オブジェクト検出部140は、OBと同様に、PBについてもより信頼度スコアの高いグリッドセルの第1PBとの重複度合いの高い第1PBを除去する。第2PB、……、第2NPBについても同様である。
図10(a)は、背景と判定されたグリッドセルのOB及び各PBの除去、及び、より信頼度スコアの高いグリッドセルとの重複度合いの高いOB及び各PBの除去を行った後、残ったOBと第1PBの例を示す。図10(a)の例では、一つのOB1001に対して、4つの第1PBからなる第1PB群1002が除去されずに残っている。
オブジェクト検出部140は、OB1001と、第1PB群1002の中の一つの第1PBとの対応付けを行う。オブジェクト検出部140は、具体的には、図10(b)に示すように、OB1001に内接する楕円1003を考え、第1PB群1002の中から楕円1003に最も近い位置に存在する第1PB1004を、OB1001に対応付ける。
同様に、第2PB、……、第2NPBそれぞれについても同様にOB1001との対応付けを行う。図10(c)は、OB1001に対して、PB1004~PB1013の計10個のPBを対応付けた結果を示す。
なお、BBと楕円の距離は、BBの中心から楕円上の最も近い点までの距離とする。
オブジェクト検出部140は、除去されずに残ったOBの位置及びサイズ、当該OBに対応付けられたPBの位置及びサイズ、及び、対応するグリッドセルのクラス分類結果をオブジェクト検出結果121として、記憶部120に保存する。
図11は、OBの位置及びサイズ、対応付けられたPBの位置及びサイズ、並びに、クラス分類結果からなるオブジェクト検出結果121を表示した例を示す。
図12は、オブジェクト検出結果121における各PBの中心を所定の順番で結ぶことにより、OBの概形を表示した例を示す。各PBの中心は、オブジェクトのキーポイントを示すので、各PBの中心を結ぶ線分で囲まれる領域は、検出したオブジェクトの概形を示すことになる。定義するPBの数を多くすることで、表示するオブジェクトの概形の精度を高くすることが可能である。なお、各PBを結ぶ順番は、OBの中心からの偏角の順番に結ぶとしてもよい。
図13は、OBの位置及びサイズ、対応付けられたPBの位置及びサイズ、並びに、クラス分類結果からなるオブジェクト検出結果121と、入力画像とを重ねて表示した例を示す。図に示すように、オブジェクトの中で、他の部分よりも突出している点や他の部分よりも凹んでいる点がキーポイントとして検出されている。
1.4 動作
図2は、オブジェクト検出装置1の動作を示すフローチャートである。
カメラ200が撮影画像を取得し(ステップS1)、撮影画像をCNN130に入力し、CNN130がW×H×(5×(1+2N)+C)次元のオブジェクト推定データを出力する(ステップS2)。
オブジェクト検出部140は、グリッドセルをクラス分類し、背景のグリッドセルのOBとPBを除去し(ステップS3)、また、より信頼度スコアの高いグリッドセルのBB(OB及び各PB)と重なり度合いが高いBB(OB及び各PB)を除去する(ステップS4)。
対応付け部40は、残ったOBと各PBとの対応付けを行い(ステップS5)、対応付けられたOBと各PBをオブジェクト検出結果121として保存する(ステップS6)。
2.補足
以上、本発明を実施の形態に基づいて説明してきたが本発明は上述の実施の形態に限定されないのは勿論であり、以下の変形例が本発明の技術範囲に含まれることは勿論である。
(1)上述の実施の形態において、オブジェクトを立体的にモデル化したオブジェクトモデルにおいて、他の部分よりも突出している点や他の部分よりも凹んでいる点をキーポイントとして定義しているが、オブジェクトモデルは立体的である必要はなく、2次元のオブジェクトモデルでもよい。
(2)上述の実施の形態において、制御部110は、CPU、ROM、RAMなどから構成されるコンピュータシステムであるとしたが、各処理部の一部または全部は、システムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。
(3)上述の実施の形態及び変形例をそれぞれ組み合わせるとしてもよい。
本開示は、監視カメラシステムや車載カメラシステムに搭載されるオブジェクト検出装置として有用である。
1 オブジェクト検出装置
120 記憶部
130 CNN
140 オブジェクト検出部
150 AI学習部
200 カメラ

Claims (8)

  1. 所定カテゴリの一以上のオブジェクトが含まれる画像から各オブジェクトを検出するオブジェクト検出方法であって、
    前記画像内の各オブジェクトのキーポイントの候補である点候補を推定するキーポイント推定ステップと、
    推定された点候補に基づいて各オブジェクトのキーポイントを検出する検出ステップと、を有し、
    前記キーポイントは、オブジェクトの形状をモデル化したオブジェクトモデルを考えたとき、前記オブジェクトモデルの境界を示す点集合を所定の座標軸に射影した点集合の中で、所定の条件を満たす点であり、
    前記所定の座標軸は、前記オブジェクトモデルの中心を原点とし、前記オブジェクトモデルに対して設定される極座標系において所定の偏角方向をなし、
    前記所定の条件は、前記射影した点集合の中で、前記座標軸上で極大値となる点及び極小値となる点のうち、正の範囲で最大値又は最小値となることである
    オブジェクト検出方法。
  2. 前記画像における各オブジェクトの中心位置の候補である中心候補とその尤もらしさ示す信頼度を推定する中心位置推定ステップを更に有し、
    前記検出ステップは、前記信頼度を用いて前記中心候補から各オブジェクトの中心位置を検出し、決定した各中心位置を用いて前記点候補から各オブジェクトのキーポイントを検出する
    請求項1に記載のオブジェクト検出方法。
  3. 前記キーポイント推定ステップは、各オブジェクトの大きさに応じたサイズの小領域として前記点候補を推定する
    請求項1または2のいずれかに記載のオブジェクト検出方法。
  4. 前記キーポイント推定ステップが、前記オブジェクトを検出するための機械学習を行った学習モデルにより実行される
    請求項1乃至3のいずれかに記載のオブジェクト検出方法。
  5. 前記キーポイント推定ステップと前記中心位置推定ステップとが、前記オブジェクトを検出するための機械学習を行った学習モデルにより実行される
    請求項2に記載のオブジェクト検出方法。
  6. 前記学習モデルは、畳み込みニューラルネットワークであり、
    前記畳み込みニューラルネットワークのパラメータは、検出対象のオブジェクトを含む学習用画像と、前記学習用画像における検出対象のオブジェクトの中心位置の真値と、前記学習用画像における検出対象のオブジェクトのキーポイントの真値と、に基づく機械学習により、定められる
    請求項4または5に記載のオブジェクト検出方法。
  7. 所定カテゴリの一以上のオブジェクトが含まれる画像から各オブジェクトを検出するオブジェクト検出装置であって、
    前記画像内の各オブジェクトのキーポイントの候補である点候補を推定するキーポイント推定処理を実行する、前記オブジェクトを検出するための機械学習を行った学習モデルと、
    推定された点候補に基づいて各オブジェクトのキーポイントを検出する検出部と、を備え、
    前記キーポイントは、オブジェクトの形状をモデル化したオブジェクトモデルを考えたとき、前記オブジェクトモデルの境界を示す点集合を所定の座標軸に射影した点集合の中で、所定の条件を満たす点であり、
    前記所定の座標軸は、前記オブジェクトモデルの中心を原点とし、前記オブジェクトモデルに対して設定される極座標系において所定の偏角方向をなし、
    前記所定の条件は、前記射影した点集合の中で、前記座標軸上で極大値となる点及び極小値となる点のうち、正の範囲で最大値又は最小値となることである
    オブジェクト検出装置。
  8. 請求項1乃至6のいずれかに記載のオブジェクト検出方法をコンピューターに実行させるプログラム。
JP2022528753A 2020-06-05 2021-05-24 オブジェクト検出方法、オブジェクト検出装置及びプログラム Active JP7251692B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020098325 2020-06-05
JP2020098325 2020-06-05
PCT/JP2021/019555 WO2021246217A1 (ja) 2020-06-05 2021-05-24 オブジェクト検出方法、オブジェクト検出装置及びプログラム

Publications (3)

Publication Number Publication Date
JPWO2021246217A1 JPWO2021246217A1 (ja) 2021-12-09
JPWO2021246217A5 JPWO2021246217A5 (ja) 2022-12-02
JP7251692B2 true JP7251692B2 (ja) 2023-04-04

Family

ID=78831050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022528753A Active JP7251692B2 (ja) 2020-06-05 2021-05-24 オブジェクト検出方法、オブジェクト検出装置及びプログラム

Country Status (3)

Country Link
US (1) US20240029394A1 (ja)
JP (1) JP7251692B2 (ja)
WO (1) WO2021246217A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202135A (ja) 2005-01-21 2006-08-03 Univ Of Tokushima パターン検出装置、パターン検出方法、パターン検出プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
JP2014109555A (ja) 2012-12-04 2014-06-12 Nippon Telegr & Teleph Corp <Ntt> 点群解析処理装置、点群解析処理方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006202135A (ja) 2005-01-21 2006-08-03 Univ Of Tokushima パターン検出装置、パターン検出方法、パターン検出プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
JP2014109555A (ja) 2012-12-04 2014-06-12 Nippon Telegr & Teleph Corp <Ntt> 点群解析処理装置、点群解析処理方法及びプログラム

Also Published As

Publication number Publication date
JPWO2021246217A1 (ja) 2021-12-09
US20240029394A1 (en) 2024-01-25
WO2021246217A1 (ja) 2021-12-09

Similar Documents

Publication Publication Date Title
JP4709723B2 (ja) 姿勢推定装置及びその方法
US7912253B2 (en) Object recognition method and apparatus therefor
US9811718B2 (en) Method and a system for face verification
JP6032921B2 (ja) 物体検出装置及びその方法、プログラム
US8811744B2 (en) Method for determining frontal face pose
JP5629803B2 (ja) 画像処理装置、撮像装置、画像処理方法
JP7386545B2 (ja) 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置
JP4743823B2 (ja) 画像処理装置、撮像装置、画像処理方法
CN105740780B (zh) 人脸活体检测的方法和装置
CN112418074A (zh) 一种基于自注意力的耦合姿态人脸识别方法
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
JP2019125057A (ja) 画像処理装置及びその方法、プログラム
JP2008059197A (ja) 画像照合装置、画像照合方法、コンピュータプログラム及び記憶媒体
JP5906071B2 (ja) 情報処理方法、情報処理装置、および記憶媒体
CN107784284B (zh) 人脸识别方法及系统
Juang et al. Stereo-camera-based object detection using fuzzy color histograms and a fuzzy classifier with depth and shape estimations
JP2011248525A (ja) 物体の検出装置及びその検出方法
Tobeta et al. E2pose: Fully convolutional networks for end-to-end multi-person pose estimation
JP7251692B2 (ja) オブジェクト検出方法、オブジェクト検出装置及びプログラム
US20230005162A1 (en) Image processing system, image processing method, and storage medium
WO2021117363A1 (ja) オブジェクト検出方法及びオブジェクト検出装置
WO2022107548A1 (ja) 3次元骨格検出方法及び3次元骨格検出装置
Fomin et al. Study of using deep learning nets for mark detection in space docking control images
CN115346270A (zh) 交警手势识别方法、装置、电子设备及存储介质
CN117037204A (zh) 摔倒检测方法、装置、电子设备及计算机程序产品

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221027

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221027

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230221

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230306

R150 Certificate of patent or registration of utility model

Ref document number: 7251692

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150