JP7156511B2 - 物体検出装置、物体検出システム、物体検出方法及びプログラム - Google Patents

物体検出装置、物体検出システム、物体検出方法及びプログラム Download PDF

Info

Publication number
JP7156511B2
JP7156511B2 JP2021515330A JP2021515330A JP7156511B2 JP 7156511 B2 JP7156511 B2 JP 7156511B2 JP 2021515330 A JP2021515330 A JP 2021515330A JP 2021515330 A JP2021515330 A JP 2021515330A JP 7156511 B2 JP7156511 B2 JP 7156511B2
Authority
JP
Japan
Prior art keywords
detection
images
perturbation
image
perturbed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021515330A
Other languages
English (en)
Other versions
JPWO2020217283A1 (ja
JPWO2020217283A5 (ja
Inventor
あずさ 澤田
剛志 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020217283A1 publication Critical patent/JPWO2020217283A1/ja
Publication of JPWO2020217283A5 publication Critical patent/JPWO2020217283A5/ja
Application granted granted Critical
Publication of JP7156511B2 publication Critical patent/JP7156511B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10048Infrared image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、物体検出装置、物体検出システム、物体検出方法及びプログラムに関する。
画像を用いた物体検出において、複数の入力画像を用いる手法が用いられることがある。例えば、1つの入力画像(例えば可視光画像)のみを用いるよりも、別のモーダル(例えば赤外光画像)を併用する方が、撮影環境の変化によらないで、精度良く物体検出を行うことができる(例えば非特許文献1)。すなわち、物体検出において、例えば可視光の画像だけを用いると、夜間など照明条件が良くない場合には物体検出が困難になる。そこで、可視光に赤外光(遠赤外線)や距離画像など他のモーダルを組み合わせたマルチモーダルの画像を用いて物体検出を行うことで、より多様な状況で物体検出の性能(精度)を維持又は向上させることができる。
Jingjing Liu, Shaoting Zhang, Shu Wang and Dimitris Metaxas. "Multispectral Deep Neural Networks for Pedestrian Detection" Proceedings of the British Machine Vision Conference, 2016
複数のモーダルによって複数の入力画像を撮影する場合において、異なる複数のカメラ(例えば可視光カメラと赤外光カメラ等)を用いて複数の入力画像を撮影するときは、カメラの位置(光軸)が異なることによる視差が発生し得る。また、1つのカメラによって複数の異なる時間それぞれで入力画像を撮影するときは、時間変化によって検出対象物又はカメラが移動する可能性がある。したがって、複数のモーダルによって複数の入力画像を撮影する場合、検出対象物の画像における位置が互いに対応しない、つまり位置ずれが発生する可能性がある。ここで、上記の非特許文献1にかかる技術では、複数の入力画像を特殊な機器により機械的に位置合わせすることによって、複数の入力画像における検出対象物の位置ずれの問題を回避している。しかしながら、このように、機械的に位置合わせする方法では、機器の調整不良等によって誤差が生じやすく、したがって精度よく物体検出を行うことができないおそれがある。
本開示の目的は、このような課題を解決するためになされたものであり、精度よく物体検出を行うことが可能な物体検出装置、物体検出システム、物体検出方法及びプログラムを提供することにある。
本開示にかかる物体検出装置は、特定の検出対象が異なる複数のモーダルによって撮影された複数の入力画像を取得する入力画像取得手段と、前記複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得する摂動画像取得手段と、前記複数の摂動画像それぞれと、前記複数の入力画像のうち摂動させなかった前記入力画像とを用いて前記入力画像に含まれる前記検出対象を検出して、前記複数の摂動画像それぞれについて、検出結果として前記検出対象の検出位置及び検出の確信度を取得する検出処理手段と、前記複数の摂動画像について取得された前記検出位置及び前記確信度に基づいて、前記摂動させなかった前記入力画像と前記摂動画像とで前記検出対象の位置が互いに合っている組についての確信度が相対的に高くなるように調整するためのパラメータを用いて、前記複数の摂動画像それぞれについて調整された確信度を算出する調整手段と、前記調整された前記確信度に基づいた前記検出対象の検出結果を出力する出力手段とを有する。
また、本開示にかかる物体検出システムは、少なくとも1つの撮像装置と、物体検出装置とを有し、物体検出装置は、撮像装置によって撮影され特定の検出対象が異なる複数のモーダルによって撮影された複数の入力画像を取得する入力画像取得手段と、前記複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得する摂動画像取得手段と、前記複数の摂動画像それぞれと、前記複数の入力画像のうち摂動させなかった前記入力画像とを用いて前記入力画像に含まれる前記検出対象を検出して、前記複数の摂動画像それぞれについて、検出結果として前記検出対象の検出位置及び検出の確信度を取得する検出処理手段と、前記複数の摂動画像について取得された前記検出位置及び前記確信度に基づいて、前記摂動させなかった前記入力画像と前記摂動画像とで前記検出対象の位置が互いに合っている組についての確信度が相対的に高くなるように調整するためのパラメータを用いて、前記複数の摂動画像それぞれについて調整された確信度を算出する調整手段と、前記調整された前記確信度に基づいた前記検出対象の検出結果を出力する出力手段とを有する。
また、本開示にかかる物体検出方法は、特定の検出対象が異なる複数のモーダルによって撮影された複数の入力画像を取得し、前記複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得し、前記複数の摂動画像それぞれと、前記複数の入力画像のうち摂動させなかった前記入力画像とを用いて前記入力画像に含まれる前記検出対象を検出して、前記複数の摂動画像それぞれについて、検出結果として前記検出対象の検出位置及び検出の確信度を取得し、前記複数の摂動画像について取得された前記検出位置及び前記確信度に基づいて、前記摂動させなかった前記入力画像と前記摂動画像とで前記検出対象の位置が互いに合っている組についての確信度が相対的に高くなるように調整するためのパラメータを用いて、前記複数の摂動画像それぞれについて調整された確信度を算出し、前記調整された前記確信度に基づいた前記検出対象の検出結果を出力する。
また、本開示にかかるプログラムは、特定の検出対象が異なる複数のモーダルによって撮影された複数の入力画像を取得するステップと、前記複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得するステップと、前記複数の摂動画像それぞれと、前記複数の入力画像のうち摂動させなかった前記入力画像とを用いて前記入力画像に含まれる前記検出対象を検出して、前記複数の摂動画像それぞれについて、検出結果として前記検出対象の検出位置及び検出の確信度を取得するステップと、前記複数の摂動画像について取得された前記検出位置及び前記確信度に基づいて、前記摂動させなかった前記入力画像と前記摂動画像とで前記検出対象の位置が互いに合っている組についての確信度が相対的に高くなるように調整するためのパラメータを用いて、前記複数の摂動画像それぞれについて調整された確信度を算出するステップと、前記調整された前記確信度に基づいた前記検出対象の検出結果を出力するステップとをコンピュータに実行させる。
本開示によれば、精度よく物体検出を行うことが可能な物体検出装置、物体検出システム、物体検出方法及びプログラムを提供できる。
本開示の実施の形態にかかる物体検出装置の概要を示す図である。 実施の形態1にかかる物体検出システムの構成を示す図である。 実施の形態1にかかる物体検出装置の構成を示す機能ブロック図である。 実施の形態1にかかる物体検出装置によって行われる、運用段階に関する物体検出方法を示すフローチャートである。 実施の形態1にかかる運用段階において摂動画像取得部によって生成される複数の摂動画像を例示する図である。 実施の形態1にかかる運用段階において検出処理部によって行われる検出処理を説明するための図である。 実施の形態1にかかる検出結果統合部の処理結果を説明するための図である。 実施の形態1にかかる物体検出装置によって行われる、学習段階に関する物体検出方法を示すフローチャートである。 実施の形態1にかかる学習段階において摂動画像取得部によって生成される摂動学習用画像を例示する図である。 実施の形態1にかかる学習段階において検出処理部によって行われる検出処理を説明するための図である。 実施の形態1にかかる、摂動学習用画像の摂動量と検出結果との関係を例示する図である。 実施の形態1において、確信度を累積するときに、累積される確信度に対応する検出座標を、摂動の影響を考慮して補正することを説明する図である。 実施の形態1にかかるパラメータ算出部の処理を説明するための図である。 実施の形態1にかかる検出結果統合部の処理を説明するための図である。
(本開示にかかる実施の形態の概要)
本開示の実施形態の説明に先立って、本開示にかかる実施の形態の概要について説明する。図1は、本開示の実施の形態にかかる物体検出装置1の概要を示す図である。物体検出装置1は、例えば、コンピュータである。
物体検出装置1は、入力画像取得部2と、摂動画像取得部4と、検出処理部6と、調整部8と、出力部10とを有する。入力画像取得部2、摂動画像取得部4、検出処理部6、調整部8及び出力部10は、それぞれ、入力画像取得手段、摂動画像取得手段、検出処理手段、調整手段及び出力手段として機能する。
入力画像取得部2は、特定の検出対象が異なる複数のモーダルによって撮影された複数の入力画像を取得する。ここで、複数のモーダルにより撮影された複数の入力画像では、撮影位置及び撮影時間の少なくとも一方が互いにずれている。摂動画像取得部4は、複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得する。検出処理部6は、複数の摂動画像それぞれと、複数の入力画像のうち摂動させなかった入力画像とを用いて入力画像に含まれる検出対象を検出して、複数の摂動画像それぞれについて、検出結果として検出対象の検出位置及び検出の確信度を取得する。調整部8は、複数の摂動画像について取得された検出位置及び確信度に基づいて、統合パラメータを用いて、摂動画像それぞれについて調整された確信度を算出する。ここで、統合パラメータは、摂動させなかった入力画像と摂動画像とで検出対象の位置が互いに合っている組についての確信度が相対的に高くなるように調整するためのパラメータである。出力部10は、調整された確信度に基づいた検出対象の検出結果を出力する。
上述した非特許文献1では、入力画像として可視光画像(color image)及び赤外光画像(thermal image)の組を用いて物体検出を行う。ここで、上述したように、非特許文献1では、特殊な機器(分光フィルタ等)によって位置合わせがなされていることが前提となっている。このように、複数の入力画像における検出対象の位置が互いに対応している場合、画像毎の情報(特徴)を局所的に融合することにより、精度のよい物体検出を行うことができる。しかしながら、何らかの理由により位置合わせがなされていないと、情報の融合が正しく行われないおそれがある。この場合、精度良く物体検出を行うことができない。つまり、視差等により複数の入力画像における物体の位置がずれている場合、検出対象クラスの確信度及び検出位置(矩形位置)の精度が悪化するおそれがある。
一方、本実施の形態にかかる物体検出装置1は、位置合わせがなされていることを前提としない複数の入力画像(複数のモーダルの画像)のうちの少なくとも1つを摂動させた複数の摂動画像を取得するように構成されている。そして、本実施の形態にかかる物体検出装置1は、統合パラメータを用いて摂動画像それぞれについて調整された確信度を算出し、調整された確信度に基づいた検出対象の検出結果を出力するように構成されている。これにより、異なる複数のモーダルにより撮影された複数の入力画像に対して特殊な機器により機械的に位置合わせしなくても、精度よく物体検出を行うことが可能となる。また、特殊な機器を用いなければ位置合わせの誤差は常に生じ得るが、上述した本開示の構成により、位置合わせの誤差の物体検出の精度への影響を抑制することができる。したがって、本実施の形態にかかる物体検出装置1は、異なる複数のモーダルにより撮影された複数の入力画像を用いて精度よく物体検出を行うことができる。
なお、物体検出装置1によって実行される物体検出方法を用いても、異なる複数のモーダルにより撮影された複数の入力画像を用いて精度よく物体検出を行うことができる。また、物体検出方法を実行するプログラムを用いても、異なる複数のモーダルにより撮影された複数の入力画像を用いて精度よく物体検出を行うことができる。さらに、物体検出装置1と少なくとも1つの撮像装置(カメラ)を用いた物体検出システムを用いても、異なる複数のモーダルにより撮影された複数の入力画像を用いて精度よく物体検出を行うことができる。
(実施の形態1)
以下、実施形態について、図面を参照しながら説明する。説明の明確化のため、以下の記載及び図面は、適宜、省略、及び簡略化がなされている。また、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。
図2は、実施の形態1にかかる物体検出システム20の構成を示す図である。実施の形態1にかかる物体検出システム20は、カメラ30A(カメラA)と、カメラ30B(カメラB)と、物体検出装置100とを有する。なお、以降、カメラ30A,30Bを区別しないで説明する場合に、カメラ30と称することがある。カメラ30は、特定の検出対象である物体を撮影する撮像装置である。カメラ30は、物体検出装置100に入力される入力画像を撮影(生成)する。
なお、物体検出システム20には、3つ以上のカメラ30が設けられてもよい。あるいは、物体検出システム20には、1つのカメラ30のみが設けられていてもよい。つまり、物体検出システム20は、少なくとも1つの撮像装置(カメラ30)を有する。以下の実施の形態では、カメラ30は、検出対象として人間を撮影するとするが、検出対象は、人間に限られず、任意である。さらに、検出対象は1つとは限られない。カメラ30A及びカメラ30Bは、互いに異なるモーダルによって、物体を撮影する。物体検出装置100は、異なる複数のモーダルにより撮影された入力画像の組に対する画像処理を行うコンピュータである。
ここで、複数のモーダルにより撮影された入力画像の組とは、特定の検出対象が異なる複数のモーダルによって撮影された画像の組である。ここで、本明細書における「モーダル」とは、画像の様式であり、例えば、可視光や遠赤外光等による撮影装置の撮影モードを示す。そのため、あるモーダルにより撮影された画像は、ある撮影モードにより撮影された撮影画像のデータを示す。また、複数のモーダルにより撮影された画像の組は、マルチモーダル画像と呼ぶこともでき、また、以降、「複数のモーダルの画像」又は、単に「複数の画像」と呼ぶ場合もある。なお、検出対象とは、撮影画像内に映る物体であり、画像認識により検出すべき対象物である。但し、検出対象には、物体そのものに限らず、物体の劣化又は異常といった状態等の非物体を含めてもよい。ここで、複数のモーダルの画像のそれぞれは、複数のモーダルのそれぞれに対応する複数のカメラにより同時刻又は数ミリ秒以内の差で撮影されたものであってもよい。
例えば、カメラ30Aは、可視光カメラであり、可視光画像である入力画像Aを撮影(生成)する。また、例えば、カメラ30Bは、遠赤外線を検知する赤外光カメラであり、赤外光画像である入力画像Bを撮影(生成)する。そして、カメラ30Aとカメラ30Bとで設置位置が異なることから、カメラ30Aの光軸とカメラ30Bの光軸とが、互いに異なるとする。これにより、入力画像Aと入力画像Bとで、位置ずれが発生し得る。また、カメラ30A及びカメラ30Bは、互いに同じようにパン、チルト及びズームを行ってもよい。なお、以下、用語「画像」は、情報処理における処理対象としての、「画像を示す画像データ」も意味し得る。また、画像は、静止画像であってもよいし、動画像であってもよい。
なお、「複数のモーダルの画像(入力画像)」は、のそれぞれは、同一のカメラにより近い時刻に撮影された画像であってもよい。その場合、当該カメラは、所定間隔で複数のモーダルを切り替えて撮影するものとする。例えば、入力画像Aの画像を可視画像とした場合、入力画像Bの画像を、同一カメラで撮影した、撮影時刻が僅かにずれた画像としてもよい。この場合、複数のモーダルの画像は、同一のカメラにより撮影された、前後に隣接するフレームの画像同士、又は、前後で数フレーム離れた画像同士であってもよい。ここで、カメラが車両等の移動体に搭載されて、車外を撮影するものである場合、隣接するフレームの撮影画像同士であっても位置ずれが無視できない。また、固定された位置に設置された同一のカメラで同一の対象を連続して撮影したとしても、対象が移動することによって、対象の位置がずれる可能性がある。したがって、同一のカメラで異なるモーダルにより撮影された複数のモーダルの画像の間でも同一の対象の表示位置について位置ずれが生じることとなる。
物体検出装置100は、例えばコンピュータである。物体検出装置100は、カメラ30と有線又は無線を介して通信可能に接続されている。物体検出装置100は、入力画像の組を取得する。物体検出装置100は、この入力画像の組を用いて、物体検出を行う。物体検出装置100は、複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得する。物体検出装置100は、複数の摂動画像それぞれと、複数の入力画像のうち摂動させなかった入力画像とを用いて入力画像に含まれる物体を検出して、複数の摂動画像それぞれについて、物体の検出位置及び検出の確信度を取得する。物体検出装置100は、複数の摂動画像について取得された検出位置及び確信度に基づいて、検出結果に対する摂動の影響を補正するパラメータを用いて、摂動画像それぞれについて調整された確信度を算出する。物体検出装置100は、調整された確信度に基づいて複数の摂動画像による検出結果を絞り込んで適切な検出結果を決定する。物体検出装置100は、決定された検出結果を出力する。
物体検出装置100は、主要なハードウェア構成として、CPU102(Central Processing Unit)と、ROM104(Read Only Memory)と、RAM106(Random Access Memory)と、インタフェース部108(IF;Interface)とを有する。CPU102、ROM104、RAM106及びインタフェース部108は、データバスなどを介して相互に接続されている。
CPU102は、制御処理及び演算処理等を行う演算装置としての機能を有する。ROM104は、CPU102によって実行される制御プログラム及び演算プログラム等を記憶するための機能を有する。RAM106は、処理データ等を一時的に記憶するための機能を有する。インタフェース部108は、有線又は無線を介して外部と信号の入出力を行う。また、インタフェース部108は、ユーザによるデータの入力の操作を受け付け、ユーザに対して情報を表示する。例えば、インタフェース部108は、カメラ30と通信を行う。また、インタフェース部108は、検出結果を表示する。
図3は、実施の形態1にかかる物体検出装置100の構成を示す機能ブロック図である。物体検出装置100は、入力画像取得部110、摂動画像取得部112、検出処理部114、検出モデル格納部116、検出結果統合部120、パラメータ格納部130、及び検出結果出力部140を有する。また、物体検出装置100は、学習データ格納部150、摂動画像取得部152、検出処理部154、及びパラメータ算出部160を有する。入力画像取得部110は、入力画像取得部110Aと、入力画像取得部110Bとを有する。検出結果統合部120は、スコア調整部122と検出結果決定部124とを有する。
入力画像取得部110、摂動画像取得部112、検出処理部114、検出モデル格納部116は、それぞれ、入力画像取得手段、摂動画像取得手段、検出処理手段、検出モデル格納手段として機能する。また、検出結果統合部120、パラメータ格納部130、及び検出結果出力部140は、それぞれ、検出結果統合手段、パラメータ格納手段、及び検出結果出力手段として機能する。また、学習データ格納部150、摂動画像取得部152、検出処理部154、及びパラメータ算出部160は、それぞれ、学習データ格納手段、摂動画像取得手段、検出処理手段、及びパラメータ算出手段として機能する。また、スコア調整部122及び検出結果決定部124は、それぞれ、スコア調整手段及び検出結果決定手段として機能する。
ここで、入力画像取得部110、摂動画像取得部112、検出処理部114、検出モデル格納部116、検出結果統合部120、パラメータ格納部130、及び検出結果出力部140は、物体検出を行う運用段階で機能する。また、学習データ格納部150、摂動画像取得部152、検出処理部154、検出モデル格納部116、パラメータ算出部160、及びパラメータ格納部130は、検出結果統合部120の機能を学習する学習段階で機能する。ここで、摂動画像取得部112及び摂動画像取得部152は、実質的に同様の機能を有しうる。また、検出処理部114及び検出処理部154は、実質的に同様の機能を有し得る。特に、検出処理部114によって用いられる検出器(検出モデル)は、検出処理部154によって用いられる検出器と同じものである。
なお、図3に示した各構成要素は、例えば、CPU102がROM104に記憶されたプログラムを実行することによって実現可能である。また、必要なプログラムを任意の不揮発性記録媒体に記録しておき、必要に応じてインストールするようにしてもよい。なお、各構成要素は、上記のようにソフトウェアによって実現されることに限定されず、何らかの回路素子等のハードウェアによって実現されてもよい。また、上記構成要素の1つ以上は、物理的に別個のハードウェアによってそれぞれ実現されてもよい。なお、各構成要素の具体的な機能については後述する。
図4は、実施の形態1にかかる物体検出装置100によって行われる、運用段階に関する物体検出方法を示すフローチャートである。入力画像取得部110は、入力画像A及び入力画像Bを取得する(ステップS102)。具体的には、入力画像取得部110Aは、カメラ30Aから入力画像A(例えば可視光画像)を取得する。また、入力画像取得部110Bは、カメラ30Bから入力画像B(例えば赤外光画像)を取得する。
摂動画像取得部112は、入力画像Bについて、複数の摂動画像を取得する(ステップS104)。具体的には、摂動画像取得部112は、例えば、カメラ30Aとカメラ30Bとの位置関係に応じた方向に一定の摂動量ごとに入力画像Bを摂動させることによって、複数の摂動画像(摂動画像群)を生成する。なお、後述する図5の例では、入力画像40Aについては摂動させない。摂動画像については、図5を用いてさらに説明する。
図5は、実施の形態1にかかる運用段階において摂動画像取得部112によって生成される複数の摂動画像を例示する図である。なお、カメラ30Aとカメラ30Bとで、画角は同じであるとする。また、検出対象は人間であるとする。また、カメラ30Bがカメラ30Aに対して右側から検出対象を撮影するとする。この場合、入力画像40B(入力画像B)に含まれる検出対象画像90の背景画像92に対する位置は、入力画像40A(入力画像A)に含まれる検出対象画像90の背景画像92に対する位置よりも左側にずれている。言い換えると、背景画像92の位置が入力画像40Aと入力画像40Bとで略同じ場合、入力画像40Bにおける検出対象画像90の位置は、入力画像40Aにおける検出対象画像90の位置よりも左側にずれている。
このとき、摂動画像取得部112は、入力画像40Bを、右方向に、一定の間隔ごと(例えば一定の画素数ごと)に平行移動させる。これにより、摂動画像取得部112は、摂動画像42-1~42-3を生成する。なお、摂動の元となった入力画像40Bは、摂動画像42-0として、複数の摂動画像42に含まれ得る。つまり、入力画像40Bは、摂動量0の摂動画像42である。
ここで、図5の例では、摂動画像42-2における検出対象画像90の位置が、入力画像40Aにおける検出対象画像90の位置に対応している。つまり、上記のように複数の摂動画像42(42-0~42-3)を生成すると、入力画像40Aに対する入力画像40Bにおける検出対象画像90の位置ずれを近似的に打ち消すような摂動画像42が生成され得る。
なお、図5の例では、元の入力画像40Bを含めて4つの摂動画像42が生成されるが、生成される摂動画像42の数は任意である。なお、摂動画像42において、右側への平行移動によって画角からはみ出した右側部分(図5の斜線のハッチングで示す)については、削除してもよいし、平行移動によって空白となった左側部分に挿入してもよい。また、カメラ30A及びカメラ30Bから検出対象までの距離を推定できる場合は、その距離に応じて摂動量を変更してもよい。これらのことは、後述するS154の処理においても同様である。
検出処理部114は、検出モデル格納部116に格納された検出モデルを用いて、各摂動画像42について、物体検出処理を行う(ステップS106)。つまり、検出処理部114は、複数の摂動画像42それぞれと、摂動させなかった入力画像40Aとを用いて、入力画像に含まれる検出対象を検出する。なお、検出モデルは、例えばディープラーニング等の機械学習によって予め学習された、物体検出のための学習モデル(認識辞書)である。検出モデルは、例えばニューラルネットワーク等である。したがって、検出処理部114は、検出モデル格納部116に格納された検出モデルにより実現される検出器を用いて、検出処理を行う。そして、検出処理部114は、物体検出処理によって、複数の摂動画像42それぞれについて、検出結果(検出対象の検出位置及び検出の確信度(クラス確信度;スコア))を取得する。
なお、検出モデルは、位置ずれがなく正解ラベルが付された複数のモーダル画像を用いて機械学習を行うことで生成され得る。この場合、検出モデルは、後述する学習データ格納部150に格納された学習データを用いて機械学習を行うことで、生成され得る。なお、検出器(検出モデル)は、上記の例に限られず、任意である。
図6は、実施の形態1にかかる運用段階において検出処理部114によって行われる検出処理を説明するための図である。検出処理部114は、入力画像40Aと摂動画像42-0とを用いて、物体検出を行う。これにより、検出処理部114は、入力画像40A及び摂動画像42-0それぞれに対し、検出対象画像90についての検出位置を示す矩形領域Ba0及び矩形領域Bb0を生成する。ここで、矩形領域は、検出対象画像90が含まれ得ると推定された領域、つまり検出対象画像90が検出された領域を示す。また、検出処理部114は、各矩形領域(検出結果)について、確信度を生成する(他の摂動画像においても同様)。
なお、検出位置(検出座標)は、例えば矩形領域の中心位置(矩形座標)であってもよい。また、矩形領域Ba0及び矩形領域Bb0の位置は同じであり得る。この場合、矩形領域Ba0及び矩形領域Bb0を、入力画像Aと入力画像Bとで共通の矩形領域B0としてもよい。また、図6において、入力画像40A及び摂動画像42-0には、それぞれ1つの矩形領域が示されているが、1つの検出対象について複数の検出結果が生成される場合は、複数の矩形領域が生成され得る。また、検出対象が複数である場合は、複数の検出対象それぞれについて矩形領域が生成され得る。また、検出結果(矩形領域及び確信度)は、一方の入力画像(例えば入力画像40A)に対してのみ生成されてもよい。これらのことは、以下に示す他の摂動画像42(及び摂動学習用画像)に対する検出結果についても同様である。
検出処理部114は、入力画像40Aと摂動画像42-1とを用いて、物体検出を行う。これにより、検出処理部114は、入力画像40A及び摂動画像42-1それぞれに対し、検出対象画像90についての検出位置を示す矩形領域Ba1及び矩形領域Bb1(矩形領域B1)を生成する。検出処理部114は、入力画像40Aと摂動画像42-2とを用いて、物体検出を行う。これにより、検出処理部114は、入力画像40A及び摂動画像42-2それぞれに対し、検出対象画像90についての検出位置を示す矩形領域Ba2及び矩形領域Bb2(矩形領域B2)を生成する。検出処理部114は、入力画像40Aと摂動画像42-3とを用いて、物体検出を行う。これにより、検出処理部114は、入力画像40A及び摂動画像42-3それぞれに対し、検出対象画像90についての検出位置を示す矩形領域Ba3及び矩形領域Bb3(矩形領域B3)を生成する。
検出結果統合部120は、複数の摂動画像42について得られた検出結果(検出位置及び確信度)を統合して、検出対象画像90について適切な検出結果を決定する(S108~S110)。具体的には、パラメータ格納部130は、統合パラメータを格納している。ここで、統合パラメータは、摂動させなかった入力画像40Aと摂動画像42とで検出対象の位置が互いに合っている組についての確信度が相対的に高くなるように確信度を調整するためのパラメータである。そして。統合パラメータは、検出結果に対する入力画像の摂動の影響を補正するパラメータを含む。
後述するように、この統合パラメータは、学習段階において、パラメータ算出部160によって算出される。そして、スコア調整部122は、複数の摂動画像42について取得された検出位置(矩形座標)及び確信度に基づいて、統合パラメータを用いて、複数の摂動画像42それぞれについて調整された確信度を算出する(ステップS108)。以後、調整された確信度(調整確信度)を算出すること、つまり確信度を調整することを、リスコアと称することがある。スコア調整部122の具体的な処理については後述する。
ここで、スコア調整部122が、複数の摂動画像のうちの第1の摂動画像について確信度を調整するとする。このとき、スコア調整部122は、当該第1の摂動画像に関する検出位置との距離が近い検出位置に関する第2の摂動画像に関する重みを重くするように重み付けして、複数の摂動画像における確信度を累積する。また、統合パラメータは、補正パラメータ(第1のパラメータ)と、重み調整パラメータ(第2のパラメータ)とを含む。補正パラメータは、第1の摂動画像の摂動量と第2の摂動画像の摂動量との差に応じて前記距離(第1の摂動画像に関する検出位置と第2の摂動画像に関する検出位置との距離)を補正するパラメータである。また、重み調整パラメータは、前記距離に対する重みを定義するパラメータである。統合パラメータについては後述する。ここで、スコア調整部122は、関数f(D,s)m,αを用いて、調整された確信度を算出する。ここで、関数f(D,s)m,αは、D,sを変数とし、m,αを定数とする関数である。また、Dは検出位置、sはDにおける確信度である。また、m及びαは統合パラメータ(定数)である。mは補正パラメータであり、αは重み調整パラメータである。この、関数f(D,s)m,αの具体例については後述する。
検出結果決定部124は、調整された確信度に基づいて、複数の摂動画像による複数の検出結果を絞り込んで適切な検出結果を決定する(ステップS110)。ここで、スコア調整部122によってなされたリスコアによって、入力画像40Aと摂動画像42との複数の組のうち、入力画像40Aと摂動画像42とで検出対象画像90の位置が互いに合っている組についての調整確信度が最も高くなり得る。これにより、検出対象画像90の位置が合っている組についての検出結果が最も信頼され得る。したがって、検出結果決定部124は、検出対象画像90それぞれについて、調整確信度が最も大きな検出結果を、適切な検出結果として決定する。そして、検出結果決定部124は、それ以外の調整確信度の低い検出結果を削除(抑制)する。
図7は、実施の形態1にかかる検出結果統合部120の処理結果を説明するための図である。入力画像40Aaは、入力画像40Aに、各摂動画像42について得られた検出結果に関する矩形領域B0~B3が重畳された画像である。このとき、S108の処理によって、矩形領域B2に関する調整確信度が、最も高くなる。言い換えると、統合パラメータにより、スコア調整部122は、矩形領域B2に関する調整確信度が最も高くなるように、各摂動画像42について得られた検出結果に関する確信度を調整(リスコア)する。
ここで、検出結果決定部124は、同じクラスに関する矩形領域について、重複の大きさが予め定められた閾値以上の矩形領域の組が、同じ検出対象画像90についての検出結果を示していると判定する。ここで、検出結果決定部124は、重複の大きさとして、検出された矩形領域の組についてIoU(Intersection over Union)を算出してもよい。IoUは、各矩形領域を合併した面積(矩形領域の和集合の面積)に対する、各矩形領域の共通部分の面積の割合である。図7の例では、矩形領域B0~B3の各組の重複の大きさが閾値以上であると判定される。
そして、検出結果決定部124は、重複の大きさが閾値以上である矩形領域B0~B3について、対応する調整確信度が最も高い検出結果を、適切な検出結果として決定する。図7の例では、上述したように、矩形領域B2に関する調整確信度が、最も高い。したがって、検出結果決定部124は、矩形領域B2以外の矩形領域に関する検出結果を削除する。これにより、検出結果決定部124は、入力画像40Abに示すような、矩形領域B0,B1,B3が削除され矩形領域B2のみが示された検出結果を生成する。つまり、検出結果決定部124は、調整確信度に応じて、過剰な検出結果を抑制するように構成されている。
検出結果出力部140は、決定された適切な検出結果を、インタフェース部108に出力する(ステップS112)。具体的には、検出結果出力部140は、例えば図7に例示された入力画像40Abを表示する。つまり、検出結果出力部140は、過剰な検出結果が抑制された検出結果を表示する。このとき、検出結果出力部140は、矩形領域B2の近傍に、クラス確信度を表示させてもよい。このクラス確信度は、S106の処理で取得された、矩形領域B2に関する確信度であってもよいし、S108においてリスコアされた矩形領域B2に関する調整確信度であってもよい。
図8は、実施の形態1にかかる物体検出装置100によって行われる、学習段階に関する物体検出方法を示すフローチャートである。摂動画像取得部152は、学習データ格納部150に格納された学習データについて、複数の摂動画像(摂動学習用画像)を生成する(ステップS154)。ここで、学習データ格納部150は、検出対象のクラスとそのクラスに対応する正解位置(正解領域)とを対応付けた正解ラベルが予め付加された複数の学習用画像である学習データを格納している。さらに、複数の学習用画像は、位置ずれがない複数のモーダル画像であり得る。したがって、複数の学習用画像(複数のモーダル画像)において、画像における検出対象の位置が互いに合っている。
図9は、実施の形態1にかかる学習段階において摂動画像取得部152によって生成される摂動学習用画像を例示する図である。図9に示すように、複数の学習用画像は、カメラ30Aと同じモーダルで撮影された学習用画像50Aと、カメラ30Bと同じモーダルで撮影された学習用画像50Bとを含む。なお、1つのカメラを用いて物体検出を行う場合は、学習用画像50Bは学習用画像50Aと同じ画像でもよい。また、上述したように、学習用画像50A及び学習用画像50Bには、それぞれ正解位置を示す正解矩形領域Bcが付加されている。そして、学習用画像50A及び学習用画像50Bにおいて、検出対象画像90の位置は互いに合っている。
このとき、摂動画像取得部152は、摂動画像取得部112の処理と同様にして、カメラ30Aとカメラ30Bとの位置関係に応じて、一定の摂動量ごとに、学習用画像50Bを摂動させる。カメラ30Aとカメラ30Bとが左右方向に並んで設置されている場合、摂動画像取得部152は、学習用画像50Bを、右方向又は左方向に平行移動させる。これにより、摂動画像取得部152は、複数の摂動学習用画像52-1~52-4を生成する。摂動学習用画像52-1,52-2は、学習用画像50Bを左方向(負方向の摂動方向)に平行移動させて得られた画像である。摂動学習用画像52-3,52-4は、学習用画像50Bを右方向(正方向の摂動方向)に平行移動させて得られた画像である。なお、摂動の元となった(つまり摂動量が0の)学習用画像50Bは、摂動学習用画像52-0として、複数の摂動学習用画像52に含まれ得る。
検出処理部154は、検出モデル格納部116に格納された検出モデルを用いて、各摂動学習用画像52について、物体検出処理を行う(ステップS156)。つまり、検出処理部154は、複数の摂動学習用画像それぞれと、摂動させなかった学習用画像とを用いて、学習用画像に含まれる検出対象を検出する。ここで、検出処理部154の処理は、検出処理部114の処理(S106)と実質的に同様である。そして、検出処理部154は、物体検出処理によって、複数の摂動学習用画像それぞれについて、検出結果(検出対象の検出位置及び検出の確信度(クラス確信度;スコア))を取得する。
図10は、実施の形態1にかかる学習段階において検出処理部154によって行われる検出処理を説明するための図である。検出処理部154は、学習用画像50Aと摂動学習用画像52-0とを用いて、物体検出を行う。これにより、検出処理部154は、検出対象画像90についての検出位置を示す矩形領域Bd0を生成する。また、検出処理部154は、各矩形領域(検出)について、確信度を生成する。ここで、学習用画像50Aと摂動学習用画像52-0とで位置ずれはないので、矩形領域Bd0は正解矩形領域Bcと一致し得る。
また、検出処理部154は、学習用画像50Aと摂動学習用画像52-1とを用いて、物体検出を行う。これにより、検出処理部154は、検出対象画像90についての検出位置を示す矩形領域Bd1を生成する。ここで、学習用画像50Aと摂動学習用画像52-1とで、摂動により位置ずれが発生しているので、矩形領域Bd1は、正解矩形領域Bcと一致せず、正解矩形領域Bcよりも左側(摂動方向側)にずれている。
また、検出処理部154は、学習用画像50Aと摂動学習用画像52-2とを用いて、物体検出を行う。これにより、検出処理部154は、検出対象画像90についての検出位置を示す矩形領域Bd2を生成する。ここで、学習用画像50Aと摂動学習用画像52-2とで、摂動により位置ずれが発生しているので、矩形領域Bd2は、正解矩形領域Bcと一致せず、正解矩形領域Bcよりも左側(摂動方向側)にずれている。
また、検出処理部154は、学習用画像50Aと摂動学習用画像52-3とを用いて、物体検出を行う。これにより、検出処理部154は、検出対象画像90についての検出位置を示す矩形領域Bd3を生成する。ここで、学習用画像50Aと摂動学習用画像52-3とで、摂動により位置ずれが発生しているので、矩形領域Bd3は、正解矩形領域Bcと一致せず、正解矩形領域Bcよりも右側(摂動方向側)にずれている。
また、検出処理部154は、学習用画像50Aと摂動学習用画像52-4とを用いて、物体検出を行う。これにより、検出処理部154は、検出対象画像90についての検出位置を示す矩形領域Bd4を生成する。ここで、学習用画像50Aと摂動学習用画像52-4とで、摂動により位置ずれが発生しているので、矩形領域Bd4は、正解矩形領域Bcと一致せず、正解矩形領域Bcよりも右側(摂動方向側)にずれている。
パラメータ算出部160は、各摂動学習用画像に対する検出結果の摂動依存性を調査する(ステップS158)。具体的には、パラメータ算出部160は、摂動前の学習用画像に対する各摂動学習用画像の摂動量と、対応する摂動学習用画像についての検出結果である矩形座標及び確信度との関係を算出する。
図11は、実施の形態1にかかる、摂動学習用画像の摂動量と検出結果との関係を例示する図である。図11は、横軸を摂動量として、摂動量と矩形座標及び確信度との関係をプロットした図である。なお、図11は連続的に矩形座標及び確信度を示しているが、摂動が段階的に行われるときは、矩形座標及び確信度は、離散的となり得る。また、図11では、摂動させていない学習用画像50Aの左端を矩形座標の基準とし、右方向を矩形座標の正方向とする。つまり、学習用画像50Aにおいて矩形領域が右方向に位置するほど、矩形座標は大きくなる。
図11に例示するように、矩形座標は、摂動量に応じて変化する。ここで、摂動量=0のときの矩形座標が、正解位置に対応する。そして、図10に示したように、摂動量が正方向(右方向)に大きくなるにつれて、矩形座標は大きくなる(つまり矩形領域は右方向に移動する)。また、図10に示したように、摂動量が負方向(左方向)に大きくなるにつれて、矩形座標は小さくなる(つまり矩形領域は左方向に移動する)。なお、図11に示した矩形座標と摂動量との関係は、あくまでも例示であって、検出器に応じて異なり得る。
また、図11に例示するように、確信度は、摂動量に応じて変化する。そして、摂動量が0の近傍で、確信度が高くなっている。ここで、摂動量が0のとき(図10の例では摂動学習用画像52-0の検出結果のとき)に位置ずれが発生していないので、摂動量が0において確信度は高くなり得る。一方、例えば赤外光画像のように解像度が低い画像を用いて検出を行うと、多少画像を摂動させたとしても、確信度の変化量は大きくない可能性がある。また、検出器によっては、検出時に画像のサイズを変更する等により解像度を低くすることがあり得るが、このような場合でも、多少画像を摂動させたとしても、確信度の変化量は大きくない可能性がある。したがって、摂動量=0の近傍において、確信度の大きさの違いは顕著ではない可能性がある。
パラメータ算出部160は、検出結果の出力の際に、適切な検出結果の選択性を高めるように、統合パラメータを算出する(ステップS160)。パラメータ算出部160は、算出された統合パラメータをパラメータ格納部130に格納する。具体的には、パラメータ算出部160は、確信度を調整(リスコア)する際に、摂動量が0のときの確信度(調整確信度)が最大となるように、統合パラメータを算出する。言い換えると、摂動量が0のときに適切な検出結果となるので、パラメータ算出部160は、摂動量が0のときに調整確信度がピークとなるように、統合パラメータを算出する。これにより、S108の処理(リスコア)の際に、適切な検出結果に関する調整確信度が最大(ピーク)となり得る。
<統合パラメータの算出及びリスコアの具体例>
以下、統合パラメータの算出(S160)及びリスコア(S108)の具体例について説明する。上述したように、リスコアの目的は、入力画像40Bを摂動させて得られた複数の摂動画像のいずれかで入力画像40Aと検出対象画像90の位置が合っているときに、その摂動画像に関する検出結果を最も信頼するようすることである。したがって、リスコアによって、この摂動画像(図6の例では摂動画像42-2)における調整確信度が最も高くなるようにする。なお、以下の説明において、摂動画像42と摂動学習用画像52とを区別しないで、単に「摂動パターン」と称する。また、以下のアルゴリズムは、クラスごとに行われ得る。
各摂動パターン(摂動量)Tは、以下の式1で定義される。
Figure 0007156511000001
ここで、Kは摂動パターン数を示す。また、添え字kは、各摂動パターンを示すインデックスである。なお、例えば、摂動方向が水平方向の並進(平行移動)である場合、各摂動パターンTの差は、x座標(画像の水平方向の位置座標)の差のみであり得る。
また、摂動パターンTにおける検出結果は、以下の式2で定義される。
Figure 0007156511000002
ここで、Dは検出座標(矩形座標)を示し、sは確信度を示す。また、添え字iは、各画像における1つ以上の検出(検出候補)それぞれを示すインデックスである。したがって、Ri,kは、摂動パターンTの検出(検出候補)iにおける検出結果を示す。
ここで、互いに位置の合った複数のモーダルで撮影された複数の画像データのみで学習した検出器では、上述したように、一方のモーダル画像の摂動によって検出結果が変動する。以下に示すアルゴリズムでは、摂動の依存性を用いて、検出対象画像の位置が合った画像ペア(摂動させていない入力画像と摂動パターンとの組)を推定できるようにする。
摂動依存性は、線形近似すると、以下の式3で表される。
Figure 0007156511000003
ここで、添え字lは、各摂動パターンを示すインデックスである。また、mは、補正パラメータを示す。なお、図11に示すように、正解位置の近傍では、摂動量の変化に対して矩形座標(検出座標)が概ね線形に変化していることが分かる。この線形変化の傾きがmに対応する。
また、調整確信度は、以下の式4で定義される。
Figure 0007156511000004
なお、以下、便宜上、式4の左辺である調整確信度を「s」(s i,k)と表記することがある。つまり、s i,kは、摂動パターンTにおける検出iに関する調整確信度を示す。ここで、αは、重み調整パラメータを示す。また、添え字jは、各画像における1つ以上の検出(検出候補)それぞれを示すインデックスである。
また、Δklは、式4で示すように調整確信度を算出する(複数の摂動画像における確信度を累積する)際に、摂動により変動した検出座標を補正する補正量を示す。ここで、Δklは、以下の式5で定義される。
Figure 0007156511000005
ここで、式4に示すように、調整確信度s i,kは、全摂動パターンの検出結果及び各画像内の全検出結果から、検出座標Di,kに近い検出座標Dj,lに関する確信度の重みを重くして、これらの確信度を累積したものである。ここで、「exp{}」の項が「重み」に対応する。式4において、検出座標Dj,lが検出座標Di,kに近ければ、Di,k-Dj,lは小さくなる。また、このとき、摂動パターンの位置も近いと推定されるので、Δklも小さくなる。したがって、調整確信度の算出対象である摂動パターンT及び検出iについての検出座標Di,kに近い検出座標Dj,lに関する確信度sj,lを加算するとき、「exp{}」の項は大きくなる。逆に、摂動パターンT及び検出についての検出座標Di,kに遠い検出座標Dj,lに関する確信度sj,lを加算するとき、「exp{}」の項は小さくなる。したがって、「exp{}」の項が「重み」として機能する。
また、式4において、「|(Di,k-Dj,l+Δkl)/α|」の項は、摂動の影響が補正された、Di,kとDj,lとの間の検出座標の距離に対応する。「Di,k-Dj,l+Δkl」の項は、「Di,k-(Dj,l-Δkl)」と修正できる。そして、「Dj,l-Δkl」は、確信度sj,lを累積するときに、検出座標Dj,lを、摂動パターンTに対する摂動パターンTの摂動の影響を補正した座標に対応する。
また、重み調整パラメータαは、上記の補正された距離に対する、「exp{}」の項に対応する「重み」を定義(調整)する。つまり、式4において、αを大きくすると、Di,kとDj,lとの間の距離(補正された距離でも同様)が遠くであっても(つまり、|Di,k-Dj,l|が大きくても)、「exp{}」の項の大きさが小さくなることが抑制される。この場合、Di,kから遠いDj,lに対応する確信度を加算した場合でも、その確信度の調整確信度に対する影響を大きくすることができる。逆に、式4において、αを小さくすると、Di,kとDj,lとの間の距離(補正された距離でも同様)が近くであっても(つまり、|Di,k-Dj,l|が小さくても)、「exp{}」の項の大きさが大きくなることが抑制される。この場合、Di,kから近いDj,lに対応する確信度を加算した場合でも、その確信度の調整確信度に対する影響を小さくすることができる。したがって、αの大きさを調整することで、調整確信度に対する影響が及ぶDi,kからの距離の範囲を調整することができる。したがって、αは、重み調整パラメータとして機能する。このことは、後述する複数の入力画像を摂動させる例においても同様である。
図12は、実施の形態1において、確信度を累積するときに、累積される確信度に対応する検出座標を、摂動の影響を考慮して補正することを説明する図である。Di,kは、調整確信度s i,kの算出対象となる、摂動パターンTの検出結果Ri,kの検出座標である。また、Dj,k-1は、検出結果Rj,k-1(摂動パターンTk-1)にかかる累積される確信度sj,k-1に対応する検出座標である。Dj’,k+1は、検出結果Rj’,k+1(摂動パターンTk+1)にかかる累積される確信度sj’,k+1に対応する検出座標である。矩形領域Bは、Di,kに対応する矩形領域である。矩形領域Bk-1は、Dj,k-1に対応する矩形領域である。矩形領域Bk+1は、Dj’,k+1に対応する矩形領域である。なお、矩形領域B’は、摂動パターンTにおける別の検出結果にかかる矩形領域である。矩形領域Bk-1’は、摂動パターンTk-1における別の検出結果にかかる矩形領域である。矩形領域Bk+1’は、摂動パターンTk+1における別の検出結果にかかる矩形領域である。
このとき、摂動パターンTk-1にかかる確信度sj,k-1を累積する場合、矩形領域Bから見ると、Dj,k-1は、「Dj,k-1-Δk(k-1)」と補正される。また、摂動パターンTk+1にかかる確信度sj’,k+1を累積する場合、矩形領域Bから見ると、Dj’,k+1は、「Dj’,k+1-Δk(k+1)」と補正される。したがって、検出結果Ri,kについて他の検出結果にかかる確信度が累積される場合、点線L1で示される検出座標は、破線L2で示される検出座標に補正される。
なお、式4において、調整確信度s i,kを求める際に、全摂動パターンの検出結果及び各画像内の全検出結果から、検出座標Di,kに近い検出座標Dj,lに関する確信度の重みを重くしてこれらの確信度を累積するのは、以下のためである。すなわち、検出対象画像の位置が合っている画像の組による検出結果(図11の摂動量=0に対応)では、当然に確信度が高くなり得る。そして、その検出結果の検出位置の近傍の検出位置に関する他の検出結果でも、近傍に検出対象の画像情報が含まれるため、他の検出結果に関する確信度もある程度高くなる可能性が高い。したがって、検出対象画像の位置が合っている画像の組の検出結果にかかる検出座標Di,kに近い検出座標Dj,lに関する確信度の重みを重くして累積すると、累積された確信度(調整確信度)は高くなり得る。
一方、検出対象画像の位置が合っていない画像の組による検出結果であっても、その検出結果にかかる確信度が、位置が合っている画像の組による検出結果と同等程度に高い可能性もある。しかしながら、その近傍の検出位置に検出対象の画像情報が存在する可能性は相対的に低い。したがって、その他の検出結果に関する確信度はそれほど高くならない可能性がある。これにより、検出対象画像の位置が合っていない画像の組の検出結果にかかる検出座標Di,kに近い検出座標Dj,lに関する確信度の重みを重くして累積しても、累積された確信度(調整確信度)は、検出対象画像の位置が合っている画像の組の検出結果の場合と比較して、高くならない可能性がある。逆に言うと、検出座標Di,kに近い検出座標Dj,lに関する確信度の重みを重くして加算することで、検出対象画像の位置が合っている画像の組にかかる累積された調整確信度が、位置が合っていない画像の組にかかる累積された調整確信度よりも高くなり得る。これにより、統合パラメータm,αを適切に定めることで、検出対象画像の位置が合っている画像の組による検出結果にかかる調整確信度が最も高くなり得る。
図13は、実施の形態1にかかるパラメータ算出部160の処理を説明するための図である。パラメータ算出部160は、運用段階で検出が行われる前に、学習段階で、上記の補正パラメータm及び重み調整パラメータαを算出する。具体的には、パラメータ算出部160は、摂動量Tと矩形座標Dとの関係のプロットから、摂動量=0の付近の線形変化の傾きを、mとして算出する。
パラメータ算出部160は、算出されたmを式4(式5)に代入する。そして、パラメータ算出部160は、この式4を用いて、S156における検出処理で得られた、学習データに関する各摂動パターンTの各検出結果Ri,kについて、全ての摂動パターンTの全ての検出結果Rj,lについて、確信度を累積する。これにより、各検出結果Ri,kについて、調整確信度s i,kが算出される。そして、パラメータ算出部160は、摂動量=0であり検出座標が正解位置と合っている検出結果Ri,kに関する調整確信度s i,kが最も高くなるようなαを算出する。なお、このとき、パラメータ算出部160は、mを微調整してもよい。これにより、破線L3で示すように、リスコア後の調整確信度s i,kは、摂動量=0で最大となる。
図14は、実施の形態1にかかる検出結果統合部120の処理を説明するための図である。スコア調整部122は、運用段階で検出が行われる際に、上述したパラメータ算出部160の処理によって算出された統合パラメータm,αを、式4に代入する。そして、スコア調整部122は、この式4を用いて、学習段階と同様に、S106における検出処理で得られた、各摂動パターンTの各検出結果Ri,kについて、全ての摂動パターンTの全ての検出結果Rj,lについての確信度を累積する。すると、図14の破線L4で示すように、ある調整確信度s i,kの値が最も高くなり得る。
このとき、検出結果決定部124は、この最大となった調整確信度s i,kに関する検出結果Ri,kを、適切な検出結果として決定する。したがって、検出結果決定部124は、この最大となった調整確信度s i,kに関する矩形領域との重複の大きな矩形領域に関する検出結果を削除する。これにより、最大となった調整確信度s i,kに関する検出結果Ri,kが出力される。
なお、学習段階では、学習用画像には正解位置が予めラベル付けされており、複数の学習用画像は位置ずれがない複数のモーダル画像であり得る。したがって、どの摂動学習用画像(摂動パターン)における検出結果が最も適切(信頼性がある)かは、明らかである。一方、運用段階では、入力画像における正解位置は不明であり、複数の入力画像は位置ずれがある複数のモーダル画像である。したがって、運用段階では、どの摂動画像(摂動パターン)における検出結果が最も適切(信頼性がある)かは、不明である。そして、リスコアによって、摂動させない入力画像と検出対象画像の位置が合っている摂動画像(検出結果)に関する調整確信度がピークとなり得る。したがって、リスコアによって、この位置が合っている摂動画像(検出結果)を判別することが可能となる。
以上説明したように、実施の形態1において、物体検出装置100は、複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得する。物体検出装置100は、複数の摂動画像それぞれと、複数の入力画像のうち摂動させなかった入力画像とを用いて入力画像に含まれる検出対象を検出して、複数の摂動画像それぞれについて、検出結果として検出対象の検出位置及び検出の確信度を取得する。物体検出装置100は、複数の摂動画像について取得された検出位置及び確信度に基づいて、統合パラメータを用いて、摂動画像それぞれについて調整確信度を算出する。これにより、複数のモーダル画像において検出対象画像の位置が合っている摂動画像にかかる適切な検出結果に関する調整確信度が最も高くなるので、その最大の調整確信度に関する検出結果が出力される。したがって、異なる複数のモーダルにより撮影された複数の入力画像に対して特殊な機器により機械的に位置合わせしなくても、精度よく物体検出を行うことが可能となる。また、位置合わせのための特殊な機器を用いる必要がないので、機器の調整不良等によって位置合わせの誤差による不具合の発生を抑制することができる。したがって、実施の形態1にかかる物体検出装置100は、異なる複数のモーダルにより撮影された複数の入力画像を用いて精度よく物体検出を行うことができる。
また、実施の形態1にかかる物体検出装置100は、調整確信度に基づいて複数の摂動画像による検出結果を絞り込んで適切な検出結果を決定し、決定された検出結果を出力するように構成されている。これにより、最大となった調整確信度に関する検出結果を確実に出力することが可能となる。
また、実施の形態1にかかる物体検出装置100は、第1の摂動画像について確信度を調整する場合、当該第1の摂動画像に関する検出位置との距離が近い検出位置に関する第2の摂動画像に関する重みを重くするように重み付けする。そして、物体検出装置100は、重み付けされた複数の摂動画像の確信度を累積する。これにより、検出対象画像が存在する適切な検出結果についての調整確信度を、より確実に高くすることが可能となる。
また、実施の形態1にかかる物体検出装置100は、複数の学習用画像のうちの少なくとも1つを摂動させて得られた複数の摂動学習用画像それぞれと、複数の学習用画像のうち摂動させなかった学習用画像とを用いて検出結果を取得する。そして、物体検出装置100は、この検出結果を用いて、統合パラメータを算出する。これにより、検出対象画像が存在する適切な検出結果についての調整確信度が最も高くなるような統合パラメータを、より確実に算出することができる。
(複数の入力画像を摂動させる例)
なお、上述した説明では、複数のモーダル画像(入力画像)を2つとし、そのうちの一方を摂動させるとしたが、複数のモーダル画像は3つ以上であってもよい。この場合、3つ以上のモーダル画像を用いて、物体検出が行われる。また、この場合、摂動させるモーダル画像は複数でもよい。この場合のアルゴリズムについて以下に説明する。なお、以下の説明では、入力画像A、入力画像B1及び入力画像B2を複数のモーダル画像とし、入力画像B1及び入力画像B2を摂動させるとする。この場合、S106の処理において、入力画像Aと、摂動させた入力画像B1と、摂動させた入力画像B2とを用いて、物体検出が行われる(S156の処理においても同様)。
各摂動パターン(摂動量)Tk1,T’k2は、以下の式6で定義される。
Figure 0007156511000006
ここで、Tk1は、入力画像B1を摂動させた摂動パターンに対応し、T’k2は、入力画像B2を摂動させた摂動パターンに対応する。また、添え字k1は、入力画像B1に関する摂動パターンを示す。また、添え字k2は、入力画像B2に関する摂動パターンを示す。つまり、この場合、摂動パターンはK×K通りである。
また、摂動パターンTk1,T’k2の組における検出結果は、以下の式7で定義される。
Figure 0007156511000007
摂動依存性は、線形近似すると、以下の式8で表される。
Figure 0007156511000008
ここで、添え字l1は、入力画像B1に関する摂動パターンを示すインデックスである。また、添え字l2は、入力画像B2に関する摂動パターンを示すインデックスである。また、mは、入力画像B1に関する摂動パターンについての補正パラメータである。mは、入力画像B2に関する摂動パターンについての補正パラメータである。
また、調整確信度は、以下の式9で定義される。
Figure 0007156511000009
また、Δk1k2l1l2は、式8で示すように調整確信度を算出する際に、摂動により変動した検出座標を補正する補正量を示す。Δk1k2l1l2は、以下の式10で定義される。
Figure 0007156511000010
ここで、式9に示すように、調整確信度s i,k1,k2は、全摂動パターンの検出結果及び各画像内の全検出結果から、検出座標Di,k1,k2に近い検出座標Dj,l1,l2に関する確信度の重みを重くして、これらの確信度を累積したものである。ここで、式4と同様に、「exp{}」の項が「重み」に対応する。
また、式9において、「|(Di,k1,k2-Dj,l1,l2+Δk1k2l1l2)/α|」の項は、摂動の影響が補正された、Di,k1,k2とDj,l1,l2との間の検出位置の距離に対応する。そして、補正パラメータmは、摂動パターンTk1の摂動量と摂動パターンTl1の摂動量との差に対するΔk1k2l1l2の補正係数である。補正パラメータmは、摂動パターンT’k2の摂動量と摂動パターンT’l2の摂動量との差に対するΔk1k2l1l2の補正係数である。また、「Di,k1,k2-Dj,l1,l2+Δk1k2l1l2」の項は、「Di,k1,k2-(Dj,l1,l2-Δk1k2l1l2)」と修正できる。そして、「Dj,l1,l2-Δk1k2l1l2」は、確信度sj,l1,l2を累積するときに、検出座標Dj,l1,l2を、摂動パターンTk1に対する摂動パターンTl1の摂動の影響及び摂動パターンT’k2に対する摂動パターンT’l2の摂動の影響を補正した座標に対応する。
(変形例)
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、図4及び図8に示したフローチャートの各処理の順序は、適宜、変更可能である。また、図4及び図8に示したフローチャートの処理の1つ以上は、なくてもよい。
また、上述した実施の形態では、「複数のモーダルの画像(入力画像)」における位置ずれは、複数のカメラの光軸のずれに伴う視差によるものである、又は、時刻ずれにより発生するとしたが、このような構成に限られない。例えば、2つの入力画像で視差がない場合であっても、一方のカメラを他のカメラと異なるパン、チルト又はズームを行うことによって、上記位置ずれが発生するとしてもよい。
また、上述した実施の形態において、摂動画像取得部は、入力画像を摂動させることによって摂動画像を生成するとしたが、このような構成に限られない。例えば、摂動画像取得部は、摂動画像を「取得」してもよい。例えば、摂動させる入力画像(入力画像B)の複数のフレームを取得してもよい。あるいは、カメラ30Bを移動(パン、チルト又はズーム等を含む)させる場合は、移動による多視点の画像を取得してもよい。このことは、摂動学習用画像についても同様である。したがって、「複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得する」とは、入力画像を摂動させることによって摂動画像を生成することに限られない。
また、本技術を利用して、一方の入力でのみラベルが得られたときに、位置のあっていない他方の画像にラベルを付与してもよい。例えば、赤外光画像でラベルが得られたが、可視光画像ではラベルが得られなかった場合に、本技術を利用して、赤外光画像においてラベルが付与された位置に対応する可視光画像における位置を検出して、可視光画像にラベルを付与してもよい。
また、上述した実施の形態では、入力画像を平行移動させることによって摂動画像を生成するとしたが、このような構成に限られない。摂動は、画像の平行移動でなくてもよい。例えば、画像を回転させることで、摂動画像を生成してもよい。
また、上述した実施の形態では、S110の処理(図7)で、実際に検出された矩形領域のうちで最も高い調整確信度に関する矩形領域を残すとしたが、このような構成に限られない。S110の処理で処理対象となる矩形領域は、実際に検出された矩形領域だけでなく、図12に示したようにして位置が補正された矩形領域を含んでもよい。
また、上述した実施の形態では、摂動量は予め定められているとしたが、このような構成に限られない。検出対象までの距離を推定できる場合に、検出対象までの距離に応じて摂動量を変えてもよい。例えば、検出対象までの距離が短い場合は摂動量を大きくしてもよい。
上述の例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
特定の検出対象が異なる複数のモーダルによって撮影された複数の入力画像を取得する入力画像取得手段と、
前記複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得する摂動画像取得手段と、
前記複数の摂動画像それぞれと、前記複数の入力画像のうち摂動させなかった前記入力画像とを用いて前記入力画像に含まれる前記検出対象を検出して、前記複数の摂動画像それぞれについて、検出結果として前記検出対象の検出位置及び検出の確信度を取得する検出処理手段と、
前記複数の摂動画像について取得された前記検出位置及び前記確信度に基づいて、前記摂動させなかった前記入力画像と前記摂動画像とで前記検出対象の位置が互いに合っている組についての確信度が相対的に高くなるように調整するためのパラメータを用いて、前記複数の摂動画像それぞれについて調整された確信度を算出する調整手段と、
前記調整された前記確信度に基づいた前記検出対象の検出結果を出力する出力手段と
を有する物体検出装置。
(付記2)
前記調整された確信度に基づいて複数の摂動画像による検出結果を絞り込んで適切な検出結果を決定する決定手段
をさらに有し、
前記出力手段は、前記決定された検出結果を出力する
付記1に記載の物体検出装置。
(付記3)
前記調整手段は、第1の摂動画像について前記確信度を調整する場合、当該第1の摂動画像に関する検出位置との距離が近い検出位置に関する第2の摂動画像に関する重みを重くするように重み付けして、前記複数の摂動画像の前記確信度を累積する
付記1又は2に記載の物体検出装置。
(付記4)
前記パラメータは、
前記第1の摂動画像の摂動量と前記第2の摂動画像の摂動量との差に応じて前記距離を補正する第1のパラメータと、
前記距離に対する重みを定義する第2のパラメータと
を含む
付記3に記載の物体検出装置。
(付記5)
前記検出対象に対応する検出位置に関する前記摂動画像についての前記調整された確信度が最も高くなるような前記パラメータを算出するパラメータ算出手段
をさらに有する付記1~4のいずれか1項に記載の物体検出装置。
(付記6)
前記パラメータ算出手段は、前記検出対象の正解位置が予め付され前記検出対象の位置が互いに合っている複数の学習用画像のうちの少なくとも1つを摂動させて得られた複数の摂動学習用画像それぞれと、前記複数の学習用画像のうち摂動させなかった前記学習用画像とを用いて得られた検出結果を用いて、前記パラメータを算出する
付記5に記載の物体検出装置。
(付記7)
少なくとも1つの撮像装置と、
付記1~6のいずれか1項に記載の物体検出装置と
を有し、
前記入力画像取得手段は、前記撮像装置によって撮影された前記複数の入力画像を取得する
物体検出システム。
(付記8)
特定の検出対象が異なる複数のモーダルによって撮影された複数の入力画像を取得し、
前記複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得し、
前記複数の摂動画像それぞれと、前記複数の入力画像のうち摂動させなかった前記入力画像とを用いて前記入力画像に含まれる前記検出対象を検出して、前記複数の摂動画像それぞれについて、検出結果として前記検出対象の検出位置及び検出の確信度を取得し、
前記複数の摂動画像について取得された前記検出位置及び前記確信度に基づいて、前記摂動させなかった前記入力画像と前記摂動画像とで前記検出対象の位置が互いに合っている組についての確信度が相対的に高くなるように調整するためのパラメータを用いて、前記複数の摂動画像それぞれについて調整された確信度を算出し、
前記調整された前記確信度に基づいた前記検出対象の検出結果を出力する
物体検出方法。
(付記9)
前記調整された確信度に基づいて複数の摂動画像による検出結果を絞り込んで適切な検出結果を決定し、
前記決定された検出結果を出力する
付記8に記載の物体検出方法。
(付記10)
第1の摂動画像について前記確信度を調整する場合、当該第1の摂動画像に関する検出位置との距離が近い検出位置に関する第2の摂動画像に関する重みを重くするように重み付けして、前記複数の摂動画像の前記確信度を累積する
付記8又は9に記載の物体検出方法。
(付記11)
前記パラメータは、
前記第1の摂動画像の摂動量と前記第2の摂動画像の摂動量との差に応じて前記距離を補正する第1のパラメータと、
前記距離に対する重みを定義する第2のパラメータと
を含む
付記10に記載の物体検出方法。
(付記12)
前記検出対象に対応する検出位置に関する前記摂動画像についての前記調整された確信度が最も高くなるような前記パラメータを算出する
付記8~11のいずれか1項に記載の物体検出方法。
(付記13)
前記検出対象の正解位置が予め付され前記検出対象の位置が互いに合っている複数の学習用画像のうちの少なくとも1つを摂動させて得られた複数の摂動学習用画像それぞれと、前記複数の学習用画像のうち摂動させなかった前記学習用画像とを用いて得られた検出結果を用いて、前記パラメータを算出する
付記12に記載の物体検出方法。
(付記14)
特定の検出対象が異なる複数のモーダルによって撮影された複数の入力画像を取得するステップと、
前記複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得するステップと、
前記複数の摂動画像それぞれと、前記複数の入力画像のうち摂動させなかった前記入力画像とを用いて前記入力画像に含まれる前記検出対象を検出して、前記複数の摂動画像それぞれについて、検出結果として前記検出対象の検出位置及び検出の確信度を取得するステップと、
前記複数の摂動画像について取得された前記検出位置及び前記確信度に基づいて、前記摂動させなかった前記入力画像と前記摂動画像とで前記検出対象の位置が互いに合っている組についての確信度が相対的に高くなるように調整するためのパラメータを用いて、前記複数の摂動画像それぞれについて調整された確信度を算出するステップと、
前記調整された前記確信度に基づいた前記検出対象の検出結果を出力するステップと
をコンピュータに実行させるプログラムが格納された非一時的なコンピュータ可読媒体。
1 物体検出装置
2 入力画像取得部
4 摂動画像取得部
6 検出処理部
8 調整部
10 出力部
20 物体検出システム
30 カメラ
100 物体検出装置
110 入力画像取得部
112 摂動画像取得部
114 検出処理部
116 検出モデル格納部
120 検出結果統合部
122 スコア調整部
124 検出結果決定部
130 パラメータ格納部
140 検出結果出力部
150 学習データ格納部
152 摂動画像取得部
154 検出処理部
160 パラメータ算出部

Claims (9)

  1. 特定の検出対象が異なる複数のモーダルによって撮影された複数の入力画像を取得する入力画像取得手段と、
    前記複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得する摂動画像取得手段と、
    前記複数の摂動画像それぞれと、前記複数の入力画像のうち摂動させなかった前記入力画像とを用いて前記入力画像に含まれる前記検出対象を検出して、前記複数の摂動画像それぞれについて、検出結果として前記検出対象の検出位置及び検出の確信度を取得する検出処理手段と、
    前記複数の摂動画像について取得された前記検出位置及び前記確信度に基づいて、前記摂動させなかった前記入力画像と前記摂動画像とで前記検出対象の位置が互いに合っている組についての確信度が相対的に高くなるように調整するためのパラメータを用いて、前記複数の摂動画像それぞれについて調整された確信度を算出する調整手段と、
    前記調整された前記確信度に基づいた前記検出対象の検出結果を出力する出力手段と
    を有する物体検出装置。
  2. 前記調整された確信度に基づいて複数の摂動画像による検出結果を絞り込んで適切な検出結果を決定する決定手段
    をさらに有し、
    前記出力手段は、前記決定された検出結果を出力する
    請求項1に記載の物体検出装置。
  3. 前記調整手段は、第1の摂動画像について前記確信度を調整する場合、当該第1の摂動画像に関する検出位置との距離が近い検出位置に関する第2の摂動画像に関する重みを重くするように重み付けして、前記複数の摂動画像の前記確信度を累積する
    請求項1又は2に記載の物体検出装置。
  4. 前記パラメータは、
    前記第1の摂動画像の摂動量と前記第2の摂動画像の摂動量との差に応じて前記距離を補正する第1のパラメータと、
    前記距離に対する重みを定義する第2のパラメータと
    を含む
    請求項3に記載の物体検出装置。
  5. 前記検出対象に対応する検出位置に関する前記摂動画像についての前記調整された確信度が最も高くなるような前記パラメータを算出するパラメータ算出手段
    をさらに有する請求項1~4のいずれか1項に記載の物体検出装置。
  6. 前記パラメータ算出手段は、前記検出対象の正解位置が予め付され前記検出対象の位置が互いに合っている複数の学習用画像のうちの少なくとも1つを摂動させて得られた複数の摂動学習用画像それぞれと、前記複数の学習用画像のうち摂動させなかった前記学習用画像とを用いて得られた検出結果を用いて、前記パラメータを算出する
    請求項5に記載の物体検出装置。
  7. 少なくとも1つの撮像装置と、
    請求項1~6のいずれか1項に記載の物体検出装置と
    を有し、
    前記入力画像取得手段は、前記撮像装置によって撮影された前記複数の入力画像を取得する
    物体検出システム。
  8. 特定の検出対象が異なる複数のモーダルによって撮影された複数の入力画像を取得し、
    前記複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得し、
    前記複数の摂動画像それぞれと、前記複数の入力画像のうち摂動させなかった前記入力画像とを用いて前記入力画像に含まれる前記検出対象を検出して、前記複数の摂動画像それぞれについて、検出結果として前記検出対象の検出位置及び検出の確信度を取得し、
    前記複数の摂動画像について取得された前記検出位置及び前記確信度に基づいて、前記摂動させなかった前記入力画像と前記摂動画像とで前記検出対象の位置が互いに合っている組についての確信度が相対的に高くなるように調整するためのパラメータを用いて、前記複数の摂動画像それぞれについて調整された確信度を算出し、
    前記調整された前記確信度に基づいた前記検出対象の検出結果を出力する
    物体検出方法。
  9. 特定の検出対象が異なる複数のモーダルによって撮影された複数の入力画像を取得するステップと、
    前記複数の入力画像のうちの少なくとも1つを摂動させた複数の摂動画像を取得するステップと、
    前記複数の摂動画像それぞれと、前記複数の入力画像のうち摂動させなかった前記入力画像とを用いて前記入力画像に含まれる前記検出対象を検出して、前記複数の摂動画像それぞれについて、検出結果として前記検出対象の検出位置及び検出の確信度を取得するステップと、
    前記複数の摂動画像について取得された前記検出位置及び前記確信度に基づいて、前記摂動させなかった前記入力画像と前記摂動画像とで前記検出対象の位置が互いに合っている組についての確信度が相対的に高くなるように調整するためのパラメータを用いて、前記複数の摂動画像それぞれについて調整された確信度を算出するステップと、
    前記調整された前記確信度に基づいた前記検出対象の検出結果を出力するステップと
    をコンピュータに実行させるプログラム。
JP2021515330A 2019-04-22 2019-04-22 物体検出装置、物体検出システム、物体検出方法及びプログラム Active JP7156511B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/017072 WO2020217283A1 (ja) 2019-04-22 2019-04-22 物体検出装置、物体検出システム、物体検出方法及びプログラムが格納された非一時的なコンピュータ可読媒体

Publications (3)

Publication Number Publication Date
JPWO2020217283A1 JPWO2020217283A1 (ja) 2020-10-29
JPWO2020217283A5 JPWO2020217283A5 (ja) 2022-01-14
JP7156511B2 true JP7156511B2 (ja) 2022-10-19

Family

ID=72941615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021515330A Active JP7156511B2 (ja) 2019-04-22 2019-04-22 物体検出装置、物体検出システム、物体検出方法及びプログラム

Country Status (3)

Country Link
US (1) US12094160B2 (ja)
JP (1) JP7156511B2 (ja)
WO (1) WO2020217283A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033483B (zh) * 2021-04-20 2024-02-02 北京百度网讯科技有限公司 检测目标对象的方法、装置、电子设备和存储介质
CN113313720B (zh) * 2021-06-30 2024-03-29 上海商汤科技开发有限公司 对象分割方法和装置
WO2024154270A1 (ja) * 2023-01-18 2024-07-25 富士通株式会社 摂動領域推定プログラム、装置、及び方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146957A (ja) 2016-02-19 2017-08-24 トヨタ自動車株式会社 深層畳み込みニューラルネットワークによるレイヤベースの物体検出の強化
WO2018147059A1 (ja) 2017-02-07 2018-08-16 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3422255B1 (en) * 2017-06-30 2023-03-15 Axis AB Method and system for training a neural network to classify objects or events

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146957A (ja) 2016-02-19 2017-08-24 トヨタ自動車株式会社 深層畳み込みニューラルネットワークによるレイヤベースの物体検出の強化
WO2018147059A1 (ja) 2017-02-07 2018-08-16 ソニー株式会社 画像処理装置、および画像処理方法、並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LIU, Jingjing et al.,Multispectral Deep Neural Networks for Pedestrian Detection,Proceedings of the British Machine Vision Conference [online],英国,2016年09月,pages.73.1-73.13,http://www.bmva.org/bmvc/2016/papers/paper073/paper073.pdf

Also Published As

Publication number Publication date
WO2020217283A1 (ja) 2020-10-29
JPWO2020217283A1 (ja) 2020-10-29
US12094160B2 (en) 2024-09-17
US20220215579A1 (en) 2022-07-07

Similar Documents

Publication Publication Date Title
JP7156511B2 (ja) 物体検出装置、物体検出システム、物体検出方法及びプログラム
US8848095B2 (en) Focus detector, and lens apparatus and image pickup apparatus including the same
US20140037212A1 (en) Image processing method and device
US11054659B2 (en) Head mounted display apparatus and distance measurement device thereof
US9444993B2 (en) Focus detecting apparatus, lens apparatus including the same, image pickup apparatus, and method of detecting defocus amount
US10594939B2 (en) Control device, apparatus, and control method for tracking correction based on multiple calculated control gains
US20220067961A1 (en) Position and attitude estimation device, position and attitude estimation method, and storage medium
JP7439980B2 (ja) 生体認証装置、生体認証方法、および生体認証用プログラム
JP6967464B2 (ja) 画像処理装置
KR101494395B1 (ko) 스테레오 비전을 이용한 탐색장치를 포함하는 유도 비행체 및 이의 표적 추적 방법
JP2014182248A (ja) 合焦位置検出装置、合焦位置検出方法及び合焦位置検出用コンピュータプログラム
JP2015207090A (ja) 画像処理装置、及びその制御方法
JP6799325B2 (ja) 画像補正装置、画像補正方法、注目点認識装置、注目点認識方法及び異常検知システム
KR101200560B1 (ko) 광각 감시 카메라의 영상 분석 장치, 시스템 및 방법
JP6702736B2 (ja) 撮像制御装置および撮像装置の制御方法、プログラム
KR101047150B1 (ko) 레이저스캐너와 비디오카메라간 물리적 편의 보정장치 및 방법과, 물리적편의보정치 측정장치 및 방법
US12087015B2 (en) Photographing system, calibration method, and non-transitory computer-readable medium storing program
WO2024057508A1 (ja) 情報処理装置、情報処理システム、情報処理方法及び記録媒体
US11143504B2 (en) Image capture device and image capture system
KR20150133459A (ko) 템플릿매칭을 이용한 입체영상의 수직오류 검출 및 보정 방법
CN118533134A (zh) 距离测量装置、可移动设备和控制方法
CN117294924A (zh) 一种用于改善眩光的光孔调节系统、方法及电子设备
JP2018200722A (ja) 画像処理装置及びその制御方法、並びにプログラム及び記憶媒体
KR20040078197A (ko) 동공영역 추출을 위한 움직임 추정방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211008

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220919

R151 Written notification of patent or utility model registration

Ref document number: 7156511

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151