JP7424374B2 - 物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体 - Google Patents

物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体 Download PDF

Info

Publication number
JP7424374B2
JP7424374B2 JP2021520655A JP2021520655A JP7424374B2 JP 7424374 B2 JP7424374 B2 JP 7424374B2 JP 2021520655 A JP2021520655 A JP 2021520655A JP 2021520655 A JP2021520655 A JP 2021520655A JP 7424374 B2 JP7424374 B2 JP 7424374B2
Authority
JP
Japan
Prior art keywords
class
classes
position area
object detection
class definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021520655A
Other languages
English (en)
Other versions
JPWO2020235268A1 (ja
Inventor
文平 田路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Publication of JPWO2020235268A1 publication Critical patent/JPWO2020235268A1/ja
Application granted granted Critical
Publication of JP7424374B2 publication Critical patent/JP7424374B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、入力される画像から、その画像に含まれる物体を検出する物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体に関する。
従来から、入力される画像に含まれる物体を検出する技術が開発されている。物体検出は、ロボットの目としての機能を実現する上で重要な技術である。物体検出に関する研究は、画像から顔を検出したり、人物を検出するなど、検出対象を特定した物体検出から行われてきている。近年では、機械学習や深層学習(Deep Learning)を利用して、物体を検出する技術も提案されている(例えば特許文献1~5参照)。
特開2019-16298号公報 特開2013-12163号公報 特開2011-138387号公報 特表2018-526723号公報 特表2018-513491号公報
ところで、機械学習を利用する場合、画像に含まれる物体の位置領域を検出する物体位置領域検出部と、上記物体のクラス(種類)を識別するクラス識別部とを、多種(多クラス)のデータを用いて予め学習させておくことにより、推論時には、多クラスの物体を検出することが可能となる。しかし、位置領域の検出およびクラスの識別を両方とも多クラスで行うようにすると、特定のクラスの識別性能が低下する問題がある。
例えば、物体として、人、車、トラック、バス、自転車、自動二輪の6クラスのみを識別対象とするアプリケーションを想定したとする。このようなアプリケーションにおいて、物体の位置領域の検出およびクラスの識別を両方とも80クラスについて行えるようにすると、クラス識別部に対して、6クラスのみを識別対象としているにもかかわらず、80クラスを識別するための学習を行うことが必要となる。この場合、クラス識別部の規模(処理容量)を一定としたときに、クラス識別部の識別性能が、識別対象である6クラス以外の74クラスにも割かれることになり、その結果、識別対象(6クラス)の識別性能が低下する。
一方、識別対象の識別性能の低下を回避すべく、物体位置領域検出部の学習とクラス識別部の学習とを両方とも、6クラス分のデータを用いて行うと、物体位置領域検出部およびクラス識別部が、限られた6クラスの特徴のみを学習することによって、過学習に陥りやすくなり、汎化性能が低下しやすくなる。例えば識別対象のクラスと似た特徴をもつ別クラスの物体を誤検出しやすくなる(例えば画像に含まれる「列車」を「バス」と検出する場合がある)。このような汎化性能の低下は、物体の検出性能の低下につながる。
そこで、特定のクラスについての識別性能の低下を回避するとともに、汎化性能の低下による物体の検出性能の低下を回避する技術が必要となるが、このような技術は、特許文献1~5を含めて未だ提案されていない。
本発明は、上記の問題点を解決するためになされたもので、その目的は、特定のクラスについての識別性能を向上させるとともに、汎化性能を向上させて物体の検出性能を向上させることができる物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体を提供することにある。
本発明の一側面に係る物体検出装置は、入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する物体位置領域検出部と、予め複数のクラスが定義された第2のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別部と、前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力部とを備え、前記第2のクラス定義で定義されたクラスの数は、前記第1のクラス定義で定義されたクラスの数よりも少なく、前記第2のクラス定義で定義された複数のクラスは、前記第1のクラス定義で定義された複数のクラスの一部を集めて構成されている。
本発明の他の側面に係る物体検出システムは、前記物体検出装置と、前記物体検出装置に入力される前記画像を取得する撮像部とを備えている。
本発明のさらに他の側面に係る物体検出方法は、入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する物体位置領域検出工程と、予め複数のクラスが定義された第2のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別工程と、前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力工程とを含み、前記第2のクラス定義で定義されたクラスの数は、前記第1のクラス定義で定義されたクラスの数よりも少なく、前記第2のクラス定義で定義された複数のクラスは、前記第1のクラス定義で定義された複数のクラスの一部を集めて構成されている。
本発明のさらに他の側面に係るプログラムは、上記物体検出方法をコンピュータに実行させるためのプログラムである。
本発明のさらに他の側面に係る記録媒体は、上記プログラムを記録した、コンピュータ読取可能な記録媒体である。
第1のクラス定義で定義されたクラスの数は、第2のクラス定義で定義されたクラスの数よりも相対的に多いため、第1のクラス定義に基づき、画像中の物体の位置領域の検出を多クラスについて行うことができる。これにより、汎化性能を向上させて物体の検出性能を向上させることができる。また、クラスの識別については、第2のクラス定義に基づいて特定の少クラスで識別を行い、それ以外のクラスの識別を不要とすることができるため、特定の少クラスについての識別性能を向上させることができる。
本発明の実施の一形態の物体検出システムの全体の構成を模式的に示すブロック図である。 上記物体検出システムにおける学習時の処理の流れを示す説明図である。 上記物体検出システムにおける推論時の処理の一例を示す説明図である。 上記物体検出システムにおける推論時の処理の他の例を示す説明図である。
本発明の実施の一形態について、図面に基づいて説明すれば、以下の通りである。
〔1.物体検出システムの構成〕
図1は、本実施形態の物体検出システム1の全体の構成を模式的に示すブロック図である。物体検出システム1は、撮像部2と、物体検出装置3とを含んで構成される。撮像部2は、物体を撮影して画像を取得するカメラで構成されている。上記画像は、例えば動画であるが、静止画であってもよい。物体検出システム1に含まれる撮像部2の台数は特に制限されず、1台であってもよいし、複数台であってもよい。
撮像部2は、有線ケーブルやLAN(Local Area Network)などの通信回線を介して物体検出装置3と通信可能に接続されている。なお、撮像部2は、物体検出装置3と無線通信可能に構成されていてもよい。いずれにしても、撮像部2での撮影によって取得された画像のデータは、通信回線を介して物体検出装置3に送られる。
物体検出装置3は、例えばパーソナルコンピュータ(PC)で構成されている。この物体検出装置3は、物体位置領域検出部11と、クラス識別部12と、物体検出結果出力部13と、記憶部14と、入力部15と、表示部16と、通信部17と、読取部18と、制御部19とを有している。制御部19は、物体検出装置3の各部の動作を制御する中央演算処理装置(CPU;Central Processing Unit)で構成されており、記憶部14のプログラム記憶部14aに記憶された動作プログラムに従って動作する。
物体位置領域検出部11は、入力される画像から、その画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する。ここで、「入力される画像」とは、例えば、撮像部2から物体検出装置3に入力される画像を考えることができるが、この画像に限定されるわけではなく、その他にも、外部の端末装置やサーバーから通信回線を介して物体検出装置3に入力される画像を考えることもできる。
物体位置領域検出部11は、例えばGPU(Graphics Processing Unit)で構成されている。GPUは、リアルタイムな画像処理に特化した演算装置(プロセッサ)である。物体位置領域検出部11をGPUで構成することにより、GPUにおいて畳み込み型ニューラルネットワーク(CNN;Convolutional Neural Network)などの機械学習が可能なニューラルネットワークを構築し、このニューラルネットワークを物体位置領域検出部11として機能させることが可能となる。
本実施形態では、上記第1のクラス定義として、例えば80個のクラスが定義されている。上記80個のクラスには、例えば“Person”、“Bicycle”、“Car”、“Motorcycle”、“Airplane”、“Bus”、“Train”、“Truck”、“Boat”、“Traffic light”、などのクラスが含まれている。物体位置領域検出部11は、入力画像から、第1のクラス定義で定義されたクラスに属する可能性のある物体の位置領域を検出するように、予め学習されている(CNNを構成する各ノードのパラメータ(重み)が予め設定されている)。これにより、物体位置領域検出部11は、実際に外部から画像が入力されたときに、第1のクラス定義に基づき、入力された画像から、“Person”らしい物体、“Bicycle”らしい物体等の位置領域を検出することが可能となる。
クラス識別部12は、予め複数のクラスが定義された第2のクラス定義に基づいて、入力された画像に含まれる物体が複数のクラスのいずれに属するかを識別する。このようなクラス識別部12は、物体位置領域検出部11と同様に、GPUで構成されている。これにより、GPUにおいてCNNなどの機械学習が可能なニューラルネットワークを構築し、このニューラルネットワークをクラス識別部12として機能させることが可能となる。
本実施形態では、上記第2のクラス定義として、例えば5個のクラスが定義されている。上記5個のクラスは、例えば“Person”、“Car”、“Bus”、“Truck”、“Others”である。つまり、第2のクラス定義で定義されたクラスの数は、第1のクラス定義で定義されたクラスの数よりも少ない。
ここで、第2のクラス定義で定義された複数のクラスのうち、“Person”、“Car”、“Bus”、“Truck”は、第1のクラス定義で定義されたクラスと同一である。また、第2のクラス定義で定義された“Others”は、ここでは、第1のクラス定義で定義された複数のクラスのうち、“Person”、“Car”、“Bus”、“Truck”以外のクラスをまとめたクラスを指す。したがって、第2のクラス定義で定義された複数のクラスは、第1のクラス定義で定義された複数のクラスの一部と同一のクラス(上記の例では、“Person”、“Car”、“Bus”、“Truck”)と、第1のクラス定義で定義された複数のクラスにおける他の2以上のクラスをまとめたクラス(上記の例では、“Others”)とを含むと言える。
また、第2のクラス定義で定義された複数のクラス(“Person”、“Car”、“Bus”、“Truck”、“Others”)は、第1のクラス定義で定義された80個のクラスの一部(“Person”、“Car”、“Bus”、“Truck”、他の2以上のクラス)を集めて構成されている。つまり、第2のクラス定義で定義された複数のクラスは、第2のクラス定義で定義された複数のクラスの一部の集合(部分集合)である。
クラス識別部12は、入力画像に含まれる物体が属するクラスを第2のクラス定義に基づいて識別するように、予め学習されている(CNNを構成する各ノードのパラメータ(重み)が予め設定されている)。これにより、クラス識別部12は、実際に外部から画像が入力されたときに、第2のクラス定義に基づいて、入力画像に含まれる物体(物体位置領域検出部11によって位置領域が既に検出された物体を含む)が第2のクラス定義で定義されたクラスのいずれに属するかを識別することが可能となる。
本実施形態では、クラス識別部12はCNNで構成されているため、クラス識別部12からは、物体が属するクラスの識別結果だけでなく、そのクラスの尤度(確からしさ)を示すスコアも出力される。例えば、物体が“Person”である確からしさは0.8であり、“Car”である確からしさは0.2である、などの情報(スコア付きクラス情報)が、クラス識別部12から出力される。
物体検出結果出力部13は、物体位置領域検出部11の検出結果とクラス識別部12の識別結果とに基づいて、物体の検出結果を出力する。例えば、物体位置領域検出部11で検出された位置領域にある物体について、その物体が“Person”である確からしさは0.8であり、“Car”である確からしさは0.2である、という情報がクラス識別部12から出力されたとき、物体検出結果出力部13は、上記位置領域の情報と、上記位置領域にある物体が(“Car”ではなく)“Person”であるという識別結果とを物体の検出結果として出力する。このような物体検出結果出力部13は、例えば制御部19と同一の、または別個のCPUで構成されている。
記憶部14は、各種の情報を記憶するメモリであり、例えばハードディスクで構成されるが、RAM(Random Access Memory)、ROM(Read Only Memory)などをさらに含んで構成されてもよい。この記憶部14は、プログラム記憶部14aと、入力画像記憶部14bと、クラス定義記憶部14cと、パラメータ記憶部14dとを有している。
プログラム記憶部14aは、物体検出装置3の各部を動作させるための動作プログラムを記憶する。入力画像記憶部14bは、例えば撮像部2で取得され、物体検出装置3に入力された画像のデータを一次的に記憶する。なお、入力画像記憶部14bは、外部の端末装置やサーバーから物体検出装置3に画像データが入力されたときに、上記画像データを一時的に記憶してもよい。また、物体検出装置3に入力される画像は、入力画像記憶部14bに記憶されることなく、物体位置領域検出部11に直接入力される構成であってもよい。
クラス定義記憶部14cは、上述した第1のクラス定義(例えば20個のクラス)および第2のクラス定義(例えば5個のクラス)を記憶する。なお、クラス定義記憶部14cに記憶させる第1のクラス定義および第2のクラス定義は、後述する入力部15によって変更(更新)することが可能である。上記した物体位置領域検出部11は、クラス定義記憶部14cにアクセスすることにより、第1のクラス定義に基づいて物体の位置領域を検出することが可能となる。また、クラス識別部12は、クラス定義記憶部14cにアクセスすることにより、第2のクラス定義に基づいて物体のクラスを識別することが可能となる。
パラメータ記憶部14dは、物体位置領域検出部11およびクラス識別部12を構成するCNNの各ノードのパラメータ(重み)を記憶する。上記のパラメータは、CNNの学習ごとに更新され、パラメータ記憶部14dに記憶される。
入力部15は、例えばキーボード、マウス、タッチパッド、タッチパネルなどで構成され、ユーザによる各種の指示入力を受け付ける。表示部16は、各種の情報を表示するデバイスであり、例えば液晶表示装置で構成される。通信部17は、撮像部2および外部端末(例えば他の端末装置(スマートフォンなどの携帯端末を含む)、サーバー)と通信するためのインターフェースである。この通信部17は、入出力ポートのほか、アンテナ、送受信回路、変調回路、復調回路などを含んで構成される。読取部18は、記録媒体Rに記録された情報を読み取る装置であり、例えばディスクドライブで構成される。なお、記録媒体Rが可搬型の不揮発性メモリである場合、上記不揮発性メモリの接続部が指し込まれる接続ポートも読取部18に含まれるとする。
〔2.物体検出システムの動作〕
次に、本実施形態の物体検出システム1の動作について、学習時と推論時(物体検出時)とに分けて説明する。なお、以下での説明において、第1のクラス定義としては、上述の80クラス(例えば“Person”、“Bicycle”、“Car”、“Motorcycle”、“Airplane”、“Bus”、“Train”、“Truck”、“Boat”、“Traffic light”など)が定義されており、第2のクラス定義としては、上述の5クラス(例えば“Person”、“Car”、“Bus”、“Truck”、“Others”)が定義されているとする。
(学習時の動作)
図2は、物体検出システム1における学習時の処理の流れを示す説明図である。まず、学習に先立って、学習用のデータセットを用意する(S1)。上記データセットは、物体を含む画像のデータと、その物体の正解クラスを示すラベルとがセットになったものである。ここでは、80クラスの画像のデータを含むデータセットを用意するが、正解クラスの定義として、上記した第1のクラス定義と第2のクラス定義との2種類が存在する。したがって、例えば“Person”の画像に対する正解クラスは、第1のクラス定義でも第2のクラス定義でも“Person”であるが、“Bicycle”の画像に対する正解クラスは、第1のクラス定義では“Bicycle”であり、第2のクラス定義では“Others”である。なお、80クラスのそれぞれについて、データセットを複数用意してもよい。例えば、80クラスのうちの1クラスを構成する“Person”について、画像の異なる複数のデータセットを用意してもよい。
学習用のデータセットの画像を物体検出装置3に入力すると(S2)、物体位置領域検出部11は、上記画像から、第1のクラス定義に基づき、80個のクラスのいずれかに属する可能性のある物体の位置領域をCNNでのニューロ演算によって検出する(S3)。そして、クラス識別部12は、物体位置領域検出部11によって検出された位置領域にある物体のクラスが、第2のクラス定義で定義された5個のクラスのいずれに属するかを、CNNでのニューロ演算によって識別する(S4)。
その後、制御部19は、クラス識別部12から出力される情報に基づき、誤差逆伝播法(バックプロパゲーション)を用いて、物体位置領域検出部11およびクラス識別部12を構成するCNNの各ノードのパラメータを更新する(S5)。より詳しくは、制御部19は、第1のクラス定義で定義された正解クラスの物体について位置領域を検出するように、物体位置領域検出部11の各ノードのパラメータを更新するとともに、物体位置領域検出部11で検出された位置領域にある物体のクラスの識別結果として、第2のクラス定義で定義された正解クラスを出力するように、クラス識別部12の各ノードのパラメータを更新する。
(推論時の動作)
図3は、物体検出システム1における推論時の処理の一例を示す説明図である。例えば、撮像部2で取得された画像が物体検出装置3に入力されると(S11)、物体位置領域検出部11は、上記画像から、第1のクラス定義に基づき、80個のクラスのいずれかに属する可能性のある物体の位置領域を、CNNでのニューロ演算によって検出する(S12;物体位置領域検出工程)。
次に、クラス識別部12は、物体位置領域検出部11によって検出された位置領域にある物体のクラスが、第2のクラス定義で定義された5個のクラス(例えば“Person”、“Car”、“Bus”、“Truck”、“Others”)のいずれに属するかを、CNNでのニューロ演算によって識別し、識別したクラスの情報を、スコア付きで出力する(S13;クラス識別工程)。
物体検出結果出力部13は、クラス識別部12から出力されるクラス情報の中からスコアの最も高い物体のクラスを選択し、選択したクラスと、物体位置領域検出部11で検出された位置領域の情報とを、物体の検出結果として出力する(S14;物体検出結果出力工程)。物体検出結果出力部13から出力される物体の検出結果(位置領域の情報、クラス情報)については、例えば表示部16で表示させてもよいし、通信部17を介して外部に送信してもよい。
〔3.効果〕
本実施形態では、物体位置領域検出部11が第1のクラス定義に基づいて入力画像に含まれる物体の位置領域を検出し、クラス識別部12が第2のクラス定義に基づいて上記物体のクラスを識別する。この構成において、第2のクラス定義で定義されたクラスの数(例えば5個)は、第1のクラス定義で定義されたクラスの数(例えば80個)よりも少ない。また、第2のクラス定義で定義された複数のクラスは、第1のクラス定義で定義された複数のクラスの一部を集めて構成されている。
このように第1のクラス定義および第2のクラス定義が定義されているため、物体位置領域検出部11による位置領域の検出を、第1のクラス定義に基づいて多クラス(上記の例では80クラス)で行うことができる。これにより、画像から多様な物体の存在を検出することが可能となり、汎化性能を向上させて物体の検出性能を向上させることが可能となる。
また、クラス識別部12によるクラスの識別については、第2のクラス定義に基づき、第1のクラス定義で定義された複数のクラスのうちの特定の少クラス(上記の例では“Person”、“Car”、“Bus”、“Truck”、“Others”の5クラス)で行うことができる。このため、クラス識別部12の識別性能を、特定のクラス以外のクラスの識別のために割く必要がなくなる。その結果、上記特定のクラスについての識別性能を向上させることができる。逆に、クラス識別部12の識別性能を一定とする場合は、クラス識別部12の規模(例えばGPUの処理能力)を(多クラスの物体を識別可能とする構成に比べて)縮小させることが可能となる。
また、第2のクラス定義で定義された複数のクラスは、第1のクラス定義で定義された複数のクラスの一部と同一のクラス(上記の例では“Person”、“Car”、“Bus”、“Truck”の4クラス)と、第1のクラス定義で定義された複数のクラスにおける他の2以上のクラスをまとめたクラス(例えば“Others”)とを含む。この場合、クラス識別部12が第2のクラス定義に基づいて識別するクラスを、第1のクラス定義で定義された複数のクラスの一部と同一のクラスに絞って、そのクラスの識別性能を向上させることができる。また、第1のクラス定義で定義された複数のクラスにおける他の2以上のクラスについては、それらを1つのクラスとして識別するため、互いの区別(例えば“Bicycle”と“Motorcycle”との区別)を不要とすることができ、互いのクラスを区別するための学習も不要とすることができる。
また、物体位置領域検出部11は、ニューラルネットワークで構成されている。この場合、物体位置領域検出部11を機械学習させることにより、入力画像をもとに物体の位置領域をニューロ演算によって検出することが可能となる。また、機械学習によってニューラルネットワークのパラメータ(各ノードの重み)を更新することにより、位置領域の検出精度、つまり、物体の存在の有無の検出精度を向上させることが可能となる。
また、クラス識別部12は、ニューラルネットワークで構成されている。この場合、クラス識別部12を機械学習させることにより、物体のクラスをニューロ演算によって識別することが可能となる。また、機械学習によってニューラルネットワークのパラメータ(各ノードの重み)を更新することにより、クラスの識別精度を向上させることが可能となる。
また、本実施形態では、クラス識別部12は、物体位置領域検出部11による位置領域の検出後、クラスを識別している(図3参照)。この場合、クラス識別部12は、物体位置領域検出部11によって位置領域が検出された物体について、そのクラスを識別することができるため(物体らしいものについてのみクラスの識別ができるため)、物体の検出性能をさらに向上させることができる。
〔4.変形例〕
図4は、物体検出システム1における推論時の処理の他の例を示す説明図である。図4では、物体位置領域検出部11による位置領域の検出と同時に、クラス識別部12が画像に含まれる物体のクラスを識別する点以外は、図3と同様である。この構成では、クラス識別部12がクラスを識別する対象となる物体は、画像内で特定の位置領域に存在する物体ではなく、入力画像のどこかに存在する物体となるが、この場合でも、クラス識別部12を予め機械学習させておくことにより、推論時に入力画像内のどこかに位置する物体(位置領域が特定されていない物体)のクラスを識別することが可能となる。
このように、物体位置領域検出部11による位置領域の検出と、クラス識別部12による物体のクラスの識別とを同時に行うことにより、図3のようにそれらの処理を連続的に行う場合に比べて迅速な物体検出(検出結果の出力)を行うことが可能となる。
〔5.プログラムおよび記録媒体〕
上述した本実施形態の物体検出装置3は、例えば、所定のプログラム(アプリケーションソフトウェア)をインストールしたコンピュータ(PC)で構成することができる。上記プログラムをコンピュータ(例えばCPUとしての制御部19)が読み取って実行することにより、物体検出装置3の各部を動作させて上述した各処理(各工程)を実行させることができる。このようなプログラムは、例えばネットワークを介して外部からダウンロードすることによって取得されてプログラム記憶部14aに記憶される。また、上記プログラムは、例えばCD-ROM(Compact Disk-Read Only Memory)などのコンピュータ読取可能な記録媒体Rに記録され、この記録媒体Rから上記プログラムをコンピュータが読み取ってプログラム記憶部14aに記憶する形態であってもよい。
〔6.その他〕
以上の各実施の形態で説明した物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体は、以下のように表現されてもよい。
1.入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する物体位置領域検出部と、
予め複数のクラスが定義された第2のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別部と、
前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力部とを備え、
前記第2のクラス定義で定義されたクラスの数は、前記第1のクラス定義で定義されたクラスの数よりも少なく、
前記第2のクラス定義で定義された複数のクラスは、前記第1のクラス定義で定義された複数のクラスの一部を集めて構成されていることを特徴とする物体検出装置。
2.前記第2のクラス定義で定義された複数のクラスは、
前記第1のクラス定義で定義された複数のクラスの一部と同一のクラスと、
前記第1のクラス定義で定義された複数のクラスにおける他の2以上のクラスをまとめたクラスとを含むことを特徴とする前記1に記載の物体検出装置。
3.前記物体位置領域検出部は、ニューラルネットワークで構成されていることを特徴とする前記1または2に記載の物体検出装置。
4.前記クラス識別部は、ニューラルネットワークで構成されていることを特徴とする前記1から3のいずれかに記載の物体検出装置。
5.前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出後、前記クラスを識別することを特徴とする前記1から4のいずれかに記載の物体検出装置。
6.前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出と同時に、前記クラスを識別することを特徴とする前記1から4のいずれかに記載の物体検出装置。
7.前記1から6のいずれかに記載の物体検出装置と、
前記物体検出装置に入力される前記画像を取得する撮像部とを備えていることを特徴とする物体検出システム。
8.入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する物体位置領域検出工程と、
予め複数のクラスが定義された第2のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別工程と、
前記物体位置領域検出工程での検出結果と前記クラス識別工程での識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力工程とを含み、
前記第2のクラス定義で定義されたクラスの数は、前記第1のクラス定義で定義されたクラスの数よりも少なく、
前記第1のクラス定義で定義された各クラスは、前記第2のクラス定義で定義された各クラスのいずれかに含まれることを特徴とする物体検出方法。
9.前記第2のクラス定義で定義された複数のクラスは、
前記第1のクラス定義で定義された複数のクラスの一部と同一のクラスと、
前記第1のクラス定義で定義された複数のクラスにおける他の2以上のクラスをまとめたクラスとを含むことを特徴とする前記8に記載の物体検出方法。
10.前記物体位置領域検出工程では、ニューロ演算により、前記位置領域を検出することを特徴とする前記8または9に記載の物体検出方法。
11.前記クラス識別工程では、ニューロ演算により、前記クラスを識別することを特徴とする前記8から10のいずれかに記載の物体検出方法。
12.前記クラス識別工程を、前記物体位置領域検出工程の後に行うことを特徴とする前記8から11のいずれかに記載の物体検出方法。
13.前記クラス識別工程を、前記物体位置領域検出工程と同時に行うことを特徴とする前記8から11のいずれかに記載の物体検出方法。
14.前記8から13のいずれかに記載の物体検出方法をコンピュータに実行させるためのプログラム。
15.前記14に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。
以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で拡張または変更して実施することができる。
本発明は、入力される画像から、その画像に含まれる物体を検出するシステムに利用可能である。
1 物体検出システム
2 撮像部
3 物体検出装置
11 物体位置領域検出部
12 クラス識別部
13 物体検出結果出力部

Claims (11)

  1. 入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する物体位置領域検出部と、
    予め複数のクラスが定義された第2のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別部と、
    前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力部とを備え、
    前記第2のクラス定義で定義されたクラスの数は、前記第1のクラス定義で定義されたクラスの数よりも少なく、
    前記第2のクラス定義で定義された複数のクラスは、前記第1のクラス定義で定義された複数のクラスの一部を集めて構成されており、
    前記物体位置領域検出部は、ニューラルネットワークで構成されており、
    前記クラス識別部は、ニューラルネットワークで構成されている、物体検出装置。
  2. 前記第2のクラス定義で定義された複数のクラスは、
    前記第1のクラス定義で定義された複数のクラスの一部と同一のクラスと、
    前記第1のクラス定義で定義された複数のクラスにおける他の2以上のクラスをまとめたクラスとを含む、請求項1に記載の物体検出装置。
  3. 前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出後、前記クラスを識別する、請求項1または2に記載の物体検出装置。
  4. 前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出と同時に、前記クラスを識別する、請求項1から3のいずれかに記載の物体検出装置。
  5. 請求項1から4のいずれかに記載の物体検出装置と、
    前記物体検出装置に入力される前記画像を取得する撮像部とを備えている、物体検出システム。
  6. 入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第1のクラス定義に基づいて検出する物体位置領域検出工程と、
    予め複数のクラスが定義された第2のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別工程と、
    前記物体位置領域検出工程の検出結果と前記クラス識別工程の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力工程とを含み、
    前記第2のクラス定義で定義されたクラスの数は、前記第1のクラス定義で定義されたクラスの数よりも少なく、
    前記第2のクラス定義で定義された複数のクラスは、前記第1のクラス定義で定義された複数のクラスの一部を集めて構成されており、
    前記物体位置領域検出工程では、ニューロ演算により、前記位置領域を検出し、
    前記クラス識別工程では、ニューロ演算により、前記クラスを識別する、物体検出方法。
  7. 前記第2のクラス定義で定義された複数のクラスは、
    前記第1のクラス定義で定義された複数のクラスの一部と同一のクラスと、
    前記第1のクラス定義で定義された複数のクラスにおける他の2以上のクラスをまとめたクラスとを含む、請求項6に記載の物体検出方法。
  8. 前記クラス識別工程を、前記物体位置領域検出工程の後に行う、請求項6または7に記載の物体検出方法。
  9. 前記クラス識別工程を、前記物体位置領域検出工程と同時に行う、請求項6から8のいずれかに記載の物体検出方法。
  10. 請求項6から9のいずれかに記載の物体検出方法をコンピュータに実行させるためのプログラム。
  11. 請求項10に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。
JP2021520655A 2019-05-23 2020-04-15 物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体 Active JP7424374B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019096590 2019-05-23
JP2019096590 2019-05-23
PCT/JP2020/016569 WO2020235268A1 (ja) 2019-05-23 2020-04-15 物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JPWO2020235268A1 JPWO2020235268A1 (ja) 2020-11-26
JP7424374B2 true JP7424374B2 (ja) 2024-01-30

Family

ID=73458500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021520655A Active JP7424374B2 (ja) 2019-05-23 2020-04-15 物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体

Country Status (4)

Country Link
US (1) US20220215648A1 (ja)
EP (1) EP3975111A4 (ja)
JP (1) JP7424374B2 (ja)
WO (1) WO2020235268A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220207863A1 (en) * 2019-05-23 2022-06-30 Konica Minolta, Inc. Object detection device, object detection method, program, and recording medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015147333A1 (ja) 2014-03-28 2015-10-01 日本電気株式会社 売上登録装置、プログラム及び売上登録方法
JP2019032773A (ja) 2017-08-09 2019-02-28 キヤノン株式会社 画像処理装置、画像処理方法
JP2019036167A (ja) 2017-08-17 2019-03-07 キヤノン株式会社 画像処理装置、画像処理方法
JP2019049604A (ja) 2017-09-08 2019-03-28 国立研究開発法人情報通信研究機構 命令文推定システムおよび命令文推定方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4764273B2 (ja) * 2006-06-30 2011-08-31 キヤノン株式会社 画像処理装置、画像処理方法、プログラム、記憶媒体
JP2011081763A (ja) * 2009-09-09 2011-04-21 Sony Corp 情報処理装置、情報処理方法及び情報処理プログラム
JP5554987B2 (ja) 2009-12-28 2014-07-23 キヤノン株式会社 オブジェクト識別装置及びその制御方法
JP5786495B2 (ja) 2011-06-30 2015-09-30 富士通株式会社 画像認識装置、画像認識方法及び画像認識用コンピュータプログラム
US10074041B2 (en) 2015-04-17 2018-09-11 Nec Corporation Fine-grained image classification by exploring bipartite-graph labels
US10410096B2 (en) 2015-07-09 2019-09-10 Qualcomm Incorporated Context-based priors for object detection in images
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US10353950B2 (en) * 2016-06-28 2019-07-16 Google Llc Visual recognition using user tap locations
WO2018121013A1 (en) * 2016-12-29 2018-07-05 Zhejiang Dahua Technology Co., Ltd. Systems and methods for detecting objects in images
JP6615800B2 (ja) * 2017-01-11 2019-12-04 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP7142420B2 (ja) 2017-07-10 2022-09-27 キヤノン株式会社 画像処理装置、学習方法、学習済モデル、画像処理方法
US11087130B2 (en) * 2017-12-29 2021-08-10 RetailNext, Inc. Simultaneous object localization and attribute classification using multitask deep neural networks
US10762662B2 (en) * 2018-03-14 2020-09-01 Tata Consultancy Services Limited Context based position estimation of target of interest in videos
US11100325B2 (en) * 2018-12-07 2021-08-24 International Business Machines Corporation Photographic results by composition analysis using deep learning neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015147333A1 (ja) 2014-03-28 2015-10-01 日本電気株式会社 売上登録装置、プログラム及び売上登録方法
JP2019032773A (ja) 2017-08-09 2019-02-28 キヤノン株式会社 画像処理装置、画像処理方法
JP2019036167A (ja) 2017-08-17 2019-03-07 キヤノン株式会社 画像処理装置、画像処理方法
JP2019049604A (ja) 2017-09-08 2019-03-28 国立研究開発法人情報通信研究機構 命令文推定システムおよび命令文推定方法

Also Published As

Publication number Publication date
US20220215648A1 (en) 2022-07-07
WO2020235268A1 (ja) 2020-11-26
EP3975111A1 (en) 2022-03-30
EP3975111A4 (en) 2022-07-20
JPWO2020235268A1 (ja) 2020-11-26

Similar Documents

Publication Publication Date Title
EP3488387B1 (en) Method for detecting object in image and objection detection system
Singh et al. Image classification: a survey
US20230085687A1 (en) Machine learning prediction and document rendering improvement based on content order
WO2020047854A1 (en) Detecting objects in video frames using similarity detectors
EP3702953B1 (en) Electronic device for obfuscating and decoding data and method for controlling same
CN110378346A (zh) 建立文字识别模型的方法、装置、设备和计算机存储介质
US11899787B2 (en) Information processing system, inference method, attack detection method, inference execution program and attack detection program
LU101705B1 (en) Document control item
US20240037186A1 (en) Video domain adaptation via contrastive learning
JP7491308B2 (ja) 物体検出装置、物体検出方法、プログラムおよび記録媒体
JP7424374B2 (ja) 物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体
Ramah et al. One step further towards real-time driving maneuver recognition using phone sensors
US20220114255A1 (en) Machine learning fraud resiliency using perceptual descriptors
TW202303456A (zh) 最佳化神經網路模型的方法
CN113570512A (zh) 一种图像数据处理方法、计算机及可读存储介质
US11568303B2 (en) Electronic apparatus and control method thereof
US11481602B2 (en) System and method for hierarchical category classification of products
JP2023540933A (ja) 多様な人分析のための勾配分割によるマルチタスク学習
JP6826389B2 (ja) 推定装置、推定方法、及び推定プログラム
KR102428325B1 (ko) 인공지능 기반의 그림 테스트를 이용한 인지장애 판별 방법 및 장치
JP2020140488A (ja) 情報処理装置、情報処理方法及びプログラム
JP7270127B2 (ja) 分類システム、分類方法、及びプログラム
US20230385546A1 (en) System and method for context insertion for contrastive siamese network training
WO2017183280A1 (ja) 画像認識装置及びプログラム
KR20230084661A (ko) 다중 필터링을 이용한 개인정보 탐지 강화 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240101

R150 Certificate of patent or registration of utility model

Ref document number: 7424374

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150