JP7424374B2

JP7424374B2 - 物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体

Info

Publication number: JP7424374B2
Application number: JP2021520655A
Authority: JP
Inventors: 文平田路
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-05-23
Filing date: 2020-04-15
Publication date: 2024-01-30
Anticipated expiration: 2040-04-15
Also published as: US20220215648A1; WO2020235268A1; EP3975111A1; EP3975111A4; JPWO2020235268A1

Description

本発明は、入力される画像から、その画像に含まれる物体を検出する物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体に関する。

従来から、入力される画像に含まれる物体を検出する技術が開発されている。物体検出は、ロボットの目としての機能を実現する上で重要な技術である。物体検出に関する研究は、画像から顔を検出したり、人物を検出するなど、検出対象を特定した物体検出から行われてきている。近年では、機械学習や深層学習（Deep Learning）を利用して、物体を検出する技術も提案されている（例えば特許文献１～５参照）。

特開２０１９－１６２９８号公報特開２０１３－１２１６３号公報特開２０１１－１３８３８７号公報特表２０１８－５２６７２３号公報特表２０１８－５１３４９１号公報

ところで、機械学習を利用する場合、画像に含まれる物体の位置領域を検出する物体位置領域検出部と、上記物体のクラス（種類）を識別するクラス識別部とを、多種（多クラス）のデータを用いて予め学習させておくことにより、推論時には、多クラスの物体を検出することが可能となる。しかし、位置領域の検出およびクラスの識別を両方とも多クラスで行うようにすると、特定のクラスの識別性能が低下する問題がある。

例えば、物体として、人、車、トラック、バス、自転車、自動二輪の６クラスのみを識別対象とするアプリケーションを想定したとする。このようなアプリケーションにおいて、物体の位置領域の検出およびクラスの識別を両方とも８０クラスについて行えるようにすると、クラス識別部に対して、６クラスのみを識別対象としているにもかかわらず、８０クラスを識別するための学習を行うことが必要となる。この場合、クラス識別部の規模（処理容量）を一定としたときに、クラス識別部の識別性能が、識別対象である６クラス以外の７４クラスにも割かれることになり、その結果、識別対象（６クラス）の識別性能が低下する。

一方、識別対象の識別性能の低下を回避すべく、物体位置領域検出部の学習とクラス識別部の学習とを両方とも、６クラス分のデータを用いて行うと、物体位置領域検出部およびクラス識別部が、限られた６クラスの特徴のみを学習することによって、過学習に陥りやすくなり、汎化性能が低下しやすくなる。例えば識別対象のクラスと似た特徴をもつ別クラスの物体を誤検出しやすくなる（例えば画像に含まれる「列車」を「バス」と検出する場合がある）。このような汎化性能の低下は、物体の検出性能の低下につながる。

そこで、特定のクラスについての識別性能の低下を回避するとともに、汎化性能の低下による物体の検出性能の低下を回避する技術が必要となるが、このような技術は、特許文献１～５を含めて未だ提案されていない。

本発明は、上記の問題点を解決するためになされたもので、その目的は、特定のクラスについての識別性能を向上させるとともに、汎化性能を向上させて物体の検出性能を向上させることができる物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体を提供することにある。

本発明の一側面に係る物体検出装置は、入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する物体位置領域検出部と、予め複数のクラスが定義された第２のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別部と、前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力部とを備え、前記第２のクラス定義で定義されたクラスの数は、前記第１のクラス定義で定義されたクラスの数よりも少なく、前記第２のクラス定義で定義された複数のクラスは、前記第１のクラス定義で定義された複数のクラスの一部を集めて構成されている。

本発明の他の側面に係る物体検出システムは、前記物体検出装置と、前記物体検出装置に入力される前記画像を取得する撮像部とを備えている。

本発明のさらに他の側面に係る物体検出方法は、入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する物体位置領域検出工程と、予め複数のクラスが定義された第２のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別工程と、前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力工程とを含み、前記第２のクラス定義で定義されたクラスの数は、前記第１のクラス定義で定義されたクラスの数よりも少なく、前記第２のクラス定義で定義された複数のクラスは、前記第１のクラス定義で定義された複数のクラスの一部を集めて構成されている。

本発明のさらに他の側面に係るプログラムは、上記物体検出方法をコンピュータに実行させるためのプログラムである。

本発明のさらに他の側面に係る記録媒体は、上記プログラムを記録した、コンピュータ読取可能な記録媒体である。

第１のクラス定義で定義されたクラスの数は、第２のクラス定義で定義されたクラスの数よりも相対的に多いため、第１のクラス定義に基づき、画像中の物体の位置領域の検出を多クラスについて行うことができる。これにより、汎化性能を向上させて物体の検出性能を向上させることができる。また、クラスの識別については、第２のクラス定義に基づいて特定の少クラスで識別を行い、それ以外のクラスの識別を不要とすることができるため、特定の少クラスについての識別性能を向上させることができる。

本発明の実施の一形態の物体検出システムの全体の構成を模式的に示すブロック図である。上記物体検出システムにおける学習時の処理の流れを示す説明図である。上記物体検出システムにおける推論時の処理の一例を示す説明図である。上記物体検出システムにおける推論時の処理の他の例を示す説明図である。

本発明の実施の一形態について、図面に基づいて説明すれば、以下の通りである。

〔１．物体検出システムの構成〕
図１は、本実施形態の物体検出システム１の全体の構成を模式的に示すブロック図である。物体検出システム１は、撮像部２と、物体検出装置３とを含んで構成される。撮像部２は、物体を撮影して画像を取得するカメラで構成されている。上記画像は、例えば動画であるが、静止画であってもよい。物体検出システム１に含まれる撮像部２の台数は特に制限されず、１台であってもよいし、複数台であってもよい。

撮像部２は、有線ケーブルやＬＡＮ（Local Area Network）などの通信回線を介して物体検出装置３と通信可能に接続されている。なお、撮像部２は、物体検出装置３と無線通信可能に構成されていてもよい。いずれにしても、撮像部２での撮影によって取得された画像のデータは、通信回線を介して物体検出装置３に送られる。

物体検出装置３は、例えばパーソナルコンピュータ（ＰＣ）で構成されている。この物体検出装置３は、物体位置領域検出部１１と、クラス識別部１２と、物体検出結果出力部１３と、記憶部１４と、入力部１５と、表示部１６と、通信部１７と、読取部１８と、制御部１９とを有している。制御部１９は、物体検出装置３の各部の動作を制御する中央演算処理装置（ＣＰＵ；Central Processing Unit）で構成されており、記憶部１４のプログラム記憶部１４ａに記憶された動作プログラムに従って動作する。

物体位置領域検出部１１は、入力される画像から、その画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する。ここで、「入力される画像」とは、例えば、撮像部２から物体検出装置３に入力される画像を考えることができるが、この画像に限定されるわけではなく、その他にも、外部の端末装置やサーバーから通信回線を介して物体検出装置３に入力される画像を考えることもできる。

物体位置領域検出部１１は、例えばＧＰＵ（Graphics Processing Unit）で構成されている。ＧＰＵは、リアルタイムな画像処理に特化した演算装置（プロセッサ）である。物体位置領域検出部１１をＧＰＵで構成することにより、ＧＰＵにおいて畳み込み型ニューラルネットワーク（ＣＮＮ；Convolutional Neural Network）などの機械学習が可能なニューラルネットワークを構築し、このニューラルネットワークを物体位置領域検出部１１として機能させることが可能となる。

本実施形態では、上記第１のクラス定義として、例えば８０個のクラスが定義されている。上記８０個のクラスには、例えば“Person”、“Bicycle”、“Car”、“Motorcycle”、“Airplane”、“Bus”、“Train”、“Truck”、“Boat”、“Traffic light”、などのクラスが含まれている。物体位置領域検出部１１は、入力画像から、第１のクラス定義で定義されたクラスに属する可能性のある物体の位置領域を検出するように、予め学習されている（ＣＮＮを構成する各ノードのパラメータ（重み）が予め設定されている）。これにより、物体位置領域検出部１１は、実際に外部から画像が入力されたときに、第１のクラス定義に基づき、入力された画像から、“Person”らしい物体、“Bicycle”らしい物体等の位置領域を検出することが可能となる。

クラス識別部１２は、予め複数のクラスが定義された第２のクラス定義に基づいて、入力された画像に含まれる物体が複数のクラスのいずれに属するかを識別する。このようなクラス識別部１２は、物体位置領域検出部１１と同様に、ＧＰＵで構成されている。これにより、ＧＰＵにおいてＣＮＮなどの機械学習が可能なニューラルネットワークを構築し、このニューラルネットワークをクラス識別部１２として機能させることが可能となる。

本実施形態では、上記第２のクラス定義として、例えば５個のクラスが定義されている。上記５個のクラスは、例えば“Person”、“Car”、“Bus”、“Truck”、“Others”である。つまり、第２のクラス定義で定義されたクラスの数は、第１のクラス定義で定義されたクラスの数よりも少ない。

ここで、第２のクラス定義で定義された複数のクラスのうち、“Person”、“Car”、“Bus”、“Truck”は、第１のクラス定義で定義されたクラスと同一である。また、第２のクラス定義で定義された“Others”は、ここでは、第１のクラス定義で定義された複数のクラスのうち、“Person”、“Car”、“Bus”、“Truck”以外のクラスをまとめたクラスを指す。したがって、第２のクラス定義で定義された複数のクラスは、第１のクラス定義で定義された複数のクラスの一部と同一のクラス（上記の例では、“Person”、“Car”、“Bus”、“Truck”）と、第１のクラス定義で定義された複数のクラスにおける他の２以上のクラスをまとめたクラス（上記の例では、“Others”）とを含むと言える。

また、第２のクラス定義で定義された複数のクラス（“Person”、“Car”、“Bus”、“Truck”、“Others”）は、第１のクラス定義で定義された８０個のクラスの一部（“Person”、“Car”、“Bus”、“Truck”、他の２以上のクラス）を集めて構成されている。つまり、第２のクラス定義で定義された複数のクラスは、第２のクラス定義で定義された複数のクラスの一部の集合（部分集合）である。

クラス識別部１２は、入力画像に含まれる物体が属するクラスを第２のクラス定義に基づいて識別するように、予め学習されている（ＣＮＮを構成する各ノードのパラメータ（重み）が予め設定されている）。これにより、クラス識別部１２は、実際に外部から画像が入力されたときに、第２のクラス定義に基づいて、入力画像に含まれる物体（物体位置領域検出部１１によって位置領域が既に検出された物体を含む）が第２のクラス定義で定義されたクラスのいずれに属するかを識別することが可能となる。

本実施形態では、クラス識別部１２はＣＮＮで構成されているため、クラス識別部１２からは、物体が属するクラスの識別結果だけでなく、そのクラスの尤度（確からしさ）を示すスコアも出力される。例えば、物体が“Person”である確からしさは０．８であり、“Car”である確からしさは０．２である、などの情報（スコア付きクラス情報）が、クラス識別部１２から出力される。

物体検出結果出力部１３は、物体位置領域検出部１１の検出結果とクラス識別部１２の識別結果とに基づいて、物体の検出結果を出力する。例えば、物体位置領域検出部１１で検出された位置領域にある物体について、その物体が“Person”である確からしさは０．８であり、“Car”である確からしさは０．２である、という情報がクラス識別部１２から出力されたとき、物体検出結果出力部１３は、上記位置領域の情報と、上記位置領域にある物体が（“Car”ではなく）“Person”であるという識別結果とを物体の検出結果として出力する。このような物体検出結果出力部１３は、例えば制御部１９と同一の、または別個のＣＰＵで構成されている。

記憶部１４は、各種の情報を記憶するメモリであり、例えばハードディスクで構成されるが、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）などをさらに含んで構成されてもよい。この記憶部１４は、プログラム記憶部１４ａと、入力画像記憶部１４ｂと、クラス定義記憶部１４ｃと、パラメータ記憶部１４ｄとを有している。

プログラム記憶部１４ａは、物体検出装置３の各部を動作させるための動作プログラムを記憶する。入力画像記憶部１４ｂは、例えば撮像部２で取得され、物体検出装置３に入力された画像のデータを一次的に記憶する。なお、入力画像記憶部１４ｂは、外部の端末装置やサーバーから物体検出装置３に画像データが入力されたときに、上記画像データを一時的に記憶してもよい。また、物体検出装置３に入力される画像は、入力画像記憶部１４ｂに記憶されることなく、物体位置領域検出部１１に直接入力される構成であってもよい。

クラス定義記憶部１４ｃは、上述した第１のクラス定義（例えば２０個のクラス）および第２のクラス定義（例えば５個のクラス）を記憶する。なお、クラス定義記憶部１４ｃに記憶させる第１のクラス定義および第２のクラス定義は、後述する入力部１５によって変更（更新）することが可能である。上記した物体位置領域検出部１１は、クラス定義記憶部１４ｃにアクセスすることにより、第１のクラス定義に基づいて物体の位置領域を検出することが可能となる。また、クラス識別部１２は、クラス定義記憶部１４ｃにアクセスすることにより、第２のクラス定義に基づいて物体のクラスを識別することが可能となる。

パラメータ記憶部１４ｄは、物体位置領域検出部１１およびクラス識別部１２を構成するＣＮＮの各ノードのパラメータ（重み）を記憶する。上記のパラメータは、ＣＮＮの学習ごとに更新され、パラメータ記憶部１４ｄに記憶される。

入力部１５は、例えばキーボード、マウス、タッチパッド、タッチパネルなどで構成され、ユーザによる各種の指示入力を受け付ける。表示部１６は、各種の情報を表示するデバイスであり、例えば液晶表示装置で構成される。通信部１７は、撮像部２および外部端末（例えば他の端末装置（スマートフォンなどの携帯端末を含む）、サーバー）と通信するためのインターフェースである。この通信部１７は、入出力ポートのほか、アンテナ、送受信回路、変調回路、復調回路などを含んで構成される。読取部１８は、記録媒体Ｒに記録された情報を読み取る装置であり、例えばディスクドライブで構成される。なお、記録媒体Ｒが可搬型の不揮発性メモリである場合、上記不揮発性メモリの接続部が指し込まれる接続ポートも読取部１８に含まれるとする。

〔２．物体検出システムの動作〕
次に、本実施形態の物体検出システム１の動作について、学習時と推論時（物体検出時）とに分けて説明する。なお、以下での説明において、第１のクラス定義としては、上述の８０クラス（例えば“Person”、“Bicycle”、“Car”、“Motorcycle”、“Airplane”、“Bus”、“Train”、“Truck”、“Boat”、“Traffic light”など）が定義されており、第２のクラス定義としては、上述の５クラス（例えば“Person”、“Car”、“Bus”、“Truck”、“Others”）が定義されているとする。

（学習時の動作）
図２は、物体検出システム１における学習時の処理の流れを示す説明図である。まず、学習に先立って、学習用のデータセットを用意する（Ｓ１）。上記データセットは、物体を含む画像のデータと、その物体の正解クラスを示すラベルとがセットになったものである。ここでは、８０クラスの画像のデータを含むデータセットを用意するが、正解クラスの定義として、上記した第１のクラス定義と第２のクラス定義との２種類が存在する。したがって、例えば“Person”の画像に対する正解クラスは、第１のクラス定義でも第２のクラス定義でも“Person”であるが、“Bicycle”の画像に対する正解クラスは、第１のクラス定義では“Bicycle”であり、第２のクラス定義では“Others”である。なお、８０クラスのそれぞれについて、データセットを複数用意してもよい。例えば、８０クラスのうちの１クラスを構成する“Person”について、画像の異なる複数のデータセットを用意してもよい。

学習用のデータセットの画像を物体検出装置３に入力すると（Ｓ２）、物体位置領域検出部１１は、上記画像から、第１のクラス定義に基づき、８０個のクラスのいずれかに属する可能性のある物体の位置領域をＣＮＮでのニューロ演算によって検出する（Ｓ３）。そして、クラス識別部１２は、物体位置領域検出部１１によって検出された位置領域にある物体のクラスが、第２のクラス定義で定義された５個のクラスのいずれに属するかを、ＣＮＮでのニューロ演算によって識別する（Ｓ４）。

その後、制御部１９は、クラス識別部１２から出力される情報に基づき、誤差逆伝播法（バックプロパゲーション）を用いて、物体位置領域検出部１１およびクラス識別部１２を構成するＣＮＮの各ノードのパラメータを更新する（Ｓ５）。より詳しくは、制御部１９は、第１のクラス定義で定義された正解クラスの物体について位置領域を検出するように、物体位置領域検出部１１の各ノードのパラメータを更新するとともに、物体位置領域検出部１１で検出された位置領域にある物体のクラスの識別結果として、第２のクラス定義で定義された正解クラスを出力するように、クラス識別部１２の各ノードのパラメータを更新する。

（推論時の動作）
図３は、物体検出システム１における推論時の処理の一例を示す説明図である。例えば、撮像部２で取得された画像が物体検出装置３に入力されると（Ｓ１１）、物体位置領域検出部１１は、上記画像から、第１のクラス定義に基づき、８０個のクラスのいずれかに属する可能性のある物体の位置領域を、ＣＮＮでのニューロ演算によって検出する（Ｓ１２；物体位置領域検出工程）。

次に、クラス識別部１２は、物体位置領域検出部１１によって検出された位置領域にある物体のクラスが、第２のクラス定義で定義された５個のクラス（例えば“Person”、“Car”、“Bus”、“Truck”、“Others”）のいずれに属するかを、ＣＮＮでのニューロ演算によって識別し、識別したクラスの情報を、スコア付きで出力する（Ｓ１３；クラス識別工程）。

物体検出結果出力部１３は、クラス識別部１２から出力されるクラス情報の中からスコアの最も高い物体のクラスを選択し、選択したクラスと、物体位置領域検出部１１で検出された位置領域の情報とを、物体の検出結果として出力する（Ｓ１４；物体検出結果出力工程）。物体検出結果出力部１３から出力される物体の検出結果（位置領域の情報、クラス情報）については、例えば表示部１６で表示させてもよいし、通信部１７を介して外部に送信してもよい。

〔３．効果〕
本実施形態では、物体位置領域検出部１１が第１のクラス定義に基づいて入力画像に含まれる物体の位置領域を検出し、クラス識別部１２が第２のクラス定義に基づいて上記物体のクラスを識別する。この構成において、第２のクラス定義で定義されたクラスの数（例えば５個）は、第１のクラス定義で定義されたクラスの数（例えば８０個）よりも少ない。また、第２のクラス定義で定義された複数のクラスは、第１のクラス定義で定義された複数のクラスの一部を集めて構成されている。

このように第１のクラス定義および第２のクラス定義が定義されているため、物体位置領域検出部１１による位置領域の検出を、第１のクラス定義に基づいて多クラス（上記の例では８０クラス）で行うことができる。これにより、画像から多様な物体の存在を検出することが可能となり、汎化性能を向上させて物体の検出性能を向上させることが可能となる。

また、クラス識別部１２によるクラスの識別については、第２のクラス定義に基づき、第１のクラス定義で定義された複数のクラスのうちの特定の少クラス（上記の例では“Person”、“Car”、“Bus”、“Truck”、“Others”の５クラス）で行うことができる。このため、クラス識別部１２の識別性能を、特定のクラス以外のクラスの識別のために割く必要がなくなる。その結果、上記特定のクラスについての識別性能を向上させることができる。逆に、クラス識別部１２の識別性能を一定とする場合は、クラス識別部１２の規模（例えばＧＰＵの処理能力）を（多クラスの物体を識別可能とする構成に比べて）縮小させることが可能となる。

また、第２のクラス定義で定義された複数のクラスは、第１のクラス定義で定義された複数のクラスの一部と同一のクラス（上記の例では“Person”、“Car”、“Bus”、“Truck”の４クラス）と、第１のクラス定義で定義された複数のクラスにおける他の２以上のクラスをまとめたクラス（例えば“Others”）とを含む。この場合、クラス識別部１２が第２のクラス定義に基づいて識別するクラスを、第１のクラス定義で定義された複数のクラスの一部と同一のクラスに絞って、そのクラスの識別性能を向上させることができる。また、第１のクラス定義で定義された複数のクラスにおける他の２以上のクラスについては、それらを１つのクラスとして識別するため、互いの区別（例えば“Bicycle”と“Motorcycle”との区別）を不要とすることができ、互いのクラスを区別するための学習も不要とすることができる。

また、物体位置領域検出部１１は、ニューラルネットワークで構成されている。この場合、物体位置領域検出部１１を機械学習させることにより、入力画像をもとに物体の位置領域をニューロ演算によって検出することが可能となる。また、機械学習によってニューラルネットワークのパラメータ（各ノードの重み）を更新することにより、位置領域の検出精度、つまり、物体の存在の有無の検出精度を向上させることが可能となる。

また、クラス識別部１２は、ニューラルネットワークで構成されている。この場合、クラス識別部１２を機械学習させることにより、物体のクラスをニューロ演算によって識別することが可能となる。また、機械学習によってニューラルネットワークのパラメータ（各ノードの重み）を更新することにより、クラスの識別精度を向上させることが可能となる。

また、本実施形態では、クラス識別部１２は、物体位置領域検出部１１による位置領域の検出後、クラスを識別している（図３参照）。この場合、クラス識別部１２は、物体位置領域検出部１１によって位置領域が検出された物体について、そのクラスを識別することができるため（物体らしいものについてのみクラスの識別ができるため）、物体の検出性能をさらに向上させることができる。

〔４．変形例〕
図４は、物体検出システム１における推論時の処理の他の例を示す説明図である。図４では、物体位置領域検出部１１による位置領域の検出と同時に、クラス識別部１２が画像に含まれる物体のクラスを識別する点以外は、図３と同様である。この構成では、クラス識別部１２がクラスを識別する対象となる物体は、画像内で特定の位置領域に存在する物体ではなく、入力画像のどこかに存在する物体となるが、この場合でも、クラス識別部１２を予め機械学習させておくことにより、推論時に入力画像内のどこかに位置する物体（位置領域が特定されていない物体）のクラスを識別することが可能となる。

このように、物体位置領域検出部１１による位置領域の検出と、クラス識別部１２による物体のクラスの識別とを同時に行うことにより、図３のようにそれらの処理を連続的に行う場合に比べて迅速な物体検出（検出結果の出力）を行うことが可能となる。

〔５．プログラムおよび記録媒体〕
上述した本実施形態の物体検出装置３は、例えば、所定のプログラム（アプリケーションソフトウェア）をインストールしたコンピュータ（ＰＣ）で構成することができる。上記プログラムをコンピュータ（例えばＣＰＵとしての制御部１９）が読み取って実行することにより、物体検出装置３の各部を動作させて上述した各処理（各工程）を実行させることができる。このようなプログラムは、例えばネットワークを介して外部からダウンロードすることによって取得されてプログラム記憶部１４ａに記憶される。また、上記プログラムは、例えばＣＤ－ＲＯＭ（Compact Disk-Read Only Memory）などのコンピュータ読取可能な記録媒体Ｒに記録され、この記録媒体Ｒから上記プログラムをコンピュータが読み取ってプログラム記憶部１４ａに記憶する形態であってもよい。

〔６．その他〕
以上の各実施の形態で説明した物体検出装置、物体検出システム、物体検出方法、プログラムおよび記録媒体は、以下のように表現されてもよい。

１．入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する物体位置領域検出部と、
予め複数のクラスが定義された第２のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別部と、
前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力部とを備え、
前記第２のクラス定義で定義されたクラスの数は、前記第１のクラス定義で定義されたクラスの数よりも少なく、
前記第２のクラス定義で定義された複数のクラスは、前記第１のクラス定義で定義された複数のクラスの一部を集めて構成されていることを特徴とする物体検出装置。

２．前記第２のクラス定義で定義された複数のクラスは、
前記第１のクラス定義で定義された複数のクラスの一部と同一のクラスと、
前記第１のクラス定義で定義された複数のクラスにおける他の２以上のクラスをまとめたクラスとを含むことを特徴とする前記１に記載の物体検出装置。

３．前記物体位置領域検出部は、ニューラルネットワークで構成されていることを特徴とする前記１または２に記載の物体検出装置。

４．前記クラス識別部は、ニューラルネットワークで構成されていることを特徴とする前記１から３のいずれかに記載の物体検出装置。

５．前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出後、前記クラスを識別することを特徴とする前記１から４のいずれかに記載の物体検出装置。

６．前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出と同時に、前記クラスを識別することを特徴とする前記１から４のいずれかに記載の物体検出装置。

７．前記１から６のいずれかに記載の物体検出装置と、
前記物体検出装置に入力される前記画像を取得する撮像部とを備えていることを特徴とする物体検出システム。

８．入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する物体位置領域検出工程と、
予め複数のクラスが定義された第２のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別工程と、
前記物体位置領域検出工程での検出結果と前記クラス識別工程での識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力工程とを含み、
前記第２のクラス定義で定義されたクラスの数は、前記第１のクラス定義で定義されたクラスの数よりも少なく、
前記第１のクラス定義で定義された各クラスは、前記第２のクラス定義で定義された各クラスのいずれかに含まれることを特徴とする物体検出方法。

９．前記第２のクラス定義で定義された複数のクラスは、
前記第１のクラス定義で定義された複数のクラスの一部と同一のクラスと、
前記第１のクラス定義で定義された複数のクラスにおける他の２以上のクラスをまとめたクラスとを含むことを特徴とする前記８に記載の物体検出方法。

１０．前記物体位置領域検出工程では、ニューロ演算により、前記位置領域を検出することを特徴とする前記８または９に記載の物体検出方法。

１１．前記クラス識別工程では、ニューロ演算により、前記クラスを識別することを特徴とする前記８から１０のいずれかに記載の物体検出方法。

１２．前記クラス識別工程を、前記物体位置領域検出工程の後に行うことを特徴とする前記８から１１のいずれかに記載の物体検出方法。

１３．前記クラス識別工程を、前記物体位置領域検出工程と同時に行うことを特徴とする前記８から１１のいずれかに記載の物体検出方法。

１４．前記８から１３のいずれかに記載の物体検出方法をコンピュータに実行させるためのプログラム。

１５．前記１４に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。

以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で拡張または変更して実施することができる。

本発明は、入力される画像から、その画像に含まれる物体を検出するシステムに利用可能である。

１物体検出システム
２撮像部
３物体検出装置
１１物体位置領域検出部
１２クラス識別部
１３物体検出結果出力部

Claims

入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する物体位置領域検出部と、
予め複数のクラスが定義された第２のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別部と、
前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力部とを備え、
前記第２のクラス定義で定義されたクラスの数は、前記第１のクラス定義で定義されたクラスの数よりも少なく、
前記第２のクラス定義で定義された複数のクラスは、前記第１のクラス定義で定義された複数のクラスの一部を集めて構成されており、
前記物体位置領域検出部は、ニューラルネットワークで構成されており、
前記クラス識別部は、ニューラルネットワークで構成されている、物体検出装置。
前記第２のクラス定義で定義された複数のクラスは、
前記第１のクラス定義で定義された複数のクラスの一部と同一のクラスと、
前記第１のクラス定義で定義された複数のクラスにおける他の２以上のクラスをまとめたクラスとを含む、請求項１に記載の物体検出装置。
前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出後、前記クラスを識別する、請求項１または２に記載の物体検出装置。
前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出と同時に、前記クラスを識別する、請求項１から３のいずれかに記載の物体検出装置。
請求項１から４のいずれかに記載の物体検出装置と、
前記物体検出装置に入力される前記画像を取得する撮像部とを備えている、物体検出システム。
入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する物体位置領域検出工程と、
予め複数のクラスが定義された第２のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別工程と、
前記物体位置領域検出工程の検出結果と前記クラス識別工程の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力工程とを含み、
前記第２のクラス定義で定義されたクラスの数は、前記第１のクラス定義で定義されたクラスの数よりも少なく、
前記第２のクラス定義で定義された複数のクラスは、前記第１のクラス定義で定義された複数のクラスの一部を集めて構成されており、
前記物体位置領域検出工程では、ニューロ演算により、前記位置領域を検出し、
前記クラス識別工程では、ニューロ演算により、前記クラスを識別する、物体検出方法。
前記第２のクラス定義で定義された複数のクラスは、
前記第１のクラス定義で定義された複数のクラスの一部と同一のクラスと、
前記第１のクラス定義で定義された複数のクラスにおける他の２以上のクラスをまとめたクラスとを含む、請求項６に記載の物体検出方法。
前記クラス識別工程を、前記物体位置領域検出工程の後に行う、請求項６または７に記載の物体検出方法。
前記クラス識別工程を、前記物体位置領域検出工程と同時に行う、請求項６から８のいずれかに記載の物体検出方法。
請求項６から９のいずれかに記載の物体検出方法をコンピュータに実行させるためのプログラム。
請求項１０に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。