JP7491308B2

JP7491308B2 - 物体検出装置、物体検出方法、プログラムおよび記録媒体

Info

Publication number: JP7491308B2
Application number: JP2021520656A
Authority: JP
Inventors: 文平田路
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2019-05-23
Filing date: 2020-04-15
Publication date: 2024-05-28
Anticipated expiration: 2040-04-15
Also published as: JPWO2020235269A1; EP3975112A1; EP3975112A4; US20220207863A1; WO2020235269A1

Description

本発明は、入力される画像から、その画像に含まれる物体を検出する物体検出装置、物体検出方法、プログラムおよび記録媒体に関する。

従来から、入力される画像に含まれる物体を検出する技術が開発されている。物体検出は、ロボットの目としての機能を実現する上で重要な技術である。物体検出に関する研究は、画像から顔を検出したり、人物を検出するなど、検出対象を特定した物体検出から行われてきている。近年では、機械学習や深層学習（Deep Learning）を利用して、物体を検出する技術も提案されている（例えば特許文献１～５参照）。

特開２０１９－１６２９８号公報特開２０１３－１２１６３号公報特開２０１１－１３８３８７号公報特表２０１８－５２６７２３号公報特表２０１８－５１３４９１号公報

ところで、機械学習を利用する場合、画像に含まれる物体の位置領域を検出する物体位置領域検出部と、上記物体のクラス（種類）を識別するクラス識別部とを、多種（多クラス）のデータを用いて予め学習させておくことにより、推論時には、多クラスの物体を検出することが可能となる。しかし、多クラスの物体の検出結果をそのまま出力することは、用途によっては有効とならない場合がある。

例えば、道路を撮影した画像に基づく交通量調査において、道路を通る物体として、“Person”、“Vehicle”、“Animal”のそれぞれを計数することだけを目的とする場合、“Person”、“Vehicle”、“Animal”という大きなクラスの検出が必要であり、そのときに、例えば“Vehicle”の小クラスである“Car”、“Bus”、“Truck”の区別は不要である。したがって、このような用途では、細かい多クラスの物体についての検出結果（上記の例では“Car”、“Bus”等の情報）を出力することは有効ではない。

一方、上記の物体位置領域検出部とクラス識別部とを、クラス数の少ないデータを用いて予め学習させておくことにより、推論時に、少ないクラスについて物体を検出し、その検出結果を出力することができる。このような学習方法は、細かい多クラスの物体の検出結果を必要としない上記の用途に好適であるとも考えられる。しかし、この場合は、学習時のデータのクラス数が少ないため、推論時の物体の検出性能が低下する。

例えば、入力される画像から、“Person”、“Vehicle”、“Animal”の３クラスを検出するように、物体位置領域検出部およびクラス識別部を学習させる場合を考える。この場合、例えば“Bird”と“Dog”とを同じ“Animal”のクラスとして学習させることが必要である。しかし、“Bird”と“Dog”とでは共通する特徴が少ないため、“Bird”と“Dog”とを同じ“Animal”のクラスとして学習させることが困難となる。このため、推論時に、“Bird”と“Dog”とを同じ“Animal”のクラスとして認識（識別）することが困難となり、その結果、物体の検出性能が低下する。

そこで、細かい多クラスの物体の検出結果を必要としない用途では、大雑把な少クラスでの物体検出を可能としつつ、共通する特徴の少ない物体の検出性能を向上させる技術が必要となる。しかし、このような技術は、特許文献１～５を含めて未だ提案されていない。

本発明は、上記の問題点を解決するためになされたもので、その目的は、位置領域の検出およびクラス識別に基づく物体検出を細かい多クラスで行って、物体の検出性能を向上させることができる一方で、細かい多クラス単位での物体の検出結果を必要としない用途に好適となる物体検出装置、物体検出方法、プログラムおよび記録媒体を提供することにある。

本発明の一側面に係る物体検出装置は、入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する物体位置領域検出部と、前記第１のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別部と、前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力部とを備え、前記物体検出結果出力部は、予め複数のクラスが定義され、前記第１のクラス定義と紐づいた第２のクラス定義に基づいて、前記物体のクラス情報を前記物体の検出結果として出力し、前記第２のクラス定義で定義されたクラスの数は、前記第１のクラス定義で定義されたクラスの数よりも少ない。

本発明の他の側面に係る物体検出方法は、入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する物体位置領域検出工程と、前記第１のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別工程と、前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力工程とを含み、前記物体検出結果出力工程では、予め複数のクラスが定義され、前記第１のクラス定義と紐づいた第２のクラス定義に基づいて、前記物体のクラス情報を前記物体の検出結果として出力し、前記第２のクラス定義で定義されたクラスの数は、前記第１のクラス定義で定義されたクラスの数よりも少ない。

本発明のさらに他の側面に係るプログラムは、上記物体検出方法をコンピュータに実行させるためのプログラムである。

本発明のさらに他の側面に係る記録媒体は、上記プログラムを記録した、コンピュータ読取可能な記録媒体である。

第１のクラス定義で定義された複数のクラスの数は、第２のクラス定義で定義されたクラスの数よりも相対的に多く、第１のクラス定義では、複数のクラスが細かく定義される。このため、第１のクラス定義に基づいて、物体の位置領域の検出およびクラスの識別を、細かい多クラスで行うことが可能となる。これにより、物体検出を細かい多クラスで行って物体の検出性能を向上させることが可能となる。

また、第２のクラス定義は、第１のクラス定義と紐づいて関連しており、第２のクラス定義で定義されたクラスの数は、第１のクラス定義で定義されたクラスの数よりも少ない。このため、第２のクラス定義に基づいて、少ないクラス単位で物体の検出結果を出力することが可能となる。したがって、細かい多クラス単位での検出性能を重視しない用途に好適な物体検出装置または物体検出方法を実現することができる。

本発明の実施の一形態の物体検出システムの全体の構成を模式的に示すブロック図である。上記物体検出システムにおける学習時の処理の流れを示す説明図である。上記物体検出システムにおける推論時の処理の一例を示す説明図である。各クラスの階層構造を模式的に示す説明図である。上記物体検出システムにおける推論時の処理の他の例を示す説明図である。

本発明の実施の一形態について、図面に基づいて説明すれば、以下の通りである。

〔１．物体検出システムの構成〕
図１は、本実施形態の物体検出システム１の全体の構成を模式的に示すブロック図である。物体検出システム１は、撮像部２と、物体検出装置３とを含んで構成される。撮像部２は、物体を撮影して画像を取得するカメラで構成されている。上記画像は、例えば動画であるが、静止画であってもよい。物体検出システム１に含まれる撮像部２の台数は特に制限されず、１台であってもよいし、複数台であってもよい。

撮像部２は、有線ケーブルやＬＡＮ（Local Area Network）などの通信回線を介して物体検出装置３と通信可能に接続されている。なお、撮像部２は、物体検出装置３と無線通信可能に構成されていてもよい。いずれにしても、撮像部２での撮影によって取得された画像のデータは、通信回線を介して物体検出装置３に送られる。

物体検出装置３は、例えばパーソナルコンピュータ（ＰＣ）で構成されている。この物体検出装置３は、物体位置領域検出部１１と、クラス識別部１２と、物体検出結果出力部１３と、記憶部１４と、入力部１５と、表示部１６と、通信部１７と、読取部１８と、制御部１９とを有している。制御部１９は、物体検出装置３の各部の動作を制御する中央演算処理装置（ＣＰＵ；Central Processing Unit）で構成されており、記憶部１４のプログラム記憶部１４ａに記憶された動作プログラムに従って動作する。

物体位置領域検出部１１は、入力される画像から、その画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する。ここで、「入力される画像」とは、例えば、撮像部２から物体検出装置３に入力される画像を考えることができるが、この画像に限定されるわけではなく、その他にも、外部の端末装置やサーバーから通信回線を介して物体検出装置３に入力される画像を考えることもできる。

物体位置領域検出部１１は、例えばＧＰＵ（Graphics Processing Unit）で構成されている。ＧＰＵは、リアルタイムな画像処理に特化した演算装置（プロセッサ）である。物体位置領域検出部１１をＧＰＵで構成することにより、ＧＰＵにおいて畳み込み型ニューラルネットワーク（ＣＮＮ；Convolutional Neural Network）などの機械学習が可能なニューラルネットワークを構築し、このニューラルネットワークを物体位置領域検出部１１として機能させることが可能となる。

本実施形態では、上記第１のクラス定義として、例えば１０個のクラスが定義されている。上記１０個のクラスは、例えば、“Person (with Head)”（頭部のある人物）、“Person (without Head)”（頭部のない（頭部が隠れた）人物）、“Car”、“Bus”、“Truck”、“Dog”、“Cat”、“Horse”、“Bear”、“Bird”、である。物体位置領域検出部１１は、入力画像から、第１のクラス定義で定義されたクラスに属する可能性のある物体の位置領域を検出するように、予め学習されている（ＣＮＮを構成する各ノードのパラメータ（重み）が予め設定されている）。これにより、物体位置領域検出部１１は、実際に外部から画像が入力されたときに、第１のクラス定義に基づき、入力された画像から、例えば“Car”らしい物体の位置領域を検出することが可能となる。

クラス識別部１２は、上記の第１のクラス定義に基づいて、入力された画像に含まれる物体が複数のクラスのいずれに属するかを識別する。このようなクラス識別部１２は、物体位置領域検出部１１と同様に、ＧＰＵで構成されている。これにより、ＧＰＵにおいてＣＮＮなどの機械学習が可能なニューラルネットワークを構築し、このニューラルネットワークをクラス識別部１２として機能させることが可能となる。

クラス識別部１２は、入力画像に含まれる物体が属するクラスを第１のクラス定義に基づいて識別するように、予め学習されている（ＣＮＮを構成する各ノードのパラメータ（重み）が予め設定されている）。これにより、クラス識別部１２は、実際に外部から画像が入力されたときに、第１のクラス定義に基づいて、入力画像に含まれる物体（物体位置領域検出部１１によって位置領域が既に検出された物体を含む）が第１のクラス定義で定義されたクラスのいずれに属するかを識別することが可能となる。

本実施形態では、クラス識別部１２はＣＮＮで構成されているため、クラス識別部１２からは、物体が属するクラスの識別結果だけでなく、そのクラスの尤度（確からしさ）を示すスコアも出力される。例えば、物体が“Person (with Head)”である確からしさは０．８である、などの情報（スコア付きクラス情報）が、クラス識別部１２から出力される。

物体検出結果出力部１３は、物体位置領域検出部１１の検出結果とクラス識別部１２の識別結果とに基づいて、物体の検出結果を出力する。例えば、物体検出結果出力部１３は、物体位置領域検出部１１によって検出された物体の位置領域の情報と、クラス識別部１２によって識別されたクラスの情報とを出力する。このような物体検出結果出力部１３は、例えば制御部１９と同一の、または別個のＣＰＵで構成されている。

本実施形態では、物体検出結果出力部１３は、予め複数のクラスが定義された第２のクラス定義に基づいて、物体のクラス情報を物体の検出結果として出力する。

ここで、上記第２のクラス定義では、例えば３個のクラスが定義されている。上記３個のクラスは、例えば“Person”、“Vehicle”、“Animal”である。したがって、第２のクラス定義で定義されたクラスの数（３個）は、第１のクラス定義で定義されたクラスの数（１０個）よりも少ない。

また、第２のクラス定義で定義された“Person”は、第１のクラス定義で定義された“Person (with Head)”および“Person (without Head)”を包括したクラス（上位概念のクラス）である。また、第２のクラス定義で定義された“Vehicle”は、第１のクラス定義で定義された“Car”、“Bus”および“Truck”を包括したクラスである。さらに、第２のクラス定義で定義された“Animal”は、第１のクラス定義で定義された“Dog”、“Cat”、“Horse”、“Bear”、“Bird”を包括したクラスである。したがって、第１のクラス定義で定義された各クラスと、第２のクラス定義で定義された各クラスとは紐づいており（関連付けられており）、第１のクラス定義と第２のクラス定義とは紐づいている、と言える。

物体検出結果出力部１３は、第２のクラス定義に基づいて、物体のクラス情報を物体の検出結果として出力するため、クラス識別部１２から例えば物体が“Person (with Head)”である確からしさは０．８であり、“Car”である確からしさは０．２である、という情報が出力されたとき、上記物体のクラスは（“Person (with Head)”の包括概念である）“Person”であるというクラス情報を物体の検出結果として出力することになる。

記憶部１４は、各種の情報を記憶するメモリであり、例えばハードディスクで構成されるが、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）などをさらに含んで構成されてもよい。この記憶部１４は、プログラム記憶部１４ａと、入力画像記憶部１４ｂと、クラス定義記憶部１４ｃと、パラメータ記憶部１４ｄとを有している。

プログラム記憶部１４ａは、物体検出装置３の各部を動作させるための動作プログラムを記憶する。入力画像記憶部１４ｂは、例えば撮像部２で取得され、物体検出装置３に入力された画像のデータを一次的に記憶する。なお、入力画像記憶部１４ｂは、外部の端末装置やサーバーから物体検出装置３に画像データが入力されたときに、上記画像データを一時的に記憶してもよい。また、物体検出装置３に入力される画像は、入力画像記憶部１４ｂに記憶されることなく、物体位置領域検出部１１に直接入力される構成であってもよい。

クラス定義記憶部１４ｃは、上述した第１のクラス定義（例えば１０個のクラス）および第２のクラス定義（例えば３個のクラス）を記憶する。なお、クラス定義記憶部１４ｃに記憶させる第１のクラス定義および第２のクラス定義は、後述する入力部１５によって変更（更新）することが可能である。上記した物体位置領域検出部１１は、クラス定義記憶部１４ｃにアクセスすることにより、第１のクラス定義に基づいて物体の位置領域を検出することが可能となる。また、クラス識別部１２は、クラス定義記憶部１４ｃにアクセスすることにより、第１のクラス定義に基づいて物体のクラスを識別することが可能となる。さらに、物体検出結果出力部１３は、クラス定義記憶部１４ｃにアクセスすることにより、第２のクラス定義に基づいて、物体のクラス情報を物体の検出結果として出力することが可能となる。

パラメータ記憶部１４ｄは、物体位置領域検出部１１およびクラス識別部１２を構成するＣＮＮの各ノードのパラメータ（重み）を記憶する。上記のパラメータは、ＣＮＮの学習ごとに更新され、パラメータ記憶部１４ｄに記憶される。

入力部１５は、例えばキーボード、マウス、タッチパッド、タッチパネルなどで構成され、ユーザによる各種の指示入力を受け付ける。表示部１６は、各種の情報を表示するデバイスであり、例えば液晶表示装置で構成される。通信部１７は、撮像部２および外部端末（例えば他の端末装置（スマートフォンなどの携帯端末を含む）、サーバー）と通信するためのインターフェースである。この通信部１７は、入出力ポートのほか、アンテナ、送受信回路、変調回路、復調回路などを含んで構成される。読取部１８は、記録媒体Ｒに記録された情報を読み取る装置であり、例えばディスクドライブで構成される。なお、記録媒体Ｒが可搬型の不揮発性メモリである場合、上記不揮発性メモリの接続部が指し込まれる接続ポートも読取部１８に含まれるとする。

〔２．物体検出システムの動作〕
次に、本実施形態の物体検出システム１の動作について、学習時と推論時（物体検出時）とに分けて説明する。なお、以下での説明において、第１のクラス定義としては、上述の１０クラス（例えば“Person (with Head)”、“Person (without Head)”、“Car”、“Bus”、“Truck”、“Dog”、“Cat”、“Horse”、“Bear”、“Bird”）が定義されており、第２のクラス定義としては、上述の３クラス（例えば“Person”、“Vehicle”、“Animal”）が定義されているとする。

（学習時の動作）
図２は、物体検出システム１における学習時の処理の流れを示す説明図である。まず、学習に先立って、学習用のデータセットを用意する（Ｓ１）。上記データセットは、物体を含む画像のデータと、その物体の正解クラスを示すラベルとがセットになったものである。ここでは、上記の第１のクラス定義に基づいて、１０クラスの画像のデータを含むデータセットを用意する。なお、１０クラスのそれぞれについて、データセットを複数用意してもよい。例えば、１０クラスのうちの１クラスを構成する“Person (with Head)”について、画像の異なる複数のデータセットを用意してもよい。

学習用のデータセットの画像を物体検出装置３に入力すると（Ｓ２）、物体位置領域検出部１１は、上記画像から、第１のクラス定義に基づき、１０個のクラスのいずれかに属する可能性のある物体の位置領域をＣＮＮでのニューロ演算によって検出する（Ｓ３）。そして、クラス識別部１２は、物体位置領域検出部１１によって検出された位置領域にある物体のクラスが、第１のクラス定義で定義された１０個のクラスのいずれに属するかを、ＣＮＮでのニューロ演算によって識別する（Ｓ４）。

その後、制御部１９は、クラス識別部１２から出力される情報に基づき、誤差逆伝播法（バックプロパゲーション）を用いて、物体位置領域検出部１１およびクラス識別部１２を構成するＣＮＮの各ノードのパラメータを更新する（Ｓ５）。より詳しくは、位置領域の検出が、入力画像に対応する正解クラス（第１のクラス定義のクラス）の物体について行われるように、物体位置領域検出部１１の各ノードのパラメータを更新するとともに、物体位置領域検出部１１で検出された位置領域にある物体のクラスの識別結果として、第１のクラス定義で定義された正解クラスを出力するように、クラス識別部１２の各ノードのパラメータを更新する。

（推論時の動作）
図３は、物体検出システム１における推論時の処理の一例を示す説明図である。例えば、撮像部２で取得された画像が物体検出装置３に入力されると（Ｓ１１）、物体位置領域検出部１１は、上記画像から、第１のクラス定義に基づき、１０個のクラスのいずれかに属する可能性のある物体の位置領域を、ＣＮＮでのニューロ演算によって検出する（Ｓ１２；物体位置領域検出工程）。

次に、クラス識別部１２は、物体位置領域検出部１１によって検出された位置領域にある物体のクラスが、第１のクラス定義で定義された１０個のクラスのいずれに属するかを、ＣＮＮでのニューロ演算によって識別し、識別したクラスの情報を、スコア付きで出力する（Ｓ１３；クラス識別工程）。

物体検出結果出力部１３は、クラス識別部１２から出力されるクラス情報の中からスコアの最も高い物体のクラスを選択し、選択したクラスを包括するクラスを第２のクラス定義に基づいて決定する。そして、物体検出結果出力部１３は、決定したクラスの情報と、物体位置領域検出部１１で検出された位置領域の情報とを、物体の検出結果として出力する（Ｓ１４；物体検出結果出力工程）。物体検出結果出力部１３から出力される物体の検出結果（位置領域の情報、クラス情報）については、例えば表示部１６で表示させてもよいし、通信部１７を介して外部に送信してもよい。

〔３．効果〕
本実施形態では、第１のクラス定義で定義されたクラスの数（例えば１０個）は、第２のクラス定義で定義されたクラスの数（例えば３個）よりも多く、第１のクラス定義では、複数のクラスが細かく定義される。このため、物体位置領域検出部１３は、第１のクラス定義に基づいて、例えば同じ“Animal”として共通していても、共通する特徴の少ない各物体（例えば“Bird”と“Dog”）の位置領域を区別して検出することが可能となる。そして、クラス識別部１２は、第１のクラス定義に基づいて、共通する特徴の少ない物体（例えば“Bird”と“Dog”）を別々のクラスで識別することが可能となる。したがって、物体の検出を細かい多クラスで行うことが可能となり、物体の検出性能を向上させることができる。

また、物体検出結果出力部１３は、物体位置領域検出部１１の検出結果とクラス識別部１２の識別結果とに基づいて物体の検出結果を出力するにあたり、第１のクラス定義と紐づいた第２のクラス定義に基づいて、物体のクラス情報を出力する。第２のクラス定義で定義された複数のクラスの数は、第１のクラス定義で定義されたクラスの数よりも少ないため、物体検出結果出力部１３は、例えば“Bird”と“Dog”とをまとめたクラスの情報（例えば“Animal”の情報）を出力することができる。したがって、物体の位置領域の検出時およびクラス識別時よりも少ないクラス単位で物体の検出結果を出力することができるため、細かい多クラス単位での検出性能を重視しない用途やアプリケーションに好適な物体検出装置３および物体検出方法を実現することができる。例えば、本実施形態の物体検出装置３および物体検出方法は、屋外に設置されたカメラで撮影された画像を用いる監視や統計調査のほか、通過した物体の計数だけを目的とし、上記物体の詳細な識別を不要とする調査や分析を行う用途やアプリケーションに好適となる。

また、本実施形態において、第１のクラス定義の“Person (with Head)”および“Person (without Head)”は、第２のクラス定義で定義された“Person”の下位概念のクラス、つまり、上記“Person”を細分化したクラスである。同様に、第１のクラス定義の“Car”、“Bus”および“Truck”は、第２のクラス定義で定義された“Vehicle”を細分化したクラスである。さらに、第１のクラス定義の“Dog”、“Cat”、“Horse”、“Bear”および“Bird”は、第２のクラス定義で定義された“Animal”を細分化したクラスである。

このように、第１のクラス定義は、第２のクラス定義で定義された各クラスを細分化して定義されているため、第１のクラス定義に基づいて、物体の検出を細かい多クラスで行うことができる。これにより、物体の検出性能を確実に向上させることができる。また、物体検出結果出力部１３は、第１のクラス定義に基づいて識別された２以上のクラス（例えば“Dog”と“Bird”）を、第２のクラス定義で定義された１つのクラス（例えば“Animal”）にまとめ、その情報をクラス情報として出力することができる。したがって、物体検出結果出力部１３は、物体の位置領域の検出時およびクラス識別時よりも少ないクラス単位で物体の検出結果を出力することが確実に可能となる。

また、第１のクラス定義の“Person (with Head)”および“Person (without Head)”は、“Person”として共通の特徴を持つ。また、第１のクラス定義の“Car”、“Bus”および“Truck”は、“Vehicle”として共通の特徴を持つ。さらに、第１のクラス定義の“Dog”、“Cat”、“Horse”、“Bear”および“Bird”は、“Animal”として共通の特徴を持つ。

このことから、第１のクラス定義は、第２のクラス定義で定義された各クラスを、共通の特徴を持つ個々のクラスに細分化して定義されていると言える。この場合、物体位置領域検出部１１は、第１のクラス定義に基づき、共通の特徴を持つ個々のクラスに属する可能性のある物体の各位置領域を互いに区別して検出することが可能となる。また、クラス識別部１２は、第１のクラス定義に基づき、共通の特徴を持つ個々のクラスを別々に識別することが可能となる。したがって、共通の特徴を持つ個々のクラス間でも、物体を区別して検出することが可能となり、物体の検出性能を確実に向上させることができる。

また、本実施形態では、物体位置領域検出部１１およびクラス識別部１２は、ニューラルネットワークで構成されている。この場合、物体位置領域検出部１１およびクラス識別部１２を機械学習させることにより、入力画像をもとに物体の位置領域をニューロ演算によって検出したり、物体のクラスをニューロ演算によって識別することが可能となる。また、機械学習によってニューラルネットワークのパラメータ（各ノードの重み）を更新することにより、物体の位置領域の検出精度（物体の存在の有無の検出精度）およびクラス識別の精度を向上させることが可能となる。

また、本実施形態では、クラス識別部１２は、物体位置領域検出部１１による位置領域の検出後、クラスを識別している（図３参照）。この場合、クラス識別部１２は、物体位置領域検出部１１によって位置領域が検出された物体について、そのクラスを識別することができるため（物体らしいものについてのみクラスの識別ができるため）、物体の検出性能をさらに向上させることができる。

〔４．学習によるクラスの細分化について〕
図４は、第２のクラス定義で定義された各クラスの階層構造を模式的に示す説明図である。第１のクラス定義は、第２のクラス定義で定義された各クラスの階層構造に基づいて定義されていてもよい。同図では、第２のクラス定義で定義された各クラスを、学習時のクラス識別部１２の識別結果に基づいて細分化することで上記階層構造を実現し、この階層構造に基づいて第１のクラス定義の各クラスを定義した例を示している。

より具体的には、第２のクラス定義で定義された各クラスが、“Person”と“Vehicle”との２クラスであるとする。これらの各クラスについて、学習用のデータセット（画像＋正解ラベル）を用意する。このとき、各クラスについて、画像の異なるデータセットを複数用意する。そして、上述の方法で物体位置領域検出部１１およびクラス識別部１２を学習させる。すなわち、例えば“Person”のデータセットの画像を入力して、物体位置領域検出部１１での物体の位置領域の検出およびクラス識別部１２でのクラス識別を行い、その識別結果（識別されたクラスのスコア）を出力する。そして、誤差逆伝播法を用いて物体位置領域検出部１１およびクラス識別部１２の各ノードのパラメータを更新する。

このとき、“Person”のデータセットにおいて、クラス識別部１２によって識別されたクラス（スコアが閾値以上のクラス）と、正解ラベルが示すクラス（例えば“Person”）とが一致している場合には、物体の検出が成功したとし、クラス識別部１２で識別されたクラス（例えば“Person”）をそのまま残す。一方、“Person”のデータセットにおいて、クラス識別部１２によって識別されたクラス（スコアが閾値以上のクラス）と、正解ラベルが示すクラス（例えば“Person”）とが不一致の場合には、物体の検出が失敗したとし、クラス識別部１２で識別されたクラスを新しいクラス（例えば“Person 2”）として設定する。そして、用いたデータセットの画像（物体の検出が失敗した画像）に含まれる物体を“Person 2”として識別するように、誤差逆伝播法によって物体位置領域検出部１１およびクラス識別部１２の各ノードのパラメータを更新する。

次に、“Person 2”のデータセットの画像を入力して、物体位置領域検出部１１での物体の位置領域の検出およびクラス識別部１２でのクラス識別を行い、その識別結果（識別されたクラスのスコア）を出力し、上記と同様の処理を行う。つまり、クラス識別部１２によって識別されたクラス（スコアが閾値以上のクラス）と、正解ラベルが示すクラス（例えば“Person 2”）とが一致している場合には、物体の検出が成功したとし、クラス識別部１２で識別されたクラス（例えば“Person 2”）をそのまま残す。一方、“Person 2”のデータセットにおいて、クラス識別部１２によって識別されたクラス（スコアが閾値以上のクラス）と、正解ラベルが示すクラス（例えば“Person 2”）とが不一致の場合には、物体の検出が失敗したとし、クラス識別部１２で識別されたクラスを新しいクラス（例えば“Person 3”）として設定する。そして、用いたデータセットの画像（物体の検出が失敗した画像）に含まれる物体を“Person 3”として識別するように、誤差逆伝播法によって物体位置領域検出部１１およびクラス識別部１２の各ノードのパラメータを更新する。

以上の処理により、“Person”のクラスは、クラス識別部１２での識別結果に基づいて、“Person”と“Person 2”の各クラスに細分化され、“Person 2”のクラスは、クラス識別部１２での識別結果に基づいて、“Person 2”と“Person 3”の各クラスにさらに細分化される。その結果、“Person”を最上層とした階層構造が実現される。つまり、クラス識別部１２での識別結果に基づいて、最上層のクラスである“Person”を、下層のクラス（“Person”、“Person 2”、“Person 3”）に細分化した階層構造が得られる。

なお、“Vehicle”についても、“Vehicle”のデータセットを用いて上記と同様の方法で物体位置領域検出部１１およびクラス識別部１２を学習させることにより、クラス識別部１２での識別結果に基づいて、“Vehicle”の階層構造を得ることができる。つまり、クラス識別部１２での識別結果に基づいて、最上層のクラスである“Vehicle”を、下層のクラス（“Vehicle”、“Vehicle 2”、“Vehicle 3”）に細分化した階層構造を得ることができる。

したがって、“Person”および“Vehicle”を第２のクラス定義の各クラスとして定義すると、第２のクラス定義で定義された“Person”および“Vehicle”の階層構造に基づいて、第１のクラス定義を定義することができる。つまり、第２のクラス定義で定義された２クラス（“Person”、“Vehicle”）の階層構造の最上層以外の層に属するクラス、つまり、“Person”、“Person 2”、“Person 3”、“Vehicle”、“Vehicle 2”、“Vehicle 3”（６クラス）を、第１のクラス定義として定義することができる。

このように、第１のクラス定義を、第２のクラス定義で定義された各クラスの階層構造に基づいて定義することにより、第１のクラス定義を、第２のクラス定義と紐づいた多クラスで細かく設定することが確実に可能となる。これにより、物体位置領域検出部１１およびクラス識別部１２での物体の位置領域の検出およびクラス識別を、第１のクラス定義に基づいて細かい多クラスで確実に行うことが可能となる。また、物体検出結果出力部１３は、第２のクラス定義に基づき、上記階層構造の最上層のクラスの情報を出力することで、物体の検出結果として出力するクラス数を確実に少なくすることができる。

また、上記のように、第２のクラス定義で定義された各クラスを、学習時のクラス識別部１２の識別結果に基づいて細分化して、第１のクラス定義を定義することにより、推論時に、クラス識別部１２が第１のクラス定義に基づいてクラスを識別するときの識別精度を確実に向上させることができる。つまり、上記の例では、推論時に、入力画像に含まれる人物が、“Person”、“Person 2”、“Person 3”のいずれであるか、または入力画像に含まれる乗り物が、“Vehicle”、“Vehicle 2”、“Vehicle 3”のいずれであるかを確実に精度よく識別することができる。

また、上記のように、第２のクラス定義で定義された各クラスを、学習時の識別が成功したクラス（例えば“Person”、“Person 2”）と、学習時の識別が失敗して新たに割り当てたクラス（例えば“Person 3”）とを含む複数のクラスに細分化して、第１のクラス定義を定義することにより、学習時に識別が失敗したクラス（例えば“Person 3”）についても、推論時には、第１のクラス定義に基づいて、物体がそのクラス（例えば“Person 3”）に属するか否かを判断（識別）することが可能となる。

〔５．変形例〕
図５は、物体検出システム１における推論時の処理の他の例を示す説明図である。図４では、物体位置領域検出部１１による位置領域の検出と同時に、クラス識別部１２が画像に含まれる物体のクラスを識別する点以外は、図３と同様である。この構成では、クラス識別部１２がクラスを識別する対象となる物体は、画像内で特定の位置領域に存在する物体ではなく、入力画像のどこかに存在する物体となるが、この場合でも、クラス識別部１２を予め機械学習させておくことにより、推論時に入力画像内のどこかに位置する物体（位置領域が特定されていない物体）のクラスを識別することが可能となる。

このように、物体位置領域検出部１１による位置領域の検出と、クラス識別部１２による物体のクラスの識別とを同時に行うことにより、図３のようにそれらの処理を連続的に行う場合に比べて迅速な物体検出（検出結果の出力）を行うことが可能となる。

〔６．プログラムおよび記録媒体〕
上述した本実施形態の物体検出装置３は、例えば、所定のプログラム（アプリケーションソフトウェア）をインストールしたコンピュータ（ＰＣ）で構成することができる。上記プログラムをコンピュータ（例えばＣＰＵとしての制御部１９）が読み取って実行することにより、物体検出装置３の各部を動作させて上述した各処理（各工程）を実行させることができる。このようなプログラムは、例えばネットワークを介して外部からダウンロードすることによって取得されてプログラム記憶部１４ａに記憶される。また、上記プログラムは、例えばＣＤ－ＲＯＭ（Compact Disk-Read Only Memory）などのコンピュータ読取可能な記録媒体Ｒに記録され、この記録媒体Ｒから上記プログラムをコンピュータが読み取ってプログラム記憶部１４ａに記憶する形態であってもよい。

〔７．その他〕
以上の各実施の形態で説明した物体検出装置、物体検出方法、プログラムおよび記録媒体は、以下のように表現されてもよい。

１．入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する物体位置領域検出部と、
前記第１のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別部と、
前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力部とを備え、
前記物体検出結果出力部は、予め複数のクラスが定義され、前記第１のクラス定義と紐づいた第２のクラス定義に基づいて、前記物体のクラス情報を前記物体の検出結果として出力し、
前記第２のクラス定義で定義されたクラスの数は、前記第１のクラス定義で定義されたクラスの数よりも少ないことを特徴とする物体検出装置。

２．前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを細分化して定義されていることを特徴とする前記１に記載の物体検出装置。

３．前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスの階層構造に基づいて定義されていることを特徴とする前記２に記載の物体検出装置。

４．前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを、共通の特徴を持つ個々のクラスに細分化して定義されていることを特徴とする前記２または３に記載の物体検出装置。

５．前記物体位置領域検出部および前記クラス識別部は、ニューラルネットワークで構成されていることを特徴とする前記１から４のいずれかに記載の物体検出装置。

６．前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを、学習時の前記クラス識別部の識別結果に基づいて細分化して定義されていることを特徴とする前記５に記載の物体検出装置。

７．前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを、学習時の識別が成功したクラスと、学習時の識別が失敗して新たに割り当てたクラスとを含む複数のクラスに細分化して定義されていることを特徴とする前記６に記載の物体検出装置。

８．前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出後、前記クラスを識別することを特徴とする前記１から７のいずれかに記載の物体検出装置。

９．前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出と同時に、前記クラスを識別することを特徴とする前記１から７のいずれかに記載の物体検出装置。

１０．入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する物体位置領域検出工程と、
前記第１のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別工程と、
前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力工程とを含み、
前記物体検出結果出力工程では、予め複数のクラスが定義され、前記第１のクラス定義と紐づいた第２のクラス定義に基づいて、前記物体のクラス情報を前記物体の検出結果として出力し、
前記第２のクラス定義で定義されたクラスの数は、前記第１のクラス定義で定義されたクラスの数よりも少ないことを特徴とする物体検出方法。

１１．前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを細分化して定義されていることを特徴とする前記１０に記載の物体検出方法。

１２．前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスの階層構造に基づいて定義されていることを特徴とする前記１１に記載の物体検出方法。

１３．前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを、共通の特徴を持つ個々のクラスに細分化して定義されていることを特徴とする前記１１または１２に記載の物体検出方法。

１４．前記物体位置領域検出工程では、ニューロ演算によって前記位置領域を検出し、
前記クラス識別工程では、ニューロ演算によって前記クラスを識別することを特徴とする前記１０から１３のいずれかに記載の物体検出方法。

１５．前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを、学習時の前記クラス識別部の識別結果に基づいて細分化して定義されていることを特徴とする前記１４に記載の物体検出方法。

１６．前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを、学習時の識別が成功したクラスと、学習時の識別が失敗して新たに割り当てたクラスとを含む複数のクラスに細分化して定義されていることを特徴とする前記１５に記載の物体検出方法。

１７．前記クラス識別工程を、前記物体位置領域検出工程の後に行うことを特徴とする前記１０から１６のいずれかに記載の物体検出方法。

１８．前記クラス識別工程を、前記物体位置領域検出工程と同時に行うことを特徴とする前記１０から１６のいずれかに記載の物体検出方法。

１９．前記１０から１８のいずれかに記載の物体検出方法をコンピュータに実行させるためのプログラム。

２０．前記１９に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。

また、本実施形態の物体検出システムは、以下のように表現されてもよい。

２１．前記１から９のいずれかに記載の物体検出装置と、
前記物体検出装置に入力される前記画像を取得する撮像部とを備えていることを特徴とする物体検出システム。

以上、本発明の実施形態について説明したが、本発明の範囲はこれに限定されるものではなく、発明の主旨を逸脱しない範囲で拡張または変更して実施することができる。

本発明は、入力される画像から、その画像に含まれる物体を検出するシステムに利用可能である。

１物体検出システム
２撮像部
３物体検出装置
１１物体位置領域検出部
１２クラス識別部
１３物体検出結果出力部

Claims

入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する物体位置領域検出部と、
前記第１のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別部と、
前記物体位置領域検出部の検出結果と前記クラス識別部の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力部とを備え、
前記物体検出結果出力部は、前記物体の位置領域の情報を前記物体の検出結果として出力するとともに、予め複数のクラスが定義され、前記第１のクラス定義と紐づいた第２のクラス定義に基づいて、前記物体のクラス情報を前記物体の検出結果として出力し、
前記第２のクラス定義で定義されたクラスの数は、前記第１のクラス定義で定義されたクラスの数よりも少なく、
前記物体位置領域検出部および前記クラス識別部は、ニューラルネットワークで構成されている、物体検出装置。
前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを細分化して定義されている、請求項１に記載の物体検出装置。
前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスの階層構造に基づいて定義されている、請求項２に記載の物体検出装置。
前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを、共通の特徴を持つ個々のクラスに細分化して定義されている、請求項２または３に記載の物体検出装置。
前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを、学習時の前記クラス識別部の識別結果に基づいて細分化して定義されている、請求項１から４のいずれかに記載の物体検出装置。
前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを、学習時の識別が成功したクラスと、学習時の識別が失敗して新たに割り当てたクラスとを含む複数のクラスに細分化して定義されている、請求項５に記載の物体検出装置。
前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出後、前記クラスを識別する、請求項１から６のいずれかに記載の物体検出装置。
前記クラス識別部は、前記物体位置領域検出部による前記位置領域の検出と同時に、前記クラスを識別する、請求項１から６のいずれかに記載の物体検出装置。
入力される画像から、前記画像に含まれる物体の位置領域を、予め複数のクラスが定義された第１のクラス定義に基づいて検出する物体位置領域検出工程と、
前記第１のクラス定義に基づいて、前記物体が前記複数のクラスのいずれに属するかを識別するクラス識別工程と、
前記物体位置領域検出工程の検出結果と前記クラス識別工程の識別結果とに基づいて、前記物体の検出結果を出力する物体検出結果出力工程とを含み、
前記物体検出結果出力工程では、前記物体の位置領域の情報を前記物体の検出結果として出力するとともに、予め複数のクラスが定義され、前記第１のクラス定義と紐づいた第２のクラス定義に基づいて、前記物体のクラス情報を前記物体の検出結果として出力し、
前記第２のクラス定義で定義されたクラスの数は、前記第１のクラス定義で定義されたクラスの数よりも少なく、
前記物体位置領域検出工程では、ニューロ演算によって前記位置領域を検出し、
前記クラス識別工程では、ニューロ演算によって前記クラスを識別する、物体検出方法。
前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを細分化して定義されている、請求項９に記載の物体検出方法。
前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスの階層構造に基づいて定義されている、請求項１０に記載の物体検出方法。
前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを、共通の特徴を持つ個々のクラスに細分化して定義されている、請求項１０または１１に記載の物体検出方法。
前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを、学習時の前記クラス識別工程の識別結果に基づいて細分化して定義されている、請求項９から１２のいずれかに記載の物体検出方法。
前記第１のクラス定義は、前記第２のクラス定義で定義された各クラスを、学習時の識別が成功したクラスと、学習時の識別が失敗して新たに割り当てたクラスとを含む複数のクラスに細分化して定義されている、請求項１３に記載の物体検出方法。
前記クラス識別工程を、前記物体位置領域検出工程の後に行う、請求項９から１４のいずれかに記載の物体検出方法。
前記クラス識別工程を、前記物体位置領域検出工程と同時に行う、請求項９から１４のいずれかに記載の物体検出方法。
請求項９から１６のいずれかに記載の物体検出方法をコンピュータに実行させるためのプログラム。
請求項１７に記載のプログラムを記録した、コンピュータ読取可能な記録媒体。