JP7052663B2

JP7052663B2 - 物体検出装置、物体検出方法及び物体検出用コンピュータプログラム

Info

Publication number: JP7052663B2
Application number: JP2018181002A
Authority: JP
Inventors: 大輔橋本; 聡武安; 公太平野
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2022-04-12
Anticipated expiration: 2038-09-26
Also published as: US11093801B2; US20200097756A1; JP2020052694A

Description

本発明は、画像に表された物体を検出する物体検出装置、物体検出方法及び物体検出用コンピュータプログラムに関する。

従来より、画像に表された物体を検出する技術が研究されている。近年では、物体を検出するために、いわゆるディープニューラルネットワーク（以下、単にＤＮＮと呼ぶ）を用いることで、検出精度を向上する技術が提案されている（例えば、非特許文献１～３を参照）。

Wei Liu他、「SSD: Single Shot MultiBox Detector」、ECCV2016、2016年 Shaoqing Ren他、「Faster R-CNN: Towards Real-Time ObjectDetection with Region Proposal Networks」、NIPS、2015年 Alex Kendall他、「Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics」、CVPR2018、2018年

このような技術では、既知の物体が表された多数の画像を教師データとして用いてＤＮＮを学習することで、ＤＮＮが入力された画像上に表されたその既知の物体を高精度に検出できるようになる。しかし、教師データとして利用可能な画像の数が少ない物体が検出対象となることがある。このような物体が表された画像に対しては、ＤＮＮによる検出精度は低下する。また、既知の物体が教師データに含まれる画像における写り方とは異なる写り方をした画像に対しても、ＤＮＮによる検出精度は低下することがある。検出精度の低下を抑制するために、検出対象となる全ての物体のそれぞれについて、その物体が表された画像を教師データとして利用できることが好ましい。しかし、実際には、ＤＮＮを学習する時点において、検出対象となる全ての物体について教師データとして利用可能な画像を用意できるとは限らない。そのため、教師データとして利用可能な画像の数が少ない物体、あるいは、検出対象となる物体が教師データに含まれる画像における写り方とは異なる写り方をした画像に対しても、検出精度を向上できることが求められている。

そこで、本発明は、物体の検出精度を向上できる物体検出装置を提供することを目的とする。

一つの実施形態によれば、物体検出装置が提供される。この物体検出装置は、入力された画像上の複数の領域のそれぞれについて、検出対象となる物体が表されている確からしさを表す確信度を求め、複数の領域のうち、確信度が第１の確信度閾値以上となる第１の領域に検出対象となる物体が表されていると判定し、かつ、第１の領域に対する、第１の領域において検出対象となる物体が他の物体により隠されている隠れ領域の比率を表す隠れ率を求める第１の検出部と、隠れ率が隠れ率閾値以上となる場合、複数の領域のうち、第１の領域と少なくとも部分的に重なる第２の領域についての確信度が第１の確信度閾値よりも低い第２の確信度閾値以上となる場合に、第２の領域に検出対象となる物体が表されていると判定する第２の検出部とを有する。

この物体検出装置において、第１の検出部は、画像から物体を検出するとともに隠れ領域を検出するように予め学習された識別器に画像を入力することで隠れ率を算出することが好ましい。

この場合において、識別器は、画像が入力される第１のコンボリューションニューラルネットワークと、第１のコンボリューションニューラルネットワークからの出力に基づいて複数の領域のそれぞれについて確信度を求める第２のコンボリューションニューラルネットワークと、第１のコンボリューションニューラルネットワークからの出力に基づいて隠れ領域を検出する第３のコンボリューションニューラルネットワークとを含むことが好ましい。

また、この物体検出装置において、第２の検出部は、第１の領域と第２の領域との和集合に対する第１の領域と第２の領域間の重複領域の比が所定の閾値以上となり、かつ、第２の領域についての確信度が第２の確信度閾値以上となる場合に、第２の領域に検出対象となる物体が表されていると判定することが好ましい。

あるいは、第２の検出部は、第１の領域に対する第１の領域と第２の領域間の重複領域の比が所定の閾値以上となり、かつ、第２の領域についての確信度が第２の確信度閾値以上となる場合に、第２の領域に検出対象となる物体が表されていると判定することが好ましい。

あるいは、第２の検出部は、複数の領域のうち、第１の領域と少なくとも部分的に重なり、かつ、隠れ領域の少なくとも一部を含む領域を第２の領域とすることが好ましい。

さらに、第１の検出部は、第１の領域に表される物体の種類を推定し、その種類に応じて隠れ率閾値を設定することが好ましい。

さらにまた、第２の検出部は、隠れ率が高いほど、第２の確信度閾値を低くすることが好ましい。

あるいはまた、第２の検出部は、第１の領域に対する第２の領域の相対的な位置関係に応じて第２の確信度閾値を設定することが好ましい。

本発明の他の実施形態によれば、物体検出方法が提供される。この物体検出方法は、入力された画像上の複数の領域のそれぞれについて、検出対象となる物体が表されている確からしさを表す確信度を求め、複数の領域のうち、確信度が第１の確信度閾値以上となる第１の領域に検出対象となる物体が表されていると判定し、かつ、第１の領域に対する、第１の領域において検出対象となる物体が他の物体により隠されている隠れ領域の比率を表す隠れ率を求め、隠れ率が隠れ率閾値以上となる場合、複数の領域のうち、第１の領域と少なくとも部分的に重なる第２の領域についての確信度が第１の確信度閾値よりも低い第２の確信度閾値以上となる場合に、第２の領域に検出対象となる物体が表されていると判定する、ことを含む。

本発明のさらに他の実施形態によれば、物体検出用コンピュータプログラムが提供される。この物体検出用コンピュータプログラムは、入力された画像上の複数の領域のそれぞれについて、検出対象となる物体が表されている確からしさを表す確信度を求め、複数の領域のうち、確信度が第１の確信度閾値以上となる第１の領域に検出対象となる物体が表されていると判定し、かつ、第１の領域に対する、第１の領域において検出対象となる物体が他の物体により隠されている隠れ領域の比率を表す隠れ率を求め、隠れ率が隠れ率閾値以上となる場合、複数の領域のうち、第１の領域と少なくとも部分的に重なる第２の領域についての確信度が第１の確信度閾値よりも低い第２の確信度閾値以上となる場合に、第２の領域に検出対象となる物体が表されていると判定する、ことをコンピュータに実行させるための命令を含む。

本発明に係る物体検出装置は、物体の検出精度を向上できるという効果を奏する。

物体検出装置が実装される車両制御システムの概略構成図である。物体検出装置の一つの実施形態である電子制御装置のハードウェア構成図である。物体検出処理を含む車両制御処理に関する、電子制御装置のプロセッサの機能ブロック図である。識別器として利用されるＤＮＮの構成の一例を示す図である。図４に示される識別器の学習に利用される教師画像の一例を示す図である。画像上に表された物体の検出の一例を示す図である。物体検出処理を含む車両制御処理の動作フローチャートである。

以下、図を参照しつつ、物体検出装置について説明する。発明者は、画像から検出された物体の一部がその画像において見えなくなっている場合、その物体を隠している他の物体が画像に写っている可能性が高いことに着目した。そこで、この物体検出装置は、画像から検出された物体の一部が何らかの他の物体により隠されていると想定される場合に、その隠している他の物体に関する検出条件を緩和する。これにより、この物体検出装置は、他の物体が、検出対象であるにもかかわらず、物体検出用の識別器を十分に学習できない物体（以下、説明の便宜上、レア物体と呼ぶ）であっても検出できるようにする。具体的に、この物体検出装置は、画像に表された物体を検出するように予め学習された識別器に画像を入力することで、画像上の様々な領域について検出対象となる物体が表されている確からしさを表す確信度を算出し、算出した確信度が第１の確信度閾値以上となる領域に検出対象となる物体が表されていると判定する（以下、説明の便宜上、検出された物体が表された領域を物体領域と呼ぶ）。さらに、この物体検出装置は、物体領域の面積に対する、物体領域において検出された物体が他の物体で隠された隠れ領域の面積の比率（以下、説明の便宜上、隠れ率と呼ぶ）を算出する。この物体検出装置は、隠れ率が所定の隠れ率閾値以上となり、かつ、物体領域と少なくとも一部が重複する、確信度が算出された領域（以下、説明の便宜上、候補領域と呼ぶ）との和集合の面積に対する、物体領域と候補領域間の重複領域の面積の比が所定の閾値以上となる場合に、候補領域について、第１の確信度閾値よりも低い第２の確信度閾値を適用する。そしてこの物体検出装置は、候補領域について算出された確信度が第２の確信度閾値以上である場合、候補領域にも検出対象となる物体が表されていると判定する。これにより、この物体検出装置は、候補領域にレア物体が写っている場合でも、そのレア物体の検出に失敗することを抑制して、検出精度を向上できる。なお、レア物体には、検出対象とすべき物体であっても、教師データにその物体が表された画像が含まれない物体、すなわち、未知の物体が含まれてもよい。

以下では、物体検出装置を、車両制御システムに適用した例について説明する。この例では、物体検出装置は、車両に搭載されたカメラにより得られた画像に対して物体検出処理を実行することで、車両の周囲に存在する各種の物体、例えば、他の車両、人、道路標識または道路標示などを検出する。この例では、レア物体には、例えば、特異な形状を有する車両、特異な積載物を積載する車両、特異な服装をした人、人以外の動物または道路上に落下している各種の落下物が含まれる。

図１は、物体検出装置が実装される車両制御システムの概略構成図である。また図２は、物体検出装置の一つの実施形態である電子制御装置のハードウェア構成図である。本実施形態では、車両１０に搭載され、かつ、車両１０を制御する車両制御システム１は、車両１０の周囲を撮影するためのカメラ２と、物体検出装置の一例である電子制御装置（ＥＣＵ）３とを有する。カメラ２とＥＣＵ３とは、コントローラエリアネットワークといった規格に準拠した車内ネットワーク４を介して通信可能に接続される。

カメラ２は、撮像部の一例であり、CCDあるいはC-MOSなど、可視光に感度を有する光電変換素子のアレイで構成された２次元検出器と、その２次元検出器上に撮影対象となる領域の像を結像する結像光学系を有する。そしてカメラ２は、車両１０の前方を向くように、例えば、車両１０の車室内に取り付けられる。そしてカメラ２は、所定の撮影周期（例えば1/30秒～1/10秒）ごとに車両１０の前方領域を撮影し、その前方領域が写った画像を生成する。カメラ２により得られた画像は、カラー画像であってもよく、あるいは、グレー画像であってもよい。

カメラ２は、画像を生成する度に、その生成した画像を車内ネットワーク４を介してＥＣＵ３へ出力する。

ＥＣＵ３は、車両１０を制御する。本実施形態では、ＥＣＵ３は、カメラ２により得られた一連の画像から検出された物体に基づいて車両１０を自動運転するよう、車両１０を制御する。そのために、ＥＣＵ３は、通信インターフェース２１と、メモリ２２と、プロセッサ２３とを有する。

通信インターフェース２１は、通信部の一例であり、ＥＣＵ３を車内ネットワーク４に接続するためのインターフェース回路を有する。すなわち、通信インターフェース２１は、車内ネットワーク４を介して、カメラ２と接続される。そして通信インターフェース２１は、カメラ２から画像を受信する度に、受信した画像をプロセッサ２３へわたす。

メモリ２２は、記憶部の一例であり、例えば、揮発性の半導体メモリ及び不揮発性の半導体メモリを有する。そしてメモリ２２は、ＥＣＵ３のプロセッサ２３により実行される物体検出処理において使用される各種のデータ、例えば、カメラ２から受信した画像、物体検出処理で利用される識別器を特定するための各種パラメータ、及び、物体検出処理で利用される各種閾値などを記憶する。さらに、メモリ２２は、地図情報などを記憶してもよい。

プロセッサ２３は、制御部の一例であり、１個または複数個のＣＰＵ(Central Processing Unit)及びその周辺回路を有する。プロセッサ２３は、論理演算ユニット、数値演算ユニットあるいはグラフィック処理ユニットといった他の演算回路をさらに有していてもよい。そしてプロセッサ２３は、車両１０が走行している間、カメラ２から画像を受信する度に、受信した画像に対して物体検出処理を含む車両制御処理を実行する。そしてプロセッサ２３は、検出された車両１０の周囲の物体に基づいて、車両１０を自動運転するよう、車両１０を制御する。

図３は、物体検出処理を含む車両制御処理に関する、ＥＣＵ３のプロセッサ２３の機能ブロック図である。プロセッサ２３は、第１の検出部３１と、第２の検出部３２と、運転計画部３３と、車両制御部３４とを有する。プロセッサ２３が有するこれらの各部は、例えば、プロセッサ２３上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、プロセッサ２３が有するこれらの各部は、プロセッサ２３に設けられる、専用の演算回路であってもよい。また、プロセッサ２３が有するこれらの各部のうち、第１の検出部３１及び第２の検出部３２が、物体検出処理を実行する。

第１の検出部３１は、カメラ２から受信した画像を識別器に入力することで、その画像上の複数の領域のそれぞれについて、その領域に検出対象となる物体が写っている確からしさを表す確信度を求め、その確信度が第１の確信度閾値以上となる領域を物体領域として検出する。さらに、第１の検出部３１は、物体領域と、その物体領域に表される物体が他の物体により隠されている隠れ領域との比率を表す隠れ率とをもとめる。

本実施形態では、第１の検出部３１は、識別器として、画像上の複数の領域のそれぞれについて、検出対象となる物体の種類ごとに確信度を求めるとともに、その領域の隠れ率を求めるように予め学習されたＤＮＮを利用する。

図４は、識別器として利用されるＤＮＮの構成の一例を示す図である。ＤＮＮ４００は、画像が入力される入力側に設けられる主幹部４０１と、主幹部４０１よりも出力側に設けられる位置検出部４０２、種類推定部４０３及び隠れ領域検出部４０４とを有する。位置検出部４０２は、主幹部４０１からの出力に基づいて、画像上で検出対象となる物体が表された領域の外接矩形を出力する。種類推定部４０３は、主幹部４０１からの出力に基づいて、位置検出部４０２で検出された領域に表された物体の種類を推定する。そして隠れ領域検出部４０４は、主幹部４０１からの出力に基づいて、各領域の隠れ率を算出する。なお、位置検出部４０２、種類推定部４０３及び隠れ領域検出部４０４のうちの二つ以上が一体的に形成されてもよい。

主幹部４０１は、例えば、入力側から出力側へ向けて直列に接続される複数の層を有するコンボリューションニューラルネットワーク（ＣＮＮ）とすることができる。その複数の層には２以上の畳み込み層が含まれる。さらに、主幹部４０１が有する複数の層には、１または複数の畳み込み層ごとに設けられるプーリング層が含まれてもよい。さらにまた、主幹部４０１が有する複数の層には、１以上の全結合層が含まれてもよい。例えば、主幹部４０１は、非特許文献１に記載されたSingle Shot MultiBox Detector（ＳＳＤ）のベースレイヤーと同様の構成とすることができる。この場合、主幹部４０１は、VGG-16と同様に、入力側から順に、2層の畳み込み層→MaxPoolingを行う（すなわち、n×n個の入力のうちの最大値を出力する）プーリング層（以下、単にプーリング層と呼ぶ）→2層の畳み込み層→プーリング層→3層の畳み込み層→プーリング層→3層の畳み込み層→プーリング層→3層の畳み込み層→プーリング層→3層の全結合層で構成されてもよい。あるいは、主幹部４０１は、VGG-19、AlexNetあるいはNetwork-In-Networkといった他のＣＮＮアーキテクチャに従って構成されてもよい。

主幹部４０１は、画像が入力されると、その画像に対して各層での演算を実行することで、その画像から算出したfeature mapを出力する。

位置検出部４０２、種類推定部４０３及び隠れ領域検出部４０４には、それぞれ、主幹部４０１から出力されたfeature mapが入力される。そして位置検出部４０２、種類推定部４０３及び隠れ領域検出部４０４は、それぞれ、例えば、入力側から出力側へ向けて直列に接続される複数の層を有するＣＮＮとすることができる。位置検出部４０２、種類推定部４０３及び隠れ領域検出部４０４のそれぞれについて、ＣＮＮが有する複数の層には２以上の畳み込み層が含まれる。また、位置検出部４０２、種類推定部４０３及び隠れ領域検出部４０４のそれぞれについて、ＣＮＮが有する複数の層には、１または複数の畳み込み層ごとに設けられるプーリング層が含まれてもよい。なお、ＣＮＮが有する畳み込み層及びプーリング層は、位置検出部４０２、種類推定部４０３及び隠れ領域検出部４０４のうちの二つ以上について共通化されてもよい。さらに、位置検出部４０２、種類推定部４０３及び隠れ領域検出部４０４のそれぞれについて、複数の層には、１以上の全結合層が含まれてもよい。この場合、全結合層は、各畳み込み層よりも出力側に設けられることが好ましい。また全結合層には、各畳み込み層からの出力が直接入力されてもよい。また、種類推定部４０３の出力層は、ソフトマックス関数に従って検出対象となる物体の種類のそれぞれの確信度を算出するソフトマックス層としてもよいし、シグモイド関数に従って検出対象となる物体の種類のそれぞれの確信度を算出するシグモイド層としてもよい。一方、隠れ領域検出部４０４は、例えば、セグメンテーションに用いられる何れかのＣＮＮアーキテクチャと同様の構成を有していてもよい。あるいは、隠れ領域検出部４０４の最終層は、離散的な隠れ度の値をクラス分類問題として推定するソフトマックス層またはシグモイド層としてもよい（例えば、０％、０％～１０％、１０％～５０％、５０％～１００％の４クラス分類など）。あるいはまた、隠れ領域検出部４０４の最終層は、例えば連続的な隠れ度の値を回帰問題として推定する線形層としてもよい。

位置検出部４０２及び種類推定部４０３は、例えば、画像上の様々な位置、様々なイサイズ及び様々なアスペクト比の領域ごとに、検出対象となる物体の種類のそれぞれの確信度を出力するように学習される。したがって、識別器４００は、画像が入力されることで、画像上の様々な位置、様々なイサイズ及び様々なアスペクト比の領域ごとに、検出対象となる物体の種類のそれぞれの確信度を出力する。第１の検出部３１は、何れかの物体の種類についての確信度が第１の確信度閾値（例えば、0.8～0.9）以上となる領域を、その種類の物体が表された物体領域（第１の領域）として検出する。なお、第１の検出部３１は、一つの画像上で同一種類の物体が表された物体領域が複数検出され、かつ、その物体領域同士が少なくとも部分的に重複する場合、それら複数の物体領域のうち、確信度が最大となる領域のみを出力するようにしてもよい。

一方、隠れ領域検出部４０４は、例えば、画像上の様々な位置、様々なサイズ及び様々なアスペクト比の領域ごとに、その領域に含まれる個々の画素について、その画素が、その領域に表されている物体を他の物体で隠している画素（以下、説明の便宜上、隠れ画素と呼ぶ）か否かを判定するように学習される。したがって、識別器４００は、画像が入力されることで、位置検出部４０２及び種類推定部４０３により確信度が算出される個々の領域について隠れ画素を検出する。したがって、第１の検出部３１は、位置検出部４０２及び種類推定部４０３により検出された物体領域の面積に対する、その物体領域に含まれる隠れ画素の総数の比を、その物体領域についての隠れ率として出力する。なお、隠れ画素の集合を、以下では隠れ領域と呼ぶ。

なお、隠れ領域検出部４０４は、画像上の様々な位置、様々なサイズ及び様々なアスペクト比の領域ごとに、その領域の隠れ率が直接求められるように学習されてもよい。その場合、隠れ領域検出部４０４は、例えば、画像上の様々な位置、様々なサイズ及び様々なアスペクト比の領域ごとに、その領域が他の物体で隠れている領域（隠れ領域）の割合（隠れ率）を推定するように学習される。隠れ率の推定には、前述の通り、ソフトマックス層またはシグモイド層などでクラス分類問題として離散値を推定する方法、および線形層などで回帰問題として連続値を推定する方法などが用いられる。したがって、識別器４００は、画像が入力されることで、位置検出部４０２及び種類推定部４０３により確信度が算出される個々の領域について隠れ率を検出し、第１の検出部３１は、隠れ率を出力する。あるいは、隠れ領域検出部４０４は、位置検出部４０２及び種類推定部４０３により検出された物体領域についてのみ、隠れ領域を検出するように学習されてもよい。

図５は、図４に示された識別器４００の学習に利用される教師データに含まれる画像（教師画像）の一例を示す図である。教師画像５００には、検出対象となる物体５０１の種類（例えば、車、人、動物、道路標識、道路標示、落下物、道路上のその他の物体など、図示の例では、車）と、物体５０１が表された領域を表す、物体５０１の外接矩形５０２とがタグ付けされる。さらに、教師画像５００において、外接矩形５０２で囲まれた領域に含まれる画素のうち、物体５０１が他の物体（この例では、動物）により隠された隠れ領域５０３内の各画素に、隠れ画素であることがタグ付けされる。

識別器４００は、図５に示されるような多数の教師画像を用いて、例えば、誤差逆伝搬法といった学習手法に従って学習される。第１の検出部３１は、このように学習された識別器４００を利用することで、画像から検出対象となる物体、特に、多数の教師画像を用意できる物体を精度良く検出できるとともに、物体領域内の隠れ領域を精度良く検出できる。

第１の検出部３１は、検出された物体が表された物体領域の画像上での位置及び範囲と、その物体領域に表された物体の種類とを、検出された物体のリストである検出物体リストに登録する。そして第１の検出部３１は、検出物体リストをメモリ２２に記憶する。さらに、第１の検出部３１は、物体領域の画像上での位置及び範囲と、その物体領域に含まれる隠れ領域の位置及び範囲（すなわち、各隠れ画素の位置）と、その物体領域の隠れ率とを第２の検出部３２へ出力する。さらに、第１の検出部３１は、物体領域と少なくとも部分的に重複する、確信度が算出された領域を候補領域（第２の領域）とし、候補領域のそれぞれについて、その候補領域の画像上での位置及び範囲と、その候補領域について求められた物体の種類ごとの確信度のうちの最大値とを、第２の検出部３２へ出力する。

第２の検出部３２は、物体領域について算出された隠れ率を隠れ率閾値と比較する。そして第２の検出部３２は、隠れ率が隠れ率閾値以上となる場合、各候補領域のうち、物体領域に含まれる隠れ領域を所定の割合（例えば、7～9割）以上含む候補領域について、物体領域とその候補領域の和集合の面積に対する、物体領域とその候補領域間の重複領域の面積の比（Intersection over Union、ＩｏＵ）を算出する。第２の検出部３２は、ＩｏＵが所定の閾値（例えば、0.05～0.3）以上である場合、候補領域について算出された確信度の最大値を、第１の確信度閾値よりも低い第２の確信度閾値（例えば、第１の確信度閾値から0.1～0.2を減じた値）と比較する。そして第２の検出部３２は、その確信度の最大値が第２の確信度閾値以上である場合、候補領域に、その確信度の最大値に対応する種類の物体が表されていると判定して、その候補領域を物体領域として追加検出する。そして第２の検出部３２は、追加検出された物体領域の画像上での位置及び範囲と、追加検出された物体領域に表された物体の種類とを、検出物体リストに追加登録することで、検出物体リストを更新する。第２の検出部３２は、更新された検出物体リストをメモリ２２に記憶する。このように、候補領域についてのＩｏＵが所定の閾値以上となるか否かを判定することで、物体領域とある程度以上重複する候補領域のみに第２の確信度閾値が適用される。そのため、第２の検出部３２は、第２の確信度閾値を適用する候補領域を適切に決定できる。また、第２の確信度閾値の適用対象とする候補領域を隠れ領域を所定の割合以上含むものに限定することで、第２の検出部３２は、物体領域に表された物体を隠していると想定される他の物体を含む可能性が高い候補領域に第２の確信度閾値を適用することができる。

なお、第１の検出部３１で用いられる識別器が隠れ画素を検出せずに直接隠れ率を求めるように学習される場合には、第２の検出部３２は、各候補領域について隠れ領域を含むか否かに関わらずにＩｏＵを算出し、そのＩｏＵに基づいて第２の確信度閾値を適用するか否かを判定してもよい。

図６は、画像上に表された物体の検出の一例を示す図である。画像６００には車両６０１が表されている。車両が表された画像は一般に大量に存在するため、車両が表された多数の教師画像が識別器の学習に利用できる。そのため、車両６０１が表された領域６１１では、識別器により比較的高い確信度が出力される。その結果として、領域６１１に表された車両６０１は、第１の検出部３１により検出される。

しかし、画像６００では、車両６０１の一部は動物６０２により隠されている。一般に、道路上を歩く動物の画像は少ないため、動物が表された教師画像の数は比較的少ない。すなわち、動物６０２はレア物体となる。そのため、動物６０２が表された領域６１２については、確信度はそれほど高くならない。その結果、動物６０２は、第１の検出部３１では検出されない。しかし、車両６０１の一部が動物６０２で隠されているので、領域６１１の隠れ率は隠れ率閾値以上となり、かつ、領域６１１と領域６１２についてのＩｏＵも所定の閾値以上となる。そのため、領域６１２に、第１の確信度閾値よりも低い第２の確信度閾値が適用されるので、領域６１２に表された動物６０２についても、第２の検出部３２により検出される。

運転計画部３３は、各画像について求められた検出物体リストを参照して、車両１０の周囲に存在する物体と車両１０とが衝突しないように車両１０の走行予定経路を１以上生成する。走行予定経路は、例えば、現時刻から所定時間先までの各時刻における、車両１０の目標位置の集合として表される。例えば、運転計画部３３は、カメラ２から画像を受信する度に、カメラ２についての車両１０への取り付け位置などの情報を用いて視点変換処理を実行することで、受信した画像を鳥瞰画像に変換する。そして運転計画部３３は、一連の鳥瞰画像に対してKalman Filterなどを用いたトラッキング処理を実行することで、各画像についての検出物体リストに登録されている物体を追跡し、その追跡結果により得られた軌跡から、物体のそれぞれの所定時間先までの予測軌跡を推定する。運転計画部３３は、追跡中の各物体の予測軌跡に基づいて、何れの物体についても所定時間先までの追跡中の物体のそれぞれと車両１０間の距離の予測値が所定距離以上となるように、車両１０の走行予定経路を生成する。その際、運転計画部３３は、例えば、車両１０に搭載されたＧＰＳ受信機（図示せず）から得た、車両１０の現在位置情報と、メモリ２２に記憶されている地図情報とを参照して、車両１０が走行可能な車線の数を確認してもよい。そして運転計画部３３は、車両１０が走行可能な車線が複数存在する場合には、車両１０が走行する車線を変更するように走行予定経路を生成してもよい。
なお、運転計画部３３は、複数の走行予定経路を生成してもよい。この場合、運転計画部３３は、複数の走行予定経路のうち、車両１０の加速度の絶対値の総和が最小となる経路を選択してもよい。

運転計画部３３は、生成した走行予定経路を車両制御部３４へ通知する。

車両制御部３４は、車両１０が通知された走行予定経路に沿って走行するように車両１０の各部を制御する。例えば、車両制御部３４は、通知された走行予定経路、及び、車速センサ（図示せず）により測定された車両１０の現在の車速に従って、車両１０の加速度を求め、その加速度となるようにアクセル開度またはブレーキ量を設定する。そして車両制御部３４は、設定されたアクセル開度に従って燃料噴射量を求め、その燃料噴射量に応じた制御信号を車両１０のエンジンの燃料噴射装置へ出力する。あるいは、車両制御部３４は、設定されたブレーキ量に応じた制御信号を車両１０のブレーキへ出力する。

さらに、車両制御部３４は、車両１０が走行予定経路に沿って走行するために車両１０の進路を変更する場合には、その走行予定経路に従って車両１０の操舵角を求め、その操舵角に応じた制御信号を、車両１０の操舵輪を制御するアクチュエータ（図示せず）へ出力する。

図７は、プロセッサ２３により実行される、物体検出処理を含む車両制御処理の動作フローチャートである。プロセッサ２３は、カメラ２から画像が受信する度に、図７に示される動作フローチャートに従って車両制御処理を実行する。なお、以下に示される動作フローチャートにおいて、ステップＳ１０１～Ｓ１０７の処理が物体検出処理に対応する。

プロセッサ２３の第１の検出部３１は、画像を識別器に入力して、画像上の様々な領域について、その領域に表された検出対象となる物体の種類ごとの確信度及び隠れ率を求める（ステップＳ１０１）。そして第１の検出部３１は、何れかの物体の種類についての確信度が第１の確信度閾値以上となる領域を、その種類の物体が表された物体領域として検出し、物体領域の位置及び範囲、物体領域に表された物体の種類を検出物体リストに登録する（ステップＳ１０２）。

プロセッサ２３の第２の検出部３２は、物体領域の隠れ率が隠れ率閾値以上か否か判定する（ステップＳ１０３）。隠れ率が隠れ率閾値以上である場合（ステップＳ１０３－Ｙｅｓ）、第２の検出部３２は、物体領域と少なくとも部分的に重複し、かつ、物体領域に含まれる隠れ領域を所定の割合以上を含む候補領域についてＩｏＵを算出する（ステップＳ１０４）。そして第２の検出部３２は、ＩｏＵが所定の閾値ＴｈＩ以上か否か判定する（ステップＳ１０５）。ＩｏＵが閾値ＴｈＩ以上である場合（ステップＳ１０５－Ｙｅｓ）、第２の検出部３２は、候補領域について求められた物体の種類ごとの確信度のうちの最大値が第１の確信度閾値よりも低い第２の確信度閾値以上か否か判定する（ステップＳ１０６）。その確信度の最大値が第２の確信度閾値以上である場合（ステップＳ１０６－Ｙｅｓ）、第２の検出部３２は、候補領域にその確信度の最大値に対応する種類の物体が表されていると判定する。そして第２の検出部３２は、その候補領域を物体領域として、その物体領域の画像上の位置及び範囲、その物体領域に表された物体の種類を検出物体リストに追加登録する（ステップＳ１０７）。

ステップＳ１０７の後、プロセッサ２３の運転計画部３３は、検出物体リストを参照して、検出物体リストに登録されている物体を追跡し、その追跡結果に基づいて推定されるその物体の予測軌跡と所定の距離以上となるように、車両１０の走行予定経路を生成する（ステップＳ１０８）。そしてプロセッサ２３の車両制御部３４は、走行予定経路に沿って車両１０が走行するように車両１０を制御する（ステップＳ１０９）。そしてプロセッサ２３は、車両制御処理を終了する。

なお、プロセッサ２３は、ステップＳ１０３にて隠れ率が隠れ率閾値未満である場合（ステップＳ１０３－Ｎｏ）、ステップＳ１０５にてＩｏＵが閾値ＴｈＩ未満である場合（ステップＳ１０５－Ｎｏ）、あるいは、ステップＳ１０６にて候補領域について求められた物体の種類ごとの確信度のうちの最大値が第２の確信度閾値未満である場合（ステップＳ１０６－Ｎｏ）も、ステップＳ１０７以降の処理を実行すればよい。

また、第１の検出部３１が、画像上で複数の物体を検出した場合には、プロセッサ２３は、検出された物体が表された物体領域ごとに、ステップＳ１０２～Ｓ１０７の処理を実行すればよい。

以上に説明してきたように、この物体検出装置は、画像上で検出された物体が表された物体領域において隠れ率が所定の隠れ率閾値以上となり、かつ、物体領域と候補領域についてのＩｏＵが所定の閾値以上となる場合に、候補領域について、第１の確信度閾値よりも低い第２の確信度閾値を適用する。そしてこの物体検出装置は、候補領域について算出された何れかの物体の種類についての確信度が第２の確信度閾値以上である場合、候補領域にも検出対象となる物体が表されていると判定する。これにより、この物体検出装置は、候補領域にレア物体が写っている場合でも、そのレア物体の検出に失敗することを抑制できるので、検出精度を向上できる。さらに、この物体検出装置は、比較的演算量が多い識別器による処理を1回実行するだけで、候補領域についても検出対象となる物体が表されているか否かを判定できるので、演算量を抑制できる。

なお、車両１０には、複数のカメラが設けられてもよい。この場合には、プロセッサ２３は、カメラごとに、そのカメラから得られた画像に対して第１の検出部３１及び第２の検出部３２による物体検出処理を実行すればよい。そしてプロセッサ２３は、各カメラにより得られた画像から検出された物体に基づいて、運転計画部３３及び車両制御部３４による処理を実行すればよい。

変形例によれば、第1の検出部３１は、ＤＮＮ以外の識別器を利用して、物体領域及び候補領域を検出するとともに、隠れ率と確信度とを算出してもよい。例えば、第1の検出部３１は、識別器として、画像上に設定されるウィンドウから算出される特徴量（例えば、Histograms of Oriented Gradients, ＨＯＧ）を入力として、そのウィンドウに検出対象となる物体が表される確信度を出力するように予め学習されたサポートベクトルマシン（ＳＶＭ）を用いてもよい。第1の検出部３１は、画像上に設定するウィンドウの位置、サイズ及びアスペクト比を様々に変更しながら、そのウィンドウから特徴量を算出し、算出した特徴量をＳＶＭへ入力することで、そのウィンドウについて確信度を求める。そして第1の検出部３１は、確信度が第1の確信度閾値以上である場合、そのウィンドウを物体領域とする。なお、ＳＶＭは、検出対象となる物体の種類ごとに用意されてもよい。この場合には、第１の検出部３１は、各ウィンドウについて、そのウィンドウから算出された特徴量をそれぞれのＳＶＭへ入力することで、物体の種類ごとに確信度を算出すればよい。そして第1の検出部３１は、物体の種類ごとの確信度のうちの最大値を第１の確信度閾値と比較し、その最大値が第１の確信度閾値以上であれば、その最大値に対応する種類の物体がそのウィンドウに表されていると判定すればよい。

また第1の検出部３１は、検出対象となる物体のテンプレートを複数の部分テンプレートに分割し、部分テンプレートごとに物体領域との間でテンプレートマッチングを実行して、正規化相互相関値といった、部分テンプレートと物体領域間の類似度を算出する。そして第1の検出部３１は、物体領域から、何れかの部分テンプレートに対する類似度が所定の類似度閾値以上となる部分領域を除いた残余領域を、隠れ領域として求める。したがって、第１の検出部３１は、物体領域の面積に対する残余領域（すなわち、隠れ領域）の面積の比を隠れ率として算出すればよい。なお、検出対象となる物体のテンプレートは、例えば、メモリ２２に予め記憶される。

この変形例では、第２の検出部３２は、隠れ率が隠れ率閾値以上となる物体領域と少なくとも部分的に重複するウィンドウをそれぞれ候補領域とする。あるいは、第２の検出部３２は、隠れ率が隠れ率閾値以上となる物体領域と少なくとも部分的に重複し、かつ、残余領域の所定の割合以上を含むウィンドウを候補領域としてもよい。そして第２の検出部３２は、上記の実施形態と同様に、候補領域ごとにＩｏＵを算出し、算出したＩｏＵが所定の閾値以上となる場合、候補領域について算出された確信度を第２の確信度閾値と比較してもよい。そして第２の検出部３２は、候補領域について算出された確信度が第２の確信度閾値以上である場合、その候補領域に、検出対象となる物体が表されていると判定してもよい。

他の変形例によれば、第２の検出部３２は、物体領域及び候補領域について、ＩｏＵを算出する代わりに、物体領域の面積に対する、物体領域と候補領域間の重複領域の面積の比を算出してもよい。そして第２の検出部３２は、その比が所定の重複比率閾値以上となる場合に、候補領域に第２の確信度閾値を適用してもよい。この変形例によれば、物体領域に対して候補領域が相対的に小さい場合でも、候補領域に対して第２の確信度閾値が適用され易くなる。その結果として、第２の検出部３２は、物体領域に表された物体に対して相対的に小さいレア物体についても検出精度を向上できる。

さらに他の変形例によれば、隠れ率閾値は、第１の検出部３１により検出された物体領域に表された物体の種類に応じて設定されてもよい。例えば、路面上に位置する可能性の高い物体、例えば、車、人、バイク、自転車または道路標示などは、路面上に位置する他の物体により隠される可能性が相対的に高い。一方、路面よりもある程度以上高い位置に存在する物体、例えば、信号機または道路標識などは、路面上に位置する他の物体により隠される可能性が相対的に低い。そこで、路面上に位置する可能性の高い物体に対する隠れ率閾値は、路面よりもある程度以上高い位置に存在する物体に対する隠れ率閾値よりも低く設定されてもよい。この場合、物体の種類と関連付けてその物体の種類についての隠れ率閾値がメモリ２２に予め記憶される。そして第１の検出部３１は、物体領域に表された物体の種類に対応する隠れ率閾値をメモリ２２から読み出して隠れ率との比較に使用すればよい。

また、車両１０から遠いほど、車両１０の走行に影響を及ぼす可能性が低い。一方、検出される物体の数が少ないほど、運転計画部３３の演算量は軽減される。そこで、隠れ率閾値は、候補領域に表されている物体が車両１０から遠いほどその物体が検出され難くなるように設定されてもよい。例えば、着目する物体領域に車といった路面上に位置する可能性が高い物体が表されており、かつ、着目する物体領域から所定距離以内に路面上に位置する可能性が高い物体が表された他の物体領域が存在する場合に、着目する物体領域が小さいほど、隠れ率閾値は高い値に設定されてもよい。これにより、車両１０から遠い物体が表された物体領域周辺の候補領域については第２の確信度閾値が適用され難くなるので、車両１０から遠いレア物体の検出が抑制され、その結果として、運転計画部３３の演算量の増加が抑制される。

あるいはまた、着目する物体領域に表された物体の進行方向が、車両１０が走行中の車線と略直交している場合、または着目する物体領域に表された物体が横向きである場合、隠れ率閾値は相対的に高く設定されてもよい。これにより、車両１０の走行に影響を及ぼす可能性が低いレア物体の検出が抑制される。この場合には、第１の検出部３１は、着目する物体領域に表された物体について、運転計画部３３が実行するトラッキング処理と同様の処理を実行することで、その物体の進行方向を求めればよい。また第１の検出部３１は、着目する物体領域の縦のサイズに対する横のサイズの比が所定の比率以上である場合に、着目する物体領域に表された物体が横向きであると判定してもよい。あるいは、識別器自体が、検出対象とする物体の種類の一つとして、横向きの物体を検出するように学習されてもよい。この場合には、着目する物体領域に表された物体の種類が横向きの物体である場合に、第１の検出部３１は、着目する物体領域に表された物体が横向きであると判定すればよい。

さらに他の変形例によれば、第２の検出部３２は、着目する物体領域の隠れ率が高いほど、その物体領域と少なくとも部分的に重複する候補領域に適用される第２の確信度閾値を低くしてもよい。隠れ率が高いほど、着目する物体領域に表された物体は他の物体に隠されている可能性が高い。そこで上記のように第２の確信度閾値を隠れ率に応じて調整することで、第２の検出部３２は、着目する物体領域に表された物体を隠している他の物体をより高精度に検出できる。

あるいは、第２の確信度閾値は、着目する物体領域に車といった路面上に位置する可能性が高い物体が表されており、かつ、着目する物体領域から所定距離以内に路面上に位置する可能性が高い物体が表された物体領域が存在する場合に、着目する物体領域が小さいほど高い値に設定されてもよい。これにより、車両１０から遠い物体が表された物体領域周辺の候補領域についてはレア物体の検出が抑制される。

あるいはまた、着目する物体領域に表された物体の進行方向が、車両１０が走行中の車線と略直交している場合、または着目する物体領域に表された物体が横向きである場合、第２の確信度閾値は、着目する物体領域に表された物体の進行方向が、車両１０が走行中の車線と略平行である場合よりも高く設定されてもよい。これにより、車両１０の走行に影響を及ぼす可能性が低いレア物体の検出が抑制される。この場合には、第２の検出部３２は、着目する物体領域に表された物体について、運転計画部３３が実行するトラッキング処理と同様の処理を実行することで、その物体の進行方向を求めればよい。また第２の検出部３２は、着目する物体領域の縦のサイズに対する横のサイズの比が所定の比率以上である場合に、着目する物体領域に表された物体が横向きであると判定してもよい。あるいは、識別器自体が、検出対象とする物体の種類の一つとして、横向きの物体を検出するように学習されてもよい。この場合には、着目する物体領域に表された物体の種類が横向きの物体である場合に、第２の検出部３２は、着目する物体領域に表された物体が横向きであると判定すればよい。

あるいはまた、第２の検出部３２は、物体領域に対する候補領域の相対的な位置関係に応じて第２の確信度閾値を設定してもよい。例えば、物体領域に表される物体の下側が他の物体により隠されている場合、他の物体は、路面上に位置する落下物といった、車両１０の走行に影響を及ぼす物体である可能性が高い。そこで、候補領域が物体領域の下辺の少なくとも一部を含む場合の第２の確信度閾値は、候補領域が物体領域の左辺または右辺の少なくとも一部を含む場合の第２の確信度閾値よりも低く設定されてもよい。これにより、第２の検出部３２は、車両１０の走行に影響を及ぼす可能性が有るレア物体の検出精度を向上できる。一方、物体領域に表される物体の上側が他の物体により隠されている場合、他の物体は、木の枝または看板といった、車両１０の走行に影響を及ぼさない物体である可能性が高い。そこで、候補領域が物体領域の上辺の少なくとも一部を含む場合の第２の確信度閾値は、候補領域が物体領域の左辺または右辺の少なくとも一部を含む場合の第２の確信度閾値よりも高く設定されてもよい。これにより、第２の検出部３２は、車両１０の走行に影響を及ぼす可能性が低いレア物体が検出されることを抑制できる。なお、候補領域が物体領域の複数の辺を含む場合には、第２の確信度閾値は、例えば、候補領域に含まれる物体領域のそれぞれの辺に対応する第２の確信度閾値の値のうちの最小値に設定されればよい。

あるいはまた、第２の確信度閾値は、第１の検出部３１により検出された物体領域に表された物体の種類、または、その物体の種類とその物体の挙動に応じて設定されてもよい。例えば、路面上に車が駐車している場合、車両１０から見てその駐車車両の前方を人などの物体が横切ることがある。このような場合、駐車車両の前方を横切る物体は車両１０の走行に影響を及ぼすことがあるので検出されることが好ましい。そこで、第２の検出部３２は、着目する物体領域に表された物体が特定の種類の物体（例えば、車）である場合における第２の確信度閾値を、着目する物体領域に表された物体が他の種類の物体である場合における第２の確信度閾値よりも低くしてもよい。あるいは、第２の検出部３２は、着目する物体領域に表された物体が特定の種類の物体であり、かつ、その物体領域に表された物体の挙動が所定の条件を満たす場合における第２の確信度閾値を、それ以外の場合における第２の確信度閾値よりも低くしてもよい。所定の条件は、例えば、着目する物体領域に表された物体が静止していることである。この場合、第２の検出部３２は、着目する物体領域に表された物体についてトラッキング処理を実行することで、その物体が静止しているか否かを判定すればよい。

さらに他の変形例によれば、上記の実施形態または変形例による物体検出装置は、車載機器以外に実装されてもよい。例えば、上記の実施形態または変形例による物体検出装置は、屋外または屋内の所定の領域を所定周期ごとに撮影するように設置された監視カメラにより生成された画像から物体を検出するように構成されてもよい。そして物体検出装置は、一定期間にわたって物体が検出された場合、物体検出装置と接続されるディスプレイに物体が検出されたことを表すメッセージを表示させるか、物体検出装置と接続されるスピーカに物体が検出されたことを表す音声を出力させてもよい。

また、上記の実施形態または変形例による、物体検出装置のプロセッサ２３の各部の機能を実現するコンピュータプログラムは、半導体メモリ、磁気記録媒体または光記録媒体といった、コンピュータ読取可能な可搬性の記録媒体に記録された形で提供されてもよい。

以上のように、当業者は、本発明の範囲内で、実施される形態に合わせて様々な変更を行うことができる。

１車両制御システム
２カメラ
３電子制御装置（物体検出装置）
４車内ネットワーク
２１通信インターフェース
２２メモリ
２３プロセッサ
３１第１の検出部
３２第２の検出部
３３運転計画部
３４車両制御部

Claims

入力された画像上の複数の領域のそれぞれについて、検出対象となる物体が表されている確からしさを表す確信度を求め、前記複数の領域のうち、前記確信度が第１の確信度閾値以上となる第１の領域に前記物体が表されていると判定し、かつ、前記第１の領域に対する、前記第１の領域において前記物体が他の物体により隠されている隠れ領域の比率を表す隠れ率を求める第１の検出部と、
前記隠れ率が隠れ率閾値以上となる場合、前記複数の領域のうち、前記第１の領域と少なくとも部分的に重なる第２の領域についての前記確信度が前記第１の確信度閾値よりも低い第２の確信度閾値以上となる場合に、前記第２の領域に前記物体が表されていると判定する第２の検出部と、
を有する物体検出装置。
前記第１の検出部は、前記画像から前記物体を検出するとともに前記隠れ領域を検出するように予め学習された識別器に前記画像を入力することで前記隠れ率を算出する、請求項１に記載の物体検出装置。
前記識別器は、前記画像が入力される第１のコンボリューションニューラルネットワークと、前記第１のコンボリューションニューラルネットワークからの出力に基づいて前記複数の領域のそれぞれについて前記確信度を求める第２のコンボリューションニューラルネットワークと、前記第１のコンボリューションニューラルネットワークからの出力に基づいて前記隠れ領域を検出する第３のコンボリューションニューラルネットワークとを含む、請求項２に記載の物体検出装置。
前記第２の検出部は、前記第１の領域と前記第２の領域との和集合に対する前記第１の領域と前記第２の領域間の重複領域の比が所定の閾値以上となり、かつ、前記第２の領域についての前記確信度が前記第２の確信度閾値以上となる場合に、前記第２の領域に前記物体が表されていると判定する、請求項１～３の何れか一項に記載の物体検出装置。
前記第２の検出部は、前記第１の領域に対する前記第１の領域と前記第２の領域間の重複領域の比が所定の閾値以上となり、かつ、前記第２の領域についての前記確信度が前記第２の確信度閾値以上となる場合に、前記第２の領域に前記物体が表されていると判定する、請求項１～３の何れか一項に記載の物体検出装置。
前記第２の検出部は、前記複数の領域のうち、前記第１の領域と少なくとも部分的に重なり、かつ、前記隠れ領域の少なくとも一部を含む領域を前記第２の領域とする、請求項１～５の何れか一項に記載の物体検出装置。
前記第１の検出部は、前記第１の領域に表される前記物体の種類を推定し、当該種類に応じて前記隠れ率閾値を設定する、請求項１～６の何れか一項に記載の物体検出装置。
前記第２の検出部は、前記隠れ率が高いほど、前記第２の確信度閾値を低くする、請求項１～７の何れか一項に記載の物体検出装置。
前記第２の検出部は、前記第１の領域に対する前記第２の領域の相対的な位置関係に応じて前記第２の確信度閾値を設定する、請求項１～７の何れか一項に記載の物体検出装置。
入力された画像上の複数の領域のそれぞれについて、検出対象となる物体が表されている確からしさを表す確信度を求め、
前記複数の領域のうち、前記確信度が第１の確信度閾値以上となる第１の領域に前記物体が表されていると判定し、かつ、前記第１の領域に対する、前記第１の領域において前記物体が他の物体により隠されている隠れ領域の比率を表す隠れ率を求め、
前記隠れ率が隠れ率閾値以上となる場合、前記複数の領域のうち、前記第１の領域と少なくとも部分的に重なる第２の領域についての前記確信度が前記第１の確信度閾値よりも低い第２の確信度閾値以上となる場合に、前記第２の領域に前記物体が表されていると判定する、
ことを含む物体検出方法。
入力された画像上の複数の領域のそれぞれについて、検出対象となる物体が表されている確からしさを表す確信度を求め、
前記複数の領域のうち、前記確信度が第１の確信度閾値以上となる第１の領域に前記物体が表されていると判定し、かつ、前記第１の領域に対する、前記第１の領域において前記物体が他の物体により隠されている隠れ領域の比率を表す隠れ率を求め、
前記隠れ率が隠れ率閾値以上となる場合、前記複数の領域のうち、前記第１の領域と少なくとも部分的に重なる第２の領域についての前記確信度が前記第１の確信度閾値よりも低い第２の確信度閾値以上となる場合に、前記第２の領域に前記物体が表されていると判定する、
ことをコンピュータに実行させる物体検出用コンピュータプログラム。