JP7122721B2

JP7122721B2 - 物体検出システム、物体検出方法及び物体検出プログラム

Info

Publication number: JP7122721B2
Application number: JP2020096497A
Authority: JP
Inventors: デービッドジメネス; 光平松田
Original assignee: ZMP Inc
Current assignee: ZMP Inc
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2022-08-22
Anticipated expiration: 2040-06-02
Also published as: JP2021189917A

Description

本発明は、例えばカメラ等により撮像された三次元のオリジナル画像を俯瞰処理により低次元の俯瞰データに変換し、この俯瞰データに基づいてオリジナル画像内における人物、障害物等の物体を検出する、三次元画像の物体検出を行なうための物体検出システム、物体検出方法及び物体検出プログラムに関するものである。

例えば自動車等の走行車両の自動運転においては、走行車両の前方視界から人物，障害物，道路側縁等の物体を検出し、運転可能なエリアを確認して物体との衝突を回避するように、走行車両の駆動制御を行なう必要がある。従来、このような走行方向前方の物体を検出する場合、以下のようにして物体検出が行なわれる。

先ず、走行車両の前部等に取り付けたステレオカメラで走行車両の前方を撮像し、ステレオカメラの左右一対の画像から三次元画像を生成する。続いて、この三次元画像に対して俯瞰処理を行なうことにより、当該三次元画像の撮像範囲に関する上方から見た俯瞰画像を生成する。その際、俯瞰処理、即ち三次元画像から俯瞰画像への画像変換処理は、ニューラルネットワークを利用して行なわれる。ここでニューラルネットワークとしては、所謂畳み込みニューラルネットワークが使用され、ディープラーニングにより学習して、所望の俯瞰画像が得られる。次に、このようにして得られた俯瞰画像に基づいて、画像処理により俯瞰画像のエリア内における物体の検出が行なわれる。この物体検出処理も、同様にしてニューラルネットワークを利用し、ディープラーニングにより学習して所望の物体検出が行なわれ得るようになっている。

これに対して、例えば非特許文献１には、単一カラー画像から畳み込みニューラルネットワークを利用して障害物の検出を行なう手法が開示されている。

D. Levi, N. Garnett and E. Fetaya,"StixelNet: A Deep Convolutional Network for Obstacle Detection and Road Segmentation",http://www.bmva/2015/papers/paper109.pdf C. Godard, O. M. Aodha, M Firman and G. Brostow,"Digging Into Self-Supervised Monocular Depth Estimation", https://arxiv.org/abs/1806.01260 J. Castorena, U. S. Kamilov and P. T. Boufounos,"AUTOCALIBRATION OF LIDAR AND OPTICAL CAMERAS VIA EDGE ALIGNMENT", https://www.merl.com/publications/docs/TR2016-009.pdf

しかしながら、三次元画像から直接に俯瞰画像への画像処理変換は、処理データ量が膨大となり、処理に時間がかかることから、例えば自動車の進行方向前方の三次元画像を、自動車の走行に伴って連続的に処理しようとする場合、処理が間に合わなくなってしまうことがあった。また、ステレオカメラから物体までの距離が増大するにつれて、物体の検出精度が著しく低下することになってしまう。これに対して、非特許文献１の障害物の検出手法では、単眼カメラによる二次元画像を使用しているので、直接三次元画像から障害物の検出を行なうことは想定されていない。

本発明は以上の点に鑑み、迅速に処理可能であると共に、ユーザが障害物を定義でき、より高精度で障害物等の物体を検出し得るようにした物体検出システムを提供することを第１の目的とし、物体検出方法を提供することを第２の目的とし、さらに、物体検出プログラムを提供することを第３の目的としている。

上記本発明の第１の目的は、撮像手段と、撮像手段で取得された撮像データに基づいて三次元画像を生成する画像生成手段と、画像生成手段で生成された三次元画像に基づいて俯瞰処理により俯瞰データを生成する俯瞰データ生成手段と、俯瞰データに基づいて物体を検出する解析手段と、を含んでおり、俯瞰データ生成手段が、三次元画像の深さ方向に関して複数箇所の断面をスライス画像として取り出して、各スライス画像を低次元化して俯瞰データを生成し、解析手段が、畳み込みニューラルネットワークから構成され、前もってディープラーニングにより物体の種別を学習し、俯瞰データに基づいて、高さ方向に関して複数箇所の断面をスライスデータとして抽出して、物体が存在するか否かを選択すると共に、該物体までの距離を推定することにより物体を検出する、物体検出システムにより達成される。

好ましくは、俯瞰データ生成手段が、畳み込みニューラルネットワークから成るオートエンコーダから構成され、オートエンコーダが各スライス画像を低次元化して俯瞰データを生成する。
オートエンコーダは、好ましくは、一つのシーンに関して各深度スライス毎に水平位置を示す一連の特徴ベクトルと、深度位置を表わす各深度スライスとを結合することにより、俯瞰データとしてのテンソルを形成する。
畳み込みニューラルネットワークは、好ましくは、入力層，少なくとも一つの中間層及び出力層から成る多層ニューラルネットワークであって、学習の際に、入力層に入力された各スライス画像を、いずれかの中間層で低次元中間データに変換した後、出力層でスライス画像と同じ次元の再構築データにデコードして、再構築データがスライス画像における物体を再現し得るようにディープラーニングにより学習し、学習後は、中間層から中間データを俯瞰データとして解析手段に出力する。
俯瞰データ生成手段は、好ましくは、各スライス画像をさらに水平方向にスライスしてスライスピースを生成し、このスライスピースを低次元化して俯瞰データを生成する。
俯瞰データは、好ましくは、各スライス画像またはスライスピースをそれぞれベクトルとして、ノンスパース特徴空間にマッピングした特徴ベクトルを含むデータである。

上記第２の目的は、物体検出プログラムをコンピュータに実行させる物体検出方法であって、撮像データに基づいて三次元画像を生成する画像生成段階と、画像生成段階で生成された三次元画像に基づいて俯瞰処理により俯瞰データを生成する俯瞰データ生成段階と、俯瞰データに基づいて物体を検出する解析段階と、を含んでおり、俯瞰データ生成段階にて、三次元画像の深さ方向に関して複数箇所の断面をスライス画像として取り出して、各スライス画像を低次元化して俯瞰データを生成し、解析段階にて、畳み込みニューラルネットワークにより前もってディープラーニングにより物体の種別を学習し、俯瞰データに基づいて、高さ方向に関して複数箇所の断面をスライスデータとして抽出して、物体が存在するか否かを選択すると共に、該物体までの距離を推定することにより物体を検出する、物体検出方法により達成される。

上記第３の目的は、撮像データに基づいて三次元画像を生成する画像生成手順と、画像生成手順で生成された三次元画像に基づいて俯瞰処理により俯瞰データを生成する俯瞰データ生成手順と、俯瞰データに基づいて物体を検出する解析手順の処理をコンピュータに実行させるための物体検出プログラムであって、俯瞰データ生成手順にて、三次元画像の深さ方向に関して複数箇所の断面をスライス画像として取り出して、各スライス画像を低次元化して俯瞰データを生成し、解析手順にて、畳み込みニューラルネットワークにより前もってディープラーニングにより物体の種別を学習し、俯瞰データに基づいて、高さ方向に関して複数箇所の断面をスライスデータとして抽出して、物体が存在するか否かを選択すると共に、該物体までの距離を推定することにより物体の方向及び距離を検出することをコンピュータに実行させることにより達成される。

このようにして、本発明によれば、簡単な構成により迅速に処理可能であると共に、より高精度で障害物等の物体を検出し得るようにした物体検出システム、物体検出方法及び物体検出プログラムを提供することができる。

本発明による物体検出システムの一実施形態の構成を示すブロック図である。図１の物体検出システムにおいて、（Ａ）は撮像画面、（Ｂ）は三次元画像、（Ｃ）は深度スライスをそれぞれ示す図である。図１の物体検出システムにおける三次元画像生成手段を構成するオートエンコーダの動作原理を示す概略図である。図３のオートエンコーダにおける（Ａ）学習時及び（Ｂ）動作時の動作を説明する説明図である。図１の物体検出システムの動作を示すフローチャートである。図１の物体検出システムにおける三次元画像生成手段の動作を説明する説明図である。図１の物体検出システムにおけるスライスピースを示す概略図である。図１の物体検出システムにおいて、（Ａ）は物体検出概略図、（Ｂ）は実際の物体検出状態を示す説明図である。図１の物体検出システムにおいて、（Ａ）は深度スライス、（Ｂ）は低次元化された特徴ベクトル、（Ｃ）は各深度スライス毎の一組の特徴ベクトル、（Ｄ）は特徴ベクトルを結合したテンソルを示す説明図である。図１の物体検出システムにおける俯瞰データの作成手順を順次に示す概略図である。図１の物体検出システムにおける解析手段のニューラルネットワークの解析手順を順次に示す概略図である。図１１の解析手順により得られた一連のベクトルの一部構成を示す概略図である。図１の物体検出システムによる建設現場での実験例において、（Ａ）は撮像画面、（Ｂ）は物体検出を示す概略図である。図１の物体検出システムによる都市環境での実験例において、（Ａ）は撮像画面、（Ｂ）は物体検出を示す概略図である。

以下、図面に示した実施形態に基づいて本発明を詳細に説明する。
図１は本発明による物体検出システム１０の一実施形態の構成ブロック図、図２（Ａ）は撮像画面、図２（Ｂ）は三次元画像３１、図２（Ｃ）は深度スライス３１ａをそれぞれ示し、図３は図１の物体検出システム１０における三次元画像生成手段３０を構成するオートエンコーダ７０の動作原理を示す概略図である。
図１において、物体検出システム１０は、撮像手段２０と、三次元画像生成手段３０と、俯瞰データ生成手段４０と、解析手段５０と、これらの撮像手段２０、三次元画像生成手段３０、俯瞰データ生成手段４０及び解析手段５０をプログラムにより制御する制御部６０と、から構成されている。

ここで、制御部６０はコンピュータから構成され、前もってインストールされた本発明による物体検出プログラムを実行することにより、上述した撮像手段２０、三次元画像生成手段３０、俯瞰データ生成手段４０及び解析手段５０を制御して、本発明による物体検出システム１０及び物体検出方法を実現するようになっている。

撮像手段２０は、例えば自動車等の前方を撮像するように配置され、自動車等の走行に伴って逐次前方の被写界の撮像を行なうことができる、公知の構成の単眼カメラ、ステレオカメラ及びライダーの何れかである。撮像手段２０は、制御部６０により制御されて所定の時間間隔で撮像を行ない、順次に撮像信号２１を出力する。ライダーはレーザーレーダーとも呼ばれるセンサで、レーザー画像検出と測距（Laser Imaging Detection and Ranging）を行なうセンサで、LIDARとも表記される。ライダーとしては三次元ライダーを用いることができる。

三次元画像生成手段３０は、図２（Ａ）に示すように撮像手段２０からの各撮像信号２１に基づいて、撮像画面２１ａ内に写っている物体までの深度（距離）を検出して、図２（Ｂ）に示すように三次元画像３１を生成する。三次元画像生成手段３０は、制御部６０により制御されて順次に入力される各撮像信号２１からそれぞれ三次元画像３１を生成する。

撮像手段２０が単眼カメラの場合には、撮像信号２１によるカラーの撮像画面２１ａは、図２（Ａ）に示すように平面を表わす二次元画像であるが、例えば非特許文献２に開示されている公知の手法を用いて、二次元画像の各点における距離情報（ポイントクラウド）を生成することができる。
そして、三次元画像生成手段３０は、上述した二次元の撮像画面とポイントクラウドを融合するために画像の色強度を対応するポイントに投影することにより、シーン（一つのカメラ画像が表わす場面）内で対応する色でポイントクラウドの各点を「ペイント」するというアルゴリズムで、三次元画像３１を生成する。三次元画像生成手段３０は、入力として、単眼カメラのカラー撮像画面と、この撮像画面における各点の距離情報（ポイントクラウド）が必要である。

また、撮像手段２０がステレオカメラの場合には、カラーの撮像信号２１は、左右一対のカメラからの一対の撮像画面を含んでいるので、各撮像画面における被写体の視差に基づいて、一方のカメラの撮像画面とその撮像画面における各点の距離情報（疑似ポイントクラウド）を生成することができる。
ここで、三次元画像３１は、図２（Ｂ）に示すように水平方向Ｈ，垂直方向Ｖ及び深度方向Ｄに延びている。さらに、撮像手段２０が三次元ライダーの場合には、例えば非特許文献３で報告されている公知の方法で三次元画像３１を取得してもよい。例えば、画素数（８００×６００）の二次元の白黒画像と三次元ライダーで取得される深度情報とを組み合わせて、後述する深度方向にスライスされた三次元画像３１を取得することができる。

俯瞰データ生成手段４０は、三次元画像生成手段３０からの各三次元画像３１に基づいて俯瞰処理を行なって、低次元化した俯瞰データ４１を生成する。ここで、俯瞰データ生成手段４０は、畳み込みニューラルネットワークから成るオートエンコーダ４２を含んでおり、制御部６０により制御されて順次に入力される各三次元画像３１からそれぞれ低次元化した俯瞰データ４１を生成する。

詳細には、俯瞰データ生成手段４０は、先ず三次元画像３１を、図２（Ｂ）に示すように深度方向に関して等間隔でスライスして複数個の深度スライス３１ａを得る。これにより、ポイントクラウドの各ポイントは距離毎に分割される。ここで、深度スライス３１ａは、元のカメラ画像における画素数（例えば９６０×１２８０）に対して、同じ数の画素数（９６０×１２８０）を有している。

続いて、俯瞰データ生成手段４０は、得られた各深度スライス３１ａに関して、図２（Ｃ）に示すように各深度スライス３１ａをさらに水平方向にスライスして、縦長の複数個のスライスピース３１ｂを得る。スライスピース３１ｂは、画素数（９６０×１２８０）の深度スライス３１ａに対して例えば８０個に分割されることにより、画素数（９６０×１６）を有している。そして、俯瞰データ生成手段４０は、このスライスピース３１ｂを後述するオートエンコーダの畳み込みニューラルネットワークの入力層に入力する。その際、スライスピース３１ｂは、図１０（Ａ）に示すように、さらに高さ方向に関して複数個に分割されて処理が行なわれる。これにより、物体の検出精度が高さ方向に関しても高められることになる。

ここで、オートエンコーダ７０は、一般的には、図３に概略的に示すようにする。オートエンコーダ７０は、例えば入力層７１，中間層７２，７３，７４及び出力層７５から成る多層ニューラルネットワークである。なお、図３においては、説明のために便宜的に各層７１～７５が、それぞれ六次元，四次元，二次元，四次元及び六次元で示されている。このオートエンコーダ７０は、入力データが二段階のエンコードにより二次元に低次元化された後、二段階のデコードによって再び六次元に再構築され、出力層７５から出力される。
オートエンコーダ７０は、多数のサンプルデータに関して、入力層７１に入力される入力データと出力層７５から出力される再構築データとを比較することより、再構築データが入力データと同じ特徴を有するように、ディープラーニングにより学習される。具体的には、入力データをＩとすると、中間層７２では、関数ｆ（Ｉ）＝ｈにより四次元空間にマッピングされ、中間層７３では、関数ｇ（ｈ）＝ｅにより二次元空間にマッピングされ、このｅが二次元のデータとなる。これに対して、中間層７４及び出力層７５では、それぞれ関数ｊ及びｋにより四次元空間，六次元空間にマッピングされて、出力層７５では六次元の再構築データＩｒが出力される。これらのマッピングはいずれも非線形である。上述した各関数ｆ，ｇ，ｊ，ｋは、未知の関数であり、多数のサンプルデータを入力層７１に入力し、入力データＩと再構築データＩｒの差（Ｉ－Ｉｒ）^２を最小化することにより、所謂ディープラーニングにより学習することにより、各関数ｆ～ｋを決定する。

本物体検出システム１０にあっては、同様にディープラーニングにより十分に学習されたオートエンコーダ７０のエンコード部分のみを利用して、エンコード化されたデータを中間層７２～７４から取り出すことにより、俯瞰データ４１を得るようにしている。

従って、図４（Ａ）に示す本物体検出システム１０では、オートエンコーダ４２は、エンコーダ部分４２ａで入力データである各スライスピース３１ｂをエンコードして低次元化した俯瞰データ４１を生成し、さらにデコーダ部分４２ｂで俯瞰データ４１をデコードして再構築データ４３を生成し、再構築データが入力データである各スライスピース３１ｂと物体に関して同じ特徴を備えるようにディープラーニングにより学習される。
このようにディープラーニングによる学習が行なわれた後、実際の動作時には、オートエンコーダ４２は、図４（Ｂ）に示すようにエンコーダ部分４２ａのみを利用して、前述した一つの深度スライス３１ａに関する８０個のスライスピース３１ｂをエンコードして、低次元化した俯瞰データ４１を生成する。各スライスピース３１ｂは、それぞれオートエンコーダ４２により低次元にエンコードされて、物体の存在を表わす特徴ベクトルとして低次元の疎ではない特徴空間（以下、ノンスパース特徴空間と呼ぶ）にマッピングされる。その際、各スライドピース３１ｂは、水平方向に分割されていることにより、ノンスパース特徴空間にマッピングされる際に水平方向に関して空間情報が保持され、一連の特徴ベクトルにより高精度で元の撮像画面における物体の存在が表わされる。
このようにして、オートエンコーダ４２により、一つのシーンに関して各深度スライス３１ａ毎に一連の特徴ベクトルから成る俯瞰データ４１が生成される。この俯瞰データ４１は、各深度スライス３１ａが深度位置を表わし、各特徴ベクトルが水平位置を表わしており、これら一連の特徴ベクトルを結合することにより、俯瞰データ４１としてのテンソルが形成される。

画素数１２８０×９６０のモノクロ画像の場合、各要素がマトリックス∈［０，２５５］内に在るマトリックスＩ_{１２８０，９６０}が扱われる。このマトリックスＩを深度情報と混合し、各画素に画像内の各画素の距離ｄ_ｉ，ｊも追加することにより、［１２８０，９６０，２］のテンソルが得られる。そして、０ｍから最大深度までの範囲で深度間隔ｎ_ｄ（この場合、ｎ_ｄ＝６４）を定義して、上記テンソルをｎ_ｄ個のマトリックスに分割する。分割された各マトリックスａ^ｉに関して、ｉ番目の深度間隔により定義される範囲に在るマトリックス内のすべての要素が取り込まれる。例えば、第一の深度間隔が０ｍから１ｍとすれば、深度がこの範囲（０ｍから１ｍ）内であるテンソル内の要素のすべての強度情報を取り込み、残りの空間をゼロで満たすことによって、一番目のマトリックスａ^０が生成される。このようにして、ｎ_ｄ個のスパースマトリックスが得られる。

これらのスパースマトリックスａ^ｉは、それぞれ深度を表わす。さらに、スパースマトリックスａ^ｉを、幅ｗのｎ_ｗ個の列に分割すると、大きさ（１２８０，９６０）のマトリックスａ^ｉは、ｗ＝１６により分割されて、大きさ（１６，９６０）の８０個のマトリックスとなる。これらの新たなより小さいマトリックスｂ^ｉ，ｊは、水平位置を表わす。例えば、マトリックスｂ^０，０は、０ｍから１ｍの範囲の画像の最も左の情報を表わす。そして、各マトリックスｂ^ｉ，ｊが取得され、前もって学習されたオートエンコーダを使用して前述したようにエンコードされる。その後、式ｂ’^ｉ，ｊ＝ｇ（ｆ（ｂ^ｉ，ｊ））から、５００のベクトルにエンコードするために使用されるより小さな潜在空間内に在るものが得られる。

ここで注意すべきは、分かりやすいように二つの関数ｆ及びｇのみを表わしているが、この数は、ニューラルネットワーク内の隠された層の選択数に依存して、増大し得る、即ち、三つ以上の関数であってもよい。ｉが深度を、ｊが水平位置を表わすこれらのベクトルｂ’^ｉ，ｊから、マトリックスを連結する連結演算子∩と定義して、以下の数式（１）の演算を実行し、さらに深度に連結すると、それぞれ水平位置を表わすｃ^ｊ個（この場合、８０個）のマトリックスが得られる。

このｃ^ｊ個の各マトリックスが、ディープラーニングで学習されたニューラルネットワークに入力され、分類が実行される。このニューラルネットワークは、どの深度間隔に物体が存在するか、又は物体がまったくないかを学習する。即ち、このニューラルネットワークは、μ^ｊ∈［０，ｎ_ｄ＋１］（整数）として、関数ｈ（ｃ^ｊ）＝μ^ｊを表わすようにディープラーニングでトレーニングされる。そして、μ^ｊを、μ^ｊ番目の要素以外のすべての箇所をゼロを備えた長さｎ_ｄ＋１のベクトルｖ^ｊに変換すると、各ｊに対して、ニューラルネットワークの出力から、下記数式（２）によりマトリックスＭが生成される。

この大きさ（ｎ_ｗ，ｎ_ｄ）のマトリックスＭは、各列：水平位置に対して、各行：物体が存在する距離に、１を有する。このようなマトリックスＭが、ニューラルネットワークの最終出力となる。

解析手段５０は、俯瞰データ生成手段４０からの俯瞰データ４１に基づいて、高さ方向に関して複数箇所の断面をスライスデータとして抽出することにより、物体を検出する。解析手段５０は畳み込みニューラルネットワークから構成され、制御部６０により制御されて、順次に入力される俯瞰データ４１から撮像画面における物体を検出する。ここで畳み込みニューラルネットワークは、機械学習による画像認識のために広く利用されており、高い精度で画像認識を行なうことが可能である。

詳細には、解析手段５０は、俯瞰データ４１についてすべての深度位置のどこに物体が存在するかを分類する。解析手段５０は、前述した８０個のスライスピース３１ｂに対応する特徴ベクトルについて、即ち水平方向に関して一側（例えば左側）から他側（例えば右側）に向かってスイープして、各水平位置に関してそれぞれ物体が存在する深度位置を決定する。

ここで、解析手段５０による物体の存在の判定基準は、前もってディープラーニングにより学習され、物体の種別により適宜に設定される。これにより、物体検出システム１０のユーザは、物体の種別により障害物を定義することができ、物体検出システム１０は、物体の種別を障害物として認識することを学習する。具体的には、自動車等が走行する道路を含む都市環境では、検出すべき物体は車両、人、歩道等であり、また工事車両や作業員が出入りする建設ゾーンでは、検出すべき物体は工事車両や作業員である。このような種々のゾーン環境に対応して検出すべき物体の判定基準が定められる。例えば、都市環境では、各スライスピース３１ｂに関して最も近い距離に在る物体を距離で位置決めしてマークし、このマークした物体の距離を、０からｎ_ｄ＋１のレベルにクラス分けする。このクラスが、ニューラルネットワークの学習のためのターゲットクラスとなる。

本実施形態の物体検出システム１０は以上のように構成されており、図５のフローチャートに従って以下のように動作する。
即ち、ステップＳＴ１にて撮像手段２０として単眼カメラにより撮像が行なわれ、ステップＳＴ２にて単眼カメラのための深度評価が行なわれ、ステップＳＴ３で示すようにモノクロ画像の色強度が得られると共に、ステップＳＴ４にて深度が得られる。なお、撮像手段２０がステレオカメラの場合には、ステップＳＴ１ａにてカラー撮像が行なわれると共に、ステップＳＴ２ａにて深度評価が行なわれ、また撮像手段２０がＬＩＤＡＲの場合には、ステップＳＴ１ｂにて撮像が行なわれる。

続いて、ステップＳＴ５にて、対応する三次元ポイントへの色強度値の投影が行なわれる。そして、ステップＳＴ６にて三次元画像３１が深度方向でスライスされ、ステップＳＴ７で二次元の深度スライス３１ａが得られる。
次に、ステップＳＴ８にて、各深度スライス３１ａをそれぞれ水平方向を表わす所定の幅にスライスし、ステップＳＴ９にてスライスピース３１ｂが得られる。その後、ステップＳＴ１０にて、各スライスピース３１ｂをオートエンコーダに入力して非線形エンコードを行ない低次元化する。これにより、ステップＳＴ１１にて特徴ベクトルが得られる。そして、ステップＳＴ１２にて、特徴ベクトルを深度と連結して、水平方向を表わす二次元マトリックスを形成する。これにより、ステップＳＴ１３にて特徴マトリックスが得られる。最後に、ステップＳＴ１４にて、特徴マトリックスをニューラルネットワークに入力して各特徴マトリックスをクラス分けする。これにより、ステップＳＴ１５にて各水平方向に関してクラス分けされた各クラスが、物体が存在する深度を示す深度レベルに対応することになる。

また、俯瞰データ生成手段４０のオートエンコーダ４２は、学習時及び動作時に、図６のフローチャートに示すように動作する。
先ずステップＳＴ２１にて、二次元のスライスピース３１ｂが、オートエンコーダ４２におけるニューラルネットワークの第一層に入力されると、ステップＳＴ２２にて非線形エンコードによって隠れ層特徴データ１となり、続いてステップＳＴ２３にて第二層に入力されて、ステップＳＴ２４にて非線形エンコードによって隠れ層特徴データ２となり、同様に順次非線形エンコードされて、ステップＳＴ２６にてニューラルネットワークの第ｎ層に入力されると、ステップＳＴ２７にてエンコードされた特徴ベクトルとなる。

特徴ベクトルは、続いてステップＳＴ２８にて第（ｎ＋１）層に入力され、ステップＳＴ２９にて、非線形エンコードによって隠れ層特徴データ（ｎ＋１）となり、同様に順次非線形エンコードされ、ステップＳＴ３０にてニューラルネットワークの第２ｎ層に入力されると、ステップＳＴ３１にて非線形エンコードによって再構築された二次元スライスピースとなる。
そして、図７に示すように多数のサンプルデータを繰り返し入力して、ディープラーニングにより入力データであるスライスピース３１ｂと再構築データである再構築された二次元スライスピースの誤差が最小となるようにオートエンコーダが学習される。ここで、ステップＳＴ２７における特徴ベクトルが、オートエンコーダの動作時には、ステップＳＴ３２で示すように解析手段５０で解析処理されて、物体の検出が行なわれる。なお、このようなオートエンコーダのディープラーニングによる学習は、例えば数１０００以上のサンプルデータを使用して行なわれる。

このようにして、本物体検出システム１０において、図２（Ａ）に示す撮像画面は、解析手段５０により、図８（Ａ）において平面図で概略的に示すように水平方向位置と、最も近い物体までの距離が検出されることになる。この検出結果は、実際には、撮像手段２０の撮像位置から見ると、図８（Ｂ）に示すように扇形の領域に関して物体の位置が把握されることになる。

次に、実際の撮像画面による物体検出の例を以下に説明する。
一つの三次元画像３１に関して複数個の深度スライス３１ａが生成され、各深度スライス３１ａ（画素数９６０×１２８０）は、図９（Ａ）に示すように水平方向に関して複数個のスライスピース３１ｂ（画素数９６０×１６）に分割される。上記スライスピース３１ｂが、それぞれエンコードされることにより、図９（Ｂ）に示すように、スライスピース３１ｂと同数の特徴ベクトルが得られる。そして、三次元画像３１によるすべての深度スライス３１ａがエンコードされると、図９（Ｃ）に示すように、各深度スライス３１ａ毎に一組８０個の特徴ベクトルが得られる。最後に、各深度スライス３１ａから、各水平位置に対応する特徴ベクトルを取り出してこれらを結合することにより、図９（Ｄ）に示すように、一連の特徴ベクトルから成るテンソルが得られる。

物体検出システム１０は上記のように動作するが、解析手段５０により、ニューラルネットワークから出力されるベクトルを組み合わせることで、すべての水平位置について最も近い物体までの距離を把握し、シーン内の最も近い物体の位置を検出する具体例について説明する。

俯瞰データ４１は、一つのシーンに対してすべてのスライスピース３１ｂ毎に一つの特徴ベクトルを含むマトリックスであることから、解析手段５０は、最も近い物体が存在する深度層を検出するために、俯瞰データ４１をディープラーニングで学習したニューラルネットワークに入力し、クラス分けする。

図１０は、図１の物体検出システム１０における俯瞰データ４１の作成手順を順次に示し、図１１は、図１の物体検出システム１０における解析手段５０のニューラルネットワークの解析手順を順次に示し、図１２は、図１１の解析手順により得られた一連のベクトルの一部構成を示す。
図１０（Ａ）の左端に示すように、上記マトリックスは、水平方向Ｈに並んだ（一組のスライスピース３１ｂに対応する）特徴ベクトルが各深度スライス３１ａ毎に深度方向Ｄに沿って整列している。そして、解析手段５０は、この行列を構成する各ベクトルのうち、図１０（Ｂ）に示すように各水平位置で深度方向Ｄに整列する特徴ベクトルを取り出して、図１０（Ｃ）に示すようにこれらを結合することにより、図１０（Ｄ）に示すように一連の特徴ベクトルから成るテンソルを生成する。

そして、解析手段５０は、図１１に示すように、例えば五層のニューラルネットワーク（非特許文献１参照）、例えば畳み込みニューラルネットワーク、好ましくはパーセプトロンを使用して、このテンソルを処理して物体を検出する。
図１１において、撮像画面の画素数を幅ｗ＝２４，高さｈ＝３７０で、最小高さｈ_ｍｉｎ＝１４０とすると、ニューラルネットワークの第一層は、２４×３７０×３の入力画像を、各画素位置（ストライド１）にて大きさ１１×５×３の６４個のフィルタで畳み込む。第二層は、大きさ５×３×６４の２００個のカーネルを使用する。最大プーリング層は、第一層に対して大きさ８×４の、そして第二層に対して大きさ４×３の分離領域を超えて最大値を計算する。即ち、プーリング領域間のオーバーラップがない。完全に連結された隠れ層（第三層及び第四層）は、大きさ１０２４及び２０４８のニューロンを有しており、出力層（第五層）は５０のニューロンを有する。

ここで、出力層から出力されるベクトル（図１１の右端）は、ニューラルネットワークが最も近い物体と推定する位置である一つのボックス（図１１の右端で、黒く塗りつぶした部分）を除く他のすべての要素が０のベクトルＶである。このベクトルＶの各要素は、メートル単位で区切られており、上述の黒塗り部分の位置により検出した物体までの距離を表わしている。そしてこのような処理が、シーン内のすべてのマトリックスについて繰り返して実行される。

解析手段５０は、図１２に示すように、これらのニューラルネットワークから出力されるベクトルを組み合わせることにより、すべての水平位置について最も近い物体までの距離を把握し、シーン内の最も近い物体の位置を検出することができる。これにより、解析手段５０は、俯瞰データ４１に基づいてシーン内に物体が存在するか否かを選択すると共に、物体までの距離を推定する。

以上説明したように、本発明の物体検出システム１０によれば、撮像手段２０からの撮像データに基づいて画像生成手段で生成された三次元画像３１に関して、俯瞰データ生成手段４０が、三次元画像３１の各スライス画像をそれぞれ低次元化した俯瞰データに変換することにより、次元が低減した分だけデータ量が減少するので、解析手段５０による物体の検出がより迅速に行なわれる。従って、例えば自動車の前方視界を撮像した三次元画像３１から前方に物体を検出する場合に、自動車の走行に伴って逐次前方視界における物体を検出することで障害物等の物体を回避することができる。また、三次元画像３１の深さ方向における断面に基づいて物体を検出することになるため、検出物体の深さ方向の精度が向上し、物体までの距離をより正確に把握することが可能になる。

俯瞰データ生成手段４０は、畳み込みニューラルネットワークから成るオートエンコーダ４２から構成され、オートエンコーダ４２が各スライス画像を低次元化して俯瞰データ４１を生成する。畳み込みニューラルネットワークは、入力層７１、少なくとも一つの中間層７２～７４及び出力層７５から成る多層ニューラルネットワークであって、学習の際に、入力層７１に入力された各スライス画像をいずれかの中間層７２～７４で低次元中間データに変換した後、出力層７５でスライス画像と同じ次元の再構築データにデコードして、再構築データがスライス画像における物体を再現し得るようにディープラーニングにより学習し、学習後は中間層７２～７４から中間データを俯瞰データ４１として解析手段５０に出力する。

上記俯瞰データ生成手段４０の構成によれば、ニューラルネットワークを利用し、ニュウラルネットワークを十分に学習させておくことによって、より精度良く俯瞰データ４１を生成することができるので、物体の検出がより高精度で行なわれる。

俯瞰データ生成手段４０は、各スライス画像をさらに水平方向にスライスしてスライスピース３１ｂを生成し、このスライスピース３１ｂを低次元化して俯瞰データ４１を生成する。各スライス画像が水平方向に分割されることで、その後の低次元化に際してある程度水平方向に関して制御することができるので、水平方向に関してより高精度で物体の検出を行なうことが可能であると共に、各スライスピース３１ｂを順次に連続的に処理することで、一つの三次元画像３１の俯瞰データ４１への変換をより迅速に行なうことが可能になる。

俯瞰データ４１は、各スライス画像またはスライスピース３１ｂをそれぞれベクトルとして、疎ではない特徴空間（以下、ノンスパース特徴空間と呼ぶ）特徴空間にマッピングした特徴ベクトルである。俯瞰データ４１が、可視の俯瞰画像ではなく特徴ベクトルから成る俯瞰データ４１であることから、俯瞰データ４１への変換処理の時間がより一層短縮され、短時間で俯瞰データが生成される。

解析手段５０は、畳み込みニューラルネットワークから構成されており、ディープラーニングにより学習する。ディープラーニングの十分な学習によって三次元画像３１がより精度良く俯瞰データ４１に変換され、この俯瞰データ４１に基づいてより高精度で物体を検出することができる。以下、実施例によりさらに詳細に説明する。

物体検出システム１０の撮像手段２０と制御部６０は、以下の構成のコンピュータを用いた。
撮像手段：ステレオカメラ（ＺＭＰ株式会社製、型番：Robovision 2）
制御部：
ＣＰＵ：Intel(登録商標)社製、型番：Core(登録商標)ｉ７－８７００
ＲＡＭ（ランダムアクセスメモリ）：３２ＧＢ
記憶装置：１ＴＢ
ＧＰＵ：NVIDIA(登録商標)社製、型番：GeForce(登録商標) RTX2070、
ＲＡＭ：８ＧＢ

図１３は建設現場における物体検出の実験例を示す。図１３（Ａ）に示すように、撮像画面２１ａには二人の作業員Ａ，Ｂが見えているが、他の領域は工事車両の「運転可能な領域」である。ステレオカメラによるカラーの撮像信号２１の入力ピクセル数は１２８０×９６０であるが、プログラムにより６４０×４８０へダウンスケールした。撮像のフレーム数（frames per second）は、１２．５ｆｐｓとした。この撮像画面２１ａについて、本物体検出システム１０によって物体検出を行なったところ、図１３（Ｂ）に示す検出結果が得られた。図１３（Ｂ）に示す再構築された二次元スライスピース（図６のステップＳＴ３１参照）のピクセル数は８０×６０であり、図１３（Ｂ）の出力画像を得るための演算時間は８ｍｓであった。
この検出結果は、ｘ軸が水平位置を、ｙ軸が深度を表わしており、物体が検出されない場合には黒地のままであるが、物体、この場合には二人の作業員Ａ，Ｂが検出されると、その水平方向にて最も近い距離から遠い部分がやや白い表示となって物体が存在することがわかる。図１３（Ｂ）において、二人の作業員Ａ，Ｂがそれぞれ明確に検出され、それぞれ距離に応じて深度が位置決めされていることが確認できる。

図１４は、図１３（Ａ）と同様の条件で取得した都市環境における物体検出の実験例を示しており、都市の道路において、運転のために障害物のない道路を除いて、歩行者、歩道、木、車両等を含む全ての障害を検出することを目的とした。
図１４（Ａ）に示すように、撮像画面２１ａには道路走行中の車両から前方を撮像した画像が写っており、前方車両Ｃと左端の歩道Ｄと右側の道路境界柵Ｅが見えている。ステレオカメラによるカラーの撮像信号２１の入力ピクセル数は１２８０×９６０であるが、プログラムにより６４０×４８０へダウンスケールした。撮像のフレーム数（frames per second）は、１２．５ｆｐｓとした。この撮像画面２１ａについて、本物体検出システム１０により物体検出を行なったところ、図１４（Ｂ）に示す検出結果が得られた。図１４（Ｂ）に示す再構築された二次元スライスピース（図６のステップＳＴ３１参照）のピクセル数は８０×６０であり、図１４（Ｂ）の出力画像を得るための演算時間は８ｍｓであった。
図１４（Ｂ）において、前方の車両Ｃと、左端の歩道Ｄ及び道路境界柵Ｅがそれぞれ検出されていることがわかる。この場合、走行中の車両から１２．５ｆｐｓで撮像した撮像画面２１ａにより、物体検出における評価指数であるIntersection over Union(ＩｏＵ精度と呼ぶ)として、８８％程度の良好なＩｏＵ精度が得られた。なお、物体までの実際の距離と位置を確認するためには、図８（Ｂ）に示すように、三次元空間への簡単な投影が必要となる。

本発明は、その趣旨を逸脱しない範囲において様々な形態で実施することができる。例えば、上述した実施形態においては、撮像手段２０は、ステレオカメラが使用されているが、例えば自動運転車両で使用されている前方監視用のライダーを使用して三次元画像３１を得ることも可能であり、また単眼カメラを使用して、従来公知の手法により単眼カメラの撮像画像とポイントクラウドを組み合わせて、三次元画像３１を得るようにしてもよい。

１０：物体検出システム、２０：撮像手段、２１：撮像信号、
２１ａ：撮像画面、３０：三次元画像生成手段、３１：三次元画像、３１ａ：深度スライス、３１ｂ：スライスピース、４０：俯瞰データ生成手段、４１：俯瞰データ、４２：オートエンコーダ、４２ａ：エンコーダ部分、
４２ｂ：デコーダ部分、５０：解析手段、６０：制御部、７０：オートエンコーダ、７１：入力層、７２～７４：中間層、７５：出力層

Claims

撮像手段と、前記撮像手段で取得された撮像データに基づいて三次元画像を生成する画像生成手段と、前記画像生成手段で生成された前記三次元画像に基づいて俯瞰処理により俯瞰データを生成する俯瞰データ生成手段と、前記俯瞰データに基づいて物体を検出する解析手段と、を含んでおり、
前記俯瞰データ生成手段が、前記三次元画像の深さ方向に関して複数箇所の断面をスライス画像として取り出して、各スライス画像を低次元化して俯瞰データを生成し、
前記解析手段が、畳み込みニューラルネットワークから構成され、前もってディープラーニングにより前記物体の種別を学習し、前記俯瞰データに基づいて、高さ方向に関して複数箇所の断面をスライスデータとして抽出して、前記物体が存在するか否かを選択すると共に、該物体までの距離を推定することにより物体を検出する、物体検出システム。
前記俯瞰データ生成手段が、畳み込みニューラルネットワークから成るオートエンコーダから構成されており、
前記オートエンコーダが、前記各スライス画像を低次元化して前記俯瞰データを生成する、請求項１に記載の物体検出システム。
前記オートエンコーダが、一つのシーンに関して各深度スライス毎に水平位置を示す一連の特徴ベクトルと、深度位置を表わす各深度スライスとを結合することにより、前記俯瞰データとしてのテンソルを形成する、請求項２に記載の物体検出システム。
前記畳み込みニューラルネットワークが、入力層，少なくとも一つの中間層及び出力層から成る多層ニューラルネットワークであって、学習の際に、前記入力層に入力された各スライス画像を、いずれかの中間層で低次元中間データに変換した後、前記出力層で前記スライス画像と同じ次元の再構築データにデコードして、前記再構築データがスライス画像における物体を再現し得るようにディープラーニングにより学習し、学習後は、前記中間層から中間データを俯瞰データとして前記解析手段に出力する、請求項２に記載の物体検出システム。
前記俯瞰データ生成手段が、各スライス画像をさらに水平方向にスライスしてスライスピースを生成し、このスライスピースを低次元化して前記俯瞰データを生成する、請求項１から４の何れかに記載の物体検出システム。
前記俯瞰データが、各スライス画像またはスライスピースをそれぞれベクトルとして、ノンスパース特徴空間にマッピングした特徴ベクトルを含むデータである、請求項１から５の何れかに記載の物体検出システム。
物体検出プログラムをコンピュータに実行させる物体検出方法であって、
撮像データに基づいて三次元画像を生成する画像生成段階と、前記画像生成段階で生成された三次元画像に基づいて俯瞰処理により俯瞰データを生成する俯瞰データ生成段階と、前記俯瞰データに基づいて物体を検出する解析段階と、を含んでおり、
前記俯瞰データ生成段階にて、前記三次元画像の深さ方向に関して複数箇所の断面をスライス画像として取り出して、各スライス画像を低次元化して俯瞰データを生成し、
前記解析段階にて、畳み込みニューラルネットワークにより前もってディープラーニングにより前記物体の種別を学習し、前記俯瞰データに基づいて、高さ方向に関して複数箇所の断面をスライスデータとして抽出して、前記物体が存在するか否かを選択すると共に、該物体までの距離を推定することにより物体を検出する、物体検出方法。
撮像データに基づいて三次元画像を生成する画像生成手順と、前記画像生成手順で生成された三次元画像に基づいて俯瞰処理により俯瞰データを生成する俯瞰データ生成手順と、前記俯瞰データに基づいて物体を検出する解析手順の処理をコンピュータに実行させるための物体検出プログラムであって、
前記俯瞰データ生成手順にて、前記三次元画像の深さ方向に関して複数箇所の断面をスライス画像として取り出して、各スライス画像を低次元化して俯瞰データを生成し、
前記解析手順にて、畳み込みニューラルネットワークにより前もってディープラーニングにより前記物体の種別を学習し、前記俯瞰データに基づいて、高さ方向に関して複数箇所の断面をスライスデータとして抽出して、前記物体が存在するか否かを選択すると共に、該物体までの距離を推定することにより物体の方向及び距離を検出することをコンピュータに実行させる、物体検出プログラム。