JP2022045947A5

JP2022045947A5 -

Info

Publication number: JP2022045947A5
Application number: JP2020151723A
Authority: JP
Filing date: 2020-09-10
Publication date: 2023-03-14
Anticipated expiration: 2040-09-10

Description

本発明は、障害物検知装置、障害物検知システム及び障害物検知方法に関する。

従来、列車の走行安全性を向上させるための技術として、センサを用いた技術が知られている。例えば、物体認識装置として、ミリ波レーダやレーザレーダ等の物体検出センサを列車に搭載し、倒木、動物、車、歩行者等の、列車の走行を阻止する可能性のある障害物を検出する手段が存在する。斯かる物体認識装置は、その物体検出結果に基づいて、列車の走行安全性を向上させるための各種制御を行う。

列車の走行を阻止する可能性のある障害物を検出するに当たって、物体の列車からの距離を正確に判定すること（いわゆる「深度判定」）が重要である。従来では、ステレオカメラによって取得した２つのステレオ画像の視差を計算し、当該視差に基づいて画像上の物体の深度判定を行う技術が知られている。しかし、前景の物体によって隠されている背景の物体や、片方の画像にしか映らない物体については、視差を計算することができないため、深度を正確に判定することができない。

斯かる課題を解決し、より正確な深度判定を行ういくつかの提案がなされている。
例えば、特表２０１７－５２８７３１（特許文献１）には「本開示は、既知の投影パターンを使用して、ステレオ奥行き検出（又は、カメラに基づく他の奥行き検出）をよりロバストにすることを対象とする。ドットが、キャプチャされた画像において検出され、異なる奥行きにおける既知の投影パターンと比較されて、各奥行きにおける照合信頼度スコアが決定される。信頼度スコアは、サブ画素解像度におけるものであり得る各ドット位置における奥行きを決定するための基礎として使用され得る。信頼度スコアはまた、ドット位置に対応する画素の間にある画素についての奥行き値を見つけ出すために、画素奥行きを補間するための重み等の基礎として使用され得る」技術が記載されている。
また、米国特許出願ＵＳ９４４３１５４Ｂ２には、「第１のカメラからの第１の画像フレームおよび第２のカメラからの第２の画像フレームを処理することによって物体を検出するように動作可能な車両に搭載可能なコンピュータ化されたシステム。第１の範囲は、第１の画像フレームを使用して前記検出されたオブジェクトに決定される。画像位置は、第１の画像フレーム内の検出されたオブジェクトの第２の画像フレーム内の画像位置に投影される。第２の範囲は、第１および第２の画像フレームの両方に基づいて、検出されたオブジェクトに対して決定される。検出された物体は、第１および第２の画像フレームの両方で追跡される。検出された物体が第１のカメラの視野を離れると、第２の範囲および第２の画像フレームに応じて第３の範囲が決定される」技術が記載されている。

特表２０１７－５２８７３１米国特許出願ＵＳ９４４３１５４Ｂ２

特許文献１は、所定の物体に対して既知の投影パターンを投影した後、２つ以上のカメラを用いてマルチビューステレオ画像を取得し、これらの画像に写る投影パターンの視差に基づいて深度を推定する手段に関する。
また、特許文献２は、可視光カメラによって取得された可視光画像と、赤外線カメラによって取得された赤外線画像とを結合することにより、より正確な物体検出手段を提供することに関する。

しかし、特許文献１及び特許文献２はいずれも、ステレオ画像間の視差に基づいた深度判定手法に依存しており、斯かる手法では、近距離の物体については正確な深度判定ができるものの、遠距離の物体については、深度情報の精度が不十分である。
更に、特許文献１に記載の手段では、被写体が動かない、静的な撮影環境を前提としており、列車や自動車等の移動体に適用した場合、移動体と物体の相対的移動により、物体に対して投影された既知の投影パターンが歪められてしまうため、正確な深度判定が困難となる。
従って、列車等の移動体に適用可能であり、かつ、近距離の物体及び遠距離の物体の両方について高精度な深度情報に基づく障害物検出手段が求められている。

そこで、本開示は、２種類の深度表現（例えば、ステレオ画像に基づいた深度表現と機械学習手法に基づいた深度表現等）を結合することにより、列車等の移動体に適用可能であり、かつ、近距離の物体及び遠距離の物体の両方について高精度な物体検出が可能な障害物検出手段を提供することを目的とする。

上記の課題を解決するために、代表的な本発明の障害物検知装置の一つは、移動体の周辺の障害物を検知する障害物検知装置であって、前記障害物検知装置は、第１のセンサによって取得された第１の画像と、第２のセンサによって取得された第２の画像とから生成される視差画像を用いて、前記移動体と前記移動体の周辺に存在する物体との距離を示す第１の深度表現を生成する第１の深度表現生成部と、前記第１の画像を所定の機械学習手法によって処理することにより、前記移動体と前記移動体の周辺に存在する物体との距離を示す第２の深度表現を生成する第２の深度表現生成部と、前記第１の深度表現と、前記第２の深度表現とを結合することで、前記第１の深度表現と前記第２の深度表現とに比べて、前記移動体と前記移動体の周辺に存在する物体との距離をより正確に示す結合深度表現を生成する第３の深度表現生成部と、前記結合深度表現を用いて、前記移動体の周辺の障害物に関する障害物情報を生成し、出力する障害物検出部と、を含む。

本発明によれば、２種類の深度表現（例えばステレオ画像に基づいた深度表現と機械学習手法に基づいた深度表現等）を結合することにより、列車等の移動体に適用可能であり、かつ、近距離の物体及び遠距離の物体の両方について高精度な物体検出が可能な障害物検出手段を提供することができる。
上記以外の課題、構成及び効果は、以下の発明を実施するための形態における説明により明らかにされる。

図１は、本開示の実施例を実施するためのコンピュータシステムを示す図である。図２は、本開示の実施例１に係る障害物検知装置のハードウェア構成を示す図である。図３は、本開示の実施例１に係る障害物検知方法の流れの一例を示すフローチャートである。図４は、本開示の実施例１に係る結合深度表現を生成する処理の一例を示すフローチャートである。図５は、本開示の実施例１に係るポイントクラウドを用いる処理の具体例を示す図である。図６は、本開示の実施例１に係る、深度表現を補正する処理の具体例を示す図である。図７は、本開示の実施例１に係る結合深度表現生成処理におけるバウンディングボックスの具体例を示す図である。図８は、本開示の実施例２に係る障害物検知装置のハードウェア構成を示す図である。図９は、本開示の実施例２に係る障害物検知方法の流れの一例を示すフローチャートである。図１０は、本開示の実施例２に係る第１の深度表現を補正する処理の一例を示す図である。図１１は、本開示の実施例３に係る結合深度表現を生成する処理の一例を示すフローチャートである。図１２は、本開示の実施例４に係る結合深度表現を生成する処理の一例を示すフローチャートである。図１３は、本開示の実施例５に係る障害物検知装置のハードウェア構成を示す図である。図１４は、本開示の実施例５に係る障害物検知方法の流れの一例を示すフローチャートである。図１５は、本開示の実施例５に係る結合深度表現を生成する処理の一例を示すフローチャートである。

以下、図面を参照して、従来例及び本発明の実施形態について説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

上述したように、列車の走行を阻止する可能性のある障害物を検出するに当たって、物体の列車からの距離を正確に判定すること（いわゆる「深度判定」）が重要である。従来では、ステレオカメラによって取得した２つのステレオ画像の視差を計算し、当該視差に基づいて画像上の物体の深度判定を行う技術が知られている。

ステレオ画像間の視差に基づいた深度判定において、物体の深度は以下の数式１により求められる。

数式１において、カメラ間距離が小さいと、深度判定の精度が低下する。一方、カメラ間距離が大きいと、２つのステレオ画像間の画素対応付けが困難となる。これらの制限により、ステレオ画像間の視差に基づいた深度判定の検出範囲が限られてしまい、近距離の物体について正確な深度判定ができるものの、遠距離の物体については、深度判定の精度が不十分である。

そこで、上述したように、本開示では、２種類の深度表現（例えばステレオ画像に基づいた深度表現と機械学習手法に基づいた深度表現等）を結合することにより、列車等の移動体に適用可能であり、かつ、近距離の物体及び遠距離の物体の両方について高精度な物体検出が可能な障害物検出手段を提供することができる。ここでの「深度表現」とは、移動体と、当該移動体の周辺に存在する物体との距離（「深度」）を示す情報であり、例えばいわゆる深度マップやポイントクラウド等であってもよい。

より具体的には、ここでの機械学習に基づいた深度表現は、例えば、単一画像から抽出した特徴に基づいた深度マップ（ｄｅｐｔｈｍａｐ）であり、ステレオ画像に基づいた深度表現に比べて検出範囲が広く、遠距離の物体についても、正確な深度情報を示すものである。ここでの深度マップとは、所定の視点から所定の物体までの距離に関する情報を含む画像または画像チャネルである。
また、ステレオ画像に基づいた深度表現は、例えば、２つのステレオ画像間の視差に基づいた深度マップであり、近距離の物体について正確な深度情報を示すものである。

このように、遠距離の物体に関する正確な深度情報を示す機械学習に基づいた深度表現（以下、「第２の深度表現」及び「第３の深度表現」）と、近距離の物体に関する正確な深度情報を示すステレオ画像に基づいた深度表現（以下、「第１の深度表現」）とを結合することで、撮影画像の全範囲について高精度な物体検出が可能となる。これにより、列車等の移動体の周辺に存在する障害物を正確に検出することができ、走行の安全性を向上させることができる。

まず、図１を参照して、本開示の実施形態を実施するためのコンピュータシステム３００について説明する。本明細書で開示される様々な実施形態の機構及び装置は、任意の適切なコンピューティングシステムに適用されてもよい。コンピュータシステム３００の主要コンポーネントは、１つ以上のプロセッサ３０２、メモリ３０４、端末インターフェース３１２、ストレージインタフェース３１４、Ｉ／Ｏ（入出力）デバイスインタフェース３１６、及びネットワークインターフェース３１８を含む。これらのコンポーネントは、メモリバス３０６、Ｉ／Ｏバス３０８、バスインターフェースユニット３０９、及びＩ／Ｏバスインターフェースユニット３１０を介して、相互的に接続されてもよい。

コンピュータシステム３００は、プロセッサ３０２と総称される１つ又は複数の汎用プログラマブル中央処理装置（ＣＰＵ）３０２Ａ及び３０２Ｂを含んでもよい。ある実施形態では、コンピュータシステム３００は複数のプロセッサを備えてもよく、また別の実施形態では、コンピュータシステム３００は単一のＣＰＵシステムであってもよい。各プロセッサ３０２は、メモリ３０４に格納された命令を実行し、オンボードキャッシュを含んでもよい。

ある実施形態では、メモリ３０４は、データ及びプログラムを記憶するためのランダムアクセス半導体メモリ、記憶装置、又は記憶媒体（揮発性又は不揮発性のいずれか）を含んでもよい。メモリ３０４は、本明細書で説明する機能を実施するプログラム、モジュール、及びデータ構造のすべて又は一部を格納してもよい。例えば、メモリ３０４は、障害物検出アプリケーション３５０を格納していてもよい。ある実施形態では、障害物検出アプリケーション３５０は、後述する機能をプロセッサ３０２上で実行する命令又は記述を含んでもよい。

ある実施形態では、障害物検出アプリケーション３５０は、プロセッサベースのシステムの代わりに、またはプロセッサベースのシステムに加えて、半導体デバイス、チップ、論理ゲート、回路、回路カード、および/または他の物理ハードウェアデバイスを介してハードウェアで実施されてもよい。ある実施形態では、障害物検出アプリケーション３５０は、命令又は記述以外のデータを含んでもよい。ある実施形態では、カメラ、センサ、または他のデータ入力デバイス（図示せず）が、バスインターフェースユニット３０９、プロセッサ３０２、またはコンピュータシステム３００の他のハードウェアと直接通信するように提供されてもよい。

コンピュータシステム３００は、プロセッサ３０２、メモリ３０４、表示システム３２４、及びＩ／Ｏバスインターフェースユニット３１０間の通信を行うバスインターフェースユニット３０９を含んでもよい。Ｉ／Ｏバスインターフェースユニット３１０は、様々なＩ／Ｏユニットとの間でデータを転送するためのＩ／Ｏバス３０８と連結していてもよい。Ｉ／Ｏバスインターフェースユニット３１０は、Ｉ／Ｏバス３０８を介して、Ｉ／Ｏプロセッサ（ＩＯＰ）又はＩ／Ｏアダプタ（ＩＯＡ）としても知られる複数のＩ／Ｏインタフェースユニット３１２，３１４，３１６、及び３１８と通信してもよい。

表示システム３２４は、表示コントローラ、表示メモリ、又はその両方を含んでもよい。表示コントローラは、ビデオ、オーディオ、又はその両方のデータを表示装置３２６に提供することができる。また、コンピュータシステム３００は、データを収集し、プロセッサ３０２に当該データを提供するように構成された1つまたは複数のセンサ等のデバイスを含んでもよい。

例えば、コンピュータシステム３００は、心拍数データやストレスレベルデータ等を収集するバイオメトリックセンサ、湿度データ、温度データ、圧力データ等を収集する環境センサ、及び加速度データ、運動データ等を収集するモーションセンサ等を含んでもよい。これ以外のタイプのセンサも使用可能である。表示システム３２４は、単独のディスプレイ画面、テレビ、タブレット、又は携帯型デバイスなどの表示装置３２６に接続されてもよい。

Ｉ／Ｏインタフェースユニットは、様々なストレージ又はＩ／Ｏデバイスと通信する機能を備える。例えば、端末インタフェースユニット３１２は、ビデオ表示装置、スピーカテレビ等のユーザ出力デバイスや、キーボード、マウス、キーパッド、タッチパッド、トラックボール、ボタン、ライトペン、又は他のポインティングデバイス等のユーザ入力デバイスのようなユーザＩ／Ｏデバイス３２０の取り付けが可能である。ユーザは、ユーザインターフェースを使用して、ユーザ入力デバイスを操作することで、ユーザＩ／Ｏデバイス３２０及びコンピュータシステム３００に対して入力データや指示を入力し、コンピュータシステム３００からの出力データを受け取ってもよい。ユーザインターフェースは例えば、ユーザＩ／Ｏデバイス３２０を介して、表示装置に表示されたり、スピーカによって再生されたり、プリンタを介して印刷されたりしてもよい。

ストレージインタフェース３１４は、１つ又は複数のディスクドライブや直接アクセスストレージ装置３２２（通常は磁気ディスクドライブストレージ装置であるが、単一のディスクドライブとして見えるように構成されたディスクドライブのアレイ又は他のストレージ装置であってもよい）の取り付けが可能である。ある実施形態では、ストレージ装置３２２は、任意の二次記憶装置として実装されてもよい。メモリ３０４の内容は、ストレージ装置３２２に記憶され、必要に応じてストレージ装置３２２から読み出されてもよい。Ｉ／Ｏデバイスインタフェース３１６は、プリンタ、ファックスマシン等の他のＩ／Ｏデバイスに対するインターフェースを提供してもよい。ネットワークインターフェース３１８は、コンピュータシステム３００と他のデバイスが相互的に通信できるように、通信経路を提供してもよい。この通信経路は、例えば、ネットワーク３３０であってもよい。

ある実施形態では、コンピュータシステム３００は、マルチユーザメインフレームコンピュータシステム、シングルユーザシステム、又はサーバコンピュータ等の、直接的ユーザインターフェースを有しない、他のコンピュータシステム（クライアント）からの要求を受信するデバイスであってもよい。他の実施形態では、コンピュータシステム３００は、デスクトップコンピュータ、携帯型コンピュータ、ノートパソコン、タブレットコンピュータ、ポケットコンピュータ、電話、スマートフォン、又は任意の他の適切な電子機器であってもよい。

次に、図２を参照して、本開示の実施例１に係る障害物検知装置のハードウェア構成について説明する。

図２は、本開示の実施例１に係る障害物検知装置２００のハードウェア構成を示す図である。図２に示す障害物検知装置２００は、ステレオ画像に基づいた深度表現、機械学習に基づいた深度表現との２種類の深度表現を結合することにより、近距離の物体及び遠距離の物体の両方について高精度な物体検出及び深度判定を行うための装置である。
なお、本実施例では、第１の深度表現、第２の深度表現、及び第３の深度表現を深度マップとした場合を想定して説明するが、本開示はこれに限定されず、移動体と、当該移動体の周辺に存在する物体までの距離を示すものであれば、異なるデータ構造であってもよい。

図２に示すように、本開示の実施例１に係る障害物検知装置２００は、第１のセンサ２０１、第２のセンサ２０２、第１の深度表現生成部２０５、第２の深度表現生成部２０６、及び第３の深度表現生成部２１０を主に含む。図２に示す障害物検知装置２００に含まれる第１のセンサ２０１、第２のセンサ２０２、第１の深度表現生成部２０５、第２の深度表現生成部２０６、及び第３の深度表現生成部２１０は、一体的に構成され、列車等の移動体に配置されてもよく、分散された構成であってもよい。例えば、ある実施形態では、第１のセンサ２０１及び第２のセンサ２０２のみを列車等の移動体に配置し、第１の深度表現生成部２０５、第２の深度表現生成部２０６、及び第３の深度表現生成部２１０の機能を、インターネット等の通信ネットワークを介して移動体に接続されている遠隔のサーバ装置等に実施させてもよい。
なお、ここでの列車等の移動体（図示せず）は、鉄道の運行の単位として編成した車両、自動車、モノレール、飛行機、船舶等、任意の移動体であってもよい。

第１のセンサ２０１及び第２のセンサ２０２は、列車等の移動体の周辺を継続的に撮影し、画像を取得する撮影装置である。第１のセンサ２０１及び第２のセンサ２０２は、互いに所定の距離を開けて配置され、実質的に同一の撮影範囲を撮影するように構成される。また、第１のセンサ２０１及び第２のセンサ２０２の種類は、例えば可視光画像を取得するための可視光カメラ、ステレオカメラ、赤外線カメラ等であってもよい。
図２に示すように、第１のセンサ２０１及び第２のセンサ２０２は、第１の画像２０３及び第２の画像２０４をそれぞれ取得する。この第１の画像２０３及び第２の画像２０４は、センサの種類によっては、ＲＧＢ画像、赤外線画像、ステレオ画像等、任意の形式の画像であってもよいが、本実施例では、第１の画像２０３及び第２の画像２０４のそれぞれが単一のステレオ画像とした場合を想定して説明する。
これらの第１の画像２０３及び第２の画像２０４は、後述するように、機械学習に基づく深度表現と、ステレオ画像間の視差に基づく深度表現の生成に用いられる。

第１の深度表現生成部２０５は、第１のセンサ２０１によって取得された第１の画像２０３と、第２のセンサ２０２によって取得された第２の画像２０４とから生成される視差画像を用いて、第１の深度表現２０８を生成するための機能部である。ここでの視差画像は、既存の手段によって生成されてもよい。
なお、ここでの第１の深度表現２０８とは、第１の画像２０３と、第２の画像２０４との視差から生成される深度表現であるため、遠距離の物体に関する深度情報の精度が限られているが、近距離の物体に関する深度情報の精度が良好である。

第２の深度表現生成部２０６は、第１の画像２０３を所定の機械学習手法によって処理することにより、第２の深度表現２０７を生成すると共に、第２の画像２０４を所定の機械学習手法によって処理することにより、第３の深度表現２０９を生成するための機能部である。
なお、ここでの第２の深度表現２０７と、第３の深度表現２０９とは、第１の画像２０３と、第２の画像２０４との視差から生成される第１の深度表現２０８と異なり、単一の画像に対して所定の機械学習手法を施すことにより得られる深度表現であり、遠距離の物体に関する深度情報の精度が良好である。

第３の深度表現生成部２１０は、第１の深度表現２０８と、第２の深度表現２０７及び／又は第３の深度表現２０９とを結合することで、結合深度表現２１２を生成するための機能部である。
ここでの結合深度表現２１２とは、遠距離の物体に関する正確な深度情報を示す機械学習に基づいた深度表現である第２の深度表現２０７及び／又は第３の深度表現２０９と、近距離の物体に関する正確な深度情報を示すステレオ画像に基づいた深度表現である第１の深度表現２０８とを結合することで生成され、撮影画像の全範囲について高精度な深度情報を含む深度表現である。
なお、この結合深度表現２１２は、遠距離の物体に関する正確な深度情報を示す機械学習に基づいた深度表現である第２の深度表現２０７及び第３の深度表現２０９のいずれか一方と、近距離の物体に関する正確な深度情報を示すステレオ画像に基づいた深度表現である第１の深度表現２０８との少なくとも２つの深度表現とから生成することができるが、深度判定の精度を更に向上させる観点から、第１の深度表現２０８と、第２の深度表現２０７と、第３の深度表現２０９との３つの深度表現から生成することが望ましい。

障害物検出部２１４とは、第３の深度表現生成部２１０によって生成される結合深度表現２１２を用いて、移動体の周辺の障害物に関する障害物情報２１６を生成し、出力するための機能部である。
ここでの障害物情報２１６とは、倒木、動物、車、歩行者、火事、水没、レール破断等の、列車の走行を阻止する可能性のある障害物の有無、存在位置、推定移動速度、移動方向、移動体からの距離、カテゴリー（倒木、動物）等、障害物を特徴付ける情報を含む。この障害物情報２１６は、例えば列車の運行を制御するための遠隔列車運行管理部、列車に内蔵されている列車運行管理部、列車の運転士・乗務員、障害物通知を発した列車とは異なる列車（所定の半径以内の列車等）、又は警察署、消防署、気象庁、企業、機関、団体、個人等、任意の通知先に送信されてもよい。この障害物情報２１６を受信した通知先は、例えば、列車の運行を制御したり、検出された障害物を処分したりして列車の走行安全性を向上させるための対策を実施してもよい。

なお、障害物検知装置２００に含まれるそれぞれの機能部は、図１に示すコンピュータシステム３００における障害物検出アプリケーション３５０を構成するソフトウエアモジュールであってもよく、独立した専用ハードウェアデバイスであってもよい。また、上記の機能部は、同一のコンピューティング環境に実施されてもよく、分散されたコンピューティング環境に実施されてもよい。

以上説明したように構成された障害物検知装置２００は、遠距離の物体に関する正確な深度情報を示す機械学習に基づいた深度表現（第２の深度表現２０７及び／又は第３の深度表現２０９）と、近距離の物体に関する正確な深度情報を示すステレオ画像に基づいた深度表現（第１の深度表現２０８）とを結合することで、撮影画像の全範囲について高精度な物体検出が可能となる。これにより、列車等の移動体の周辺に存在する障害物を正確に検出することができ、走行の安全性を向上させることができる。

次に、図３を参照して、本開示の実施例１に係る障害物検知方法について説明する。

図３は、本開示の実施例１に係る障害物検知方法３６０の流れの一例を示すフローチャートである。図３に示す障害物検知方法３６０は、例えば図２を参照して説明した障害物検知装置２００によって実施され、移動体の周辺に存在する障害物を検出するための処理である。

まず、ステップＳ３６１、ステップＳ３６２では、第１のセンサ及び第２のセンサ（例えば、図２に示す第１のセンサ２０１及び第２のセンサ２０２）のそれぞれは、移動体の周辺を撮影し、第１の画像２０３及び第２の画像２０４を取得する。ここでの第１の画像２０３及び第２の画像２０４のそれぞれは、移動体の周辺の風景を示す画像である。また、第１の画像２０３及び第２の画像２０４は、後述するように、機械学習に基づく深度表現と、ステレオ画像間の視差に基づく深度表現の生成に用いられる。

次に、ステップＳ３６３では、第１の深度表現生成部（例えば、図２に示す第１の深度表現生成部２０５）は、第１の画像２０３及び第２の画像２０４のそれぞれを入力し、既存の手法により、第１の画像２０３と第２の画像２０４との視差を示す視差画像を生成した後、当該視差画像を用いて第１の深度表現を生成する。ここでの既存の手法とは、例えばエピポーラ幾何学に基づいた手法であってもよい。このように生成した深度表現は、近距離の物体に関する正確な深度情報を含む。

次に、ステップＳ３６４では、第２の深度表現生成部（例えば、図２に示す第２の深度表現生成部２０６）は、第１の画像２０３及び第２の画像２０４のそれぞれを入力し、第１の画像２０３及び第２の画像２０４のそれぞれに対して所定の機械学習手法を施すことより、第２の深度表現２０７及び第３の深度表現２０９を生成する。
ここでの所定の機械学習手法とは、学習用画像と、（例えばいわゆるＳｔｒｕｃｔｕｒｅＦｒｏｍＭｏｔｉｏｎ；ＳＦＭ法によって得られた）当該学習用画像に対応する深度マップとによって訓練される畳み込みニューラルネットワークを用いて、第１の画像２０３及び第２の画像２０４に写る物体の特徴量を抽出し、抽出した特徴量に基づいて、画像に写る物体の深度を示す深度表現を生成するための手法である。このように生成した深度表現は、ステレオ画像間の視差に基づいて生成した深度表現に比べて、遠距離の物体に関する正確な深度情報を含む。
ここでのニューラルネットワークは、例えば、第１の画像を入力する入力層と、第１の画像における物体を特徴付けるコンテキスト特徴量を抽出する中間層と、当該コンテキスト特徴量を用いて、第１の画像の画素毎の深度情報を示す前記第１の深度表現を生成し、出力する出力層をから構成されてもよい。また、ここでのコンテキスト特徴量とは、所定の物体を特徴付ける情報であり、例えば色、形状、大きさ、クラス等を含む。

次に、ステップＳ３６５では、第３の深度表現生成部（例えば、図２に示す第３の深度表現生成部２１０）は、第１の深度表現２０８と、第２の深度表現２０７及び・又は第３の深度表現２０９とを結合することで、結合深度表現２１２を生成する。
ここでの結合深度表現２１２とは、遠距離の物体に関する正確な深度情報を示す機械学習に基づいた深度表現である第２の深度表現２０７及び・又は第３の深度表現２０９と、近距離の物体に関する正確な深度情報を示すステレオ画像に基づいた深度表現である第１の深度表現２０８とを結合することで生成され、撮影画像の全範囲について高精度な深度情報を含む深度表現である。
なお、この結合深度表現２１２は、遠距離の物体に関する正確な深度情報を示す機械学習に基づいた深度表現である第２の深度表現２０７及び第３の深度表現２０９のいずれか一方と、近距離の物体に関する正確な深度情報を示すステレオ画像に基づいた深度表現である第１の深度表現２０８との少なくとも２つの深度表現とから生成することができるが、深度判定の精度を更に向上させる観点から、第１の深度表現２０８と、第２の深度表現２０７と、第３の深度表現２０９との３つの深度表現から生成することが望ましい。また、ここでは、結合深度表現２１２を生成する際に用いられる深度表現の数は特定に限定されず、４つ以上の深度表現を用いてもよい。

次に、ステップＳ３６６では、障害物検出部（例えば、図２に示す障害物検出部２１４）は、第３の深度表現生成部によって生成される結合深度表現２１２を解析することで、移動体の周辺の障害物に関する障害物情報２１６を生成し、出力する。上述したように、ここで生成される障害物情報２１６は、列車の運転士・乗務員、障害物通知を発した列車とは異なる列車（所定の半径以内の列車等）、又は警察署、消防署、気象庁、企業、機関、団体、個人等、任意の通知先に送信されてもよい。

以上説明した障害物検知方法３６０により、遠距離の物体に関する正確な深度情報を示す機械学習に基づいた深度表現（第２の深度表現２０７又は第３の深度表現２０９）と、近距離の物体に関する正確な深度情報を示すステレオ画像に基づいた深度表現（第１の深度表現２０８）とを結合することで、撮影画像の全範囲について高精度な物体検出が可能となる。これにより、列車等の移動体の周辺に存在する障害物を正確に検出することができ、走行の安全性を向上させることができる。

次に、図４を参照して、本開示の実施例１に係る結合深度表現を生成する処理について説明する。

図４は、本開示の実施例１に係る結合深度表現を生成する処理（結合深度表現生成処理）４００の一例を示すフローチャートである。図４に示す結合深度表現生成処理４００は、上述した第３の深度表現生成部（例えば、図３に示す第３の深度表現生成部２１０）によって実施される処理である。

まず、ステップＳ４０１、Ｓ４０２、及びＳ４０３では、第３の深度表現生成部は、第１の深度表現２０８、第２の深度表現２０７、及び第３の深度表現２０９のそれぞれを、ポイントクラウドへ変換する。ここでのポイントクラウドとは、深度表現における各深度画素（移動体からの距離を示す深度情報を含む画素；「depth pixel」ともいう）を３次元空間に投影した集合である。例えば、ここでは、いわゆる深度マップである第１の深度表現２０８、第２の深度表現２０７、及び第３の深度表現２０９は、ポイントクラウドへ変換されてもよい。ここで、深度マップをポイントクラウドへ変換することにより、後述するグルーピング処理がより容易となる。

次に、ステップＳ４０４では、第３の深度表現生成部は、ステップＳ４０２で生成された、第１の深度表現２０８（ステレオ画像間の視差に基づいて生成された深度表現）に対応するポイントクラウドと、ステップＳ４０１で生成された、第２の深度表現２０７（第１の画像に対して所定の機械学習手法を施すことにより生成した深度表現）に対応するポイントクラウドとを比較することにより、第１の深度表現２０８と第２の深度表現２０７との深度の差分を示す深度差分値を計算する。
より具体的には、ステップＳ４０４では、第３の深度表現生成部は、所定の物体検出アルゴリズム（４０６）によって定義されるバウンディングボックスの位置に基づいて、それぞれのポイントクラウドの間で対応する物体をグルーピングした後、それぞれのポイントクラウドでのグルーピングの結果を比較することで、第１の深度表現２０８と第２の深度表現２０７との深度の差分を示す深度差分値を計算する。なお、この処理の詳細については後述する。

次に、ステップＳ４０５では、第３の深度表現生成部は、ステップＳ４０２で生成された、第１の深度表現２０８（ステレオ画像間の視差に基づいて生成された深度表現）に対応するポイントクラウドと、ステップＳ４０３で生成された、第３の深度表現２０９（第２の画像に対して所定の機械学習手法を施すことにより生成した深度表現）に対応するポイントクラウドとを比較することにより、第１の深度表現２０８と第３の深度表現２０９との深度の差分を示す深度差分値を計算する。
より具体的には、ステップＳ４０５では、第３の深度表現生成部は、所定の物体検出アルゴリズム（４０６）によって定義されるバウンディングボックスの位置に基づいて、それぞれのポイントクラウドの間で対応する物体をグルーピングした後、それぞれのポイントクラウドでのグルーピングの結果を比較することで、第１の深度表現２０８と第３の深度表現２０９との深度の差分を示す深度差分値を計算する。なお、この処理の詳細については後述する。

次に、ステップＳ４０７では、第３の深度表現生成部は、ステップＳ４０４及びステップＳ４０５で計算された差分値を平均化し、補正値を計算する。ここでの補正値とは、それぞれの深度表現のポイントクラウドの深度を整合させるための値であり、後述するＳ４０８で用いられる。

次に、ステップＳ４０８では、第３の深度表現生成部は、ステップＳ４０７で計算された補正値に基づいて、第２の深度表現２０７及び第３の深度表現２０９を補正することで、補正した第２の深度表現２０７Ｒ及び補正した第３の深度表現２０９Ｒを生成する。これにより、第２の深度表現及び第３の深度表現の深度の差分が補正され、第２の深度表現２０７及び第３の深度表現２０９の深度が互いに整合することとなる。

次に、ステップＳ４０９では、第３の深度表現生成部は、補正した第２の深度表現２０７Ｒ及び補正した第３の深度表現２０９Ｒから、移動体から所定の距離以上に存在する物体の深度情報を遠距離物体深度情報として抽出する。例えば、ここで、第３の深度表現生成部は、第１の深度表現の視野の範囲外に存在する物体の深度情報を遠距離物体深度情報として抽出してもよい。

次に、ステップＳ４１０では、第３の深度表現生成部は、第１の深度表現から、移動体から所定の距離未満に存在する物体の深度情報を示す遠距離物体深度情報を抽出する。例えば、ここで、第３の深度表現生成部は、第１の深度表現の視野の範囲内に存在する物体の深度情報を近距離物体深度情報として抽出してもよい。

次に、ステップＳ４１１では、第３の深度表現生成部は、ステップＳ４０９で抽出した遠距離物体深度情報と、ステップＳ４１０で抽出した近距離物体深度情報とを結合することで、上述した結合深度表現を生成する。ここで、遠距離物体深度情報と近距離物体深度情報とを結合する手段として、例えばＨｉｇｈＰａｓｓｆｉｌｔｅｒｉｎｇ，ＨＩＳｔｒａｎｓｆｏｒｍｂａｓｅｄｉｍａｇｅｆｕｓｉｏｎ，ＰＣＡｂａｓｅｄｉｍａｇｅｆｕｓｉｏｎ，ｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍｉｍａｇｅｆｕｓｉｏｎ，ｐａｉｒ－ｗｉｓｅｓｐａｔｉａｌｆｒｅｑｕｅｎｃｙｍａｔｃｈｉｎｇ等、任意の既存の手法を用いてもよい。

以上説明した結合深度表現生成処理により、遠距離の物体に関する正確な深度情報を示す機械学習に基づいた深度表現（第２の深度表現２０７又は第３の深度表現２０９）と、近距離の物体に関する正確な深度情報を示すステレオ画像に基づいた深度表現（第１の深度表現２０８）とを結合することで、撮影画像の全範囲について高精度な深度情報を有する結合深度表現を生成することができる。また、このような高精度な深度情報を有する結合深度表現に基づいて、物体検出を行うことにより、移動体の周辺に存在する障害物等の物体を確実に判定することができ、移動体の走行安全性を向上させることができる。

次に、図５を参照して、本開示の実施例１に係るポイントクラウドを用いる処理の具体例について説明する。

図５は、本開示の実施例１に係るポイントクラウドを用いる処理の具体例を示す図である。図５には、第１の深度表現（ステレオ画像間の視差に基づいて生成された深度表現）に対応するポイントクラウド５０２と、第２の深度表現（第１の画像に対して所定の機械学習手法を施すことにより生成した深度表現）に対応するポイントクラウド５０１と、第３の深度表現（第２の画像に対して所定の機械学習手法を施すことにより生成した深度表現）に対応するポイントクラウド５０３とが示される。これらのポイントクラウド５０１、５０２、５０３は、図４を参照して説明した結合深度表現生成処理４００のＳ４０１、Ｓ４０２、Ｓ４０３で生成されるポイントクラウドである。
なお、図５を参照して説明する具体例は、図４を参照して説明した結合深度表現生成処理４００におけるステップＳ４０５、Ｓ４０６に実質的に対応する。

上述したように、移動体に設置されている第１のセンサ２０１及び第２のセンサ２０２は、設置されている角度によっては、撮影範囲が互いに異なる。そのため、ステレオ画像間の視差に基づいて生成された第１の深度表現に対応するポイントクラウド５０２と、第１の画像に対して所定の機械学習手法を施すことにより生成した第２の深度表現に対応するポイントクラウド５０１と、第２の画像に対して所定の機械学習手法を施すことにより生成した第３の深度表現に対応するポイントクラウド５０３とで、深度の差分が生じると共に、写る物体が異なることがある。
従って、正確な深度情報を取得するためには、ポイントクラウド間の深度の差分を計算し、ポイントクラウドの深度を互いに整合させるための補正を行うことが望ましい。そこで、本実施例では、所定の物体検出アルゴリズムによって定義されるバウンディングボックスを用いて、複数のポイントクラウド間で同一の物体をグルーピング（対応付け）し、これらのグループを比較することでポイントクラウド間の深度差分を計算した後、当該深度差分から得られる補正値を用いてポイントクラウドを補正することで、正確な深度情報を取得することができる。

上述したように、第１のセンサ２０１及び第２のセンサ２０２の角度や視野のズレ等により、全ての物体が全ての画像・深度表現に写るとは限らない。一例として、第１のセンサ２０１及び第２のセンサ２０２によって撮影される場面には、円筒形の第１の障害物と、球体の第２の障害物と、箱型の第３の障害物と、三角形の第４の障害物が実際に存在するとする。ただし、第１のセンサ２０１及び第２のセンサ２０２の角度や撮影範囲の制限等により、円筒形の第１の障害物は、ポイントクラウド５０１において第１の障害物５１２として写るが、ポイントクラウド５０２及びポイントクラウド５０３に写らない。また、三角形の第４の障害物は、ポイントクラウド５０３において第４の障害物５２８として写るが、ポイントクラウド５０１及びポイントクラウド５０２に写らない。更に、箱型の第３の障害物は、ポイントクラウド５０１における第３の障害物５２５として写り、ポイントクラウド５０３において第３の障害物５３５として写るが、ポイントクラウド５０２に写らない（例えば、ステレオカメラの撮影範囲外である）。一方、球体の第２の障害物は、ポイントクラウド５０１において第２の障害物５２４として写り、ポイントクラウド５０２において第２の障害物５３４として写り、ポイントクラウド５０３において第２の障害物５４４として写る。

図４を参照して説明した結合深度表現生成処理４００のＳ４０１、Ｓ４０２、Ｓ４０３で深度表現からポイントクラウドの変換が終了した後、第３の深度表現生成部は、所定の物体検出アルゴリズムによって定義されるバウンディングボックス５０８を用いて、それぞれのポイントクラウドを互いに比較することで、対応する物体（つまり、同一の物体）をグルーピングする。例えば、ここでは、第３の深度表現生成部は、ポイントクラウド５０１に写る第２の障害物５２４を、ポイントクラウド５０２に写る第２の障害物５３４と、ポイントクラウド５０３に写る第２の障害物５４４と対応付けてグルーピングしてもよい。その後、第３の深度表現生成部は、グルーピングした物体のポイントクラウド間の深度差分を示す差分値を計算する。
なお、ここでのバウンディングボックス５０８は、ポイントクラウドにおける比較対象の領域の範囲を指定するものであり、バウンディングボックス５０８のサイズと位置は、例えば電柱や線路等の、鉄道環境に存在するものに基づいて設定されてもよい。このバウンディングボックス５０８を用いることにより、特定の物体に関する正確な深度情報を取得することができる。また、バウンディングボックス５０８を用いて比較対象となる領域を制限することで、処理に要するコンピューティング資源を抑えることができる。

ポイントクラウド間の深度差分を示す差分値が計算された後、第３の深度表現生成部は、物体事に計算された差分値を平均化し、補正値とする。上述したように、この補正値は、それぞれの深度表現のポイントクラウドの深度を整合させるための値である。

次に、図６を参照して、本開示の実施例１に係る、深度表現を補正する処理の具体例について説明する。

図６は、本開示の実施例１に係る、深度表現を補正する処理の具体例を示す図である。図６に示す具体例は、図４を参照して説明した結合深度表現生成処理４００におけるステップＳ４０４～Ｓ４０６で計算された補正値を用いて、深度表現を補正する処理の一例であり、図４を参照して説明した結合深度表現生成処理４００におけるステップＳ４０６～Ｓ４１１に実質的に対応する。

図６には、第２の深度表現２０７、第３の深度表現２０９、第１の深度表現２０８、及び結合深度表現２１２が示される。上述したように、第１のセンサ２０１及び第２のセンサ２０２の角度や視野のズレ等により、全ての物体が全ての画像・深度表現に写るとは限らない。
一例として、第１のセンサ２０１及び第２のセンサ２０２によって撮影される場面には、円筒形の第１の障害物と、球体の第２の障害物と、箱型の第３の障害物と、三角形の第４の障害物が実際に存在するとする。ただし、第１のセンサ２０１及び第２のセンサ２０２の角度や撮影範囲の制限等により、円筒形の第１の障害物（６０５・６１５）が第２の深度表現２０７に写るが、第３の深度表現２０９及び第１の深度表現２０８に写らない。
また、三角形の第４の障害物（６０７・６１７）が第３の深度表現２０９に写るが、第１の深度表現２０８に写らない。更に、箱型の第３の障害物（６０９・６１９、６２９、６３９）は、第２の深度表現２０７及び第３の深度表現２０９に写るが、第１の深度表現２０８に写らない。一方、球体の第２の障害物（６１１・６２１、６３１・６４１、６５１）は、第２の深度表現２０７、第３の深度表現２０９、及び第１の深度表現２０８に写る。

上述したように、第３の深度表現生成部は、図４を参照して説明した結合深度表現生成処理４００におけるステップＳ４０４～Ｓ４０６で計算された補正値を用いて、深度表現の深度が整合されるための補正を行うことで、補正した深度表現を生成する。
一例として、第３の深度表現生成部は、図６に示すように、第２の深度表現２０７において、計算した補正値に基づいて、第１の障害物の深度を６０５から６１５に補正し、第２の障害物の深度を６１１から６２１に補正し、第３の障害物の深度を６０９から６１９に補正する。同様に、第３の深度表現生成部は、図６に示すように、第３の深度表現２０９において、計算した補正値に基づいて、第２の障害物の深度を６３１から６４１に補正し、第３の障害物の深度を６２９から６３９に補正し、第４の障害物の深度を６０７から６１７に補正する。これにより、検出された物体の深度情報が修正されている、補正した第２の深度表現及び補正した第３の深度表現（図４に示す２０７Ｒ、２０９Ｒ）が得られる。

第２の深度表現及び第３の深度表現が補正された後、第３の深度表現生成部は、補正した第２の深度表現及び補正した第３の深度表現から、移動体から所定の距離以上に存在する物体の深度情報を遠距離物体深度情報として抽出する。例えば、ここで、第３の深度表現生成部は、第１の深度表現の視野の範囲外に存在する物体の深度情報（例えば、第１の障害物の深度情報、第３の障害物の深度情報）を遠距離物体深度情報として抽出してもよい。次に、第３の深度表現生成部は、第１の深度表現から、移動体から所定の距離未満に存在する物体の深度情報を示す遠距離物体深度情報を抽出する。例えば、ここで、第３の深度表現生成部は、第１の深度表現の視野の範囲内に存在する物体（例えば、第２の障害物）の深度情報を近距離物体深度情報として抽出してもよい。

次に、第３の深度表現生成部は、抽出した遠距離物体深度情報及び近距離物体深度情報とを結合することで、結合深度表現２１２を生成する。この結合深度表現２１２では、第１の障害物、第２の障害物、第３の障害物、及び第４の障害物が正しい深度（６２５、６５５、６５６、６５７）で表示される。

次に、図７を参照して、本開示の実施例１に係る結合深度表現生成処理におけるバウンディングボックスについて説明する。

図７は、本開示の実施例１に係る結合深度表現生成処理４００におけるバウンディングボックスの具体例を示す図である。上述したように、バウンディングボックス５０８は、図４～図５に示すポイントクラウドにおける比較対象の領域の範囲を指定するものであり、バウンディングボックス５０８のサイズと位置は、例えば電柱や線路等の、鉄道環境に存在するものに基づいて設定されてもよい。

図７に示すように、バウンディングボックス５０８は、深度が異なる物体（例えば、電柱等）に対して設定されてもよい。その後、第３の深度表現生成部は、バウンディングボックスの位置に基づいて、異なる深度範囲における各物体の深度情報を補正するための補正値を計算する。一例として、第３の深度表現生成部は、深度５０メートルの物体に基づいて、１０メートルから１００メートルの深度範囲に存在する物体の深度情報を補正するための第１の補正値を計算し、深度１５０メートルの物体に基づいて、１００メートルから２００メートルの深度範囲に存在する物体の深度情報を補正するための第２の補正値を計算してもよい。

ここでは、深度情報の補正は、１つ又は複数のバウンディングボックスに基づいて行われてもよい。１つのバウンディングボックスの場合には、深度表現における各深度画素（ｄｅｐｔｈｐｉｘｅｌ）ｉについて、当該深度画素ｉの深度情報を補正するための補正値Δｒ_iは、以下の数式２によって求められる。

ここでは、depth_stereoとは、当該深度画素ｉの第１の深度表現における深度であり、depth_singleとは、当該深度画素ｉの第２の深度表現又は第３の深度表現における深度である。

従って、深度画素ｉの深度情報を補正するための補正値Δｒ_iを求めた後、深度画素ｉの補正後の深度depth_rは、以下の数式３によって求められる。

また、２つのバウンディングボックスの場合には、深度表現において異なる深度範囲に存在する２つの物体（例えば、１０メートルから１００メートルの深度範囲に存在する第１の物体と１００メートルから２００メートルの深度範囲に存在する第２の物体）の各深度画素（ｄｅｐｔｈｐｉｘｅｌ）ｉについて、当該深度画素ｉの深度情報を補正するための補正値Δｒ_i（第１の物体の補正値をΔｒ_１とし、第２の物体の補正値をΔｒ₂とする）は、以下の数式４によって求められる。

第１の物体の補正値Δｒ_１及び第２の物体の補正値Δｒ_２を求めた後、異なる深度範囲での補正値の割合εは、以下の数式５によって求められる。

従って、補正値の割合εを求めた後、深度画素ｉの補正後の深度depth_rは、以下の数式６によって求められる。

例えば、一例として、第３の深度表現生成部は、深度５０メートルの第１の物体について、補正値Δｒ_１が「－１０」メートルであると判定し、深度１５０メートルの第２の物体について、補正値Δｒ_２が「－３０」メートルであると判定した場合、補正値の割合εが「-０．２」となる。従って、第２の深度表現又は第３の深度表現において深度３００メートルの物体の補正後の深度depth_rは２４０となる（３００*(１－０．２)）。

次に、図８を参照して、本開示の実施例２に係る障害物検知装置のハードウェア構成について説明する。

図８は、本開示の実施例２に係る障害物検知装置８００のハードウェア構成を示す図である。図８に示す障害物検知装置８００は、図２に示す障害物検知装置２００の構成に加えて、ＬＩＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）部８１４を含む。
このＬＩＤＡＲ部８１４を用いることにより、移動体の周辺に存在する物体についてより高精度の深度情報を有するポイントクラウド８１６（「第４の深度表現」ともいう）を取得することができるため、ステレオ画像間の視差に基づいて生成された深度表現である第１の深度表現２０８を、このポイントクラウド８１６に基づいて補正することにより、実施例１に示す障害物検知装置２００に比べて、更に高精度の障害物検出が可能となる。
なお、本実施例では、第１の深度表現、第２の深度表現、及び第３の深度表現を深度マップとした場合を想定して説明するが、本開示はこれに限定されず、移動体と、当該移動体の周辺に存在する物体までの距離を示すものであれば、異なるデータ構造であってもよい。

実施例２に係る障害物検知装置８００は、ポイントクラウド８１６を生成するＬＩＤＡＲ部８１４を含む点以外、実施例１に係る障害物検知装置２００と実質的に同様であるため、ここでは、共通の構成についての説明を省略する。

図８に示すように、ＬＩＤＡＲ部８１４は、第１のセンサ２０１及び第２のセンサ２０２と共に設置される。ステレオ画像間の視差に基づいて生成された深度表現である第１の深度表現２０８を、ＬＩＤＡＲ部８１４によって出力されるポイントクラウド８１６に基づいて補正することで、更に高精度の深度情報を有する、補正した第１の深度表現を生成することが容易となる。

次に、図９を参照して、本開示の実施例２に係る障害物検知方法について説明する。

図９は、本開示の実施例２に係る障害物検知方法９６０の流れの一例を示すフローチャートである。図９に示す障害物検知方法９６０は、例えば図８を参照して説明した障害物検知装置８００によって実施され、移動体の周辺に存在する障害物を検出するための処理である。
なお、図９に示す障害物検知方法９６０は、ＬＩＤＡＲ部によって取得したポイントクラウドを用いてステレオ画像間の視差に基づいて生成された深度表現である第１の深度表現を補正する点において、上述した図３に示す障害物検知方法３６０と相違する。この点以外、図９に示す障害物検知方法９６０は上述した図３に示す障害物検知方法３６０と実質的に同様であるため、ここでは、共通のステップについての説明を省略する。

ステップＳ９６１では、ＬＩＤＡＲ部は、レーザー光を走査し移動体の周辺を照射し、その散乱や反射光を観測することで、移動体周辺環境を示すポイントクラウド８１６を出力する。上述したように、ここでのポイントクラウド８１６は、ＬＩＤＡＲ部によって取得された移動体周辺の対象物までの距離を示す３次元空間上の深度情報の集合である。
なお、対象物ごとの深度情報の数、分解能は、レーザー光をどのぐらいの間隔で走査するかといった走査方法で決定される。

ステップＳ９６２では、第１の深度表現生成部は、第１の画像２０３及び第２の画像２０４のそれぞれを入力し、既存の手法により、第１の画像２０３と第２の画像２０４との視差を示す視差画像を生成した後、当該視差画像を用いて第１の深度表現を生成する。その後、第１の深度表現生成部は、当該第１の深度表現を、ステップＳ９６１で生成されたポイントクラウドに基づいて補正することで、補正した第１の深度表現を生成する。
なお、ポイントクラウドに基づいて第１の深度表現を補正する処理の詳細については後述する。

補正した第１の深度表現が生成された後、第３の深度表現生成部は、補正した第１の深度表現２０８と、第２の深度表現２０７又は第３の深度表現２０９とを結合することで、結合深度表現２１２を生成する。
このように、ステレオ画像間の視差に基づいて生成された深度表現である第１の深度表現を、このポイントクラウド８１６に基づいて補正することにより、実施例１に比べて、更に高精度の障害物検出が可能となる。

次に、図１０を参照して、本開示の実施例２に係る第１の深度表現を補正する処理について説明する。

図１０は、本開示の実施例２に係る第１の深度表現２０８を補正する処理の一例を示す図である。第１の深度表現２０８を補正する処理は、例えば図８に示す第１の深度表現生成部２０５によって実施され、更に高精度の深度情報を有する深度表現を生成するための処理である。

図１０には、第１の深度表現２０８が示される。第１の深度表現生成部は、第１の深度表現２０８における各ポイント（例えば、物体の画素や頂点等）１００１について、当該ポイントに対応する（例えば、所定の距離基準未満の）ポイントをポイントクラウド（例えば、図８に示す、ＬＩＤＡＲ部８１４によって生成されたポイントクラウド８１６）において特定し、深度表現２０８のポイント１００１とポイントクラウドのポイントとの深度の差分を示す差分値を計算する。
その後、第１の深度表現生成部は、各ポイントについて計算した差分値を平均化し、補正値とする。最後に、第１の深度表現生成部は、計算した補正値に基づいて、深度表現２０８の各ポイント１００１を正しい深度１００２に移動させることで、補正した第１の深度表現を生成する。
これにより、実施例１に比べて、更に高精度の深度情報を有する深度表現を生成することができるため、より高精度の障害物検出が可能となる。

次に、図１１を参照して、本開示の実施例３に係る結合深度表現を生成する処理について説明する。

図１１は、本開示の実施例３に係る結合深度表現を生成する処理（結合深度表現生成処理）１１００の一例を示すフローチャートである。図１１に示す結合深度表現生成処理１１００は、上述した第３の深度表現生成部（例えば、図３に示す第３の深度表現生成部２１０）によって実施される処理である。
図１１に示す結合深度表現生成処理１１００は、第１の深度表現２０８、第２の深度表現２０７、及び第３の深度表現２０９をポイントクラウドに変換せず、深度表現に対して直接にグルーピングを行う点において、上述した実施例１における結合深度表現生成処理４００と異なる。このように、第１の深度表現２０８、第２の深度表現２０７、及び第３の深度表現２０９をポイントクラウドに変換する処理を省略することにより、実施例１に比べてコンピューティング資源を節約することができる。ただし、バウンディングボックスの形式が２次元となるため、３次元のバウンディングボックスによるグルーピングができない。

また、本実施例では、第１の深度表現、第２の深度表現、及び第３の深度表現を深度マップとした場合を想定して説明するが、本開示はこれに限定されず、移動体と、当該移動体の周辺に存在する物体までの距離を示すものであれば、異なるデータ構造であってもよい。
なお、第１の深度表現２０８、第２の深度表現２０７、及び第３の深度表現２０９をポイントクラウドに変換する処理を省略する点以外、実施例３に係る示す結合深度表現生成処理１１００は、実施例１に係る示す結合深度表現生成処理４００と実質的に同様であるため、ここでは、共通のステップについての説明を省略する。

ステップＳ１１０４では、第３の深度表現生成部は、第１の深度表現２０８（ステレオ画像間の視差に基づいて生成された深度表現）と、第２の深度表現２０７（第１の画像に対して所定の機械学習手法を施すことにより生成した深度表現）とを比較することにより、第１の深度表現２０８と第２の深度表現２０７との深度の差分を示す深度差分値を計算する。
より具体的には、ステップＳ１１０４では、第３の深度表現生成部は、所定の物体検出アルゴリズム（４０６）によって定義されるバウンディングボックスの位置に基づいて、それぞれの深度表現の間で対応する物体をグルーピングした後、それぞれの深度表現でのグルーピングの結果を比較することで、第１の深度表現２０８と第２の深度表現２０７との深度の差分を示す深度差分値を計算する。なお、この処理の詳細は、図４～６を参照して説明したため、ここでは省略する。

次に、ステップＳ１１０５では、第３の深度表現生成部は、第１の深度表現２０８（ステレオ画像間の視差に基づいて生成された深度表現）と、第３の深度表現２０９（第２の画像に対して所定の機械学習手法を施すことにより生成した深度表現）とを比較することにより、第１の深度表現２０８と第３の深度表現２０９との深度の差分を示す深度差分値を計算する。
より具体的には、ステップＳ１１０５では、第３の深度表現生成部は、所定の物体検出アルゴリズム（４０６）によって定義されるバウンディングボックスの位置に基づいて、それぞれの深度表現の間で対応する物体をグルーピングした後、それぞれの深度表現でのグルーピングの結果を比較することで、第１の深度表現２０８と第３の深度表現２０９との深度の差分を示す深度差分値を計算する。なお、この処理の詳細は、図４～６を参照して説明したため、ここでは省略する。

このように、第１の深度表現２０８、第２の深度表現２０７、及び第３の深度表現２０９をポイントクラウドに変換する処理を省略し、深度表現に対して直接にグルーピングを行うことにより、実施例１に比べてコンピューティング資源を節約することができる。

次に、図１２を参照して、本開示の実施例４に係る結合深度表現を生成する処理について説明する。

図１２は、本開示の実施例４に係る結合深度表現を生成する処理（結合深度表現生成処理）１２００の一例を示すフローチャートである。図１２に示す結合深度表現生成処理１２００は、上述した第３の深度表現生成部（例えば、図３に示す第３の深度表現生成部２１０）によって実施される処理である。
図１２に示す結合深度表現生成処理１２００は、バウンディングボックスによるグルーピングの代わりに、最近傍探索法を用いてグルーピングを行う点において、上述した実施例１における結合深度表現生成処理４００と異なる。バウンディングボックスによるグルーピングの代わりに、最近傍探索法を用いてグルーピングを行うことにより、２次元及び３次元のデータを対応しつつ、実施例１に比べてコンピューティング資源を節約することができる。
最近傍探索（英: Ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓｅａｒｃｈ，ＮＮＳ）は、ポイントクラウド等のような距離空間における最も近い点を探す解法であり、線形探索や空間分割等の手法を含む。

また、本実施例では、第１の深度表現、第２の深度表現、及び第３の深度表現を深度マップとした場合を想定して説明するが、本開示はこれに限定されず、移動体と、当該移動体の周辺に存在する物体までの距離を示すものであれば、異なるデータ構造であってもよい。
なお、図１２に示す結合深度表現生成処理１２００は、バウンディングボックスによるグルーピングの代わりに、最近傍探索法を用いてグルーピングを行う点以外、実施例４に係る示す結合深度表現生成処理１２００は、実施例１に係る示す結合深度表現生成処理４００と実質的に同様であるため、ここでは、共通のステップについての説明を省略する。

ステップＳ１２０４では、第３の深度表現生成部は、ステップＳ４０２で生成された、第１の深度表現２０８（ステレオ画像間の視差に基づいて生成された深度表現）に対応するポイントクラウドと、ステップＳ４０１で生成された、第２の深度表現２０７（第１の画像に対して所定の機械学習手法を施すことにより生成した深度表現）に対応するポイントクラウドとを比較することにより、第１の深度表現２０８と第２の深度表現２０７との深度の差分を示す深度差分値を計算する。
より具体的には、ステップＳ１２０４では、第３の深度表現生成部は、第１の深度表現２０８に対応するポイントクラウドと、第２の深度表現２０７に対応するポイントクラウドとに対して最近傍探索法を施すことにより、これらのポイントクラウド間で最も近い点をグルーピングし、このグルーピングの結果を比較することで、第１の深度表現２０８と第２の深度表現２０７との深度の差分を示す深度差分値を計算する。

次に、ステップＳ１２０５では、第３の深度表現生成部は、ステップＳ４０２で生成された、第１の深度表現２０８（ステレオ画像間の視差に基づいて生成された深度表現）に対応するポイントクラウドと、ステップＳ４０３で生成された、第３の深度表現２０９（第２の画像に対して所定の機械学習手法を施すことにより生成した深度表現）に対応するポイントクラウドとを比較することにより、第１の深度表現２０８と第３の深度表現２０９との深度の差分を示す深度差分値を計算する。
より具体的には、ステップＳ１２０５では、第３の深度表現生成部は、第１の深度表現２０８に対応するポイントクラウドと、第３の深度表現２０９に対応するポイントクラウドとに対して最近傍探索法を施すことにより、これらのポイントクラウド間で最も近い点をグルーピングし、このグルーピングの結果を比較することで、第１の深度表現２０８と第３の深度表現２０９との深度の差分を示す深度差分値を計算する。

以上説明した実施例４に係る結合深度表現生成処理１２００によれば、バウンディングボックスによるグルーピングの代わりに、最近傍探索法を用いてグルーピングを行うことにより、２次元及び３次元のデータを対応しつつ、実施例１に比べてコンピューティング資源を節約することができる。

次に、図１３を参照して、本開示の実施例５に係る障害物検知装置のハードウェア構成について説明する。

図１３は、本開示の実施例５に係る障害物検知装置１３００のハードウェア構成を示す図である。図１３に示す障害物検知装置１３００は、ステレオ画像間の視差に基づいて生成された深度表現である第１の深度表現を生成するための第１の深度表現生成部を省略し、ＬＩＤＡＲ部８１４から出力されるポイントクラウド１３１０を第１の深度表現の代わりに用いる点において、実施例２に係る障害物検知装置８００の構成と異なる。
ＬＩＤＡＲ部８１４から出力されるポイントクラウド１３１０を第１の深度表現の代わりに用いることにより、遠距離の物体についての深度情報の精度が限られている、ステレオ画像間の視差に基づいて生成された深度表現が不要となり、更に高精度の障害物検出が可能となる。
なお、本実施例では、第２の深度表現及び第３の深度表現を深度マップとした場合を想定して説明するが、本開示はこれに限定されず、移動体と、当該移動体の周辺に存在する物体までの距離を示すものであれば、異なるデータ構造であってもよい。

なお、実施例５に係る障害物検知装置１３００は、ＬＩＤＡＲ部８１４から出力されるポイントクラウド１３１０を第１の深度表現の代わりに用いる点以外、実施例２に係る障害物検知装置８００と実質的に同様であるため、ここでは、共通の構成についての説明を省略する。

次に、図１４を参照して、本開示の実施例５に係る障害物検知方法について説明する。

図１４は、本開示の実施例５に係る障害物検知方法１４６０の流れの一例を示すフローチャートである。図１４に示す障害物検知方法１４６０は、例えば図１３を参照して説明した障害物検知装置１３００によって実施され、移動体の周辺に存在する障害物を検出するための処理である。
なお、図１４に示す障害物検知方法１４６０は、ＬＩＤＡＲ部から出力されるポイントクラウド１３１０を第１の深度表現の代わりに用いる点において、上述した図３に示す障害物検知方法３６０と相違する。この点以外、図１４に示す障害物検知方法１４６０は上述した図３に示す障害物検知方法３６０と実質的に同様であるため、ここでは、共通のステップについての説明を省略する。

ステップＳ１４６１では、ＬＩＤＡＲ部は、移動体の周辺を撮影し、撮影した場面を示すポイントクラウド１３１０を出力する。上述したように、ここでのポイントクラウド１３１０は、ＬＩＤＡＲ部によって取得された移動体周辺の対象物までの距離を示す３次元空間上の深度情報の集合である。

ステップＳ１４６２では、第３の深度表現生成部（例えば、図１３に示す第３の深度表現生成部２１０）は、ポイントクラウド１３１０、第２の深度表現２０７又は第３の深度表現２０９とを結合することで、結合深度表現２１２を生成する。
ここでの結合深度表現２１２とは、遠距離の物体に関する正確な深度情報を示す機械学習に基づいた深度表現である第２の深度表現２０７及び・又は第３の深度表現２０９と、ステレオ画像間の視差に基づいて生成された深度表現より高精度の深度情報を有するポイントクラウドとから生成されるため、例えば実施例１に比べて更に高精度の障害物検出が可能となる。

次に、図１５を参照して、本開示の実施例５に係る結合深度表現を生成する処理について説明する。

図１５は、本開示の実施例５に係る結合深度表現を生成する処理（結合深度表現生成処理）１５００の一例を示すフローチャートである。図１５に示す結合深度表現生成処理１５００は、上述した第３の深度表現生成部（例えば、図１３に示す第３の深度表現生成部２１０）によって実施される処理である。
図１５に示す結合深度表現生成処理１５００は、ＬＩＤＡＲ部から出力されるポイントクラウド１３１０を第１の深度表現の代わりに用いる点において、上述した図４に示す結合深度表現生成処理４００と相違する。この点以外、図１５に示す結合深度表現生成処理１５００は上述した図４に示す結合深度表現生成処理４００と実質的に同様であるため、ここでは、共通のステップについての説明を省略する。

ステップＳ１５０４では、第３の深度表現生成部は、ＬＩＤＡＲ部から出力されるポイントクラウド１３１０と、第２の深度表現２０７（第１の画像に対して所定の機械学習手法を施すことにより生成した深度表現）とを比較することにより、ＬＩＤＡＲ部のポイントクラウド１３１０と第２の深度表現２０７との深度の差分を示す深度差分値を計算する。
より具体的には、ステップＳ１５０４では、第３の深度表現生成部は、所定の物体検出アルゴリズム（４０６）によって定義されるバウンディングボックスの位置に基づいて、それぞれのポイントクラウドの間で対応する物体をグルーピングした後、それぞれのポイントクラウドでのグルーピングの結果を比較することで、ＬＩＤＡＲ部のポイントクラウド１３１０と第２の深度表現２０７との深度の差分を示す深度差分値を計算する。なお、この処理の詳細は、図４～６を参照して説明したため、ここでは省略する。

次に、ステップＳ１５０５では、第３の深度表現生成部は、ＬＩＤＡＲ部から出力されるポイントクラウド１３１０と、第３の深度表現２０９（第２の画像に対して所定の機械学習手法を施すことにより生成した深度表現）とを比較することにより、ＬＩＤＡＲ部のポイントクラウド１３１０と第３の深度表現２０９との深度の差分を示す深度差分値を計算する。
より具体的には、ステップＳ１５０５では、第３の深度表現生成部は、所定の物体検出アルゴリズム（４０６）によって定義されるバウンディングボックスの位置に基づいて、それぞれのポイントクラウドの間で対応する物体をグルーピングした後、それぞれのポイントクラウドでのグルーピングの結果を比較することで、第１の深度表現２０８と第３の深度表現２０９との深度の差分を示す深度差分値を計算する。なお、この処理の詳細は、図４～６を参照して説明したため、ここでは省略する。

このように、ＬＩＤＡＲ部８１４から出力されるポイントクラウド１３１０を第１の深度表現の代わりに用いることにより、遠距離の物体についての深度情報の精度が限られている、ステレオ画像間の視差に基づいて生成された深度表現が不要となり、例えば上述した実施例１に比べて更に高精度の障害物検出が可能となる。

以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

２００障害物検知装置
２０１第１のセンサ
２０２第２のセンサ
２０３第１の画像
２０４第２の画像
２０５第１の深度表現生成部
２０６第２の深度表現生成部
２０７第２の深度表現
２０８第１の深度表現
２０９第３の深度表現
２１０第３の深度表現生成部
２１２結合深度表現
２１４障害物検出部
２１６障害物情報

Claims

移動体の周辺の障害物を検知する障害物検知装置であって、
前記障害物検知装置は、
第１のセンサによって取得された第１の画像と、第２のセンサによって取得された第２の画像とから生成される視差画像を用いて、前記移動体と前記移動体の周辺に存在する物体との距離を示す第１の深度表現を生成する第１の深度表現生成部と、
前記第１の画像を所定の機械学習手法によって処理することにより、前記移動体と前記移動体の周辺に存在する物体との距離を示す第２の深度表現を生成する第２の深度表現生成部と、
前記第１の深度表現を第１のポイントクラウドに変換し、
前記第２の深度表現を第２のポイントクラウドに変換し、
所定の物体検出手法によって第１のポイントクラウドにおいて存在する第１の物体を特定し、
前記所定の物体検出手法によって第２のポイントクラウドにおいて存在し、前記第１の物体に対応する第２の物体を特定し、
前記第１の物体と、前記第２の物体とを対応付けて比較することで、前記第１の深度表現と前記第２の深度表現との深度の差分を示す深度差分値を計算し、
前記深度差分値に基づいて、前記第２の深度表現によって示される、前記移動体と前記移動体の周辺に存在する物体との距離を前記第１の深度表現に整合するように補正し、補正した第２の深度表現を生成し、
前記第１の深度表現から、前記移動体から所定の距離未満に存在する物体に関する近距離物体深度情報を抽出し、
前記補正した第２の深度表現から、前記移動体から前記所定の距離以上に存在する物体に関する遠距離物体深度情報を抽出し、
前記近距離物体深度情報と、前記遠距離物体深度情報とを結合することで、
前記第１の深度表現と前記第２の深度表現とに比べて、前記移動体と前記移動体の周辺に存在する物体との距離をより正確に示す結合深度表現を生成する第３の深度表現生成部と、
前記結合深度表現を用いて、前記移動体の周辺の障害物に関する障害物情報を生成し、出力する障害物検出部と、
を含むことを特徴とする障害物検知装置。
前記障害物検知装置は、
レーザー光を走査し移動体の周辺を照射し、その散乱や反射光を観測することで前記移動体と前記移動体の周辺に存在する物体との距離を示す第４の深度表現を生成するＬＩＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）部を更に含み、
前記第３の深度表現生成部は、
前記第４の深度表現に基づいて、前記第１の深度表現によって示される、前記移動体と前記移動体の周辺に存在する物体との距離を補正し、補正した第１の深度表現を生成し、
前記深度差分値に基づいて、前記第２の深度表現によって示される、前記移動体と前記移動体の周辺に存在する物体との距離を補正し、
補正した第２の深度表現を生成し、
前記補正した第１の深度表現から、前記移動体から所定の距離未満に存在する物体に関する近距離物体深度情報を抽出し、
前記補正した第２の深度表現から、前記移動体から前記所定の距離以上に存在する物体に関する遠距離物体深度情報を抽出し、
前記近距離物体深度情報と、前記遠距離物体深度情報とを結合することで、前記結合深度表現を生成する、
ことを特徴とする、請求項１に記載の障害物検知装置。
前記第１のセンサ及び前記第２のセンサは、
ステレオカメラであり、
前記第１の画像及び前記第２の画像は、前記ステレオカメラによって取得されたステレオ画像であり、
前記第１の深度表現は、
前記ステレオ画像によって生成されるステレオ深度マップである、
ことを特徴とする、請求項１に記載の障害物検知装置。
前記第３の深度表現生成部は、
前記第１の画像と、前記第２の画像とから生成される視差画像を用いて生成した前記第１の深度表現と、
前記第１の画像を所定の機械学習手法によって処理することによって生成した前記第２の深度表現と、
前記第２の画像を所定の機械学習手法によって処理することによって生成した第３の深度表現と、
を結合することで、前記結合深度表現を生成する、
ことを特徴とする、請求項１に記載の障害物検知装置。
前記機械学習手法は、
前記第１の画像を入力する入力層と、
前記第１の画像における物体を特徴付けるコンテキスト特徴量を抽出する中間層と、
前記コンテキスト特徴量を用いて、前記第１の画像の画素毎の深度情報を示す前記第１の深度表現を生成し、出力する出力層を含むニューラルネットワークである、
ことを特徴とする、請求項１に記載の障害物検知装置。
移動体の周辺の障害物を検知する障害物検知システムであって、
前記障害物検知システムにおいて、
前記移動体の周辺を撮影し、第１の画像を取得する第１のセンサと、
前記移動体の周辺を撮影し、第２の画像を取得する第２のセンサと、
障害物を検知する障害物検知装置とが通信ネットワークを介して接続されており、
前記障害物検知装置は、
前記第１のセンサから受信した前記第１の画像と、前記第２のセンサから受信した前記第２の画像とから生成される視差画像を用いて、前記移動体と前記移動体の周辺に存在する物体との距離を示す第１の深度マップを生成する第１の深度表現生成部と、
前記第１の画像を所定の機械学習手法によって処理することにより、前記移動体と前記移動体の周辺に存在する物体との距離を示す第２の深度マップを生成する第２の深度表現生成部と、
前記第１の深度マップを第１のポイントクラウドに変換し、
前記第２の深度マップを第２のポイントクラウドに変換し、
所定の物体検出手法によって第１のポイントクラウドにおいて存在する第１の物体を特定し、
前記所定の物体検出手法によって前記第２のポイントクラウドにおいて存在し、前記第１の物体に対応する第２の物体を特定し、
前記第１の物体と、前記第２の物体とを対応付けて比較することで、前記第１の深度マップと前記第２の深度マップとの深度の差分を示す深度差分値を計算し、
前記深度差分値に基づいて、前記第２の深度マップによって示される、前記移動体と前記移動体の周辺に存在する物体との距離を前記第１の深度マップに整合するように補正し、補正した第２の深度マップを生成し、
前記第１の深度マップから、前記移動体から所定の距離未満に存在する物体に関する近距離物体深度情報を抽出し、
前記補正した第２の深度マップから、前記移動体から前記所定の距離以上に存在する物体に関する遠距離物体深度情報を抽出し、
前記近距離物体深度情報と、前記遠距離物体深度情報とを結合することで、
前記第１の深度マップと前記第２の深度マップとに比べて、前記移動体と前記移動体の周辺に存在する物体との距離をより正確に示す結合深度表現を生成する第３の深度表現生成部と、
前記結合深度表現を用いて、前記移動体の周辺の障害物に関する障害物情報を生成し、所定の通知先に送信する障害物検出部と、
を含むことを特徴とする障害物検知システム。
移動体の周辺の障害物を検知する障害物検知方法であって、
ＬＩＤＡＲ部によって取得され、前記移動体と前記移動体の周辺に存在する物体との距離を示す深度表現としてポイントクラウドを生成する工程と、
第１のセンサによって取得される第１の画像を所定の機械学習手法によって処理することにより、前記移動体と前記移動体の周辺に存在する物体との距離を示す深度表現として深度マップを生成する工程と、
所定の物体検出手法によって前記ポイントクラウドにおいて存在する第１の物体を特定する工程と、
前記所定の物体検出手法によって前記深度マップにおいて存在し、前記第１の物体に対応する第２の物体を特定する工程と、
前記第１の物体と、前記第２の物体とを対応付けて比較することで、前記ポイントクラウドと前記深度マップとの深度の差分を示す深度差分値を計算する工程と、
前記深度差分値に基づいて、前記ポイントクラウド及び前記深度マップによって示される、前記移動体と前記移動体の周辺に存在する物体との距離を互いに整合するように前記ポイントクラウド及び前記深度マップのいずれか一方を補正する工程と、
前記ポイントクラウドと、前記深度マップとを結合することで、前記ポイントクラウドと、前記深度マップとに比べて、前記移動体と前記移動体の周辺に存在する物体との距離をより正確に示す結合深度表現を生成する工程と、
前記結合深度表現を用いて、前記移動体の周辺の障害物に関する障害物情報を生成し、出力する工程と、
を含むことを特徴とする障害物検知方法。