JP7745813B1

JP7745813B1 - 物体認識装置、物体認識方法、および、物体認識システム

Info

Publication number: JP7745813B1
Application number: JP2025527081A
Authority: JP
Inventors: 賢福地
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2024-04-30
Filing date: 2024-04-30
Publication date: 2025-09-29
Anticipated expiration: 2044-04-30
Also published as: WO2025229698A1

Abstract

点群データを取得するデータ取得部（３１）と、データ取得部（３１）が取得した点群データに基づき３次元ボクセルグリッドデータを生成する３次元ボクセルグリッドデータ生成部（３２ａ）と、３次元ボクセルグリッドデータ生成部（３２ａ）が生成した３次元ボクセルグリッドデータに基づき、３次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち物体が存在する領域を認識対象領域として検出する認識対象領域検出部（３２ｂ）と、認識対象領域検出部（３２ｂ）が検出した認識対象領域のデータに基づき疑似３次元データを生成する疑似３次元データ生成部（３２ｃ）と、疑似３次元データ生成部（３２ｃ）が生成した疑似３次元データを２次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する物体認識部（３３）とを備えた。

Description

本開示は、３次元センサを用いた物体認識装置、物体認識方法、および、物体認識システムに関する。

３次元センサを用いた物体認識技術が知られている。
３次元センサを用いた物体認識方法として、例えば、３次元センサから得られる３次元点群データを所定サイズの３次元空間に写像して３次元情報を生成し、その３次元情報を３次元畳み込みニューラルネットワークに入力して物体を認識する方法が挙げられる。しかし、３次元情報を入力とした３次元畳み込みニューラルネットワークによる物体認識は、多大な演算量を要する。
そこで、例えば、特許文献１には、物体の少なくとも一部の外形に沿った三次元位置を含む三次元情報に基づいて、三次元位置によって表される立体を複数の方向から見た二次元図面を示す複数の二次元情報を生成し、複数の二次元情報に基づいて畳み込みニューラルネットワークによる画像処理を実行して物体を認識する技術が開示されている。

国際公開第２０２０／００８６８４号

特許文献１に開示されているような従来技術では、３次元情報を入力とした３次元畳み込みニューラルネットワークによる物体認識と比べ演算量が削減できたとしても、二次元図面は表面以外の空間に関する情報、言い換えれば、奥行方向の空間に関する情報が取得できていないため、上記３次元畳み込みニューラルネットワークによる物体認識よりも物体認識精度が劣化する可能性があるという課題があった。

本開示は、上記のような課題を解決するためになされたもので、３次元情報を入力とした３次元畳み込みニューラルネットワークによる物体認識と比べ演算量を削減させるとともに、特許文献１に開示されているような従来の物体認識技術と比べより高精度な物体認識を行うことができる物体認識装置を得ることを目的とする。

本開示に係る物体認識装置は、点群データを取得するデータ取得部と、データ取得部が取得した点群データに基づき、３次元ボクセルグリッドデータを生成する３次元ボクセルグリッドデータ生成部と、３次元ボクセルグリッドデータ生成部が生成した３次元ボクセルグリッドデータに基づき、３次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち物体が存在する領域を認識対象領域として検出する認識対象領域検出部と、認識対象領域検出部が検出した認識対象領域のデータに基づき、２次元畳み込み可能な疑似３次元データを生成する疑似３次元データ生成部と、疑似３次元データ生成部が生成した疑似３次元データを２次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する物体認識部とを備えた。

本開示によれば、物体認識装置は、３次元情報を入力とした３次元畳み込みニューラルネットワークによる物体認識と比べ演算量を削減させるとともに、特許文献１に開示されているような従来の物体認識技術と比べより高精度な物体認識を行うことができる。

実施の形態１に係る物体認識システムの構成例を示す図である。実施の形態１に係る物体認識装置の構成例を示す図である。実施の形態１において、３次元ボクセルグリッドデータ生成部が生成する３次元ボクセルグリッドデータの一例を模式的に示した図である。実施の形態１において、疑似３次元データ生成部が認識対象領域データから疑似３次元データを生成する過程の一例を説明するための図である。実施の形態１において、展開図生成部が認識対象領域データに基づいて生成する展開図画像の一例を説明するための図である。実施の形態１において、物体認識部が２次元畳み込みニューラルネットワークを用いて行う物体認識処理の一例を示す図である。実施の形態１に係る物体認識装置の動作について説明するためのフローチャートである。図８Ａおよび図８Ｂは、実施の形態１に係る物体認識装置のハードウェア構成の一例を示す図である。

本開示において、物体認識装置は、３次元センサから当該３次元センサが対象とする領域（以下「対象領域」という。）をセンシングして得られたデータ（以下「センシングデータ」という。）を取得し、取得したセンシングデータに基づき、対象領域に存在する物体を認識する。
本開示において、３次元センサは、例えば、ＬｉＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎＡｎｄＲａｎｇｉｎｇ）またはミリ波センサを想定している。
物体認識装置は、物体を認識した結果（以下「物体認識結果」という。）を、種々の機器に出力する。
例えば、対象領域は走行中の自動運転車両の前方の領域、機器は当該自動運転車両の自動運転を制御する自動運転制御機器である。この場合、物体認識装置は、３次元センサから取得したセンシングデータに基づき、自動運転車両の前方の領域に存在する物体を認識し、自動運転制御機器に物体認識結果を出力する。自動運転制御機器は、物体認識結果に基づき、例えば、前方に存在する物体を避ける等、自動運転車両の自動運転制御を行う。
なお、これは一例に過ぎず、物体認識装置は、３次元センサから取得したセンシングデータに基づき物体を認識するあらゆる場面で適用可能である。また、物体認識装置による物体認識結果は、種々の機器における適宜の方法で用いられ得る。

実施の形態１．
図１は、実施の形態１に係る物体認識システム１の構成例を示す図である。
物体認識装置３は、３次元センサ２および機器４とネットワークを介して接続され、物体認識装置３と３次元センサ２と機器４とで物体認識システム１を構成する。
例えば、対象領域が自動運転車両（図示省略）の前方の領域であり、機器４が自動運転制御機器とすると、物体認識装置３、３次元センサ２、および、機器４は、例えば、自動運転車両に搭載されている。

３次元センサ２は、対象領域をセンシングし、対象領域内の点群データを出力する。
より詳細には、３次元センサ２は、対象領域に向けて放射した光または電波が対象領域内の物体によって反射された反射光または反射波を取得する。これにより、３次元センサ２は点群データを出力する。具体的には、３次元センサ２は、反射光または反射波が対象領域内の物体に当たって跳ね返ってくるまでの時間差に基づいて、物体までの距離、物体の位置、物体の形状、または、物体の方向等を計測する。
３次元センサ２は、計測した距離等に基づいてセンシングデータを生成する。
センシングデータは点群データである。点群データにおける各点は３次元座標（ｘ、ｙ、ｚ）であらわされる距離データと、物体の表面の反射率等をあわわす強度データを含む。

３次元センサ２が点群データを生成する方法は公知の方法であるが、ここで、３次元センサ２が点群データを生成する方法について、一例を挙げて説明する。
ここでは、一例として、３次元センサ２はＬｉＤＡＲであるものとして説明する。
３次元センサ２は、対象領域のｘ方向およびｙ方向へ順次、光を照射する。光は、例えば、対象領域のｘ方向に６ポイント、ｙ方向に２ポイントの合計１２ポイントに照射される。なお、３次元センサ２から見て、ｘ方向は対象領域に対して横方向であり、ｙ方向は対象領域に対して上方向である。
３次元センサ２から対象領域のｘ方向およびｙ方向へ順次照射された光は、対象領域内の物体に照射および反射され反射光を形成する。上述の例でいうと、３次元センサ２は、ｘ方向に６画素分およびｙ方向に２画素分で、全１２画素分の解像度を有しているといえる。
３次元センサ２は、反射光を受光し、発光から受光までの時間差に基づいて、物体までの距離を算出して距離データとする。上述の例でいうと、３次元センサ２は、対象領域のｘ方向に６ポイント、対象領域のｙ方向に２ポイント、合計１２ポイントに分散された照射位置全てに対して、個別に距離を算出し、距離データとする。さらに、３次元センサ２は、照射位置全てに対して、照射した光量と受光した光量の比率に基づいて反射対象の各ポイントにおける反射率を算出し、強度データとする。３次元センサ２で算出された距離データおよび強度データを、点群データという。点群データは、物体認識装置３に出力される。なお、点群データの物体認識装置３への出力は、フレーム単位で行われる。
３次元センサ２は、対象領域全体を１回センシングして得られた点群データ、すなわち、上述の例でいうと、対象領域のｘ方向に６ポイント、ｙ方向に２ポイントの合計１２ポイントに対して１回のセンシングで得られた点群データを、１フレーム分の点群データ、言い換えれば、センシングデータとして物体認識装置３へ出力する。
なお、３次元センサ２は、光を、水平方向および垂直方向に、常に同一の角度で分散照射させる。
以上のようにして、３次元センサ２は、以下に示すｘ，ｙ，およびｚの３次元情報を得る。また、３次元センサ２は、各ポイントにおける強度データ（ｉ）を得る。
ｘ；水平方向座標
ｙ；垂直方向座標
ｚ；距離データ
ｉ；強度データ

水平方向座標ｘは、各画素の水平方向位置を示す値であり、垂直方向座標ｙは、各画素の垂直方向位置を示す値である。また、距離データｚは、各画素の位置において得られたｚ軸方向の奥行き情報である。距離データｚについては、水平方向座標ｘと垂直方向座標ｙとの全ての組み合わせで特定される複数の画素に対して、それぞれ１つずつ測定された距離データｚが得られる。
したがって、３次元情報における、水平方向座標ｘと垂直方向座標ｙと距離データｚとの複数の組み合わせについては、それぞれの組み合わせが、ある特定の空間位置を示すものである。

物体認識装置３は、３次元センサ２から取得したセンシングデータ、言い換えれば、点群データに基づき、２次元畳み込みニューラルネットワークによる処理によって、物体を認識する。より詳細には、物体認識装置３は、点群データに基づき生成したデータ（以下「物体認識用データ」という。）を２次元畳み込みニューラルネットワークに入力し、２次元畳み込みニューラルネットワークから出力された物体に関するデータを得ることで、物体を認識する。物体認識装置３は、２次元畳み込みニューラルネットワークによる処理によって、物体の種別を認識する。また、物体認識装置３は、点群データから、物体の位置を認識することもできる。物体認識装置３は、物体認識結果を、機器４に出力する。
物体認識装置３の構成例の詳細は後述する。

機器４は、物体認識装置３から出力された物体認識結果に基づき、種々の制御等を行う。

実施の形態１に係る物体認識装置３の構成例について説明する。
図２は、実施の形態１に係る物体認識装置３の構成例を示す図である。
物体認識装置３は、データ取得部３１、データ生成部３２、物体認識部３３、および、認識結果出力部３４を備える。
データ生成部３２は、３次元ボクセルグリッドデータ生成部３２ａ、認識対象領域検出部３２ｂ、疑似３次元データ生成部３２ｃ、および、展開図生成部３２ｄを備える。

データ取得部３１は、３次元センサ２から出力されたセンシングデータ、言い換えれば、点群データ、を取得する。
データ取得部３１は、取得した点群データをデータ生成部３２に出力する。

データ生成部３２は、データ取得部３１から出力された点群データから、物体認識用データを生成する。実施の形態１において、物体認識用データは、疑似３次元データと展開図データを含む。疑似３次元データおよび展開図データの詳細については、後述する。
データ生成部３２は、生成した物体認識用データを物体認識部３３に出力する。

データ生成部３２の詳細について説明する。
データ生成部３２の３次元ボクセルグリッドデータ生成部３２ａは、データ取得部３１が取得した点群データに基づき、３次元ボクセルグリッドデータを生成する。３次元ボクセルグリッドデータは、具体的には、所定のサイズＷ×Ｈ×Ｚ個の複数のグリッドで構成される立体モデルであらわされるデータである。

図３は、実施の形態１において、３次元ボクセルグリッドデータ生成部３２ａが生成する３次元ボクセルグリッドデータの一例を模式的に示した図である。
図３に示すように、３次元ボクセルグリッドデータは、複数（所定のサイズＷ×Ｈ×Ｚ個）のグリッドに分割した立体モデルであらわされる。例えば、３次元ボクセルグリッドデータは、３次元センサ２の視野を仮想的に複数のグリッドに分割した立体モデルであらわされる。
図３では、一例として、３次元ボクセルグリッドデータは、１５×１５×８個のグリッドで構成されるものとしている。
また、図３では、立体モデルは、対象領域内に存在している物体が、１５×１５×８個のグリッドの中でどのように見えているかを示した立体モデルとしている。物体が存在しているグリッドはグレーで示している。すなわち、グレーで示したグリッドは、３次元センサ２において距離が得られたグリッドである。３次元センサ２において距離が得られなかったグリッド、つまり、図３の例でいうと白色のグリッドを、ブランクグリッドともいうものとする。３次元ボクセルグリッドデータにおいて、グレーのグリッドには値が入っているが、ブランクグリッドには値が入っていない。

３次元ボクセルグリッドデータ生成部３２ａは、生成した３次元ボクセルグリッドデータを、認識対象領域検出部３２ｂに出力する。

認識対象領域検出部３２ｂは、３次元ボクセルグリッドデータ生成部３２ａから出力された３次元ボクセルグリッドデータに基づき、３次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち、物体が存在する領域を、認識対象領域として検出する。なお、認識対象領域検出部３２ｂは、物体ごとに認識対象領域を検出する。
認識対象領域検出部３２ｂは、公知の技術を用いて認識対象領域を検出すればよい。例えば、認識対象領域検出部３２ｂは、グリッド間の差、より詳細には、グリッドに入っている値の差、から、値が入っているグリッドの領域の輪郭を検出し、検出した輪郭で囲まれたグリッドを抽出する。そして、認識対象領域検出部３２ｂは、抽出したグリッドの領域の輪郭の外接立方矩形を、認識対象領域として検出する。また、例えば、認識対象領域検出部３２ｂは、抽出したグリッドの輪郭の外接立方矩形にマージンを持たせた立方矩形を、認識対象領域として検出するようにしてもよい。
認識対象領域検出部３２ｂは、検出した認識対象領域を示すデータ（以下「認識対象領域データ」という。）を、疑似３次元データ生成部３２ｃおよび展開図生成部３２ｄに出力する。

疑似３次元データ生成部３２ｃは、認識対象領域検出部３２ｂから出力された認識対象領域データに基づき、２次元畳み込み可能な疑似３次元データを生成する。より詳細には、疑似３次元データ生成部３２ｃは、認識対象領域検出部３２ｂから出力された認識対象領域データを取得し、認識対象領域を３方向（ｘ方向、ｙ方向、および、ｚ方向）にそれぞれスライスして特定の１軸をチャネルとみなすことで、２次元畳み込みを適用可能なデータを生成する。実施の形態１において、疑似３次元データ生成部３２ｃが認識対象領域から生成する２次元畳み込みを適用可能なデータを「スライスデータ」という。スライスデータは、１つのチャネル、言い換えれば、１つの２次元データである。１つのチャネルは、認識対象領域の中で特定の１軸（ｘ軸、ｙ軸、または、ｚ軸）上の特定の位置に相当する。すなわち、１つのチャネル（１つの２次元データ）は、その位置における、元の３次元データである認識対象領域の中での、特定の１軸上での断面を示す。特定の位置は、元の３次元データである認識対象領域の中での断面がどこであるかを示す。例えば、特定の１軸をｘ軸とすると、ｘ軸上の特定の位置での物体の形状等の特徴が、ｙ－ｚ平面上でのスライスとして表現される。疑似３次元データ生成部３２ｃは、認識対象領域の中での特定の１軸上の複数の位置における複数のチャネル（複数の２次元データ）を、複数のスライスデータとして生成する。
２次元畳み込みニューラルネットワークは、複数のスライスデータを使用することで、異なる軸上の位置での断面のデータを複数取り込むことができる。２次元畳み込みニューラルネットワークは、これらの複数のスライスデータを同時に処理することで、３次元データの情報を捉えることができる。
なお、疑似３次元データ生成部３２ｃは、３つの軸（ｘ軸、ｙ軸、および、ｚ軸）それぞれに対して、複数のスライスデータを生成する。

そして、疑似３次元データ生成部３２ｃは、生成した３つの軸それぞれに対する複数のスライスデータを合成したデータを、疑似３次元データとして生成する。疑似３次元データ生成部３２ｃは、例えば、Ｃｏｎｔａｃｔ、Ｍｕｌ、または、Ａｄｄ等の公知の合成方法を適用して疑似３次元データを生成すればよい。
複数のスライスデータを合成した疑似３次元データも、スライスデータ同様、２次元畳み込みを適用可能なデータである。

ここで、図４は、実施の形態１において、疑似３次元データ生成部３２ｃが認識対象領域データから疑似３次元データを生成する過程の一例を説明するための図である。
図４において、４０１で示されている立体モデルは、認識対象領域を示す。図４において、４０２ａ、４０２ｂ、および、４０２ｃは、複数のスライスデータを示す。図４において、４０３は、疑似３次元データを示す。なお、図４において、認識対象領域の高さ方向のグリッドは「Ｈ」、幅方向のグリッドは「Ｗ」、奥行方向のグリッドは「Ｄ」で示されている。また、図４において、スライスデータでチャネルとみなされている軸におけるグリッドは「Ｃ」は示されている。
なお、便宜上、認識対象領域において、物体が存在するグリッドとブランクグリッドをともに白いグリッドで図示している。

まず、疑似３次元データ生成部３２ｃは、認識対象領域検出部３２ｂが検出した認識対象領域（図４の４０１参照）について、ｘ軸方向の特定の位置にてスライスして得られるｙ－ｚ平面上での断面を１つのチャネルとみなし、２次元データとして表現した複数のスライスデータ（以下「ｘ軸スライスデータ」という。）を生成する（図４の４０２ａ参照）。各画像はｘ軸上の特定の位置でのスライスデータをあらわす。
また、疑似３次元データ生成部３２ｃは、認識対象領域検出部３２ｂが検出した認識対象領域（図４の４０１参照）について、ｙ軸方向の特定の位置にてスライスして得られるｘ－ｚ平面上での断面を１つのチャネルとみなし、２次元の画像として表現したスライスデータ（以下「ｙ軸スライスデータ」という。）を生成する（図４の４０２ｂ参照）。各画像はｙ軸上の特定の位置でのスライスデータをあらわす。
また、疑似３次元データ生成部３２ｃは、認識対象領域検出部３２ｂが検出した認識対象領域（図４の４０１参照）について、ｚ軸方向の特定の位置にてスライスして得られるｘ－ｙ平面上での断面を１つのチャネルとみなし、２次元の画像として表現したスライスデータ（以下「ｚ軸スライスデータ」という。）を生成する（図４の４０２ｃ参照）。各画像はｚ軸上の特定の位置でのスライスデータをあらわす。
そして、疑似３次元データ生成部３２ｃは、生成した複数のｘ軸スライスデータ、複数のｙ軸スライスデータ、複数のｚ軸スライスデータを合成したデータを疑似３次元データとして生成する（図４の４０３参照）。
なお、疑似３次元データ生成部３２ｃによる、ｘ軸スライスデータ、ｙ軸スライスデータ、および、ｚ軸スライスデータの生成順は問わない。
また、図４を用いて説明した一例では、疑似３次元データ生成部３２ｃは、ｘ軸スライスデータを１３個、ｙ軸スライスデータを１３個、ｚ軸スライスデータを５個、生成するものとしたが、これは一例に過ぎない。疑似３次元データ生成部３２ｃは、ｘ軸方向、ｙ軸方向、および、ｚ軸方向に任意の数のスライスデータを生成可能である。

疑似３次元データ生成部３２ｃは、生成した疑似３次元データを、物体認識部３３に出力する。

展開図生成部３２ｄは、認識対象領域検出部３２ｂから出力された認識対象領域データに基づき、物体が存在するグリッドからなる領域の表面の反射率を示す展開図を含むデータを、展開図画像として生成する。より詳細には、展開図生成部３２ｄは、認識対象領域検出部３２ｂから出力された認識対象領域データを取得し、ある特定の方向から認識対象領域を見て、当該認識対象領域に含まれる物体を示すグリッドからなる領域の表面のグリッドを展開した展開図を含む２次元データを、展開図画像として生成する。
なお、点群データは強度データを含み、３次元ボクセルグリッドデータにおいて、各グリッドには強度データが付与されている。展開図において、各マスには、当該強度データ、言い換えれば、反射率を示すデータが付与される。

ここで、図５は、実施の形態１において、展開図生成部３２ｄが認識対象領域データに基づいて生成する展開図画像の一例を説明するための図である。
図５において、５０１ａの立体モデルは、認識対象領域を示す。なお、図５では、認識対象領域検出部３２ｂは、物体が存在する領域として抽出したグリッドの輪郭の外接立方矩形にマージンを持たせた立方矩形を認識対象領域として検出したものとしている。
図５において、５０２ａは、５０１ａに示すような認識対象領域を矢印で示す方向から見て、当該認識対象領域に含まれる物体を示すグリッド（図５にて５０１ｂで示されてる）からなる領域の表面のデータのみを展開した展開図（図５にて５０２ｂで示されている）を含む展開図画像を示す。
なお、図５では、展開図画像は、展開図の周囲にブランクグリッドの表面に対応するデータを設けた画像としているが、これは一例に過ぎない。展開図画像は、少なくとも展開図を含む画像となっていればよい。図５にて白いグリッドで表現している、展開図の周囲のブランクグリッドの表面に対応する部分は、値が入っていないグリッドであることがわかるようになっていればよく、当該部分には、例えば、「０」または「－１」等、統一した値が付与される。

展開図生成部３２ｄは、生成した展開図画像を、物体認識部３３に出力する。

３次元センサ２から取得されたセンシングデータに含まれる強度データは、反射率をあらわす。強度データは、物体の表面の素材等により変化し、物体の特徴を多く含んでいる。展開図生成部３２ｄが、展開図画像を生成することで、物体認識装置３は、１方向からのみではなく、物体の全ての表面の強度データを参照した、言い換えれば、物体の特徴をより考慮した、物体認識を行うことができる。なお、物体認識装置３において、物体認識は物体認識部３３が行う。

物体認識部３３は、データ生成部３２が生成した物体認識用データを２次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する。具体的には、物体認識部３３は、疑似３次元データ生成部３２ｃが生成した疑似３次元データ、および、展開図生成部３２ｄが生成した展開図画像をそれぞれ２次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する。
より詳細には、物体認識部３３は、疑似３次元データおよび展開図画像をそれぞれ２次元畳み込みニューラルネットワークに入力する。２次元畳み込みニューラルネットワークは、疑似３次元データおよび展開図画像が入力されると、物体に関するデータを出力する。ここで、２次元畳み込みニューラルネットワークが出力する物体に関するデータとは、物体の種別とその種別であると想定される確率とが対応付けられたデータである。物体認識部３３は、物体に関するデータに基づき、例えば、対応付けられている確率が最も高い種別を、物体の種別とする。これにより、物体認識部３３は物体を認識する。

物体認識部３３による物体認識方法の一例について、詳細に説明する。
図６は、実施の形態１において、物体認識部３３が２次元畳み込みニューラルネットワークを用いて行う物体認識処理の一例を示す図である。
まず、物体認識部３３は、疑似３次元データ生成部３２ｃから出力された疑似３次元データを２次元畳み込みニューラルネットワークに入力し、２次元畳み込みニューラルネットワークから出力された特徴量（以下「第１特徴量」という。）を得る（図６の６０１参照）。また、物体認識部３３は、展開図生成部３２ｄから出力された展開図画像を２次元畳み込みニューラルネットワークに入力し、２次元畳み込みニューラルネットワークから出力された特徴量（以下「第２特徴量」という。）を得る（図６の６０２参照）。なお、物体認識部３３が第１特徴量および第２特徴量を得る順番は問わない。
次に、物体認識部３３は、得た第１特徴量と第２特徴量を合成する。そして、物体認識部３３は、合成した特徴量（以下「合成特徴量」という。）を、再び２次元畳み込みニューラルネットワークに入力し、物体に関するデータを得る。そして、物体認識部３３は、物体に関するデータに基づき、例えば、当該物体に関するデータにて対応付けられている確率が最も高い種別を物体の種別とする（図６の６０３参照）。

なお、２次元畳み込みニューラルネットワークは、事前に、正解ラベル付きの学習用データで学習済みである。学習済みの２次元畳み込みニューラルネットワークは、物体認識部３３が参照可能な場所に記憶されている。
学習用データは、予め、管理者等によって生成されている既存のデータセットである。

物体認識部３３は、物体の種別を示す物体認識結果を生成する。物体認識結果は、物体の位置を示すデータを含んでいてもよい。物体の位置は点群データから判定できる。なお、物体認識部３３は、点群データを、データ取得部３１からデータ生成部３２を介して取得すればよい。
物体認識部３３は、物体認識結果を、認識結果出力部３４に出力する。

認識結果出力部３４は、物体認識部３３から出力された物体認識結果を、機器４に出力する。

実施の形態１に係る物体認識装置３の動作について説明する。
図７は、実施の形態１に係る物体認識装置３の動作について説明するためのフローチャートである。
物体認識装置３は、例えば、物体認識装置３に電源が投入されると図７のフローチャートで示すような動作を開始し、電源がオフされるまで図７のフローチャートで示すような動作を繰り返す。

データ取得部３１は、３次元センサ２から出力されたセンシングデータ、言い換えれば、点群データ、を取得する（ステップＳＴ１）。
データ取得部３１は、取得した点群データをデータ生成部３２に出力する。

３次元ボクセルグリッドデータ生成部３２ａは、ステップＳＴ１にてデータ取得部３１が取得した点群データに基づき、３次元ボクセルグリッドデータを生成する（ステップＳＴ２）。
３次元ボクセルグリッドデータ生成部３２ａは、生成した３次元ボクセルグリッドデータを、認識対象領域検出部３２ｂに出力する。

認識対象領域検出部３２ｂは、ステップＳＴ２にて３次元ボクセルグリッドデータ生成部３２ａから出力された３次元ボクセルグリッドデータに基づき、３次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち、物体が存在する領域を、認識対象領域として検出する（ステップＳＴ３）。
認識対象領域検出部３２ｂは、認識対象領域データを、疑似３次元データ生成部３２ｃおよび展開図生成部３２ｄに出力する。

疑似３次元データ生成部３２ｃは、ステップＳＴ３にて認識対象領域検出部３２ｂから出力された認識対象領域データに基づき、２次元畳み込み可能な疑似３次元データを生成する（ステップＳＴ４ａ）。
疑似３次元データ生成部３２ｃは、生成した疑似３次元データを、物体認識部３３に出力する。

展開図生成部３２ｄは、ステップＳＴ３にて認識対象領域検出部３２ｂから出力された認識対象領域データに基づき、展開図画像を生成する（ステップＳＴ４ｂ）。
展開図生成部３２ｄは、生成した展開図画像を、物体認識部３３に出力する。

物体認識部３３は、ステップＳＴ４ａにて疑似３次元データ生成部３２ｃから出力された疑似３次元データ、および、ステップＳＴ４ｂにて展開図生成部３２ｄから出力された展開図画像に基づき、疑似３次元データおよび展開図画像をそれぞれ２次元畳み込みニューラルネットワークに入力して、物体に関するデータを得ることで物体を認識する（ステップＳＴ５）。
物体認識部３３は、物体認識結果を、認識結果出力部３４に出力する。

認識結果出力部３４は、ステップＳＴ５にて物体認識部３３から出力された物体認識結果を、機器４に出力する（ステップＳＴ６）。

なお、図７に示すフローチャートでは、ステップＳＴ４ａの処理とステップＳＴ４ｂの処理とが並列で行われるものとしているが、これは一例に過ぎない。例えば、ステップＳＴ３、ステップＳＴ４ａ、ステップＳＴ４ｂ、ステップＳＴ５の順で処理が行われてもよいし、ステップＳＴ３、ステップＳＴ４ｂ、ステップＳＴ４ａ、ステップＳＴ５の順で処理が行われてもよい。

このように、物体認識装置３は、３次元センサ２から取得した点群データに基づき、３次元ボクセルグリッドデータを生成し、生成した３次元ボクセルグリッドデータに基づき、認識対象領域を検出する。物体認識装置３は、認識対象領域データに基づき疑似３次元データと展開図画像を生成して、生成した疑似３次元データと展開図画像を２次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する。
物体認識装置３は、２次元畳み込みを適用可能な３次元ボクセルグリッドデータを生成して２次元畳み込みニューラルネットワークを用いて物体認識を行うことにより、３次元畳み込みニューラルネットワークを用いた物体認識と比べ、演算量を削減させ物体認識をより高速に行えるとともに、従来の複数の二次元情報に基づいて畳み込みニューラルネットワークによる画像処理を実行して物体を認識する技術と比べ、より高精度な物体認識を行うことができる。
また、物体認識装置３は、展開図画像を生成して２次元畳み込みニューラルネットワークを用いた物体認識を行うことにより、１方向からのみではなく、物体の全ての表面の強度データを参照した、言い換えれば、物体の特徴をより考慮した、物体認識を行うことができる。その結果、物体認識装置３は、物体認識精度をより向上させることができる。

以上の実施の形態１では、物体認識装置３は、展開図生成部３２ｄを備えるものとしたが、これは一例に過ぎず、物体認識装置３は、展開図生成部３２ｄを備えることを必須としない。
物体認識装置３が展開図生成部３２ｄを備えない構成とする場合、図７のフローチャートで示した物体認識装置３の動作のうち、ステップＳＴ４ｂの処理は省略できる。

また、以上の実施の形態１では、物体認識装置３は、３次元センサ２から、３次元センサ２が生成した点群データを取得するものとしたが、これは一例に過ぎない。点群データの取得元は３次元センサ２に限らず、物体認識装置３は、例えば、予め生成され物体認識装置３が参照可能な記憶装置（図示省略）に記憶されている点群データを当該記憶装置から取得するようにしてもよいし、物体認識装置３がシミュレータ（図示省略）と接続され、物体認識装置３は、シミュレータから、シミュレータがシミュレーション運転して生成した点群データを取得するようにしてもよい。

また、以上の実施の形態１では、物体認識装置３は、例えば、自動運転車両に搭載されているものとしたが、これは一例に過ぎない。物体認識装置３は、例えば、サーバに搭載されていてもよいし、データ取得部３１、３次元ボクセルグリッドデータ生成部３２ａ、認識対象領域検出部３２ｂ、疑似３次元データ生成部３２ｃ、展開図生成部３２ｄ、物体認識部３３、認識結果出力部３４のうちの一部が車載装置に備えられ、残りがサーバに備えられてもよい。

また、以上の実施の形態１において、認識結果出力部３４の機能は、物体認識部３３が有しているものとしてもよい。この場合、物体認識装置３は、認識結果出力部３４を備えない構成とできる。

また、以上の実施の形態１において、例えば、物体認識装置３は物体認識結果を記憶するものとし、３次元センサ２と物体認識装置３とで物体認識システム１を構成してもよい。

図８Ａおよび図８Ｂは、実施の形態１に係る物体認識装置３のハードウェア構成の一例を示す図である。
実施の形態１において、データ取得部３１と、３次元ボクセルグリッドデータ生成部３２ａと、認識対象領域検出部３２ｂと、疑似３次元データ生成部３２ｃと、展開図生成部３２ｄと、物体認識部３３と、認識結果出力部３４の機能は、処理回路１０１により実現される。すなわち、物体認識装置３は、センサデータ、言い換えれば、点群データに基づいて、２次元畳み込みを適用可能な疑似３次元データを生成し、疑似３次元データと２次元畳み込みニューラルネットワークにより物体を認識する制御を行うための処理回路１０１を備える。
処理回路１０１は、図８Ａに示すように専用のハードウェアであっても、図８Ｂに示すようにメモリに格納されるプログラムを実行するプロセッサ１０４であってもよい。

処理回路１０１が専用のハードウェアである場合、処理回路１０１は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、またはこれらを組み合わせたものが該当する。

処理回路がプロセッサ１０４の場合、データ取得部３１と、３次元ボクセルグリッドデータ生成部３２ａと、認識対象領域検出部３２ｂと、疑似３次元データ生成部３２ｃと、展開図生成部３２ｄと、物体認識部３３と、認識結果出力部３４の機能は、ソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ１０５に記憶される。プロセッサ１０４は、メモリ１０５に記憶されたプログラムを読み出して実行することにより、データ取得部３１と、３次元ボクセルグリッドデータ生成部３２ａと、認識対象領域検出部３２ｂと、疑似３次元データ生成部３２ｃと、展開図生成部３２ｄと、物体認識部３３と、認識結果出力部３４の機能を実行する。すなわち、物体認識装置３は、プロセッサ１０４により実行されるときに、上述の図７のステップＳＴ１～ステップＳＴ６が結果的に実行されることになるプログラムを格納するためのメモリ１０５を備える。また、メモリ１０５に記憶されたプログラムは、データ取得部３１と、３次元ボクセルグリッドデータ生成部３２ａと、認識対象領域検出部３２ｂと、疑似３次元データ生成部３２ｃと、展開図生成部３２ｄと、物体認識部３３と、認識結果出力部３４の処理の手順または方法をコンピュータに実行させるものであるともいえる。ここで、メモリ１０５とは、例えば、ＲＡＭ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）等の、不揮発性もしくは揮発性の半導体メモリ、または、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）等が該当する。

なお、データ取得部３１と、３次元ボクセルグリッドデータ生成部３２ａと、認識対象領域検出部３２ｂと、疑似３次元データ生成部３２ｃと、展開図生成部３２ｄと、物体認識部３３と、認識結果出力部３４の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、データ取得部３１と認識結果出力部３４については専用のハードウェアとしての処理回路１０１でその機能を実現し、３次元ボクセルグリッドデータ生成部３２ａと、認識対象領域検出部３２ｂと、疑似３次元データ生成部３２ｃと、展開図生成部３２ｄと、物体認識部３３についてはプロセッサ１０４がメモリ１０５に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
また、物体認識装置３は、３次元センサ２または機器４等の装置と、有線通信または無線通信を行う入力インタフェース装置１０２および出力インタフェース装置１０３を備える。

以上のように、実施の形態１によれば、物体認識装置３は、点群データ（センサデータ）を取得するデータ取得部３１と、データ取得部３１が取得した点群データに基づき、３次元ボクセルグリッドデータを生成する３次元ボクセルグリッドデータ生成部３２ａと、３次元ボクセルグリッドデータ生成部３２ａが生成した３次元ボクセルグリッドデータに基づき、３次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち物体が存在する領域を認識対象領域として検出する認識対象領域検出部３２ｂと、認識対象領域検出部３２ｂが検出した認識対象領域のデータに基づき、２次元畳み込み可能な疑似３次元データを生成する疑似３次元データ生成部３２ｃと、疑似３次元データ生成部３２ｃが生成した疑似３次元データを２次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する物体認識部３３とを備えるように構成した。そのため、物体認識装置３は、３次元情報を入力とした３次元畳み込みニューラルネットワークによる物体認識と比べ演算量を削減させ物体認識をより高速に行えるとともに、従来の複数の二次元情報に基づいて畳み込みニューラルネットワークによる画像処理を実行して物体を認識する技術と比べ、より高精度な物体認識を行うことができる。

また、物体認識装置３は、上記構成に加え、認識対象領域検出部３２ｂが検出した認識対象領域のデータに基づき、物体が存在するグリッドからなる領域の表面の反射率を示す展開図を含む展開図画像を生成する展開図生成部３２ｄを備え、物体認識部３３は、疑似３次元データ生成部３２ｃが生成した疑似３次元データと展開図生成部３２ｄが生成した展開図画像を２次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する構成とできる。これにより、物体認識装置３は、１方向からのみではなく、物体の全ての表面の強度データを参照した、言い換えれば、物体の特徴をより考慮した、物体認識を行うことができる。その結果、物体認識装置３は、物体認識精度をより向上させることができる。

なお、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。

本開示の物体認識装置は、３次元畳み込みニューラルネットワークを用いた物体認識と比べ、演算量を削減させ物体認識をより高速に行えるとともに、複数の二次元情報に基づいて畳み込みニューラルネットワークによる画像処理を実行して物体を認識する技術と比べ、より高精度な物体認識を行うことができる。

１物体認識システム、２３次元センサ、３物体認識装置、３１データ取得部、３２データ生成部、３２ａ３次元ボクセルグリッドデータ生成部、３２ｂ認識対象領域検出部、３２ｃ疑似３次元データ生成部、３２ｄ展開図生成部、３３物体認識部、３４認識結果出力部、４機器、１０１処理回路、１０２入力インタフェース装置、１０３出力インタフェース装置、１０４プロセッサ、１０５メモリ。

Claims

点群データを取得するデータ取得部と、
前記データ取得部が取得した前記点群データに基づき、３次元ボクセルグリッドデータを生成する３次元ボクセルグリッドデータ生成部と、
前記３次元ボクセルグリッドデータ生成部が生成した前記３次元ボクセルグリッドデータに基づき、前記３次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち物体が存在する領域を認識対象領域として検出する認識対象領域検出部と、
前記認識対象領域検出部が検出した前記認識対象領域のデータに基づき、２次元畳み込み可能な疑似３次元データを生成する疑似３次元データ生成部と、
前記疑似３次元データ生成部が生成した前記疑似３次元データを２次元畳み込みニューラルネットワークに入力して前記物体に関するデータを得ることで前記物体を認識する物体認識部
とを備えた物体認識装置。
前記認識対象領域検出部が検出した前記認識対象領域のデータに基づき、前記物体が存在する前記グリッドからなる領域の表面の反射率を示す展開図を含む展開図画像を生成する展開図生成部を備え、
前記物体認識部は、前記疑似３次元データ生成部が生成した前記疑似３次元データと前記展開図生成部が生成した前記展開図画像を前記２次元畳み込みニューラルネットワークに入力して前記物体に関するデータを得ることで前記物体を認識する
ことを特徴とする請求項１記載の物体認識装置。
前記疑似３次元データ生成部は、前記認識対象領域のデータについて、３方向にそれぞれスライスして特定の１軸をチャネルとみなすことで生成した、前記１軸上の特定の位置における前記物体の特徴をあらわす前記認識対象領域の中での断面を示す複数のスライスデータを合成して前記疑似３次元データを生成する
ことを特徴とする請求項１または請求項２記載の物体認識装置。
前記展開図生成部は、前記認識対象領域の前記物体が存在する前記グリッドからなる領域の表面の前記グリッドをある方向から見た展開図を含む２次元データを前記展開図画像として生成する
ことを特徴とする請求項２記載の物体認識装置。
データ取得部が、点群データを取得するステップと、
３次元ボクセルグリッドデータ生成部が、前記データ取得部が取得した前記点群データに基づき、３次元ボクセルグリッドデータを生成するステップと、
認識対象領域検出部が、前記３次元ボクセルグリッドデータ生成部が生成した前記３次元ボクセルグリッドデータに基づき、前記３次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち物体が存在する領域を認識対象領域として検出するステップと、
疑似３次元データ生成部が、前記認識対象領域検出部が検出した前記認識対象領域のデータに基づき、２次元畳み込み可能な疑似３次元データを生成するステップと、
物体認識部が、前記疑似３次元データ生成部が生成した前記疑似３次元データを２次元畳み込みニューラルネットワークに入力して前記物体に関するデータを得ることで前記物体を認識するステップ
とを備えた物体認識方法。
請求項１、請求項２、または、請求項４記載の物体認識装置と、
前記点群データを生成する３次元センサ
とを備えた物体認識システム。
前記３次元センサは、ＬｉＤＡＲまたはミリ波センサである
ことを特徴とする請求項６記載の物体認識システム。