JP7745813B1 - 物体認識装置、物体認識方法、および、物体認識システム - Google Patents

物体認識装置、物体認識方法、および、物体認識システム

Info

Publication number
JP7745813B1
JP7745813B1 JP2025527081A JP2025527081A JP7745813B1 JP 7745813 B1 JP7745813 B1 JP 7745813B1 JP 2025527081 A JP2025527081 A JP 2025527081A JP 2025527081 A JP2025527081 A JP 2025527081A JP 7745813 B1 JP7745813 B1 JP 7745813B1
Authority
JP
Japan
Prior art keywords
data
dimensional
unit
pseudo
object recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2025527081A
Other languages
English (en)
Inventor
賢 福地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP7745813B1 publication Critical patent/JP7745813B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

点群データを取得するデータ取得部(31)と、データ取得部(31)が取得した点群データに基づき3次元ボクセルグリッドデータを生成する3次元ボクセルグリッドデータ生成部(32a)と、3次元ボクセルグリッドデータ生成部(32a)が生成した3次元ボクセルグリッドデータに基づき、3次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち物体が存在する領域を認識対象領域として検出する認識対象領域検出部(32b)と、認識対象領域検出部(32b)が検出した認識対象領域のデータに基づき疑似3次元データを生成する疑似3次元データ生成部(32c)と、疑似3次元データ生成部(32c)が生成した疑似3次元データを2次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する物体認識部(33)とを備えた。

Description

本開示は、3次元センサを用いた物体認識装置、物体認識方法、および、物体認識システムに関する。
3次元センサを用いた物体認識技術が知られている。
3次元センサを用いた物体認識方法として、例えば、3次元センサから得られる3次元点群データを所定サイズの3次元空間に写像して3次元情報を生成し、その3次元情報を3次元畳み込みニューラルネットワークに入力して物体を認識する方法が挙げられる。しかし、3次元情報を入力とした3次元畳み込みニューラルネットワークによる物体認識は、多大な演算量を要する。
そこで、例えば、特許文献1には、物体の少なくとも一部の外形に沿った三次元位置を含む三次元情報に基づいて、三次元位置によって表される立体を複数の方向から見た二次元図面を示す複数の二次元情報を生成し、複数の二次元情報に基づいて畳み込みニューラルネットワークによる画像処理を実行して物体を認識する技術が開示されている。
国際公開第2020/008684号
特許文献1に開示されているような従来技術では、3次元情報を入力とした3次元畳み込みニューラルネットワークによる物体認識と比べ演算量が削減できたとしても、二次元図面は表面以外の空間に関する情報、言い換えれば、奥行方向の空間に関する情報が取得できていないため、上記3次元畳み込みニューラルネットワークによる物体認識よりも物体認識精度が劣化する可能性があるという課題があった。
本開示は、上記のような課題を解決するためになされたもので、3次元情報を入力とした3次元畳み込みニューラルネットワークによる物体認識と比べ演算量を削減させるとともに、特許文献1に開示されているような従来の物体認識技術と比べより高精度な物体認識を行うことができる物体認識装置を得ることを目的とする。
本開示に係る物体認識装置は、点群データを取得するデータ取得部と、データ取得部が取得した点群データに基づき、3次元ボクセルグリッドデータを生成する3次元ボクセルグリッドデータ生成部と、3次元ボクセルグリッドデータ生成部が生成した3次元ボクセルグリッドデータに基づき、3次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち物体が存在する領域を認識対象領域として検出する認識対象領域検出部と、認識対象領域検出部が検出した認識対象領域のデータに基づき、2次元畳み込み可能な疑似3次元データを生成する疑似3次元データ生成部と、疑似3次元データ生成部が生成した疑似3次元データを2次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する物体認識部とを備えた。
本開示によれば、物体認識装置は、3次元情報を入力とした3次元畳み込みニューラルネットワークによる物体認識と比べ演算量を削減させるとともに、特許文献1に開示されているような従来の物体認識技術と比べより高精度な物体認識を行うことができる。
実施の形態1に係る物体認識システムの構成例を示す図である。 実施の形態1に係る物体認識装置の構成例を示す図である。 実施の形態1において、3次元ボクセルグリッドデータ生成部が生成する3次元ボクセルグリッドデータの一例を模式的に示した図である。 実施の形態1において、疑似3次元データ生成部が認識対象領域データから疑似3次元データを生成する過程の一例を説明するための図である。 実施の形態1において、展開図生成部が認識対象領域データに基づいて生成する展開図画像の一例を説明するための図である。 実施の形態1において、物体認識部が2次元畳み込みニューラルネットワークを用いて行う物体認識処理の一例を示す図である。 実施の形態1に係る物体認識装置の動作について説明するためのフローチャートである。 図8Aおよび図8Bは、実施の形態1に係る物体認識装置のハードウェア構成の一例を示す図である。
本開示において、物体認識装置は、3次元センサから当該3次元センサが対象とする領域(以下「対象領域」という。)をセンシングして得られたデータ(以下「センシングデータ」という。)を取得し、取得したセンシングデータに基づき、対象領域に存在する物体を認識する。
本開示において、3次元センサは、例えば、LiDAR(Light Detection And Ranging)またはミリ波センサを想定している。
物体認識装置は、物体を認識した結果(以下「物体認識結果」という。)を、種々の機器に出力する。
例えば、対象領域は走行中の自動運転車両の前方の領域、機器は当該自動運転車両の自動運転を制御する自動運転制御機器である。この場合、物体認識装置は、3次元センサから取得したセンシングデータに基づき、自動運転車両の前方の領域に存在する物体を認識し、自動運転制御機器に物体認識結果を出力する。自動運転制御機器は、物体認識結果に基づき、例えば、前方に存在する物体を避ける等、自動運転車両の自動運転制御を行う。
なお、これは一例に過ぎず、物体認識装置は、3次元センサから取得したセンシングデータに基づき物体を認識するあらゆる場面で適用可能である。また、物体認識装置による物体認識結果は、種々の機器における適宜の方法で用いられ得る。
実施の形態1.
図1は、実施の形態1に係る物体認識システム1の構成例を示す図である。
物体認識装置3は、3次元センサ2および機器4とネットワークを介して接続され、物体認識装置3と3次元センサ2と機器4とで物体認識システム1を構成する。
例えば、対象領域が自動運転車両(図示省略)の前方の領域であり、機器4が自動運転制御機器とすると、物体認識装置3、3次元センサ2、および、機器4は、例えば、自動運転車両に搭載されている。
3次元センサ2は、対象領域をセンシングし、対象領域内の点群データを出力する。
より詳細には、3次元センサ2は、対象領域に向けて放射した光または電波が対象領域内の物体によって反射された反射光または反射波を取得する。これにより、3次元センサ2は点群データを出力する。具体的には、3次元センサ2は、反射光または反射波が対象領域内の物体に当たって跳ね返ってくるまでの時間差に基づいて、物体までの距離、物体の位置、物体の形状、または、物体の方向等を計測する。
3次元センサ2は、計測した距離等に基づいてセンシングデータを生成する。
センシングデータは点群データである。点群データにおける各点は3次元座標(x、y、z)であらわされる距離データと、物体の表面の反射率等をあわわす強度データを含む。
3次元センサ2が点群データを生成する方法は公知の方法であるが、ここで、3次元センサ2が点群データを生成する方法について、一例を挙げて説明する。
ここでは、一例として、3次元センサ2はLiDARであるものとして説明する。
3次元センサ2は、対象領域のx方向およびy方向へ順次、光を照射する。光は、例えば、対象領域のx方向に6ポイント、y方向に2ポイントの合計12ポイントに照射される。なお、3次元センサ2から見て、x方向は対象領域に対して横方向であり、y方向は対象領域に対して上方向である。
3次元センサ2から対象領域のx方向およびy方向へ順次照射された光は、対象領域内の物体に照射および反射され反射光を形成する。上述の例でいうと、3次元センサ2は、x方向に6画素分およびy方向に2画素分で、全12画素分の解像度を有しているといえる。
3次元センサ2は、反射光を受光し、発光から受光までの時間差に基づいて、物体までの距離を算出して距離データとする。上述の例でいうと、3次元センサ2は、対象領域のx方向に6ポイント、対象領域のy方向に2ポイント、合計12ポイントに分散された照射位置全てに対して、個別に距離を算出し、距離データとする。さらに、3次元センサ2は、照射位置全てに対して、照射した光量と受光した光量の比率に基づいて反射対象の各ポイントにおける反射率を算出し、強度データとする。3次元センサ2で算出された距離データおよび強度データを、点群データという。点群データは、物体認識装置3に出力される。なお、点群データの物体認識装置3への出力は、フレーム単位で行われる。
3次元センサ2は、対象領域全体を1回センシングして得られた点群データ、すなわち、上述の例でいうと、対象領域のx方向に6ポイント、y方向に2ポイントの合計12ポイントに対して1回のセンシングで得られた点群データを、1フレーム分の点群データ、言い換えれば、センシングデータとして物体認識装置3へ出力する。
なお、3次元センサ2は、光を、水平方向および垂直方向に、常に同一の角度で分散照射させる。
以上のようにして、3次元センサ2は、以下に示すx,y,およびzの3次元情報を得る。また、3次元センサ2は、各ポイントにおける強度データ(i)を得る。
x;水平方向座標
y;垂直方向座標
z;距離データ
i;強度データ

水平方向座標xは、各画素の水平方向位置を示す値であり、垂直方向座標yは、各画素の垂直方向位置を示す値である。また、距離データzは、各画素の位置において得られたz軸方向の奥行き情報である。距離データzについては、水平方向座標xと垂直方向座標yとの全ての組み合わせで特定される複数の画素に対して、それぞれ1つずつ測定された距離データzが得られる。
したがって、3次元情報における、水平方向座標xと垂直方向座標yと距離データzとの複数の組み合わせについては、それぞれの組み合わせが、ある特定の空間位置を示すものである。
物体認識装置3は、3次元センサ2から取得したセンシングデータ、言い換えれば、点群データに基づき、2次元畳み込みニューラルネットワークによる処理によって、物体を認識する。より詳細には、物体認識装置3は、点群データに基づき生成したデータ(以下「物体認識用データ」という。)を2次元畳み込みニューラルネットワークに入力し、2次元畳み込みニューラルネットワークから出力された物体に関するデータを得ることで、物体を認識する。物体認識装置3は、2次元畳み込みニューラルネットワークによる処理によって、物体の種別を認識する。また、物体認識装置3は、点群データから、物体の位置を認識することもできる。物体認識装置3は、物体認識結果を、機器4に出力する。
物体認識装置3の構成例の詳細は後述する。
機器4は、物体認識装置3から出力された物体認識結果に基づき、種々の制御等を行う。
実施の形態1に係る物体認識装置3の構成例について説明する。
図2は、実施の形態1に係る物体認識装置3の構成例を示す図である。
物体認識装置3は、データ取得部31、データ生成部32、物体認識部33、および、認識結果出力部34を備える。
データ生成部32は、3次元ボクセルグリッドデータ生成部32a、認識対象領域検出部32b、疑似3次元データ生成部32c、および、展開図生成部32dを備える。
データ取得部31は、3次元センサ2から出力されたセンシングデータ、言い換えれば、点群データ、を取得する。
データ取得部31は、取得した点群データをデータ生成部32に出力する。
データ生成部32は、データ取得部31から出力された点群データから、物体認識用データを生成する。実施の形態1において、物体認識用データは、疑似3次元データと展開図データを含む。疑似3次元データおよび展開図データの詳細については、後述する。
データ生成部32は、生成した物体認識用データを物体認識部33に出力する。
データ生成部32の詳細について説明する。
データ生成部32の3次元ボクセルグリッドデータ生成部32aは、データ取得部31が取得した点群データに基づき、3次元ボクセルグリッドデータを生成する。3次元ボクセルグリッドデータは、具体的には、所定のサイズW×H×Z個の複数のグリッドで構成される立体モデルであらわされるデータである。
図3は、実施の形態1において、3次元ボクセルグリッドデータ生成部32aが生成する3次元ボクセルグリッドデータの一例を模式的に示した図である。
図3に示すように、3次元ボクセルグリッドデータは、複数(所定のサイズW×H×Z個)のグリッドに分割した立体モデルであらわされる。例えば、3次元ボクセルグリッドデータは、3次元センサ2の視野を仮想的に複数のグリッドに分割した立体モデルであらわされる。
図3では、一例として、3次元ボクセルグリッドデータは、15×15×8個のグリッドで構成されるものとしている。
また、図3では、立体モデルは、対象領域内に存在している物体が、15×15×8個のグリッドの中でどのように見えているかを示した立体モデルとしている。物体が存在しているグリッドはグレーで示している。すなわち、グレーで示したグリッドは、3次元センサ2において距離が得られたグリッドである。3次元センサ2において距離が得られなかったグリッド、つまり、図3の例でいうと白色のグリッドを、ブランクグリッドともいうものとする。3次元ボクセルグリッドデータにおいて、グレーのグリッドには値が入っているが、ブランクグリッドには値が入っていない。
3次元ボクセルグリッドデータ生成部32aは、生成した3次元ボクセルグリッドデータを、認識対象領域検出部32bに出力する。
認識対象領域検出部32bは、3次元ボクセルグリッドデータ生成部32aから出力された3次元ボクセルグリッドデータに基づき、3次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち、物体が存在する領域を、認識対象領域として検出する。なお、認識対象領域検出部32bは、物体ごとに認識対象領域を検出する。
認識対象領域検出部32bは、公知の技術を用いて認識対象領域を検出すればよい。例えば、認識対象領域検出部32bは、グリッド間の差、より詳細には、グリッドに入っている値の差、から、値が入っているグリッドの領域の輪郭を検出し、検出した輪郭で囲まれたグリッドを抽出する。そして、認識対象領域検出部32bは、抽出したグリッドの領域の輪郭の外接立方矩形を、認識対象領域として検出する。また、例えば、認識対象領域検出部32bは、抽出したグリッドの輪郭の外接立方矩形にマージンを持たせた立方矩形を、認識対象領域として検出するようにしてもよい。
認識対象領域検出部32bは、検出した認識対象領域を示すデータ(以下「認識対象領域データ」という。)を、疑似3次元データ生成部32cおよび展開図生成部32dに出力する。
疑似3次元データ生成部32cは、認識対象領域検出部32bから出力された認識対象領域データに基づき、2次元畳み込み可能な疑似3次元データを生成する。より詳細には、疑似3次元データ生成部32cは、認識対象領域検出部32bから出力された認識対象領域データを取得し、認識対象領域を3方向(x方向、y方向、および、z方向)にそれぞれスライスして特定の1軸をチャネルとみなすことで、2次元畳み込みを適用可能なデータを生成する。実施の形態1において、疑似3次元データ生成部32cが認識対象領域から生成する2次元畳み込みを適用可能なデータを「スライスデータ」という。スライスデータは、1つのチャネル、言い換えれば、1つの2次元データである。1つのチャネルは、認識対象領域の中で特定の1軸(x軸、y軸、または、z軸)上の特定の位置に相当する。すなわち、1つのチャネル(1つの2次元データ)は、その位置における、元の3次元データである認識対象領域の中での、特定の1軸上での断面を示す。特定の位置は、元の3次元データである認識対象領域の中での断面がどこであるかを示す。例えば、特定の1軸をx軸とすると、x軸上の特定の位置での物体の形状等の特徴が、y-z平面上でのスライスとして表現される。疑似3次元データ生成部32cは、認識対象領域の中での特定の1軸上の複数の位置における複数のチャネル(複数の2次元データ)を、複数のスライスデータとして生成する。
2次元畳み込みニューラルネットワークは、複数のスライスデータを使用することで、異なる軸上の位置での断面のデータを複数取り込むことができる。2次元畳み込みニューラルネットワークは、これらの複数のスライスデータを同時に処理することで、3次元データの情報を捉えることができる。
なお、疑似3次元データ生成部32cは、3つの軸(x軸、y軸、および、z軸)それぞれに対して、複数のスライスデータを生成する。
そして、疑似3次元データ生成部32cは、生成した3つの軸それぞれに対する複数のスライスデータを合成したデータを、疑似3次元データとして生成する。疑似3次元データ生成部32cは、例えば、Contact、Mul、または、Add等の公知の合成方法を適用して疑似3次元データを生成すればよい。
複数のスライスデータを合成した疑似3次元データも、スライスデータ同様、2次元畳み込みを適用可能なデータである。
ここで、図4は、実施の形態1において、疑似3次元データ生成部32cが認識対象領域データから疑似3次元データを生成する過程の一例を説明するための図である。
図4において、401で示されている立体モデルは、認識対象領域を示す。図4において、402a、402b、および、402cは、複数のスライスデータを示す。図4において、403は、疑似3次元データを示す。なお、図4において、認識対象領域の高さ方向のグリッドは「H」、幅方向のグリッドは「W」、奥行方向のグリッドは「D」で示されている。また、図4において、スライスデータでチャネルとみなされている軸におけるグリッドは「C」は示されている。
なお、便宜上、認識対象領域において、物体が存在するグリッドとブランクグリッドをともに白いグリッドで図示している。
まず、疑似3次元データ生成部32cは、認識対象領域検出部32bが検出した認識対象領域(図4の401参照)について、x軸方向の特定の位置にてスライスして得られるy-z平面上での断面を1つのチャネルとみなし、2次元データとして表現した複数のスライスデータ(以下「x軸スライスデータ」という。)を生成する(図4の402a参照)。各画像はx軸上の特定の位置でのスライスデータをあらわす。
また、疑似3次元データ生成部32cは、認識対象領域検出部32bが検出した認識対象領域(図4の401参照)について、y軸方向の特定の位置にてスライスして得られるx-z平面上での断面を1つのチャネルとみなし、2次元の画像として表現したスライスデータ(以下「y軸スライスデータ」という。)を生成する(図4の402b参照)。各画像はy軸上の特定の位置でのスライスデータをあらわす。
また、疑似3次元データ生成部32cは、認識対象領域検出部32bが検出した認識対象領域(図4の401参照)について、z軸方向の特定の位置にてスライスして得られるx-y平面上での断面を1つのチャネルとみなし、2次元の画像として表現したスライスデータ(以下「z軸スライスデータ」という。)を生成する(図4の402c参照)。各画像はz軸上の特定の位置でのスライスデータをあらわす。
そして、疑似3次元データ生成部32cは、生成した複数のx軸スライスデータ、複数のy軸スライスデータ、複数のz軸スライスデータを合成したデータを疑似3次元データとして生成する(図4の403参照)。
なお、疑似3次元データ生成部32cによる、x軸スライスデータ、y軸スライスデータ、および、z軸スライスデータの生成順は問わない。
また、図4を用いて説明した一例では、疑似3次元データ生成部32cは、x軸スライスデータを13個、y軸スライスデータを13個、z軸スライスデータを5個、生成するものとしたが、これは一例に過ぎない。疑似3次元データ生成部32cは、x軸方向、y軸方向、および、z軸方向に任意の数のスライスデータを生成可能である。
疑似3次元データ生成部32cは、生成した疑似3次元データを、物体認識部33に出力する。
展開図生成部32dは、認識対象領域検出部32bから出力された認識対象領域データに基づき、物体が存在するグリッドからなる領域の表面の反射率を示す展開図を含むデータを、展開図画像として生成する。より詳細には、展開図生成部32dは、認識対象領域検出部32bから出力された認識対象領域データを取得し、ある特定の方向から認識対象領域を見て、当該認識対象領域に含まれる物体を示すグリッドからなる領域の表面のグリッドを展開した展開図を含む2次元データを、展開図画像として生成する。
なお、点群データは強度データを含み、3次元ボクセルグリッドデータにおいて、各グリッドには強度データが付与されている。展開図において、各マスには、当該強度データ、言い換えれば、反射率を示すデータが付与される。
ここで、図5は、実施の形態1において、展開図生成部32dが認識対象領域データに基づいて生成する展開図画像の一例を説明するための図である。
図5において、501aの立体モデルは、認識対象領域を示す。なお、図5では、認識対象領域検出部32bは、物体が存在する領域として抽出したグリッドの輪郭の外接立方矩形にマージンを持たせた立方矩形を認識対象領域として検出したものとしている。
図5において、502aは、501aに示すような認識対象領域を矢印で示す方向から見て、当該認識対象領域に含まれる物体を示すグリッド(図5にて501bで示されてる)からなる領域の表面のデータのみを展開した展開図(図5にて502bで示されている)を含む展開図画像を示す。
なお、図5では、展開図画像は、展開図の周囲にブランクグリッドの表面に対応するデータを設けた画像としているが、これは一例に過ぎない。展開図画像は、少なくとも展開図を含む画像となっていればよい。図5にて白いグリッドで表現している、展開図の周囲のブランクグリッドの表面に対応する部分は、値が入っていないグリッドであることがわかるようになっていればよく、当該部分には、例えば、「0」または「-1」等、統一した値が付与される。
展開図生成部32dは、生成した展開図画像を、物体認識部33に出力する。
3次元センサ2から取得されたセンシングデータに含まれる強度データは、反射率をあらわす。強度データは、物体の表面の素材等により変化し、物体の特徴を多く含んでいる。展開図生成部32dが、展開図画像を生成することで、物体認識装置3は、1方向からのみではなく、物体の全ての表面の強度データを参照した、言い換えれば、物体の特徴をより考慮した、物体認識を行うことができる。なお、物体認識装置3において、物体認識は物体認識部33が行う。
物体認識部33は、データ生成部32が生成した物体認識用データを2次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する。具体的には、物体認識部33は、疑似3次元データ生成部32cが生成した疑似3次元データ、および、展開図生成部32dが生成した展開図画像をそれぞれ2次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する。
より詳細には、物体認識部33は、疑似3次元データおよび展開図画像をそれぞれ2次元畳み込みニューラルネットワークに入力する。2次元畳み込みニューラルネットワークは、疑似3次元データおよび展開図画像が入力されると、物体に関するデータを出力する。ここで、2次元畳み込みニューラルネットワークが出力する物体に関するデータとは、物体の種別とその種別であると想定される確率とが対応付けられたデータである。物体認識部33は、物体に関するデータに基づき、例えば、対応付けられている確率が最も高い種別を、物体の種別とする。これにより、物体認識部33は物体を認識する。
物体認識部33による物体認識方法の一例について、詳細に説明する。
図6は、実施の形態1において、物体認識部33が2次元畳み込みニューラルネットワークを用いて行う物体認識処理の一例を示す図である。
まず、物体認識部33は、疑似3次元データ生成部32cから出力された疑似3次元データを2次元畳み込みニューラルネットワークに入力し、2次元畳み込みニューラルネットワークから出力された特徴量(以下「第1特徴量」という。)を得る(図6の601参照)。また、物体認識部33は、展開図生成部32dから出力された展開図画像を2次元畳み込みニューラルネットワークに入力し、2次元畳み込みニューラルネットワークから出力された特徴量(以下「第2特徴量」という。)を得る(図6の602参照)。なお、物体認識部33が第1特徴量および第2特徴量を得る順番は問わない。
次に、物体認識部33は、得た第1特徴量と第2特徴量を合成する。そして、物体認識部33は、合成した特徴量(以下「合成特徴量」という。)を、再び2次元畳み込みニューラルネットワークに入力し、物体に関するデータを得る。そして、物体認識部33は、物体に関するデータに基づき、例えば、当該物体に関するデータにて対応付けられている確率が最も高い種別を物体の種別とする(図6の603参照)。
なお、2次元畳み込みニューラルネットワークは、事前に、正解ラベル付きの学習用データで学習済みである。学習済みの2次元畳み込みニューラルネットワークは、物体認識部33が参照可能な場所に記憶されている。
学習用データは、予め、管理者等によって生成されている既存のデータセットである。
物体認識部33は、物体の種別を示す物体認識結果を生成する。物体認識結果は、物体の位置を示すデータを含んでいてもよい。物体の位置は点群データから判定できる。なお、物体認識部33は、点群データを、データ取得部31からデータ生成部32を介して取得すればよい。
物体認識部33は、物体認識結果を、認識結果出力部34に出力する。
認識結果出力部34は、物体認識部33から出力された物体認識結果を、機器4に出力する。
実施の形態1に係る物体認識装置3の動作について説明する。
図7は、実施の形態1に係る物体認識装置3の動作について説明するためのフローチャートである。
物体認識装置3は、例えば、物体認識装置3に電源が投入されると図7のフローチャートで示すような動作を開始し、電源がオフされるまで図7のフローチャートで示すような動作を繰り返す。
データ取得部31は、3次元センサ2から出力されたセンシングデータ、言い換えれば、点群データ、を取得する(ステップST1)。
データ取得部31は、取得した点群データをデータ生成部32に出力する。
3次元ボクセルグリッドデータ生成部32aは、ステップST1にてデータ取得部31が取得した点群データに基づき、3次元ボクセルグリッドデータを生成する(ステップST2)。
3次元ボクセルグリッドデータ生成部32aは、生成した3次元ボクセルグリッドデータを、認識対象領域検出部32bに出力する。
認識対象領域検出部32bは、ステップST2にて3次元ボクセルグリッドデータ生成部32aから出力された3次元ボクセルグリッドデータに基づき、3次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち、物体が存在する領域を、認識対象領域として検出する(ステップST3)。
認識対象領域検出部32bは、認識対象領域データを、疑似3次元データ生成部32cおよび展開図生成部32dに出力する。
疑似3次元データ生成部32cは、ステップST3にて認識対象領域検出部32bから出力された認識対象領域データに基づき、2次元畳み込み可能な疑似3次元データを生成する(ステップST4a)。
疑似3次元データ生成部32cは、生成した疑似3次元データを、物体認識部33に出力する。
展開図生成部32dは、ステップST3にて認識対象領域検出部32bから出力された認識対象領域データに基づき、展開図画像を生成する(ステップST4b)。
展開図生成部32dは、生成した展開図画像を、物体認識部33に出力する。
物体認識部33は、ステップST4aにて疑似3次元データ生成部32cから出力された疑似3次元データ、および、ステップST4bにて展開図生成部32dから出力された展開図画像に基づき、疑似3次元データおよび展開図画像をそれぞれ2次元畳み込みニューラルネットワークに入力して、物体に関するデータを得ることで物体を認識する(ステップST5)。
物体認識部33は、物体認識結果を、認識結果出力部34に出力する。
認識結果出力部34は、ステップST5にて物体認識部33から出力された物体認識結果を、機器4に出力する(ステップST6)。
なお、図7に示すフローチャートでは、ステップST4aの処理とステップST4bの処理とが並列で行われるものとしているが、これは一例に過ぎない。例えば、ステップST3、ステップST4a、ステップST4b、ステップST5の順で処理が行われてもよいし、ステップST3、ステップST4b、ステップST4a、ステップST5の順で処理が行われてもよい。
このように、物体認識装置3は、3次元センサ2から取得した点群データに基づき、3次元ボクセルグリッドデータを生成し、生成した3次元ボクセルグリッドデータに基づき、認識対象領域を検出する。物体認識装置3は、認識対象領域データに基づき疑似3次元データと展開図画像を生成して、生成した疑似3次元データと展開図画像を2次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する。
物体認識装置3は、2次元畳み込みを適用可能な3次元ボクセルグリッドデータを生成して2次元畳み込みニューラルネットワークを用いて物体認識を行うことにより、3次元畳み込みニューラルネットワークを用いた物体認識と比べ、演算量を削減させ物体認識をより高速に行えるとともに、従来の複数の二次元情報に基づいて畳み込みニューラルネットワークによる画像処理を実行して物体を認識する技術と比べ、より高精度な物体認識を行うことができる。
また、物体認識装置3は、展開図画像を生成して2次元畳み込みニューラルネットワークを用いた物体認識を行うことにより、1方向からのみではなく、物体の全ての表面の強度データを参照した、言い換えれば、物体の特徴をより考慮した、物体認識を行うことができる。その結果、物体認識装置3は、物体認識精度をより向上させることができる。
以上の実施の形態1では、物体認識装置3は、展開図生成部32dを備えるものとしたが、これは一例に過ぎず、物体認識装置3は、展開図生成部32dを備えることを必須としない。
物体認識装置3が展開図生成部32dを備えない構成とする場合、図7のフローチャートで示した物体認識装置3の動作のうち、ステップST4bの処理は省略できる。
また、以上の実施の形態1では、物体認識装置3は、3次元センサ2から、3次元センサ2が生成した点群データを取得するものとしたが、これは一例に過ぎない。点群データの取得元は3次元センサ2に限らず、物体認識装置3は、例えば、予め生成され物体認識装置3が参照可能な記憶装置(図示省略)に記憶されている点群データを当該記憶装置から取得するようにしてもよいし、物体認識装置3がシミュレータ(図示省略)と接続され、物体認識装置3は、シミュレータから、シミュレータがシミュレーション運転して生成した点群データを取得するようにしてもよい。
また、以上の実施の形態1では、物体認識装置3は、例えば、自動運転車両に搭載されているものとしたが、これは一例に過ぎない。物体認識装置3は、例えば、サーバに搭載されていてもよいし、データ取得部31、3次元ボクセルグリッドデータ生成部32a、認識対象領域検出部32b、疑似3次元データ生成部32c、展開図生成部32d、物体認識部33、認識結果出力部34のうちの一部が車載装置に備えられ、残りがサーバに備えられてもよい。
また、以上の実施の形態1において、認識結果出力部34の機能は、物体認識部33が有しているものとしてもよい。この場合、物体認識装置3は、認識結果出力部34を備えない構成とできる。
また、以上の実施の形態1において、例えば、物体認識装置3は物体認識結果を記憶するものとし、3次元センサ2と物体認識装置3とで物体認識システム1を構成してもよい。
図8Aおよび図8Bは、実施の形態1に係る物体認識装置3のハードウェア構成の一例を示す図である。
実施の形態1において、データ取得部31と、3次元ボクセルグリッドデータ生成部32aと、認識対象領域検出部32bと、疑似3次元データ生成部32cと、展開図生成部32dと、物体認識部33と、認識結果出力部34の機能は、処理回路101により実現される。すなわち、物体認識装置3は、センサデータ、言い換えれば、点群データに基づいて、2次元畳み込みを適用可能な疑似3次元データを生成し、疑似3次元データと2次元畳み込みニューラルネットワークにより物体を認識する制御を行うための処理回路101を備える。
処理回路101は、図8Aに示すように専用のハードウェアであっても、図8Bに示すようにメモリに格納されるプログラムを実行するプロセッサ104であってもよい。
処理回路101が専用のハードウェアである場合、処理回路101は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものが該当する。
処理回路がプロセッサ104の場合、データ取得部31と、3次元ボクセルグリッドデータ生成部32aと、認識対象領域検出部32bと、疑似3次元データ生成部32cと、展開図生成部32dと、物体認識部33と、認識結果出力部34の機能は、ソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ105に記憶される。プロセッサ104は、メモリ105に記憶されたプログラムを読み出して実行することにより、データ取得部31と、3次元ボクセルグリッドデータ生成部32aと、認識対象領域検出部32bと、疑似3次元データ生成部32cと、展開図生成部32dと、物体認識部33と、認識結果出力部34の機能を実行する。すなわち、物体認識装置3は、プロセッサ104により実行されるときに、上述の図7のステップST1~ステップST6が結果的に実行されることになるプログラムを格納するためのメモリ105を備える。また、メモリ105に記憶されたプログラムは、データ取得部31と、3次元ボクセルグリッドデータ生成部32aと、認識対象領域検出部32bと、疑似3次元データ生成部32cと、展開図生成部32dと、物体認識部33と、認識結果出力部34の処理の手順または方法をコンピュータに実行させるものであるともいえる。ここで、メモリ105とは、例えば、RAM、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)等の、不揮発性もしくは揮発性の半導体メモリ、または、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)等が該当する。
なお、データ取得部31と、3次元ボクセルグリッドデータ生成部32aと、認識対象領域検出部32bと、疑似3次元データ生成部32cと、展開図生成部32dと、物体認識部33と、認識結果出力部34の機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。例えば、データ取得部31と認識結果出力部34については専用のハードウェアとしての処理回路101でその機能を実現し、3次元ボクセルグリッドデータ生成部32aと、認識対象領域検出部32bと、疑似3次元データ生成部32cと、展開図生成部32dと、物体認識部33についてはプロセッサ104がメモリ105に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。
また、物体認識装置3は、3次元センサ2または機器4等の装置と、有線通信または無線通信を行う入力インタフェース装置102および出力インタフェース装置103を備える。
以上のように、実施の形態1によれば、物体認識装置3は、点群データ(センサデータ)を取得するデータ取得部31と、データ取得部31が取得した点群データに基づき、3次元ボクセルグリッドデータを生成する3次元ボクセルグリッドデータ生成部32aと、3次元ボクセルグリッドデータ生成部32aが生成した3次元ボクセルグリッドデータに基づき、3次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち物体が存在する領域を認識対象領域として検出する認識対象領域検出部32bと、認識対象領域検出部32bが検出した認識対象領域のデータに基づき、2次元畳み込み可能な疑似3次元データを生成する疑似3次元データ生成部32cと、疑似3次元データ生成部32cが生成した疑似3次元データを2次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する物体認識部33とを備えるように構成した。そのため、物体認識装置3は、3次元情報を入力とした3次元畳み込みニューラルネットワークによる物体認識と比べ演算量を削減させ物体認識をより高速に行えるとともに、従来の複数の二次元情報に基づいて畳み込みニューラルネットワークによる画像処理を実行して物体を認識する技術と比べ、より高精度な物体認識を行うことができる。
また、物体認識装置3は、上記構成に加え、認識対象領域検出部32bが検出した認識対象領域のデータに基づき、物体が存在するグリッドからなる領域の表面の反射率を示す展開図を含む展開図画像を生成する展開図生成部32dを備え、物体認識部33は、疑似3次元データ生成部32cが生成した疑似3次元データと展開図生成部32dが生成した展開図画像を2次元畳み込みニューラルネットワークに入力して物体に関するデータを得ることで物体を認識する構成とできる。これにより、物体認識装置3は、1方向からのみではなく、物体の全ての表面の強度データを参照した、言い換えれば、物体の特徴をより考慮した、物体認識を行うことができる。その結果、物体認識装置3は、物体認識精度をより向上させることができる。
なお、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
本開示の物体認識装置は、3次元畳み込みニューラルネットワークを用いた物体認識と比べ、演算量を削減させ物体認識をより高速に行えるとともに、複数の二次元情報に基づいて畳み込みニューラルネットワークによる画像処理を実行して物体を認識する技術と比べ、より高精度な物体認識を行うことができる。
1 物体認識システム、2 3次元センサ、3 物体認識装置、31 データ取得部、32 データ生成部、32a 3次元ボクセルグリッドデータ生成部、32b 認識対象領域検出部、32c 疑似3次元データ生成部、32d 展開図生成部、33 物体認識部、34 認識結果出力部、4 機器、101 処理回路、102 入力インタフェース装置、103 出力インタフェース装置、104 プロセッサ、105 メモリ。

Claims (7)

  1. 点群データを取得するデータ取得部と、
    前記データ取得部が取得した前記点群データに基づき、3次元ボクセルグリッドデータを生成する3次元ボクセルグリッドデータ生成部と、
    前記3次元ボクセルグリッドデータ生成部が生成した前記3次元ボクセルグリッドデータに基づき、前記3次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち物体が存在する領域を認識対象領域として検出する認識対象領域検出部と、
    前記認識対象領域検出部が検出した前記認識対象領域のデータに基づき、2次元畳み込み可能な疑似3次元データを生成する疑似3次元データ生成部と、
    前記疑似3次元データ生成部が生成した前記疑似3次元データを2次元畳み込みニューラルネットワークに入力して前記物体に関するデータを得ることで前記物体を認識する物体認識部
    とを備えた物体認識装置。
  2. 前記認識対象領域検出部が検出した前記認識対象領域のデータに基づき、前記物体が存在する前記グリッドからなる領域の表面の反射率を示す展開図を含む展開図画像を生成する展開図生成部を備え、
    前記物体認識部は、前記疑似3次元データ生成部が生成した前記疑似3次元データと前記展開図生成部が生成した前記展開図画像を前記2次元畳み込みニューラルネットワークに入力して前記物体に関するデータを得ることで前記物体を認識する
    ことを特徴とする請求項1記載の物体認識装置。
  3. 前記疑似3次元データ生成部は、前記認識対象領域のデータについて、3方向にそれぞれスライスして特定の1軸をチャネルとみなすことで生成した、前記1軸上の特定の位置における前記物体の特徴をあらわす前記認識対象領域の中での断面を示す複数のスライスデータを合成して前記疑似3次元データを生成する
    ことを特徴とする請求項1または請求項2記載の物体認識装置。
  4. 前記展開図生成部は、前記認識対象領域の前記物体が存在する前記グリッドからなる領域の表面の前記グリッドをある方向から見た展開図を含む2次元データを前記展開図画像として生成する
    ことを特徴とする請求項2記載の物体認識装置。
  5. データ取得部が、点群データを取得するステップと、
    3次元ボクセルグリッドデータ生成部が、前記データ取得部が取得した前記点群データに基づき、3次元ボクセルグリッドデータを生成するステップと、
    認識対象領域検出部が、前記3次元ボクセルグリッドデータ生成部が生成した前記3次元ボクセルグリッドデータに基づき、前記3次元ボクセルグリッドデータであらわされる複数のグリッドからなる領域のうち物体が存在する領域を認識対象領域として検出するステップと、
    疑似3次元データ生成部が、前記認識対象領域検出部が検出した前記認識対象領域のデータに基づき、2次元畳み込み可能な疑似3次元データを生成するステップと、
    物体認識部が、前記疑似3次元データ生成部が生成した前記疑似3次元データを2次元畳み込みニューラルネットワークに入力して前記物体に関するデータを得ることで前記物体を認識するステップ
    とを備えた物体認識方法。
  6. 請求項1、請求項2、または、請求項4記載の物体認識装置と、
    前記点群データを生成する3次元センサ
    とを備えた物体認識システム。
  7. 前記3次元センサは、LiDARまたはミリ波センサである
    ことを特徴とする請求項6記載の物体認識システム。
JP2025527081A 2024-04-30 2024-04-30 物体認識装置、物体認識方法、および、物体認識システム Active JP7745813B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2024/016622 WO2025229698A1 (ja) 2024-04-30 2024-04-30 物体認識装置、物体認識方法、および、物体認識システム

Publications (1)

Publication Number Publication Date
JP7745813B1 true JP7745813B1 (ja) 2025-09-29

Family

ID=97214666

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2025527081A Active JP7745813B1 (ja) 2024-04-30 2024-04-30 物体認識装置、物体認識方法、および、物体認識システム

Country Status (2)

Country Link
JP (1) JP7745813B1 (ja)
WO (1) WO2025229698A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174039A (ja) * 2016-03-23 2017-09-28 富士フイルム株式会社 画像分類装置、方法およびプログラム
JP2018060511A (ja) * 2016-10-06 2018-04-12 株式会社アドバンスド・データ・コントロールズ シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法
JP2019133545A (ja) * 2018-02-02 2019-08-08 株式会社デンソーアイティーラボラトリ 特徴表現装置、それを含む認識システム、及び特徴表現プログラム
JP2020513124A (ja) * 2017-03-24 2020-04-30 ジェイエルケイ インスペクション 仮想3次元深層ニューラルネットワークを利用する画像解析装置及び方法
JP2021100179A (ja) * 2019-12-20 2021-07-01 京セラ株式会社 認識システム、認識装置、認識及び制御処理方法
JP2022518583A (ja) * 2019-10-31 2022-03-15 上▲海▼商▲湯▼智能科技有限公司 ニューラルネットワークトレーニングおよび画像分割方法、装置、機器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017174039A (ja) * 2016-03-23 2017-09-28 富士フイルム株式会社 画像分類装置、方法およびプログラム
JP2018060511A (ja) * 2016-10-06 2018-04-12 株式会社アドバンスド・データ・コントロールズ シミュレーションシステム、シミュレーションプログラム及びシミュレーション方法
JP2020513124A (ja) * 2017-03-24 2020-04-30 ジェイエルケイ インスペクション 仮想3次元深層ニューラルネットワークを利用する画像解析装置及び方法
JP2019133545A (ja) * 2018-02-02 2019-08-08 株式会社デンソーアイティーラボラトリ 特徴表現装置、それを含む認識システム、及び特徴表現プログラム
JP2022518583A (ja) * 2019-10-31 2022-03-15 上▲海▼商▲湯▼智能科技有限公司 ニューラルネットワークトレーニングおよび画像分割方法、装置、機器
JP2021100179A (ja) * 2019-12-20 2021-07-01 京セラ株式会社 認識システム、認識装置、認識及び制御処理方法

Also Published As

Publication number Publication date
WO2025229698A1 (ja) 2025-11-06

Similar Documents

Publication Publication Date Title
US12079723B2 (en) Optimizing neural network structures for embedded systems
CN111615703B (zh) 传感器数据分割
US11455565B2 (en) Augmenting real sensor recordings with simulated sensor data
EP3653989B1 (en) Imaging device and monitoring device
US9519968B2 (en) Calibrating visual sensors using homography operators
JP2024511043A (ja) モデル注入を用いた点群データ拡張のためのシステム、および方法
US20200043186A1 (en) Apparatus, method, and system for alignment of 3d datasets
CN109635816B (zh) 车道线生成方法、装置、设备以及存储介质
JP6777403B2 (ja) 物体認識装置及びプログラム
US9081999B2 (en) Head recognition from depth image
KR20210090384A (ko) 카메라 및 라이다 센서를 이용한 3d 객체 검출방법 및 장치
US20220309761A1 (en) Target detection method, device, terminal device, and medium
CN116912417A (zh) 基于人脸三维重建的纹理贴图方法、装置、设备和存储介质
US12306302B2 (en) Image processing device, control program, and image processing method
KR20220110034A (ko) 대상체의 기하학적 특성을 반영하여 확장된 표현 범위를 가지는 인텐시티 정보를 생성하는 방법 및 그러한 방법을 수행하는 라이다 장치
US20240183983A1 (en) Systems and methods for pose determination of a mobile subject
JP2021056017A (ja) 合成処理装置、合成処理システム及び合成処理方法
CN114139353A (zh) 模拟成像感知数据的优化方法、系统及计算机程序
JP7745813B1 (ja) 物体認識装置、物体認識方法、および、物体認識システム
CN117269940A (zh) 点云数据生成方法、激光雷达的感知能力验证方法
WO2021144019A1 (en) Calibration of a solid-state lidar device
CN120615201A (zh) 用于2d全景图像的深度图生成
EP3731130A1 (en) Apparatus for determining an occupancy map
KR102538231B1 (ko) 시맨틱 세그멘테이션의 3차원 해석 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
JP7697550B2 (ja) マッピングシステム、マッピングシステムを使用する方法、およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250512

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20250512

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20250512

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250819

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250916

R150 Certificate of patent or registration of utility model

Ref document number: 7745813

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150