JP7310932B2 - 3次元点群識別装置、学習装置、3次元点群識別方法、学習方法、及びプログラム - Google Patents

3次元点群識別装置、学習装置、3次元点群識別方法、学習方法、及びプログラム Download PDF

Info

Publication number
JP7310932B2
JP7310932B2 JP2021570551A JP2021570551A JP7310932B2 JP 7310932 B2 JP7310932 B2 JP 7310932B2 JP 2021570551 A JP2021570551 A JP 2021570551A JP 2021570551 A JP2021570551 A JP 2021570551A JP 7310932 B2 JP7310932 B2 JP 7310932B2
Authority
JP
Japan
Prior art keywords
points
coordinates
representative
dimensional
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021570551A
Other languages
English (en)
Other versions
JPWO2021144897A1 (ja
Inventor
夏菜 倉田
泰洋 八尾
慎吾 安藤
潤 島村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021144897A1 publication Critical patent/JPWO2021144897A1/ja
Application granted granted Critical
Publication of JP7310932B2 publication Critical patent/JP7310932B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/89Radar or analogous systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Description

本開示は、3次元点群識別装置、学習装置、3次元点群識別方法、学習方法、及びプログラムに関する。
3次元(x,y,z)の位置情報を持つ点のデータを3次元点と呼ぶ。3次元点は、物体の表面上の点を表現することができる。そのような3次元点の集まりからなるデータを3次元点群と呼ぶ。点群は、n個(n≧2)の点の集合であり、各点は1~nの識別子により特定される。3次元点群は、物体の表面上の点であり、物体の幾何的な情報を示すデータであり、距離センサによる計測や、画像から3次元再構成を行うことによって取得することができる。点の属性情報とは、点群の計測の際に得られた位置情報以外の情報であり、例えば、点の反射強度を示すIntensity値や、色情報を表すRGB値等が挙げられる。
3次元点群のクラスラベルとは、3次元点群が表現する物体の種類を示すものである。このようなクラスラベルとしては、例えば、屋外の3次元点群を対象とした場合、地面、建物、柱、ケーブル、及び樹木等が挙げられる。
3次元点群のクラスラベルを識別する識別方法には、対象に応じて以下の2通りの方法が知られている。第1の方法は、単一のクラスを表す3次元点群(以下、オブジェクトデータ、という)に、非特許文献1等の手法により、そのクラスを示す1つのクラスラベルを付与する方法である。以下、第1の方法を、オブジェクト識別と呼ぶ。
第2の方法は、街並みや部屋といった複数クラスに属する点を含む3次元点群(以下、シーンデータ、という)に、非特許文献1等の手法により、各点に対し、クラスラベルを付与する方法である。単独の物体であっても、パーツごとに異なるクラスラベルを付与する場合は、その物体を構成する点群は、シーンデータにあたる。以下、第2の方法を、セマンティック・セグメンテーションと呼ぶ。
オブジェクト識別とセマンティック・セグメンテーションはどちらも、3次元点群から抽出した特徴量に基づいて行うことができる。非特許文献1及び非特許文献2のような構成のDeep Neural Network(以下、DNN、という)によって段階的な特徴抽出を行い、複数の距離スケールでの形状特徴量を識別に利用する手法の性能が高いことが知られている。非特許文献1に記載のDNNは、代表点の選択と、X-Convolution(Multi-layer perceptronにより構成された特徴抽出モデル)による代表点に対する形状特徴の抽出とを繰り返す。その後、オブジェクト識別の場合は、ダウンサンプリング層を設け、代表点を減少させていき、特徴量の集約層を設けてオブジェクトのクラスラベルを出力する。また、セマンティック・セグメンテーションの場合は、さらに、アップサンプリング層を設け、代表点を増加させていき、各点のクラスラベルを出力する。
Y. Li, R. Bu, M. Sun, W. Wu, X. Di, B. Chen, "PointCNN: Convolution On X -Transformed Points", pp.828-838, 2018. C. R. Qi, L. Yi, H. Su Leonidas J. Guibas, "PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space", NeurIPS, pp.5105-5114, 2017.
非特許文献1に記載の技術には、段階的に代表点を絞り込むことにより、複数の距離スケールでの特徴量に基づいた識別ができるという利点がある。このとき、まずは各点にその周囲の形状に基づく局所形状特徴量が付与される。ここで、入力点群が表す形状が一様な物体が対象である場合、どの代表点を選択しても得られる局所形状特徴量は変化しない。一方、その形状が細かく変化するような複雑な形状の物体が対象である場合、どの代表点を選択するかによって得られる局所形状特徴量が大幅に変化し、識別性能を下げる可能性がある。例えば、エッジ部分等の、形状が大きく変化する部分に代表点が過度に集中した場合、形状が細かく変化する複雑な形状を捉えられない場合がある。このような場合、3次元点群のクラスラベルの識別性能が低下する。
非特許文献1及び非特許文献2では、ランダムサンプリング等、各点周囲の形状や物体中でのポジションに基づかないサンプリング方法が用いられているため、上記のような原因により、識別性能が低下する場合がある。
本開示は、上記の点に鑑みてなされたものであり、3次元点群のクラスラベルを高性能に識別することができる、3次元点群識別装置、学習装置、3次元点群識別方法、学習方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、本開示の3次元点群識別装置は、物体の表面上の点を表現する複数の3次元点により構成される3次元点群により表現される前記物体の種類を示すクラスラベルを識別する3次元点群識別装置であって、3次元点群を構成する各3次元点の座標データ及び前記3次元点各々の属性情報を入力として受け付ける入力部と、前記入力部に入力された前記3次元点群を構成する前記3次元点から、前記3次元点群が表現する物体の特徴を効率的に表現する3次元点であるキーポイントを複数含むキーポイント群と、前記複数のキーポイント以外の複数の3次元点を含むキーポイント以外点群とを抽出するキーポイント選別部と、前記キーポイント選別部が抽出した前記キーポイント群と、前記キーポイント以外点群との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の前記代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力する第1推論情報抽出部、前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の3次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する第2推論情報抽出部、及び前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第2推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するクラスラベル推論部を含む推論部と、を備える。
また、上記目的を達成するために、本開示の学習装置は、物体の表面上の点を表現する複数の3次元点により構成される3次元点群により表現される前記物体の種類を示すクラスラベルを識別するためのモデルを学習する学習装置であって、正解のクラスラベルが与えられた複数の代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力する第1推論情報抽出部、前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の3次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する第2推論情報抽出部、及び前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第2推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するクラスラベル推論部を含むモデルに対し、前記3次元点群が入力された場合に、前記正解のクラスラベルを出力するよう前記モデルを学習する学習部と、を備える。
上記目的を達成するために、本開示の3次元点群識別方法は、物体の表面上の点を表現する複数の3次元点により構成される3次元点群により表現される前記物体の種類を示すクラスラベルを識別する3次元点群識別方法であって、入力部が、3次元点群を構成する各3次元点の座標データ及び前記3次元点各々の属性情報を入力として受け付けるステップと、キーポイント選別部が、前記入力部に入力された前記3次元点群を構成する前記3次元点から、前記3次元点群が表現する物体の特徴を効率的に表現する3次元点であるキーポイントを複数含むキーポイント群と、前記複数のキーポイント以外の複数の3次元点を含むキーポイント以外点群とを抽出するステップと、第1推論情報抽出部が、前記キーポイント選別部が抽出した前記キーポイント群と、前記キーポイント以外点群との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の前記代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力するステップと、第2推論情報抽出部が、前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の3次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力するステップと、クラスラベル推論部が、前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第2推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するステップと、を備える。
上記目的を達成するために、本開示の学習方法は、物体の表面上の点を表現する複数の3次元点により構成される3次元点群により表現される前記物体の種類を示すクラスラベルを識別するためのモデルを学習する学習方法であって、正解のクラスラベルが与えられた複数の代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力する第1推論情報抽出部、前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の3次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する第2推論情報抽出部、及び前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第2推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するクラスラベル推論部を含むモデルに対し、学習部が、前記3次元点群が入力された場合に、前記正解のクラスラベルを出力するよう前記モデルを学習するステップ、を備える。
上記目的を達成するために、本開示のプログラムは、コンピュータを、本開示の3次元点群識別装置、又は本開示の学習装置を構成する各部として機能させるためのものである。
本開示によれば、3次元点群のクラスラベルを高性能に識別することができる、という効果が得られる。
実施形態の3次元点群識別装置の一例の構成を示すブロック図である キーポイント選別部の一例を示すブロック図である。 推論部の一例を示すブロック図である。 推論部を構成するDNNの一例を示すブロック図である。 DS層の一例を示すブロック図である。 US層の一例を示すブロック図である。 実施形態の3次元点群識別装置における識別処理ルーチンの一例を示すフローチャートである。 実施形態の学習装置の一例の構成を示すブロック図である。 実施形態の学習装置における学習処理ルーチンの一例を示すフローチャートである。 実施形態の3次元点群識別装置及び学習装置の一例のハードウェア構成を示すブロック図である。 キーポイント選別部の変形例の一例を示すブロック図である。
以下、図面を参照して本開示の実施形態を詳細に説明する。
<本実施形態の3次元点群識別装置の構成>
図1は、本実施形態の3次元点群識別装置10の一例の構成を示すブロック図である。図1に示すように、本実施形態の3次元点群識別装置10は、入力部20、キーポイント選別部22、推論部24、及び出力部26を備える。また、本実施形態の3次元点群識別装置10は、モデル記憶部12及びクラスラベル記憶部14を備える。
本実施形態の3次元点群識別装置10は、3次元点群のクラスラベルを識別する装置である。上述したように、3次元点群とは、3次元(x,y,z)の位置情報を持つ点のデータである3次元点の集まりからなるデータである。換言すると、3次元点群とは、各々が3次元の位置情報を持つn個(n≧2)の点による点群を構成する各点のデータである3次元点の集まりである。なお、以下では、説明の便宜状、単に「点」という場合があるが、3次元点のことを簡易的に称している。同様に、単に「点群」という場合があるが、3次元点群のことを簡易的に称している。
3次元点群には、単一のクラスを表す3次元点群であるオブジェクトデータと、街並みや部屋といった複数クラスに属する点を含む3次元点群であるシーンデータと、2種類がある。本実施形態の3次元点群識別装置10は、3次元点群としてオブジェクトデータが入力された場合、入力された3次元点群に対して、1つのクラスラベルを出力する。一方、3次元点群識別装置10は、3次元点群としてシーントデータが入力された場合、入力された3次元点群を構成する各点に対して1つのクラスラベルを出力する。
入力部20は、n個の3次元点による3次元点群(P,・・・P)の座標データ、3次元点群を構成する各点の属性情報(C,・・・C)、及び3次元点群がシーンデータ及びオブジェクトデータのいずれであるかを表すデータ種別を入力として受け付ける。入力部20が受け付けた3次元点群(P,・・・P)の座標データ、属性情報(C,・・・C)、及びデータ種別は、キーポイント選別部22に出力される。
キーポイント選別部22は、入力部20から入力された3次元点群(P,・・・P)から、後述するキーポイントを抽出する。図2は、本実施形態のキーポイント選別部22の一例の構成を示すブロック図である。図2に示すように、本実施形態のキーポイント選別部22は、入力特徴変換部30、及びキーポイント抽出部32を含む。
キーポイント抽出部32は、入力部20から入力された3次元点群から、Q_key(Q_key≧1)個のキーポイント(キーポイント群35)を抽出して、出力する。キーポイントとは、もとの点群よりも少数の点で物体の特徴を効率的に表現する点群の部分集合であり、そこに含まれる各点のことをいう。例えば、3次元点群が表現する物体の形状が変わる部分における3次元点群をキーポイントとする。キーポイント群35を抽出する方法は特に限定されず、例えば、非特許文献3及び非特許文献4に記載の技術等が適用できる。
Y. Zhong, "Intrinsic shape signatures: A shape descriptor for 3D object recognition," 2009 IEEE 12th International Conference on Computer Vision Workshops, ICCV Workshops, Kyoto, 2009, pp. 689-696. B. Steder, R. B. Rusu, K. Konolige and W. Burgard, "Point feature extraction on 3D range scans taking into account object boundaries," 2011 IEEE International Conference on Robotics and Automation, Shanghai, 2011, pp. 2601-2608.
また、キーポイント抽出部32は、抽出したキーポイント以外の、Q_sam(n-Qkey=Q_sam≧1)個の3次元点(キーポイント以外点群37)を出力する。なお、キーポイント抽出部32は、キーポイント群35に含まれるキーポイントと、キーポイント以外点群37に含まれるキーポイント以外の点との各々を識別可能とするために、各点に両者を識別するためのフラグを付与してもよい。
入力特徴変換部30は、入力部20から入力された属性情報に基づいて、入力部20から入力されたn個の3次元点群を構成する各点の特徴量[n,C_0]を出力する。ここで、C_0は、任意の特徴次元数であり、本実施形態では、予め設定される。
また、キーポイント選別部22に入力部20から入力されたデータ種別は、データ種別39としてそのまま出力される。
一方、図1に示した推論部24は、モデル記憶部12に記憶されている、学習済みモデルを用いて、3次元点群のクラスラベルを推論する。図3は、本実施形態の推論部24の一例の構成を示すブロック図である。なお、本実施形態の推論部24はモデル記憶部12に記憶されている学習済みモデルであるDNNにより構成されている。図4は、推論部24を構成するDNNの一例を示すブロック図である。
図3及び図4に示すように、本実施形態の推論部24は、第1推論情報抽出部40、第2推論情報抽出部42、及びクラスラベル推論部44を含む。
第1推論情報抽出部40は、キーポイント選別部22が抽出したキーポイント群35と、キーポイント以外点群37との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の代表点の各々について、代表点の座標及び特徴量と、代表点の近傍に位置する近傍点の座標及び特徴量とから、代表点の特徴量を抽出し、複数の代表点の座標及び特徴量を出力することにより、クラスラベルの推定に用いるための第1の推論情報を抽出する。一例として本実施形態の第1推論情報抽出部40は、図4に示すようにDS端層40を含む。DS端層40には、キーポイント選別部22から、キーポイント群35及びキーポイント以外点群37を含む代表点各々の座標と、各代表点の特徴量31と、データ種別39とが入力され、後段の層(第1DS層40及びUS層端42)に出力される。
また、第1推論情報抽出部40は、図4に示すようにL層のDS層(第1DS層40、第2DS層40、及び第3DS層40)を含む。このように、第1推論情報抽出部40は、1~L個のDS層を含むが、Lの数、すなわち第1推論情報抽出部40におけるDS層を何層とするかは、可変であり、1層以上(L≧1)であればよい。なお、DS層の数は、3次元点群が表す物体の形状が複雑な物体である場合、Lの数は多い方が好ましいが、L=3~4程度がより好ましい。図4に示すように、本実施形態では、一例として、DS層の数であるL=3とした場合を示している。以下では、第1推論情報抽出部40が含むL層のDS層の各々を、DS層x(1≦x≦L)という。
図5は、第1推論情報抽出部40に含まれるDS層x(ここでは、1≦x≦L=3)の構成の一例を示すブロック図である。DS層xは、代表点選択部50、第1近傍点選択部52、及び第1特徴量導出部54を有する。
代表点選択部50には、前段のDS層から、m個の代表点の座標[m,d]及び特徴量または属性情報[m,C_(x-1)]が入力される。なお、座標を表す[m,d]のうち前者の「m」は、代表点の数を表す。また、後者の「d」は、点群の次元数を表し、3次元の座標のみならばd=3である。代表点選択部50は、入力された前段のDS層におけるM個の代表点からダウンサンプリングにより、本DS層におけるQ_x個の代表点を選択する。また、「(x-1)」は、前段のDS層を表し、「C_(x-1)」は、DS層xにおける前段のDS層x-1の特徴次元数を表す。
なお、ダウンサンプリングは、ダウンサンプリングにより選択されるQ_x個の代表点が、DS層(x-1)の部分集合で、かつキーポイント群35との積集合が空集合ではないという条件を満たせばよく、その方法は特に限定されない。すなわち、DS層(x-1)に含まれ、かつキーポイント群35から1つ以上の3次元点をサンプリングし、残りをキーポイント以外点群37からサンプリングすればよい。例えば、ダウンサンプリングとして、ランダムサンプリング方法等が適用できる。一例として、本実施形態のダウンサンプリングでは、キーポイント群35から優先して代表点を選択する。すなわち、代表点に含まれるキーポイントの数が、キーポイント以外の点の数以上となるようにダウンサンプリングを行う。なお、代表点に含まれる、キーポイントとキーポイント以外の点との割合は特に限定されず、ランダムでも、座標に応じた任意のバランスに基づくものであってもよい。
代表点選択部50からは、ダウンサンプリングにより選択されたQ_x個の代表点のインデックス[Q_x]が出力される。このインデックスとしては、例えば、ポインタや、入力部20が受け付けたn個の3次元点を含む3次元点群(P,・・・P)の配列中の順番i(1≦i≦n)等の形式が挙げられる。
第1近傍点選択部52は、代表点選択部50で選択されたQ_x個の代表点の、近傍に位置するK_x個の近傍点を3次元点群(P,・・・P)から選択し、近傍点の座標(代表点に対する相対座標)[Q_x,K_x,d]と、その特徴量[Q_x,K_x,C_(x-1)]を出力する。なお、近傍点選択部52は、近傍点を、第1層(DS層1)では、3次元点群(P,・・・P)から選択し、第2層(DS層2)以降では、その層(DS層x)の前段(DS層(x-1))で選択された代表点群から選択する。
なお、代表点に対する近傍点の選択方法は、特に限定されず、例えば、K近接法や、代表点から半径r以内に含まれる点を選択する等を適用することができる。また、近傍点の座標を導出する方法も特に限定されない。一例として本実施形態では、以下の手順により近傍点の相対座標を導出する。まず、代表点群、近傍点群のインデックスに基づきターゲット点群からそれぞれの座標を取得する。次に、取得した代表点Pの座標をU_i、その代表点に対する近傍点群の座標を{S_i,S_i,・・・S_i}としたときに、各近傍点の座標から代表点の座標を減算することで代表点iに対する近傍点群の相対座標{S_i-U_i,S_i-U_i,・・・S_i-U_i}を得る。各代表点につき、同様の処理を行うことにより各代表点に対する近傍点の相対座標を導出することができる。
第1特徴量導出部54は、ニューラルネットワークを用いて、代表点選択部50で選択された代表点の特徴量[Q_x,C_x]を新たに導出する。具体的には、代表点選択部50で選択された代表点の座標[Q_x,d]、及び選択された代表点の特徴量(代表点選択部50に入力された代表点における特徴量)[Q_x,C_(x-1)]と、近傍点の座標[Q_x,K_x,d]、及び近傍点の特徴量[Q_x,K_x,C_(x-1)]を、ニューラルネットワークに入力する。ニューラルネットワークとしては、例えば、非特許文献1に記載のX-Convolution等を適用することができる。
第1特徴量導出部54は、代表点の座標[Q_x,d]と、ニューラルネットワークから出力された特徴量[Q_x,C_x]とを次段のDS層xに出力する。
本実施形態の場合について具体的に説明する。まず、第1DS層40の場合について説明する。第1DS層40の代表点選択部50には、DS端層40から、n個の代表点の座標[n,3]及び特徴量[n,C_0]が入力される。代表点選択部50は、上述したように、n個の代表点から、新たにQ_1(n>Q_1)個の代表点を選択し、そのインデックス[Q_1]を出力する。第1近傍点選択部52は、上述したように、Q_1個の代表点各々の近傍点を選択し、近傍点の座標[Q_1,K_1,3]、及び近傍点の特徴量[Q_1,K_1,C_0]を導出して、出力する。第1特徴量導出部54は、ニューラルネットワークを用い、代表点の座標[Q_1,3]及び特徴量[Q_1,C_0]と、近傍点の座標[Q_1,K_1,3]、及び近傍点の特徴量[Q_1,K_1,C_0]からQ_1個の代表点に対する新たな特徴量[Q_1,C_1]を導出する。また、第1特徴量導出部54は、代表点の座標[Q_1,3]と、本代表点の特徴量[Q_1,C_1]とをセットとして、第2DS層40に出力する。
次に、第2DS層40の場合について説明する。第2DS層40の代表点選択部50には、第1DS層40から、Q_1個の代表点の座標[Q_1,3]及び特徴量[Q_1,C_1]が入力される。代表点選択部50は、上述したように、Q_1個の代表点から、新たにQ_2(Q_1>Q_2)個の代表点を選択し、そのインデックス[Q_2]を出力する。第1近傍点選択部52は、上述したように、Q_2個の代表点各々の近傍点を選択し、近傍点の座標[Q_2,K_2,3]、及び近傍点の特徴量[Q_2,K_2,C_1]を導出して、出力する。第1特徴量導出部54は、ニューラルネットワークを用い、代表点の座標[Q_2,3]及び特徴量[Q_2,C_1]と、近傍点の座標[Q_2,K_2,3]、及び近傍点の特徴量[Q_2,K_2,C_1]からQ_2個の代表点に対する新たな特徴量[Q_2,C_2]を導出する。また、第1特徴量導出部54は、代表点の座標[Q_2,3]と、本代表点の特徴量[Q_2,C_2]とをセットとして、第3DS層40に出力する。
次の第3DS層40は上記第2DS層40における、「Q_1」を「Q_2」に、「Q_2」を「Q_3」に、「C_1」を「C_2」に「C_2」を「C_3」に、「K_2」を「K_3」に、各々読み替えればよい。なお、第3DS層40の第1特徴量導出部54は、代表点の座標[Q_3,3]と、本代表点の特徴量[Q_3,C_3]とをセットとして、第2推論情報抽出部42の第1US層42に出力する。本実施形態では、第3DS層40から出力される、代表点の座標及び特徴量が第1の推論情報となる、
このように、本実施形態の第1推論情報抽出部40では、DS層xの層を重ねる毎にダウンサンプリングされて、代表点の数が少なくなり、各代表点の特徴量は更新される。例えば、第1DS層40で選択された代表点をQ_1=100個、第2DS層40で選択された代表点をQ_2=50個、第3DS層40で選択された代表点をQ_3=25個とすることができる。
一方、第2推論情報抽出部42は、第1推論情報抽出部40から出力された複数の代表点の座標及び特徴量と、新たな代表点とするダウンサンプリング前の複数の3次元点の座標及び特徴量と、新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の新たな代表点の特徴量を抽出し、複数の新たな代表点の座標及び特徴量を出力することにより、クラスラベルに用いるための第2の推論情報を抽出する。一例として本実施形態の第2推論情報抽出部42は、図4に示すように、複数のUS層(第1US層42、第2US層42)及びUS端層42を含む。第2推論情報抽出部42が含むUS層の数は、第1推論情報抽出部40が含むDS層の数よりも1つ少ない数(L-1)である。そのため、図4に示すように、本実施形態では、一例として、US層の数を2とした場合を示している。
図6は、第2推論情報抽出部42に含まれるUS層y(1≦y≦L-1、本実施形態では、y=2)の構成の一例を示すブロック図である。US層y及びUS端層42は、第2近傍点選択部60、特徴結合部62、及び第2特徴量導出部64を有する。
第2近傍点選択部60には、DS層xによりダウンサンプリング前の複数の3次元点の座標及び特徴量が入力される。このダウンサンプリング前の複数の3次元点は、US層yにおける新たな代表点となる。第2近傍点選択部60は、新たな代表点の近傍に位置する近傍点の座標及び特徴量を導出して出力する。なお、第2近傍点選択部60が近傍点の座標及び特徴量を導出する方法は特に限定されず、例えば、上述した第1近傍点選択部52と同様の方法を適用することができる。
特徴結合部62には、第2近傍点選択部60から出力された新たな代表点の近傍点の座標及び特徴量と、DS層xによりダウンサンプリング後の複数の3次元点(DS層xにおける代表点)の座標及び特徴量が入力される。特徴結合部62は、両者の特徴量を任意の手法により結合させる。
第2特徴量導出部64は、ニューラルネットワークを用いて、新たな代表点の特徴量を導出する。具体的には、新たな代表点であるダウンサンプリング前の複数の3次元点の座標及び特徴量と、特徴結合部62から出力された近傍点の座標及び特徴量とを、ニューラルネットワークに入力する。ニューラルネットワークとしては、例えば、非特許文献1に記載のX-Convolution等を適用することができる。
第2特徴量導出部64は、新たな代表点の座標と、ニューラルネットワークから出力された特徴量とをセットして後段に出力する。
具体的には、第1US層42には、第3DS層40から出力された第3DS層40における代表点の座標及び特徴量と、第3DS層40におけるダウンサンプリング前の複数の3次元点、すなわち第2DS層40における代表点の座標及び特徴量とが入力される。第1US層42は、第3DS層40におけるダウンサンプリング前の複数の3次元点を新たな代表点とする。第1US層42は、新たな代表点の座標及び特徴量と、新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、新たな代表点の特徴量を抽出し、複数の新たな代表点の座標及び特徴量を出力する。
また、第2US層42には、第1US層42から出力された第1US層42における代表点(上記新たな代表点)の座標及び特徴量と、第2DS層40におけるダウンサンプリング前の複数の3次元点、すなわち第1DS層40における代表点の座標及び特徴量とが入力される。第2US層42は、第2DS層40におけるダウンサンプリング前の複数の3次元点を新たな代表点とする。第2US層42は、新たな代表点の座標及び特徴量と、新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、新たな代表点の特徴量を抽出し、複数の新たな代表点の座標及び特徴量を出力する。
また、US端層42には、第2US層42から出力された第2US層42における代表点(上記新たな代表点)の座標及び特徴量と、第1DS層40におけるダウンサンプリング前の複数の3次元点、すなわちDS端層40から出力されたn個の代表点の座標及び特徴量とが入力される。US端層42は、第1DS層40におけるダウンサンプリング前の複数の3次元点を新たな代表点とする。US端層42は、新たな代表点の座標及び特徴量と、新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、新たな代表点の特徴量を抽出し、複数の新たな代表点の座標及び特徴量を出力する。本実施形態では、US端層42から出力される、代表点の座標及び特徴量が第2の推論情報となる。
このように、本実施形態の第2推論情報抽出部42では、US層yの層を重ねる毎にアップサンプリングされて、代表点の数が多くなり、また、各代表点の特徴量は更新される。例えば、25個の代表点が入力された場合、第1US層42の新たな代表点を50個、第2US層42の新たな代表点を50個、US端層40の新たな代表点を100個とすることができる。
一方、本実施形態のクラスラベル推論部44は、図4に示すように、各点クラスラベル出力層44及び点群クラスラベル出力層44を含む。
データ種別39が、シーンデータの場合、第1推論情報抽出部40及び第2推論情報抽出部42の処理が実行され、各点クラスラベル出力層44には、第2推論情報抽出部42から上述した第2の推論情報が入力される。各点クラスラベル出力層44は、クラスラベル記憶部14を参照し、シーンデータを構成する各3次元点に対する物体の種類を示すクラスラベルを出力する。
具体的には、各点クラスラベル出力層44は、第2の推論情報に基づき、各代表点の座標と特徴量とから、各3次元点に対するクラスラベルベクトルを導出する。クラスラベル記憶部14には、クラスラベルベクトルと、クラスラベルとの対応関係が予め記憶されている。各点クラスラベル出力層44は、クラスラベル記憶部14を参照し、各3次元点について、導出されたクラスラベルベクトルに対応するクラスラベルを特定して出力する。すなわち、各点クラスラベル出力層44からは、物体の表面上の点を表現する複数の3次元毎にクラスラベルが出力されるため、複数のクラスラベルが出力される。
このように、本実施形態の3次元点群識別装置10では、シーンデータが入力された場合、セマンティック・セグメンテーション処理として、図4に示したセマンティック・セグメンテーション部1により、3次元点毎のクラスラベルが出力される。
一方、データ種別39が、オブジェクトデータの場合、第1推論情報抽出部40の処理のみが実行され、点群クラスラベル出力層44には、第1推論情報抽出部40から上述した第1の推論情報が入力される。点群クスラベル出力層44は、クラスラベル記憶部14を参照し、オブジェクトデータを構成する点群が表す単一の物体の種類を示すクラスラベルを出力する。
具体的には、点群クラスラベル出力層44は、第1の推論情報に基づき、各代表点の座標と特徴量とから、1つのクラスラベルベクトルを導出する。導出方法は特に限定されず、例えば、pooling層や、全結合層等を適用することができる。なお、クラスラベルベクトルは、クラスラベルの数が10ならば、10次元のベクトルとなる。上記のようにクラスラベル記憶部14には、クラスラベルベクトルと、クラスラベルとの対応関係が予め記憶されているため、点群クラスラベル出力層44は、クラスラベル記憶部14を参照し、各3次元点から導出された1つのクラスラベルベクトルに対応するクラスラベルを特定して出力する。すなわち、点群クラスラベル出力層44からは1つのクラスラベルが出力される。
このように、本実施形態の3次元点群識別装置10では、オブジェクトデータが入力された場合、オブジェクト識別処理として、図4に示したオブジェクト識別部2により、単一の物体のクラスラベルが出力される。
また、本実施形態の3次元点群識別装置10における出力部26には、推論部24から出力されたクラスラベルが入力され、入力されたクラスラベルを外部に出力する。
<本実施形態の3次元点群識別装置の作用>
次に、本実施形態の3次元点群識別装置10の作用について図面を参照して説明する。図7は、本実施形態の3次元点群識別装置10において実行される識別処理ルーチンの一例を示すフローチャートである。
図7に示した識別処理ルーチンは、例えば、3次元点群識別装置10の外部から識別処理ルーチンの実行指示を受け付けたタイミング等、任意のタイミングで実行される。
図7のステップS100で入力部20は、上述したように、n個の3次元点による3次元点群の座標データ、3次元点群を構成する各点の属性情報、及び3次元点群のデータ種別を入力として受け付ける。
次のステップS102でキーポイント選別部22は、上述したように、入力部20から入力された3次元点群から、キーポイント群35を抽出する。なお、本処理により、キーポイント以外点群37も抽出される。
次のステップS104で推論部24は、キーポイント選別部22から入力されたデータ種別に基づき、代表点(3次元点群)が、シーンデータであるか否かを判定する。シーンデータの場合、ステップS104の判定が肯定判定となり、ステップS106へ移行する。この場合、上述したセマンティック・セグメンテーション部1が機能する。
ステップS106で第1推論情報抽出部40は、上述したように、第1の推論情報として、ダウンサンプリングにより得られた代表点の座標及び特徴量を抽出する。次のステップS108で第2推論情報抽出部42は、上述したように、第2の推論情報として、アップサンプリングにより得られた代表点の座標及び特徴量を抽出する。次のステップS110でクラスラベル推論部44の各点クラスラベル出力層44は、上述したように、複数の3次元点に導出されたクラスラベルベクトルの各々に対応するクラスラベルを特定して出力する。
一方、代表点(3次元点群)が、シーンデータではない、すなわちオブジェクトデータである場合、ステップS104の判定が否定判定となり、ステップS112へ移行する。この場合、上述したオブジェクト識別部2が機能する。
ステップS112で第1推論情報抽出部40は、上述したように、また、上記ステップS106と同様に、第1の推論情報として、ダウンサンプリングにより得られた代表点の座標及び特徴量を抽出する。次のステップS114でクラスラベル推論部44の点群クラスラベル出力層44は、上述したように、各3次元点から導出された1つのクラスラベルベクトルに対応するクラスラベルを特定して出力する。
ステップS110、またはステップS114の次のステップS116で出力部26は、上述したように、クラスラベル推論部44から出力されたクラスラベルを外部に出力する。ステップS116の処理が終了すると、本識別処理ルーチンが終了する。
<本実施形態の学習装置の構成>
上述した推論部24に用いられるDNNのモデルは、予め学習されモデル記憶部12に記憶される。以下、当該モデルを学習する学習装置について説明する。図8は、本実施形態の学習装置100の一例の構成を示すブロック図である。図8に示すように、本実施形態の学習装置100は、入力部70、及び学習部72を備える。
入力部70には、正解のクラスラベルが与えられた複数の代表点(3次元点群)を入力として受け付ける。
学習部72は、入力部70に入力された正解のクラスラベルが与えられた複数の代表点を上記DNNに入力し、3次元点群が入力された場合に、正解のクラスラベルを出力するように、モデルを学習させる。なお、DNNのモデルは、入力される3次元点群のデータ種別、すなわちシーンデータ及びオブジェクトデータの各々毎に学習させることが好ましい。具体的には、シーンデータに対しては、セマンティック・セグメンテーション部1を構成するためのDNNのモデルを学習させる。また、オブジェクトデータに対しては、オブジェクト識別部2を構成するためのDNNのモデルを学習させる。なおモデルの学習方法は特に限定されないが、例えば、モデルの最適化手法としてAdamを適用してもよい。学習部72によって学習された学習済みのモデルは、モデル記憶部12に記憶される。
<本実施形態の学習装置の作用>
次に、本実施形態の学習装置100の作用について図面を参照して説明する。図9は、本実施形態の学習装置100において実行される学習処理ルーチンの一例を示すフローチャートである。
図9に示した学習処理ルーチンは、例えば、入力部70に、正解のクラスラベルが与えられた複数の代表点が入力されたタイミングや、学習装置100の外部から学習処理ルーチンの実行指示を受け付けたタイミング等、任意のタイミングで実行される。
図9のステップS200で学習部72は、上述したように、入力部70が受け付けた、正解のクラスラベルが与えられた複数の代表点(3次元点群)を、DNNのモデルに入力させ、次のステップS202で学習部72は、DNNのモデルの深層学習を行わせ、DNNのモデルを更新させる。本処理により、例えば、DNNのモデルにおける、上記Q_x、K_x、及びC_x等のパラメータが更新される。
次のステップS204で学習部72は、終了条件を満たすか否かを判定する。一例として、本実施形態の学習装置100では、終了条件として繰り返し回数(例えば、Z回)を、予め設定する。この場合、学習部72は、上記ステップS200及びS202の処理をZ回行ったか否かを判定する。また、既に実行したステップS200及びS202の処理回数が、未だZ回に達していない場合、ステップS204の判定が否定判定となり、ステップS200に戻り、ステップS200及びS202の処理を繰り返す。一方、既に実行したステップ200及びS200の処理の回数がZ回に達した場合、ステップS204の判定が肯定判定となり、ステップS206へ移行する。
ステップS206で学習部72は、DNNのモデルをモデル記憶部12に記憶させる。ステップS206の処理が終了すると、本学習処理ルーチンが終了する。
<3次元点群識別装置及び学習装置のハードウェア構成>
本実施形態の3次元点群識別装置10及び学習装置100の各々は、以下のハードウェアにより構成することができる。図10は、本実施形態の3次元点群識別装置10及び学習装置100各々のハードウェア構成を示すブロック図である。図10に示すように、3次元点群識別装置10及び学習装置100の各々は、CPU(Central Processing Unit)80、ROM(Read Only Memory)82、RAM(Random Access Memory)84、ストレージ86、入力部88、表示部90、及び通信インタフェース(I/F)92を備える。各構成は、バス99を介して相互に通信可能に接続されている。なお、CPU80に加えて、GPU(Graphics Processing Unit)を備えていてもよい。
CPU80は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU80は、ROM82又はストレージ86からプログラムを読み出し、RAM84を作業領域としてプログラムを実行する。CPU80は、ROM82又はストレージ86に記憶されているプログラムを実行することにより、3次元点群識別装置10においては、入力部20、キーポイント選別部22、推論部24、及び出力部26の各々として機能し、学習装置100においては、入力部70及び学習部72として機能する。本実施形態では、ROM82又はストレージ86には、上述した識別処理ルーチンを実行するためのプログラムまたは、学習処理ルーチンを実行するためのプログラムが記憶されている。
ROM82は、各種プログラム及び各種データを格納する。RAM84は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ86は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。一例として本実施形態の3次元点群識別装置10のストレージ86には、上述したモデル記憶部12及びクラスラベル記憶部14が記憶される。
入力部88は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。
表示部90は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部90は、タッチパネル方式を採用して、入力部88として機能しても良い。
通信インタフェース92は、他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI、Wi-Fi(登録商標)等の規格が用いられる。
なお、本実施形態では、3次元点群識別装置10及び学習装置100を異なる装置として説明したが、3次元点群識別装置10及び学習装置100の機能を有する1つの装置として構成してもよい。また、モデル記憶部12及びクラスラベル記憶部14を記憶する記憶装置は、特に限定されず、例えば、3次元点群識別装置10及び学習装置100以外の装置であってもよい。
また、上記実施形態の3次元点群識別装置10及び学習装置100各々の各機能部等の各種の処理を実行する処理部(processing unit)のハードウェア的な構造としては、次に示す各種のプロセッサ(processor)を用いることができる。上記各種のプロセッサには、前述したように、ソフトウェア(プログラム)を実行して各種の処理部として機能する汎用的なプロセッサであるCPUに加えて、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス(Programmable Logic Device:PLD)、ASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。
1つの処理部は、これらの各種のプロセッサのうちの1つで構成されてもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGAの組み合わせや、CPUとFPGAとの組み合わせ)で構成されてもよい。また、複数の処理部を1つのプロセッサで構成してもよい。
複数の処理部を1つのプロセッサで構成する例としては、第1に、クライアント及びサーバ等のコンピュータに代表されるように、1つ以上のCPUとソフトウェアの組み合わせで1つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第2に、システムオンチップ(System On Chip:SoC)等に代表されるように、複数の処理部を含むシステム全体の機能を1つのIC(Integrated Circuit)チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの1つ以上を用いて構成される。
さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路(circuitry)を用いることができる。
また、上記実施形態では、識別処理ルーチンを実行するためのプログラム及び学習処理ルーチンを実行するためのプログラムの各々がROM82またはストレージ86に予め記憶(インストール)されている態様を説明したが、これに限定されない。識別処理ルーチンを実行するためのプログラム及び学習処理ルーチンを実行するためのプログラムの各々は、CD-ROM(Compact Disc Read Only Memory)、DVD-ROM(Digital Versatile Disc Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の記録媒体に記録された形態で提供されてもよい。また、識別処理ルーチンを実行するためのプログラム及び学習処理ルーチンを実行するためのプログラムの各々は、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
以上説明したように、本実施形態の3次元点群識別装置10は、物体の表面上の点を表現する複数の3次元点により構成される3次元点群により表現される物体の種類を示すクラスラベルを識別する3次元点群識別装置であり、入力部20、キーポイント選別部22、及び推論部24を備える。入力部20は、3次元点群を構成する各3次元点の座標データ及び3次元点各々の属性情報を入力として受け付ける。キーポイント選別部22は、入力部20に入力された3次元点群を構成する3次元点から、3次元点群が表現する物体の特徴を効率的に表現する3次元点であるキーポイントを複数含むキーポイント群35と、複数のキーポイント以外の複数の3次元点を含むキーポイント以外点群37とを抽出する。
推論部24は、第1推論情報抽出部40、第2推論情報抽出部42、及びクラスラベル推論部44を含む。第1推論情報抽出部40は、キーポイント選別部22が抽出したキーポイント群35と、キーポイント以外点群37との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の代表点の各々について、代表点の座標及び特徴量と、代表点の近傍に位置する近傍点の座標及び特徴量とから、代表点の特徴量を抽出し、複数の代表点の座標及び特徴量を第1の推論情報として出力する。第2推論情報抽出部42は、第1推論情報抽出部40から出力された複数の代表点の座標及び特徴量と、新たな代表点とするダウンサンプリング前の複数の3次元点の座標及び特徴量と、新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の新たな代表点の特徴量を抽出し、複数の新たな代表点の座標及び特徴量を第2の推論情報として出力する。クラスラベル推論部44は、第1推論情報抽出部40から出力された第1の推論情報である複数の代表点の座標及び特徴量、又は第2推論情報抽出部42から出力された第2の推論情報である複数の新たな代表点の座標及び特徴量から、クラスラベルを導出して出力する。
このように本実施形態の3次元点群識別装置10によれば、物体の表面上の点を表現する複数の3次元点により構成される3次元点群のうち、3次元点群が表現する物体の特徴を効率的に表現する3次元点であるキーポイント群と、キーポイント以外点群との各々から、代表点を抽出する。そのため、例えば、上記非特許文献1及び2のように代表点の選択が偏ることがなくなるため、3次元点群のクラスラベルを高性能に識別することができる。
なお、本開示の技術は、本実施形態に限定されず、その趣旨を逸脱しない限りにおいて、上述したもの以外に種々の変更を行うことが可能である。
例えば、キーポイント選別部22は、図11に示すようにサンプリング部34を備えていてもよい。サンプリング部34は、n-Q_key個のキーポイント以外の点33からサンプリングにより、Q_sam(n-Q_key>Q_sam≧1、Q_sam=Q-Q_key)個のキーポイント以外の点を選択し、キーポイント以外点群37として出力する。キーポイント以外点群37を選択する方法は特に限定されず、例えば、ランダムサンプリング方法等が適用できる。なお、キーポイント群35及びキーポイント以外点群37の和集合が、キーポイント選別部22によって抽出されるQ個の代表点(代表点群)となる。一例として、本実施形態の代表点群は、キーポイントと、キーポイント以外の点とをバランス良く、例えば、所望の割合で含む。そのため、サンプリング部34は、キーポイント抽出部32で抽出した、キーポイント群35を考慮してサンプリングを行う。例えば、サンプリング部34は、全ての点が同じ確率で選択されるようにサンプリングを行う。例えば、キーポイント以外の点の数が、キーポイントの数に比べて過多な場合に、このように、サンプリング部34によりサンプリングを行い、キーポイント以外点群37に含まれるキーポイント以外の点の数を減少させてもよい。
以上の実施形態に関し、更に以下の付記を開示する。
(付記項1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、物体の表面上の点を表現する複数の3次元点により構成される3次元点群により表現される前記物体の種類を示すクラスラベルを識別する3次元点群識別装置であって、
前記プロセッサは、
3次元点群を構成する各3次元点の座標データ及び前記3次元点各々の属性情報を入力として受け付け、
入力された前記3次元点群を構成する前記3次元点から、前記3次元点群が表現する物体の特徴を効率的に表現する3次元点であるキーポイントを複数含むキーポイント群と、前記複数のキーポイント以外の複数の3次元点を含むキーポイント以外点群とを抽出しと、
抽出した前記キーポイント群と、前記キーポイント以外点群との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の前記代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力し、
出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の3次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力し、
出力された複数の前記代表点の座標及び前記特徴量、又は出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力する、
する3次元点群識別装置。
(付記項2)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、物体の表面上の点を表現する複数の3次元点により構成される3次元点群により表現される前記物体の種類を示すクラスラベルを識別するためのモデルを学習する学習装置であって、
前記プロセッサは、
正解のクラスラベルが与えられた複数の代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力し、
出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の3次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する、
及び出力された複数の前記代表点の座標及び前記特徴量、又は出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するモデルに対し、
前記3次元点群が入力された場合に、前記正解のクラスラベルを出力するよう前記モデルを学習する
学習装置。
10 3次元点群識別装置
20 入力部
22 キーポイント選別部
24 推論部
40 第1推論情報抽出部
42 第2推論情報抽出部
44 クラスラベル推論部
72 学習部
100 学習装置

Claims (6)

  1. 物体の表面上の点を表現する複数の3次元点により構成される3次元点群により表現される前記物体の種類を示すクラスラベルを識別する3次元点群識別装置であって、
    3次元点群を構成する各3次元点の座標データ及び前記3次元点各々の属性情報を入力として受け付ける入力部と、
    前記入力部に入力された前記3次元点群を構成する前記3次元点から、前記3次元点群が表現する物体の特徴を効率的に表現する3次元点であるキーポイントを複数含むキーポイント群と、前記複数のキーポイント以外の複数の3次元点を含むキーポイント以外点群とを抽出するキーポイント選別部と、
    前記キーポイント選別部が抽出した前記キーポイント群と、前記キーポイント以外点群との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の前記代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力する第1推論情報抽出部、
    前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の3次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する第2推論情報抽出部、
    及び前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第2推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するクラスラベル推論部を含む推論部と、
    を備えた3次元点群識別装置。
  2. 前記入力部に入力された前記3次元点群が、複数の物体を表すシーンデータの場合、前記クラスラベル推論部は、前記第2推論情報抽出部から出力された前記新たな代表点の座標及び前記特徴量から、前記3次元点群を構成する各3次元点に対する物体の種類を示す前記クラスラベルを導出して出力し、
    前記入力部に入力された前記3次元点群が、単一の物体を表すオブジェクトデータの場合、前記クラスラベル推論部は、前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量から、前記3次元点群が表す単一の物体の種類を示す前記クラスラベルを導出して出力する、
    請求項1に記載の3次元点群識別装置。
  3. 物体の表面上の点を表現する複数の3次元点により構成される3次元点群により表現される前記物体の種類を示すクラスラベルを識別するためのモデルを学習する学習装置であって、
    正解のクラスラベルが与えられた複数の代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力する第1推論情報抽出部、
    前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の3次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する第2推論情報抽出部、
    及び前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第2推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するクラスラベル推論部を含むモデルに対し、
    前記3次元点群が入力された場合に、前記正解のクラスラベルを出力するよう前記モデルを学習する学習部と、
    を備えた学習装置。
  4. 物体の表面上の点を表現する複数の3次元点により構成される3次元点群により表現される前記物体の種類を示すクラスラベルを識別する3次元点群識別方法であって、
    入力部が、3次元点群を構成する各3次元点の座標データ及び前記3次元点各々の属性情報を入力として受け付けるステップと、
    キーポイント選別部が、前記入力部に入力された前記3次元点群を構成する前記3次元点から、前記3次元点群が表現する物体の特徴を効率的に表現する3次元点であるキーポイントを複数含むキーポイント群と、前記複数のキーポイント以外の複数の3次元点を含むキーポイント以外点群とを抽出するステップと、
    第1推論情報抽出部が、前記キーポイント選別部が抽出した前記キーポイント群と、前記キーポイント以外点群との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の前記代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力するステップと、
    第2推論情報抽出部が、前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の3次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力するステップと、
    クラスラベル推論部が、前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第2推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するステップと、
    を備えた3次元点群識別方法。
  5. 物体の表面上の点を表現する複数の3次元点により構成される3次元点群により表現される前記物体の種類を示すクラスラベルを識別するためのモデルを学習する学習方法であって、
    正解のクラスラベルが与えられた複数の代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力する第1推論情報抽出部、
    前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の3次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する第2推論情報抽出部、
    及び前記第1推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第2推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するクラスラベル推論部を含むモデルに対し、
    学習部が、前記3次元点群が入力された場合に、前記正解のクラスラベルを出力するよう前記モデルを学習するステップ、
    を備えた学習方法。
  6. コンピュータを、請求項1または請求項2に記載の3次元点群識別装置、又は請求項3記載の学習装置を構成する各部として機能させるためのプログラム。
JP2021570551A 2020-01-15 2020-01-15 3次元点群識別装置、学習装置、3次元点群識別方法、学習方法、及びプログラム Active JP7310932B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/001131 WO2021144897A1 (ja) 2020-01-15 2020-01-15 3次元点群識別装置、学習装置、3次元点群識別方法、学習方法、及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2021144897A1 JPWO2021144897A1 (ja) 2021-07-22
JP7310932B2 true JP7310932B2 (ja) 2023-07-19

Family

ID=76864561

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021570551A Active JP7310932B2 (ja) 2020-01-15 2020-01-15 3次元点群識別装置、学習装置、3次元点群識別方法、学習方法、及びプログラム

Country Status (3)

Country Link
US (1) US20230040195A1 (ja)
JP (1) JP7310932B2 (ja)
WO (1) WO2021144897A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023188179A1 (ja) * 2022-03-30 2023-10-05 日本電信電話株式会社 三次元点群セグメンテーション装置、三次元点群セグメンテーション方法、及び三次元点群セグメンテーションプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014093006A (ja) 2012-11-06 2014-05-19 Advanced Telecommunication Research Institute International 頭部姿勢の推定装置、頭部姿勢の推定方法およびコンピュータに頭部姿勢の推定方法を実行させるためのプログラム
JP2019211900A (ja) 2018-06-01 2019-12-12 株式会社デンソー 物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014093006A (ja) 2012-11-06 2014-05-19 Advanced Telecommunication Research Institute International 頭部姿勢の推定装置、頭部姿勢の推定方法およびコンピュータに頭部姿勢の推定方法を実行させるためのプログラム
JP2019211900A (ja) 2018-06-01 2019-12-12 株式会社デンソー 物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QI R. Charles, et al.,PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space,31st Conference on Neural Information Processing Systems (NIPS 2017),2017年,pp.1-10

Also Published As

Publication number Publication date
WO2021144897A1 (ja) 2021-07-22
US20230040195A1 (en) 2023-02-09
JPWO2021144897A1 (ja) 2021-07-22

Similar Documents

Publication Publication Date Title
Zhang et al. A review of deep learning-based semantic segmentation for point cloud
JP7163504B2 (ja) 画像処理方法並びにその、装置、コンピュータプログラム及び電子機器
US10229499B2 (en) Skin lesion segmentation using deep convolution networks guided by local unsupervised learning
CN111652217A (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN112434721A (zh) 一种基于小样本学习的图像分类方法、系统、存储介质及终端
CN111414953B (zh) 点云分类方法和装置
El‐Sayed et al. Plane detection in 3D point cloud using octree‐balanced density down‐sampling and iterative adaptive plane extraction
Cong et al. Image segmentation algorithm based on superpixel clustering
CN113159232A (zh) 一种三维目标分类、分割方法
Wang et al. Automatic segmentation of urban point clouds based on the Gaussian map
Maduako et al. Deep learning for component fault detection in electricity transmission lines
JP7310932B2 (ja) 3次元点群識別装置、学習装置、3次元点群識別方法、学習方法、及びプログラム
Sun et al. Semantic labeling of high-resolution aerial images using an ensemble of fully convolutional networks
Wang et al. A region-line primitive association framework for object-based remote sensing image analysis
CN114283343A (zh) 基于遥感卫星图像的地图更新方法、训练方法和设备
JP7310912B2 (ja) 3次元点群ラベル学習装置、3次元点群ラベル推定装置、方法、及びプログラム
Meng et al. Merged region based image retrieval
CN110348311B (zh) 一种基于深度学习的道路交叉口识别系统及方法
CN114913330B (zh) 点云部件分割方法、装置、电子设备与存储介质
CN114972361B (zh) 一种血流分割方法、装置、设备及存储介质
CN114691918B (zh) 基于人工智能的雷达图像检索方法、装置以及电子设备
CN108154107B (zh) 一种确定遥感图像归属的场景类别的方法
CN113658338A (zh) 点云树木单体分割方法、装置、电子设备及存储介质
CN114511571A (zh) 一种点云数据语义分割方法、系统及相关组件
Vetsch et al. Neuralmeshing: Differentiable meshing of implicit neural representations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230619

R150 Certificate of patent or registration of utility model

Ref document number: 7310932

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150