JP7310932B2

JP7310932B2 - ３次元点群識別装置、学習装置、３次元点群識別方法、学習方法、及びプログラム

Info

Publication number: JP7310932B2
Application number: JP2021570551A
Authority: JP
Inventors: 夏菜倉田; 泰洋八尾; 慎吾安藤; 潤島村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2023-07-19
Anticipated expiration: 2040-01-15
Also published as: WO2021144897A1; US20230040195A1; JPWO2021144897A1

Description

本開示は、３次元点群識別装置、学習装置、３次元点群識別方法、学習方法、及びプログラムに関する。

３次元（ｘ，ｙ，ｚ）の位置情報を持つ点のデータを３次元点と呼ぶ。３次元点は、物体の表面上の点を表現することができる。そのような３次元点の集まりからなるデータを３次元点群と呼ぶ。点群は、ｎ個（ｎ≧２）の点の集合であり、各点は１～ｎの識別子により特定される。３次元点群は、物体の表面上の点であり、物体の幾何的な情報を示すデータであり、距離センサによる計測や、画像から３次元再構成を行うことによって取得することができる。点の属性情報とは、点群の計測の際に得られた位置情報以外の情報であり、例えば、点の反射強度を示すIntensity値や、色情報を表すＲＧＢ値等が挙げられる。

３次元点群のクラスラベルとは、３次元点群が表現する物体の種類を示すものである。このようなクラスラベルとしては、例えば、屋外の３次元点群を対象とした場合、地面、建物、柱、ケーブル、及び樹木等が挙げられる。

３次元点群のクラスラベルを識別する識別方法には、対象に応じて以下の２通りの方法が知られている。第１の方法は、単一のクラスを表す３次元点群（以下、オブジェクトデータ、という）に、非特許文献１等の手法により、そのクラスを示す１つのクラスラベルを付与する方法である。以下、第１の方法を、オブジェクト識別と呼ぶ。

第２の方法は、街並みや部屋といった複数クラスに属する点を含む３次元点群（以下、シーンデータ、という）に、非特許文献１等の手法により、各点に対し、クラスラベルを付与する方法である。単独の物体であっても、パーツごとに異なるクラスラベルを付与する場合は、その物体を構成する点群は、シーンデータにあたる。以下、第２の方法を、セマンティック・セグメンテーションと呼ぶ。

オブジェクト識別とセマンティック・セグメンテーションはどちらも、３次元点群から抽出した特徴量に基づいて行うことができる。非特許文献１及び非特許文献２のような構成のDeep Neural Network（以下、ＤＮＮ、という）によって段階的な特徴抽出を行い、複数の距離スケールでの形状特徴量を識別に利用する手法の性能が高いことが知られている。非特許文献１に記載のＤＮＮは、代表点の選択と、X-Convolution（Multi-layer perceptronにより構成された特徴抽出モデル）による代表点に対する形状特徴の抽出とを繰り返す。その後、オブジェクト識別の場合は、ダウンサンプリング層を設け、代表点を減少させていき、特徴量の集約層を設けてオブジェクトのクラスラベルを出力する。また、セマンティック・セグメンテーションの場合は、さらに、アップサンプリング層を設け、代表点を増加させていき、各点のクラスラベルを出力する。

Y. Li, R. Bu, M. Sun, W. Wu, X. Di, B. Chen, "PointCNN: Convolution On X -Transformed Points", pp.828-838, 2018. C. R. Qi, L. Yi, H. Su Leonidas J. Guibas, "PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space", NeurIPS, pp.5105-5114, 2017.

非特許文献１に記載の技術には、段階的に代表点を絞り込むことにより、複数の距離スケールでの特徴量に基づいた識別ができるという利点がある。このとき、まずは各点にその周囲の形状に基づく局所形状特徴量が付与される。ここで、入力点群が表す形状が一様な物体が対象である場合、どの代表点を選択しても得られる局所形状特徴量は変化しない。一方、その形状が細かく変化するような複雑な形状の物体が対象である場合、どの代表点を選択するかによって得られる局所形状特徴量が大幅に変化し、識別性能を下げる可能性がある。例えば、エッジ部分等の、形状が大きく変化する部分に代表点が過度に集中した場合、形状が細かく変化する複雑な形状を捉えられない場合がある。このような場合、３次元点群のクラスラベルの識別性能が低下する。

非特許文献１及び非特許文献２では、ランダムサンプリング等、各点周囲の形状や物体中でのポジションに基づかないサンプリング方法が用いられているため、上記のような原因により、識別性能が低下する場合がある。

本開示は、上記の点に鑑みてなされたものであり、３次元点群のクラスラベルを高性能に識別することができる、３次元点群識別装置、学習装置、３次元点群識別方法、学習方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、本開示の３次元点群識別装置は、物体の表面上の点を表現する複数の３次元点により構成される３次元点群により表現される前記物体の種類を示すクラスラベルを識別する３次元点群識別装置であって、３次元点群を構成する各３次元点の座標データ及び前記３次元点各々の属性情報を入力として受け付ける入力部と、前記入力部に入力された前記３次元点群を構成する前記３次元点から、前記３次元点群が表現する物体の特徴を効率的に表現する３次元点であるキーポイントを複数含むキーポイント群と、前記複数のキーポイント以外の複数の３次元点を含むキーポイント以外点群とを抽出するキーポイント選別部と、前記キーポイント選別部が抽出した前記キーポイント群と、前記キーポイント以外点群との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の前記代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力する第１推論情報抽出部、前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の３次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する第２推論情報抽出部、及び前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第２推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するクラスラベル推論部を含む推論部と、を備える。

また、上記目的を達成するために、本開示の学習装置は、物体の表面上の点を表現する複数の３次元点により構成される３次元点群により表現される前記物体の種類を示すクラスラベルを識別するためのモデルを学習する学習装置であって、正解のクラスラベルが与えられた複数の代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力する第１推論情報抽出部、前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の３次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する第２推論情報抽出部、及び前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第２推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するクラスラベル推論部を含むモデルに対し、前記３次元点群が入力された場合に、前記正解のクラスラベルを出力するよう前記モデルを学習する学習部と、を備える。

上記目的を達成するために、本開示の３次元点群識別方法は、物体の表面上の点を表現する複数の３次元点により構成される３次元点群により表現される前記物体の種類を示すクラスラベルを識別する３次元点群識別方法であって、入力部が、３次元点群を構成する各３次元点の座標データ及び前記３次元点各々の属性情報を入力として受け付けるステップと、キーポイント選別部が、前記入力部に入力された前記３次元点群を構成する前記３次元点から、前記３次元点群が表現する物体の特徴を効率的に表現する３次元点であるキーポイントを複数含むキーポイント群と、前記複数のキーポイント以外の複数の３次元点を含むキーポイント以外点群とを抽出するステップと、第１推論情報抽出部が、前記キーポイント選別部が抽出した前記キーポイント群と、前記キーポイント以外点群との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の前記代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力するステップと、第２推論情報抽出部が、前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の３次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力するステップと、クラスラベル推論部が、前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第２推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するステップと、を備える。

上記目的を達成するために、本開示の学習方法は、物体の表面上の点を表現する複数の３次元点により構成される３次元点群により表現される前記物体の種類を示すクラスラベルを識別するためのモデルを学習する学習方法であって、正解のクラスラベルが与えられた複数の代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力する第１推論情報抽出部、前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の３次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する第２推論情報抽出部、及び前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第２推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するクラスラベル推論部を含むモデルに対し、学習部が、前記３次元点群が入力された場合に、前記正解のクラスラベルを出力するよう前記モデルを学習するステップ、を備える。

上記目的を達成するために、本開示のプログラムは、コンピュータを、本開示の３次元点群識別装置、又は本開示の学習装置を構成する各部として機能させるためのものである。

本開示によれば、３次元点群のクラスラベルを高性能に識別することができる、という効果が得られる。

実施形態の３次元点群識別装置の一例の構成を示すブロック図であるキーポイント選別部の一例を示すブロック図である。推論部の一例を示すブロック図である。推論部を構成するＤＮＮの一例を示すブロック図である。ＤＳ層の一例を示すブロック図である。ＵＳ層の一例を示すブロック図である。実施形態の３次元点群識別装置における識別処理ルーチンの一例を示すフローチャートである。実施形態の学習装置の一例の構成を示すブロック図である。実施形態の学習装置における学習処理ルーチンの一例を示すフローチャートである。実施形態の３次元点群識別装置及び学習装置の一例のハードウェア構成を示すブロック図である。キーポイント選別部の変形例の一例を示すブロック図である。

以下、図面を参照して本開示の実施形態を詳細に説明する。

＜本実施形態の３次元点群識別装置の構成＞
図１は、本実施形態の３次元点群識別装置１０の一例の構成を示すブロック図である。図１に示すように、本実施形態の３次元点群識別装置１０は、入力部２０、キーポイント選別部２２、推論部２４、及び出力部２６を備える。また、本実施形態の３次元点群識別装置１０は、モデル記憶部１２及びクラスラベル記憶部１４を備える。

本実施形態の３次元点群識別装置１０は、３次元点群のクラスラベルを識別する装置である。上述したように、３次元点群とは、３次元（ｘ，ｙ，ｚ）の位置情報を持つ点のデータである３次元点の集まりからなるデータである。換言すると、３次元点群とは、各々が３次元の位置情報を持つｎ個（ｎ≧２）の点による点群を構成する各点のデータである３次元点の集まりである。なお、以下では、説明の便宜状、単に「点」という場合があるが、３次元点のことを簡易的に称している。同様に、単に「点群」という場合があるが、３次元点群のことを簡易的に称している。

３次元点群には、単一のクラスを表す３次元点群であるオブジェクトデータと、街並みや部屋といった複数クラスに属する点を含む３次元点群であるシーンデータと、２種類がある。本実施形態の３次元点群識別装置１０は、３次元点群としてオブジェクトデータが入力された場合、入力された３次元点群に対して、１つのクラスラベルを出力する。一方、３次元点群識別装置１０は、３次元点群としてシーントデータが入力された場合、入力された３次元点群を構成する各点に対して１つのクラスラベルを出力する。

入力部２０は、ｎ個の３次元点による３次元点群（Ｐ_１，・・・Ｐ_ｎ）の座標データ、３次元点群を構成する各点の属性情報（Ｃ_１，・・・Ｃ_ｎ）、及び３次元点群がシーンデータ及びオブジェクトデータのいずれであるかを表すデータ種別を入力として受け付ける。入力部２０が受け付けた３次元点群（Ｐ_１，・・・Ｐ_ｎ）の座標データ、属性情報（Ｃ_１，・・・Ｃ_ｎ）、及びデータ種別は、キーポイント選別部２２に出力される。

キーポイント選別部２２は、入力部２０から入力された３次元点群（Ｐ_１，・・・Ｐ_ｎ）から、後述するキーポイントを抽出する。図２は、本実施形態のキーポイント選別部２２の一例の構成を示すブロック図である。図２に示すように、本実施形態のキーポイント選別部２２は、入力特徴変換部３０、及びキーポイント抽出部３２を含む。

キーポイント抽出部３２は、入力部２０から入力された３次元点群から、Ｑ＿ｋｅｙ（Ｑ＿ｋｅｙ≧１）個のキーポイント（キーポイント群３５）を抽出して、出力する。キーポイントとは、もとの点群よりも少数の点で物体の特徴を効率的に表現する点群の部分集合であり、そこに含まれる各点のことをいう。例えば、３次元点群が表現する物体の形状が変わる部分における３次元点群をキーポイントとする。キーポイント群３５を抽出する方法は特に限定されず、例えば、非特許文献３及び非特許文献４に記載の技術等が適用できる。
Y. Zhong, "Intrinsic shape signatures: A shape descriptor for 3D object recognition," 2009 IEEE 12th International Conference on Computer Vision Workshops, ICCV Workshops, Kyoto, 2009, pp. 689-696. B. Steder, R. B. Rusu, K. Konolige and W. Burgard, "Point feature extraction on 3D range scans taking into account object boundaries," 2011 IEEE International Conference on Robotics and Automation, Shanghai, 2011, pp. 2601-2608.

また、キーポイント抽出部３２は、抽出したキーポイント以外の、Ｑ＿ｓａｍ（ｎ－Ｑｋｅｙ＝Ｑ＿ｓａｍ≧１）個の３次元点（キーポイント以外点群３７）を出力する。なお、キーポイント抽出部３２は、キーポイント群３５に含まれるキーポイントと、キーポイント以外点群３７に含まれるキーポイント以外の点との各々を識別可能とするために、各点に両者を識別するためのフラグを付与してもよい。

入力特徴変換部３０は、入力部２０から入力された属性情報に基づいて、入力部２０から入力されたｎ個の３次元点群を構成する各点の特徴量［ｎ，Ｃ＿０］を出力する。ここで、Ｃ＿０は、任意の特徴次元数であり、本実施形態では、予め設定される。

また、キーポイント選別部２２に入力部２０から入力されたデータ種別は、データ種別３９としてそのまま出力される。

一方、図１に示した推論部２４は、モデル記憶部１２に記憶されている、学習済みモデルを用いて、３次元点群のクラスラベルを推論する。図３は、本実施形態の推論部２４の一例の構成を示すブロック図である。なお、本実施形態の推論部２４はモデル記憶部１２に記憶されている学習済みモデルであるＤＮＮにより構成されている。図４は、推論部２４を構成するＤＮＮの一例を示すブロック図である。

図３及び図４に示すように、本実施形態の推論部２４は、第１推論情報抽出部４０、第２推論情報抽出部４２、及びクラスラベル推論部４４を含む。

第１推論情報抽出部４０は、キーポイント選別部２２が抽出したキーポイント群３５と、キーポイント以外点群３７との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の代表点の各々について、代表点の座標及び特徴量と、代表点の近傍に位置する近傍点の座標及び特徴量とから、代表点の特徴量を抽出し、複数の代表点の座標及び特徴量を出力することにより、クラスラベルの推定に用いるための第１の推論情報を抽出する。一例として本実施形態の第１推論情報抽出部４０は、図４に示すようにＤＳ端層４０_０を含む。ＤＳ端層４０_０には、キーポイント選別部２２から、キーポイント群３５及びキーポイント以外点群３７を含む代表点各々の座標と、各代表点の特徴量３１と、データ種別３９とが入力され、後段の層（第１ＤＳ層４０_１及びＵＳ層端４２_３）に出力される。

また、第１推論情報抽出部４０は、図４に示すようにＬ層のＤＳ層（第１ＤＳ層４０_１、第２ＤＳ層４０_２、及び第３ＤＳ層４０_３）を含む。このように、第１推論情報抽出部４０は、１～Ｌ個のＤＳ層を含むが、Ｌの数、すなわち第１推論情報抽出部４０におけるＤＳ層を何層とするかは、可変であり、１層以上（Ｌ≧１）であればよい。なお、ＤＳ層の数は、３次元点群が表す物体の形状が複雑な物体である場合、Ｌの数は多い方が好ましいが、Ｌ＝３～４程度がより好ましい。図４に示すように、本実施形態では、一例として、ＤＳ層の数であるＬ＝３とした場合を示している。以下では、第１推論情報抽出部４０が含むＬ層のＤＳ層の各々を、ＤＳ層ｘ（１≦ｘ≦Ｌ）という。

図５は、第１推論情報抽出部４０に含まれるＤＳ層ｘ（ここでは、１≦ｘ≦Ｌ＝３）の構成の一例を示すブロック図である。ＤＳ層ｘは、代表点選択部５０、第１近傍点選択部５２、及び第１特徴量導出部５４を有する。

代表点選択部５０には、前段のＤＳ層から、ｍ個の代表点の座標［ｍ，ｄ］及び特徴量または属性情報［ｍ，Ｃ＿（ｘ－１）］が入力される。なお、座標を表す［ｍ，ｄ］のうち前者の「ｍ」は、代表点の数を表す。また、後者の「ｄ」は、点群の次元数を表し、３次元の座標のみならばｄ＝３である。代表点選択部５０は、入力された前段のＤＳ層におけるＭ個の代表点からダウンサンプリングにより、本ＤＳ層におけるＱ＿ｘ個の代表点を選択する。また、「（ｘ－１）」は、前段のＤＳ層を表し、「Ｃ＿（ｘ－１）」は、ＤＳ層ｘにおける前段のＤＳ層ｘ－１の特徴次元数を表す。

なお、ダウンサンプリングは、ダウンサンプリングにより選択されるＱ＿ｘ個の代表点が、ＤＳ層（ｘ－１）の部分集合で、かつキーポイント群３５との積集合が空集合ではないという条件を満たせばよく、その方法は特に限定されない。すなわち、ＤＳ層（ｘ－１）に含まれ、かつキーポイント群３５から１つ以上の３次元点をサンプリングし、残りをキーポイント以外点群３７からサンプリングすればよい。例えば、ダウンサンプリングとして、ランダムサンプリング方法等が適用できる。一例として、本実施形態のダウンサンプリングでは、キーポイント群３５から優先して代表点を選択する。すなわち、代表点に含まれるキーポイントの数が、キーポイント以外の点の数以上となるようにダウンサンプリングを行う。なお、代表点に含まれる、キーポイントとキーポイント以外の点との割合は特に限定されず、ランダムでも、座標に応じた任意のバランスに基づくものであってもよい。

代表点選択部５０からは、ダウンサンプリングにより選択されたＱ＿ｘ個の代表点のインデックス［Ｑ＿ｘ］が出力される。このインデックスとしては、例えば、ポインタや、入力部２０が受け付けたｎ個の３次元点を含む３次元点群（Ｐ_１，・・・Ｐ_ｎ）の配列中の順番ｉ（１≦ｉ≦ｎ）等の形式が挙げられる。

第１近傍点選択部５２は、代表点選択部５０で選択されたＱ＿ｘ個の代表点の、近傍に位置するＫ＿ｘ個の近傍点を３次元点群（Ｐ_１，・・・Ｐ_ｎ）から選択し、近傍点の座標（代表点に対する相対座標）［Ｑ＿ｘ，Ｋ＿ｘ，ｄ］と、その特徴量［Ｑ＿ｘ，Ｋ＿ｘ，Ｃ＿（ｘ－１）］を出力する。なお、近傍点選択部５２は、近傍点を、第１層（ＤＳ層１）では、３次元点群（Ｐ_１，・・・Ｐ_ｎ）から選択し、第２層（ＤＳ層２）以降では、その層（ＤＳ層ｘ）の前段（ＤＳ層（ｘ－１））で選択された代表点群から選択する。

なお、代表点に対する近傍点の選択方法は、特に限定されず、例えば、Ｋ近接法や、代表点から半径ｒ以内に含まれる点を選択する等を適用することができる。また、近傍点の座標を導出する方法も特に限定されない。一例として本実施形態では、以下の手順により近傍点の相対座標を導出する。まず、代表点群、近傍点群のインデックスに基づきターゲット点群からそれぞれの座標を取得する。次に、取得した代表点Ｐ_ｉの座標をＵ＿ｉ、その代表点に対する近傍点群の座標を｛Ｓ＿ｉ_０，Ｓ＿ｉ_１，・・・Ｓ＿ｉ_ｋ｝としたときに、各近傍点の座標から代表点の座標を減算することで代表点ｉに対する近傍点群の相対座標｛Ｓ＿ｉ_０－Ｕ＿ｉ，Ｓ＿ｉ_１－Ｕ＿ｉ，・・・Ｓ＿ｉ_ｋ－Ｕ＿ｉ｝を得る。各代表点につき、同様の処理を行うことにより各代表点に対する近傍点の相対座標を導出することができる。

第１特徴量導出部５４は、ニューラルネットワークを用いて、代表点選択部５０で選択された代表点の特徴量［Ｑ＿ｘ，Ｃ＿ｘ］を新たに導出する。具体的には、代表点選択部５０で選択された代表点の座標［Ｑ＿ｘ，ｄ］、及び選択された代表点の特徴量（代表点選択部５０に入力された代表点における特徴量）［Ｑ＿ｘ，Ｃ＿（ｘ－１）］と、近傍点の座標［Ｑ＿ｘ，Ｋ＿ｘ，ｄ］、及び近傍点の特徴量［Ｑ＿ｘ，Ｋ＿ｘ，Ｃ＿（ｘ－１）］を、ニューラルネットワークに入力する。ニューラルネットワークとしては、例えば、非特許文献１に記載のX-Convolution等を適用することができる。

第１特徴量導出部５４は、代表点の座標［Ｑ＿ｘ，ｄ］と、ニューラルネットワークから出力された特徴量［Ｑ＿ｘ，Ｃ＿ｘ］とを次段のＤＳ層ｘに出力する。

本実施形態の場合について具体的に説明する。まず、第１ＤＳ層４０_１の場合について説明する。第１ＤＳ層４０_１の代表点選択部５０には、ＤＳ端層４０_０から、ｎ個の代表点の座標［ｎ，３］及び特徴量［ｎ，Ｃ＿０］が入力される。代表点選択部５０は、上述したように、ｎ個の代表点から、新たにＱ＿１（ｎ＞Ｑ＿１）個の代表点を選択し、そのインデックス［Ｑ＿１］を出力する。第１近傍点選択部５２は、上述したように、Ｑ＿１個の代表点各々の近傍点を選択し、近傍点の座標［Ｑ＿１，Ｋ＿１，３］、及び近傍点の特徴量［Ｑ＿１，Ｋ＿１，Ｃ＿０］を導出して、出力する。第１特徴量導出部５４は、ニューラルネットワークを用い、代表点の座標［Ｑ＿１，３］及び特徴量［Ｑ＿１，Ｃ＿０］と、近傍点の座標［Ｑ＿１，Ｋ＿１，３］、及び近傍点の特徴量［Ｑ＿１，Ｋ＿１，Ｃ＿０］からＱ＿１個の代表点に対する新たな特徴量［Ｑ＿１，Ｃ＿１］を導出する。また、第１特徴量導出部５４は、代表点の座標［Ｑ＿１，３］と、本代表点の特徴量［Ｑ＿１，Ｃ＿１］とをセットとして、第２ＤＳ層４０_２に出力する。

次に、第２ＤＳ層４０_２の場合について説明する。第２ＤＳ層４０_２の代表点選択部５０には、第１ＤＳ層４０_１から、Ｑ＿１個の代表点の座標［Ｑ＿１，３］及び特徴量［Ｑ＿１，Ｃ＿１］が入力される。代表点選択部５０は、上述したように、Ｑ＿１個の代表点から、新たにＱ＿２（Ｑ＿１＞Ｑ＿２）個の代表点を選択し、そのインデックス［Ｑ＿２］を出力する。第１近傍点選択部５２は、上述したように、Ｑ＿２個の代表点各々の近傍点を選択し、近傍点の座標［Ｑ＿２，Ｋ＿２，３］、及び近傍点の特徴量［Ｑ＿２，Ｋ＿２，Ｃ＿１］を導出して、出力する。第１特徴量導出部５４は、ニューラルネットワークを用い、代表点の座標［Ｑ＿２，３］及び特徴量［Ｑ＿２，Ｃ＿１］と、近傍点の座標［Ｑ＿２，Ｋ＿２，３］、及び近傍点の特徴量［Ｑ＿２，Ｋ＿２，Ｃ＿１］からＱ＿２個の代表点に対する新たな特徴量［Ｑ＿２，Ｃ＿２］を導出する。また、第１特徴量導出部５４は、代表点の座標［Ｑ＿２，３］と、本代表点の特徴量［Ｑ＿２，Ｃ＿２］とをセットとして、第３ＤＳ層４０_３に出力する。

次の第３ＤＳ層４０_３は上記第２ＤＳ層４０_２における、「Ｑ＿１」を「Ｑ＿２」に、「Ｑ＿２」を「Ｑ＿３」に、「Ｃ＿１」を「Ｃ＿２」に「Ｃ＿２」を「Ｃ＿３」に、「Ｋ＿２」を「Ｋ＿３」に、各々読み替えればよい。なお、第３ＤＳ層４０_３の第１特徴量導出部５４は、代表点の座標［Ｑ＿３，３］と、本代表点の特徴量［Ｑ＿３，Ｃ＿３］とをセットとして、第２推論情報抽出部４２の第１ＵＳ層４２_１に出力する。本実施形態では、第３ＤＳ層４０_３から出力される、代表点の座標及び特徴量が第１の推論情報となる、

このように、本実施形態の第１推論情報抽出部４０では、ＤＳ層ｘの層を重ねる毎にダウンサンプリングされて、代表点の数が少なくなり、各代表点の特徴量は更新される。例えば、第１ＤＳ層４０_１で選択された代表点をＱ＿１＝１００個、第２ＤＳ層４０_２で選択された代表点をＱ＿２＝５０個、第３ＤＳ層４０_３で選択された代表点をＱ＿３＝２５個とすることができる。

一方、第２推論情報抽出部４２は、第１推論情報抽出部４０から出力された複数の代表点の座標及び特徴量と、新たな代表点とするダウンサンプリング前の複数の３次元点の座標及び特徴量と、新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の新たな代表点の特徴量を抽出し、複数の新たな代表点の座標及び特徴量を出力することにより、クラスラベルに用いるための第２の推論情報を抽出する。一例として本実施形態の第２推論情報抽出部４２は、図４に示すように、複数のＵＳ層（第１ＵＳ層４２_１、第２ＵＳ層４２_２）及びＵＳ端層４２_３を含む。第２推論情報抽出部４２が含むＵＳ層の数は、第１推論情報抽出部４０が含むＤＳ層の数よりも１つ少ない数（Ｌ－１）である。そのため、図４に示すように、本実施形態では、一例として、ＵＳ層の数を２とした場合を示している。

図６は、第２推論情報抽出部４２に含まれるＵＳ層ｙ（１≦ｙ≦Ｌ－１、本実施形態では、ｙ＝２）の構成の一例を示すブロック図である。ＵＳ層ｙ及びＵＳ端層４２_３は、第２近傍点選択部６０、特徴結合部６２、及び第２特徴量導出部６４を有する。

第２近傍点選択部６０には、ＤＳ層ｘによりダウンサンプリング前の複数の３次元点の座標及び特徴量が入力される。このダウンサンプリング前の複数の３次元点は、ＵＳ層ｙにおける新たな代表点となる。第２近傍点選択部６０は、新たな代表点の近傍に位置する近傍点の座標及び特徴量を導出して出力する。なお、第２近傍点選択部６０が近傍点の座標及び特徴量を導出する方法は特に限定されず、例えば、上述した第１近傍点選択部５２と同様の方法を適用することができる。

特徴結合部６２には、第２近傍点選択部６０から出力された新たな代表点の近傍点の座標及び特徴量と、ＤＳ層ｘによりダウンサンプリング後の複数の３次元点（ＤＳ層ｘにおける代表点）の座標及び特徴量が入力される。特徴結合部６２は、両者の特徴量を任意の手法により結合させる。

第２特徴量導出部６４は、ニューラルネットワークを用いて、新たな代表点の特徴量を導出する。具体的には、新たな代表点であるダウンサンプリング前の複数の３次元点の座標及び特徴量と、特徴結合部６２から出力された近傍点の座標及び特徴量とを、ニューラルネットワークに入力する。ニューラルネットワークとしては、例えば、非特許文献１に記載のX-Convolution等を適用することができる。

第２特徴量導出部６４は、新たな代表点の座標と、ニューラルネットワークから出力された特徴量とをセットして後段に出力する。

具体的には、第１ＵＳ層４２_１には、第３ＤＳ層４０_３から出力された第３ＤＳ層４０_３における代表点の座標及び特徴量と、第３ＤＳ層４０_３におけるダウンサンプリング前の複数の３次元点、すなわち第２ＤＳ層４０_２における代表点の座標及び特徴量とが入力される。第１ＵＳ層４２_１は、第３ＤＳ層４０_３におけるダウンサンプリング前の複数の３次元点を新たな代表点とする。第１ＵＳ層４２_１は、新たな代表点の座標及び特徴量と、新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、新たな代表点の特徴量を抽出し、複数の新たな代表点の座標及び特徴量を出力する。

また、第２ＵＳ層４２_２には、第１ＵＳ層４２_１から出力された第１ＵＳ層４２_１における代表点（上記新たな代表点）の座標及び特徴量と、第２ＤＳ層４０_２におけるダウンサンプリング前の複数の３次元点、すなわち第１ＤＳ層４０_１における代表点の座標及び特徴量とが入力される。第２ＵＳ層４２_２は、第２ＤＳ層４０_２におけるダウンサンプリング前の複数の３次元点を新たな代表点とする。第２ＵＳ層４２_２は、新たな代表点の座標及び特徴量と、新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、新たな代表点の特徴量を抽出し、複数の新たな代表点の座標及び特徴量を出力する。

また、ＵＳ端層４２_３には、第２ＵＳ層４２_２から出力された第２ＵＳ層４２_２における代表点（上記新たな代表点）の座標及び特徴量と、第１ＤＳ層４０_１におけるダウンサンプリング前の複数の３次元点、すなわちＤＳ端層４０_０から出力されたｎ個の代表点の座標及び特徴量とが入力される。ＵＳ端層４２_０は、第１ＤＳ層４０_１におけるダウンサンプリング前の複数の３次元点を新たな代表点とする。ＵＳ端層４２_０は、新たな代表点の座標及び特徴量と、新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、新たな代表点の特徴量を抽出し、複数の新たな代表点の座標及び特徴量を出力する。本実施形態では、ＵＳ端層４２_３から出力される、代表点の座標及び特徴量が第２の推論情報となる。

このように、本実施形態の第２推論情報抽出部４２では、ＵＳ層ｙの層を重ねる毎にアップサンプリングされて、代表点の数が多くなり、また、各代表点の特徴量は更新される。例えば、２５個の代表点が入力された場合、第１ＵＳ層４２_１の新たな代表点を５０個、第２ＵＳ層４２_２の新たな代表点を５０個、ＵＳ端層４０_３の新たな代表点を１００個とすることができる。

一方、本実施形態のクラスラベル推論部４４は、図４に示すように、各点クラスラベル出力層４４_１及び点群クラスラベル出力層４４_２を含む。

データ種別３９が、シーンデータの場合、第１推論情報抽出部４０及び第２推論情報抽出部４２の処理が実行され、各点クラスラベル出力層４４_１には、第２推論情報抽出部４２から上述した第２の推論情報が入力される。各点クラスラベル出力層４４_１は、クラスラベル記憶部１４を参照し、シーンデータを構成する各３次元点に対する物体の種類を示すクラスラベルを出力する。

具体的には、各点クラスラベル出力層４４_１は、第２の推論情報に基づき、各代表点の座標と特徴量とから、各３次元点に対するクラスラベルベクトルを導出する。クラスラベル記憶部１４には、クラスラベルベクトルと、クラスラベルとの対応関係が予め記憶されている。各点クラスラベル出力層４４_１は、クラスラベル記憶部１４を参照し、各３次元点について、導出されたクラスラベルベクトルに対応するクラスラベルを特定して出力する。すなわち、各点クラスラベル出力層４４_１からは、物体の表面上の点を表現する複数の３次元毎にクラスラベルが出力されるため、複数のクラスラベルが出力される。

このように、本実施形態の３次元点群識別装置１０では、シーンデータが入力された場合、セマンティック・セグメンテーション処理として、図４に示したセマンティック・セグメンテーション部１により、３次元点毎のクラスラベルが出力される。

一方、データ種別３９が、オブジェクトデータの場合、第１推論情報抽出部４０の処理のみが実行され、点群クラスラベル出力層４４_２には、第１推論情報抽出部４０から上述した第１の推論情報が入力される。点群クスラベル出力層４４_２は、クラスラベル記憶部１４を参照し、オブジェクトデータを構成する点群が表す単一の物体の種類を示すクラスラベルを出力する。

具体的には、点群クラスラベル出力層４４_２は、第１の推論情報に基づき、各代表点の座標と特徴量とから、１つのクラスラベルベクトルを導出する。導出方法は特に限定されず、例えば、ｐｏｏｌｉｎｇ層や、全結合層等を適用することができる。なお、クラスラベルベクトルは、クラスラベルの数が１０ならば、１０次元のベクトルとなる。上記のようにクラスラベル記憶部１４には、クラスラベルベクトルと、クラスラベルとの対応関係が予め記憶されているため、点群クラスラベル出力層４４_２は、クラスラベル記憶部１４を参照し、各３次元点から導出された１つのクラスラベルベクトルに対応するクラスラベルを特定して出力する。すなわち、点群クラスラベル出力層４４_２からは１つのクラスラベルが出力される。

このように、本実施形態の３次元点群識別装置１０では、オブジェクトデータが入力された場合、オブジェクト識別処理として、図４に示したオブジェクト識別部２により、単一の物体のクラスラベルが出力される。

また、本実施形態の３次元点群識別装置１０における出力部２６には、推論部２４から出力されたクラスラベルが入力され、入力されたクラスラベルを外部に出力する。

＜本実施形態の３次元点群識別装置の作用＞
次に、本実施形態の３次元点群識別装置１０の作用について図面を参照して説明する。図７は、本実施形態の３次元点群識別装置１０において実行される識別処理ルーチンの一例を示すフローチャートである。

図７に示した識別処理ルーチンは、例えば、３次元点群識別装置１０の外部から識別処理ルーチンの実行指示を受け付けたタイミング等、任意のタイミングで実行される。

図７のステップＳ１００で入力部２０は、上述したように、ｎ個の３次元点による３次元点群の座標データ、３次元点群を構成する各点の属性情報、及び３次元点群のデータ種別を入力として受け付ける。

次のステップＳ１０２でキーポイント選別部２２は、上述したように、入力部２０から入力された３次元点群から、キーポイント群３５を抽出する。なお、本処理により、キーポイント以外点群３７も抽出される。

次のステップＳ１０４で推論部２４は、キーポイント選別部２２から入力されたデータ種別に基づき、代表点（３次元点群）が、シーンデータであるか否かを判定する。シーンデータの場合、ステップＳ１０４の判定が肯定判定となり、ステップＳ１０６へ移行する。この場合、上述したセマンティック・セグメンテーション部１が機能する。

ステップＳ１０６で第１推論情報抽出部４０は、上述したように、第１の推論情報として、ダウンサンプリングにより得られた代表点の座標及び特徴量を抽出する。次のステップＳ１０８で第２推論情報抽出部４２は、上述したように、第２の推論情報として、アップサンプリングにより得られた代表点の座標及び特徴量を抽出する。次のステップＳ１１０でクラスラベル推論部４４の各点クラスラベル出力層４４_１は、上述したように、複数の３次元点に導出されたクラスラベルベクトルの各々に対応するクラスラベルを特定して出力する。

一方、代表点（３次元点群）が、シーンデータではない、すなわちオブジェクトデータである場合、ステップＳ１０４の判定が否定判定となり、ステップＳ１１２へ移行する。この場合、上述したオブジェクト識別部２が機能する。

ステップＳ１１２で第１推論情報抽出部４０は、上述したように、また、上記ステップＳ１０６と同様に、第１の推論情報として、ダウンサンプリングにより得られた代表点の座標及び特徴量を抽出する。次のステップＳ１１４でクラスラベル推論部４４の点群クラスラベル出力層４４_２は、上述したように、各３次元点から導出された１つのクラスラベルベクトルに対応するクラスラベルを特定して出力する。

ステップＳ１１０、またはステップＳ１１４の次のステップＳ１１６で出力部２６は、上述したように、クラスラベル推論部４４から出力されたクラスラベルを外部に出力する。ステップＳ１１６の処理が終了すると、本識別処理ルーチンが終了する。

＜本実施形態の学習装置の構成＞
上述した推論部２４に用いられるＤＮＮのモデルは、予め学習されモデル記憶部１２に記憶される。以下、当該モデルを学習する学習装置について説明する。図８は、本実施形態の学習装置１００の一例の構成を示すブロック図である。図８に示すように、本実施形態の学習装置１００は、入力部７０、及び学習部７２を備える。

入力部７０には、正解のクラスラベルが与えられた複数の代表点（３次元点群）を入力として受け付ける。

学習部７２は、入力部７０に入力された正解のクラスラベルが与えられた複数の代表点を上記ＤＮＮに入力し、３次元点群が入力された場合に、正解のクラスラベルを出力するように、モデルを学習させる。なお、ＤＮＮのモデルは、入力される３次元点群のデータ種別、すなわちシーンデータ及びオブジェクトデータの各々毎に学習させることが好ましい。具体的には、シーンデータに対しては、セマンティック・セグメンテーション部１を構成するためのＤＮＮのモデルを学習させる。また、オブジェクトデータに対しては、オブジェクト識別部２を構成するためのＤＮＮのモデルを学習させる。なおモデルの学習方法は特に限定されないが、例えば、モデルの最適化手法としてＡｄａｍを適用してもよい。学習部７２によって学習された学習済みのモデルは、モデル記憶部１２に記憶される。

＜本実施形態の学習装置の作用＞
次に、本実施形態の学習装置１００の作用について図面を参照して説明する。図９は、本実施形態の学習装置１００において実行される学習処理ルーチンの一例を示すフローチャートである。

図９に示した学習処理ルーチンは、例えば、入力部７０に、正解のクラスラベルが与えられた複数の代表点が入力されたタイミングや、学習装置１００の外部から学習処理ルーチンの実行指示を受け付けたタイミング等、任意のタイミングで実行される。

図９のステップＳ２００で学習部７２は、上述したように、入力部７０が受け付けた、正解のクラスラベルが与えられた複数の代表点（３次元点群）を、ＤＮＮのモデルに入力させ、次のステップＳ２０２で学習部７２は、ＤＮＮのモデルの深層学習を行わせ、ＤＮＮのモデルを更新させる。本処理により、例えば、ＤＮＮのモデルにおける、上記Ｑ＿ｘ、Ｋ＿ｘ、及びＣ＿ｘ等のパラメータが更新される。

次のステップＳ２０４で学習部７２は、終了条件を満たすか否かを判定する。一例として、本実施形態の学習装置１００では、終了条件として繰り返し回数（例えば、Ｚ回）を、予め設定する。この場合、学習部７２は、上記ステップＳ２００及びＳ２０２の処理をＺ回行ったか否かを判定する。また、既に実行したステップＳ２００及びＳ２０２の処理回数が、未だＺ回に達していない場合、ステップＳ２０４の判定が否定判定となり、ステップＳ２００に戻り、ステップＳ２００及びＳ２０２の処理を繰り返す。一方、既に実行したステップ２００及びＳ２００の処理の回数がＺ回に達した場合、ステップＳ２０４の判定が肯定判定となり、ステップＳ２０６へ移行する。

ステップＳ２０６で学習部７２は、ＤＮＮのモデルをモデル記憶部１２に記憶させる。ステップＳ２０６の処理が終了すると、本学習処理ルーチンが終了する。

＜３次元点群識別装置及び学習装置のハードウェア構成＞
本実施形態の３次元点群識別装置１０及び学習装置１００の各々は、以下のハードウェアにより構成することができる。図１０は、本実施形態の３次元点群識別装置１０及び学習装置１００各々のハードウェア構成を示すブロック図である。図１０に示すように、３次元点群識別装置１０及び学習装置１００の各々は、ＣＰＵ（Central Processing Unit）８０、ＲＯＭ（Read Only Memory）８２、ＲＡＭ（Random Access Memory）８４、ストレージ８６、入力部８８、表示部９０、及び通信インタフェース（Ｉ／Ｆ）９２を備える。各構成は、バス９９を介して相互に通信可能に接続されている。なお、ＣＰＵ８０に加えて、ＧＰＵ（Graphics Processing Unit）を備えていてもよい。

ＣＰＵ８０は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、ＣＰＵ８０は、ＲＯＭ８２又はストレージ８６からプログラムを読み出し、ＲＡＭ８４を作業領域としてプログラムを実行する。ＣＰＵ８０は、ＲＯＭ８２又はストレージ８６に記憶されているプログラムを実行することにより、３次元点群識別装置１０においては、入力部２０、キーポイント選別部２２、推論部２４、及び出力部２６の各々として機能し、学習装置１００においては、入力部７０及び学習部７２として機能する。本実施形態では、ＲＯＭ８２又はストレージ８６には、上述した識別処理ルーチンを実行するためのプログラムまたは、学習処理ルーチンを実行するためのプログラムが記憶されている。

ＲＯＭ８２は、各種プログラム及び各種データを格納する。ＲＡＭ８４は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ８６は、ＨＤＤ（Hard Disk Drive）又はＳＳＤ（Solid State Drive）等の記憶装置により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。一例として本実施形態の３次元点群識別装置１０のストレージ８６には、上述したモデル記憶部１２及びクラスラベル記憶部１４が記憶される。

入力部８８は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。

表示部９０は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部９０は、タッチパネル方式を採用して、入力部８８として機能しても良い。

通信インタフェース９２は、他の機器と通信するためのインタフェースであり、例えば、イーサネット（登録商標）、ＦＤＤＩ、Ｗｉ－Ｆｉ（登録商標）等の規格が用いられる。

なお、本実施形態では、３次元点群識別装置１０及び学習装置１００を異なる装置として説明したが、３次元点群識別装置１０及び学習装置１００の機能を有する１つの装置として構成してもよい。また、モデル記憶部１２及びクラスラベル記憶部１４を記憶する記憶装置は、特に限定されず、例えば、３次元点群識別装置１０及び学習装置１００以外の装置であってもよい。

また、上記実施形態の３次元点群識別装置１０及び学習装置１００各々の各機能部等の各種の処理を実行する処理部（processing unit）のハードウェア的な構造としては、次に示す各種のプロセッサ（processor）を用いることができる。上記各種のプロセッサには、前述したように、ソフトウェア（プログラム）を実行して各種の処理部として機能する汎用的なプロセッサであるＣＰＵに加えて、ＦＰＧＡ（Field-Programmable Gate Array）等の製造後に回路構成を変更可能なプロセッサであるプログラマブルロジックデバイス（Programmable Logic Device：ＰＬＤ）、ＡＳＩＣ（Application Specific Integrated Circuit）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が含まれる。

１つの処理部は、これらの各種のプロセッサのうちの１つで構成されてもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡの組み合わせや、ＣＰＵとＦＰＧＡとの組み合わせ）で構成されてもよい。また、複数の処理部を１つのプロセッサで構成してもよい。

複数の処理部を１つのプロセッサで構成する例としては、第１に、クライアント及びサーバ等のコンピュータに代表されるように、１つ以上のＣＰＵとソフトウェアの組み合わせで１つのプロセッサを構成し、このプロセッサが複数の処理部として機能する形態がある。第２に、システムオンチップ（System On Chip：ＳｏＣ）等に代表されるように、複数の処理部を含むシステム全体の機能を１つのＩＣ（Integrated Circuit）チップで実現するプロセッサを使用する形態がある。このように、各種の処理部は、ハードウェア的な構造として、上記各種のプロセッサの１つ以上を用いて構成される。

さらに、これらの各種のプロセッサのハードウェア的な構造としては、より具体的には、半導体素子等の回路素子を組み合わせた電気回路（circuitry）を用いることができる。

また、上記実施形態では、識別処理ルーチンを実行するためのプログラム及び学習処理ルーチンを実行するためのプログラムの各々がＲＯＭ８２またはストレージ８６に予め記憶（インストール）されている態様を説明したが、これに限定されない。識別処理ルーチンを実行するためのプログラム及び学習処理ルーチンを実行するためのプログラムの各々は、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ－ＲＯＭ（Digital Versatile Disc Read Only Memory）、及びＵＳＢ（Universal Serial Bus）メモリ等の記録媒体に記録された形態で提供されてもよい。また、識別処理ルーチンを実行するためのプログラム及び学習処理ルーチンを実行するためのプログラムの各々は、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

以上説明したように、本実施形態の３次元点群識別装置１０は、物体の表面上の点を表現する複数の３次元点により構成される３次元点群により表現される物体の種類を示すクラスラベルを識別する３次元点群識別装置であり、入力部２０、キーポイント選別部２２、及び推論部２４を備える。入力部２０は、３次元点群を構成する各３次元点の座標データ及び３次元点各々の属性情報を入力として受け付ける。キーポイント選別部２２は、入力部２０に入力された３次元点群を構成する３次元点から、３次元点群が表現する物体の特徴を効率的に表現する３次元点であるキーポイントを複数含むキーポイント群３５と、複数のキーポイント以外の複数の３次元点を含むキーポイント以外点群３７とを抽出する。

推論部２４は、第１推論情報抽出部４０、第２推論情報抽出部４２、及びクラスラベル推論部４４を含む。第１推論情報抽出部４０は、キーポイント選別部２２が抽出したキーポイント群３５と、キーポイント以外点群３７との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の代表点の各々について、代表点の座標及び特徴量と、代表点の近傍に位置する近傍点の座標及び特徴量とから、代表点の特徴量を抽出し、複数の代表点の座標及び特徴量を第１の推論情報として出力する。第２推論情報抽出部４２は、第１推論情報抽出部４０から出力された複数の代表点の座標及び特徴量と、新たな代表点とするダウンサンプリング前の複数の３次元点の座標及び特徴量と、新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の新たな代表点の特徴量を抽出し、複数の新たな代表点の座標及び特徴量を第２の推論情報として出力する。クラスラベル推論部４４は、第１推論情報抽出部４０から出力された第１の推論情報である複数の代表点の座標及び特徴量、又は第２推論情報抽出部４２から出力された第２の推論情報である複数の新たな代表点の座標及び特徴量から、クラスラベルを導出して出力する。

このように本実施形態の３次元点群識別装置１０によれば、物体の表面上の点を表現する複数の３次元点により構成される３次元点群のうち、３次元点群が表現する物体の特徴を効率的に表現する３次元点であるキーポイント群と、キーポイント以外点群との各々から、代表点を抽出する。そのため、例えば、上記非特許文献１及び２のように代表点の選択が偏ることがなくなるため、３次元点群のクラスラベルを高性能に識別することができる。

なお、本開示の技術は、本実施形態に限定されず、その趣旨を逸脱しない限りにおいて、上述したもの以外に種々の変更を行うことが可能である。

例えば、キーポイント選別部２２は、図１１に示すようにサンプリング部３４を備えていてもよい。サンプリング部３４は、ｎ－Ｑ＿ｋｅｙ個のキーポイント以外の点３３からサンプリングにより、Ｑ＿ｓａｍ（ｎ－Ｑ＿ｋｅｙ＞Ｑ＿ｓａｍ≧１、Ｑ＿ｓａｍ＝Ｑ－Ｑ＿ｋｅｙ）個のキーポイント以外の点を選択し、キーポイント以外点群３７として出力する。キーポイント以外点群３７を選択する方法は特に限定されず、例えば、ランダムサンプリング方法等が適用できる。なお、キーポイント群３５及びキーポイント以外点群３７の和集合が、キーポイント選別部２２によって抽出されるＱ個の代表点（代表点群）となる。一例として、本実施形態の代表点群は、キーポイントと、キーポイント以外の点とをバランス良く、例えば、所望の割合で含む。そのため、サンプリング部３４は、キーポイント抽出部３２で抽出した、キーポイント群３５を考慮してサンプリングを行う。例えば、サンプリング部３４は、全ての点が同じ確率で選択されるようにサンプリングを行う。例えば、キーポイント以外の点の数が、キーポイントの数に比べて過多な場合に、このように、サンプリング部３４によりサンプリングを行い、キーポイント以外点群３７に含まれるキーポイント以外の点の数を減少させてもよい。

以上の実施形態に関し、更に以下の付記を開示する。
（付記項１）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、物体の表面上の点を表現する複数の３次元点により構成される３次元点群により表現される前記物体の種類を示すクラスラベルを識別する３次元点群識別装置であって、
前記プロセッサは、
３次元点群を構成する各３次元点の座標データ及び前記３次元点各々の属性情報を入力として受け付け、
入力された前記３次元点群を構成する前記３次元点から、前記３次元点群が表現する物体の特徴を効率的に表現する３次元点であるキーポイントを複数含むキーポイント群と、前記複数のキーポイント以外の複数の３次元点を含むキーポイント以外点群とを抽出しと、
抽出した前記キーポイント群と、前記キーポイント以外点群との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の前記代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力し、
出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の３次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力し、
出力された複数の前記代表点の座標及び前記特徴量、又は出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力する、
する３次元点群識別装置。

（付記項２）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、物体の表面上の点を表現する複数の３次元点により構成される３次元点群により表現される前記物体の種類を示すクラスラベルを識別するためのモデルを学習する学習装置であって、
前記プロセッサは、
正解のクラスラベルが与えられた複数の代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力し、
出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の３次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する、
及び出力された複数の前記代表点の座標及び前記特徴量、又は出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するモデルに対し、
前記３次元点群が入力された場合に、前記正解のクラスラベルを出力するよう前記モデルを学習する
学習装置。

１０３次元点群識別装置
２０入力部
２２キーポイント選別部
２４推論部
４０第１推論情報抽出部
４２第２推論情報抽出部
４４クラスラベル推論部
７２学習部
１００学習装置

Claims

物体の表面上の点を表現する複数の３次元点により構成される３次元点群により表現される前記物体の種類を示すクラスラベルを識別する３次元点群識別装置であって、
３次元点群を構成する各３次元点の座標データ及び前記３次元点各々の属性情報を入力として受け付ける入力部と、
前記入力部に入力された前記３次元点群を構成する前記３次元点から、前記３次元点群が表現する物体の特徴を効率的に表現する３次元点であるキーポイントを複数含むキーポイント群と、前記複数のキーポイント以外の複数の３次元点を含むキーポイント以外点群とを抽出するキーポイント選別部と、
前記キーポイント選別部が抽出した前記キーポイント群と、前記キーポイント以外点群との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の前記代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力する第１推論情報抽出部、
前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の３次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する第２推論情報抽出部、
及び前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第２推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するクラスラベル推論部を含む推論部と、
を備えた３次元点群識別装置。
前記入力部に入力された前記３次元点群が、複数の物体を表すシーンデータの場合、前記クラスラベル推論部は、前記第２推論情報抽出部から出力された前記新たな代表点の座標及び前記特徴量から、前記３次元点群を構成する各３次元点に対する物体の種類を示す前記クラスラベルを導出して出力し、
前記入力部に入力された前記３次元点群が、単一の物体を表すオブジェクトデータの場合、前記クラスラベル推論部は、前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量から、前記３次元点群が表す単一の物体の種類を示す前記クラスラベルを導出して出力する、
請求項１に記載の３次元点群識別装置。
物体の表面上の点を表現する複数の３次元点により構成される３次元点群により表現される前記物体の種類を示すクラスラベルを識別するためのモデルを学習する学習装置であって、
正解のクラスラベルが与えられた複数の代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力する第１推論情報抽出部、
前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の３次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する第２推論情報抽出部、
及び前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第２推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するクラスラベル推論部を含むモデルに対し、
前記３次元点群が入力された場合に、前記正解のクラスラベルを出力するよう前記モデルを学習する学習部と、
を備えた学習装置。
物体の表面上の点を表現する複数の３次元点により構成される３次元点群により表現される前記物体の種類を示すクラスラベルを識別する３次元点群識別方法であって、
入力部が、３次元点群を構成する各３次元点の座標データ及び前記３次元点各々の属性情報を入力として受け付けるステップと、
キーポイント選別部が、前記入力部に入力された前記３次元点群を構成する前記３次元点から、前記３次元点群が表現する物体の特徴を効率的に表現する３次元点であるキーポイントを複数含むキーポイント群と、前記複数のキーポイント以外の複数の３次元点を含むキーポイント以外点群とを抽出するステップと、
第１推論情報抽出部が、前記キーポイント選別部が抽出した前記キーポイント群と、前記キーポイント以外点群との各々からダウンサンプリングにより選択した複数の点の各々を代表点とし、複数の前記代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力するステップと、
第２推論情報抽出部が、前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の３次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力するステップと、
クラスラベル推論部が、前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第２推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するステップと、
を備えた３次元点群識別方法。
物体の表面上の点を表現する複数の３次元点により構成される３次元点群により表現される前記物体の種類を示すクラスラベルを識別するためのモデルを学習する学習方法であって、
正解のクラスラベルが与えられた複数の代表点の各々について、前記代表点の座標及び特徴量と、前記代表点の近傍に位置する近傍点の座標及び特徴量とから、前記代表点の特徴量を抽出し、複数の前記代表点の座標及び前記特徴量を出力する第１推論情報抽出部、
前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量と、新たな代表点とする前記ダウンサンプリング前の複数の３次元点の座標及び特徴量と、前記新たな代表点の近傍に位置する近傍点の座標及び特徴量とから、複数の前記新たな代表点の特徴量を抽出し、複数の前記新たな代表点の座標及び前記特徴量を出力する第２推論情報抽出部、
及び前記第１推論情報抽出部から出力された複数の前記代表点の座標及び前記特徴量、又は前記第２推論情報抽出部から出力された複数の前記新たな代表点の座標及び前記特徴量から、前記クラスラベルを導出して出力するクラスラベル推論部を含むモデルに対し、
学習部が、前記３次元点群が入力された場合に、前記正解のクラスラベルを出力するよう前記モデルを学習するステップ、
を備えた学習方法。
コンピュータを、請求項１または請求項２に記載の３次元点群識別装置、又は請求項３記載の学習装置を構成する各部として機能させるためのプログラム。