JP7205630B2 - ラベル推定装置、ラベル推定方法、及びラベル推定プログラム - Google Patents

ラベル推定装置、ラベル推定方法、及びラベル推定プログラム Download PDF

Info

Publication number
JP7205630B2
JP7205630B2 JP2021534856A JP2021534856A JP7205630B2 JP 7205630 B2 JP7205630 B2 JP 7205630B2 JP 2021534856 A JP2021534856 A JP 2021534856A JP 2021534856 A JP2021534856 A JP 2021534856A JP 7205630 B2 JP7205630 B2 JP 7205630B2
Authority
JP
Japan
Prior art keywords
label
points
point
class
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021534856A
Other languages
English (en)
Other versions
JPWO2021014495A1 (ja
Inventor
泰洋 八尾
和彦 村崎
慎吾 安藤
淳 嵯峨田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021014495A1 publication Critical patent/JPWO2021014495A1/ja
Application granted granted Critical
Publication of JP7205630B2 publication Critical patent/JP7205630B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Description

開示の技術は、ラベル推定装置、ラベル推定方法、及びラベル推定プログラムに関する。
3次元(x、y、z)の位置情報を持つデータを3次元点と呼ぶ。そのような3次元点の集まりからなるデータを3次元点群と呼ぶ。3次元点群は、物体の幾何的な情報を示すデータであり、距離センサによる計測や、画像から3次元情報を再構成することによって取得することができる。
3次元点群を利用する際には、3次元点群のそれぞれの3次元点がどの物体に属するかを示すラベルを付与する必要がある。ラベル付与の作業は様々な方法があるが、例えば、3次元点群ビューワーで点群を閲覧しながら、点群を部分的に切り出してラベルを付与するという作業を繰り返すなど、人的稼働がかかる作業である。
そのような背景から、少数の3次元点に付与されたラベルに基づいて学習を行って3次元点群の他の3次元点にラベルを付与する技術が提案されている。
ここで、ラベルとは3次元点群を構成する一つ一つの3次元点について付与されるもので、その3次元点がどのクラス(物体種別)に分類されるかの情報を示すものである。例えば、屋外の3次元点群を対象とした場合、地面、建物、柱、ケーブル、樹木などのクラスがあり、各3次元点には、その3次元点がどのクラスに分類されるのかを示すラベルが付与される。
例えば、非特許文献1では、以下の方法により少数のラベルからの3次元点群全体へのラベル付与を実現している。点群の各点について、その隣接する点からlinearity、planarity、scattering、及びverticalityの特徴量を導出する。ラベルが付与された少数の点について、導出した特徴量からクラス分類をする識別器をRandom Forestにより学習する。点群についてk-Nearest Neighborによりエッジを張り、そのエッジを導出した特徴量に基づくグラフカットにより分割することで、点群を小領域に分割する。そして、ある領域に属する点の特徴量のクラス推定値と、隣接する領域のクラスの滑らかさとを考慮したConditional Random Fieldにより、領域のラベルを推定する。
上記非特許文献1に記載の技術では、予め定義されたlinearity、planarity、scattering、及びverticalityの特徴量により識別器を構築しており、より性能の高い深層学習によって獲得したディープニューラルネットワーク(DNN)特徴量を使うことができていない。また、Random Forestによる分類についても、一般に深層学習による分類が、精度が高いことが知られている。
また、深層学習による特徴量の抽出及び識別を実施することで3次元点群に高精度にラベルを付与する技術も提案されている(非特許文献2及び非特許文献3)。非特許文献2及び非特許文献3に記載の技術では、学習用のデータとして全ての3次元点にラベルが付与された3次元点群を用意する必要がある。前述の通り、3次元点群へのラベル付与の人的稼働は大きいため、学習データの準備が困難である。
Guinard, Stephane, and Loic Landrieu. "Weakly supervised segmentation-aided classification of urban scenes from 3D LiDAR point clouds." ISPRS Workshop 2017. 2017. Qi, Charles Ruizhongtai, et al. "Pointnet++: Deep hierarchical feature learning on point sets in a metric space." Advances in Neural Information Processing Systems. 2017. Landrieu, Loic, and Martin Simonovsky. "Large-scale point cloud semantic segmentation with superpoint graphs." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
開示の技術は、上記の点に鑑みてなされたものであり、特徴量を抽出する手法を自由に選択することを可能にしつつ、少数のラベルが付与された点を含む点群を入力として、ラベルが付与されていない点のラベルを推定するラベル推定装置、方法、及びプログラムを提供することを目的とする。
本開示の1つの態様は、点群を構成する点のうち、ラベルが付与された点のラベルを利用してラベルが付与されていない点に付与するラベルを推定するラベル推定装置であって、ラベルが付与された点とラベルが付与されていない点とを含む点群のうち、前記ラベルが付与されていない点を対象点として、前記点群を構成する点の集合から、前記対象点のクラス及び前記クラスの推定結果の確信度を示す尤度を推定する確信度導出部と、推定されたクラスが適切であるかを判定するために用いる優先度として、推定されたクラスに対応するラベルと同じラベルが付与された点と、前記対象点との距離を取得する優先度導出部と、少なくとも前記距離に基づく指標を用いて前記推定されたクラスが適切であるかを判定するラベル判定部と、を含む。
開示の技術によれば、特徴量を抽出する手法を自由に選択することを可能にしつつ、少数のラベルが付与された点を含む点群を入力として、ラベルが付与されていない点のラベルを推定することができる。
本実施形態に係るラベル推定装置のハードウェア構成を示すブロック図である。 本実施形態に係るラベル推定装置の機能構成の例を示すブロック図である。 ラベル推定装置に入力される3次元点群の一例を概略的に示す図である。 DNNに入力する3次元点群を説明するための図である。 優先度の導出に用いる距離distを説明するための図である。 ラベルの伝播を説明するための図である。 本実施形態におけるラベル伝播処理の流れを示すフローチャートである。 ラベル伝播処理の様子を模式的に示す図である。
以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
図1は、ラベル推定装置10のハードウェア構成を示すブロック図である。
図1に示すように、ラベル推定装置10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16、及び通信I/F(Interface)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。
CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムにしたがって、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、後述するラベル推定処理を実行するためのラベル推定プログラムが格納されている。
ROM12は、各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム及び各種データを格納する。
入力部15は、マウス等のポインティングデバイス及びキーボードを含み、各種の入力を行うために使用される。
表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能してもよい。
通信I/F17は、他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI、Wi-Fi(登録商標)等の規格が用いられる。
次に、ラベル推定装置10の機能構成について説明する。
図2は、ラベル推定装置10の機能構成の例を示すブロック図である。
図2に示すように、ラベル推定装置10は、機能構成として、学習部101と、第1推定部102と、終了判定部106と、第2推定部107とを有する。また、記憶部200は、3次元点群記憶部201と、入力ラベル記憶部202と、伝播ラベル記憶部203と、DNN記憶部204とを有する。各機能構成は、CPU11がROM12又はストレージ14に記憶されたラベル推定プログラムを読み出し、RAM13に展開して実行することにより実現される。
ラベル推定装置10には、距離センサによる計測や、画像から3次元情報を再構成することによって取得された複数の3次元点であって、ラベルが付与された少数の3次元点、及びラベルが付与されていない3次元点を含む3次元点群が入力される。ラベルは、各3次元点が、物体識別等に基づく複数のクラスのいずれのクラスに分類されるかを示す情報である。以下では、3次元点群がラベル推定装置10に入力される時点で、少数の3次元点に予め付与されているラベルを「入力ラベル」、ラベルが付与されていない3次元点に対して、後述する第1推定部102により伝播されて付与されるラベルを「伝播ラベル」という。
図3に、ラベル推定装置10に入力される3次元点群の一例を概略的に示す。図3では、丸印が各3次元点を示し、白丸はラベルが付与されていない3次元点、網掛けの丸はラベルが付与された3次元点を示し、特に、太枠の丸は、付与されているラベルが入力ラベルであることを示している。また、図3では、「電柱」、「地面」、及び「ケーブル」の3つのクラスに物体識別する例を示しており、各クラスを示すラベルを、網掛けの種類を異ならせて表している。以下の図においても同様である。
3次元点群記憶部201には、ラベル推定装置10に入力された3次元点群に含まれる各3次元点の3次元座標(x,y,z)が、3次元点の識別情報(以下、「3次元点ID」という)と対応付けて記憶される。
入力ラベル記憶部202には、入力ラベルが付与されている3次元点の3次元IDと、その入力ラベルとが対応付けて記憶される。伝播ラベル記憶部203には、伝播ラベルが付与された3次元点の3次元IDと、その伝播ラベルとが対応付けて記憶される。DNN記憶部204には、後述する学習部101により深層学習されたDNNモデルが記憶される。
学習部101は、複数の3次元点の座標と、複数の3次元点の各々が属するクラスを示すラベルとを対応付けて、入力された3次元点が複数のクラスの各々に分類される尤度(以下、「クラス尤度」という)を導出するモデルを学習する。なお、クラス尤度は、クラス数の次元を持つベクトルである。ベクトルの各要素の値は、クラス尤度の合計値が1となるように制約を持たせてもよいし、クラス尤度の合計値に制約を持たせなくてもよい。本実施形態では、クラス尤度の合計値が1となる制約を持たせた場合について説明する。また、以下では、クラス尤度が最も大きいクラスを「推定クラス」という。
具体的には、学習部101は、3次元点群記憶部201に記憶された3次元点の座標、入力ラベル記憶部202に記憶された入力ラベル、及び伝播ラベル記憶部203に記憶された伝播ラベルを入力として、DNNの学習を行う。なお、学習部101による深層学習の初期状態では伝播ラベルは空であり、学習部101は、入力ラベルが付与された3次元点のみによってDNNを学習する。学習部101は、学習の結果得たDNNをDNNモデルとしてDNN記憶部204に記憶する。
深層学習のアーキテクチャは、例えば参考文献1のPointNetに基づく構成を使用することができる。この構成では、DNNは3次元点群の3次元座標を入力とし、T-Net層と、pointwise mlp層と、global feature extraction層と、classification層とからなる。T-Net層は、入力された3次元点それぞれの3次元座標を3次元幾何変換する層である。pointwise mlp層は、3次元点毎にマルチレイヤーパーセプトロン(mlp)を適用することで、3次元点毎の特徴量を抽出する層である。global feature extraction層は、3次元点毎の特徴量を統合して、特徴抽出処理により、DNNに入力された3次元点群全体の特徴量を抽出する層である。classification層は、DNNに入力された3次元点群全体の特徴量をmlp及びsoft-maxで処理することで、各3次元点のクラス尤度を推定する層である。
参考文献1:Qi, Charles R., et al. “Pointnet: Deep learning on point sets for 3d classification and segmentation.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
図4に示すように、学習部101は、3次元点群記憶部201に記憶された3次元点群をそのままDNNに入力するのではなく、処理対象の3次元点(以下、「対象点」という)から距離rの範囲内に含まれる3次元点群、すなわち対象点を中心とする半径rの球に含まれる3次元点群を抽出してDNNに入力してもよい。これは、対象点の周囲の性質を加味して対象点のクラスの尤度を得るためである。周囲の性質とは、例えば形状があげられるが、入力される3次元点群に包含される情報によってその他の性質も加味される。例えば、色情報も含む3次元点群である場合、形状だけではなく色も性質として加味してもよい。学習部101は、抽出した3次元点群の3次元座標をDNNに入力し、対象点についてのクラス尤度を導出する。
学習部101は、入力ラベル又は伝播ラベルが既に付与されている3次元点を対象点として、上述の方法によりクラス尤度を導出し、導出したクラス尤度に対する損失関数を最小化するようにDNNを学習する。例えば、下記(1)式によって定義されるlossを、損失関数として用いることができる。
Figure 0007205630000001
(1)式で、Nは入力ラベルが付与された3次元点の数、Nは伝播ラベルが付与された3次元点の数である。Lは入力ラベル、Lは伝播ラベルであり、どちらもone hot encodeされたk次元(kはクラス数)のベクトルである。Lは、i番目の3次元点についてDNNによって導出されたクラス尤度であり、k次元のベクトルである。log(L)はLの各次元についてlogを適用し、k次元のベクトルを出力することを意味する。
(1)式に示すlossの第1項は、入力ラベルが付与されているN個の3次元点について評価した交差エントロピー、第2項は、伝播ラベルが付与されているN個の3次元点について評価した交差エントロピーである。第1項はN/Nで重み付けをされているが、これは伝播ラベルが増えるにつれて、NがNよりもはるかに大きくなることで、伝播ラベルによる学習が支配的になることを防ぐために適用されているものである。すなわち、入力ラベルが付与された3次元点と、伝播ラベルが付与された3次元点との損失関数に対する貢献度が平等になるように第1項と第2項とに重み付けをしたことを意味する。
なお、損失関数に用いる誤差の指標としては、3次元点について導出されたクラス尤度と、付与されたラベルが示すクラスとの誤差を示す指標であればよく、(1)式で用いている交差エントロピーに限定されない。
学習部101は、学習が収束するまで、損失関数に基づくDNNの学習を実施する。例えば、学習部101は、エポック間での訓練データ(入力ラベル及び伝播ラベルが付与された3次元点)について導出されるクラスの正解率の変化が、予め定められた閾値未満になったか否かにより、学習の収束を判定することができる。なお、収束判定の方法についてはこの例に限定されない。学習部101は、DNNの学習が収束したら、その時点でのDNNをDNNモデルとしてDNN記憶部204に記憶する。
第1推定部102は、入力ラベル又は伝播ラベルが付与された3次元点と、いずれのラベルも付与されていない3次元点とを含む3次元点群のうち、いずれのラベルも付与されていない対象点についてDNNにより導出された推定クラスの尤度、及び、推定クラスを示すラベルが付与された3次元点のうち、対象点との距離が最も近い3次元点と対象点との距離に基づく指標が予め定めた基準を満たす場合に、対象点に、推定クラスを示すラベルを伝播する。具体的には、第1推定部102は、3次元点群、入力ラベル又は伝播ラベル、及び対象点のインデックスを入力とし、対象点に付与するラベルを出力する。
より詳細には、第1推定部102は、図2に示すように、確信度導出部103と、優先度導出部104と、ラベル判定部105とを含む。確信度導出部103は、学習部101により学習された学習済みモデルを用いて、対象点のクラスを推定し、推定結果の確信度を示す尤度と共に出力する。優先度導出部104は、推定されたクラスが適切であるかを判定するために用いる優先度を出力する。具体的には、優先度導出部104は、対象点の推定クラスを示すラベルと同じラベルが付与された対象点と最も近い点と、対象点との距離が短くなるほど、対象点について導出された推定クラスは適切であると判定し易くする値として優先度を出力する。これは、現実空間では同じラベルが付与された点が近くに存在する確率が高いという性質を利用するためである。ラベル判定部105は、尤度及び優先度の少なくとも一方を使って伝播するラベルを決定するが、尤度及び優先度の少なくとも一方に、さらに別の方法で求められたクラスやパラメータを用いてもよい。ラベルの決定は、ラベルに対応するクラスが適切であるかを判定することであると言い換えてもよい。以下、確信度導出部103、優先度導出部104、及びラベル判定部105の各々について、より詳細に説明する。
確信度導出部103は、3次元点群記憶部201に記憶された3次元点の3次元座標、入力ラベル記憶部202に記憶された入力ラベル、伝播ラベル記憶部203に記憶された伝播ラベル、及びDNN記憶部204に記憶されたDNNモデルを入力とする。確信度導出部103は、3次元点群のうち、入力ラベル及び伝播ラベルのいずれも付与されていない3次元点を対象点として入力し、確信度及び推定クラスを示すラベルを導出して出力する。
具体的には、上記の学習時と同様に、図4に示すように、確信度導出部103は、入力ラベル及び伝播ラベルのいずれも付与されていない3次元点である対象点を中心とする半径rの球に含まれる3次元点群を抽出して、学習済みモデルであるDNNに入力する。この入力の際に、確信度導出部103は、抽出した3次元点の各々の3次元座標を、対象点の3次元座標を原点とする座標に平行移動することで、DNNに入力する3次元座標を正規化する。確信度導出部103は、この入力に対して、DNNモデルで導出されるクラス尤度が最大のクラスを推定クラスとして出力すると共に、DNNモデルで導出される推定クラスについてのクラス尤度を、確信度confとして出力する。図4の例では、対象点である3次元点についての推定クラスは「電柱」であり、その確信度confは「0.91」である。
優先度導出部104では、3次元点群、入力ラベル、伝播ラベル、及び確信度導出部103で導出した推定クラスを入力として、各3次元点について優先度を導出する。ここでも、3次元点群のうち、入力ラベル及び伝播ラベルのいずれも付与されていない3次元点を対象点として、優先度を導出する。
具体的には、図5に示すように、優先度導出部104は、対象点の推定クラスと同じクラスを示す入力ラベル又は伝播ラベルが付与されている3次元点のうち、対象点に最も近い3次元点と対象点との距離をdistとする。そして、優先度導出部104は、下記(2)式により、優先度kdistを導出する。
Figure 0007205630000002
(2)式で、σはkdistを連続とするための値であり、tdistはkdistの最小値である。なお、kdistは、distが小さいほど1を最大値として大きい値をとり、distが大きくなるにつれて値が小さくなるが、distがRより大きい場合はtdistという定数値をとるdistの連続関数である。distがRより大きい場合に優先度kdistを定数値とするのは、クラスによっては、同じクラスの物体が空間的に離れて存在することを考慮したものである。このような場合、同一物体上の3次元点であっても、距離が離れた位置の3次元点同士ではdistが大きくなるため、確信度が低下してしまう。したがって、このような状況を防止するために、distがRより大きい場合に優先度kdistを定数値としているものである。
また、優先度導出部104は、下記(3)式に示すように、任意の標準偏差σ’である正規分布により、優先度kdistを導出してもよい。
Figure 0007205630000003
3次元点群には、空間的に近接する3次元点は同じクラスを示すラベルを持ち易いという性質がある。優先度kdistはこの性質を使い、既にラベルが付与された3次元点から空間的に近接する3次元点へ優先的にラベルを伝播する効果を生む。
ラベル判定部105は、確信度confと優先度kdistとの積conf×kdistが閾値tconf以上である3次元点について推定された推定クラスが適切であると判定する。ラベル判定部105は、推定クラスが適切であると判定した場合、図6に示すように、その推定クラスを示すラベルを伝播ラベルとして3次元点に付与する。conf×kdistを指標とすることで、DNNの特徴量が近く、かつ既にラベルが付与された3次元点から空間的に近い3次元点について、ラベルを伝播させることができる。なお、指標としては、確信度confと優先度kdistとの積に限らず、確信度confと優先度kdistとの和や重み付き和等を用いてもよい。
なお、ラベル判定部105は、conf×kdistが閾値tconf以上となる3次元点が少ない場合、kdistを考慮せずにconfが閾値tconf’よりも大きい3次元点について、その3次元点の推定クラスを示すラベルを伝播ラベルとして付与してもよい。これは、空間的に近くはないが、DNNによる推定クラスの確信度が高い3次元点にラベルを伝播することができる効果を持つ。また、conf若しくはkdistの少なくとも一方のみを指標として、付与する伝播ラベルを決定してもよい。
ラベル判定部105は、更新した伝播ラベル、すなわち新たに付与した伝播ラベルを伝播ラベル記憶部203に記憶する。
第1推定部102により更新された伝播ラベルも用いて、学習部101によりDNNを再学習し、再学習されたDNNを用いて、第1推定部102によるラベルの伝播を行う。このように、学習部101及び第1推定部102の処理を繰り返すことで、3次元点群記憶部201に記憶された3次元点群のうち、ラベルが付与されていない3次元点に、ラベルを伝播させて付与していく。
終了判定部106は、3次元点群記憶部201に記憶された3次元点群のうち、入力ラベル及び伝播ラベルのいずれも付与されていない3次元点の割合が予め定めた閾値(例えば、5%)未満となった場合に、学習部101及び第1推定部102の繰り返し処理を終了すると判定する。また、終了判定部106は、第1推定部102により直近で伝播ラベルが付与された3次元点の数が閾値未満となった場合に、学習部101及び第1推定部102の繰り返し処理を終了すると判定してもよい。
第2推定部107は、終了判定部106による終了判定の時点でラベルが付与されていない3次元点が分類されるクラスを推定する。具体的には、第2推定部107は、DNN記憶部204に記憶されているDNNモデルを読み出し、ラベルが付与されていない3次元点を対象点としてDNNに入力し、DNNで導出される推定クラスを、対象点である3次元点のクラスとして推定する。第2推定部107は、対象点である3次元点に、推定したクラスを示すラベルを付与する。
次に、ラベル推定装置10の作用について説明する。
図7は、ラベル推定装置10によるラベル推定処理の流れを示すフローチャートである。CPU11がROM12又はストレージ14からラベル推定プログラムを読み出して、RAM13に展開して実行することにより、ラベル推定処理が行なわれる。
ステップS101において、CPU11が、学習部101として、3次元点群記憶部201に記憶された3次元点の3次元座標、入力ラベル記憶部202に記憶された入力ラベル、及び伝播ラベル記憶部203に記憶された伝播ラベルを入力として、DNNの学習を行う。CPU11は、学習部101として、学習の結果得たDNNをDNNモデルとしてDNN記憶部204に記憶する。
次に、ステップS102で、CPU11が、確信度導出部103として、3次元点群のうち、入力ラベル及び伝播ラベルのいずれも付与されていない3次元点の各々を対象点に設定する。そして、CPU11が、確信度導出部103として、対象点を中心とした半径rの球に含まれる3次元点の3次元座標をDNNに入力し、対象点について、推定クラスの尤度を確信度confとして導出して出力する。
次に、ステップS103で、CPU11が、優先度導出部104として、対象点の推定クラスと同じクラスを示す入力ラベル又は伝播ラベルが付与されている3次元点のうち、対象点に最も近い3次元点と対象点との距離をdistとする。そして、CPU11が、優先度導出部104として、例えば(2)式により、距離distを用いた優先度kdistを導出する。
次に、ステップS104で、CPU11が、ラベル判定部105として、確信度confと優先度kdistとの積conf×kdistが閾値tconf以上か否かを判定する。conf×kdist≧tconfの場合には、処理はステップS105へ移行する。
ステップS105では、CPU11が、ラベル判定部105として、対象点である3次元点に、その3次元点の推定クラスを示すラベルを伝播ラベルとして付与し、更新した伝播ラベルを伝播ラベル記憶部203に記憶し、処理はステップS106へ移行する。一方、conf×kdist<tconfの場合には、処理はステップS105をスキップしてステップS106へ移行する。ステップS102~S105の処理は、各対象点について実行される。
ステップS106では、CPU11が、終了判定部106として、学習部101及び第1推定部102の繰り返し処理を終了するか否かを判定する。学習部101及び第1推定部102の繰り返し処理を終了する場合には、処理はステップS107へ移行し、終了しない場合には、処理はステップS101に戻る。
ステップS107では、CPU11が、第2推定部107として、ラベルが付与されていない3次元点を対象点としてDNNに入力し、DNNで導出される推定クラスを、その対象点である3次元点のクラスとして推定する。そして、CPU11が、第2推定部107として、対象点である3次元点に、推定したクラスを示すラベルを付与して、ラベル推定処理は終了する。
上記のラベル推定処理が実行されることにより、例えば、図8に示すように、モデルの学習とラベルの伝播とを繰り返して、ラベルが付与されていなかった3次元点にラベルを付与する。そして、繰り返し処理の終了が判定されると、DNNで導出された推定クラスを示すラベルを、残りの3次元点に付与することで、全ての3次元点にラベルを付与する。
以上説明したように、本実施形態に係るラベル推定装置によれば、複数の3次元点の3次元座標と、複数の3次元点の各々が分類されるクラスを示すラベルとを対応付けて、入力された3次元点が複数のクラスの各々に分類される尤度を導出するモデルを学習し、ラベルが付与された3次元点とラベルが付与されていない3次元点とを含む3次元点群のうち、ラベルが付与されていない3次元点を対象点としてモデルにより導出された尤度が最も高い推定クラスの尤度、及び、推定クラスを示すラベルが付与された3次元点のうち、対象点との距離が最も近い3次元点と対象点との距離に基づく指標が予め定めた基準を満たす場合に、その対象点に推定クラスを示すラベルを伝播する。これにより、少数のラベルが付与された3次元点を含む3次元点群を入力として、ラベルが付与されていない3次元点のラベルを推定することができる。
なお、上記実施形態では、学習部及び第1推定部の繰り返し処理によってもラベルが付与されていない3次元点に対して、DNNで導出された推定クラスを示すラベルを付与して、入力された3次元点群の全てにラベルを付与する場合について説明した。しかし、この場合に限定されず、残りの3次元点に対して、他の手法により推定したクラスを示すラベルを付してもよい。また、第1推定部により、残りの全ての3次元点にラベルが伝播されるようにしてもよいし、ラベルが付与されていない3次元点が少数残ったままの状態で処理を終了してもよい。この場合、上記実施形態における終了判定部及び第2推定部の構成を省略することができる。
また、上記実施形態では、ラベル推定装置に入力される点群が3次元点群である場合について説明したが、これに限定されず、2次元点群であってもよい。
また、上記実施形態では、学習部101と、第1推定部102とが同一のコンピュータで構成される場合について説明したが、これらは別々のコンピュータで実現されてもよい。この場合、記憶部200に記憶される各種情報を、学習部101を構成するコンピュータと、第1推定部102を構成するコンピュータとで共用可能とする。学習部101を構成するコンピュータは、第1推定部102を構成するコンピュータで付与され、記憶部200に記憶された伝播ラベルの情報も用いて、DNNの学習を繰り返すことができる。第1推定部102を構成するコンピュータは、学習部101を構成するコンピュータにより繰り返し学習される都度、記憶部200に記憶されるDNNモデルを用いて、ラベルの推定を行うことができる。なお、終了判定部106及び第2推定部107は、第1推定部102と同じコンピュータで構成してもよいし、それぞれ別のコンピュータで構成してもよい。
また、上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行したラベル伝播処理を、GPU(Graphics Processing Unit)等のCPU以外の各種のプロセッサと共に実行してもよい。他のプロセッサとしては、他にも、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、ラベル伝播処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
また、上記実施形態では、ラベル伝播プログラムがROM12又はストレージ14に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、USB(Universal Serial Bus)メモリ、光磁気ディスク、メモリカード等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
以上の実施形態に関し、更に以下の付記を開示する。
(付記項1)
メモリと、
前記メモリに接続された少なくとも1つのプロセッサと、
を含み、
前記プロセッサは、
点群を構成する点のうち、ラベルが付与された点のラベルを利用してラベルが付与されていない点に付与するラベルを推定する処理であって、
ラベルが付与された点とラベルが付与されていない点とを含む点群のうち、前記ラベルが付与されていない点を対象点として、前記点群を構成する点の集合から、前記対象点のクラス及び前記クラスの推定結果の確信度を示す尤度を推定し、
推定されたクラスが適切であるかを判定するために用いる優先度として、推定されたクラスに対応するラベルと同じラベルが付与された点と、前記対象点との距離を取得し、
少なくとも前記距離に基づく指標を用いて前記推定されたクラスが適切であるかを判定する
処理を実行するように構成されているラベル推定装置。
(付記項2)
点群を構成する点のうち、ラベルが付与された点のラベルを利用してラベルが付与されていない点に付与するラベルを推定するラベル推定処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記録媒体であって、
前記ラベル推定処理は、
ラベルが付与された点とラベルが付与されていない点とを含む点群のうち、前記ラベルが付与されていない点を対象点として、前記点群を構成する点の集合から、前記対象点のクラス及び前記クラスの推定結果の確信度を示す尤度を推定し、
推定されたクラスが適切であるかを判定するために用いる優先度として、推定されたクラスに対応するラベルと同じラベルが付与された点と、前記対象点との距離を取得し、
少なくとも前記距離に基づく指標を用いて前記推定されたクラスが適切であるかを判定する
ことを含む非一時的記録媒体。
10 ラベル推定装置
11 CPU
12 ROM
13 RAM
14 ストレージ
15 入力部
16 表示部
17 通信I/F
19 バス
101 学習部
102 第1推定部
103 確信度導出部
104 優先度導出部
105 ラベル判定部
106 終了判定部
107 第2推定部
200 記憶部
201 3次元点群記憶部
202 入力ラベル記憶部
203 伝播ラベル記憶部
204 DNN記憶部

Claims (8)

  1. 点群を構成する点のうち、ラベルが付与された点のラベルを利用してラベルが付与されていない点に付与するラベルを推定するラベル推定装置であって、
    ラベルが付与された点とラベルが付与されていない点とを含む点群のうち、前記ラベルが付与されていない点を対象点として、前記点群を構成する点の集合から、前記対象点のクラス及び前記クラスの推定結果の確信度を示す尤度を推定する確信度導出部と、
    推定されたクラスが適切であるかを判定するために用いる優先度として、推定されたクラスに対応するラベルと同じラベルが付与された点と、前記対象点との距離を取得する優先度導出部と、
    少なくとも前記距離に基づく指標を用いて前記推定されたクラスが適切であるかを判定するラベル判定部と、
    を含むラベル推定装置。
  2. 前記確信度導出部に入力される点の集合は、前記対象点から所定距離内に存在する点のみである請求項1に記載のラベル推定装置。
  3. 前記距離に基づく指標は、前記距離が短いほど、前記推定されたクラスが適切であると判定し易いように設計される請求項1又は請求項2に記載のラベル推定装置。
  4. 前記ラベル判定部は、前記距離に基づく指標と、前記尤度とに基づき、前記クラスが適切であるかを判定する請求項1~請求項3の何れか1項に記載のラベル推定装置。
  5. 複数の点の座標と、前記複数の点の各々が分類されるクラスを示すラベルとを対応付けて、入力された点が複数のクラスの各々に分類される尤度を導出するモデルを学習する学習部を含み、
    前記学習部は、予めラベルが付与された点、及び前記ラベル判定部により適切と判定されたクラスを示すラベルが付与された点の座標を用いて、前記モデルの学習を繰り返し、
    前記確信度導出部は、繰り返し処理により学習された前記モデルを用いて前記対象点のクラス及び尤度の推定を繰り返す
    請求項1~請求項4の何れか1項に記載のラベル推定装置。
  6. 前記学習部は、前記予めラベルが付与された点についての誤差に関する第1項と、前記ラベル判定部により適切と判定されたクラスを示すラベルが付与された点についての誤差に関する第2項とを含み、前記予めラベルが付与された点と、前記ラベル判定部により適切と判定されたクラスを示すラベルが付与された点との貢献度が平等になるように前記第1項と前記第2項とに重み付けをした損失関数を最小化するように前記モデルを学習する請求項5に記載のラベル推定装置。
  7. 点群を構成する点のうち、ラベルが付与された点のラベルを利用してラベルが付与されていない点に付与するラベルを推定するラベル推定方法であって、
    確信度導出部が、ラベルが付与された点とラベルが付与されていない点とを含む点群のうち、前記ラベルが付与されていない点を対象点として、前記点群を構成する点の集合から、前記対象点のクラス及び前記クラスの推定結果の確信度を示す尤度を推定し、
    優先度導出部が、推定されたクラスが適切であるかを判定するために用いる優先度として、推定されたクラスに対応するラベルと同じラベルが付与された点と、前記対象点との距離を取得し、
    ラベル判定部が、少なくとも前記距離に基づく指標を用いて前記推定されたクラスが適切であるかを判定する
    ラベル推定方法。
  8. コンピュータに、点群を構成する点のうち、ラベルが付与された点のラベルを利用してラベルが付与されていない点に付与するラベルを推定させるラベル推定プログラムであって、
    前記コンピュータを、
    ラベルが付与された点とラベルが付与されていない点とを含む点群のうち、前記ラベルが付与されていない点を対象点として、前記点群を構成する点の集合から、前記対象点のクラス及び前記クラスの推定結果の確信度を示す尤度を推定する確信度導出部、
    推定されたクラスが適切であるかを判定するために用いる優先度として、推定されたクラスに対応するラベルと同じラベルが付与された点と、前記対象点との距離を取得する優先度導出部、及び、
    少なくとも前記距離に基づく指標を用いて前記推定されたクラスが適切であるかを判定するラベル判定部
    として機能させるためのラベル推定プログラム。
JP2021534856A 2019-07-19 2019-07-19 ラベル推定装置、ラベル推定方法、及びラベル推定プログラム Active JP7205630B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/028472 WO2021014495A1 (ja) 2019-07-19 2019-07-19 ラベル推定装置、ラベル推定方法、及びラベル推定プログラム

Publications (2)

Publication Number Publication Date
JPWO2021014495A1 JPWO2021014495A1 (ja) 2021-01-28
JP7205630B2 true JP7205630B2 (ja) 2023-01-17

Family

ID=74193735

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021534856A Active JP7205630B2 (ja) 2019-07-19 2019-07-19 ラベル推定装置、ラベル推定方法、及びラベル推定プログラム

Country Status (3)

Country Link
US (1) US20220262097A1 (ja)
JP (1) JP7205630B2 (ja)
WO (1) WO2021014495A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7398849B1 (ja) 2023-04-10 2023-12-15 学校法人兵庫医科大学 プログラム、方法、情報処理システム、および排便シート

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014078095A (ja) * 2012-10-10 2014-05-01 Sony Corp 画像処理装置、画像処理方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BEARMAN, Amy et al.,What's the Point: Semantic Segmentation with Point Supervision,v5,2016年07月23日,p.1-16,[検索日 2019.09.30],インターネット:<URL:https://arxiv.org/pdf/1506.02106.pdf>
SULEYMANOV, Tarlan et al.,Online Inference and Detection of Curbs in Partially Occluded Scenes with Sparse LIDAR,2019年07月11日,p.1-8,[検索日 2019.09.30],インターネット:<URL : https://arxiv.org/pdf/1907.05375.pdf>

Also Published As

Publication number Publication date
WO2021014495A1 (ja) 2021-01-28
US20220262097A1 (en) 2022-08-18
JPWO2021014495A1 (ja) 2021-01-28

Similar Documents

Publication Publication Date Title
US20220237885A1 (en) Systems and methods for extracting information about objects from scene information
US20180122071A1 (en) Skin lesion segmentation using deep convolution networks guided by local unsupervised learning
Andújar et al. Way‐finder: Guided tours through complex walkthrough models
CN112233124B (zh) 基于对抗式学习与多模态学习的点云语义分割方法及系统
AU2016201908A1 (en) Joint depth estimation and semantic labeling of a single image
CN113168510A (zh) 通过细化形状先验分割对象
CN114187633B (zh) 图像处理方法及装置、图像生成模型的训练方法及装置
CN102509105B (zh) 一种基于贝叶斯推理的图像场景分层处理方法
KR20220081261A (ko) 객체 포즈 추정 방법 및 장치
JP4951490B2 (ja) 動物体追跡装置、動物体追跡方法及び動物体追跡プログラム並びに動物体追跡プログラムを記録した記録媒体
CN102509119B (zh) 一种基于分类器的图像场景分层与对象遮挡处理方法
US11270438B2 (en) System and method for triggering machine learning (ML) annotation model retraining
CN111738447B (zh) 基于时空关系学习的移动社交网络用户关系推断方法
Vázquez‐Delgado et al. Real‐time multi‐window stereo matching algorithm with fuzzy logic
JP7205630B2 (ja) ラベル推定装置、ラベル推定方法、及びラベル推定プログラム
Ning‐bo et al. Destination and route choice models for bidirectional pedestrian flow based on the social force model
US20210264659A1 (en) Learning hybrid (surface-based and volume-based) shape representation
CN115311403B (zh) 深度学习网络的训练方法、虚拟形象生成方法及装置
CN113065321B (zh) 基于lstm模型和超图的用户行为预测方法及系统
Song [Retracted] 3D Virtual Reality Implementation of Tourist Attractions Based on the Deep Belief Neural Network
Xiao et al. Confidence map based 3D cost aggregation with multiple minimum spanning trees for stereo matching
US20240028784A1 (en) Segmenting a building scene
Liu et al. Research on joint segment optimisation and stereo matching
US20240005685A1 (en) Geospatial image data processing to detect nodes and interconnections
Li et al. Automatic layered rgb‐d scene flow estimation with optical flow field constraint

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221212

R150 Certificate of patent or registration of utility model

Ref document number: 7205630

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150