JP2022095591A

JP2022095591A - ３ｄオブジェクト検出のための機械学習

Info

Publication number: JP2022095591A
Application number: JP2021203671A
Authority: JP
Inventors: レジェブスファーアスマ; Rejeb Sfar Asma; デュランドトム; Durand Tom; ホセンボカスアシャド; Hosenbocus Ashad
Original assignee: Dassault Systemes SE
Current assignee: Dassault Systemes SE
Priority date: 2020-12-16
Filing date: 2021-12-15
Publication date: 2022-06-28
Also published as: EP4016392A1; CN114707628A; US20220189070A1

Abstract

【課題】３Ｄ点群のスーパーポイントを潜在ベクトルにエンコードするニューラルネットワークを学習させるための機械学習のコンピュータ実装方法、デバイス、システム及びプログラムを提供する。【解決手段】３Ｄオブジェクト検出のための機械学習の改良された方法は、スーパーポイントのデータセットを提供するステップを含む。各スーパーポイントは、それぞれ、３Ｄ点群の点のセットである。当該点のセットは、オブジェクトの少なくとも一部を表す。方法はさらに、スーパーポイントのデータセットに基づいてニューラルネットワークを学習させるステップを含む。学習は、損失を最小化するステップを含む。損失は、２つのスーパーポイント間の誤差にペナルティを課す。【選択図】図１

Description

本発明は、コンピュータプログラム及びシステムの分野、より具体的には、３Ｄオブジェクト検出のための機械学習のための方法、システム、及びプログラムに関する。

市場には、オブジェクトの設計、エンジニアリング、製造用に、多数のシステム及びプログラムが提供されている。ＣＡＤは、コンピュータ支援設計（Computer-Aided Design）の頭字語であり、たとえば、オブジェクトを設計するためのソフトウェアソリューションに関する。ＣＡＥは、コンピュータ支援エンジニアリング（Computer-Aided Engineering）の頭字語であり、たとえば、将来の製品の物理的挙動をシミュレートするためのソフトウェアソリューションに関する。ＣＡＭはコンピュータ支援製造（Computer-Aided Manufacturing）の頭字語であり、たとえば、製造プロセスや動作を定義するためのソフトウェアソリューションに関する。このようなコンピュータ支援設計システムでは、技術の効率の点でグラフィカルユーザーインターフェイスが重要な役割を果たす。これらの技術は、製品ライフサイクル管理（ＰＬＭ）システム内に組み込まれ得る。ＰＬＭとは、企業が製品データを共有し、共通の処理を適用し、企業知識を活用して、拡張エンタープライズの概念にわたって、コンセプトから生涯にわたる製品の開発に役立てることを支援するビジネス戦略のことをいう。ダッソー・システムズが（ＣＡＴＩＡ、ＥＮＯＶＩＡ、ＤＥＬＭＩＡの商標のもと）提供するＰＬＭソリューションでは、製品エンジニアリングの知識を編成するエンジニアリングハブと、製造エンジニアリングの知識を管理する製造ハブと、エンジニアリングハブ及び製造ハブへの企業の統合及び接続とを可能にする企業ハブが提供される。これらを合わせたシステムは、製品定義、製造準備、生産、及びサービスの最適化を促進するダイナミックかつ知識ベースの製品作成及び意思決定サポートを可能にするために、製品、プロセス、リソースをリンクするオープンオブジェクトモデルを提供する。

こういった背景及び別の背景でも、機械学習及び３Ｄオブジェクトの検出が広く重要性を増している。

しかし、３Ｄオブジェクト検出のための機械学習の改良された方法が依然として必要である。

したがって、３Ｄ点群のスーパーポイントを潜在ベクトルにエンコードするように構成されるニューラルネットワークを学習させるための、機械学習のコンピュータ実装方法が提供される。この方法は、スーパーポイントのデータセットを提供するステップを含む。スーパーポイントは、それぞれ、３Ｄ点群の点のセットのことである。当該点のセットは、オブジェクトの少なくとも一部を表す。本方法はさらに、スーパーポイントのデータセットに基づいてニューラルネットワークを学習させるステップを含む。学習は、損失を最小化することを含む。損失は、２つのスーパーポイント間の誤差にペナルティを課す。

本方法は、以下のうち１つ以上を含んでもよい、
－損失とは、再構成損失であり、あるスーパーポイントと当該スーパーポイントの再構成の間の誤差にペナルティを課す、
－誤差とは、スーパーポイントとスーパーポイントの再構成の間の距離である、
－距離は、チャンファー（Chamfer）距離又はアースムーバー（Earth-Mover）距離である、及び／又は、
－学習は教師なし学習である。

さらに、本方法に従って学習可能なニューラルネットワークが提供される。

さらに、コンピュータ実装の、ニューラルネットワークを使用する方法が提供される。本使用方法は、第１の３Ｄ点群の１つ以上の第１のスーパーポイントを提供するステップを含む。第１の３Ｄ点群は３Ｄシーンを表す。本使用方法は、第２の３Ｄ点群の１つ以上の第２のスーパーポイントを提供するステップをさらに含む。第２の３Ｄ点群は３Ｄオブジェクトを表す。本使用方法はさらに、ニューラルネットワークを適用することにより、１つ以上の各第１のスーパーポイントをそれぞれの第１の潜在ベクトルにエンコードし、１つ以上の各第２のスーパーポイントをそれぞれの第２の潜在ベクトルにエンコードするステップを含む。本使用方法はさらに、１つ以上の第１のスーパーポイントの各第１のスーパーポイントと、１つ以上の第２のスーパーポイントの各第２のスーパーポイント間の類似性を、前記各第１のスーパーポイント及び前記各第２のスーパーポイントに関して、第１のスーパーポイントをエンコードするそれぞれの第１の潜在ベクトルと第２のスーパーポイントをエンコードするそれぞれの第２の潜在ベクトル間の類似度を計算することで、決定するステップを含む。

本使用方法は、以下のうち１つ以上を含んでもよい、
－１つ以上の第１のスーパーポイントを提供するステップが、以下を含む、
・第１の３Ｄ点群の１つ以上の初期スーパーポイントを提供するステップ、
・初期スーパーポイントの中から、以下を満たす初期スーパーポイントをそれぞれ選択することにより、１つ以上の初期スーパーポイントをフィルタリングするステップ、
・・スーパーポイントの寸法と少なくとも１つの第２のスーパーポイントの寸法間の誤差が、事前定義の閾値よりも小さい、及び／又は、
・・スーパーポイントの位置と少なくとも１つの第２のスーパーポイントの位置間の誤差が、事前定義の閾値よりも小さい、
選択されたスーパーポイントは、前記１つ以上の第１のスーパーポイントである、
－フィルタリングするステップは、初期スーパーポイントの中から、以下を満たす初期スーパーポイントをそれぞれ選択するステップを含む、
・スーパーポイントの各寸法と少なくとも１つの第２のスーパーポイントの対応寸法間の距離が、事前定義の閾値よりも小さい、及び／又は、
・スーパーポイントの各寸法と少なくとも１つの第２のスーパーポイントの対応寸法間の比率が、最大比率よりも小さく、最小比率よりも大きい、及び／又は、
・スーパーポイントの最も近い支持面からの相対的な高さと、少なくとも１つの第２のスーパーポイントの最も近い支持面からの相対的な高さとの差が、事前定義の閾値よりも小さい、
－本方法はさらに、それぞれが少なくとも１つの第２のスーパーポイントに対して事前定義の閾値よりも大きい類似性が決定された第１のスーパーポイントの中から、各グループが第２の３Ｄ点群に類似した形状を有する、第１のスーパーポイントの１つ以上のグループを決定するステップを含む、
－１つ以上のグループを決定するステップは、以下を含む、
・第２のスーパーポイントのグラフを提供するステップであって、当該第２のスーパーポイントのグラフは、複数のノードと複数のエッジを有し、ここで、複数のノードはそれぞれが第２のスーパーポイントを表し、複数のエッジはそれぞれ、エッジによって接続されるノードによって表される２つのスーパーポイント間のジオメトリー関係を表し、また、当該ジオメトリー関係のジオメトリー属性を１つ以上有する、
・それぞれが２つのノードを接続し、それぞれが第２のスーパーポイントのグラフのエッジのジオメトリー属性と類似したジオメトリー属性を１つ以上持つ、複数のエッジを構築することによって、それぞれが第１のスーパーポイントを表す複数のノードを各々が持つ、１つ以上のグラフを形成するステップであって、形成された各グラフはそれぞれのグループに対応する、及び／又は、
－本方法はさらに、各グループについて、グループ内の第１のスーパーポイントと１つ以上の第２のスーパーポイントとの類似性を測定するステップによって類似性スコアを決定するステップをさらに含む。

本方法及び／又は本使用方法を実行するための命令を含むコンピュータプログラムがさらに提供される。

コンピュータプログラム及び／又はニューラルネットワークをその上に記録したデータ記憶媒体を含むデバイスがさらに提供される。

当該デバイスは、たとえば、ＳａａＳ（サービスとしてのソフトウェア）又は他のサーバー、あるいはクラウドベースのプラットフォームなどにおいて、非一過性のコンピュータ可読媒体を形成するか、又は非一過性のコンピュータ可読媒体として機能してもよい。あるいは、当該デバイスは、データ記憶媒体と結合したプロセッサを備えてもよい。したがって、当該デバイスは、全体的又は部分的にコンピュータシステムを形成してもよい（たとえば、デバイスはシステム全体のサブシステムである）。当該システムは、プロセッサと結合したグラフィカルユーザーインターフェースをさらに備えてもよい。

次に、本発明の実施形態を、限定するものではない例をもとに添付の図面を参照して説明する。

本方法を組み込んだプロセスの一例のフローチャートを示す。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。本方法を例示している。システムの一例を示している。

３Ｄ点群のスーパーポイントを潜在ベクトルにエンコードするように構成されるニューラルネットワークを学習させるための、機械学習のコンピュータ実装方法が提案される。この方法は、スーパーポイントのデータセットを提供するステップを含む。スーパーポイントとは、それぞれ、３Ｄ点群の点のセットである。当該点のセットは、オブジェクトの少なくとも一部を表す。本方法はさらに、スーパーポイントのデータセットに基づいてニューラルネットワークを学習させるステップを含む。学習は、損失を最小化するステップを含む。損失は、２つのスーパーポイント間の誤差にペナルティを課す。本方法は、「学習方法」と呼ばれることもある。

本学習方法は、３Ｄオブジェクト検出のための機械学習の改良された方法を構成する。

特に、本学習方法により、３Ｄ点群での３Ｄオブジェクトの検出が可能になる。本学習方法によって学習するニューラルネットワークは、特に３Ｄオブジェクトの検出を利用する多くの用途で使用することができ、たとえば、以下で説明する使用方法に従った３Ｄオブジェクト検出を利用する任意の用途が挙げられる。当該用途は、（たとえば、自動的に）資産インベントリ及び／又は管理（たとえば、プラントシーンで、全ロボットを特定して、それら又は一部を移動又は交換する）、（たとえば、自動的な）オブジェクトの除去及び／又は交換（たとえば、プラントシーンで、類似したマシンの全スキャンを自動的に交換する）、及び／又は（プラントシーンなどの）仮想ツインの生成を行うことであってもよい。プラントの仮想ツインは、ＣＡＤシーン、又はＣＡＤシーンと３Ｄ点群のミックスで構成され、仮想プラントは、たとえばスキャンされたプラント又は物理的な実際のプラントのツインを表す。最終的には、プラントシーンの仮想ツイン生成により、プラントのシミュレーション及び／又はプラントのさまざまな最適化が可能になり得る。

さらに、本学習方法は、３Ｄ点群のスーパーポイントを入力として受け取り、そのスーパーポイントを潜在ベクトルにエンコードできるようニューラルネットワークを学習させる。言い換えると、本学習方法は、３Ｄ点群の任意の３Ｄスーパーポイントを潜在的な表現に投影できるようニューラルネットワークを学習させる。ニューラルネットワークは、２つのスーパーポイント間の誤差にペナルティを課す損失を最小化することによってトレーニングされる／学習するため、ニューラルネットワークは、入力されたスーパーポイントを、ジオメトリー情報の観点で意味のあるスーパーポイント表現である潜在ベクトルにエンコードする。

実際に、損失は２つのスーパーポイントを入力として受け取り、それらの間の誤差を計算し、損失はその誤差にペナルティを課すため、誤差が大きいと、損失は大きな値になる傾向がある。よって、学習中に、トレーニングサンプルとして使用される各スーパーポイントについて、スーパーポイントが損失へ入力として与えられ、別のスーパーポイントも損失へ入力として与えられ、ここで、当該別のスーパーポイントは、トレーニングサンプルであるスーパーポイントをエンコードする潜在ベクトル（つまり、ニューラルネットワークをスーパーポイントに適用した結果の潜在ベクトル）から取得される。つまり、損失は、トレーニングサンプルであるスーパーポイントと別のスーパーポイント間の誤差にペナルティを課する。別のスーパーポイントとは、たとえば、スーパーポイントをエンコードする潜在ベクトルをデコードすることによる、トレーニングサンプルであるスーパーポイントの再構成であってもよく、この場合、ニューラルネットワークは、スーパーポイントを潜在ベクトルにエンコードするためのエンコーダーと、潜在ベクトルをスーパーポイントにデコードするためのデコーダーを含み、詳細を以下でさらに説明する。これは、たとえば、ニューラルネットワークがオートエンコーダーである場合である。次に、学習は、トレーニングサンプルであるスーパーポイントと別のスーパーポイントについて損失値を計算し、ここで、損失は、入力として対となったスーパーポイントを受け取る。損失のこの値は、損失によって入力として受け取られたスーパーポイント、つまりここではトレーニングサンプルであるスーパーポイントと別のスーパーポイント、との間のジオメトリー的な誤差を定量化する。したがって、ジオメトリー的な誤差は、トレーニングサンプルであるスーパーポイントと、それをエンコードする潜在ベクトルのデコード間の誤差である。このような誤差に損失はペナルティを課すため、誤差が大きいとこの値は大きくなる。学習は損失を最小化するため、値が大きい場合、学習はニューラルネットワークの重みを変更するが、これは、大きい値はトレーニングサンプルであるスーパーポイントのエンコードが十分に満足するものではないことを意味するためである。言い換えると、この値が高い場合、トレーニングサンプルであるスーパーポイントをエンコードする潜在ベクトルは、このスーパーポイントのジオメトリーを十分に正確には捉えていないため、正確性を改良するために重みを変更する必要がある。

よって、本学習方法による学習は、類似ジオメトリーを有するスーパーポイントが類似した潜在ベクトルでエンコードされ、異なるジオメトリーを有する２つのスーパーポイントが実質的に異なる潜在ベクトルでエンコードされることを保証する傾向がある。さらに言い換えると、ニューラルネットワークは、意味のあるジオメトリー情報を表す潜在表現にスーパーポイントを投影するようにトレーニングされ、つまり、学習は、２つのスーパーポイントをエンコードする潜在ベクトル間の距離が、これら２つのスーパーポイントのジオメトリー的類似性と高度に相関することを目指す。ここで、３Ｄ点群のスーパーポイントは、３Ｄ点群の局所部分（たとえば、３Ｄ点群内のあるオブジェクトの少なくとも一部を形成する局所形状）を表す３Ｄ点群の点のサブセットであるため、本学習方法によって学習するニューラルネットワークにより、３Ｄ点群の局所部分をジオメトリー的に意味のある潜在ベクトル表現にエンコードすることが可能になる。

このように、本ニューラルネットワークは、３Ｄ点群で３Ｄオブジェクト検出を実行するために使用できるニューラルネットワークである。したがって、本学習方法は、３Ｄオブジェクト検出のための機械学習の方法である。たとえば、１つ以上の第１のスーパーポイントを含む第１の３Ｄ点群と、１つ以上の第２のスーパーポイントを含む第２の３Ｄ点群を所与として、ニューラルネットワークはスーパーポイントを潜在ベクトルにエンコードでき、そして、これは、潜在ベクトル間の類似度を計算するために使用されることができる。これにより、どの第１のスーパーポイントが第２のスーパーポイントにジオメトリー的に類似しているかを判断することが可能になり、よって、第１の点群内に、第２の点群で表される３Ｄオブジェクトの局所形状に類似した局所形状を検出することが可能になる。最終的には、これらの類似した局所形状を使用／処理して、第２の３Ｄ点群によって表される３Ｄオブジェクトに類似した第１の３Ｄ点群における３Ｄオブジェクト（つまり、１つ以上の検出された局所形状によって形成される３Ｄオブジェクト）を出力できる。たとえば、第１の３Ｄ点群がプラント／工場を表し、第２の３Ｄ点群が３Ｄ多関節ロボットを表す場合、ニューラルネットワークを使用して、第２の３Ｄ点群で表される３Ｄ多関節ロボットに類似したプラント内の（たとえばすべての）３Ｄ多関節ロボットを検出できる。さらに、本学習方法によって動作する学習のおかげで、検出は汎用的なものであり、ニューラルネットワークは、第１の３Ｄ点群内に、第２の３Ｄ点群の正確なインスタンスを検出するだけでなく、第２の３Ｄ点群によって表されるオブジェクトに部分的に類似したオブジェクトも第１の３Ｄ点群内に検出する。つまり、３Ｄ点群で表される単一の３Ｄオブジェクトを所与として、ニューラルネットワークにより、より大きな３Ｄ点群（たとえば、２０倍以上の点を持つ３Ｄ点群）内に、部分的に類似した３Ｄオブジェクト、たとえば、前記単一の３Ｄオブジェクトのインスタンスのジオメトリー的変換（たとえば回転又は位置の変化）、前記単一の３Ｄオブジェクトのインスタンスのオクルージョン、及び、前記単一の３Ｄオブジェクトにジオメトリー的に似ている他の種類の３Ｄオブジェクトを特定できる。

さらに、学習にはトレーニングデータセットのラベル付けが必要ない。たとえば、学習は教師なし学習であってもよい（教師なし学習は機械学習の分野でそれ自体が公知である）。したがって、学習したニューラルネットワークは、検出する３Ｄオブジェクトのクラス／種類にとらわれず、また、検出の状況（コンテクスト）／背景（たとえば、検出するオブジェクトが屋内シーン又は屋外シーンにあるかどうか）にとらわれないことが可能である。たとえば、一度訓練されると、ニューラルネットワークは、学習中は見えないオブジェクト及び／又は学習中に見えない状況など、あらゆる状況であらゆるオブジェクトを検出するために使用されることができる。さらに、ニューラルネットワークは、入力されるスーパーポイントが属する点群の種類にとわられない（つまり、検出が機能するために点群の取得に必要な制約がない）。よって、汎用的なニューラルネットワークとなり、３Ｄ点群での３Ｄオブジェクト検出に使用するのに特にロバストなニューラルネットワークとなる。ニューラルネットワークは、たとえば、合成点群に基づいてトレーニングされ、その後、測定された３Ｄ点群、つまり物理センサーによって取得された３Ｄ点群について３Ｄオブジェクト検出を実行するために使用してもよい。

さらに、局所的な学習ベースの表現（つまり、学習は、局所形状を表すスーパーポイントをエンコードするようにニューラルネットワークをトレーニングする）を使用すると、ニューラルネットワークは、ノイズ、オクルージョン、及び点分布に対してもロバストになり、さまざまな種類の変換（たとえば、回転）及びオブジェクトの位置（たとえば、多関節ロボットアームを備えた多関節ロボットなどの多関節オブジェクト）に対しても不変になる。これによって、３Ｄ点群での３Ｄオブジェクト検出に使用するのによりロバストなニューラルネットワークとなる。特に、ニューラルネットワークを使用して、所定の３Ｄオブジェクト（つまり、以下で説明するクエリ）に部分的に類似している（つまり、その正確なインスタンスではない）オブジェクトを３Ｄ点群内に検出してもよい。さらに、ニューラルネットワークはオブジェクトの色に依存せずにオブジェクトを検出し、ニューラルネットワークは、色が異なっていても類似した形状を検出する。

また、本学習方法に従って学習可能なニューラルネットワーク、たとえば、本学習方法によって学習したニューラルネットワークも提供される。ニューラルネットワークは、本学習方法に従った学習によって、その値が設定可能である（たとえば、設定されている）重み（パラメーターとも呼ばれる）を持つニューロンの層を有するコンピュータ化データ構造を形成する。

また、コンピュータ実装の、ニューラルネットワークを使用する方法が提供される。本使用方法は、第１の３Ｄ点群の１つ以上の第１のスーパーポイントを提供するステップを含む。第１の３Ｄ点群は３Ｄシーンを表す。本使用方法は、第２の３Ｄ点群の１つ以上の第２のスーパーポイントを提供するステップをさらに含む。第２の３Ｄ点群は３Ｄオブジェクトを表す。本使用方法はさらに、ニューラルネットワークを適用することにより、１つ以上の各第１のスーパーポイントをそれぞれの第１の潜在ベクトルにエンコードし、１つ以上の各第２のスーパーポイントをそれぞれの第２の潜在ベクトルにエンコードするステップを含む。本使用方法はさらに、１つ以上の第１のスーパーポイントのうち各第１のスーパーポイントと、１つ以上の第２のスーパーポイントのうち各第２のスーパーポイント間の類似性を、前記各第１のスーパーポイント及び前記各第２のスーパーポイントに関して第１のスーパーポイントをエンコードするそれぞれの第１の潜在ベクトルと第２のスーパーポイントをエンコードするそれぞれの第２の潜在ベクトル間の類似度を計算することで、決定するステップを含む。本使用方法は、「検出方法」と呼ばれることもある。

検出方法とは、３Ｄ点群での３Ｄオブジェクト検出のための方法である。本検出方法は、３Ｄ点群での３Ｄオブジェクト検出のための改良された方法を構成する。実際に、本使用方法は、３Ｄシーンを表す第１の３Ｄ点群の第１のスーパーポイントであって、３Ｄオブジェクトを表す第２の３Ｄ点群の第２のスーパーポイントにジオメトリー的に類似している第１のスーパーポイントを検出することを可能にする。言い換えれば、第２のスーパーポイントはそれぞれオブジェクトの局所部分を表し、本検出方法は、オブジェクトのこれらの局所部分にジオメトリー的に類似している第１の点群の局所部分（すなわち、第１のスーパーポイント）を検出する。これにより、第１の３Ｄ点群で表される３Ｄシーンで、第２の３Ｄ点群で表されるオブジェクトに類似した３Ｄオブジェクトを検出できる。

類似した３Ｄオブジェクトを検出するために、本検出方法はニューラルネットワークを使用してスーパーポイントを潜在ベクトルにエンコードし、エンコードされたスーパーポイント間の類似度を決定する。よって、本検出方法は、前述のとおり、入力されたスーパーポイントをジオメトリー的に意味のある潜在表現に投影するニューラルネットワークのロバスト性を享受する。２つのスーパーポイント間の類似性の決定は、２つのスーパーポイントをエンコードし、前述のように２つのスーパーポイントのジオメトリー的に意味のある表現である潜在ベクトル間の類似度を計算するため、正確である。つまり、潜在ベクトル間に類似性が検出された場合、２つのスーパーポイント間に対応するジオメトリー的類似性があることを意味する。よって、本検出方法により、３Ｄ点群内の類似３Ｄオブジェクトのロバストな検出が可能である。

本学習方法と本検出方法は、例えば異なるユーザー及び／又は異なるコンピュータによって独立して実行してもよい。あるいは、学習方法と検出方法を同じコンピュータ実装プロセスに組み込んでもよい。本プロセスを、プロセスの一例のフローチャートを示す図１を参照して説明する。

本プロセスは、本学習方法を組み込んだオフライン段階を含む。オフライン段階は、本学習方法に従ってスーパーポイントのデータセットを提供するステップＳ１０～Ｓ２０を含む。オフライン段階は、本学習方法に従い、スーパーポイントに基づいてニューラルネットワークを学習させるステップＳ２０をさらに含む。オフライン段階は、学習したニューラルネットワークをメモリに保存するステップをさらに含んでもよい。

本プロセスは、本検出方法を組み込んだオンライン段階も含む。オンライン段階は、本検出方法に従って、１つ以上の第１のスーパーポイント及び１つ以上の第２のスーパーポイントを提供するステップＳ４０～Ｓ５０を含む。その前に、オンライン段階は、学習したニューラルネットワークを提供するステップを含んでもよく、たとえば、オフライン段階で学習された後、学習したニューラルネットワークが保存されているメモリから当該ニューラルネットワークを取得することによって提供する。オンライン段階は、本検出方法に従い、第１及び第２のスーパーポイントをエンコードするステップＳ６０をさらに含む。オンライン段階はさらに、本検出方法に従って、１つ以上の第１のスーパーポイントと１つ以上の第２のスーパーポイント間の類似性を決定するステップＳ７０を含む。

以下で本学習方法についてさらに説明する。

本学習方法は、点群での３Ｄオブジェクト検出のための機械学習の方法である。

それ自体が公知のとおり、３Ｄ点群は、（通常は３Ｄ）座標を持つ３Ｄの点の順不同なセットであり、強度や色などの追加特性を任意で持っていてもよい（たとえば、追加的座標に封入される）。このデータの順不同な側面は、特に画像などの構造化されたグリッドと比較して、分析が困難である。３Ｄ点群にはさまざまな形式が存在し、たとえば、３Ｄ点群をもたらす３Ｄスキャンをキャプチャするのに使用されるセンサーによってその形式が異なるが、前述のように、ニューラルネットワークはこれらのさまざまな形式にとらわれない。現在、従来技術のセンサーは、数百万個の点の３Ｄ点群を提供し、非常に高品質で高密度な３Ｄスキャンを提供する。本明細書における任意の３Ｄ点群は、そのような高密度３Ｄスキャンから生じたものでもよい。点群は、ＣＡＤオブジェクトやメッシュなどの他の３Ｄ表現から生成することもできる。本明細書における任意の３Ｄ点群は、そのような生成から生じたものでもよい。これについて、以下でさらに説明する。

３Ｄ点群での３Ｄオブジェクト検出は、３Ｄシーンで特定の３Ｄ形状又は３Ｄオブジェクトを検出／特定するタスクに対応する。検出は３Ｄバウンディングボックスを使用してもよく、たとえば、検出が行われたことを示すために、検出された各オブジェクトの周りに３Ｄバウンディングボックスを描く。本開示の文脈において、３Ｄ形状とは、３Ｄオブジェクト又はその一部のみであってもよい。検出は、入力された形状にそれぞれ類似した１つ以上の形状を検出する。本開示の文脈において、３Ｄオブジェクト間の類似性は、全体及び局所の両方のジオメトリー的類似性から構成される。

それ自体が公知のとおり、３Ｄ点群は３Ｄの点のセットであり、各点は、それぞれ３Ｄ空間の３つのカルテシアン座標によって記述される。これは、本明細書の各点群が、それぞれが３Ｄ点群の点の３Ｄ座標を表すトリプレットのセットに関連付けられ得ることを意味する。本明細書の任意の３Ｄ点群は、３Ｄの現実のシーンを表してもよく、現実のシーンとは現実世界の一断片（たとえば、プラントシーン又はオフィスシーン）であり、３Ｄ点群の各点は、そのシーンの点を表す。「現実のシーンを表す」とは、必ずしも３Ｄ点群が現実世界で実行される物理的測定に由来することを意味するわけではない。たとえば、本明細書の任意の３Ｄ点群は、以下でさらに議論されるように、現実のシーンの合成表現であってもよい。本明細書の任意の３Ｄ点群は、１つの３Ｄオブジェクトを表す又は含んでいてもよく、又は複数の３Ｄオブジェクトを含んでいてもよい。３Ｄ点群の各オブジェクトは、本明細書では３Ｄ点群の点のセットであり、各点は現実世界におけるように３Ｄオブジェクトの点を表し、点のセットは全体として現実世界の３Ｄオブジェクトの表現を形成する。

本明細書の任意の３Ｄ点群は、合成点群、すなわち、合成３Ｄ点群生成プロセスから生じる点群であってもよい。言い換えると、現実のシーンを表す合成点群は、現実のシーンの表現をキャプチャするために現実のシーンで実行される物理的な測定から生じるのではなく、数値で生成された現実のシーンの仮想表現を形成する。合成点群生成プロセスは、合成３Ｄ点群を出力する任意のコンピュータ実装プロセスを意味する。生成プロセスは、たとえば、ＣＡＤモデルや３Ｄメッシュなどの他の３Ｄのジオメトリー表現から３Ｄ点群を生成してもよい。生成プロセスは、たとえば、参照により本明細書に組み込まれる参照文献「Xiangyu Yue et. al.,“A LiDAR Point Cloud Generator: from a Virtual World to Autonomous Driving”, 2018」のプロセスであってもよく、当該参照文献は、３ＤのＣＡＤシーン（ビデオゲーム環境など）から点群を抽出するための仮想スキャナーシミュレーションを提案する。

あるいは、本明細書において、任意の３Ｄ点群は、現実のシーンでの物理的測定に由来してもよい。そのような３Ｄ点群を提供するステップは、それぞれが各物理信号を取得するよう構成される１つ以上の物理センサー（たとえば、固定又はモバイルＬＩＤＡＲＳなどの固定又はモバイル３Ｄスキャン）を提供し、現実のシーンで当該１つ以上の物理センサーを動作させて１つ以上の物理信号をそれぞれ取得する（すなわち、現実のシーンを各センサーでスキャンする）ステップを含んでもよい。よって、３Ｄ点群を提供するステップは、任意の既知の技術に従って、測定に基づいて３Ｄ点群を自動的に決定するステップを含んでもよい。従来技術のセンサーは、数百万個の点の点群を提供し、非常に高品質で高密度な３Ｄスキャンを提供することが可能であることに留意する。本明細書における任意の３Ｄ点群は、現実の環境の３Ｄ点群表現を収集するために広く使用されている３Ｄスキャナー（ＬＩＤＡＲなど）などのセンサーによって取得されてもよい。現在、屋外に関して、複数の点群データセットが公開されており、このようなデータセットは、たとえば参照文献「Timo Hackel et. al., “SEMANTIC3D.NET： A new large-scale point cloud classification benchmark”, ISPRS 2017」及び「Andreas Geiger et. al., “Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite”, CVPR 2012」（参照により本明細書に組み込まれる）で議論されており、屋内に関しては、たとえば参照文献「Iro Armeni et. al, “3D Semantic Parsing of Large-Scale Indoor Spaces”, CVPR 2016」（参照により本明細書に組み込まれる）で議論されている。本明細書における任意の３Ｄ点群は、これらのデータセットのいずれか１つから取得してもよい。

本明細書における任意の３Ｄ点群は、１００００、１０００００、１００００００、１０００００００又は１００００００００個を超える点を含んでもよい。たとえば、シーン（たとえば、プラント／工場のシーン）を表す３Ｄ点群は、１０００００００又は１００００００００個を超える点を含んでもよい。３Ｄオブジェクトを表す任意の３Ｄ点群は、約２０分の１の数の点を含んでもよい。

本明細書における任意の３Ｄ点群は、製造シーン、たとえばプラント／工場の内部（又はその一部分）を表してもよい。このようなシーンは、３Ｄ点群の一部分／部分で表される製造業の世界のオブジェクトを含んでもよい。本明細書における任意の３Ｄ点群は、そのようなオブジェクトを単に表していてもよい。そのようなオブジェクトは、（たとえば機械）部品又は部品のアセンブリ（部品のアセンブリは、部品自体と見なされてもよいため、部品と部品のアセンブリは同等である）、又は、より一般的には、任意の剛体のアセンブリ（たとえば、可動機構）であってよい。オブジェクトは、航空宇宙、建築、建設、消費財、ハイテク機器、産業機器、輸送、海洋、及び／又は沖合の石油／ガス生産又は輸送など、さまざまな産業分野に属していてもよい。よって、オブジェクトは、任意の機械部品であり得る産業製品であってよく、たとえば、陸上車両の部品（たとえば、自動車及び軽トラック機器、レーシングカー、オートバイ、トラック及びモーター機器、トラック及びバス、列車などを含む）、航空車両の部品（たとえば、機体機器、航空宇宙機器、推進機器、防衛製品、航空機器、宇宙機器などを含む）、海上車両の部品（海軍機器、商用船、沖合機器、ヨット及び作業船、船舶機器などを含む）、一般的な機械部品（たとえば、産業用製造機械、重機用機械又は機器、設置機器、産業用機器製品、金属加工製品、タイヤ製造製品などを含む）、電気機械又は電子部品（たとえば、家電機器、セキュリティ及び／又は制御及び／又は計測製品、コンピューティング及び通信機器、半導体、医療装置及び機器などを含む）、消費財（たとえば、家具、家庭及び庭用製品、レジャー用品、ファッション製品、耐久消費財小売業者の製品、織物類小売業者の製品などを含む）、パッケージ（たとえば、食品及び飲料及びタバコ、美容及びパーソナルケア、家庭用品の包装などを含む）である。オブジェクトは、多関節製造ロボットなどの製造ツールであってもよい。

本学習方法は機械学習のためのものである。

機械学習の分野でそれ自体公知であるように、ニューラルネットワークによる入力の処理には、入力への演算の適用が含まれ、演算は重み値を含むデータによって定義される。したがって、ニューラルネットワークの学習には、そのような学習用に構成されたデータセットに基づいて重みの値を決定するステップが含まれ、このようなデータセットは、学習データセット又はトレーニングデータセットと呼ばれることもある。そのため、データセットには、それぞれが各トレーニングサンプルを形成するデータ片が含まれる。トレーニングサンプルは、学習後にニューラルネットワークが使用される多様な状況を表す。本明細書の任意のトレーニングデータセットは、１０００、１００００、１０００００、又は１００００００個を超える数のトレーニングサンプルを含んでもよい。本開示の文脈において、「データセットに基づいてニューラルネットワークを学習させる」とは、データセットがニューラルネットワークの学習／トレーニングデータセットであり、重みの値（「パラメーター」とも呼ばれる）がそれに基づくことを意味する。

本方法に関与するニューラルネットワークは、ディープニューラルネットワーク（ＤＮＮ）であってもよい。ＤＮＮは、ニューラルネットワークにおける学習のための強力な一連の手法であり、たとえば「D. E. Rumelhart et. al., “Learning internal representations by error propagation, Parallel distributed processing： explorations in the microstructure of cognition”, vol. 1: foundations, MIT Press, Cambridge, MA, 1986」で説明されている（参照により本明細書に組み込まれる）。ＤＮＮは、コンピュータが観測データから学習できるようにする、生物学に着想を得たプログラミングパラダイムである。ＤＮＮは、他の方法（最小カット、ＳＶＭ、ブースティング、又はランダムフォレスト）で使用される手動設計の低レベルの特徴量（Ｚｅｒｎｉｋｅモーメント、ＨＯＧ、Ｂａｇ－ｏｆ－Ｗｏｒｄｓ又はＳＩＦＴ）とは対照的に、中レベルの豊富な媒体表現を学習する能力を有する。そのため、ＤＮＮの使用は、オブジェクトの検出／認識に特に重要である。より具体的には、ＤＮＮは生データに基づくエンドツーエンド学習にフォーカスしている。つまり、ＤＮＮは、たとえば生の特徴から始まりラベルで終わるエンドツーエンドの最適化を達成することによって、特徴量エンジニアリングから可能な限り最大限に脱却する。

本学習方法の背景においては、ニューラルネットワークのトレーニングデータセットは提供されたスーパーポイントのデータセットであり、各スーパーポイントはトレーニングデータセットのトレーニングサンプルを形成する。トレーニングデータセットは、それぞれが３Ｄ点群の点のセットであるスーパーポイントで構成される。スーパーポイントは、１つ以上の３Ｄ点群、つまり、スーパーポイントのうち１つ以上を含む各点群から生じたものであってもよい。３Ｄ点群のスーパーポイントは、３Ｄ点群の点のセットであり、当該点のセットは、形状、つまり３Ｄオブジェクトの少なくとも一部（たとえばオブジェクト全体又はその局所形状）を表す。スーパーポイントの概念はよく知られている。スーパーポイントを提供するステップＳ１０～Ｓ２０は、たとえばすでに計算されているスーパーポイントをそのまま提供するステップを含んでもよい。あるいは、スーパーポイントを提供するステップＳ１０～Ｓ２０は、１つ以上の３Ｄ点群を提供するステップＳ１０及び提供された３Ｄ点群からスーパーポイントを抽出するステップＳ２０を含んでもよい。

１つ以上の３Ｄ点群を提供するステップＳ１０は、メモリから３Ｄ点群を検索するステップを含んでもよい。あるいは、１つ以上の３Ｄ点群を提供するステップＳ１０は、１つ以上の３Ｄ点群の少なくとも一部（たとえば、すべて）を取得するステップを含んでもよい。３Ｄ点群を取得するステップは、合成３Ｄ点群生成プロセスを実行するステップを含んでもよく、その場合、取得された３Ｄ点群は、前述のように、合成３Ｄ点群である。生成プロセスは、たとえば、ＣＡＤシーンから３Ｄ点群を生成してもよい。あるいは、３Ｄ点群の取得は、前述のように、現実のシーン（たとえば、プラント／工場の内部）で１つ以上の物理センサー（たとえば、１つ以上のＬＩＤＡＲ）を動作させることによって３Ｄ点群の物理的な取得を実行するステップを含んでもよい。したがって、提供される３Ｄ点群は、合成３Ｄ点群のみ、物理的に取得された３Ｄ点群のみ、又は、合成３Ｄ点群と物理的に取得された３Ｄ点群のミックスで構成されてよい。

提供された３Ｄ点群からスーパーポイントを抽出するステップＳ２０は、提供された３Ｄ点群それぞれに対し、３Ｄ点群から１つ以上のスーパーポイントを抽出するステップを含む。３Ｄ点群からのスーパーポイントの抽出は、３Ｄ点群からスーパーポイントを抽出する任意の既知の方法によって実行することができ、そのような方法はよく知られている。３Ｄ点群からスーパーポイントを抽出するための方法は、当技術分野で知られているように、点の近傍が考慮される（ある半径内又はＫ近傍点によって与えられる）距離ベースの抽出であってもよい。あるいは、スーパーポイントを抽出する方法は、当技術分野で知られているように、点群がジオメトリー的に均質なスーパーポイントに分割される、ジオメトリーベースの抽出であってもよい。

スーパーポイントを抽出する方法は、たとえば、参照により本明細書に組み込まれる参考文献「G. Elbaz et al., “3D Point Cloud Registration for Localization using a Deep Neural Network Auto-Encoder” CVPR 2017」に記載されている距離ベースの方法であってもよい。この方法は、ＲＳＣＳ（ＲａｎｄｏｍＳｐｈｅｒｅＣｏｖｅｒＳｅｔ）方法と呼ばれることもある。この方法では、レジストレーション問題に対して基本マッチング単位としてスーパーポイントを抽出できる。より具体的には、この方法は反復手順で構成され、各反復で、事前定義された半径Ｒ_{ｓｐｈｅｒｅ}とした場合、スーパーポイントＳＰにまだ属していない点Ｐをランダムに選択し、Ｐを中心とする半径Ｒ_{ｓｐｈｅｒｅ}の球の内側にある点のセットとして新しいＳＰを定義する。スーパーポイントの重複が許可され、つまり、１つの点が複数のスーパーポイントに含まれていてもよい。

図２は、ＲＳＣＳ法（半径０．３ｍ）を使用した３Ｄ点群２０からのスーパーポイントの抽出を示している。スーパーポイント２０１から２０９が抽出されている。

又は、スーパーポイントを抽出するための方法は、参照により本明細書に組み込まれる参考文献「L. Landrieu et. al, “Cut pursuit: Fast algorithms to learn piecewise constant functions on general weighted graphs”， SIAM Journal on Imaging Sciences, 2017」に記載されるジオメトリーベースの方法であってもよい。この方法では、セマンティックセグメンテーション問題に対してスーパーポイントを抽出できる。この方法では、線形性、平面性、散乱性（参照により本明細書に組み込まれる参照文献「J. Demantk et. al., “Dimensionality based scale selection in 3D lidar point clouds”. International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2011」でも説明されている）及び垂直性（参照により本明細書に組み込まれる参照文献「S. Guinard et. al.,“Weakly supervised segmentation-aided classification of urban scenes from 3d LiDAR point clouds”, ISPRS 2017」でも説明されている）などのジオメトリー的特徴を考慮してスーパーポイントを区別する。このような特徴は、Ｋ近傍点に基づく各点の局所近傍を説明する。次に、この方法は、参照により本明細書に組み込まれる参考文献「Guinard et. al.,“Weakly supervised segmentation-aided classification of urban scenes from 3d LiDAR point clouds”， ISPRS 2017」で説明されているように、最近傍点の隣接グラフを作成することを含む。この方法は、参照により本明細書に組み込まれる参照文献「L. Landrieu et. al,“Cut pursuit: Fast algorithms to learn piecewise constant functions on general weighted graphs”, SIAM Journal on Imaging Sciences, 2017」で説明されているように、カット追跡アルゴリズムを使用してグラフ上のジオメトリー的特徴に対して最小分割を実行する。このアルゴリズムには、分割の粗さを制御する正則化の重みが含まれている。上記で引用した参考文献「Guinard et. al.,“Weakly supervised segmentation-aided classification of urban scenes from 3d LiDAR point clouds”, ISPRS 2017」に記載される方法では、最初に各点の近傍に対してＰＣＡ（主成分分析）を計算することにより、線形値、平面値及び散乱値を計算し得る。次に、この方法は、点の位置の共分散行列の固有値を計算し、固有値を使用して、表面を推定することで法線を評価したり、他の意味のあるベクトルを導出したりし得る。

図３は、現在説明しているジオメトリーベースの方法を使用した（正則化の重みは０.１ｍ）、図２ですでに示した３Ｄ点群２０からのスーパーポイント抽出を示している。スーパーポイント３０１から３０８が抽出されている。

図４及び５は、同じ点群から異なる方法で得られたスーパーポイント間の比較を示している。図４は、距離ベースの方法で点群４０から得られたスーパーポイントを示し、図５は、同じ点群４０からジオメトリーベースの方法で得られたスーパーポイントを示している。

線形値は式（λ_１－λ_２）／λ_１で与えられてよく、平面値は式（λ_１－λ_３）／λ_１で与えられてよく、散乱値は式λ_３／λ_１で与えられてよく、式中、λ_１、λ_２及びλ_３は点の位置の共分散行列の固有値である。図６は、３Ｄ点群の点の線形値を示し、図７は平面値を示し、図８は、散乱値を示している。

本方法は、好ましくは、スーパーポイント抽出にジオメトリーベースの方法、たとえば、上で論じた方法を使用して、この種類の方法の利点を享受してもよい。このような方法では、スーパーポイントが点群の１つの一様な部分にのみ対応する傾向があり（隣接グラフで得られるカットのため）、その後の処理上より便利になり、スーパーポイントはカットの正則化の重みに応じて、単一オブジェクトの一部になる傾向がある。これによって興味深い特性がもたらされる。たとえば、スーパーポイントの抽出が、分離された点群オブジェクトから抽出されたスーパーポイントと、シーン内（つまり他のオブジェクトも一緒）の同じオブジェクト（又は類似オブジェクト）から抽出されたスーパーポイント間で一貫している傾向がある。また、このような方法で得られたスーパーポイントは、同様のジオメトリー的特性を持つ点を再グループ化するため、学習ステップに必要な複雑さが単純化される。

次に、ニューラルネットワークを学習させるステップＳ３０について説明する。

学習したニューラルネットワークとは、入力としてスーパーポイントを受け取り、当該スーパーポイントを潜在ベクトル、つまりスーパーポイントの次元よりも低い次元だが、ジオメトリー的に意味のある、スーパーポイントの潜在エンコードを形成するベクトルにエンコードするよう構成されるニューラルネットワークのことである。ニューラルネットワークはそうするように学習される、つまり、ニューラルネットワークがこのタスクを十分に実行するまで、学習中にニューラルネットワークの重みが変更される。ニューラルネットワークは、入力としてスーパーポイントを取り、それを潜在ベクトル空間に投影するように構成されるニューラルネットワークであるエンコーダーを含んでもよい。言い換えると、エンコーダーは、その特性を維持する傾向を持ちつつ、入力されたスーパーポイントを圧縮するようトレーニングされる。エンコーダーの学習は、損失を使用することにより、ジオメトリー的特性の観点から意味のある潜在表現への投影につながる。たとえば、学習は、損失を使用することにより、２つのスーパーポイント間の類似性とこれらスーパーポイントのエンコードの類似性の間に相関関係があるような学習である。ニューラルネットワークは、スーパーポイント（又はより一般的に３Ｄ点群）を入力として受け取り、回転などのオブジェクト変換に対して不変でありながら、スーパーポイントを低次元空間に投影する任意のニューラルネットワークであってよく、又は、そのような任意のニューラルネットワークを含んでもよい。たとえば、ニューラルネットワークのアーキテクチャは、参照により本明細書に組み込まれる参照文献「R. Spezialetti et. al., “Learning an Effective Equivariant 3D Descriptor Without Supervision”, ICCV 2019」に記載されるものであってよい。

ニューラルネットワークを学習させるステップＳ３０はまた、たとえばエンコーダーの学習と同時に、デコーダーの学習を含んでもよく、デコーダーは、潜在ベクトルを入力として受け取り、それをスーパーポイントにデコードするように構成されるニューラルネットワークである。言い換えれば、デコーダーは、入力された潜在ベクトルに基づいて、スーパーポイント（たとえば、エンコーダーによってエンコードされたもの）の再構成を実行する。したがって、本方法によって学習するニューラルネットワークは、入力として入力スーパーポイントを受け取り、それを潜在ベクトルにエンコードするように構成されるエンコーダー、及び、入力として潜在ベクトルを受け取り、それをスーパーポイントにデコードするように構成されるデコーダーで構成されてよい。

たとえば、ニューラルネットワークは、エンコーダーとデコーダーを含むオートエンコーダーであってもよい。オートエンコーダーのアーキテクチャは、機械学習の分野でよく知られており、たとえば、参照により本明細書に組み込まれる参考文献「G. Elbaz et al.,“3D Point Cloud Registration for Localization using a Deep Neural Network Auto-Encoder”, CVPR 2017」で説明されている。機械学習の分野からそれ自体が公知のとおり、オートエンコーダーは、その入力（すなわち、本開示のオートエンコーダーではスーパーポイント）の情報を圧縮する。より具体的には、オートエンコーダーは、入力（本明細書では入力されたスーパーポイント）を潜在表現（たとえば、入力サイズより数倍小さいサイズ）に投影し、この表現から入力を再構成するようにトレーニングされる。オートエンコーダーは、複数の異なるスーパーポイントに関して、入力されたスーパーポイントの特性すべてを保持するよう試みつつ、情報を圧縮する。したがって、オートエンコーダーの学習は、ジオメトリー的特性の観点から意味のある潜在表現への投影に黙示的につながる。たとえば、学習は、２つのスーパーポイント間の類似性とそれらスーパーポイントのエンコードの類似性の間に相関関係があるような学習である。

学習させるステップＳ３０は、損失を最小化するステップを含む。損失は、２つのスーパーポイント間の誤差にペナルティを課す。つまり、損失は入力として２つのスーパーポイントを受け取り、それらの間の誤差を計算、つまりそれらのジオメトリー的な誤差を定量化する。スーパーポイントがジオメトリー的に異なるほど、これらのスーパーポイントの損失の値は大きくなる。学習させるステップＳ３０は、損失を使用して、ニューラルネットワークを入力されたスーパーポイントに適用した際に、トレーニングデータセットの入力されたスーパーポイントが潜在ベクトルによって十分に正確にエンコードされるかどうかを測定する。具体的には、学習させるステップＳ３０は、以下の反復（イテレーション）を含んでもよい、
－トレーニングデータセットのスーパーポイントを選択する、
－ニューラルネットワーク又はニューラルネットワークのエンコーダーを適用し、スーパーポイントを潜在ベクトルにエンコードする、
－たとえば当該潜在ベクトルから別のスーパーポイントを再構成する、当該潜在ベクトルを別のスーパーポイントにデコードする、ニューラルネットワークのデコーダーを当該潜在ベクトルに適用することにより、当該潜在ベクトルから別のスーパーポイントを取得する、
－スーパーポイント及び別のスーパーポイントを入力として損失へ与えし、スーパーポイント及び別のスーパーポイントの損失の値を計算する、
－計算値が高すぎるかどうか、つまり、計算値が事前定義の閾値（収束閾値など）よりも高いかどうかを評価する。損失の値が高いと、潜在ベクトルがまだ十分な精度でスーパーポイントをエンコードしていないということであり、つまり、潜在ベクトルは、スーパーポイントの潜在表現としてまだ十分なジオメトリー的意味を持たない、
－計算値が高すぎる場合は、たとえばエンコーダー及び／又はデコーダーの重みを変更することで、ニューラルネットワークの重みを変更する。

上記のステップは、学習させるステップＳ３０の収束基準（機械学習の分野でそれ自体が知られている）に達しない限りは、及び／又は、データセットの十分な（つまり十分大きい）数のスーパーポイントが選択されていない限りは、繰り返され得る。反復中のスーパーポイントの選択は、データセットの各スーパーポイントが少なくとも１回選択されるようにしてもよい。任意の既知の学習戦略をその選択に使用してよい。

損失は再構成損失であってもよく、スーパーポイントと当該スーパーポイントの再構成の間の誤差にペナルティを課す。スーパーポイントの再構成は別のスーパーポイントである。スーパーポイントの再構成は、当該スーパーポイントをエンコードする潜在ベクトル、つまり、ニューラルネットワーク（又はそのエンコーダー）を当該スーパーポイントに適用することによって取得される潜在ベクトルから取得される。スーパーポイントの再構成は、たとえば、ニューラルネットワークのデコーダーを当該スーパーポイントをエンコードする潜在ベクトルに適用した結果であってよい。これは、たとえば、ニューラルネットワークが前述のようにエンコーダーとデコーダーを含むオートエンコーダーである場合である。再構成損失を使用すると、ニューラルネットワークによってエンコードされたスーパーポイントの再構成が、当該スーパーポイントとジオメトリー的に十分に類似しているかどうかを評価でき、これにより、スーパーポイントがジオメトリー的に十分に意味がある潜在ベクトルにエンコードされているかどうかを暗黙的に評価できる。再構成損失により、デコーダーによる正確な再構成も保証される。

誤差は、２つのスーパーポイント間のジオメトリー的な誤差／非類似性の任意の定量化であってよい。たとえば、誤差はスーパーポイント間の距離であってよい。言い換えれば、損失は、スーパーポイントとスーパーポイントの再構成間の距離にペナルティを課す再構成損失であってよい。距離は、３Ｄ点群間の任意の距離など、スーパーポイント間の任意の距離であってよい。たとえば、距離はチャンファー（Chamfer）距離であってよく、これにより、学習させるステップＳ３０を実行するために必要な計算リソースを節約できる。チャンファー距離（ｄ_ＣＤ）は、次の式で求められる：

式中、Ｓ_１及びＳ_２は２セットのスーパーポイントであり、ｘ及びｙは、Ｓ_１及びＳ_２の点（つまり、３Ｄ座標を持つ３Ｄの点）を示し、

は、ユークリッド３Ｄノルムを示す。あるいは、距離はアースムーバー（Ｅａｒｔｈ－Ｍｏｖｅｒ）距離であってもよい。

学習させるステップＳ３０の前に、本学習方法は、スーパーポイントのサイズを適応させるステップを含んでもよい。つまり、本学習方法は、学習させるステップＳ３０の前に、各スーパーポイントがニューラルネットワークの入力サイズと一致するように、トレーニングデータセット内の各スーパーポイントの点のサブサンプリング及び／又はアップサンプリングを含んでもよい。たとえば、各スーパーポイントの点は、サブサンプリング及び／又はアップサンプリング後、各スーパーポイントがそれぞれ３Ｄ座標を持つＮ個の点を含むようにしてもよい。このような場合、潜在ベクトルのサイズはＮ／２に等しくてもよい。図９は、入力サイズＮ＝１２８及び潜在ベクトルサイズＮ／２＝６４を有するオートエンコーダーの概略図を示している。

前述したように、学習させるステップＳ３０は、損失がトレーニングデータセットの（たとえばすべて又は大部分の）サンプル（つまり、スーパーポイント）に対して十分に低い値となるまで、ニューラルネットワークの重み（パラメーターとも呼ばれる）を変更する。これらの概念は、機械学習の分野でそれ自体が知られている。ニューラルネットワークはディープラーニングモデルの学習モデル（ＤＮＮとも呼ばれる）であってよく、ディープラーニングモデルは、一般に、これらのモデルを特性づける手動で値を設定できない数百万のパラメーターを備えている。これらのパラメーターは、学習アルゴリズムを使用して、モデルの学習中に設定される。学習アルゴリズムがモデルパラメータを更新しているとき、モデルは「トレーニングモード」にあると言われる。これは、各入力の固有の特性と、任意でもしある場合はそれに関連付けられたアノテーションのおかげで、各入力に対する出力に従ってモデルを連続的に「修正」することで構成される。モデルがトレーニングされると、パラメーターの更新は停止する。次に、モデルはオンライン段階でのみ使用されて新しい入力（つまり、トレーニングモード中には見えない入力）を処理して結果を返し、これは「テストモード」にあると言われる。本開示では、モデル（すなわち、ニューラルネットワーク）はＤＮＮであってもよいので、これらの考慮事項がモデルに適用されてよい。

学習させるステップＳ３０は教師なしであってよく、つまり、学習させるステップＳ３０は教師なし学習であってもよい。３Ｄ点群の特徴抽出の教師なし学習パラダイムでは、学習中に使用される点群についてアノテーションは与えられない。これは、特徴の抽出が点群の特徴（３Ｄの点の座標など）のみに依存し、ラベル付けには依存しないことを意味する（たとえば、同じラベル付けされたカテゴリからすべての点群に対して同様の特徴を抽出する）。このようなトレーニング／学習を使用すると、学習したニューラルネットワークが、入力として受け取る点群の種類、点群によって表されるオブジェクト又はシーンのクラス／カテゴリ、及び／又はそれらの状況（たとえば、屋内又は屋外）にとわられないようになる傾向がある。

以下で本検出方法についてさらに説明する。
１つ以上の第１のスーパーポイント及び１つ以上の第２のスーパーポイントを提供するステップＳ４０～Ｓ５０は、すでに計算された第１のスーパーポイント及び第２のスーパーポイントを直接（たとえば、計算なしで）提供するステップを含んでもよい。あるいは、提供するステップＳ４０～Ｓ５０は、第１の３Ｄ点群及び第２の３Ｄ点群を提供するステップＳ４０、及び、第１の３Ｄ点群から１つ以上の第１のスーパーポイントと、第２の３Ｄ点群から１つ以上の第２のスーパーポイントを抽出するステップＳ５０を含んでもよい。抽出するステップＳ５０は、前述の抽出するステップＳ２０として、たとえば同じ距離ベースの方法又はジオメトリーベースの方法を使用して実行してもよい。第１の３Ｄ点群及び第２の３Ｄ点群を提供するステップＳ４０は、前述の提供するステップＳ１０として実行されてもよい。

第１の３Ｄ点群とは３Ｄシーンを表す。シーンとは現実のシーン、つまり現実世界の一部分である。第１の３Ｄ点群は測定されてもよい、つまり、物理的な測定から生じたものであってもよく、たとえば、前述のように、現実世界におけるようにシーン上で１つ以上の物理センサー（ＬＩＤＡＲなど）を動作させることによって、第１の３Ｄ点群を取得したものであってもよい。あるいは、前述のように、３Ｄ点群は（ＣＡＤ環境などの）仮想３Ｄシーンから生成されたものでもよい。３Ｄシーンは、製造シーンであってもよく、たとえば、プラント／工場の内部、又はその一部分であってよい。したがって、３Ｄシーンは、製造業の世界の３Ｄオブジェクト、たとえば製造中又は製造済みの機械部品又は多関節製造ロボットなどの製造ツールを含んでもよい。

第２の３Ｄ点群は、３Ｄオブジェクト、たとえば製造業の世界の３Ｄオブジェクトを表す。第２の３Ｄ点群は、前述のように合成的に生成されてもよく、又は物理的測定から生じたもの、すなわち、測定された３Ｄ点群であってもよい。３Ｄオブジェクトは、第１の３Ｄ点群内の１つ以上の３Ｄオブジェクトと類似し得る、又は、部分的に類似し得る（たとえば、オクルージョン及び／又は回転などの動きまで）。本検出方法は、以下で説明するように、これらの３Ｄオブジェクト又はそれらの少なくとも一部を検出する。

１つ以上の第２のスーパーポイントは、以下で説明するように、本検出方法によって第１の３Ｄ点群における類似したスーパーポイントを検索するためのスーパーポイントであるため、「クエリ」と呼ばれることもある。これは、本検出方法がクエリの３Ｄ形状／オブジェクトと類似した３Ｄ形状／オブジェクトを検出することを意味する。クエリはユーザーによって提供されてよい。第１の点群は、本検出方法によってクエリエリアのオブジェクトと類似したオブジェクトが第１の点群で検索されるため、「検索エリア」と呼ばれることもある。第１の３Ｄ点群は、大きな点群であり得、たとえば、３Ｄ点群内の点の数と、当該方法を実行するコンピュータのメモリのサイズとの比率が、事前定義の閾値よりも大きくてもよい。たとえば、第１の３Ｄ点群は、１６ギガバイトのメモリサイズ（標準的又は安価なコンピュータに相当）に対して約１億個以上の点を含んでもよく、及び／又は、第２の３Ｄ点群の点の数の２０倍の数の点を含んでもよい。

本検出方法は、抽出されたスーパーポイント間の類似性を決定する。類似性を決定する抽出されたスーパーポイントの数を減らすために、１つ以上の第１のスーパーポイントを提供するステップＳ４０～Ｓ５０は、以下で説明する、任意の事前フィルタリングを含んでもよい。

具体的には、１つ以上の第１のスーパーポイントを提供するステップＳ４０～Ｓ５０は、上述したように、Ｓ４０で提供される第１の３Ｄ点群から抽出するステップＳ５０により、第１の３Ｄ点群の１つ以上の初期スーパーポイントを提供するステップを含んでもよい。次に、提供するステップＳ４０～Ｓ５０は、初期スーパーポイントの中から、以下を満たす初期スーパーポイントをそれぞれ選択することにより、1つ以上の初期スーパーポイントをフィルタリングしてもよい：
－スーパーポイントの寸法（ディメンション）と少なくとも１つの第２のスーパーポイントの寸法間の誤差が、事前定義の閾値よりも小さい、及び／又は、
－スーパーポイントの位置と少なくとも１つの第２のスーパーポイントの位置間の誤差が、事前定義の閾値よりも小さい。

選択されたスーパーポイントは、１つ以上の第１のスーパーポイントを構成する。

したがって、提供するステップＳ４０～Ｓ５０は、まず初めに初期スーパーポイントを提供してもよく、たとえば、第１の３Ｄ点群からそれらを抽出し、それらの中から、少なくとも１つの第２のスーパーポイントとジオメトリー的に十分に類似しているものを選択することで、提供してもよい。これにより、多くのスーパーポイントが含まれ得る第１の３Ｄ点群のスーパーポイントをフィルタリングできる（たとえば、初期スーパーポイントは全体で第１の３Ｄ点群のすべての点をカバーしてもよい）。それにより、検出方法では、フィルタリングされた（すなわち、より小さな）セットの第１のスーパーポイントと第２のスーパーポイント間の類似性を評価するだけでよい。

それぞれが少なくとも１つの第２のスーパーポイントにジオメトリー的に十分に類似している初期スーパーポイントの選択は、初期スーパーポイントと第２のスーパーポイント間の寸法及び／又は位置の間の誤差に基づいている。具体的には、各初期スーパーポイントについて、検出方法は、初期スーパーポイントの寸法（たとえば、各寸法）と少なくとも１つの第２のスーパーポイントの寸法（たとえば、各寸法）間の誤差が事前定義の閾値よりも小さいかどうかを評価し、及び／又は、検出方法は、初期スーパーポイントの位置と少なくとも１つの第２のスーパーポイントの位置間の誤差が事前定義の閾値よりも小さいかどうかを評価する。次に、この方法は、１つ以上の第１のスーパーポイントとして、初期スーパーポイントの寸法と少なくとも１つの第２のスーパーポイントの寸法間の誤差が事前定義の閾値よりも小さい初期スーパーポイント、及び／又は、初期スーパーポイントの位置と少なくとも１つの第２のスーパーポイントの位置間の誤差が事前定義の閾値よりも小さい初期スーパーポイントを選択する。各誤差は、距離や比率などのジオメトリー的な誤差の任意の定量化であってよい。

フィルタリングは、初期スーパーポイントの中から、以下を満たす初期スーパーポイントをそれぞれ選択するステップを含んでもよい、
－スーパーポイントの各寸法と少なくとも１つの第２のスーパーポイントの対応寸法間の距離が、事前定義の閾値よりも小さい、及び／又は、
－スーパーポイントの各寸法と少なくとも１つの第２のスーパーポイントの対応寸法間の比率が、最大比率よりも小さく、最小比率よりも大きい、及び／又は、
－スーパーポイントの最も近い支持面からの相対的な高さと、少なくとも１つの第２のスーパーポイントの最も近い支持面からの相対的な高さとの差が、事前定義の閾値よりも小さい。

上記した各寸法間の距離、各寸法間の比率、及び相対的な高さの差は、それぞれ、スーパーポイント間のジオメトリー的な誤差の定量化／測定値である。スーパーポイントの寸法は、局所的な座標参照系内（ＬＲＦ、参照により本明細書に組み込まれる参照文献「J. Yang et. al.,“Toward the Repeatability and Robustness of the Local Reference Frame for 3D Shape Matching： An Evaluation”, in IEEE Transactions on Image Processing, vol. 27, no. 8, pp. 3766-3781, Aug. 2018」に説明されている））のスーパーポイントの寸法であってもよい。

各初期スーパーポイントについて、スーパーポイントの各寸法と少なくとも１つの第２のスーパーポイントの対応寸法間の距離が事前定義の閾値よりも小さい場合、本検出方法は、当該初期スーパーポイントを選択し得るが、これは、たとえば、初期スーパーポイントの各寸法と第２のスーパーポイントの対応寸法間の距離が事前定義の閾値よりも小さい第２のスーパーポイントが存在するかを決定することで選択され得る。そうするために、この方法では、第２のスーパーポイントの各寸法ｉについて、次を満たす第２のスーパーポイントが存在するかどうかを決定してもよい：

式中、ｓｐｑ_ｄｉｍｉは第２のスーパーポイントの寸法ｉ、ｓｐｒｚ_ｄｉｍｉは検索エリアの初期スーパーポイントの寸法ｉ、ｄ_ｍａｘは事前定義の閾値であり、２つのスーパーポイントのサイズ間で許容される最大差とも呼ばれ、

は任意の適切なノルムである。ｄ_ｍａｘは、値の範囲に属してもよく、その範囲は、たとえば、クエリと３Ｄ検出で目的とする変動性の関数として（つまりこれらに依存して）定義される。範囲は、たとえば、第２の３Ｄ点群によって表される現実（たとえば、点群取得の状況及び／又は質）の関数であってもよい。たとえば、関係するすべての３Ｄオブジェクトが、最小及び最大寸法が１ｃｍから１ｍの間に含まれるスーパーポイントを持っている場合、関係するすべての３Ｄオブジェクトに対して、ｄ_ｍａｘは２０ｃｍに等しくてもよい。本学習方法に関係する３Ｄオブジェクトの寸法がさらに大きい場合は、ｄ_ｍａｘはもっと大きくてもよい。本学習方法に関係する点群が合成点群、又は非常に正確なスキャンで取得された点群である場合、ノイズが少ないため、ｄ_ｍａｘは減少させてもよい。例では、ｄ_ｍａｘは［５ｃｍ；１ｍ］の範囲であってもよく、前述のグラフカットの正則化の重みの関数であってもよい。

追加的又は代替的に、スーパーポイントの各寸法と少なくとも１つの第２のスーパーポイントの対応寸法間の比率が最大比率よりも小さい、かつ、最小比率よりも大きい場合、本検出方法は、当該初期スーパーポイントを選択し得るが、これは、たとえば、初期スーパーポイントの各寸法と第２のスーパーポイントの対応寸法間の比率が最大比率よりも小さく、かつ、最小比率よりも大きい第２のスーパーポイントが存在するかを決定することで選択され得る。そうするために、この方法では、第２のスーパーポイントの各寸法ｉについて、次を満たす第２のスーパーポイントが存在するかどうかを決定してもよい：

式中、ｓｐｑ_{ｄｉｍｉｉ}は第２のスーパーポイントの寸法ｉ、ｓｐｒｚ_{ｄｉｍｉｉ}は検索エリアの初期スーパーポイントの寸法ｉ、ｒ_ｍｉｎは最小許容比率とも呼ばれる最小比率、ｒ_ｍａｘは最大許容比率とも呼ばれる最大比率である。ｒ_ｍａｘ及びｒ_ｍｉｎは、本方法に関係する点群の質、スーパーポイントの選択方法、及びクエリで目的とする変動性に基づいて選択されてよく、つまり、点群の質が悪いほど、スーパーポイントのカットは不正確であり、及び／又は、目的とする変動性が重要になるほど、ｒ_ｍｉｎはより減少し、ｒ_ｍａｘはより増加し得る。ｒ_ｍａｘは１．５より大きい、及び／若しくは、６より小さくてもよく、たとえば４であってよく、並びに／又は、ｒ_ｍｉｎは０．１より大きい、及び／又は、０．９より小さくてもよく、たとえば０．２であってよい。追加的又は代替的に、スーパーポイントの最も近い支持面からの相対的な高さと、少なくとも１つの第２のスーパーポイントの最も近い支持面からの相対的な高さとの差が、事前定義の閾値よりも小さい場合、本検出方法は、当該初期スーパーポイントを選択し得るが、これは、たとえば、初期スーパーポイントの最も近い支持面からの相対的な高さと、第２のスーパーポイントの最も近い支持面からの相対的な高さとの差が、事前定義の閾値よりも小さい第２のスーパーポイントが存在するかを決定することで選択され得る。相対的な高さは、クエリで期待される位置と検索エリアでの位置の違いを捉える。期待される位置は、クエリ内の動きのパラメータの関数として定義できる。事前定義の閾値は、スーパーポイントの精度に関する不確実性とクエリで認められる変動性の関数として選択できる。たとえば、事前定義の閾値は、クエリの高さを４で割った値に等くてもよい。事前定義の閾値は、たとえば３０ｃｍに等しくてもよい。

スーパーポイントの最も近い支持面とは、鉛直軸又は鉛直軸に十分に近い任意のベクトルを法線軸として持つ平面である（つまり、鉛直軸とのクロス積のノルムが事前定義の閾値よりも低い）。したがって、最も近い支持面は、床、又はスーパーポイントが表す形状の他の現実世界の物理的支持物、たとえば、テーブル、机、コンベヤー、又はカウンターを表してもよい。本検出方法は、初期スーパーポイントの中からの選択を実行するために、本検出方法に関係するスーパーポイントの最も近い支持面を計算又は検出してもよい。最も近い支持面の検出は、任意の既知の方法によって実施されてよい。たとえば、各点の近傍でＰＣＡを実行、隣接グラフで最小カットを実行し、（たとえば、各スーパーポイントの水平面に平面値を使用して）水平面の特徴を持つスーパーポイントを検出することで、最も近い支持面を、前述のジオメトリーベースのスーパーポイントの抽出中に、自動的に検出してもよい。

つまり、各初期スーパーポイントについて、本検出方法は、上記した各寸法間の距離、各寸法間の比率、及び相対的な高さ間の差のうちの１つ以上を選択に使用してもよい。選択された初期スーパーポイントは、１つ以上の第１のスーパーポイントを形成する。

次に、検出方法は、ニューラルネットワーク又はそのエンコーダーを第１のスーパーポイントに適用することによって、各第１のスーパーポイントをそれぞれの第１の潜在ベクトルにエンコードする（Ｓ６０）。本方法はまた、ニューラルネットワーク又はそのエンコーダーを第２のスーパーポイントに適用することによって、各第２のスーパーポイントをそれぞれの第２の潜在ベクトルにエンコードする。

次に、本検出方法は、１つ以上（たとえば、すべて）の第１のスーパーポイントの各第１のスーパーポイントと、１つ以上（たとえば、すべて）の第２のスーパーポイントの各第２のスーパーポイント間の類似性を決定する（Ｓ７０）。そのために、１つ以上（たとえばすべて）の第１のスーパーポイントの各第１のスーパーポイント及び１つ以上（たとえばすべて）の第２のスーパーポイントの各第２のスーパーポイントについて、本方法は、第１のスーパーポイントをエンコードするそれぞれの第１の潜在ベクトルと、第２のスーパーポイントをエンコードするそれぞれの第２の潜在ベクトル間の類似度を計算する。すべての第１及び第２のスーパーポイントが、類似性を決定するステップＳ７０に関与してもよい。特に、検出方法が第１のスーパーポイントの事前フィルタリングを考慮する場合、前述のとおり、事前フィルタリングによってジオメトリー的類似性を検出するためのスーパーポイントの関連性がすでに保証されているので、すべての第１及び第２のスーパーポイントが類似性を決定するステップＳ７０に関与し得る。したがって、当該スーパーポイントすべてを関与させることは、決定するステップＳ７０で使用される計算リソースの観点から比較的経済的でありながらも、３Ｄ検出にとって重要である。

類似度は、潜在ベクトル間の類似性の任意の測定値／定量化であってよい。ここで、潜在ベクトルは、潜在ベクトルがエンコードするスーパーポイントのジオメトリー的に意味のある潜在表現であるため、それらの間の類似度を計算することは、スーパーポイント間のジオメトリー的類似性を決定することになる。類似度は、次の種類のコサイン類似度ｃｓ（ｅ_ｉ，ｅ_ｊ）であってもよい：

式中、ｅ_ｉ、ｅ_ｊは、２つのスーパーポイントをエンコードする潜在ベクトルである。類似度は、他の任意の類似度、たとえば、潜在空間に正則化を強制してニューラルネットワークが学習された場合、ユークリッド距離であってもよい。

類似度の計算により、第１のスーパーポイントと第２のスーパーポイントの間にそれぞれの類似性スコアが得られ、各類似性スコアは、２つの潜在ベクトル間の類似度の値（つまり、Ｓ７０で計算される値）である。したがって、決定するステップＳ７０によって、第１の３Ｄ点群の形状、すなわちその中の３Ｄオブジェクトの局所部分を表す第１のスーパーポイントと、第２の３Ｄ点群の形状、すなわち第２の３Ｄ点群によって表される３Ｄオブジェクトの局所部分を表す第２のスーパーポイント間の類似性スコアが得られる。本方法は、計算された類似性スコアの中で、事前定義の閾値よりも高い類似性スコアを評価することをさらに含んでもよい。これら類似性スコアのそれぞれのスコアは、エンコードする２つの潜在ベクトル間の類似度の値が事前定義の閾値よりも高い第１のスーパーポイントと第２のスーパーポイントの対を表す。この場合、第１のスーパーポイントは第２のスーパーポイントとマッチングすると言う。事前定義の閾値は、エンコーダーの投影特性及び／又はユーザが望む類似性のレベルに対して定義されてもよい。事前定義の閾値は、（たとえば、対象用途のために）類似していると手動でアノテーションを付けたスーパーポイントのデータセットに基づいて、自動的に取得してもよい。この場合、閾値は、類似しているとラベル付けされた２つのスーパーポイント間で取得される最小の類似性を計算することによって取得してもよい。この自動取得により、事前定義の閾値は［０．７；１］であってもよく（たとえば、目的とする類似性及び／又は使用されるアーキテクチャに応じて選択できる）、たとえば、０．８に等しくてもよい。

したがって、本検出方法は、決定するステップＳ７０後、検索エリア内のｎ個のマッチングした第１のスーパーポイントのセット（ＳＰ_ｒｚ ^１，…，ＳＰ_ｒｚ ^ｎ）を、クエリ内のマッチングしたスーパーポイントとの対応するマッチング／類似性スコアｍｑ_ｉ（（ｍｑ_ｉ，…，ｍｑ_ｍ），…，（ｍｑ_ｉ，…，ｍｑ_ｋ））と一緒に提供してもよい。

本検出方法はさらに、第１のスーパーポイントが複数のグループに分類され、各グループは、第２のスーパーポイント（つまりクエリ）によって形成された第２の点群の３Ｄオブジェクトに類似する第１の３Ｄ点群の３Ｄオブジェクトを表すように、マッチングした第１のスーパーポイントを一緒にグループ化するステップＳ８０をさらに含んでもよい。よって、クエリ（すなわち、第２のスーパーポイント）の局所形状に類似する第１の３Ｄ点群の局所形状（すなわち、マッチングした第１のスーパーポイント）を決定した後、マッチングした第１のスーパーポイントをグループ化するステップＳ８０により、本検出方法は、クエリによって表される３Ｄオブジェクトにジオメトリー的に類似している３Ｄオブジェクトを第１の３Ｄ点群内に見つける。

グループ化するステップＳ８０は、それぞれが少なくとも１つの第２のスーパーポイントに対して事前定義の閾値よりも大きい類似性が決定された第１のスーパーポイントの中から（すなわち、マッチングした第１のスーパーポイントの中から）、各グループが第２の３Ｄ点群に類似した形状を有する、第１のスーパーポイントの１つ以上のグループを決定するステップＳ８０にあってもよい。言い換えれば、決定するステップＳ８０は、マッチングした第１のスーパーポイントのジオメトリー的特性、たとえば、互い及び／又は参照点（たとえば、クエリの中心）に対する相対的な向き及び／又は相対的な位置を、クエリのスーパーポイントの対応する特性と比較してもよく、これにより、マッチングした第１のスーパーポイントを、それぞれがクエリとジオメトリー的に類似したグループにグループ化してもよい。本検出方法は、任意の既知のグループ化方法を用いて決定するステップＳ８０を実行してもよい。グループ化は回転に対して不変であってもよく、つまり、第１のスーパーポイントのグループが３Ｄ点群によって表される３Ｄオブジェクトの回転を表す場合でも、グループ化はクエリに類似した第１のスーパーポイントのグループを検出する。

ここで、グループ化するステップＳ８０の例を説明する。

一例では、１つ以上のグループを決定するステップＳ８０は、クエリ内のスーパーポイントのセットからグラフを計算する方法に従って実行することができ、これについて次に説明する。この方法は、次のタイプの完全グラフを生成し、Ｇ_ｑ＝（ＳＰｓ_ｑ，Ｅ）、式中、ＳＰｓ_ｑはスーパーポイントを表すノードであり、Ｅは、それぞれが２つのノードを接続するエッジのセットである。この方法は、第２のスーパーポイントのグラフを提供する（たとえば、任意の既知の方法によって決定する）ステップを含む。第２のスーパーポイントのグラフにはノードとエッジがあり、各エッジは２つのノードを接続している。各ノードは第２のスーパーポイントを表す。各ノードは、エンコーダーの特徴及び／又は寸法のうちの１つ以上であり得る属性を持っていてもよい。各エッジは、エッジが接続するノードによって表される２つのスーパーポイント間のジオメトリー関係を表す。ジオメトリー関係とは、２つのスーパーポイントの互いに対する相対的な配置及び／又は向きであってもよい。エッジは、ジオメトリー関係のジオメトリー属性を１つ以上有する。属性は、エッジに関連付けられたデータを形成してもよい。属性は、以下のうち１つ以上を含んでもよい：
－エッジで接続されたノードによって表される２つのスーパーポイントの幾何中心間の距離、たとえば、スーパーポイントが多関節オブジェクト（多関節製造ロボットなど）を表す３Ｄ点群に属する場合の妥当な距離、及び／又は、
－エッジで接続されたノードによって表される２つのスーパーポイントの表面間の相対的な向き、たとえば、スーパーポイントが多関節オブジェクト（多関節製造ロボットなど）を表す３Ｄ点群に属する場合の妥当な向き。

グラフの提供は、たとえばエッジごとにジオメトリー属性を決定（たとえば、計算）するステップを含んでもよい。たとえば、スーパーポイントの表面は、当技術分野でそれ自体が公知のとおり、局所的な座標参照系（ＬＲＦ）推定によって取得してもよく、たとえば、参照により本明細書に組み込まれる参照文献「J. Yang et. al., “Toward the Repeatability and Robustness of the Local Reference Frame for 3D Shape Matching： An Evaluation”, in IEEE Transactions on Image Processing, vol. 27, no. 8, pp. 3766-3781, Aug. 2018」で実施されているＬＲＦ推定であってもよい。

クエリ内のスーパーポイントのセットからグラフを計算するための方法は、グラフの提供に加えて、次に、１つ以上のグラフを形成するステップを含む。各グラフにはノードとエッジがあり、各エッジは２つのノードを接続する。各ノードは第１のスーパーポイントを表す。各エッジは、エッジが接続するノードによって表される２つのスーパーポイント間のジオメトリー関係を表す。ジオメトリー関係は、提供されたグラフのジオメトリー関係と同じ性質のものであってよく、たとえば、２つのスーパーポイントの相対的な位置及び／又は向きであってもよい。１つ以上のグラフの形成は、たとえば全グラフに対して同時、又は、グラフ１つずつに対して、各グラフのエッジを構築して実行される。構築された各エッジは、２つのノード（つまり、マッチングした第１のスーパーポイントをそれぞれ表す）を接続する。構築された各エッジは、第２のスーパーポイントのグラフのエッジのジオメトリー属性と同様のジオメトリー属性を１つ以上有する。たとえば、エッジの構築は、提供されたグラフのサブグラフを識別し、当該サブグラフを第１のスーパーポイントに関して、たとえばボトムアップ方式で再構成するステップを含んでもよい。

具体的には、エッジの構築は、マッチングした第１のスーパーポイントを繰り返し探索し、探索した第１のスーパーポイントごとに、探索した第１のスーパーポイントを表すノードを別の第１のスーパーポイントを表す別のノードに接続する１つ以上の妥当なエッジを見つけるステップを含んでもよい。「妥当なエッジ」とは、提供されたグラフにおいて、２つの第１のスーパーポイントとマッチングする２つの第２のスーパーポイントを表すノード２つを接続する、エッジの属性と、一致する属性を持つエッジを意味する。エッジを見つけるステップは、エッジが構築された場合に、当該エッジが、提供されたグラフに存在し、２つの第１のスーパーポイント（構築されていたらエッジによって接続される）とマッチングする２つの第２のスーパーポイントを表すノード２つを接続するエッジと同様の属性を持つかどうかを評価するステップを含んでもよい。同様の属性を持つ場合、見つけた結果として、エッジを構築する。したがって、エッジの構築は、それらの属性を計算するステップを含んでもよく、これは、提供されたグラフの場合と同じように実行されてもよい。「同様の属性」又は「一致する属性」とは、例において、属性が、等しい若しくは実質的に等しい、又は、その差（たとえば、距離及び／又は比率によって測定される差）が事前定義された（たとえばクエリ内の点の数に関して定義された）閾値よりも低いことを意味する。妥当なエッジを見つけるステップは、たとえば、クエリの２つのスーパーポイント間の最大妥当距離よりも小さい（又はクエリの予想最大サイズよりも小さい）距離で離れているスーパーポイントのエッジのみを比較することで最適化できる。

形成された各グラフは、エッジの構築から生じたものである（つまり、エッジの構築により、１つ以上のグラフが形成される）。各グラフは、第１のスーパーポイントのそれぞれのグループに対応し、つまり、グラフのノードは、グループのスーパーポイントを表す。このグラフのエッジは、提供されたグラフのエッジとそれぞれ類似している。

前述のグループ化するステップＳ８０の例、つまり、第２のスーパーポイントのグラフを提供し、第１のスーパーポイントの１つ以上のグラフを形成することによりグループ化するステップＳ８０の例は、３Ｄオブジェクトが非多関節オブジェクトであるか多関節オブジェクトであるかに関係なく、それぞれがクエリ内の３Ｄオブジェクトに類似した検索エリア内の３Ｄオブジェクトを表す第１のスーパーポイントのグループを形成できるため、特にロバストである。

別の例では、１つ以上のグループを決定するステップＳ８０は、オブジェクトの中心に対してハフ投票法を使用することによって実行してもよく、この方法は、参照により本明細書に組み込まれる参考文献「F. Tombari et. al.,“Hough Voting for 3D Object Recognition under Occlusion and Clutter”, IPSJ Transactions on Computer Vision and Application March 2012」で説明されている。この方法では、マッチングしたクエリの１つ以上のスーパーポイントに従って、検索エリアの各スーパーポイントに関して、投票によって可能性のある類似オブジェクトの中心を特定しようとする。これは、同じ方向と向きに投票するために、クエリのスーパーポイントと検索エリアのスーパーポイントの相対的な向きをキャプチャするステップを含んでもよい。このような相対的な向きは、ＬＲＦ推定を介して取得することができ、たとえば、参照により本明細書に組み込まれる参考文献「J. Yang et. al.,“Toward the Repeatability and Robustness of the Local Reference Frame for 3D Shape Matching： An Evaluation”, in IEEE Transactions on Image Processing, vol. 27, no. 8, pp. 3766-3781, Aug. 2018」で実施されているＬＲＦ推定が挙げられる。

上記で引用した参考文献「F. Tombari et. al.,“Hough Voting for 3D Object Recognition under Occlusion and Clutter”, IPSJ Transactions on Computer Vision and Application March 2012」から公知である通り、ハフ投票法は、検索エリアの３Ｄ空間をボクセルのセットに分解する３Ｄグリッドを定義するステップを含んでもよい。３Ｄグリッドの最適なサイズは、クエリのサイズとＬＲＦ投票を推定する精度に関して定義できる。一例では、ボクセルのサイズは次の式によって得ることができる：

式中、ｑｕｅｒｙｄｉｍｓは軸を揃えたときのクエリの寸法、ｆは中心の精度を決定するための係数（たとえば、ｆは０．２に等しくてよい）、ｃｏｒｒ_ＬＲＦは、特に大きなオブジェクトの場合に近似ＬＲＦの効果を軽減する係数（たとえば、共分散行列に基づく標準的なＬＲＦ実施の場合はｃｏｒｒ_ＬＲＦは１．５に等しくてもよい）である。

上記で引用した参考文献「F. Tombari et. al.,“Hough Voting for 3D Object Recognition under Occlusion and Clutter”, IPSJ Transactions on Computer Vision and Application March 2012」から公知である通り、ハフ投票法は、次に、たとえばクエリの異なるマッチングしたスーパーポイントの数に対してボクセルごとに数えることで、投票ボクセルを集計してもよい。これには、クエリ内のスーパーポイントの数に関して定義された閾値を使用して、クエリに類似する、可能性のあるオブジェクトの中心を表すボクセルを決定するステップが含まれてもよい。この閾値は、オブジェクトの特定の部分のターゲットとなり得る妥当なオクルージョンの数と変動性を制御する。したがって、個の閾値は、推論／検出中にユーザーが変更できるパラメーターとして直接アクセスできる。

図１０～図１２は、ハフ投票法を示している。図１０は、図２にすでに示した点群を示しており、スーパーポイントが抽出されている。これらのスーパーポイントはクエリを表す。及びクエリの中心および各スーパーポイントの中心からの距離を図１０に示す。たとえば、参照１００はそのような距離を示す。図１１は、図１０の点群によって表されるオブジェクトと類似したオブジェクトを形成する、検索エリアのスーパーポイントのグループを示す。図１１は、各スーパーポイントの中心から投じられた投票も示している。たとえば、参照１１０はそのような投票を示す。図１２は、ハフ投票法が回転を踏まえた投票を行うことを示す図である。

グループ化するステップＳ８０は、必ずしも本検出方法において実行されるとは限らないことを理解されたい。たとえば、第２の点群は１つのスーパーポイントのみで構成されていてもよく、その結果、グループ化は必要ない。

本検出方法は、決定された各グループのバウンディングボックスを決定するステップＳ９０をさらに含んでもよい。バウンディングボックスは、グループを包み込む／囲む。バウンディングボックスを決定するステップＳ９０は、各グループの中心の周りにバウンディングボックスを描くステップ、及び、たとえばその前にこのセンターを決定するステップを含んでもよい。各バウンディングボックスのサイズ及び／又は寸法は、第２の３Ｄ点群を囲む（たとえば、最小）バウンディングボックスのサイズに等しい、又は実質的に等しくてもよい。

グループ化するステップＳ８０がスーパーポイントのグラフを計算する前述の方法を使用する場合、バウンディングボックスは、それぞれが第１のスーパーポイントのそれぞれのグループを包み込むように描いてもよく、また、クエリを囲む（たとえば最小）バウンディングボックスのサイズに等しい又は実質的に等しいサイズを持っていてもよい。

グループ化するステップＳ８０がハフ投票法を使用する場合、妥当なオブジェクトの中心を決定する際に、バウンディングボックスを検索エリアに描いてもよく、妥当な中心を中心にして（クエリのバウンディングボックスと同じ寸法で）、及び／又は、妥当なオブジェクトの中心を表すボクセルに投票したスーパーポイントの周りに描いてもよい。

上述のとおり、グループ化するステップＳ８０が本検出方法で実行されない場合、決定するステップＳ９０は、マッチングした各スーパーポイントの周りにバウンディングボックスを決定するだけであってよいことを理解する。

決定するステップＳ９０はまた、第２の３Ｄ点群の周りのバウンディングボックスを決定してもよい。本検出方法は、決定された各バウンディングボックスを表示するステップをさらに含んでもよい。これにより、本検出方法のユーザーは、検索エリアで検出された３Ｄオブジェクトの視覚的なフィードバックを得ることができる。

本検出方法はさらに、各グループについてグループ内の第１のスーパーポイントと１つ以上の第２のスーパーポイントとの類似性を測定することによってグループの類似性スコアを決定するステップをさらに含んでもよい。各グループの類似性スコアは、当該グループと、１つ以上の第２のスーパーポイントによって形成されるスーパーポイントのグループ間のジオメトリー的類似性のスコアである。本検出方法は、そのようなジオメトリー的類似性のスコアのいずれかを計算することによって類似性スコアを決定してもよい。類似性は、用途によって変わってもよく、及び／又は、複数の手がかりに基づいていてよい。類似性スコアは、以下のうち１つ以上を含んでもよい：
－スーパーポイントマッチング類似性スコア（ｓｐｍｓ）：これは、第１のスーパーポイントの所定のグループの（クエリの識別されたスーパーポイントと）マッチングしたスーパーポイントのマッチングスコアを組み合わせたものである。ここで、ｎをクエリ内のスーパーポイントの数、ｍ_ｉを第１のスーパーポイントのグループとの各スーパーポイントのマッチングスコア（マッチングしない場合ｍ_ｉ＝０）とすると、スコアは次の式で求められる：

－色ヒストグラムの比較、たとえば、色情報が利用できる用途（消火器の検出など）の場合である。ヒストグラムは、バウンディングボックスに含まれる検索エリアのすべての点、又はマッチングしたスーパーポイントのみに対して計算してもよく、及び／又は、
－バウンディングボックスに含まれる検索エリアのすべての点、又はマッチングしたスーパーポイントのみに対して使用してもよい全体形状のディスクリプタ。

上記の類似性スコア（類似性メトリックとも呼ばれる）は、対象用途に応じて、全体の類似性スコアを取得するために一緒に使用してもよく、又は、個別に使用してもよい。

本検出方法は、各グループの類似性スコアの決定に加えて、グループの類似性スコアを表示するステップをさらに含んでもよい。本検出方法は、たとえば、すべてのグループの類似性スコアを同時に表示してもよく、たとえば類似性スコアのランクを降順に配置して表示する。本検出方法はまた、グループの類似性スコアの表示と同時に、グループの周り、及び任意で第２の点群の周りのバウンディングボックスを表示してもよい。本検出方法は、バウンディングボックスの寸法も表示してもよい。本方法はまた、各グループについて、グループの類似性スコアが類似性スコアの閾値を超えていることを視覚的に表示してもよい。

類似性スコアの閾値は、類似性のパーセンテージであってもよい。類似性スコアの閾値は、ユーザーが選択してもよい。たとえば、類似性スコアの閾値は、線とハンドル（任意の形状）を持つスライダーとしてユーザーに表示してもよく、線は閾値のすべての可能な値（たとえば、０％から１００％）を表し、ハンドルは、ユーザーが視覚的に（たとえば、ハンドルをクリック又はタッチして）選択でき、線に沿ってスライド（たとえば、ドラッグ＆ドロップ操作）して、類似性スコアの閾値の値を設定してもよい。スライダーは、本検出方法を用いるユーザーが使用するコンピュータのグラフィカルユーザーインターフェースに表示されるウィジェットの一部であってもよく、ウィジェットは、メモリに保存されたソフトウェアのコンポーネントである。ユーザーによる閾値の選択は、たとえば方法の初期ステップとして、本検出方法の実行前に行われてもよく、ユーザーは、希望する類似性スコアと、表示したいバウンディングボックスを事前に定義する。追加的又は代替的に、選択は、バウンディングボックスを決定するステップＳ９０の後に行われてよく、その結果、ユーザーは、十分な類似性スコアを有するグループを囲むバウンディングボックスのみを表示する。あるいは、ユーザーは、本方法の実行中に継続的に類似性スコアの閾値を選択してもよく、たとえば、ユーザーが類似性スコアの閾値を選択すると、本検出方法のステップが実行され、それぞれが閾値を超える類似性スコアを持つグループを囲むバウンディングボックスが検出され（つまり、グループが検出されて、バウンディングボックスが作成される）、ユーザーの選択の結果としてリアルタイムで表示され、ここで、バウンディングボックスの表示は、ユーザーの継続的な類似性スコアの閾値の変更に応じて、継続的かつリアルタイムに適応される。

図１３は、本検出方法のユーザが使用するコンピュータのグラフィカルユーザインターフェース上に表示されたウィジェット１３０のスクリーンショットを示している。ウィジェットでは、類似性スコアの閾値を選択できる。ウィジェット１３０は、列１３００に、それぞれに名前が割り当てられた第１のスーパーポイントの検出されたグループを表示する。ウィジェット１３０はさらに、各グループのバウンディングボックスの寸法の列１３０４を表示する。ウィジェット１３０はさらに、各グループの類似性スコアの列１３０２を表示する。ウィジェットはさらに、グループごとに、グループの類似性スコアが類似性スコアの閾値を上回っている（又は上回っていない）ことを示す視覚的な表示１３１０の列を表示する。ウィジェットは、線１３０８及びハンドル１３０６で構成されるスライダーを含む。ユーザーは、ハンドル１３０６を視覚的に選択し（たとえば、ハンドルをクリック又はタッチして）、線１３０８に沿って（たとえば、ドラッグ＆ドロップ操作により）スライドさせて、類似性スコア閾値の値を変更してもよい。図１３に示されているスクリーンショットでは、閾値は８４％に設定されている。

次に、学習方法と検出方法を組み込んだプロセスの実施について説明する。

この実施により、例ベースの３Ｄオブジェクト検出が可能になり、これは、所定の点群の例に類似した形状／オブジェクトを、より大きな点群において特定することにある。特定は、検出されたオブジェクトの周囲の３Ｄバウンディングボックスに基づいている。本実施では、検出にディープラーニング方式を採用している。この実施の評価基準は次のとおりである：
－入力として点群クエリ（例）とより大きな点群（検索エリア）が与えられる、
－実施は、クエリに類似した検索エリア内のオブジェクトの周囲に３Ｄバウンディングボックスを出力することを目指している。ただし、検出するオブジェクトの数は事前にはわからない。検索エリアには、選択したクエリに類似したオブジェクトが含まれていない可能性があることに留意する。
－例ベースのオブジェクト検出は、クラスにとらわれない、つまり、いかなるオブジェクトクエリでも類似したオブジェクトを検出できる必要がある。
－例ベースのオブジェクト検出は、状況にとらわれない、つまり、検出はオブジェクトの状況／背景（屋内、屋外など）に依存しない必要がある。点群の状況に関する特有の事前知識は使用しない。
－点群の表現は、ノイズ、オクルージョン、点分布に対してロバストであり、また、さまざまな種類の変換（回転など）やオブジェクトの位置（ロボットアームなどの多関節オブジェクト）に対して不変である必要がある。これは、局所的な学習ベースの表現の使用によって可能になる。
－実施は、必ずしもクエリを表す正確なインスタンスではない類似のオブジェクトを特定することを目的としている。実際に、クエリが検索エリアに属さない可能性もある。

本実施は汎用性を提供し、つまり、検出はオブジェクト（オフライントレーニング中に見えていないオブジェクト／状況でも）と点群の種類（点群の取得に特別な制約は必要ない）に依存しない。本実装は、単一の形状クエリを所与とて、部分的に類似した形状を特定できる（つまり、所定の形状クエリに対応する正確なインスタンスを特定するだけではない）。本実施により、点群内の形状を検出することを目的とした３Ｄ形状検出が可能になる。

本実施は、ある点群内において所定の形状クエリに類似するすべての形状に対して効率的かつ汎用性のある方法で３Ｄ検出を実行するための学習ベースのフレームワークを提供する。フレームワークの学習部分は、ディープラーニング手法（つまり、ディープニューラルネットワークを使用する）に基づいている。

本実施は、図１４に記載されたフレームワークに従う。図１４に示されるように、本実施は、オフライン段階及びオンライン段階を含む。
－オフライン段階：この段階は、スーパーポイントに基づいてエンコーダーをトレーニングする。これには２つの主要なステップが含まれる。この段階はユーザーにとってはトランスペアレントであることに留意する。２つの主要なステップは次のとおりである：
・・スーパーポイントの抽出。スーパーポイントは、所定の点群の局所部分を表す点のサブセットである。分離された点群オブジェクトから抽出されたスーパーポイントと、シーン内（つまり、他のオブジェクトも一緒）の同じオブジェクト間には一貫性がある。
・・スーパーポイントのトレーニングデータセットに基づくエンコーダー学習。これは、点群のＤＮＮベースモデルにある。
－オンライン段階：点群の形状クエリと点群シーンが与えられ、両方の入力からスーパーポイントが抽出され、オフライン段階で学習したエンコーダーを使用してエンコードされる。クエリのスーパーポイントのエンコードは、シーンのスーパーポイントのエンコードと比較される。１つのスーパーポイントのエンコードに最も類似したものがマッチングする。

オフライン学習
オフライン学習は、任意の３Ｄスーパーポイントを、意味のあるジオメトリー情報を提示する潜在表現に投影できるエンコーダーをトレーニングし、つまり、２つのスーパーポイントのエンコード間の距離が、これら２つのスーパーポイントのジオメトリー的類似性（たとえば、スーパーポイントの向きに関して）と高度に相関するようにする。距離は、コサイン類似性やユークリッド距離など、２つのベクトル間の類似度の尺度として定義される。
データセットの生成：スーパーポイント抽出

最初に、エンコーダーをトレーニングするためにスーパーポイントのデータセットが構築される。エンコーダーをトレーニングするためのスーパーポイントの多様性は、任意の３Ｄジオメトリーの意味のある投影を構築するエンコーダー能力に直接関係する。スーパーポイントのデータセットは、さまざまなジオメトリーを含む１つ以上の点群シーンの任意のセットから抽出できる。スーパーポイントの抽出は完全に教師なしであるため、点群シーンのアノテーションは必要ない。

点群シーン
トレーニングに使用される点群シーンが生成されるが、仮想スキャナーはシミュレートしない。さまざまなオブジェクトのＣＡＤモデルが与えられた場合、生成には、ＣＡＤモデルを点群に変換してから、それらを点群背景に挿入することが含まれる。オブジェクトの挿入中に、可能なオクルージョン（オブジェクト／オブジェクトオクルージョン又はオブジェクト／バックグラウンドオクルージョン）及び現実的な合成点群表現のための点密度の正規化が考慮される。学習／トレーニングには１００個のシーンが使用される。

スーパーポイント抽出
本実施では、前述のように、スーパーポイント抽出にジオメトリーベースの方法を使用する。このような方法は興味深い特徴を示す。スーパーポイントが通常点群の１つの一様な部分にのみ対応する（隣接グラフで得られるカットのため）という事実は、その後の処理上より便利である、つまりこれは通常、スーパーポイントが、カットの正則化の重みに応じて、単一オブジェクトの一部であることを意味する。これにより、本実施に少なくとも２つの興味深い特性が提供される：
－スーパーポイントの抽出が、分離された点群オブジェクトから抽出されたスーパーポイントと、シーン内（つまり、他のオブジェクトも一緒）の同じオブジェクト（又は類似オブジェクト）から抽出されたスーパーポイント間で非常に一貫している、そして、
－このような方法で得られたスーパーポイントは、同様のジオメトリー的特性を持つ点を再グループ化するため、エンコーダーの学習ステップに必要な複雑さが単純化される。

エンコーダー学習
本実装で使用される損失は、再構成損失である。損失は、チャンファー損失であり、計算コストの観点から効率性を提供する。損失は、点のセット２つをＳ_１及びＳ_２としたとき、次の式によって与えられる：

入力として点群を消費し、回転に対して不変でありながらそれらを低次元空間に投影する任意のニューラルネットワークを使用でき、たとえば、参照により本明細書に組み込まれる参照文献「R. Spezialetti et/ al.“Learning an Effective Equivariant 3D Descriptor Without Supervision”, ICCV 2019」で議論されるものが挙げられる。本実施では、トレーニングは教師なしである。

モデルは、事前に生成したスーパーポイントのデータセットを使用してトレーニングされる。点群について考慮する特徴の数に応じて、モデルは対応する入力サイズでトレーニングされる。本実施では、ニューラルネットワークの入力サイズと一致するように、スーパーポイントの点の数をサブサンプリング又はアップサンプリングする。本実施の入力サイズは、スーパーポイントあたり点の数Ｎ＝１２８個であり、特徴は３Ｄ座標で、エンコードはＮ／２のサイズである。

オンライン推論
スーパーポイントのエンコードのマッチング
クエリと検索エリアのスーパーポイントのセットを取得すると、本実施は、検索エリアの各スーパーポイントとクエリの各スーパーポイント間の類似性を計算する。このステップは多大な時間を要する可能性があるため、無駄な比較を避けるために、本実施は次のフィルタリングを含んでいてもよい：
－参照により本明細書に組み込まれる参考文献「J. Yang et. al,“Toward the Repeatability and Robustness of the Local Reference Frame for 3D Shape Matching： An Evaluation”, in IEEE Transactions on Image Processing, vol. 27, no. 8, pp. 3766-3781, Aug. 2018」で議論されているような、ＬＲＦに投影されたスーパーポイント間の寸法比較。対応する軸ごとの寸法間の比率が１からかけ離れており、寸法ごとの差が特定の閾値よりも大きい場合、検索エリアのスーパーポイントは、クエリの所定のスーパーポイントの可能性のあるマッチング候補とは見なされない。言い換えれば、本実施は、寸法ｉごとに次を満たすよう目指している：

式中、LRFのスーパーポイントの各寸法ｉに対して、ｓｐｑ_ｄｉｍｉは、クエリのスーパーポイントの寸法ｉ、ｓｐｒｚ_ｄｉｍｉは検索エリアのスーパーポイントの寸法ｉ、ｄ_ｍａｘは２つのスーパーポイントのサイズ間の最大許容差（たとえば、２０ｃｍ）、ｒｍｉｎは最小許容比率（たとえば、０.２）、ｒｍａｘは最大許容比率（たとえば、４）である、及び／又は
－床又は最も近い支持面からの相対的な高さ。床（又は最も近い支持面）からのスーパーポイントの中心の高さの差が特定の閾値（たとえば３０ｃｍ）を超える場合、検索エリアのスーパーポイントは、クエリの所定のスーパーポイントの可能性のあるマッチング候補とは見なされない。最も近い支持面は、任意の場所検出アルゴリズムで検出できることに留意する（たとえば、各スーパーポイントに関して水平面に対する平面値）。

本実施で使用される類似度は、次の式で与えられるコサイン類似度である：

式中、ｅ_ｉ及びｅ_ｊは、２つのスーパーポイントのエンコードである。

エンコーダーに応じて、別の類似性メトリックを選択できることに留意する（たとえば、オートエンコーダーの潜在空間の正則化が強制される場合）。

本実施では、検索エリアのスーパーポイントは、類似性（コサイン類似度など）がエンコーダーの投影特性及びユーザーが望む類似性に関して定義された閾値を超えている場合、クエリのスーパーポイントとマッチングする。対象用途のために類似又は非類似とアノテーションが手動で付けられたスーパーポイントのセットを使用すると、類似しているとラベル付けされた２つのスーパーポイント間で取得される最小類似性を計算することにより、このような閾値を取得できる。本実施では、このような実験に基づいて、閾値は０．８に固定されている。

このステップの最後に、検索エリア内のｎ個のマッチングしたスーパーポイントのセット（ＳＰ_ｒｚ ^１，…，ＳＰ_ｒｚ ^ｎ）を、クエリ内のマッチングしたスーパーポイントとの対応するマッチングスコアｍｑ_ｉ（（ｍｑ_ｉ，…，ｍｑ_ｍ），…，（ｍｑ_ｉ，…，ｍｑ_ｋ））と一緒に取得する。

スーパーポイントのエンコードのグループ化
本実施のこのステップでは、マッチングしたスーパーポイントのセットから３Ｄバウンディングボックスを検出する。オブジェクトが１つのスーパーポイントのみで構成されている場合、マッチングしたスーパーポイントの周囲に直接バウンディングボックスの提案が描かれることに留意する。

このステップまでは、局所ディスクリプタ（スーパーポイントの特徴）を計算し、クエリと検索エリアの間で比較してきた。妥当なバウンディングボックスのセットを推測するために、クエリ内のスーパーポイントの（たとえば、クエリの中心などの参照点に対する）相対位置が使用される。

この相対位置は、オブジェクトの中心に対して前述したハフ投票法を使用することによって取得してもよい。あるいは、この相対位置は、前述した、クエリ内のスーパーポイントのセットからグラフを計算する方法を使用して取得してもよい。

このプロセスの実施は、バウンディングボックスの提案を出力する。類似性は用途又はオブジェクトに依存する可能性があるため、本実施には、提案に対して類似性の指示を追加することが含まれてもよい。これにより、ユーザーがクエリから検出されたオブジェクトをどの程度類似させたいかを制御できる。本方法は、たとえば、前述のとおり、図１３のウィジェット１３０の表示を含んでもよく、その結果、ユーザはこのウィジェットを使用して、図１３を参照して前述したように類似性スコアの閾値を設定してもよい。各検出結果は類似性スコア（類似率）に関連付けられており、ユーザーは閾値を選択して最も都合の良いものだけを保持できる。図１３のウィジェットでは、類似率として８４％の閾値が選択された。

この類似性は、用途によって異なる。次に、類似性は複数の手がかりに基づいていてもよい。本実施は、いくつかの方法を使用して、以下に列挙する、提案されたバウンディングボックス及び／又はマッチングしたスーパーポイントから取得可能な類似性メトリックを計算してもよい。これらの類似性メトリックは、対象用途に応じて、全体の類似性スコアを取得するために一緒に使用してもよく、又は、個別に使用してもよい。メトリックは次のとおりである：
－スーパーポイントマッチング類似性スコア（ｓｐｍｓ）：所定の提案に対して（クエリの識別されたスーパーポイントとの）マッチングしたスーパーポイントのマッチングスコアを組み合わせたものである。ｎをクエリ内のスーパーポイントの数、ｍ_ｉを提案内の各スーパーポイントのマッチングスコア（マッチングしない場合ｍ_ｉ＝０）とすると：

－色ヒストグラムの比較：ジオメトリー情報が十分でなく、色情報が利用できる特定の用途（消火器の検出など）に非常に便利である。これは、バウンディングボックスに含まれる検索エリアのすべての点、又はマッチングしたスーパーポイントのみに対して計算してもよい、及び、
－バウンディングボックスに含まれる検索エリアのすべての点、又はマッチングしたスーパーポイントのみに対して再度使用してもよい全体形状のディスクリプタ。

次に、本検出方法による３Ｄオブジェクトの検出の例を、図１５～１８を参照して説明する。この例は、たとえば、前述の学習方法と検出方法を組み込んだプロセスの実施により達成されてもよい。

図１５は、クエリが抽出された３Ｄオブジェクトのスクリーンショットを示している。３Ｄオブジェクトはゴミ箱／ダンプスターである。図１５は、ゴミ箱の周りのバウンディングボックスを示している。図１６は、ゴミ箱から抽出されたスーパーポイント、すなわちクエリを形成するスーパーポイントを示している。図１７は、検索エリア１７０を示している。図１７に示されるように、本検出方法の実行の結果として、検索エリア内のスーパーポイントのグループ１７２、１７４、及び１７６が検出される。これらのグループは、図１５のゴミ箱と類似したゴミ箱を表す。図１８は、検索エリア１７０で検出された１つの類似したゴミ箱の周りのバウンディングボックスの表示を示している。例示のために図１８にはバウンディングボックスが１つしか示されていないが、それ以上のバウンディングボックスが表示され得ることが理解される。

本学習方法、本検出方法、及びこれらの方法を組み込んだプロセスは、コンピュータ実装方法である。つまり、方法のステップ（又は実質的にすべてのステップ）が、少なくとも１台のコンピュータ又は任意の同様のシステムによって実行されることを意味する。したがって、本方法のステップは、可能性としては完全自動で、又は半自動で、コンピュータによって実行される。例では、本方法の少なくともいくつかのステップの始動は、ユーザーとコンピュータのインタラクションを介して実行されてもよい。必要なユーザーとコンピュータのインタラクションのレベルは、予測される自動化のレベルに依存し、ユーザーの希望を実施する必要性とバランスが取られてもよい。例では、このレベルはユーザー定義及び／又は事前に定義されてもよい。

本方法をコンピュータが実施する典型的な例は、この目的に適応したシステムで本方法を実行することである。システムは、メモリ及びグラフィカルユーザーインターフェース（ＧＵＩ）に結合したプロセッサを含んでもよく、メモリは、本方法を実行するための命令を含むコンピュータプログラムを記録している。メモリはデータベースを格納していてもよい。メモリは、そのような格納に適応したハードウェアであり、場合により物理的に異なる部品をいくつか含む（たとえば、プログラム用に１つ、場合によりデータベース用に１つ）。

図１９は、システムの一例を示しており、システムは、クライアントコンピュータシステムであり、例えば、ユーザーのワークステーションである。

この例のクライアントコンピュータは、内部通信ＢＵＳ１０００に接続された中央処理装置（ＣＰＵ）１０１０と、同じくＢＵＳに接続されたランダムアクセスメモリ（ＲＡＭ）１０７０とを備える。クライアントコンピュータはさらに、ＢＵＳに接続されたビデオランダムアクセスメモリ１１００と関連するグラフィックプロセッシングユニット（ＧＰＵ）１１１０を備えている。ビデオＲＡＭ１１００は、当技術分野ではフレームバッファとしても知られている。大容量記憶装置コントローラ１０２０は、ハードドライブ１０３０などの大容量記憶装置へのアクセスを管理する。コンピュータプログラムの命令及びデータを有形に具体化するのに適した大容量記憶装置にはあらゆる形態の不揮発性メモリが含まれ、例として、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリデバイスなどの半導体メモリデバイス、内蔵ハードディスクやリムーバブルディスクなどの磁気ディスク、光磁気ディスク、及びＣＤ－ＲＯＭディスク１０４０が挙げられる。前述したものはいずれも、特別に設計されたＡＳＩＣ（特定用途向け集積回路）によって補完されるか、又はその中に組み込まれてもよい。ネットワークアダプタ１０５０は、ネットワーク１０６０へのアクセスを管理する。クライアントコンピュータはまた、カーソル制御デバイス、キーボードなどのようなハプティックデバイス１０９０を含んでもよい。カーソル制御デバイスは、ユーザーがディスプレイ１０８０上の任意の所望の位置にカーソルを選択的に配置できるよう、クライアントコンピュータで使用される。さらに、カーソル制御デバイスにより、ユーザーはさまざまなコマンドを選択し、制御信号を入力することが可能となる。カーソル制御デバイスは、システムに制御信号を入力するための複数の信号生成装置を含む。通常、カーソル制御デバイスはマウスであってもよく、マウスのボタンは信号を生成するために使用される。代替的又は追加的に、クライアントコンピュータシステムは、感圧パッド、及び／又は感圧スクリーンを含んでもよい。

コンピュータプログラムは、コンピュータによって実行可能な命令を含んでもよく、命令は、上記のシステムに本明細書の方法のうち１つ以上を実行させるための手段を含む。プログラムは、システムのメモリを含む任意のデータ記憶媒体に記録可能であってもよい。プログラムは、たとえば、デジタル電子回路、又はコンピュータハードウェア、ファームウェア、ソフトウェア、又はそれらの組み合わせに実装されてもよい。プログラムは、たとえば、プログラム可能なプロセッサによる実行のために機械可読記憶装置に有形に具体化された製品などの装置として実装されてもよい。本方法のステップは、入力データについて動作し、出力を生成して本方法の機能を実行するように命令のプログラムを実行する、プログラム可能なプロセッサによって実行されてもよい。したがって、プロセッサは、データ記憶システム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受信し、これらにデータ及び命令を送信するように、プログラム可能であるか結合されてもよい。アプリケーションプログラムは、必要に応じて、高レベルの手続き型プログラミング言語又はオブジェクト指向プログラミング言語、あるいはアセンブリ言語又は機械語で実施されてもよい。いずれの場合も、言語はコンパイル型又はインタプリタ型言語であってもよい。プログラムは、フルインストールプログラム又は更新プログラムであってもよい。いずれにせよ、システム上にでのプログラムの適用は、本方法を実行するための命令をもたらす。

Claims

３Ｄ点群のスーパーポイントを潜在ベクトルにエンコードするように構成されるニューラルネットワークを学習させるための、機械学習のコンピュータ実装方法であって、
－スーパーポイントのデータセットを提供するステップ（Ｓ１０～Ｓ２０）であって、ここで、前記スーパーポイントはそれぞれ、前記３Ｄ点群の点のセットであり、前記点のセットは、オブジェクトの少なくとも一部を表す、前記提供するステップ（Ｓ１０～Ｓ２０）、及び、
－前記スーパーポイントのデータセットに基づいて前記ニューラルネットワークを学習させるステップ（Ｓ３０）であって、ここで、前記学習させるステップは、２つのスーパーポイント間の誤差にペナルティを課す損失を最小化するステップを含む、前記学習させるステップ（Ｓ３０）
を含む方法。
前記損失が再構成損失であり、前記損失は、あるスーパーポイントと当該スーパーポイントの再構成の間の誤差にペナルティを課す、請求項１に記載の方法。
前記誤差が、前記スーパーポイントと、前記スーパーポイントの再構成の間の距離である、請求項２に記載の方法。
前記距離が、チャンファー（Chamfer）距離又はアースムーバー（Earth-Mover）距離である、請求項３に記載の方法。
前記学習させるステップが教師なし学習である、請求項１から４のいずれか一項に記載の方法。
請求項１から５のいずれか一項に記載の方法に従って学習可能なニューラルネットワーク。
請求項６に記載のニューラルネットワークを使用するコンピュータ実装方法であって、
－以下に示すもの
・３Ｄシーンを表す第１の３Ｄ点群の１つ以上の第１のスーパーポイント及び、
・３Ｄオブジェクトを表す第２の３Ｄ点群の１つ以上の第２のスーパーポイント、を提供するステップ（Ｓ４０～Ｓ５０）、
－前記ニューラルネットワークを適用することにより、前記１つ以上の第１のスーパーポイントの各々を、それぞれの第１の潜在ベクトルにエンコードし、前記１つ以上の第２のスーパーポイントの各々を、それぞれの第２の潜在ベクトルにエンコードするステップ（Ｓ６０）、及び、
－前記１つ以上の第１のスーパーポイントの各第１のスーパーポイントと、前記１つ以上の第２のスーパーポイントの各第２のスーパーポイント間の類似性を、前記各第１のスーパーポイント及び前記各第２のスーパーポイントに関して前記第１のスーパーポイントをエンコードするそれぞれの前記第１の潜在ベクトルと前記第２のスーパーポイントの各々をエンコードするそれぞれの前記第２の潜在ベクトル間の類似度を計算することで、決定するステップ（Ｓ７０）、を含む、前記方法。
前記１つ以上の第１のスーパーポイントを提供するステップ（Ｓ４０～Ｓ５０）が、
・前記第１の３Ｄ点群の１つ以上の初期スーパーポイントを提供するステップ、
・前記１つ以上の初期スーパーポイントをフィルタリングするステップ、を含み、前記フィルタリングするステップは、以下、
・・前記スーパーポイントの寸法と少なくとも１つの前記第２のスーパーポイントの寸法間の誤差が、事前定義の閾値よりも小さい、及び／又は、
・・前記スーパーポイントの位置と少なくとも１つの前記第２のスーパーポイントの位置間の誤差が、事前定義の閾値よりも小さい、を満たす初期スーパーポイントを、前記初期スーパーポイントの中からそれぞれ選択することによって実施され、
選択されたスーパーポイントが、前記１つ以上の第１のスーパーポイントである、請求項７に記載の方法。
前記フィルタリングするステップが、以下、
－前記スーパーポイントの各寸法と少なくとも１つの前記第２のスーパーポイントの対応寸法間の距離が、事前定義の閾値よりも小さい、及び／又は、
－前記スーパーポイントの各寸法と少なくとも１つの前記第２のスーパーポイントの対応寸法間の比率が、最大比率よりも小さく、最小比率よりも大きい、及び／又は、
－前記スーパーポイントの最も近い支持面からの相対的な高さと、少なくとも１つの前記第２のスーパーポイントの最も近い支持面からの相対的な高さとの差が、事前定義の閾値よりも小さい、
を満たす初期スーパーポイントを、前記初期スーパーポイントの中からそれぞれ選択するステップを含む、請求項８に記載の方法。
少なくとも１つの前記第２のスーパーポイントに対して事前定義の閾値よりも大きい類似性が決定されたそれぞれの第１のスーパーポイントの中から、第１のスーパーポイントの１つ以上のグループを決定するステップ（Ｓ８０）をさらに含み、ここで、前記第１のスーパーポイントのグループはそれぞれ、前記第２の３Ｄ点群に類似した形状を有する、請求項７から９のいずれか一項に記載の方法。
前記１つ以上のグループを決定するステップ（Ｓ８０）が、
－前記第２のスーパーポイントのグラフを提供するステップであって、ここで、前記第２のスーパーポイントのグラフは、複数のノードと複数のエッジを有し、前記複数のノードはそれぞれが第２のスーパーポイントを表し、前記複数のエッジはそれぞれ、エッジによって接続されるノードによって表される２つのスーパーポイント間のジオメトリー関係を表し、前記ジオメトリー関係のジオメトリー属性を１つ以上有する、前記第２のスーパーポイントのグラフを提供するステップと、
－それぞれが２つのノードを接続し、それぞれが前記第２のスーパーポイントのグラフのエッジのジオメトリー属性と類似したジオメトリー属性を１つ以上持つ、複数のエッジを構築することによって、それぞれが第１のスーパーポイントを表す複数のノードを各々が持つ、１つ以上のグラフを形成するステップであって、形成された各グラフは前記グループの各々に対応するステップ、とを含む、請求項１０に記載の方法。
前記各グループについて、グループ内の第１のスーパーポイントと前記１つ以上の第２のスーパーポイントとの類似性を測定することによって類似性スコアを決定するステップをさらに含む、請求項１１に記載の方法。
請求項１から５のいずれか一項に記載の方法及び／又は請求項７から１２のいずれか一項に記載の方法を実行するための命令を含むコンピュータプログラム。
請求項１３のコンピュータプログラム及び／又は請求項６に記載のニューラルネットワークを記録したコンピュータ可読データ記憶媒体を含むデバイス。
前記データ記憶媒体と結合したプロセッサをさらに備えた、請求項１４に記載のデバイス。